Telegram Group & Telegram Channel
Разметка 100 000 финансовых новостей: с нуля до полного решения за 20 минут с помощью vide coding

Задача: есть набор новостей, которые необходимо разметить тегами по темам, существенно влияющим на компании из индекса S&P500.

Шаг 1: просим GPT топ релевантных тегов
Просим GPT сформировать список не более чем из 10 тегов для разметки новостей. Получаем:
- Corporate Earnings
- M&A
- Regulatory/Legal
- Technology/Innovation
- Global Macro/Geopolitics
- Financial Markets/Investmens
- Capital Flows/Financing
- Market Sentiment
- Emerging Trends
- Если ни один не подходит, то ставим Non-Financial


Шаг 2: Создаём Structured Output схему
Чтобы всегда получать нужный нам формат ответа от LLM, просим GPT задать жесткую схему Structured Output.


Шаг 3: С помощью GPT пишем код
Просим написать функцию, которая итеративно проходит по каждой новости из датасета и отдает набор тегов.
Тестируем, логи ошибок отправляем к GPT, дорабатываем код на основе его ответов. Через 5-10 минут отладки код уже полностью рабочий, отлично!


Результаты:
- Код и разметка готовы за 15-20 минут
- Средняя стоимость разметки новости по заголовку (GPT4o-mini): 0.033 ₽
- По полному тексту новости: 0.114 ₽
- Итого, весь набор из 100 000 новостей обходится от 3 330 ₽ (по заголовкам) до 11 500 ₽ (по полным текстам).

Не сравнить, конечно, с ручной разметкой, которая сильно дольше и дороже!


Что дальше?
В реальном проекте, конечно же, важно:
- добавить эталонную разметку, чтобы можно было быстро валидировать качество разметки на основе LLM;
- искать баланс между стоимостью и качеством. Ведь если в датасете 100к строк и разметить нужно один раз, то текущая стоимость приемлема, но если в датасете 1млн строк, или нужно обновлять теги динамически, то нужно уже придумывать другие решения.


Ссылка на Colab: здесь
Ссылка на Gitlab: здесь



group-telegram.com/experiment_ai/45
Create:
Last Update:

Разметка 100 000 финансовых новостей: с нуля до полного решения за 20 минут с помощью vide coding

Задача: есть набор новостей, которые необходимо разметить тегами по темам, существенно влияющим на компании из индекса S&P500.

Шаг 1: просим GPT топ релевантных тегов
Просим GPT сформировать список не более чем из 10 тегов для разметки новостей. Получаем:
- Corporate Earnings
- M&A
- Regulatory/Legal
- Technology/Innovation
- Global Macro/Geopolitics
- Financial Markets/Investmens
- Capital Flows/Financing
- Market Sentiment
- Emerging Trends
- Если ни один не подходит, то ставим Non-Financial


Шаг 2: Создаём Structured Output схему
Чтобы всегда получать нужный нам формат ответа от LLM, просим GPT задать жесткую схему Structured Output.


Шаг 3: С помощью GPT пишем код
Просим написать функцию, которая итеративно проходит по каждой новости из датасета и отдает набор тегов.
Тестируем, логи ошибок отправляем к GPT, дорабатываем код на основе его ответов. Через 5-10 минут отладки код уже полностью рабочий, отлично!


Результаты:
- Код и разметка готовы за 15-20 минут
- Средняя стоимость разметки новости по заголовку (GPT4o-mini): 0.033 ₽
- По полному тексту новости: 0.114 ₽
- Итого, весь набор из 100 000 новостей обходится от 3 330 ₽ (по заголовкам) до 11 500 ₽ (по полным текстам).

Не сравнить, конечно, с ручной разметкой, которая сильно дольше и дороже!


Что дальше?
В реальном проекте, конечно же, важно:
- добавить эталонную разметку, чтобы можно было быстро валидировать качество разметки на основе LLM;
- искать баланс между стоимостью и качеством. Ведь если в датасете 100к строк и разметить нужно один раз, то текущая стоимость приемлема, но если в датасете 1млн строк, или нужно обновлять теги динамически, то нужно уже придумывать другие решения.


Ссылка на Colab: здесь
Ссылка на Gitlab: здесь

BY Эксперименты с ИИ




Share with your friend now:
group-telegram.com/experiment_ai/45

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands. Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said.
from us


Telegram Эксперименты с ИИ
FROM American