Telegram Group & Telegram Channel
Разметка 100 000 финансовых новостей: с нуля до полного решения за 20 минут с помощью vide coding

Задача: есть набор новостей, которые необходимо разметить тегами по темам, существенно влияющим на компании из индекса S&P500.

Шаг 1: просим GPT топ релевантных тегов
Просим GPT сформировать список не более чем из 10 тегов для разметки новостей. Получаем:
- Corporate Earnings
- M&A
- Regulatory/Legal
- Technology/Innovation
- Global Macro/Geopolitics
- Financial Markets/Investmens
- Capital Flows/Financing
- Market Sentiment
- Emerging Trends
- Если ни один не подходит, то ставим Non-Financial


Шаг 2: Создаём Structured Output схему
Чтобы всегда получать нужный нам формат ответа от LLM, просим GPT задать жесткую схему Structured Output.


Шаг 3: С помощью GPT пишем код
Просим написать функцию, которая итеративно проходит по каждой новости из датасета и отдает набор тегов.
Тестируем, логи ошибок отправляем к GPT, дорабатываем код на основе его ответов. Через 5-10 минут отладки код уже полностью рабочий, отлично!


Результаты:
- Код и разметка готовы за 15-20 минут
- Средняя стоимость разметки новости по заголовку (GPT4o-mini): 0.033 ₽
- По полному тексту новости: 0.114 ₽
- Итого, весь набор из 100 000 новостей обходится от 3 330 ₽ (по заголовкам) до 11 500 ₽ (по полным текстам).

Не сравнить, конечно, с ручной разметкой, которая сильно дольше и дороже!


Что дальше?
В реальном проекте, конечно же, важно:
- добавить эталонную разметку, чтобы можно было быстро валидировать качество разметки на основе LLM;
- искать баланс между стоимостью и качеством. Ведь если в датасете 100к строк и разметить нужно один раз, то текущая стоимость приемлема, но если в датасете 1млн строк, или нужно обновлять теги динамически, то нужно уже придумывать другие решения.


Ссылка на Colab: здесь
Ссылка на Gitlab: здесь



group-telegram.com/experiment_ai/45
Create:
Last Update:

Разметка 100 000 финансовых новостей: с нуля до полного решения за 20 минут с помощью vide coding

Задача: есть набор новостей, которые необходимо разметить тегами по темам, существенно влияющим на компании из индекса S&P500.

Шаг 1: просим GPT топ релевантных тегов
Просим GPT сформировать список не более чем из 10 тегов для разметки новостей. Получаем:
- Corporate Earnings
- M&A
- Regulatory/Legal
- Technology/Innovation
- Global Macro/Geopolitics
- Financial Markets/Investmens
- Capital Flows/Financing
- Market Sentiment
- Emerging Trends
- Если ни один не подходит, то ставим Non-Financial


Шаг 2: Создаём Structured Output схему
Чтобы всегда получать нужный нам формат ответа от LLM, просим GPT задать жесткую схему Structured Output.


Шаг 3: С помощью GPT пишем код
Просим написать функцию, которая итеративно проходит по каждой новости из датасета и отдает набор тегов.
Тестируем, логи ошибок отправляем к GPT, дорабатываем код на основе его ответов. Через 5-10 минут отладки код уже полностью рабочий, отлично!


Результаты:
- Код и разметка готовы за 15-20 минут
- Средняя стоимость разметки новости по заголовку (GPT4o-mini): 0.033 ₽
- По полному тексту новости: 0.114 ₽
- Итого, весь набор из 100 000 новостей обходится от 3 330 ₽ (по заголовкам) до 11 500 ₽ (по полным текстам).

Не сравнить, конечно, с ручной разметкой, которая сильно дольше и дороже!


Что дальше?
В реальном проекте, конечно же, важно:
- добавить эталонную разметку, чтобы можно было быстро валидировать качество разметки на основе LLM;
- искать баланс между стоимостью и качеством. Ведь если в датасете 100к строк и разметить нужно один раз, то текущая стоимость приемлема, но если в датасете 1млн строк, или нужно обновлять теги динамически, то нужно уже придумывать другие решения.


Ссылка на Colab: здесь
Ссылка на Gitlab: здесь

BY Эксперименты с ИИ




Share with your friend now:
group-telegram.com/experiment_ai/45

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. For tech stocks, “the main thing is yields,” Essaye said. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. I want a secure messaging app, should I use Telegram?
from us


Telegram Эксперименты с ИИ
FROM American