Telegram Group & Telegram Channel
Разметка 100 000 финансовых новостей: с нуля до полного решения за 20 минут с помощью vide coding

Задача: есть набор новостей, которые необходимо разметить тегами по темам, существенно влияющим на компании из индекса S&P500.

Шаг 1: просим GPT топ релевантных тегов
Просим GPT сформировать список не более чем из 10 тегов для разметки новостей. Получаем:
- Corporate Earnings
- M&A
- Regulatory/Legal
- Technology/Innovation
- Global Macro/Geopolitics
- Financial Markets/Investmens
- Capital Flows/Financing
- Market Sentiment
- Emerging Trends
- Если ни один не подходит, то ставим Non-Financial


Шаг 2: Создаём Structured Output схему
Чтобы всегда получать нужный нам формат ответа от LLM, просим GPT задать жесткую схему Structured Output.


Шаг 3: С помощью GPT пишем код
Просим написать функцию, которая итеративно проходит по каждой новости из датасета и отдает набор тегов.
Тестируем, логи ошибок отправляем к GPT, дорабатываем код на основе его ответов. Через 5-10 минут отладки код уже полностью рабочий, отлично!


Результаты:
- Код и разметка готовы за 15-20 минут
- Средняя стоимость разметки новости по заголовку (GPT4o-mini): 0.033 ₽
- По полному тексту новости: 0.114 ₽
- Итого, весь набор из 100 000 новостей обходится от 3 330 ₽ (по заголовкам) до 11 500 ₽ (по полным текстам).

Не сравнить, конечно, с ручной разметкой, которая сильно дольше и дороже!


Что дальше?
В реальном проекте, конечно же, важно:
- добавить эталонную разметку, чтобы можно было быстро валидировать качество разметки на основе LLM;
- искать баланс между стоимостью и качеством. Ведь если в датасете 100к строк и разметить нужно один раз, то текущая стоимость приемлема, но если в датасете 1млн строк, или нужно обновлять теги динамически, то нужно уже придумывать другие решения.


Ссылка на Colab: здесь
Ссылка на Gitlab: здесь
👍83🙏2🤔1🕊1



group-telegram.com/experiment_ai/45
Create:
Last Update:

Разметка 100 000 финансовых новостей: с нуля до полного решения за 20 минут с помощью vide coding

Задача: есть набор новостей, которые необходимо разметить тегами по темам, существенно влияющим на компании из индекса S&P500.

Шаг 1: просим GPT топ релевантных тегов
Просим GPT сформировать список не более чем из 10 тегов для разметки новостей. Получаем:
- Corporate Earnings
- M&A
- Regulatory/Legal
- Technology/Innovation
- Global Macro/Geopolitics
- Financial Markets/Investmens
- Capital Flows/Financing
- Market Sentiment
- Emerging Trends
- Если ни один не подходит, то ставим Non-Financial


Шаг 2: Создаём Structured Output схему
Чтобы всегда получать нужный нам формат ответа от LLM, просим GPT задать жесткую схему Structured Output.


Шаг 3: С помощью GPT пишем код
Просим написать функцию, которая итеративно проходит по каждой новости из датасета и отдает набор тегов.
Тестируем, логи ошибок отправляем к GPT, дорабатываем код на основе его ответов. Через 5-10 минут отладки код уже полностью рабочий, отлично!


Результаты:
- Код и разметка готовы за 15-20 минут
- Средняя стоимость разметки новости по заголовку (GPT4o-mini): 0.033 ₽
- По полному тексту новости: 0.114 ₽
- Итого, весь набор из 100 000 новостей обходится от 3 330 ₽ (по заголовкам) до 11 500 ₽ (по полным текстам).

Не сравнить, конечно, с ручной разметкой, которая сильно дольше и дороже!


Что дальше?
В реальном проекте, конечно же, важно:
- добавить эталонную разметку, чтобы можно было быстро валидировать качество разметки на основе LLM;
- искать баланс между стоимостью и качеством. Ведь если в датасете 100к строк и разметить нужно один раз, то текущая стоимость приемлема, но если в датасете 1млн строк, или нужно обновлять теги динамически, то нужно уже придумывать другие решения.


Ссылка на Colab: здесь
Ссылка на Gitlab: здесь

BY Эксперименты с ИИ




Share with your friend now:
group-telegram.com/experiment_ai/45

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Some privacy experts say Telegram is not secure enough The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours.
from tr


Telegram Эксперименты с ИИ
FROM American