Telegram Group & Telegram Channel
Разметка 100 000 финансовых новостей: с нуля до полного решения за 20 минут с помощью vide coding

Задача: есть набор новостей, которые необходимо разметить тегами по темам, существенно влияющим на компании из индекса S&P500.

Шаг 1: просим GPT топ релевантных тегов
Просим GPT сформировать список не более чем из 10 тегов для разметки новостей. Получаем:
- Corporate Earnings
- M&A
- Regulatory/Legal
- Technology/Innovation
- Global Macro/Geopolitics
- Financial Markets/Investmens
- Capital Flows/Financing
- Market Sentiment
- Emerging Trends
- Если ни один не подходит, то ставим Non-Financial


Шаг 2: Создаём Structured Output схему
Чтобы всегда получать нужный нам формат ответа от LLM, просим GPT задать жесткую схему Structured Output.


Шаг 3: С помощью GPT пишем код
Просим написать функцию, которая итеративно проходит по каждой новости из датасета и отдает набор тегов.
Тестируем, логи ошибок отправляем к GPT, дорабатываем код на основе его ответов. Через 5-10 минут отладки код уже полностью рабочий, отлично!


Результаты:
- Код и разметка готовы за 15-20 минут
- Средняя стоимость разметки новости по заголовку (GPT4o-mini): 0.033 ₽
- По полному тексту новости: 0.114 ₽
- Итого, весь набор из 100 000 новостей обходится от 3 330 ₽ (по заголовкам) до 11 500 ₽ (по полным текстам).

Не сравнить, конечно, с ручной разметкой, которая сильно дольше и дороже!


Что дальше?
В реальном проекте, конечно же, важно:
- добавить эталонную разметку, чтобы можно было быстро валидировать качество разметки на основе LLM;
- искать баланс между стоимостью и качеством. Ведь если в датасете 100к строк и разметить нужно один раз, то текущая стоимость приемлема, но если в датасете 1млн строк, или нужно обновлять теги динамически, то нужно уже придумывать другие решения.


Ссылка на Colab: здесь
Ссылка на Gitlab: здесь



group-telegram.com/experiment_ai/45
Create:
Last Update:

Разметка 100 000 финансовых новостей: с нуля до полного решения за 20 минут с помощью vide coding

Задача: есть набор новостей, которые необходимо разметить тегами по темам, существенно влияющим на компании из индекса S&P500.

Шаг 1: просим GPT топ релевантных тегов
Просим GPT сформировать список не более чем из 10 тегов для разметки новостей. Получаем:
- Corporate Earnings
- M&A
- Regulatory/Legal
- Technology/Innovation
- Global Macro/Geopolitics
- Financial Markets/Investmens
- Capital Flows/Financing
- Market Sentiment
- Emerging Trends
- Если ни один не подходит, то ставим Non-Financial


Шаг 2: Создаём Structured Output схему
Чтобы всегда получать нужный нам формат ответа от LLM, просим GPT задать жесткую схему Structured Output.


Шаг 3: С помощью GPT пишем код
Просим написать функцию, которая итеративно проходит по каждой новости из датасета и отдает набор тегов.
Тестируем, логи ошибок отправляем к GPT, дорабатываем код на основе его ответов. Через 5-10 минут отладки код уже полностью рабочий, отлично!


Результаты:
- Код и разметка готовы за 15-20 минут
- Средняя стоимость разметки новости по заголовку (GPT4o-mini): 0.033 ₽
- По полному тексту новости: 0.114 ₽
- Итого, весь набор из 100 000 новостей обходится от 3 330 ₽ (по заголовкам) до 11 500 ₽ (по полным текстам).

Не сравнить, конечно, с ручной разметкой, которая сильно дольше и дороже!


Что дальше?
В реальном проекте, конечно же, важно:
- добавить эталонную разметку, чтобы можно было быстро валидировать качество разметки на основе LLM;
- искать баланс между стоимостью и качеством. Ведь если в датасете 100к строк и разметить нужно один раз, то текущая стоимость приемлема, но если в датасете 1млн строк, или нужно обновлять теги динамически, то нужно уже придумывать другие решения.


Ссылка на Colab: здесь
Ссылка на Gitlab: здесь

BY Эксперименты с ИИ




Share with your friend now:
group-telegram.com/experiment_ai/45

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. For tech stocks, “the main thing is yields,” Essaye said. However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors.
from ye


Telegram Эксперименты с ИИ
FROM American