Telegram Group & Telegram Channel
С чего начать ЛЛМ-проект?

Возьмем два проекта с ЛЛМ:
1) ИИ-ассистент, отвечающий на вопросы школьников по конкретному курсу.
2) ИИ-корректор, подсвечивающий все ошибки в документе (в том числе, в таблицах и на картинках).

Опыт и здравый смысл подсказывают, что начать надо с обсуждения критериев успеха! Как система будет тестироваться, какие метрики нужно считать, какие пороговые значения для каждой из метрик?

Краткое описание используемых нашей командой Standard Data подходов:
1) ИИ-ассистент для школьников
- прогон ассистента на валидационном тестовом наборе вопросов с автоматической оценкой ответов по критериям с помощью подхода LLM as a judge;
- обратная связь от живых людей (обычно от преподавателей или методистов) в процессе ручного тестирования ассистента.
- итерируемся по обоим этапам.
Отдельный хороший вопрос, как корректно настроить метрики из автоматической оценки, чтобы они осмысленно бились с оценками от живых людей на реальном тесте — нетривиальная задача!

2) ИИ-корректор
- создание набора материалов для валидации. Например, для начала несколько страниц плотного текста из нужной сферы (юридическая, HR и тд). Разметка всех имеющихся ошибок и их местоположения в документе;
- поиск и вывод местоположения и типов всех ошибок в тексте с помощью ЛЛМ (или связка классических инструментов + ЛЛМ);
- подсчет нужных метрик вроде accuracy, recall, precision по отдельным типам ошибок.

Обратите внимание, что второй проект гораздо проще и однозначнее в плане оценки качества, хотя и там есть свои подводные камни (например, если ИИ-корректор еще должен работать с оформлением, стилем и тд)! А в первом очень много субъективной оценки диалогов, там почти невозможно на старте учесть все нужные критерии качества, как и рассмотреть всевозможные сценарии общения с школьником. Кроме того, обратите внимание, что процесс тестирования ИИ-ассистента подразумевает активное вовлечение живых тестировщиков, а это тоже отдельная нетривиальная задача на стороне заказчика –– привлечь нужное количество достаточно заинтересованных сотрудников!

В качестве завершения, ловите два полезных видео и короткий курс про оценку систем на основе ЛЛМ: видео 1, видео 2, короткий курс.



group-telegram.com/experiment_ai/36
Create:
Last Update:

С чего начать ЛЛМ-проект?

Возьмем два проекта с ЛЛМ:
1) ИИ-ассистент, отвечающий на вопросы школьников по конкретному курсу.
2) ИИ-корректор, подсвечивающий все ошибки в документе (в том числе, в таблицах и на картинках).

Опыт и здравый смысл подсказывают, что начать надо с обсуждения критериев успеха! Как система будет тестироваться, какие метрики нужно считать, какие пороговые значения для каждой из метрик?

Краткое описание используемых нашей командой Standard Data подходов:
1) ИИ-ассистент для школьников
- прогон ассистента на валидационном тестовом наборе вопросов с автоматической оценкой ответов по критериям с помощью подхода LLM as a judge;
- обратная связь от живых людей (обычно от преподавателей или методистов) в процессе ручного тестирования ассистента.
- итерируемся по обоим этапам.
Отдельный хороший вопрос, как корректно настроить метрики из автоматической оценки, чтобы они осмысленно бились с оценками от живых людей на реальном тесте — нетривиальная задача!

2) ИИ-корректор
- создание набора материалов для валидации. Например, для начала несколько страниц плотного текста из нужной сферы (юридическая, HR и тд). Разметка всех имеющихся ошибок и их местоположения в документе;
- поиск и вывод местоположения и типов всех ошибок в тексте с помощью ЛЛМ (или связка классических инструментов + ЛЛМ);
- подсчет нужных метрик вроде accuracy, recall, precision по отдельным типам ошибок.

Обратите внимание, что второй проект гораздо проще и однозначнее в плане оценки качества, хотя и там есть свои подводные камни (например, если ИИ-корректор еще должен работать с оформлением, стилем и тд)! А в первом очень много субъективной оценки диалогов, там почти невозможно на старте учесть все нужные критерии качества, как и рассмотреть всевозможные сценарии общения с школьником. Кроме того, обратите внимание, что процесс тестирования ИИ-ассистента подразумевает активное вовлечение живых тестировщиков, а это тоже отдельная нетривиальная задача на стороне заказчика –– привлечь нужное количество достаточно заинтересованных сотрудников!

В качестве завершения, ловите два полезных видео и короткий курс про оценку систем на основе ЛЛМ: видео 1, видео 2, короткий курс.

BY Эксперименты с ИИ


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/experiment_ai/36

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments.
from us


Telegram Эксперименты с ИИ
FROM American