Telegram Group & Telegram Channel
С чего начать ЛЛМ-проект?

Возьмем два проекта с ЛЛМ:
1) ИИ-ассистент, отвечающий на вопросы школьников по конкретному курсу.
2) ИИ-корректор, подсвечивающий все ошибки в документе (в том числе, в таблицах и на картинках).

Опыт и здравый смысл подсказывают, что начать надо с обсуждения критериев успеха! Как система будет тестироваться, какие метрики нужно считать, какие пороговые значения для каждой из метрик?

Краткое описание используемых нашей командой Standard Data подходов:
1) ИИ-ассистент для школьников
- прогон ассистента на валидационном тестовом наборе вопросов с автоматической оценкой ответов по критериям с помощью подхода LLM as a judge;
- обратная связь от живых людей (обычно от преподавателей или методистов) в процессе ручного тестирования ассистента.
- итерируемся по обоим этапам.
Отдельный хороший вопрос, как корректно настроить метрики из автоматической оценки, чтобы они осмысленно бились с оценками от живых людей на реальном тесте — нетривиальная задача!

2) ИИ-корректор
- создание набора материалов для валидации. Например, для начала несколько страниц плотного текста из нужной сферы (юридическая, HR и тд). Разметка всех имеющихся ошибок и их местоположения в документе;
- поиск и вывод местоположения и типов всех ошибок в тексте с помощью ЛЛМ (или связка классических инструментов + ЛЛМ);
- подсчет нужных метрик вроде accuracy, recall, precision по отдельным типам ошибок.

Обратите внимание, что второй проект гораздо проще и однозначнее в плане оценки качества, хотя и там есть свои подводные камни (например, если ИИ-корректор еще должен работать с оформлением, стилем и тд)! А в первом очень много субъективной оценки диалогов, там почти невозможно на старте учесть все нужные критерии качества, как и рассмотреть всевозможные сценарии общения с школьником. Кроме того, обратите внимание, что процесс тестирования ИИ-ассистента подразумевает активное вовлечение живых тестировщиков, а это тоже отдельная нетривиальная задача на стороне заказчика –– привлечь нужное количество достаточно заинтересованных сотрудников!

В качестве завершения, ловите два полезных видео и короткий курс про оценку систем на основе ЛЛМ: видео 1, видео 2, короткий курс.



group-telegram.com/experiment_ai/36
Create:
Last Update:

С чего начать ЛЛМ-проект?

Возьмем два проекта с ЛЛМ:
1) ИИ-ассистент, отвечающий на вопросы школьников по конкретному курсу.
2) ИИ-корректор, подсвечивающий все ошибки в документе (в том числе, в таблицах и на картинках).

Опыт и здравый смысл подсказывают, что начать надо с обсуждения критериев успеха! Как система будет тестироваться, какие метрики нужно считать, какие пороговые значения для каждой из метрик?

Краткое описание используемых нашей командой Standard Data подходов:
1) ИИ-ассистент для школьников
- прогон ассистента на валидационном тестовом наборе вопросов с автоматической оценкой ответов по критериям с помощью подхода LLM as a judge;
- обратная связь от живых людей (обычно от преподавателей или методистов) в процессе ручного тестирования ассистента.
- итерируемся по обоим этапам.
Отдельный хороший вопрос, как корректно настроить метрики из автоматической оценки, чтобы они осмысленно бились с оценками от живых людей на реальном тесте — нетривиальная задача!

2) ИИ-корректор
- создание набора материалов для валидации. Например, для начала несколько страниц плотного текста из нужной сферы (юридическая, HR и тд). Разметка всех имеющихся ошибок и их местоположения в документе;
- поиск и вывод местоположения и типов всех ошибок в тексте с помощью ЛЛМ (или связка классических инструментов + ЛЛМ);
- подсчет нужных метрик вроде accuracy, recall, precision по отдельным типам ошибок.

Обратите внимание, что второй проект гораздо проще и однозначнее в плане оценки качества, хотя и там есть свои подводные камни (например, если ИИ-корректор еще должен работать с оформлением, стилем и тд)! А в первом очень много субъективной оценки диалогов, там почти невозможно на старте учесть все нужные критерии качества, как и рассмотреть всевозможные сценарии общения с школьником. Кроме того, обратите внимание, что процесс тестирования ИИ-ассистента подразумевает активное вовлечение живых тестировщиков, а это тоже отдельная нетривиальная задача на стороне заказчика –– привлечь нужное количество достаточно заинтересованных сотрудников!

В качестве завершения, ловите два полезных видео и короткий курс про оценку систем на основе ЛЛМ: видео 1, видео 2, короткий курс.

BY Эксперименты с ИИ


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/experiment_ai/36

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events."
from hk


Telegram Эксперименты с ИИ
FROM American