Telegram Group & Telegram Channel
С чего начать ЛЛМ-проект?

Возьмем два проекта с ЛЛМ:
1) ИИ-ассистент, отвечающий на вопросы школьников по конкретному курсу.
2) ИИ-корректор, подсвечивающий все ошибки в документе (в том числе, в таблицах и на картинках).

Опыт и здравый смысл подсказывают, что начать надо с обсуждения критериев успеха! Как система будет тестироваться, какие метрики нужно считать, какие пороговые значения для каждой из метрик?

Краткое описание используемых нашей командой Standard Data подходов:
1) ИИ-ассистент для школьников
- прогон ассистента на валидационном тестовом наборе вопросов с автоматической оценкой ответов по критериям с помощью подхода LLM as a judge;
- обратная связь от живых людей (обычно от преподавателей или методистов) в процессе ручного тестирования ассистента.
- итерируемся по обоим этапам.
Отдельный хороший вопрос, как корректно настроить метрики из автоматической оценки, чтобы они осмысленно бились с оценками от живых людей на реальном тесте — нетривиальная задача!

2) ИИ-корректор
- создание набора материалов для валидации. Например, для начала несколько страниц плотного текста из нужной сферы (юридическая, HR и тд). Разметка всех имеющихся ошибок и их местоположения в документе;
- поиск и вывод местоположения и типов всех ошибок в тексте с помощью ЛЛМ (или связка классических инструментов + ЛЛМ);
- подсчет нужных метрик вроде accuracy, recall, precision по отдельным типам ошибок.

Обратите внимание, что второй проект гораздо проще и однозначнее в плане оценки качества, хотя и там есть свои подводные камни (например, если ИИ-корректор еще должен работать с оформлением, стилем и тд)! А в первом очень много субъективной оценки диалогов, там почти невозможно на старте учесть все нужные критерии качества, как и рассмотреть всевозможные сценарии общения с школьником. Кроме того, обратите внимание, что процесс тестирования ИИ-ассистента подразумевает активное вовлечение живых тестировщиков, а это тоже отдельная нетривиальная задача на стороне заказчика –– привлечь нужное количество достаточно заинтересованных сотрудников!

В качестве завершения, ловите два полезных видео и короткий курс про оценку систем на основе ЛЛМ: видео 1, видео 2, короткий курс.



group-telegram.com/experiment_ai/36
Create:
Last Update:

С чего начать ЛЛМ-проект?

Возьмем два проекта с ЛЛМ:
1) ИИ-ассистент, отвечающий на вопросы школьников по конкретному курсу.
2) ИИ-корректор, подсвечивающий все ошибки в документе (в том числе, в таблицах и на картинках).

Опыт и здравый смысл подсказывают, что начать надо с обсуждения критериев успеха! Как система будет тестироваться, какие метрики нужно считать, какие пороговые значения для каждой из метрик?

Краткое описание используемых нашей командой Standard Data подходов:
1) ИИ-ассистент для школьников
- прогон ассистента на валидационном тестовом наборе вопросов с автоматической оценкой ответов по критериям с помощью подхода LLM as a judge;
- обратная связь от живых людей (обычно от преподавателей или методистов) в процессе ручного тестирования ассистента.
- итерируемся по обоим этапам.
Отдельный хороший вопрос, как корректно настроить метрики из автоматической оценки, чтобы они осмысленно бились с оценками от живых людей на реальном тесте — нетривиальная задача!

2) ИИ-корректор
- создание набора материалов для валидации. Например, для начала несколько страниц плотного текста из нужной сферы (юридическая, HR и тд). Разметка всех имеющихся ошибок и их местоположения в документе;
- поиск и вывод местоположения и типов всех ошибок в тексте с помощью ЛЛМ (или связка классических инструментов + ЛЛМ);
- подсчет нужных метрик вроде accuracy, recall, precision по отдельным типам ошибок.

Обратите внимание, что второй проект гораздо проще и однозначнее в плане оценки качества, хотя и там есть свои подводные камни (например, если ИИ-корректор еще должен работать с оформлением, стилем и тд)! А в первом очень много субъективной оценки диалогов, там почти невозможно на старте учесть все нужные критерии качества, как и рассмотреть всевозможные сценарии общения с школьником. Кроме того, обратите внимание, что процесс тестирования ИИ-ассистента подразумевает активное вовлечение живых тестировщиков, а это тоже отдельная нетривиальная задача на стороне заказчика –– привлечь нужное количество достаточно заинтересованных сотрудников!

В качестве завершения, ловите два полезных видео и короткий курс про оценку систем на основе ЛЛМ: видео 1, видео 2, короткий курс.

BY Эксперименты с ИИ


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/experiment_ai/36

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee.
from sg


Telegram Эксперименты с ИИ
FROM American