Telegram Group & Telegram Channel
С чего начать ЛЛМ-проект?

Возьмем два проекта с ЛЛМ:
1) ИИ-ассистент, отвечающий на вопросы школьников по конкретному курсу.
2) ИИ-корректор, подсвечивающий все ошибки в документе (в том числе, в таблицах и на картинках).

Опыт и здравый смысл подсказывают, что начать надо с обсуждения критериев успеха! Как система будет тестироваться, какие метрики нужно считать, какие пороговые значения для каждой из метрик?

Краткое описание используемых нашей командой Standard Data подходов:
1) ИИ-ассистент для школьников
- прогон ассистента на валидационном тестовом наборе вопросов с автоматической оценкой ответов по критериям с помощью подхода LLM as a judge;
- обратная связь от живых людей (обычно от преподавателей или методистов) в процессе ручного тестирования ассистента.
- итерируемся по обоим этапам.
Отдельный хороший вопрос, как корректно настроить метрики из автоматической оценки, чтобы они осмысленно бились с оценками от живых людей на реальном тесте — нетривиальная задача!

2) ИИ-корректор
- создание набора материалов для валидации. Например, для начала несколько страниц плотного текста из нужной сферы (юридическая, HR и тд). Разметка всех имеющихся ошибок и их местоположения в документе;
- поиск и вывод местоположения и типов всех ошибок в тексте с помощью ЛЛМ (или связка классических инструментов + ЛЛМ);
- подсчет нужных метрик вроде accuracy, recall, precision по отдельным типам ошибок.

Обратите внимание, что второй проект гораздо проще и однозначнее в плане оценки качества, хотя и там есть свои подводные камни (например, если ИИ-корректор еще должен работать с оформлением, стилем и тд)! А в первом очень много субъективной оценки диалогов, там почти невозможно на старте учесть все нужные критерии качества, как и рассмотреть всевозможные сценарии общения с школьником. Кроме того, обратите внимание, что процесс тестирования ИИ-ассистента подразумевает активное вовлечение живых тестировщиков, а это тоже отдельная нетривиальная задача на стороне заказчика –– привлечь нужное количество достаточно заинтересованных сотрудников!

В качестве завершения, ловите два полезных видео и короткий курс про оценку систем на основе ЛЛМ: видео 1, видео 2, короткий курс.



group-telegram.com/experiment_ai/36
Create:
Last Update:

С чего начать ЛЛМ-проект?

Возьмем два проекта с ЛЛМ:
1) ИИ-ассистент, отвечающий на вопросы школьников по конкретному курсу.
2) ИИ-корректор, подсвечивающий все ошибки в документе (в том числе, в таблицах и на картинках).

Опыт и здравый смысл подсказывают, что начать надо с обсуждения критериев успеха! Как система будет тестироваться, какие метрики нужно считать, какие пороговые значения для каждой из метрик?

Краткое описание используемых нашей командой Standard Data подходов:
1) ИИ-ассистент для школьников
- прогон ассистента на валидационном тестовом наборе вопросов с автоматической оценкой ответов по критериям с помощью подхода LLM as a judge;
- обратная связь от живых людей (обычно от преподавателей или методистов) в процессе ручного тестирования ассистента.
- итерируемся по обоим этапам.
Отдельный хороший вопрос, как корректно настроить метрики из автоматической оценки, чтобы они осмысленно бились с оценками от живых людей на реальном тесте — нетривиальная задача!

2) ИИ-корректор
- создание набора материалов для валидации. Например, для начала несколько страниц плотного текста из нужной сферы (юридическая, HR и тд). Разметка всех имеющихся ошибок и их местоположения в документе;
- поиск и вывод местоположения и типов всех ошибок в тексте с помощью ЛЛМ (или связка классических инструментов + ЛЛМ);
- подсчет нужных метрик вроде accuracy, recall, precision по отдельным типам ошибок.

Обратите внимание, что второй проект гораздо проще и однозначнее в плане оценки качества, хотя и там есть свои подводные камни (например, если ИИ-корректор еще должен работать с оформлением, стилем и тд)! А в первом очень много субъективной оценки диалогов, там почти невозможно на старте учесть все нужные критерии качества, как и рассмотреть всевозможные сценарии общения с школьником. Кроме того, обратите внимание, что процесс тестирования ИИ-ассистента подразумевает активное вовлечение живых тестировщиков, а это тоже отдельная нетривиальная задача на стороне заказчика –– привлечь нужное количество достаточно заинтересованных сотрудников!

В качестве завершения, ловите два полезных видео и короткий курс про оценку систем на основе ЛЛМ: видео 1, видео 2, короткий курс.

BY Эксперименты с ИИ


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/experiment_ai/36

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War." The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies.
from us


Telegram Эксперименты с ИИ
FROM American