Telegram Group & Telegram Channel
С чего начать ЛЛМ-проект?

Возьмем два проекта с ЛЛМ:
1) ИИ-ассистент, отвечающий на вопросы школьников по конкретному курсу.
2) ИИ-корректор, подсвечивающий все ошибки в документе (в том числе, в таблицах и на картинках).

Опыт и здравый смысл подсказывают, что начать надо с обсуждения критериев успеха! Как система будет тестироваться, какие метрики нужно считать, какие пороговые значения для каждой из метрик?

Краткое описание используемых нашей командой Standard Data подходов:
1) ИИ-ассистент для школьников
- прогон ассистента на валидационном тестовом наборе вопросов с автоматической оценкой ответов по критериям с помощью подхода LLM as a judge;
- обратная связь от живых людей (обычно от преподавателей или методистов) в процессе ручного тестирования ассистента.
- итерируемся по обоим этапам.
Отдельный хороший вопрос, как корректно настроить метрики из автоматической оценки, чтобы они осмысленно бились с оценками от живых людей на реальном тесте — нетривиальная задача!

2) ИИ-корректор
- создание набора материалов для валидации. Например, для начала несколько страниц плотного текста из нужной сферы (юридическая, HR и тд). Разметка всех имеющихся ошибок и их местоположения в документе;
- поиск и вывод местоположения и типов всех ошибок в тексте с помощью ЛЛМ (или связка классических инструментов + ЛЛМ);
- подсчет нужных метрик вроде accuracy, recall, precision по отдельным типам ошибок.

Обратите внимание, что второй проект гораздо проще и однозначнее в плане оценки качества, хотя и там есть свои подводные камни (например, если ИИ-корректор еще должен работать с оформлением, стилем и тд)! А в первом очень много субъективной оценки диалогов, там почти невозможно на старте учесть все нужные критерии качества, как и рассмотреть всевозможные сценарии общения с школьником. Кроме того, обратите внимание, что процесс тестирования ИИ-ассистента подразумевает активное вовлечение живых тестировщиков, а это тоже отдельная нетривиальная задача на стороне заказчика –– привлечь нужное количество достаточно заинтересованных сотрудников!

В качестве завершения, ловите два полезных видео и короткий курс про оценку систем на основе ЛЛМ: видео 1, видео 2, короткий курс.
👍7👏32❤‍🔥1🕊1



group-telegram.com/experiment_ai/36
Create:
Last Update:

С чего начать ЛЛМ-проект?

Возьмем два проекта с ЛЛМ:
1) ИИ-ассистент, отвечающий на вопросы школьников по конкретному курсу.
2) ИИ-корректор, подсвечивающий все ошибки в документе (в том числе, в таблицах и на картинках).

Опыт и здравый смысл подсказывают, что начать надо с обсуждения критериев успеха! Как система будет тестироваться, какие метрики нужно считать, какие пороговые значения для каждой из метрик?

Краткое описание используемых нашей командой Standard Data подходов:
1) ИИ-ассистент для школьников
- прогон ассистента на валидационном тестовом наборе вопросов с автоматической оценкой ответов по критериям с помощью подхода LLM as a judge;
- обратная связь от живых людей (обычно от преподавателей или методистов) в процессе ручного тестирования ассистента.
- итерируемся по обоим этапам.
Отдельный хороший вопрос, как корректно настроить метрики из автоматической оценки, чтобы они осмысленно бились с оценками от живых людей на реальном тесте — нетривиальная задача!

2) ИИ-корректор
- создание набора материалов для валидации. Например, для начала несколько страниц плотного текста из нужной сферы (юридическая, HR и тд). Разметка всех имеющихся ошибок и их местоположения в документе;
- поиск и вывод местоположения и типов всех ошибок в тексте с помощью ЛЛМ (или связка классических инструментов + ЛЛМ);
- подсчет нужных метрик вроде accuracy, recall, precision по отдельным типам ошибок.

Обратите внимание, что второй проект гораздо проще и однозначнее в плане оценки качества, хотя и там есть свои подводные камни (например, если ИИ-корректор еще должен работать с оформлением, стилем и тд)! А в первом очень много субъективной оценки диалогов, там почти невозможно на старте учесть все нужные критерии качества, как и рассмотреть всевозможные сценарии общения с школьником. Кроме того, обратите внимание, что процесс тестирования ИИ-ассистента подразумевает активное вовлечение живых тестировщиков, а это тоже отдельная нетривиальная задача на стороне заказчика –– привлечь нужное количество достаточно заинтересованных сотрудников!

В качестве завершения, ловите два полезных видео и короткий курс про оценку систем на основе ЛЛМ: видео 1, видео 2, короткий курс.

BY Эксперименты с ИИ


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/experiment_ai/36

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. For tech stocks, “the main thing is yields,” Essaye said. Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform.
from us


Telegram Эксперименты с ИИ
FROM American