group-telegram.com/experiment_ai/68
Last Update:
Тесты тестов
Задача: вычитать и проверить набор из 150+ тестовых вопросов по математике и программированию не самого легкого уровня.
Прорешать все тесты, вычитать – дорогое муторное занятие. При этом тесты заказчику должны быть сданы без каких-либо ошибок!
ИИ может дать быструю содержательную обратную связь. Для этого сохраняем документ в pdf (так лучше считаются формулы, если нет tex / markdown), просим пошагово пройтись отдельно по каждому вопросу, самостоятельно ответить на него, проверить правильность вариантов ответов. По возможности лучше разбить файл на несколько небольших и обрабатывать их отдельно. Также рекомендуется один и тот же файл прогнать несколько раз, можно как с одной моделью, так и с разными (мы в основном все делаем с gpt o3 или gemini 2.5).
На выходе получаем отчет по каждому вопросу. На практике таким образом удалось отловить несколько опечаток и 3 реальные ошибки на раннем этапе проверки тестов. Пока что обязательно все равно делается ручная проверка 2-3 разными проверяющими, чтобы отловить сложность вопросов, четкость формулировок и тд.
Для полноценного внедрения и реальной экономической пользы пока что не хватает уверенности в точности и полноте ИИ – нужно разработать качественный валидационный тест и на нем отладить систему проверки тестов. Про оценку систем на основе LLM писали здесь.
BY Эксперименты с ИИ
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/experiment_ai/68