Telegram Group & Telegram Channel
Тесты тестов

Задача: вычитать и проверить набор из 150+ тестовых вопросов по математике и программированию не самого легкого уровня.

Прорешать все тесты, вычитать – дорогое муторное  занятие. При этом тесты заказчику должны быть сданы без каких-либо ошибок!

ИИ может дать быструю содержательную обратную связь. Для этого сохраняем документ в pdf (так лучше считаются формулы, если нет tex / markdown), просим пошагово пройтись отдельно по каждому вопросу, самостоятельно ответить на него, проверить правильность вариантов ответов. По возможности лучше разбить файл на несколько небольших и обрабатывать их отдельно. Также рекомендуется один и тот же файл прогнать несколько раз, можно как с одной моделью, так и с разными (мы в основном все делаем с gpt o3 или gemini 2.5). 

На выходе получаем отчет по каждому вопросу. На практике таким образом удалось отловить несколько опечаток и 3 реальные ошибки на раннем этапе проверки тестов. Пока что обязательно все равно делается ручная проверка 2-3 разными проверяющими, чтобы отловить сложность вопросов, четкость формулировок и тд. 

Для полноценного внедрения и реальной экономической пользы пока что не хватает уверенности в точности и полноте ИИ – нужно разработать качественный валидационный тест и на нем отладить систему проверки тестов. Про оценку систем на основе LLM писали здесь.



group-telegram.com/experiment_ai/68
Create:
Last Update:

Тесты тестов

Задача: вычитать и проверить набор из 150+ тестовых вопросов по математике и программированию не самого легкого уровня.

Прорешать все тесты, вычитать – дорогое муторное  занятие. При этом тесты заказчику должны быть сданы без каких-либо ошибок!

ИИ может дать быструю содержательную обратную связь. Для этого сохраняем документ в pdf (так лучше считаются формулы, если нет tex / markdown), просим пошагово пройтись отдельно по каждому вопросу, самостоятельно ответить на него, проверить правильность вариантов ответов. По возможности лучше разбить файл на несколько небольших и обрабатывать их отдельно. Также рекомендуется один и тот же файл прогнать несколько раз, можно как с одной моделью, так и с разными (мы в основном все делаем с gpt o3 или gemini 2.5). 

На выходе получаем отчет по каждому вопросу. На практике таким образом удалось отловить несколько опечаток и 3 реальные ошибки на раннем этапе проверки тестов. Пока что обязательно все равно делается ручная проверка 2-3 разными проверяющими, чтобы отловить сложность вопросов, четкость формулировок и тд. 

Для полноценного внедрения и реальной экономической пользы пока что не хватает уверенности в точности и полноте ИИ – нужно разработать качественный валидационный тест и на нем отладить систему проверки тестов. Про оценку систем на основе LLM писали здесь.

BY Эксперименты с ИИ


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/experiment_ai/68

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

NEWS "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government.
from tw


Telegram Эксперименты с ИИ
FROM American