group-telegram.com/best_in_development/1153
Create:
Last Update:
Last Update:
Как понять, что ваша модель умная, и обучить ее под свои нужды
Ирина Барская, руководитель службы аналитики и исследований в Яндексе, рассказала на Хабре, как оценивать качество работы генеративных моделей. Мы собрали главное для тех, кто пытается измерить «ум» созданной модели.
«Когда возникает вопрос о том, как измерить "ум" модели, первое, что приходит в голову, — протестировать её так же, как человека: с помощью школьных российских или американских тестов или специализированных профессиональных экзаменов. Так в мире LLM появилось немало бенчмарков: берём вопросы из определённой области с вариантами ответа, модель проходит тест, получаем быстрый автоматический вердикт и таким образом понимаем, насколько умная перед нами модель» — пояснила Ирина.
В 2024-м самым популярным стал бенчмарк MMLU — он охватывает 57 различных тем и содержит 16 тысяч вопросов. Человек может сдать этот тест на 90%. Но суть в том, что модель создают для решения четкой задачи, и она должна уметь это делать, а не просто решать задачки по математике. Чтобы протестировать любой навык модели, напишите свой бенчмарк: составьте тесты с вопросами и ответами, дайте их сначала людям, а потом уже модели. Так можно создать модель под свою структуру, культуру и клиентов.
Чему можно научить модель
«Так как YandexGPT используется для Нейро и Алисы, с которыми каждый день общаются миллионы пользователей, то нам важно, чтобы наша LLM знала "русскую душу": культурные отсылки, мемы, крылатые фразы. Ведь как иначе общаться с помощником, если он не отличает ватрушку от расстегая, не знает, как продолжить "Слабоумие и…", и не помнит любимые цитаты из рекламы 90-х», — рассказала Ирина
Что не так с бенчмарками
Как же тогда понять, умная модель или нет
Попросить об этом людей — обычных пользователей или ИИ-тренеров, которые специализируются в какой-то области знаний. Чем больше людей оценят точность ответов модели, тем более точной она станет. В Яндексе тренеры оценивают ответы LLM по пятибалльной шкале, а затем по критериям безопасности, логики, соответствия фактам и т.д. Тренеры проверяют модели, а руководители отделов проверяют тренеров — целая вертикаль, но иначе никуда.
В Яндексе под каждый навык собирают штат специалистов в определенной области. Так что ответ на вопрос, как понять, что модель умная, начинается именно с ее обучения. Хотите, чтобы она была компетентна в строительстве, недвижимости, проектировании, сметах, — соберите для обучения специалистов из этих сфер.