Как понять

ИИ и роботы в стройке

Как понять, что ваша модель умная, и обучить ее под свои нужды

Ирина Барская, руководитель службы аналитики и исследований в Яндексе, рассказала на Хабре, как оценивать качество работы генеративных моделей. Мы собрали главное для тех, кто пытается измерить «ум» созданной модели.

«Когда возникает вопрос о том, как измерить "ум" модели, первое, что приходит в голову, — протестировать её так же, как человека: с помощью школьных российских или американских тестов или специализированных профессиональных экзаменов. Так в мире LLM появилось немало бенчмарков: берём вопросы из определённой области с вариантами ответа, модель проходит тест, получаем быстрый автоматический вердикт и таким образом понимаем, насколько умная перед нами модель» — пояснила Ирина.

В 2024-м самым популярным стал бенчмарк MMLU — он охватывает 57 различных тем и содержит 16 тысяч вопросов. Человек может сдать этот тест на 90%. Но суть в том, что модель создают для решения четкой задачи, и она должна уметь это делать, а не просто решать задачки по математике. Чтобы протестировать любой навык модели, напишите свой бенчмарк: составьте тесты с вопросами и ответами, дайте их сначала людям, а потом уже модели. Так можно создать модель под свою структуру, культуру и клиентов.

Чему можно научить модель
⚫️Фактам.
⚫️Культурному коду — менталитету, шуточкам, сленгу. Этот пункт хорошо не упускать тем, кто создает интеллектуальных помощников в продажах. Юмор располагает, и чем более «живой» ваш чат-бот, тем приятнее с ним иметь дело.

«Так как YandexGPT используется для Нейро и Алисы, с которыми каждый день общаются миллионы пользователей, то нам важно, чтобы наша LLM знала "русскую душу": культурные отсылки, мемы, крылатые фразы. Ведь как иначе общаться с помощником, если он не отличает ватрушку от расстегая, не знает, как продолжить "Слабоумие и…", и не помнит любимые цитаты из рекламы 90-х», — рассказала Ирина

⚫️Противостоять провокациям.

⚫️Следовать формату и плану. То есть выполнять требования. Например, мы писали про сервис подбора офисов на ИИ. Пользователь давал вводные — бот выдавал варианты офисов. Только вот вместо четко ограниченного московского Садового кольца он предложил явное «Засадовье». Этого бы не случилось, если бы модель обучили следовать формату.

Что не так с бенчмарками
⚫️Они быстро устаревают — модели слишком быстро обучаются и сейчас уже решают на 85+ баллов сложных математических задач из бенчмарка MATH. Так что скоро все тесты потеряют свою актуальность.

⚫️Знания не равны интеллекту. Бенчмарки оценивают, как модель решает задачи, на которых уже обучена, а не способность обобщать. ИИ все еще не может думать, как человек. Так, в обычной задачке на логику про братьев и сестер Алисы модели запутались (таблица с ответами моделей в визуале к посту).

Как же тогда понять, умная модель или нет
Попросить об этом людей — обычных пользователей или ИИ-тренеров, которые специализируются в какой-то области знаний. Чем больше людей оценят точность ответов модели, тем более точной она станет. В Яндексе тренеры оценивают ответы LLM по пятибалльной шкале, а затем по критериям безопасности, логики, соответствия фактам и т.д. Тренеры проверяют модели, а руководители отделов проверяют тренеров — целая вертикаль, но иначе никуда.

В Яндексе под каждый навык собирают штат специалистов в определенной области. Так что ответ на вопрос, как понять, что модель умная, начинается именно с ее обучения. Хотите, чтобы она была компетентна в строительстве, недвижимости, проектировании, сметах, — соберите для обучения специалистов из этих сфер.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥7👏6🤔5⚡5❤4

www.group-telegram.com/us/best_in_development.com/1153

5.32K viewsedited Dec 18, 2024 at 12:24

group-telegram.com/best_in_development/1153

Create: 2024-12-18
Last Update: 2025-08-25 23:27:24

«Когда возникает вопрос о том, как измерить "ум" модели, первое, что приходит в голову, — протестировать её так же, как человека: с помощью школьных российских или американских тестов или специализированных профессиональных экзаменов. Так в мире LLM появилось немало бенчмарков: берём вопросы из определённой области с вариантами ответа, модель проходит тест, получаем быстрый автоматический вердикт и таким образом понимаем, насколько умная перед нами модель» — пояснила Ирина.

«Так как YandexGPT используется для Нейро и Алисы, с которыми каждый день общаются миллионы пользователей, то нам важно, чтобы наша LLM знала "русскую душу": культурные отсылки, мемы, крылатые фразы. Ведь как иначе общаться с помощником, если он не отличает ватрушку от расстегая, не знает, как продолжить "Слабоумие и…", и не помнит любимые цитаты из рекламы 90-х», — рассказала Ирина

Telegram | DID YOU KNOW?

Как понять