Telegram Group & Telegram Channel
Как понять, что ваша модель умная, и обучить ее под свои нужды

Ирина Барская, руководитель службы аналитики и исследований в Яндексе, рассказала на Хабре, как оценивать качество работы генеративных моделей. Мы собрали главное для тех, кто пытается измерить «ум» созданной модели.

«Когда возникает вопрос о том, как измерить "ум" модели, первое, что приходит в голову, — протестировать её так же, как человека: с помощью школьных российских или американских тестов или специализированных профессиональных экзаменов. Так в мире LLM появилось немало бенчмарков: берём вопросы из определённой области с вариантами ответа, модель проходит тест, получаем быстрый автоматический вердикт и таким образом понимаем, насколько умная перед нами модель» — пояснила Ирина.


В 2024-м самым популярным стал бенчмарк MMLU —  он охватывает 57 различных тем и содержит 16 тысяч вопросов. Человек может сдать этот тест на 90%. Но суть в том, что модель создают для решения четкой задачи, и она должна уметь это делать, а не просто решать задачки по математике. Чтобы протестировать любой навык модели, напишите свой бенчмарк: составьте тесты с вопросами и ответами, дайте их сначала людям, а потом уже модели. Так можно создать модель под свою структуру, культуру и клиентов.

Чему можно научить модель
⚫️Фактам.
⚫️Культурному коду — менталитету, шуточкам, сленгу. Этот пункт хорошо не упускать тем, кто создает интеллектуальных помощников в продажах. Юмор располагает, и чем более «живой» ваш чат-бот, тем приятнее с ним иметь дело.

«Так как YandexGPT используется для Нейро и Алисы, с которыми каждый день общаются миллионы пользователей, то нам важно, чтобы наша LLM знала "русскую душу": культурные отсылки, мемы, крылатые фразы. Ведь как иначе общаться с помощником, если он не отличает ватрушку от расстегая, не знает, как продолжить "Слабоумие и…", и не помнит любимые цитаты из рекламы 90-х», — рассказала Ирина


⚫️Противостоять провокациям.

⚫️Следовать формату и плану. То есть выполнять требования. Например, мы писали про сервис подбора офисов на ИИ. Пользователь давал вводные — бот выдавал варианты офисов. Только вот вместо четко ограниченного московского Садового кольца он предложил явное «Засадовье». Этого бы не случилось, если бы модель обучили следовать формату.

Что не так с бенчмарками
⚫️Они быстро устаревают — модели слишком быстро обучаются и сейчас уже решают на 85+ баллов сложных математических задач из бенчмарка MATH. Так что скоро все тесты потеряют свою актуальность.

⚫️Знания не равны интеллекту. Бенчмарки оценивают, как модель решает задачи, на которых уже обучена, а не способность обобщать. ИИ все еще не может думать, как человек. Так, в обычной задачке на логику про братьев и сестер Алисы модели запутались (таблица с ответами моделей в визуале к посту).

Как же тогда понять, умная модель или нет
Попросить об этом людей — обычных пользователей или ИИ-тренеров, которые специализируются в какой-то области знаний. Чем больше людей оценят точность ответов модели, тем более точной она станет. В Яндексе тренеры оценивают ответы LLM по пятибалльной шкале, а затем по критериям безопасности, логики, соответствия фактам и т.д. Тренеры проверяют модели, а руководители отделов проверяют тренеров — целая вертикаль, но иначе никуда.

В Яндексе под каждый навык собирают штат специалистов в определенной области. Так что ответ на вопрос, как понять, что модель умная, начинается именно с ее обучения. Хотите, чтобы она была компетентна в строительстве, недвижимости, проектировании, сметах, — соберите для обучения специалистов из этих сфер.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥7👏6🤔554



group-telegram.com/best_in_development/1153
Create:
Last Update:

Как понять, что ваша модель умная, и обучить ее под свои нужды

Ирина Барская, руководитель службы аналитики и исследований в Яндексе, рассказала на Хабре, как оценивать качество работы генеративных моделей. Мы собрали главное для тех, кто пытается измерить «ум» созданной модели.

«Когда возникает вопрос о том, как измерить "ум" модели, первое, что приходит в голову, — протестировать её так же, как человека: с помощью школьных российских или американских тестов или специализированных профессиональных экзаменов. Так в мире LLM появилось немало бенчмарков: берём вопросы из определённой области с вариантами ответа, модель проходит тест, получаем быстрый автоматический вердикт и таким образом понимаем, насколько умная перед нами модель» — пояснила Ирина.


В 2024-м самым популярным стал бенчмарк MMLU —  он охватывает 57 различных тем и содержит 16 тысяч вопросов. Человек может сдать этот тест на 90%. Но суть в том, что модель создают для решения четкой задачи, и она должна уметь это делать, а не просто решать задачки по математике. Чтобы протестировать любой навык модели, напишите свой бенчмарк: составьте тесты с вопросами и ответами, дайте их сначала людям, а потом уже модели. Так можно создать модель под свою структуру, культуру и клиентов.

Чему можно научить модель
⚫️Фактам.
⚫️Культурному коду — менталитету, шуточкам, сленгу. Этот пункт хорошо не упускать тем, кто создает интеллектуальных помощников в продажах. Юмор располагает, и чем более «живой» ваш чат-бот, тем приятнее с ним иметь дело.

«Так как YandexGPT используется для Нейро и Алисы, с которыми каждый день общаются миллионы пользователей, то нам важно, чтобы наша LLM знала "русскую душу": культурные отсылки, мемы, крылатые фразы. Ведь как иначе общаться с помощником, если он не отличает ватрушку от расстегая, не знает, как продолжить "Слабоумие и…", и не помнит любимые цитаты из рекламы 90-х», — рассказала Ирина


⚫️Противостоять провокациям.

⚫️Следовать формату и плану. То есть выполнять требования. Например, мы писали про сервис подбора офисов на ИИ. Пользователь давал вводные — бот выдавал варианты офисов. Только вот вместо четко ограниченного московского Садового кольца он предложил явное «Засадовье». Этого бы не случилось, если бы модель обучили следовать формату.

Что не так с бенчмарками
⚫️Они быстро устаревают — модели слишком быстро обучаются и сейчас уже решают на 85+ баллов сложных математических задач из бенчмарка MATH. Так что скоро все тесты потеряют свою актуальность.

⚫️Знания не равны интеллекту. Бенчмарки оценивают, как модель решает задачи, на которых уже обучена, а не способность обобщать. ИИ все еще не может думать, как человек. Так, в обычной задачке на логику про братьев и сестер Алисы модели запутались (таблица с ответами моделей в визуале к посту).

Как же тогда понять, умная модель или нет
Попросить об этом людей — обычных пользователей или ИИ-тренеров, которые специализируются в какой-то области знаний. Чем больше людей оценят точность ответов модели, тем более точной она станет. В Яндексе тренеры оценивают ответы LLM по пятибалльной шкале, а затем по критериям безопасности, логики, соответствия фактам и т.д. Тренеры проверяют модели, а руководители отделов проверяют тренеров — целая вертикаль, но иначе никуда.

В Яндексе под каждый навык собирают штат специалистов в определенной области. Так что ответ на вопрос, как понять, что модель умная, начинается именно с ее обучения. Хотите, чтобы она была компетентна в строительстве, недвижимости, проектировании, сметах, — соберите для обучения специалистов из этих сфер.

BY ИИ и роботы в стройке


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/best_in_development/1153

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers.
from us


Telegram ИИ и роботы в стройке
FROM American