Telegram Group Search
Forwarded from Al Talent Hub
🔸 Open Talks Special: Лидеры русскоязычного open source LLM в одном эфире.

5 февраля в 19:00 собираем ключевых независимых разработчиков опенсорсных русскоязычных LLM и говорим о том, что волнует AI-сообщество прямо сейчас:

➡️ Как создаются русскоязычные LLM и с какими вызовами сталкиваются их разработчики?

➡️Что ждет опенсорсные AI-решения в будущем?

➡️ Как DeepSeek меняет правила игры?

Спикеры:

🎤 Михаил Тихомиров – научный сотрудник НИВЦ МГУ, занимается адаптацией мультиязычных LLM, создатель Ruadapt➡️Топовая модель показывает 92 балла на балла на Ru Arena General

🎤 Илья Гусев – автор Сайги ➡️одной из самых скачиваемых русскоязычных моделей на HF, а также role-play бенчмарка PingPong

🎤 Александр Николич – один из авторов Rudalle и Kandinsky, создатель Vikhr models ➡️ одни из лучших моделей на русском языке до 20B параметров, один из самых популярных бенчмарков

🔸 Проведет эфир Павел Подкорытов, сооснователь AI Talent Hub и CEO Napoleon IT.

🤔 Не увидел важного вопроса в анонсе?

➡️ Регистрируйся и задай свой вопрос экспертам!

Приходи! Без тебя – не то 💘

#OpenTalks
#AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥161👍1
Forwarded from Vikhr models
⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing

Коллектив авторов: @LakoMoorDev @nlpwanderer
🔥5🥰2
Опрос показал, что 26% ждет адаптацию 14B модели, и вот мы ее подготовили - RuadaptQwen2.5-14B-Instruct 🎉
Провели модель через процедуру адаптации, отлаженную на 7B версиях. На подходе также версия с 1M контекстом (будет UPD к этому посту).

Метрики:
1) RuArenaGeneral (https://huggingface.co/spaces/Vikhrmodels/arenahardlb) - 88.63 (на одном уровне с RuadaptQwen2.5-7B-Lite-v1)
2) shlepa (https://huggingface.co/spaces/Vikhrmodels/small-shlepa-lb) - 0.477
3) MERA (0.522 с обычным системным промптом, 0.551 с кастомным)

Итого, по метрикам как будто не должно быть лучше, чем RuadaptQwen2.5-7B-Lite версия, но я что-то сильно в этом сомневаюсь, в частности, некоторые внутренние бенчи + mmlu (ru и en) лучше у 14B версии. Так что особенно будем рады отзывам на данную модель (а также и на другие модели из серии Ruadapt) с целью дальнейшего улучшения качества.

Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-Instruct
GGUF версия: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-instruct-GGUF

Модель на 1М контекст: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-Instruct-1M
GGUF версия: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-Instruct-1M-GGUF
🔥222
Первая экспериментальная Ruadapt ризонинг модель:
RuadaptQwen2.5-14B-R1-distill-preview-v1

Это адаптация модели deepseek-ai/DeepSeek-R1-Distill-Qwen-14B с SFT шагом после LEP на смеси датасетов kristaller486/Nebo-T1-Russian (все ру, 12-13 т.) и Egor-AI/CoT-XLang (2 т. случайных англ.) Во время SFT шага никаких системных промптов не использовалось, а рассуждения оборачиваются в <think> </think> теги. Модель иногда уходит в повторы, так что вооружаемся repetition_penalty в таких случаях.

Так как это ризонинг модель, а под рукой у меня нет датасетов для оценки качества подобных моделей, качество мы пока не оценивали. Если у кого-то есть бенчмарк / датасет на примете - пишите в комментариях.

В чем плюс данной модели - ризонинг идет стабильно на русском, без иероглифов в принципе, а скорость генерации русскоязычного текста повышена, так как это Ruadapt. Фидбек как всегда крайне приветстветствуется.

Временно (на вечер) поднял Space с данной моделькой, можно потестировать в нем:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5

Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1-GGUF
🔥247👏51
🔥RuadaptQwen2.5-32B-QWQ-Preview и RuadaptQwen2.5-32B-FuseO1-RQS-Preview - две новые Ruadapt ризонинг модели, полученные по нашей методологии адаптации с дополнительным SFT шагом после LEP. В отличие от 14B модели, ведут себя намного адекватнее и сильно реже уходят в цикл (с repetition_penalty=1.07 циклов пока что не встречал). Оценок качества, как и в прошлом случае, пока что никаких нет, но субъективное впечатление от моделей позитивное. Ближайшие сутки обе модели можно попробовать на HF Space.

UPD:
Спасибо @Kristaller за тестирование RudaptQwQ версии на kristaller486/aime2025-ru - результаты на данном датасете говорят о том, что качество ответов модели как минимум осталось на том же уровне!

UPD2:
FuseO1 версия дообучалась (SFT) на чат темплейте qwq, что не совсем корректно, модель будет обновлена в дальнейшем.

UPD3:
FuseO1 версия в репозитории и в HF Space обновлена, GGUF тоже.

HF Space:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5

Модели:
https://huggingface.co/RefalMachine/RuadaptQwen2.5-32B-QWQ-Preview
https://huggingface.co/RefalMachine/RuadaptQwen2.5-32B-FuseO1-RQS-Preview

GGUF:
https://huggingface.co/RefalMachine/RuadaptQwen2.5-32B-QWQ-Preview-GGUF
https://huggingface.co/RefalMachine/RuadaptQwen2.5-32B-FuseO1-RQS-Preview-GGUF
🔥177🍾2
Forwarded from Krist/Blog
AIME-2025-ru бенчмарк: промежуточные результаты.

AIME - это такой американский математический экзамен с задачами "олимпиадного уровня". После выхода o1-preview на нем стало модно тестировать модели рассуждения, потому что с классическими математическими бечмарками типа MATH-500 такие модели уже полностью решают. AIME 2025 это версия экзамена за 2025 год и она еще даже в теории не протекла ни в какие обучающие датасеты.

Я перевел вопросы из этого экзамена на русский язык через Gemini 2.0 Pro Exp и, конечно, перепроверил перевод вручную, благо вопросов там всего 15.

Это, скорее всего, первый бенчмарк для моделей рассуждения на русском языке. Сейчас я протестировал на этом бенчмарке 3 модели: RuadaptQwQ, RuadaptFuseO1 и DeepSeek-R1-Distill-Qwen-32B (буду тестировать ещё больше моделей в будущем). Результаты в таблице.

Методика тестирования такая же, как у товарищей из matharena.ai. Я делаю 4 генерации на 1 задачу: если все генерации содержат правильный ответ, то он помечается зеленым цветом; есть и правильные и неправильные ответы => цвет желтый; красный => все ответы неправильные.

Бенчмарк
👍10🔥7👏1🙏1
Forwarded from Vikhr models
Qwen2.5-7B-Instruct-Tool-Planning-v0.1

Первый vikhr обученный на Function Calling а так же Tool planing!
Модель обучена преимущественно на английском и это экспериментальный чекпоинт, используйте и пишите отзывы!

🔗модель
🔗датасет
🔥5👍3
Яндекс релизнули свои новые модели YandexGPT 5 (https://habr.com/ru/companies/yandex/articles/885218/):
1) 8B версия (foundational, базовая, не инстракт!) выложена в опенсорс, но под странной лицензией, хотя вряд ли лицензия остановит кого-либо. По метрикам заявляется, что модель SoTA для ру языка и это очень круто. Поверх данной модели уверен появится некоторое количество хороших инстракт версий. Потенциально подобные инстракт версии могут стать так же SoTA в своем весовом сегменте, но однозначно заранее сказать нельзя.

2) 32B версия, уже инструктивная, но, не выложена в опенсорс. Что примечательного и интересного лично для меня - судя по описанию на хабре, Яндекс применил по сути схожий с Ruadapt подход к построению своей YandexGPT 5 Pro - взяли Qwen2.5-32B и адаптировали с расширением токенизации (но однозначно сложно судить, мало подробностей про процедуру адаптации). Метрики +- на уровне исходного Qwen2.5-32B-Instruct, что в целом ожидаемо, нр жаль ее нет на общепризнанной арене Вихрей (Vikhrmodels/arenahardlb), чтобы можно было сравнить с Ruadapt версиями.

Очень круто, что Яндекс, вслед за Сбером и Т-Банком, также решил выложить свои наработки в опенсорс, и поделились информацией о том, как создают свои текущие модели (в рамках habr статьи). Но жаль, что не выложили какую-либо инстракт версию для 8B и что не выложили свою 32B версию, хотя она по сути адаптация уже существующего Qwen2.5-32B.
👍123🔥2
Выложил Сайгу на базе YandexGPT-5 Lite.

HF: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b
Кванты: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf

В полтора раза меньше Немо, лучше токенизация, а качество примерно то же: на ПингПонге чуть лучше Немо, на Арене чуть хуже.

Модель SFT + RL. В SFT долил диалогов из бота за последние полгода. RL делал с Вихрвёским SMPO, он гораздо стабильнее SimPO.

Визуально всё в порядке, в ранних версиях была проблема с повторами, но сейчас вроде всё хорошо.

Лицензия только фиговая 😭
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍1
Продолжаем релизить Ruadapt версии моделей Qwen2.5 и на этот раз мы адаптировали свежую ризонинг модель QwQ-32B. Модель показывает себя лучше, чем все предыдущие адаптации схожих моделей, но, к сожалению, несколько теряет в качестве решения мат. задач по сравнению с исходной версией (см. картинку, сравнение на русской версии aime-2024-1). Однако, так как модель все равно будет полезна за счет ускорения генерации русскоязычных ответов, то мы ее выкладываем. Уже имеются мысли, как улучшить качество адаптации ризонинг моделей:
1. У всех текущих 32B Ruadapt появились нежелательные числа, по сравнению с исходным токенайзером (у Qwen2.5 нет чисел больше 9 в токенайзере), в меньших моделях мы давно это уже поправили, но 32B версия еще на очереди,
2. На текущий момент после LEP идет этап SFT с длиной контекста только на 2тыс. токенов, чего в целом хватает для адаптации обычных инстракт моделей, но явно не достаточно для ризонинг версий.

Попробовать модель можно в ближайшие дни в Space.

Модель на HF: https://huggingface.co/RefalMachine/RuadaptQwen2.5-32B-QWQ-Beta
Space: https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen2.5-32B-QWQ-Beta-GGUF
🔥225👏4👍1
Всем привет! Рад сообщить о нашем новом релизе RuadaptQwen3-32B-Instruct 🎉. Это адаптированная версия Qwen3-32B, которая также является гибридным ризонером с режимом размышлений по-умолчанию.

Отличия текущего релиза от прошлых:

1. Версионирование: теперь версионирование моделей будет идти внутри одного репозитория, но в Versions будут отмечены даты и соответствующие коммиты, которые могут быть использованы, если кому-то больше понравится “прошлая версия”. Таким образом мне проще выкладывать текущие наработки, которые я все еще не могу назвать итоговыми, но которые уже неплохи на мой взгляд.

2. Процедура адаптации была улучшена: токенайзер содержит потерянные смайлы и не содержит ненужных цифр, количество данных в continued pretraining было увеличено вдвое и еще несколько минорных изменений процедуры, которые приводят к бОльшему качеству на выходе.
Так как для Qwen3-32B не была выложена базовая версия, мы сделали ее сами, дообучив только эмбеддинги (входные и выходные) на +-миллиарде токенов.

3. Новый набор для SFT и пока что отсутствие Pref-tuning этапа: в этот раз данные для обучения были сгенерированы на основе большой модели Qwen3-235B-A22B. Для сохранения функции переключения между режимами, в 30% случаев think содержимое выбрасывалось и добавлялся /no_think токен к последнему сообщению пользователя. Для 10% случаев, когда размышления оставались добавлялся токен /think. Используемый датасет выложен и упомянут в карточке модели.

4. Метрик пока нет, но в целом имеется некоторая просадка на мат. задачах, однако для обычного использования все должно быть +- на уровне исходной версии.

Если заметите плохие или наоборот хорошие стороны модели - обязательно пишите, так как сейчас активно идут работы над инструктивной частью и фидбек по поводу проблем будет очень актуален.

Модель: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct-GGUF
Space: https://huggingface.co/spaces/RefalMachine/RuadaptQwen3
🔥34❤‍🔥64👍4
Forwarded from Vikhr models
Выложили QVikhr-3-1.7B на основе Qwen-3-1.7B, лучшая в классе и обгоняет лучшие модели. Ризонинг прямо сейчас выключен, будет позже. Но и без него модель обходит стандартную модель с включенным ризонингом. А самое главное, можно запустить на CPU и не страдать от низкой скорости TPS (Token per second).

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning-GGUF
⚖️ Лицензия: apache-2.0

👥 Авторы: @LakoMoorDev @nlpwanderer
🔥14
Обновление модели RuadaptQwen3-32B-Instruct! (v2)
Текущая версия более стабильная, в частности с точки зрения циклов, некорректных символов и работы с длинными контекстами, а также подросли метрики относительно v1.

Были добавлены метрики для сравнения с исходной версией Qwen3 и видно, что адаптация прошла успешно, где-то есть небольшие просадки, но в целом все на уровне.

Очень жду от вас отзывов и проблемных промптов для дальнейшей прокачки моделей, ну а пока приступим к адаптации меньших версий 🚀

Модель: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct-GGUF
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥175❤‍🔥1
Forwarded from Vikhr models
QVikhr-3-4B-Instruction

Еще одна модель на базе Qwen 3. Тесты производительности подтверждают значительные улучшения модели. В Ru Arena General, QVikhr-3-4B-Instruction получила оценку 78.2, что существенно превосходит результат базовой модели Qwen3-4B (64.8).

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-4B-Instruction
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-4B-Instruction-GGUF
⚖️ Лицензия: apache-2.0

👥 Авторы: @LakoMoorDev @nlpwanderer
🔥9❤‍🔥7
Релиз модели RuadaptQwen3-4B-Instruct 🚀
🔹Адаптированная модель быстрее и в целом не уступает исходной модели по качеству.
🔹Замерили в этот раз помимо метрик на датасетах и поведение на Vikhrmodels/arenahardlb и, как можно видеть, на данном датасете модель превосходит исходную в обоих вариантах: think и no_think.
🔹Также мы замерили не только наш текущий релиз против исходной модели, но и недавний релиз QVikhr-3-4B-Instruction.
🔹Метрики на датасетах будут в комментариях к посту.

Модель: https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct-GGUF
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥7
Информация для людей, ведущих научную деятельность и публикующих статьи!

Приглашаем вас подать статьи в специальный выпуск журнала "Supercomputing Frontiers and Innovation", посвященный созданию, настройке и применению больших языковых моделей. Журнал входит в Белый список журналов (Уровень 1), индексируется в Scopus (квартиль 4), RSCI, входит в ядро РИНЦ.

Срок подачи статей - 1 сентября 2025 года.

Подробности по ссылке:
https://superfri.org/index.php/superfri/special-issue-vol12-no3-2025
🔥13
Недавно Т-Банк выпустил несколько очень интересных релизов и, так как они напрямую связаны с задачей адаптации LLM на русский язык, то я хочу их обсудить и немного разобрать.

T-pro-it-2.0 - является адаптацией Qwen3-32B с заменой токенизации!. Подробностей процедуры, помимо того, что есть в habr статье пока что мало, но обещают тех. репорт. Из того, что известно:

1️⃣ Адаптировали сразу на инструктивных данных, что, кстати, отличается от нашей методологии. Для этого GenAI отдел Т-Банка собрал аж 40 миллиардов токенов инструктивных данных, что более чем достаточно для адаптации модели (мы на текущий момент адаптируем не более чем на 5 миллиардах токенов). Причем среди этих 40 миллиардов токенов также были reasoning примеры.

2️⃣ SFT шаг на их новом наборе SFT данных T-Wix (500 тыс. примеров!), который генерировался с использованием моделей DeepSeek-V3 0324 и Qwen3-235B-A22B. Что важно: данные генерировались не просто вопрос-ответ и в датасет, а с выбором наилучших ответом и отбором по некоторой reward модели. Мы, кстати, уже начинаем тестировать T-Wix на своих адаптациях и на первый взгляд работает хорошо (лучше, чем наш внутренний набор данных из 80 тыс. примеров).

3️⃣ DPO шаг с свеже обученной reward моделью (на базе Qwen3 32B). Количество используемых данных не совсем понятно, но судя по всему шаг был тяжелым, так как для создания обучающих пар генерировалось по 16 вариантов ответов на каждый вопрос.

4️⃣ Обучили и выложили для своей модели EAGLE модель для спекулятивного декодинга, который позволяет ускорять генерацию модели на низких размерах батча до 2 раз!

5️⃣ Токенайзер на глаз по компрессии на русском языке аналогичен нашему Ruadapt

Также, Т-банк выложил новый датасет для оценки качества LLM сложных математических задачах - T-math, который основан на олимпиадных задачах и содержит в себе более 300 примеров.

📊 Независимая оценка. Мы со своей стороны решили также замерить новую модель по отношению как к исходной Qwen3-32B, так и к нашей текущей RuadaptQwen3-32B-Instruct (v2) на внутреннем бенчмарке. Бенчмарк не является завершенным, он все еще в процессе разработки, однако мы уже полагаемся на его результаты при выборе моделей.

Оценка проводилась на более чем 30 датасетах в no_think режиме и на 3 датасетах (2 из DOoM и новый T-math) в think режиме + ru_llm_arena Вихрей с deepseek в качестве judge и gpt-4-1106-preview в качестве бейзлайна.

Усредненные результаты по категориям (в каждой категории хотя бы 2 датасета) представлены на скриншоте + абсолютно все генерации и таблицы доступны в https://huggingface.co/datasets/RefalMachine/llmtf_open_benchmark

С точки зрения арены модель действительно забралась высоко, однако, средняя длина ответа тоже выросла, поэтому сложно однозначно понять, это ответы лучше, или длина выше. (скриншот будет в комментариях).

О чем же говорит наш бенч:
1️⃣ Модель крутая, и рост по знаниям, в частности на shlepa датасетах заметный. Получается GenAI команда Т-Банка смогла улучшить знания модели за счет процедуры адаптации, да еще и на инструктивных данных. Хотя рост на mmlu по нашим замерам вышел не таким сильным, как в статье от Т-Банка, вероятно разная кодовая база для оценки и генерации.

2️⃣ Однако, модель ощутимо просела по ifeval, что по сути занижает метрики на sentiment и вероятно long и других категориях, так как модель вместо краткого ответа начинает что-то объяснять, что ломает или парсинг или итоговые метрики.

3️⃣ На длинном контексте (libra babilong 1-5) что-то пошло не так, то ли дело в ifeval, то ли бабилонгов недостаточно для корректной оценки качества на длинном контексте.

💫В качестве итога. Очень классно видеть, что не только мы движемся по пути повышения качества адаптаций уже существующих LLM. Еще год-два назад не было удачных адаптаций на языки (не только на русский) без потерь качества на английском, а теперь мы можем видеть, как качество не просто не деградирует в среднем, но и растет на некоторых задачах (очень ждем тех. репорт!). Ну и мы, независимо от релиза T-pro-it-2.0, будем продолжать свои исследования и будем выпускать новые модели.
30🔥15
Сегодня мы выложили улучшенную версию RefalMachine/RuadaptQwen3-4B-Instruct 🎉

Модель стала лучше по всем фронтам:
1️⃣ На бенчмарке по каждой категории рост, в частности, на математике.
2️⃣ Стабильность модели повысилась (меньше циклов).
3️⃣ На арене также наблюдается рост (при снижении средней длины ответа!).

Текущая версия (v2) на данный момент вероятно SoTA для русского языка среди всех тюнов и/или адаптаций 4B модели (на основании нашего бенчмарка). От исходной версии присутствуют небольшие отставания, однако на арене RuadaptQwen3-4B-Instruct стабильно обходит Qwen3-4B, а скорость генерации русскоязычного текста существенно лучше. Бенч можно посмотреть по ссылке (там без арены) https://huggingface.co/datasets/RefalMachine/llmtf_open_benchmark

Улучшения связаны с более качественным post-training, включая использование нового SFT датасета (T-Wix), а также добавление preference-tune шага.

Веса в основном репозитории и GGUF также обновлены:
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct-GGUF
🔥292
Forwarded from Vikhr models
QVikhr-3-8B-Instruction

Пополнение еще одной моделью на базе Qwen 3. В DOoM, QVikhr-3-8B-Instruction получила оценку 0.445, что существенно превосходит результат базовой модели Qwen3-8B. Модель подходит для решения задач по математике и физике на русском языке.

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction-GGUF
⚖️ Лицензия: apache-2.0

Сайт: https://vikhr.org
Донаты: Здесь

👥 Авторы: @LakoMoorDev @nlpwanderer
6🔥5
2025/08/23 22:12:07
Back to Top
HTML Embed Code: