AGI_and_RL Telegram Group

Обзор по thinkingу от Лилиан Венг

Why We Think
https://lilianweng.github.io/posts/2025-05-01-thinking/

lilianweng.github.io

Special thanks to John Schulman for a lot of super valuable feedback and direct edits on this post.
Test time compute (Graves et al. 2016, Ling, et al. 2017, Cobbe et al. 2021) and Chain-of-thought (CoT) (Wei et al. 2022, Nye et al. 2021), have led to significant…

1.8K views12:44

Агенты ИИ | AGI_and_RL

у любителей ллмного RLя сегодня снова приподнятое настроение

там потюнили квен coder 7б с PPO, чтобы он оптимизировал асемблерный код. Ну и получили ускорение в среднем x1.47 (дефолтный 7б кодер x1.1 выдавал), и % компиляции с 79% до 96% поднял
ну и круче других протесченых ллмок получилось 🎹

Improving Assembly Code Performance with Large Language Models via Reinforcement Learning
https://www.arxiv.org/abs/2505.11480

увидел в https://www.group-telegram.com/j_links кстати

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K viewsedited 18:14

Агенты ИИ | AGI_and_RL

3я версия вышла, 216 страничек теперь. LLM RLя больше стало

https://arxiv.org/abs/2412.05265v3

arXiv.org

Reinforcement Learning: An Overview

This manuscript gives a big-picture, up-to-date overview of the field of (deep) reinforcement learning and sequential decision making, covering value-based methods, policy-based methods,...

1.7K views06:03

Агенты ИИ | AGI_and_RL

Кстати, вообще считаю что вайбкодинг это очень круто если понимаешь что делаешь. Прямо быстро можно прототипчик сделать чего угодно. Да и с ллмками можно вполне разобраться почти в любой теме если есть желание.

В одного с ллмными агентами щас можно собрать почти все.

1.7K viewsedited 06:09

Агенты ИИ | AGI_and_RL

Ребят, если что интересного увидите в презухе гугла, черкните в коменты плиз
И надо будет посчитать количество упоминаний ИИ агентов

1.5K viewsedited 17:48

Агенты ИИ | AGI_and_RL

https://huggingface.co/mistralai/Devstral-Small-2505

Новая кодовая агентная открытая моделька от мистраля. 24B, 128к контекст
В сыром виде в 3090/4090 не влезет, надо подождать awq

lm-studio уже сделали GGUF кванты, можно в LM studio или llama.cpp пробовать запускать
https://huggingface.co/lmstudio-community/Devstral-Small-2505-GGUF

интересно что там с русским

1.5K viewsedited 14:49

Агенты ИИ | AGI_and_RL

Forwarded from Ruadaptная комната

Всем привет! Рад сообщить о нашем новом релизе RuadaptQwen3-32B-Instruct 🎉. Это адаптированная версия Qwen3-32B, которая также является гибридным ризонером с режимом размышлений по-умолчанию.

Отличия текущего релиза от прошлых:

1. Версионирование: теперь версионирование моделей будет идти внутри одного репозитория, но в Versions будут отмечены даты и соответствующие коммиты, которые могут быть использованы, если кому-то больше понравится “прошлая версия”. Таким образом мне проще выкладывать текущие наработки, которые я все еще не могу назвать итоговыми, но которые уже неплохи на мой взгляд.

2. Процедура адаптации была улучшена: токенайзер содержит потерянные смайлы и не содержит ненужных цифр, количество данных в continued pretraining было увеличено вдвое и еще несколько минорных изменений процедуры, которые приводят к бОльшему качеству на выходе.
Так как для Qwen3-32B не была выложена базовая версия, мы сделали ее сами, дообучив только эмбеддинги (входные и выходные) на +-миллиарде токенов.

3. Новый набор для SFT и пока что отсутствие Pref-tuning этапа: в этот раз данные для обучения были сгенерированы на основе большой модели Qwen3-235B-A22B. Для сохранения функции переключения между режимами, в 30% случаев think содержимое выбрасывалось и добавлялся /no_think токен к последнему сообщению пользователя. Для 10% случаев, когда размышления оставались добавлялся токен /think. Используемый датасет выложен и упомянут в карточке модели.

4. Метрик пока нет, но в целом имеется некоторая просадка на мат. задачах, однако для обычного использования все должно быть +- на уровне исходной версии.

Если заметите плохие или наоборот хорошие стороны модели - обязательно пишите, так как сейчас активно идут работы над инструктивной частью и фидбек по поводу проблем будет очень актуален.

Модель: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct-GGUF
Space: https://huggingface.co/spaces/RefalMachine/RuadaptQwen3

huggingface.co

RefalMachine/RuadaptQwen3-32B-Instruct-GGUF · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

1.3K views09:09

Агенты ИИ | AGI_and_RL

ллмный RL апдейтит лишь 5%-30% весов
и эти веса образуют подсеть, которую можно тюнить рлем саму по себе (заморозив остальные веса) и после тюна она будет почти такой же как если тюнить всю модель

Причем
- Каждый слой и каждая матрица (Q, K, V, FFN) получает одинаково разреженные, но при этом почти полноранговые обновления, параметры LayerNorm практически не трогаются.
- Для одной и той же базовой модели «активные» подсети, полученные при разных сидax, датасетax и даже разных RL-алгоритмах, перекрываются гораздо сильнее случайного, а значит существует частично переносимая структура подсети
- если потюнить эти регионы с замороженными остальными весами, то можно даже пару процентов докинуть на тесте
- большая разреженность сохраняется на 7 алгоритмах (PPO, GRPO, ORPO, KTO, DPO, SimPO, PRIME) и 10 моделях разных семейств.
- SFT на тех же данных до RLя особо картину не меняет, разреженность ~ та же на RLе
- на примере PRIME алгоритма показали что со временем разреженность падает, т.е. апдейтится все больше весов

Авторы связывают основную причину большой разреженности с тюнингом/рлем на in-distribution данных. Например DPO на out-of-distribution показало что тюнится 94% весов, ка и с SFT.
Так понял.

Reinforcement Learning Finetunes Small Subnetworks in Large Language Models
https://arxiv.org/abs/2505.11711
https://www.alphaxiv.org/ru/overview/2505.11711

PS собираем всякое крутое по ИИ и проектики делаем в https://www.group-telegram.com/researchim

1.6K views18:36

Агенты ИИ | AGI_and_RL

Forwarded from Vikhr models

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

ToneSpeak - первый русскоязычный датасет с описанием акецента и настроения.

Сгенерили через openai api, получилось очень приятно, пользуйтесь!

Huggingface

1.0K views09:04

Агенты ИИ | AGI_and_RL

Ну что как вам клод 4?
Чот у меня пока неоднозначненько. Пока тыкаю сонет в курсоре, но блин он реально часто делает что-то не то. Но всегда ставит смайлики везде.
😃😢😱💋😳 - 99% кода (ладно не 99. но больше чем надо)

Выглядит так, что он буквально симулирует деятельность. В результате реально ничего не работает

скрин из поста https://x.com/vasumanmoza/status/1926487201463832863

1.6K viewsedited 05:39

Агенты ИИ | AGI_and_RL

Forwarded from black_samorez

Написали статью про претрен LLM в MXFP4. Кернелы будут на следующей неделе, пока от текста кайфуйте.

https://huggingface.co/papers/2505.14669

huggingface.co

Paper page - Quartet: Native FP4 Training Can Be Optimal for Large Language Models

Join the discussion on this paper page

1.4K views10:18

Агенты ИИ | AGI_and_RL

дипсики выложили обновку R1

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

4 на ливкодбенче код ген 😎
https://livecodebench.github.io/leaderboard.html

Жалко в 3090 не влезает

Please open Telegram to view this post

VIEW IN TELEGRAM

1.2K viewsedited 06:33

Агенты ИИ | AGI_and_RL

Хм, похоже в Дипмаинде что-то крутое сделали... 😑
На самом деле я и сам попадаюсь на видосики которые сгенерены с veo 3, иногда правда сложно понять что это генка. Это прям мощная штука получилась
Действительно новый уровень

https://deepmind.google/models/veo/

Please open Telegram to view this post

VIEW IN TELEGRAM

1.1K views16:17

Агенты ИИ | AGI_and_RL

Квены 2.5 можно подтюнить RLем с неправильными и рандомными наградами и они неплохо бустанутся.

Авторы считают что это связано с тем, что квены даже с рандомными наградами начинают писать больше питон кода во время RLя и получают корректные результаты (они изначально умеют решать задачки кодом)

А с лламой и Olmo это не работает

(Учите питон, крч)

https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f

https://github.com/ruixin31/Rethink_RLVR/tree/main

PS собираемся и собираем интересное по ИИшке в https://www.group-telegram.com/researchim

1.2K viewsedited 16:36

Агенты ИИ | AGI_and_RL

дипсики выложили обновку R1 https://huggingface.co/deepseek-ai/DeepSeek-R1-0528 4 на ливкодбенче код ген 😎 https://livecodebench.github.io/leaderboard.html Жалко в 3090 не влезает

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B

Пробуем

huggingface.co

deepseek-ai/DeepSeek-R1-0528-Qwen3-8B · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

974 views10:48

Агенты ИИ | AGI_and_RL

Forwarded from Vikhr models

Выложили QVikhr-3-1.7B на основе Qwen-3-1.7B, лучшая в классе и обгоняет лучшие модели. Ризонинг прямо сейчас выключен, будет позже. Но и без него модель обходит стандартную модель с включенным ризонингом. А самое главное, можно запустить на CPU и не страдать от низкой скорости TPS (Token per second).

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning-GGUF
⚖️ Лицензия: apache-2.0

👥 Авторы: @LakoMoorDev @nlpwanderer

680 views15:03

Агенты ИИ | AGI_and_RL

Чот призадумался с обновой R1 от дипсика, а наступят ли времена когда опенсурсные модельки будут обходить закрытые?
Что думаете?

Условно я NewCompanyName, хочу плотно прохайпить. У меня есть некоторые ресурсы + люди + возможности сделать жесткую модель которая лучше прям всех. Бахну опенсурс который накажет всех остальных.

826 viewsedited 18:04

2025/05/31 22:42:25
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>