Вышел мой большой пост про рассуждающие модели (large reasoning models

Sinекура

Вышел мой большой пост про рассуждающие модели (large reasoning models, LRM), которые начались с OpenAI o1-preview в конце прошлого сентября, а самой громкой новостью начала года стал DeepSeek-R1.

https://synthesis.ai/2025/02/25/large-reasoning-models-how-o1-replications-turned-into-real-competition/

Как обычно, я постарался рассказать всю структуру происходящего:
— сначала про chain-of-thought методы и как они развивались;
— потом про o1 и новые законы масштабирования;
— в середине небольшое отступление про самые последние новости — модель s1, которая за $50 обучилась почти до того же уровня;
— а потом уже подробно о том, что происходит в DeepSeek-V3 и DeepSeek-R1;
— в частности, о том, как там используется RL и какой именно (здесь у DeepSeek тоже есть своё новшество, алгоритм GRPO).

Думаю, рассуждающие модели — это самое главное, что произошло в AI за последние несколько месяцев. И, как всегда в последнее время, прогресс невероятно быстрый: только появилось, а уже прочно вошло в обиход, у всех есть свои варианты reasoning models, а где-то уже есть и следующие уровни надстройки над этим вроде deep research. Надеюсь, пост тоже интересный получился — или хотя бы познавательный.)

❤‍🔥27🔥12👍8❤1

www.group-telegram.com/us/sinecor.com/74

7.28K viewsFeb 27 at 10:28

group-telegram.com/sinecor/74

Create: 2025-02-27
Last Update: 2025-07-22 10:05:20

BY Sinекура

Share with your friend now:
group-telegram.com/sinecor/74

Telegram | DID YOU KNOW?

Вышел мой большой пост про рассуждающие модели (large reasoning models