group-telegram.com/sinecor/74
Last Update:
Вышел мой большой пост про рассуждающие модели (large reasoning models, LRM), которые начались с OpenAI o1-preview в конце прошлого сентября, а самой громкой новостью начала года стал DeepSeek-R1.
https://synthesis.ai/2025/02/25/large-reasoning-models-how-o1-replications-turned-into-real-competition/
Как обычно, я постарался рассказать всю структуру происходящего:
— сначала про chain-of-thought методы и как они развивались;
— потом про o1 и новые законы масштабирования;
— в середине небольшое отступление про самые последние новости — модель s1, которая за $50 обучилась почти до того же уровня;
— а потом уже подробно о том, что происходит в DeepSeek-V3 и DeepSeek-R1;
— в частности, о том, как там используется RL и какой именно (здесь у DeepSeek тоже есть своё новшество, алгоритм GRPO).
Думаю, рассуждающие модели — это самое главное, что произошло в AI за последние несколько месяцев. И, как всегда в последнее время, прогресс невероятно быстрый: только появилось, а уже прочно вошло в обиход, у всех есть свои варианты reasoning models, а где-то уже есть и следующие уровни надстройки над этим вроде deep research. Надеюсь, пост тоже интересный получился — или хотя бы познавательный.)
BY Sinекура

Share with your friend now:
group-telegram.com/sinecor/74