Telegram Group & Telegram Channel
🥇 VL-Rethinker — новую парадигму мультимодального вывода, обучаемую напрямую с помощью Reinforcement Learning.

🌟 Новая SOTA на ключевых бенчмарках по vision + math:

🟢 MathVista: 80.3 → 🥇 (+6.4 vs GPT-o1 73.9)
🟢 MathVerse: 61.7 → 🥇 (+4.7 vs GPT-o1 57.0)
🟢 MathVision: 43.9 → 🥇 (+1.7 vs GPT-o1 42.2)

🔥 В чём секрет? GRPO-алгоритм с двумя ключевыми новшествами:

🟠Этап 1: Улучшение логики, с помощью GRPO + SSR (Selective Sample Replay):

Сохраняются только те последовательности действий модели (rollouts), которые дали ненулевое преимущество (advantage).

При повторном обучении приоритет отдается полезным примерам, что помогает стабилизировать обучение.

Почему это важно?
При обычном GRPO-со временем "advantage" может становиться нулевым → градиенты обнуляются → модель перестаёт учиться. SSR решает эту проблему.

🟠 Этап 2: Вынужденное «переосмысление» (Forced Rethinking)
На этом этапе в каждый rollout добавляется специальный триггер, заставляющий модель заново обдумывать ответ, прежде чем его выдать.

Это развивает способность к саморефлексии, улучшает многошаговое рассуждение и точность ответов.

🔥 Модель вынуждена подумать ещё раз перед финальным ответом.
Результат — у модели появляются признаки метапознания: она сама находит ошибки в начальных размышлениях.

✔️ VL-Rethinker-72B — первый VLM, обгоняющий GPT-o1.

Похоже, что будущее за "медленно думающими" и умеющими рефлексировать агентами.

🔜 Paper
🔜 Code
🔜 Website
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_analysis_ml/3476
Create:
Last Update:

🥇 VL-Rethinker — новую парадигму мультимодального вывода, обучаемую напрямую с помощью Reinforcement Learning.

🌟 Новая SOTA на ключевых бенчмарках по vision + math:

🟢 MathVista: 80.3 → 🥇 (+6.4 vs GPT-o1 73.9)
🟢 MathVerse: 61.7 → 🥇 (+4.7 vs GPT-o1 57.0)
🟢 MathVision: 43.9 → 🥇 (+1.7 vs GPT-o1 42.2)

🔥 В чём секрет? GRPO-алгоритм с двумя ключевыми новшествами:

🟠Этап 1: Улучшение логики, с помощью GRPO + SSR (Selective Sample Replay):

Сохраняются только те последовательности действий модели (rollouts), которые дали ненулевое преимущество (advantage).

При повторном обучении приоритет отдается полезным примерам, что помогает стабилизировать обучение.

Почему это важно?
При обычном GRPO-со временем "advantage" может становиться нулевым → градиенты обнуляются → модель перестаёт учиться. SSR решает эту проблему.

🟠 Этап 2: Вынужденное «переосмысление» (Forced Rethinking)
На этом этапе в каждый rollout добавляется специальный триггер, заставляющий модель заново обдумывать ответ, прежде чем его выдать.

Это развивает способность к саморефлексии, улучшает многошаговое рассуждение и точность ответов.

🔥 Модель вынуждена подумать ещё раз перед финальным ответом.
Результат — у модели появляются признаки метапознания: она сама находит ошибки в начальных размышлениях.

✔️ VL-Rethinker-72B — первый VLM, обгоняющий GPT-o1.

Похоже, что будущее за "медленно думающими" и умеющими рефлексировать агентами.

🔜 Paper
🔜 Code
🔜 Website

BY Анализ данных (Data analysis)






Share with your friend now:
group-telegram.com/data_analysis_ml/3476

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care.
from sg


Telegram Анализ данных (Data analysis)
FROM American