Telegram Group & Telegram Channel
🥇 VL-Rethinker — новую парадигму мультимодального вывода, обучаемую напрямую с помощью Reinforcement Learning.

🌟 Новая SOTA на ключевых бенчмарках по vision + math:

🟢 MathVista: 80.3 → 🥇 (+6.4 vs GPT-o1 73.9)
🟢 MathVerse: 61.7 → 🥇 (+4.7 vs GPT-o1 57.0)
🟢 MathVision: 43.9 → 🥇 (+1.7 vs GPT-o1 42.2)

🔥 В чём секрет? GRPO-алгоритм с двумя ключевыми новшествами:

🟠Этап 1: Улучшение логики, с помощью GRPO + SSR (Selective Sample Replay):

Сохраняются только те последовательности действий модели (rollouts), которые дали ненулевое преимущество (advantage).

При повторном обучении приоритет отдается полезным примерам, что помогает стабилизировать обучение.

Почему это важно?
При обычном GRPO-со временем "advantage" может становиться нулевым → градиенты обнуляются → модель перестаёт учиться. SSR решает эту проблему.

🟠 Этап 2: Вынужденное «переосмысление» (Forced Rethinking)
На этом этапе в каждый rollout добавляется специальный триггер, заставляющий модель заново обдумывать ответ, прежде чем его выдать.

Это развивает способность к саморефлексии, улучшает многошаговое рассуждение и точность ответов.

🔥 Модель вынуждена подумать ещё раз перед финальным ответом.
Результат — у модели появляются признаки метапознания: она сама находит ошибки в начальных размышлениях.

✔️ VL-Rethinker-72B — первый VLM, обгоняющий GPT-o1.

Похоже, что будущее за "медленно думающими" и умеющими рефлексировать агентами.

🔜 Paper
🔜 Code
🔜 Website
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_analysis_ml/3476
Create:
Last Update:

🥇 VL-Rethinker — новую парадигму мультимодального вывода, обучаемую напрямую с помощью Reinforcement Learning.

🌟 Новая SOTA на ключевых бенчмарках по vision + math:

🟢 MathVista: 80.3 → 🥇 (+6.4 vs GPT-o1 73.9)
🟢 MathVerse: 61.7 → 🥇 (+4.7 vs GPT-o1 57.0)
🟢 MathVision: 43.9 → 🥇 (+1.7 vs GPT-o1 42.2)

🔥 В чём секрет? GRPO-алгоритм с двумя ключевыми новшествами:

🟠Этап 1: Улучшение логики, с помощью GRPO + SSR (Selective Sample Replay):

Сохраняются только те последовательности действий модели (rollouts), которые дали ненулевое преимущество (advantage).

При повторном обучении приоритет отдается полезным примерам, что помогает стабилизировать обучение.

Почему это важно?
При обычном GRPO-со временем "advantage" может становиться нулевым → градиенты обнуляются → модель перестаёт учиться. SSR решает эту проблему.

🟠 Этап 2: Вынужденное «переосмысление» (Forced Rethinking)
На этом этапе в каждый rollout добавляется специальный триггер, заставляющий модель заново обдумывать ответ, прежде чем его выдать.

Это развивает способность к саморефлексии, улучшает многошаговое рассуждение и точность ответов.

🔥 Модель вынуждена подумать ещё раз перед финальным ответом.
Результат — у модели появляются признаки метапознания: она сама находит ошибки в начальных размышлениях.

✔️ VL-Rethinker-72B — первый VLM, обгоняющий GPT-o1.

Похоже, что будущее за "медленно думающими" и умеющими рефлексировать агентами.

🔜 Paper
🔜 Code
🔜 Website

BY Анализ данных (Data analysis)






Share with your friend now:
group-telegram.com/data_analysis_ml/3476

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content. This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores.
from ye


Telegram Анализ данных (Data analysis)
FROM American