Telegram Group & Telegram Channel
🥇 VL-Rethinker — новую парадигму мультимодального вывода, обучаемую напрямую с помощью Reinforcement Learning.

🌟 Новая SOTA на ключевых бенчмарках по vision + math:

🟢 MathVista: 80.3 → 🥇 (+6.4 vs GPT-o1 73.9)
🟢 MathVerse: 61.7 → 🥇 (+4.7 vs GPT-o1 57.0)
🟢 MathVision: 43.9 → 🥇 (+1.7 vs GPT-o1 42.2)

🔥 В чём секрет? GRPO-алгоритм с двумя ключевыми новшествами:

🟠Этап 1: Улучшение логики, с помощью GRPO + SSR (Selective Sample Replay):

Сохраняются только те последовательности действий модели (rollouts), которые дали ненулевое преимущество (advantage).

При повторном обучении приоритет отдается полезным примерам, что помогает стабилизировать обучение.

Почему это важно?
При обычном GRPO-со временем "advantage" может становиться нулевым → градиенты обнуляются → модель перестаёт учиться. SSR решает эту проблему.

🟠 Этап 2: Вынужденное «переосмысление» (Forced Rethinking)
На этом этапе в каждый rollout добавляется специальный триггер, заставляющий модель заново обдумывать ответ, прежде чем его выдать.

Это развивает способность к саморефлексии, улучшает многошаговое рассуждение и точность ответов.

🔥 Модель вынуждена подумать ещё раз перед финальным ответом.
Результат — у модели появляются признаки метапознания: она сама находит ошибки в начальных размышлениях.

✔️ VL-Rethinker-72B — первый VLM, обгоняющий GPT-o1.

Похоже, что будущее за "медленно думающими" и умеющими рефлексировать агентами.

🔜 Paper
🔜 Code
🔜 Website
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_analysis_ml/3476
Create:
Last Update:

🥇 VL-Rethinker — новую парадигму мультимодального вывода, обучаемую напрямую с помощью Reinforcement Learning.

🌟 Новая SOTA на ключевых бенчмарках по vision + math:

🟢 MathVista: 80.3 → 🥇 (+6.4 vs GPT-o1 73.9)
🟢 MathVerse: 61.7 → 🥇 (+4.7 vs GPT-o1 57.0)
🟢 MathVision: 43.9 → 🥇 (+1.7 vs GPT-o1 42.2)

🔥 В чём секрет? GRPO-алгоритм с двумя ключевыми новшествами:

🟠Этап 1: Улучшение логики, с помощью GRPO + SSR (Selective Sample Replay):

Сохраняются только те последовательности действий модели (rollouts), которые дали ненулевое преимущество (advantage).

При повторном обучении приоритет отдается полезным примерам, что помогает стабилизировать обучение.

Почему это важно?
При обычном GRPO-со временем "advantage" может становиться нулевым → градиенты обнуляются → модель перестаёт учиться. SSR решает эту проблему.

🟠 Этап 2: Вынужденное «переосмысление» (Forced Rethinking)
На этом этапе в каждый rollout добавляется специальный триггер, заставляющий модель заново обдумывать ответ, прежде чем его выдать.

Это развивает способность к саморефлексии, улучшает многошаговое рассуждение и точность ответов.

🔥 Модель вынуждена подумать ещё раз перед финальным ответом.
Результат — у модели появляются признаки метапознания: она сама находит ошибки в начальных размышлениях.

✔️ VL-Rethinker-72B — первый VLM, обгоняющий GPT-o1.

Похоже, что будущее за "медленно думающими" и умеющими рефлексировать агентами.

🔜 Paper
🔜 Code
🔜 Website

BY Анализ данных (Data analysis)






Share with your friend now:
group-telegram.com/data_analysis_ml/3476

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content. "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers.
from cn


Telegram Анализ данных (Data analysis)
FROM American