Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/data_secrets/-6930-6931-6932-): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Data Secrets | Telegram Webview: data_secrets/6931 -
Telegram Group & Telegram Channel
Ученые из Google и Кэмбриджа предложили вид модели, которая мыслит образами, а не текстом

Человек часто мыслит образами / картинками / схемами. Особенно, когда речь идет о каких-нибудь математических задачах или алгоритмах. Модельки пока так не умеют, у них весь ризонинг в тексте.

Но попытки научить LM чему-то похожему есть: вот сегодня как раз вышла статья под названием "Visual Planning: Let’s Think Only with Images". В ней исследователи научили модель проходить лабиринты, рассуждая при этом только картинками. Вот как это было:

1. Сначала модели показывали много-много картинок лабиринтов и учили ее предсказывать какой-нибудь любой возможный следующий шаг. Ну, например, подаем картинку агента, который стоит в клетке B. По этой картинке модель должна сгенерировать следующую, где агент стоит на любой из доступных соседних клеток.

2. Затем учили предсказывать уже не рандомный, а правильный следующий шаг. Здесь у нас уже RL (на предыдущем шаге был обычный файнтюнинг). За правильное действие выдаем награду +1, за неправильное 0, за недопустимое -5.

Модель проходит по нескольку картинок за эпизод, собирает награды и многократко обновляет свою политику. В итоге получаем ризонер, который умеет проходить лабиринты, рассуждая без текста.

Самое интересное: на всех тестах VP обходит даже продвинутый Gemini 2.5 Pro think, и не на пару процентов, а в полтора-два раза.

Вот бы с какой-нибудь сложной геометрией такое потестили

huggingface.co/papers/2505.11409



group-telegram.com/data_secrets/6931
Create:
Last Update:

Ученые из Google и Кэмбриджа предложили вид модели, которая мыслит образами, а не текстом

Человек часто мыслит образами / картинками / схемами. Особенно, когда речь идет о каких-нибудь математических задачах или алгоритмах. Модельки пока так не умеют, у них весь ризонинг в тексте.

Но попытки научить LM чему-то похожему есть: вот сегодня как раз вышла статья под названием "Visual Planning: Let’s Think Only with Images". В ней исследователи научили модель проходить лабиринты, рассуждая при этом только картинками. Вот как это было:

1. Сначала модели показывали много-много картинок лабиринтов и учили ее предсказывать какой-нибудь любой возможный следующий шаг. Ну, например, подаем картинку агента, который стоит в клетке B. По этой картинке модель должна сгенерировать следующую, где агент стоит на любой из доступных соседних клеток.

2. Затем учили предсказывать уже не рандомный, а правильный следующий шаг. Здесь у нас уже RL (на предыдущем шаге был обычный файнтюнинг). За правильное действие выдаем награду +1, за неправильное 0, за недопустимое -5.

Модель проходит по нескольку картинок за эпизод, собирает награды и многократко обновляет свою политику. В итоге получаем ризонер, который умеет проходить лабиринты, рассуждая без текста.

Самое интересное: на всех тестах VP обходит даже продвинутый Gemini 2.5 Pro think, и не на пару процентов, а в полтора-два раза.

Вот бы с какой-нибудь сложной геометрией такое потестили

huggingface.co/papers/2505.11409

BY Data Secrets






Share with your friend now:
group-telegram.com/data_secrets/6931

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively.
from it


Telegram Data Secrets
FROM American