Telegram Group & Telegram Channel
Вы не готовы: «думающие» модели на самом деле… не думают 😱

Apple неожиданно выпустили исследование, в котором они изучали, как работает цепочка размышлений в популярных CoT-моделях вроде Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.

Тестировали на логических головоломках, таких как Ханойские башни или загадка про волка, козу и капусту, постепенно усложняя их.

Результат УБИЛ:

— TL;DR: все модели пытаются прикинуться, что «думают», но на самом деле просто ищут похожие задачи в своей базе данных. AGI не будет 😭

— Нашлась интересная проблема с overthinking: если задачка достаточно простая, модель быстро находит ответ, а потом тратит кредиты, проверяя другие варианты, из-за чего иногда случайно выдаёт неправильный ответ;

— Модели с большим бюджетом на размышления не так эффективны, как кажется — если задачка слишком сложная, нейросети просто быстрее «опускают руки». Даже бесконечный бюджет на размышления не поможет пробить барьер сложности;

— Few-shot prompting (когда вы даёте примеры решения вашей задачи) с таким типом моделей неэффективен: даже если расписать пошаговый алгоритм решения, модель всё равно не справится со слишком сложной задачей;

— Ну и самое интересное: модели почти идеально справились с Ханойскими башнями, даже когда для решения нужно было прописать более 100 (!) шагов. А вот в очень простой задаче про перевозку волка, козы и капусты модели начинали нести чушь уже на 4 шаге. Разгадка проста: детская загадка с рекой не так часто встречалась в тренировочном датасете моделей.

Интересно, что Apple подкололи всех своих конкурентов примерно за сутки до WWDC 2025. А сами что-то покажут завтра? ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
😁25339🫡17👍8🔥3



group-telegram.com/codecamp/7878
Create:
Last Update:

Вы не готовы: «думающие» модели на самом деле… не думают 😱

Apple неожиданно выпустили исследование, в котором они изучали, как работает цепочка размышлений в популярных CoT-моделях вроде Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.

Тестировали на логических головоломках, таких как Ханойские башни или загадка про волка, козу и капусту, постепенно усложняя их.

Результат УБИЛ:

— TL;DR: все модели пытаются прикинуться, что «думают», но на самом деле просто ищут похожие задачи в своей базе данных. AGI не будет 😭

— Нашлась интересная проблема с overthinking: если задачка достаточно простая, модель быстро находит ответ, а потом тратит кредиты, проверяя другие варианты, из-за чего иногда случайно выдаёт неправильный ответ;

— Модели с большим бюджетом на размышления не так эффективны, как кажется — если задачка слишком сложная, нейросети просто быстрее «опускают руки». Даже бесконечный бюджет на размышления не поможет пробить барьер сложности;

— Few-shot prompting (когда вы даёте примеры решения вашей задачи) с таким типом моделей неэффективен: даже если расписать пошаговый алгоритм решения, модель всё равно не справится со слишком сложной задачей;

— Ну и самое интересное: модели почти идеально справились с Ханойскими башнями, даже когда для решения нужно было прописать более 100 (!) шагов. А вот в очень простой задаче про перевозку волка, козы и капусты модели начинали нести чушь уже на 4 шаге. Разгадка проста: детская загадка с рекой не так часто встречалась в тренировочном датасете моделей.

Интересно, что Apple подкололи всех своих конкурентов примерно за сутки до WWDC 2025. А сами что-то покажут завтра? ☕️

BY CodeCamp




Share with your friend now:
group-telegram.com/codecamp/7878

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government.
from us


Telegram CodeCamp
FROM American