Telegram Group & Telegram Channel
Вы не готовы: «думающие» модели на самом деле… не думают 😱

Apple неожиданно выпустили исследование, в котором они изучали, как работает цепочка размышлений в популярных CoT-моделях вроде Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.

Тестировали на логических головоломках, таких как Ханойские башни или загадка про волка, козу и капусту, постепенно усложняя их.

Результат УБИЛ:

— TL;DR: все модели пытаются прикинуться, что «думают», но на самом деле просто ищут похожие задачи в своей базе данных. AGI не будет 😭

— Нашлась интересная проблема с overthinking: если задачка достаточно простая, модель быстро находит ответ, а потом тратит кредиты, проверяя другие варианты, из-за чего иногда случайно выдаёт неправильный ответ;

— Модели с большим бюджетом на размышления не так эффективны, как кажется — если задачка слишком сложная, нейросети просто быстрее «опускают руки». Даже бесконечный бюджет на размышления не поможет пробить барьер сложности;

— Few-shot prompting (когда вы даёте примеры решения вашей задачи) с таким типом моделей неэффективен: даже если расписать пошаговый алгоритм решения, модель всё равно не справится со слишком сложной задачей;

— Ну и самое интересное: модели почти идеально справились с Ханойскими башнями, даже когда для решения нужно было прописать более 100 (!) шагов. А вот в очень простой задаче про перевозку волка, козы и капусты модели начинали нести чушь уже на 4 шаге. Разгадка проста: детская загадка с рекой не так часто встречалась в тренировочном датасете моделей.

Интересно, что Apple подкололи всех своих конкурентов примерно за сутки до WWDC 2025. А сами что-то покажут завтра? ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
😁25339🫡17👍8🔥3



group-telegram.com/codecamp/7878
Create:
Last Update:

Вы не готовы: «думающие» модели на самом деле… не думают 😱

Apple неожиданно выпустили исследование, в котором они изучали, как работает цепочка размышлений в популярных CoT-моделях вроде Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.

Тестировали на логических головоломках, таких как Ханойские башни или загадка про волка, козу и капусту, постепенно усложняя их.

Результат УБИЛ:

— TL;DR: все модели пытаются прикинуться, что «думают», но на самом деле просто ищут похожие задачи в своей базе данных. AGI не будет 😭

— Нашлась интересная проблема с overthinking: если задачка достаточно простая, модель быстро находит ответ, а потом тратит кредиты, проверяя другие варианты, из-за чего иногда случайно выдаёт неправильный ответ;

— Модели с большим бюджетом на размышления не так эффективны, как кажется — если задачка слишком сложная, нейросети просто быстрее «опускают руки». Даже бесконечный бюджет на размышления не поможет пробить барьер сложности;

— Few-shot prompting (когда вы даёте примеры решения вашей задачи) с таким типом моделей неэффективен: даже если расписать пошаговый алгоритм решения, модель всё равно не справится со слишком сложной задачей;

— Ну и самое интересное: модели почти идеально справились с Ханойскими башнями, даже когда для решения нужно было прописать более 100 (!) шагов. А вот в очень простой задаче про перевозку волка, козы и капусты модели начинали нести чушь уже на 4 шаге. Разгадка проста: детская загадка с рекой не так часто встречалась в тренировочном датасете моделей.

Интересно, что Apple подкололи всех своих конкурентов примерно за сутки до WWDC 2025. А сами что-то покажут завтра? ☕️

BY CodeCamp




Share with your friend now:
group-telegram.com/codecamp/7878

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. On December 23rd, 2020, Pavel Durov posted to his channel that the company would need to start generating revenue. In early 2021, he added that any advertising on the platform would not use user data for targeting, and that it would be focused on “large one-to-many channels.” He pledged that ads would be “non-intrusive” and that most users would simply not notice any change.
from us


Telegram CodeCamp
FROM American