Notice: file_put_contents(): Write of 20219 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
CodeCamp | Telegram Webview: campcode/7878 -
Telegram Group & Telegram Channel
Вы не готовы: «думающие» модели на самом деле… не думают 😱

Apple неожиданно выпустили исследование, в котором они изучали, как работает цепочка размышлений в популярных CoT-моделях вроде Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.

Тестировали на логических головоломках, таких как Ханойские башни или загадка про волка, козу и капусту, постепенно усложняя их.

Результат УБИЛ:

— TL;DR: все модели пытаются прикинуться, что «думают», но на самом деле просто ищут похожие задачи в своей базе данных. AGI не будет 😭

— Нашлась интересная проблема с overthinking: если задачка достаточно простая, модель быстро находит ответ, а потом тратит кредиты, проверяя другие варианты, из-за чего иногда случайно выдаёт неправильный ответ;

— Модели с большим бюджетом на размышления не так эффективны, как кажется — если задачка слишком сложная, нейросети просто быстрее «опускают руки». Даже бесконечный бюджет на размышления не поможет пробить барьер сложности;

— Few-shot prompting (когда вы даёте примеры решения вашей задачи) с таким типом моделей неэффективен: даже если расписать пошаговый алгоритм решения, модель всё равно не справится со слишком сложной задачей;

— Ну и самое интересное: модели почти идеально справились с Ханойскими башнями, даже когда для решения нужно было прописать более 100 (!) шагов. А вот в очень простой задаче про перевозку волка, козы и капусты модели начинали нести чушь уже на 4 шаге. Разгадка проста: детская загадка с рекой не так часто встречалась в тренировочном датасете моделей.

Интересно, что Apple подкололи всех своих конкурентов примерно за сутки до WWDC 2025. А сами что-то покажут завтра? ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
😁25339🫡17👍8🔥3



group-telegram.com/campcode/7878
Create:
Last Update:

Вы не готовы: «думающие» модели на самом деле… не думают 😱

Apple неожиданно выпустили исследование, в котором они изучали, как работает цепочка размышлений в популярных CoT-моделях вроде Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.

Тестировали на логических головоломках, таких как Ханойские башни или загадка про волка, козу и капусту, постепенно усложняя их.

Результат УБИЛ:

— TL;DR: все модели пытаются прикинуться, что «думают», но на самом деле просто ищут похожие задачи в своей базе данных. AGI не будет 😭

— Нашлась интересная проблема с overthinking: если задачка достаточно простая, модель быстро находит ответ, а потом тратит кредиты, проверяя другие варианты, из-за чего иногда случайно выдаёт неправильный ответ;

— Модели с большим бюджетом на размышления не так эффективны, как кажется — если задачка слишком сложная, нейросети просто быстрее «опускают руки». Даже бесконечный бюджет на размышления не поможет пробить барьер сложности;

— Few-shot prompting (когда вы даёте примеры решения вашей задачи) с таким типом моделей неэффективен: даже если расписать пошаговый алгоритм решения, модель всё равно не справится со слишком сложной задачей;

— Ну и самое интересное: модели почти идеально справились с Ханойскими башнями, даже когда для решения нужно было прописать более 100 (!) шагов. А вот в очень простой задаче про перевозку волка, козы и капусты модели начинали нести чушь уже на 4 шаге. Разгадка проста: детская загадка с рекой не так часто встречалась в тренировочном датасете моделей.

Интересно, что Apple подкололи всех своих конкурентов примерно за сутки до WWDC 2025. А сами что-то покажут завтра? ☕️

BY CodeCamp




Share with your friend now:
group-telegram.com/campcode/7878

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War." Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform.
from us


Telegram CodeCamp
FROM American