Telegram Group & Telegram Channel
Про the illusion of thinking

Как говорится, не можешь в рисерч - хотя бы выложи датасет или бенчмарк и напиши о нем статью (что, заметим для протокола, не умаляет полезности бенчмарков❗️)

Когда РБК меня просили прокомментировать провал Apple Intelligence, я очень удивился и был сдержан в выражениях. Все же Apple последние лет 10 уж точно был компанией победившего маркетинга, а по технологиям в продуктах отставал от конкурентов на пару-тройку лет, однако все-таки в конечном счете делал откровенно удобные решения. Я вежливо объяснял, что ну не работает после релиза, и ладно, так бывает, будет еще десяток апдейтов и заработает, что бухтеть-то.

Но вот сегодня половина твиттера обсуждает яблочную статью The illusion of thinking и теперь у меня закралась определенная тревога по поводу дел с AI в Apple (не потому что статья не супер, а потому что нет более интересных от них и как будто идут по пути наименьшего сопротивления в поисках о чем написать). Статья в сухом остатке про «мы придумали еще один бенчмарк» и «нам не понравилось, как LRM с ним справляется». Бенчмарк в виде задачек про ханойские башни и волка-козу-капусту (и еще 2 типа заданий) с регулируемым уровнем сложности. Основная претензия к LRM - Large Reasoning Models - в том, что они, видите ли, не понимают какие-то концепты и рассуждают, а пытаются вспоминать и воспроизводить заученные паттерны (алё, вы в курсе какую задачу решают языковые модели?)))), судя по тому, как они справляются с бенчмарком. И, о ужас, мы с вами так далеки от AGI, гораздо дальше чем Альтман говорит инвесторам 🤡

Это конечно офигеть какая новость (конечно же нет 😐), однако как человек много работающий с обучением живых людей, могу сказать, что радикального отличия не вижу. Как только человек существенно выходит за пределы знакомых задач и знакомой ситуации, первым делом активируется воспроизведение знакомых паттернов и попытка из них собрать решение, словно Кай слово «вечность» из ледышек или инженер что угодно из говна, палок и синей изоленты. Только единицы начинают в незнакомой ситуации разбираться в основных концептах и правилах игры, а затем придумывать алгоритмы решения задачи, большинство же людей так делает только внутри той области, где уже более-менее комфортно разбирается.

Касательно нытья о том, что LRM не рассуждает, а воспроизводит паттерны, вспоминается один частый вопрос про возможности AI: “Могла бы LLM придумать квантовую механику или общую теорию относительности?”. Скорее всего, нет, по крайней мере в ближайшие годы наверняка нет (но буду рад оказаться неправ). Зато пересказывать и немного дописывать за другими, сразу владея последними публикациями человечества по любой теме - легко. И это тоже сильное преимущество, которого у людей нет, и которое даже с поисковиком наверстывается долго. Возможно, нам не стоит переоценивать себя и говорить, что такой интеллект «недостаточно general». Это скорее Гейзенберг и Эйнштейн исключения из нормального представления об интеллекте, а эрудированный попугай вполне себе general intelligence :)



group-telegram.com/kantor_ai/478
Create:
Last Update:

Про the illusion of thinking

Как говорится, не можешь в рисерч - хотя бы выложи датасет или бенчмарк и напиши о нем статью (что, заметим для протокола, не умаляет полезности бенчмарков❗️)

Когда РБК меня просили прокомментировать провал Apple Intelligence, я очень удивился и был сдержан в выражениях. Все же Apple последние лет 10 уж точно был компанией победившего маркетинга, а по технологиям в продуктах отставал от конкурентов на пару-тройку лет, однако все-таки в конечном счете делал откровенно удобные решения. Я вежливо объяснял, что ну не работает после релиза, и ладно, так бывает, будет еще десяток апдейтов и заработает, что бухтеть-то.

Но вот сегодня половина твиттера обсуждает яблочную статью The illusion of thinking и теперь у меня закралась определенная тревога по поводу дел с AI в Apple (не потому что статья не супер, а потому что нет более интересных от них и как будто идут по пути наименьшего сопротивления в поисках о чем написать). Статья в сухом остатке про «мы придумали еще один бенчмарк» и «нам не понравилось, как LRM с ним справляется». Бенчмарк в виде задачек про ханойские башни и волка-козу-капусту (и еще 2 типа заданий) с регулируемым уровнем сложности. Основная претензия к LRM - Large Reasoning Models - в том, что они, видите ли, не понимают какие-то концепты и рассуждают, а пытаются вспоминать и воспроизводить заученные паттерны (алё, вы в курсе какую задачу решают языковые модели?)))), судя по тому, как они справляются с бенчмарком. И, о ужас, мы с вами так далеки от AGI, гораздо дальше чем Альтман говорит инвесторам 🤡

Это конечно офигеть какая новость (конечно же нет 😐), однако как человек много работающий с обучением живых людей, могу сказать, что радикального отличия не вижу. Как только человек существенно выходит за пределы знакомых задач и знакомой ситуации, первым делом активируется воспроизведение знакомых паттернов и попытка из них собрать решение, словно Кай слово «вечность» из ледышек или инженер что угодно из говна, палок и синей изоленты. Только единицы начинают в незнакомой ситуации разбираться в основных концептах и правилах игры, а затем придумывать алгоритмы решения задачи, большинство же людей так делает только внутри той области, где уже более-менее комфортно разбирается.

Касательно нытья о том, что LRM не рассуждает, а воспроизводит паттерны, вспоминается один частый вопрос про возможности AI: “Могла бы LLM придумать квантовую механику или общую теорию относительности?”. Скорее всего, нет, по крайней мере в ближайшие годы наверняка нет (но буду рад оказаться неправ). Зато пересказывать и немного дописывать за другими, сразу владея последними публикациями человечества по любой теме - легко. И это тоже сильное преимущество, которого у людей нет, и которое даже с поисковиком наверстывается долго. Возможно, нам не стоит переоценивать себя и говорить, что такой интеллект «недостаточно general». Это скорее Гейзенберг и Эйнштейн исключения из нормального представления об интеллекте, а эрудированный попугай вполне себе general intelligence :)

BY Kantor.AI


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/kantor_ai/478

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe.
from us


Telegram Kantor.AI
FROM American