Telegram Group & Telegram Channel
Continuous Thought Machines [2025] - революция в нейросетях?

В sakana.ai есть не только департамент генерации говностатей с помощью LLM, но и люди, пытающиеся делать фундаментальные исследования. Давайте посмотрим на их последний продукт. Начнём с мотивации.

Текущие нейросети применяют к вектору данных последовательность матричных (или около того) операций. В таких вычислительных графах отсутствует какая-либо временная динамика, время влияет только на скорость получения результата.

То же самое нельзя сказать про человеческий мозг. Так как он оптимизирован эволюцией на выполнение задач, то не стесняется эксплуатировать все доступные инструменты, в том числе и время. В пример приводится Spike-timing-dependent plasticity - связь между нейронами может изменяться в зависимости от того, насколько близко по времени они были активированы.

Можно представить, как введение временной динамики значительно увеличивает пространство того, что может быть сделано одним и тем же количеством нейроном - это как перейти из 2D-мира в 3D. Авторы решаются отыскать нейроархитектуру, использующую время в своих вычислениях.

Итак, у нас есть D "нейронов", оперирующих над пространством размерности D - "пре-активациями". На каждом шаге применения модели каждому нейрону подаётся M последних "пре-активаций" и каждый из них выдаёт по скаляру, которые образуют вектор "пост-активаций". Из этого вектора будут считаться "пре-активации" следующего шага.

С данными эта конструкция взаимодействует во время так называемой "синхронизации". Тут творчество авторов начинает выходить из под контроля. Они берут всю историю пост-активаций - матрицу размером DxT, сэмплируют K рандомных пар нейронов и считают скалярные произведения историй их пост-активаций, это называется "synchronization representations". Один такой вектор умножается на матрицу весов для получения выходов, а другой такой вектор умножается на матрицу для получения вектора Query для Attention-слоя, который применяется к входным данным 🤯

Результат этого attention как раз используется вместе с вектором пост-активаций для расчёта следующего вектора пре-активаций.

Из плюсов модели можно отметить следующее - во-первых, в ней зашита возможность "думать" над объектом разное количество времени. Её функция ошибки сделана таким образом, чтобы она могла "подумать" в течение N циклов и потом выдать правильный ответ. Во-вторых, тут действительно есть временное взаимодействие между нейронами.

Но так-то перед нами, конечно, очередной мертворождённый шедевр кустарного нейростроения. С вероятностью 99% никто другой не будет всерьёз смотреть на эту архитектуру, и главная причина этому - авторы слишком много думали про нейросети. Это, вообще говоря, эпидемия среди ML-исследователей.

На мой взгляд, чтобы получить научный прорыв, надо пытаться решать нерешённую задачу. Трансформеры появились как ответ на практический вызов, а не в результате свободного полёта больной фантазии. На подкасте у Фридмана David Silver, сделавший AlphaGo, рассказывает о том, как он годами бился над алгоритмом, играющим в эту игру, и свёрточные нейросети просто попались под руку. AGI, уверен, появится как решение проблемы Out-of-Distribution генерализации.

Да, идея использовать временную динамику в алгоритмах в принципе интересна, но, мне кажется, это скорее вопрос вычислительной эффективности. Если её использование позволяет считать быстрее, чем "временно-плоские" алгоритмы, то за это лайк 👍 Возможно ли на "временно-плоских" видеокартах эффективно запускать "временно-кривые" алгоритмы? Кто знает.

А пока что у нас на руках очень переусложнённый гибрид трансформера и рекуррентной сети, который кучу раз применяют на одном объекте. Да, авторы показали, что картинки это классифицирует лучше, чем LSTM, но также или хуже, чем CNN. Молодцы 🏅

@knowledge_accumulator
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/knowledge_accumulator/284
Create:
Last Update:

Continuous Thought Machines [2025] - революция в нейросетях?

В sakana.ai есть не только департамент генерации говностатей с помощью LLM, но и люди, пытающиеся делать фундаментальные исследования. Давайте посмотрим на их последний продукт. Начнём с мотивации.

Текущие нейросети применяют к вектору данных последовательность матричных (или около того) операций. В таких вычислительных графах отсутствует какая-либо временная динамика, время влияет только на скорость получения результата.

То же самое нельзя сказать про человеческий мозг. Так как он оптимизирован эволюцией на выполнение задач, то не стесняется эксплуатировать все доступные инструменты, в том числе и время. В пример приводится Spike-timing-dependent plasticity - связь между нейронами может изменяться в зависимости от того, насколько близко по времени они были активированы.

Можно представить, как введение временной динамики значительно увеличивает пространство того, что может быть сделано одним и тем же количеством нейроном - это как перейти из 2D-мира в 3D. Авторы решаются отыскать нейроархитектуру, использующую время в своих вычислениях.

Итак, у нас есть D "нейронов", оперирующих над пространством размерности D - "пре-активациями". На каждом шаге применения модели каждому нейрону подаётся M последних "пре-активаций" и каждый из них выдаёт по скаляру, которые образуют вектор "пост-активаций". Из этого вектора будут считаться "пре-активации" следующего шага.

С данными эта конструкция взаимодействует во время так называемой "синхронизации". Тут творчество авторов начинает выходить из под контроля. Они берут всю историю пост-активаций - матрицу размером DxT, сэмплируют K рандомных пар нейронов и считают скалярные произведения историй их пост-активаций, это называется "synchronization representations". Один такой вектор умножается на матрицу весов для получения выходов, а другой такой вектор умножается на матрицу для получения вектора Query для Attention-слоя, который применяется к входным данным 🤯

Результат этого attention как раз используется вместе с вектором пост-активаций для расчёта следующего вектора пре-активаций.

Из плюсов модели можно отметить следующее - во-первых, в ней зашита возможность "думать" над объектом разное количество времени. Её функция ошибки сделана таким образом, чтобы она могла "подумать" в течение N циклов и потом выдать правильный ответ. Во-вторых, тут действительно есть временное взаимодействие между нейронами.

Но так-то перед нами, конечно, очередной мертворождённый шедевр кустарного нейростроения. С вероятностью 99% никто другой не будет всерьёз смотреть на эту архитектуру, и главная причина этому - авторы слишком много думали про нейросети. Это, вообще говоря, эпидемия среди ML-исследователей.

На мой взгляд, чтобы получить научный прорыв, надо пытаться решать нерешённую задачу. Трансформеры появились как ответ на практический вызов, а не в результате свободного полёта больной фантазии. На подкасте у Фридмана David Silver, сделавший AlphaGo, рассказывает о том, как он годами бился над алгоритмом, играющим в эту игру, и свёрточные нейросети просто попались под руку. AGI, уверен, появится как решение проблемы Out-of-Distribution генерализации.

Да, идея использовать временную динамику в алгоритмах в принципе интересна, но, мне кажется, это скорее вопрос вычислительной эффективности. Если её использование позволяет считать быстрее, чем "временно-плоские" алгоритмы, то за это лайк 👍 Возможно ли на "временно-плоских" видеокартах эффективно запускать "временно-кривые" алгоритмы? Кто знает.

А пока что у нас на руках очень переусложнённый гибрид трансформера и рекуррентной сети, который кучу раз применяют на одном объекте. Да, авторы показали, что картинки это классифицирует лучше, чем LSTM, но также или хуже, чем CNN. Молодцы 🏅

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
group-telegram.com/knowledge_accumulator/284

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said.
from sg


Telegram Knowledge Accumulator
FROM American