Warning: file_put_contents(aCache/aDaily/post/data_secrets/-8083-8084-8085-8083-): Failed to open stream: No space left on device in /var/www/group-telegram/post.php on line 50
Data Secrets | Telegram Webview: data_secrets/8084 -
Telegram Group & Telegram Channel
LLMs Can Get Brain Rot: статья о том, что модельки тоже деградируют от думскролинга

Исследователи из Техаса выпустили ну очень интересную работу, вызвавшую волну обсуждений. Они показали, что если LLM начать дообучать на низкокачественных данных из соцсетей (коротких, популярных, кликабельных постах), то она начинает терять свои когнитивные способности. Примерно так же, как человек теряет внимание и память, когда слишком много думсерфит.

Разбираемся, почему так, с технической точки зрения.

По факту, эксперимент был следующий. Взяли Llama 3 8B Instruct и начали дообучать на (а) коротких и очень популярных постах, у которых много лайков, ретвитов и реплаев; и (б) на контенте с низкой смысловой ценностью: кликбейт, конспирология, все такое. После этого замерили метрики и сравнили с результатами до дообучения. Итоги:

– Качество ризонинга упало с 74.9 до 57.2
– Понимание длинного контекста – с 84.4 до 52.3
– На элаймент-тестах выяснилось, что у модели развился нарциссизм, макиавеллизм и психопатия

Даже после дополнительного тюнинга на чистых данных деградация не исчезала полностью.

Но дело в том, что никакого глобального открытия тут нет. Объясняется все это простым сдвигом распределения. При дообучении на коротких, популярных, эмоционально окрашенных твитах модель видит совсем другой статистический ландшафт, чем во время исходного претрейна на книжках, статьях и тд.

Это смещает распределение в пространстве эмбеддингов и меняет attention-паттерны. Модель постоянно видит короткие тексты без логической цепочки, и, естественно, маски внимания начинают больше фокусироваться на последних нескольких токенах и терять долгосрочные зависимости, которые раньше и обеспечивали качественный CoT.

Градиентная динамика тут тоже играет против нас. Лосс просто-напросто минимизируется за счет поверхностных корреляций, а параметры, отвечающие за долгие причинно-следственные связи, почти не получают обновлений. Вот и получается, что моделька теряет способность длинно рассуждать. Авторы называют этот феномен thought-skipping.

Вот так. Просто еще одно доказательство, что данные – наше все. Теперь можно идти дальше листать рилсы ☕️

arxiv.org/pdf/2510.13928
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥147😁8744👍215🤔2🗿2111



group-telegram.com/data_secrets/8084
Create:
Last Update:

LLMs Can Get Brain Rot: статья о том, что модельки тоже деградируют от думскролинга

Исследователи из Техаса выпустили ну очень интересную работу, вызвавшую волну обсуждений. Они показали, что если LLM начать дообучать на низкокачественных данных из соцсетей (коротких, популярных, кликабельных постах), то она начинает терять свои когнитивные способности. Примерно так же, как человек теряет внимание и память, когда слишком много думсерфит.

Разбираемся, почему так, с технической точки зрения.

По факту, эксперимент был следующий. Взяли Llama 3 8B Instruct и начали дообучать на (а) коротких и очень популярных постах, у которых много лайков, ретвитов и реплаев; и (б) на контенте с низкой смысловой ценностью: кликбейт, конспирология, все такое. После этого замерили метрики и сравнили с результатами до дообучения. Итоги:

– Качество ризонинга упало с 74.9 до 57.2
– Понимание длинного контекста – с 84.4 до 52.3
– На элаймент-тестах выяснилось, что у модели развился нарциссизм, макиавеллизм и психопатия

Даже после дополнительного тюнинга на чистых данных деградация не исчезала полностью.

Но дело в том, что никакого глобального открытия тут нет. Объясняется все это простым сдвигом распределения. При дообучении на коротких, популярных, эмоционально окрашенных твитах модель видит совсем другой статистический ландшафт, чем во время исходного претрейна на книжках, статьях и тд.

Это смещает распределение в пространстве эмбеддингов и меняет attention-паттерны. Модель постоянно видит короткие тексты без логической цепочки, и, естественно, маски внимания начинают больше фокусироваться на последних нескольких токенах и терять долгосрочные зависимости, которые раньше и обеспечивали качественный CoT.

Градиентная динамика тут тоже играет против нас. Лосс просто-напросто минимизируется за счет поверхностных корреляций, а параметры, отвечающие за долгие причинно-следственные связи, почти не получают обновлений. Вот и получается, что моделька теряет способность длинно рассуждать. Авторы называют этот феномен thought-skipping.

Вот так. Просто еще одно доказательство, что данные – наше все. Теперь можно идти дальше листать рилсы ☕️

arxiv.org/pdf/2510.13928

BY Data Secrets






Share with your friend now:
group-telegram.com/data_secrets/8084

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." Founder Pavel Durov says tech is meant to set you free Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers.
from jp


Telegram Data Secrets
FROM American