Telegram Group Search
Не про архитектуры и статьи, но тоже важно для контекста.

Пока мы тут сидим, Цукерберг вовсю собирает свою Superintelligence Labs, переманивая людей из ведущих компаний. Даже интересно, какая в итоге будет новая Лама.

https://www.theinformation.com/articles/zuckerbergs-new-ai-team-good
RLHF, RLVR, RLIF!

https://www.group-telegram.com/gonzo_ML.com_podcasts/375

В этом есть что-то интересное. Не надо внешних ревордов, достаточно внутреннего реворда про убеждённость модели.

Я пока не до конца понимаю, почему именно здесь не возникают проблемы overconfidence (что вроде всегда было типично для DL), а также почему online обучение приводит к стабильности, а не наоборот. Также интересно, что и в таком режиме ризонинг возникает внутри модели (как и с GRPO у DeepSeek) — этот bias про ризонинг таки заложен датасетами или оно по какой-то другой причине каждый раз рождается.
Pay Attention to Small Weights
Chao Zhou, Tom Jacobs, Advait Gadhikar, Rebekka Burkholz
Статья: https://arxiv.org/abs/2506.21374

Какая-то интересная тема про природу вещей.

Память давно уже одно из самых узких мест в работе с большими моделями. Даже если вы скачали модель на пиллиард параметров и она влезает в память вашего ускорителя, этого ещё не достаточно. При инференсе надо хранить активации, а при обучении и файнтюне ещё и градиенты и состояния оптимизатора. При использовании Adam, например, на N обучаемых параметров нужно иметь 3N ячеек памяти (там хранятся первые и вторые моменты).

Есть разные подходы к оптимизации памяти, например, чекпойнтинг, квантование, выгрузка. Среди новых подходов есть низкоразмерные проекции градиентов (через SVD), применение Адама в этих новых пространствах, и проекция обратно в исходное пространство -- так работает GaLore (https://arxiv.org/abs/2403.03507). MicroAdam (https://arxiv.org/abs/2405.15593) оставляет top-k градиентов и использует error feedback для восстановления перформанса. Но памяти всё равно это всё требует достаточно. Предложенный новый метод тоже основан на идее отбора небольшого подмножества параметров для обновления, но он не требует градиентов для выбора параметров и не нуждается в error feedback.

Работа основана на интересном наблюдении -- большие градиенты обычно связаны с весами малой магнитуды, что особенно сильно проявляется при файнтюнинге.

Для экспериментов взяли модель типа BERT и датасет CoLA из GLUE, а также предобученный на ImageNet ViT-Large с файнтюнингом на CIFAR-10. Картинки с распределением весов и градиентов при файнтюнинге имеют форму звезды, с большими всплесками магнитуды градиентов в районе околонулевых весов. Видно и на CV, и на NLP задаче. При обучении с нуля это сильно менее выражено, но всё равно что-то заметно (см. рис.1). Эффект незаметен только на финальном классификационном слое, но этому могут быть объяснения (при файнтюнинге классификационная голова обычно инициализируется рандомно и обучается с нуля, ну и она должна адаптироваться к конкретной неуниверсальной задаче).

Авторы предлагают два объяснения таким феноменам.

Во-первых, после предобучения большие веса вероятно отвечают за какие-то важные фичи, которые меньше подвержены изменению при файнтюне. Малые же веса больше меняются под задаче-ориентированные фичи. Со случайно инициализированными весами (при обучении сети с нуля) это было бы не так. Что вроде логично.

Во-вторых, оверпараметризация. Возможно, весов в модели и так с избытком, так что предобученные большие веса можно и не менять. Для исследования этого вопроса ввели метрику r в пространстве градиентов-весов. Для неё определяются top-k самых больших по магнитуде градиентов (g) и считается медиана соответствующих им весов (w, которые обучаемые параметры, не их градиенты). Затем она делится на максимум абсолютного веса среди bottom-k параметров по магнитуде градиента. Эта штука характеризует гиперболический тренд, если значение r низкое, то высокие градиенты соответствуют весам с малой магнитудой. На ViT-Tiny и ViT-Large для top 0.01% и bottom 80% весов значение r стабильно низко.

По результатам авторами предлагается идея -- может быть магнитуда параметра, а не градиента, является более эффективным критерием для отбора подмножества весов для обновления при файнтюне?

Далее посмотрели на два подмножества: top 0.001% с максимальным модулем градиента и bottom 10% по магнитуде веса. Пересечение довольно большое, но неполное, так что это не две стороны одной монеты -- разница в количестве между 0.001% и 10% гигантская, и остаётся что-то важное требующее больших градиенов. Но судя по визуалиации они всё равно не так уж далеко от центра картинки в нуле.
Итоговая идея -- надо сконцентрироваться на обновлении малых по магнитуде весов. Во-первых, благодаря оверпараметризации этого может быть достаточно. Во-вторых, хоть пересечение и неидеальное, всё равно малые веса дают хороший шанс на пересечение с большими градиентами. Наконец, большие веса, вероятно, содержат в себе что-то важное с предобучения, так что трогать их опасно. Такой подход к обновлению весов авторы называют nano gradient descent.

Соответственно основанный на этой идее оптимизатор называется NanoAdam.

В двух словах идея в том, что мы выбираем подмножество параметров, которые будем обучать. Они задаются маской, выбирающей из всех параметров отобранные, для них и выполняются стандартные апдейты Adam. В дополнение к маске здесь присутствует так называемый density scheduler, который диманически подстраивает долю параметров, участвующих в обучении (по дефолту линейное затухание). В итоге по некоторому графику обновляется доля параметров (k штук) и генерится маска (bottom k по магнитуде веса), это происходит каждые d и m итераций соответственно. Каждый раз обновлять маску не имеет смысла, параметры с малой магнитудой имеют тенденцию оставаться таковыми на протяжении всей оптимизации. Кроме того благодаря этому можно сохранить и динамику обучения с моментом.

Абляции показывают, что предложенная процедура имеет смысл. Если вместо малых весов выбирать большие или рандомные, то результаты стабильно хуже. Особенно плохо всё с большими. Если выбирать веса с большими градиентами, то тоже работает похуже.

Провели кучу экспериментов по файнтюну на NLP задачах с BERT-Base/Large и OPT-1.3B. В среднем NanoAdam лучше альтернатив в виде MicroAdam, Galore и AdamW обычный/8bit. Доверительные интервалы, правда, непонятны.

Самое главное, что памяти требует меньше. На OPT-1.3B это 11.6G против 13G у MicroAdam/Adam-8b, 14G у GaLore и 18G у AdamW. Нормальная экономия.

Отдельно проверили catastrophic forgetting на CV задачах c ViT и ResNet при continual learning, когда сначала зафайнтюнили на CIFAR-10 (Task 1), а затем на Flowers102 (Task 2). NanoAdam -- чемпион. Я только не уловил, почему у резнетов такая большая просадка на Flowers102. NanoAdam также привёл к наименьшему изменению параметров (за исключением классификационных голов) по L2 метрике (и несмотря на больший learning rate).

Выглядит интересно. И мне нравится подход from first principles.
This media is not supported in your browser
VIEW IN TELEGRAM
Субботнее нетрадиционное.

Давно про книги не писал, и в частности всё никак не напишу о двух крутых книгах, которые прочитал, "Einstein's Mirror" и "The New Quantum Universe" про теорию относительности и квантовый мир соответственно.

Обе от одних и тех же авторов, Tony Hey и Patrick Walters, дополняют друг друга. Изначально была первая версия "The Quantum Universe", потом появилась книга компаньон про теорию относительности, затем вышла новая версия про квантовый мир.

Так вот, что в них прекрасно, это правильный микс сути и деталей различных открытий, интуиции за всем этим, и исторического контекста, включая что было неверно и от каких идей отказались и почему.

Книги скорее научно популярные, но с формулами. Тогда ещё, видимо, не открыли идею, что каждая формула уменьшает количество покупателей книги. И слава богу. Без формул плохо, но с одними формулами без интуиции за ними тоже хреново, таких книг я видел достаточно.

Первая половина Einstein's Mirror про специальную теорию относительности, вторая про гравитацию и общую теорию относительности.

Я наконец понял более-менее, что за время тогда было, какие идеи господствовали и как Эйнштейн пришёл к своим, в чём была суть мысленного эксперимента с зеркалом, и так далее. Я специальную теорию относительности до сих пор интуитивно не до конца понимаю, всё-таки странно это, что независимо от скоростей движущихся объектов, скорость света всегда константна, непонятно почему оно так.

Есть большая глава про атомную и водородную бомбу, Ричард Родес (которого любит товарищ Дарио Амодеи) в миниатюре.

Квантовая вселенная понятно про квантовый мир и какую-то базовую интуицию за ним, где это возможно. С интуицией тут конечно сложнее, хз почему оно именно так, но всё же.

Я наконец понял суть неравенства Белла, и наверное немного получше стал понимать про электронные оболочки. А также про сверхпроводимость, конденсат Бозе-Эйнштейна, сверхтекучий гелий, ультрахолодные атомы и охлаждение с помощью лазеров и что-то ещё, там много разных тем. Про туннелирование и раньше вроде неплохо знал, спасибо туннельным диодам :) Про запутанность, кстати, не то чтобы много написано.

В этой книге есть свои главы про ядро и ядерные реакции. Есть про устройство звёзд. Что для меня было открытием, так это про термояд. Я привык, что водородную бомбу называют маленьким Солнцем, думал там и реакция та же идёт. А нифига. В термоядерной бомбе реагируют дейтерий с тритием, тут чисто реакции сильного взаимодействия. А в звёздах не так. В Солнце играют и сильное, и слабое взаимодействия, протон-протонная реакция не идёт без квантового туннелирования. Это меняет динамику всего процесса, и кажется это самое медленное звено (пишут, что каждый отдельный протон внутри Солнца должен претерпеть в среднем более миллиарда лет столкновений прежде чем он образует дейтерий -- на фоне времени жизни Солнца, ему сейчас 4.6 миллиарда, огромное число). Когда два протона слились во временное ядро и один из них успел превратиться в нейтрон, так что они образовали дейтерий, всё идёт быстрее, тут уже только сильное взаимодействие (и электромагнитное) -- протон с дейтерием дают гелий-3, два гелия-3 дают гелий-4 и ещё пару протонов. А в более тяжёлых и горячих звёздах другой процесс -- углеродный цикл, тоже не требующий слабого взаимодействия.

В общем много ещё всего интересного, я и половины тем не перечислил. Очень рекомендую. Может где-то что-то переврал, прастити, я не настоящий сварщик.

В этой паре книг не хватает книги про информационный мир. Но с другой стороны, один из авторов (Hey) написал книгу Feynman and Computation, лежит в очереди.

#books
2025/07/06 08:24:38
Back to Top
HTML Embed Code: