Telegram Group Search
Вспомнила забавный эпизод из детства.

Однажды на уроке геометрии (не помню, в каком классе это было) нам объяснили, что такое прямая. Главным, что я вынесла для себя из этого объяснения было то, что прямая бесконечна в обе стороны. Разумеется, мой неокрепший межушный нервный узел был взбудоражен такими новостями. В результате зародившихся в нем размышлений над бесконечной природой этого объекта, я пришла к выводу, что раз прямая бесконечна, то и изображать её нужно настолько длинной, насколько хватит сил и насколько это позволит наш несовершенный мир, чтобы максимально отразить это её свойство...

Поэтому когда на следующем уроке нужно было делать чертежи в тетради, включающие в себя прямые, я чертила эти прямые до конца листа, а потом продолжала рисовать их прямо на парте, до конца парты. К концу урока вся парта была разрисована, и когда учительница это заметила, она, разумеется, заставила меня мыть парту, а также нажаловалась на мое поведение родителям (это, разумеется, происходило частенько 😏).

Родители, конечно, стали ругаться, но я наотрез отказывалась признать свою неправоту, ведь что я могу, если прямая должна продолжаться? Впрочем, в итоге отец все-таки придумал аргумент, который меня убедил больше не продолжать прямые на парте и не портить школьную собственность. Он сказал, что прямая всегда лежит в одной плоскости, а лист тетради и парта - это разные плоскости, поэтому продолжать прямую с листа на парту математически некорректно. Эти мудрые слова проникли в мою душу, и я перестала буянить.
Впрочем, я все равно до старшей школы продолжала рисовать все прямые до самых краев тетрадного листа, хоть парту уже и не портила. 🤭

#о_себе
Forwarded from dev optozorax
🔵🟠 Новое видео!!!

Оно про самое невероятное открытие в области порталов. Благодаря ему возникает карманное пространство, а ещё вся физика порталов переворачивается с ног на голову! (Да, там снова будет та самая картинка)

Приятного просмотра 🍿

https://youtu.be/s3vLAWHjyIY
Недавно мне удалось поучаствовать в создании модуля занятий для Deep Learning School по теме "Детекция сгенерированных текстов". Я записала лекцию и сделала юпитер ноутбук для семинара, а сегодня результаты трудов выложили на Степик и Ютуб! Спасибо Тане за ряд ценных указаний по улучшению юпитер ноутбука и за запись самого занятия. 😻

Вот ссылки на #учебные_материалы :
💅 Степик (1, 2)
💅 Ютуб (1, 2)
💅 Колаб
💅 PDF со слайдами

А еще ребята сделали домашнее задание к модулю в виде соревнования на Kaggle. Там можно самостоятельно попробовать свои силы в детекции искусственных текстов.



Запись лекции шла довольно тяжко: сначала я порепетировала её с другом и сделала некоторые доработки презентации по результатам этой репетиции; через пару дней с утра сделала пробную запись, которую несколько раз начинала сначала, так как сбивалась. После этого поехала в офис на работу, поработала там, вернулась поздно вечером и только тогда смогла записать лекцию нормально (именно поэтому я выгляжу на записи такой уставшей).

Честно говоря, сильно мешала сосредоточиться фоновая тревога по поводу того, что на записи я ляпну что-то не то или что-то забуду, и в интернете меня за это, как всегда, обосрут. И при этом умом-то я, конечно, понимаю, что:

1) Ошибки и неидеальности неизбежны всегда и во всем;
2) Обсирание также в принципе неизбежно при выкладывании видео на Ютубе на абсолютно любую тему и абсолютно любого качества - для этого достаточно самого факта того, что видео посмотрит больше трех анонимусов 😅
3) При всем при этом, обсирание не наносит мне никакого реального вреда, так что никакого объективного смысла тревожиться по его поводу нет.

Но, несмотря на понимание этого, до конца искоренить тревогу у меня все равно пока не выходит. Ну да ничего, надеюсь, что с опытом ситуация постепенно улучшится, и мне удастся меньше париться. 🦾
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AbstractDL
Зачем все LLM фокусируют attention на первом токене? (by DeepMind & Oxford)

Давно известно, что многие головы внимания у LLM упорно «смотрят» на самый первый токен последовательности (чаще всего это токен <bos>). В моделях вроде GPT, LLaMA или Gemma такое внимание занимает до 80% от всех голов!

Авторы показывают, что такой «слив» внимания на первый токен — это не ошибка, а очень полезный механизм. Он работает примерно как «нулевая операция» (no-op), то есть помогает головам внимания эффективно ничего не делать и не вносить ненужных изменений в представления токенов, когда они не нужны.

Зачем это нужно? Постоянное активное перемешивание информации между токенами ведёт к трём серьёзным проблемам:
1. Rank collapse — представления всех токенов становятся линейно зависимыми.
2. Representational collapse — сильно растёт косинусная близость соседних токенов.
3. Over-squashing — дальние токены перестают эффективно обмениваться информацией.

Чем глубже модель и длиннее контекст, тем сильнее она нуждается в этом механизме. А если убрать первый токен <bos> во время инференса, у модели, привыкшей к нему, качество генерации сильно падает.

P.S. Что-то оооочень похожее нам рассказывал профессор Вячеслав Дубынин на курсах химии мозга — у людей тоже есть механизм предотвращающий "смешивание" активаций. А, например, ЛСД его ослабляет, вызывая галлюцинации.

Статья
⬆️ Кайфовый пост. Очень понравились советы для неспециалистов по критическому осмыслению информации, связанной с медицинскими рекомендациями.

В самом деле, каждый человек не может разбираться во всем, и вот такой критический подход к информации из тех областей, в которых вы не специализируетесь, это база.

#наука #хозяйке_на_заметку
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
В последнее время в статьях про дообучение LLM на решение математических задач и прочий reasoning намечается тренд на экстремальное уменьшение размеров датасетов при экстремальном увеличении их качества. Так, в статье s1: Simple test-time scaling ( https://arxiv.org/abs/2501.19393 ) используется fine-tuning на 1000 примерах, в Less Is MOre for reasoning ( https://arxiv.org/abs/2502.03387 ) - на 817... куда же заведет эта дорожка? Сегодня утром я совершенно внезапно для себя нашла ответ: проснулась, потянулась, проверила список Huggingface Daily Papers за 30 апреля 😶 и увидела...

...Reinforcement Learning for Reasoning in Large Language Models with 😱 One 😱 Training Example ( https://arxiv.org/abs/2504.20571 )!

Авторы утверждают, что их RL на одном примере позволяет очень сильно улучшить качество решения математических датасетов маленькими моделями - Qwen2.5-Math-1.5B (результат см. на рис. 1), а также Qwen2.5-Math-7B, DeepSeek-R1-Distill-Qwen-1.5B и, в некоторой степени, Llama3.2-3B-Instruct. Но есть несколько нюансов:

Во-первых, для того, чтобы найти тот самый пример-бриллиант, от которого умственные способности моделей засветятся синими лучами 🧠, им пришлось все же провести предварительное обучение Qwen2.5-Math-1.5B с помощью GRPO (policy gradient loss + KL divergence loss + entropy loss) на 1209 примерах из DeepScaleR-Preview-Dataset в течении нескольких эпох, с целью ранжирования примеров. 📈 После этого, авторы отсортировали примеры в зависимости от того, какую вариацию качества на трейне давали шаги градиента на каждом примере в течении обучения, и обозначили каждый пример буквой π с индексом. Так, π₁ - это пример, обучение на котором максимально меняло качество на трейне, π₂ - пример, стоящий на втором месте по вариации качества и т.д. И только после этого авторы стали пробовать обучать исходные модели из исходных чекпоинтов - в первую очередь, на примере π₁, и вторую очередь, на других хороших.

Во-вторых, чтобы отобранный пример действительно улучшил качество модели, на нем придется сделать около 1000-2000 итераций (повторение - мать учения? ✍️).

В-третьих, чудо-пример, найденный с помощью Qwen2.5-Math-1.5B, хоть и более-менее переносит свои волшебные качества на два других квена, но не так хорошо переносится на Llama (у той увеличение качества в среднем оказалось всего около 2%, см. рис. 2 для подробностей).

Тем не менее, заявление авторов статьи звучит сильно, и будет очень интересно, если кто-нибудь сможет его независимо подтвердить. 😄 Благо, что код публично выложили на github: https://github.com/ypwang61/One-Shot-RLVR .

Сами волшебные примеры π номер 1 и 3, кстати, можно посмотреть на рис. 3, а в аппендиксе статьи - увидеть ещё несколько. А еще статья содержит довольно большой раздел с анализом и ablation study. 📃

#объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
https://youtu.be/-EayZBzlAI0?si=eZi62frOhxgwihl-

Понравилось это, довольно подобное и обстоятельное, видео про контент-фермы. Первые 20 минут рассказывается про фермы на основе ИИ... вторая буква "И" здесь, правда, выглядит лишней. 🤔

Интересно наблюдать, какими всратыми путями взаимодействуют технологии и общество.

#генерация
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/05/23 00:07:06
Back to Top
HTML Embed Code: