Вспомнила забавный эпизод из детства.
Однажды на уроке геометрии (не помню, в каком классе это было) нам объяснили, что такое прямая. Главным, что я вынесла для себя из этого объяснения было то, что прямая бесконечна в обе стороны. Разумеется, мой неокрепший межушный нервный узел был взбудоражен такими новостями. В результате зародившихся в нем размышлений над бесконечной природой этого объекта, я пришла к выводу, что раз прямая бесконечна, то и изображать её нужно настолько длинной, насколько хватит сил и насколько это позволит наш несовершенный мир, чтобы максимально отразить это её свойство...
Поэтому когда на следующем уроке нужно было делать чертежи в тетради, включающие в себя прямые, я чертила эти прямые до конца листа, а потом продолжала рисовать их прямо на парте, до конца парты. К концу урока вся парта была разрисована, и когда учительница это заметила, она, разумеется, заставила меня мыть парту, а также нажаловалась на мое поведение родителям (это, разумеется, происходило частенько 😏).
Родители, конечно, стали ругаться, но я наотрез отказывалась признать свою неправоту, ведь что я могу, если прямая должна продолжаться? Впрочем, в итоге отец все-таки придумал аргумент, который меня убедил больше не продолжать прямые на парте и не портить школьную собственность. Он сказал, что прямая всегда лежит в одной плоскости, а лист тетради и парта - это разные плоскости, поэтому продолжать прямую с листа на парту математически некорректно. Эти мудрые слова проникли в мою душу, и я перестала буянить.
Впрочем, я все равно до старшей школы продолжала рисовать все прямые до самых краев тетрадного листа, хоть парту уже и не портила. 🤭
#о_себе
Однажды на уроке геометрии (не помню, в каком классе это было) нам объяснили, что такое прямая. Главным, что я вынесла для себя из этого объяснения было то, что прямая бесконечна в обе стороны. Разумеется, мой неокрепший межушный нервный узел был взбудоражен такими новостями. В результате зародившихся в нем размышлений над бесконечной природой этого объекта, я пришла к выводу, что раз прямая бесконечна, то и изображать её нужно настолько длинной, насколько хватит сил и насколько это позволит наш несовершенный мир, чтобы максимально отразить это её свойство...
Поэтому когда на следующем уроке нужно было делать чертежи в тетради, включающие в себя прямые, я чертила эти прямые до конца листа, а потом продолжала рисовать их прямо на парте, до конца парты. К концу урока вся парта была разрисована, и когда учительница это заметила, она, разумеется, заставила меня мыть парту, а также нажаловалась на мое поведение родителям (это, разумеется, происходило частенько 😏).
Родители, конечно, стали ругаться, но я наотрез отказывалась признать свою неправоту, ведь что я могу, если прямая должна продолжаться? Впрочем, в итоге отец все-таки придумал аргумент, который меня убедил больше не продолжать прямые на парте и не портить школьную собственность. Он сказал, что прямая всегда лежит в одной плоскости, а лист тетради и парта - это разные плоскости, поэтому продолжать прямую с листа на парту математически некорректно. Эти мудрые слова проникли в мою душу, и я перестала буянить.
Впрочем, я все равно до старшей школы продолжала рисовать все прямые до самых краев тетрадного листа, хоть парту уже и не портила. 🤭
#о_себе
Forwarded from dev optozorax
🔵🟠 Новое видео!!!
Оно про самое невероятное открытие в области порталов. Благодаря ему возникает карманное пространство, а ещё вся физика порталов переворачивается с ног на голову! (Да, там снова будет та самая картинка)
Приятного просмотра 🍿
https://youtu.be/s3vLAWHjyIY
Оно про самое невероятное открытие в области порталов. Благодаря ему возникает карманное пространство, а ещё вся физика порталов переворачивается с ног на голову! (Да, там снова будет та самая картинка)
Приятного просмотра 🍿
https://youtu.be/s3vLAWHjyIY
YouTube
Что если поместить маленький портал в большой?
Что же будет, если взять два портала, один из них уменьшить и поместить другой? Наконец-то было найдено это решение, и согласно ему должно создаться карманное пространство! Чтобы узнать почему - смотрите видео. И в конце обсуждаем физику порталов, так как…
Недавно мне удалось поучаствовать в создании модуля занятий для Deep Learning School по теме "Детекция сгенерированных текстов". Я записала лекцию и сделала юпитер ноутбук для семинара, а сегодня результаты трудов выложили на Степик и Ютуб! Спасибо Тане за ряд ценных указаний по улучшению юпитер ноутбука и за запись самого занятия. 😻
Вот ссылки на #учебные_материалы :
💅 Степик (1, 2)
💅 Ютуб (1, 2)
💅 Колаб
💅 PDF со слайдами
А еще ребята сделали домашнее задание к модулю в виде соревнования на Kaggle. Там можно самостоятельно попробовать свои силы в детекции искусственных текстов.
—
Запись лекции шла довольно тяжко: сначала я порепетировала её с другом и сделала некоторые доработки презентации по результатам этой репетиции; через пару дней с утра сделала пробную запись, которую несколько раз начинала сначала, так как сбивалась. После этого поехала в офис на работу, поработала там, вернулась поздно вечером и только тогда смогла записать лекцию нормально (именно поэтому я выгляжу на записи такой уставшей).
Честно говоря, сильно мешала сосредоточиться фоновая тревога по поводу того, что на записи я ляпну что-то не то или что-то забуду, и в интернете меня за это, как всегда, обосрут. И при этом умом-то я, конечно, понимаю, что:
1) Ошибки и неидеальности неизбежны всегда и во всем;
2) Обсирание также в принципе неизбежно при выкладывании видео на Ютубе на абсолютно любую тему и абсолютно любого качества - для этого достаточно самого факта того, что видео посмотрит больше трех анонимусов 😅
3) При всем при этом, обсирание не наносит мне никакого реального вреда, так что никакого объективного смысла тревожиться по его поводу нет.
Но, несмотря на понимание этого, до конца искоренить тревогу у меня все равно пока не выходит. Ну да ничего, надеюсь, что с опытом ситуация постепенно улучшится, и мне удастся меньше париться. 🦾
Вот ссылки на #учебные_материалы :
💅 Степик (1, 2)
💅 Ютуб (1, 2)
💅 Колаб
💅 PDF со слайдами
А еще ребята сделали домашнее задание к модулю в виде соревнования на Kaggle. Там можно самостоятельно попробовать свои силы в детекции искусственных текстов.
—
Запись лекции шла довольно тяжко: сначала я порепетировала её с другом и сделала некоторые доработки презентации по результатам этой репетиции; через пару дней с утра сделала пробную запись, которую несколько раз начинала сначала, так как сбивалась. После этого поехала в офис на работу, поработала там, вернулась поздно вечером и только тогда смогла записать лекцию нормально (именно поэтому я выгляжу на записи такой уставшей).
Честно говоря, сильно мешала сосредоточиться фоновая тревога по поводу того, что на записи я ляпну что-то не то или что-то забуду, и в интернете меня за это, как всегда, обосрут. И при этом умом-то я, конечно, понимаю, что:
1) Ошибки и неидеальности неизбежны всегда и во всем;
2) Обсирание также в принципе неизбежно при выкладывании видео на Ютубе на абсолютно любую тему и абсолютно любого качества - для этого достаточно самого факта того, что видео посмотрит больше трех анонимусов 😅
3) При всем при этом, обсирание не наносит мне никакого реального вреда, так что никакого объективного смысла тревожиться по его поводу нет.
Но, несмотря на понимание этого, до конца искоренить тревогу у меня все равно пока не выходит. Ну да ничего, надеюсь, что с опытом ситуация постепенно улучшится, и мне удастся меньше париться. 🦾
Please open Telegram to view this post
VIEW IN TELEGRAM
Stepik: online education
Deep Learning (семестр 2, весна 2025)
Курс посвящен использованию нейросетевых моделей для обработки естественного языка (NLP) . Курс рассчитан на студентов, прошедших курс первого семестра нашей школы Deep Learning School.
Курс состоит из лекций, семинаров и домашних заданий. В течение курса…
Курс состоит из лекций, семинаров и домашних заданий. В течение курса…
Forwarded from AbstractDL
Зачем все LLM фокусируют attention на первом токене? (by DeepMind & Oxford)
Давно известно, что многие головы внимания у LLM упорно «смотрят» на самый первый токен последовательности (чаще всего это токен
Авторы показывают, что такой «слив» внимания на первый токен — это не ошибка, а очень полезный механизм. Он работает примерно как «нулевая операция» (no-op), то есть помогает головам внимания эффективно ничего не делать и не вносить ненужных изменений в представления токенов, когда они не нужны.
Зачем это нужно? Постоянное активное перемешивание информации между токенами ведёт к трём серьёзным проблемам:
1. Rank collapse — представления всех токенов становятся линейно зависимыми.
2. Representational collapse — сильно растёт косинусная близость соседних токенов.
3. Over-squashing — дальние токены перестают эффективно обмениваться информацией.
Чем глубже модель и длиннее контекст, тем сильнее она нуждается в этом механизме. А если убрать первый токен
P.S. Что-то оооочень похожее нам рассказывал профессор Вячеслав Дубынин на курсах химии мозга — у людей тоже есть механизм предотвращающий "смешивание" активаций. А, например, ЛСД его ослабляет, вызывая галлюцинации.
Статья
Давно известно, что многие головы внимания у LLM упорно «смотрят» на самый первый токен последовательности (чаще всего это токен
<bos>
). В моделях вроде GPT, LLaMA или Gemma такое внимание занимает до 80% от всех голов!Авторы показывают, что такой «слив» внимания на первый токен — это не ошибка, а очень полезный механизм. Он работает примерно как «нулевая операция» (no-op), то есть помогает головам внимания эффективно ничего не делать и не вносить ненужных изменений в представления токенов, когда они не нужны.
Зачем это нужно? Постоянное активное перемешивание информации между токенами ведёт к трём серьёзным проблемам:
1. Rank collapse — представления всех токенов становятся линейно зависимыми.
2. Representational collapse — сильно растёт косинусная близость соседних токенов.
3. Over-squashing — дальние токены перестают эффективно обмениваться информацией.
Чем глубже модель и длиннее контекст, тем сильнее она нуждается в этом механизме. А если убрать первый токен
<bos>
во время инференса, у модели, привыкшей к нему, качество генерации сильно падает.P.S. Что-то оооочень похожее нам рассказывал профессор Вячеслав Дубынин на курсах химии мозга — у людей тоже есть механизм предотвращающий "смешивание" активаций. А, например, ЛСД его ослабляет, вызывая галлюцинации.
Статья
⬆️ Кайфовый пост. Очень понравились советы для неспециалистов по критическому осмыслению информации, связанной с медицинскими рекомендациями.
В самом деле, каждый человек не может разбираться во всем, и вот такой критический подход к информации из тех областей, в которых вы не специализируетесь, это база.
#наука #хозяйке_на_заметку
В самом деле, каждый человек не может разбираться во всем, и вот такой критический подход к информации из тех областей, в которых вы не специализируетесь, это база.
#наука #хозяйке_на_заметку
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
В последнее время в статьях про дообучение LLM на решение математических задач и прочий reasoning намечается тренд на экстремальное уменьшение размеров датасетов при экстремальном увеличении их качества. Так, в статье s1: Simple test-time scaling ( https://arxiv.org/abs/2501.19393 ) используется fine-tuning на 1000 примерах, в Less Is MOre for reasoning ( https://arxiv.org/abs/2502.03387 ) - на 817... куда же заведет эта дорожка? Сегодня утром я совершенно внезапно для себя нашла ответ: проснулась, потянулась, проверила список Huggingface Daily Papers за 30 апреля 😶 и увидела...
...Reinforcement Learning for Reasoning in Large Language Models with😱 One 😱 Training Example ( https://arxiv.org/abs/2504.20571 )!
Авторы утверждают, что их RL на одном примере позволяет очень сильно улучшить качество решения математических датасетов маленькими моделями - Qwen2.5-Math-1.5B (результат см. на рис. 1), а также Qwen2.5-Math-7B, DeepSeek-R1-Distill-Qwen-1.5B и, в некоторой степени, Llama3.2-3B-Instruct. Но есть несколько нюансов:
Во-первых, для того, чтобы найти тот самый пример-бриллиант, от которого умственные способности моделей засветятся синими лучами🧠 , им пришлось все же провести предварительное обучение Qwen2.5-Math-1.5B с помощью GRPO (policy gradient loss + KL divergence loss + entropy loss) на 1209 примерах из DeepScaleR-Preview-Dataset в течении нескольких эпох, с целью ранжирования примеров. 📈 После этого, авторы отсортировали примеры в зависимости от того, какую вариацию качества на трейне давали шаги градиента на каждом примере в течении обучения, и обозначили каждый пример буквой π с индексом. Так, π₁ - это пример, обучение на котором максимально меняло качество на трейне, π₂ - пример, стоящий на втором месте по вариации качества и т.д. И только после этого авторы стали пробовать обучать исходные модели из исходных чекпоинтов - в первую очередь, на примере π₁, и вторую очередь, на других хороших.
Во-вторых, чтобы отобранный пример действительно улучшил качество модели, на нем придется сделать около 1000-2000 итераций (повторение - мать учения?✍️ ).
В-третьих, чудо-пример, найденный с помощью Qwen2.5-Math-1.5B, хоть и более-менее переносит свои волшебные качества на два других квена, но не так хорошо переносится на Llama (у той увеличение качества в среднем оказалось всего около 2%, см. рис. 2 для подробностей).
Тем не менее, заявление авторов статьи звучит сильно, и будет очень интересно, если кто-нибудь сможет его независимо подтвердить.😄 Благо, что код публично выложили на github: https://github.com/ypwang61/One-Shot-RLVR .
Сами волшебные примеры π номер 1 и 3, кстати, можно посмотреть на рис. 3, а в аппендиксе статьи - увидеть ещё несколько. А еще статья содержит довольно большой раздел с анализом и ablation study.📃
#объяснения_статей
...Reinforcement Learning for Reasoning in Large Language Models with
Авторы утверждают, что их RL на одном примере позволяет очень сильно улучшить качество решения математических датасетов маленькими моделями - Qwen2.5-Math-1.5B (результат см. на рис. 1), а также Qwen2.5-Math-7B, DeepSeek-R1-Distill-Qwen-1.5B и, в некоторой степени, Llama3.2-3B-Instruct. Но есть несколько нюансов:
Во-первых, для того, чтобы найти тот самый пример-бриллиант, от которого умственные способности моделей засветятся синими лучами
Во-вторых, чтобы отобранный пример действительно улучшил качество модели, на нем придется сделать около 1000-2000 итераций (повторение - мать учения?
В-третьих, чудо-пример, найденный с помощью Qwen2.5-Math-1.5B, хоть и более-менее переносит свои волшебные качества на два других квена, но не так хорошо переносится на Llama (у той увеличение качества в среднем оказалось всего около 2%, см. рис. 2 для подробностей).
Тем не менее, заявление авторов статьи звучит сильно, и будет очень интересно, если кто-нибудь сможет его независимо подтвердить.
Сами волшебные примеры π номер 1 и 3, кстати, можно посмотреть на рис. 3, а в аппендиксе статьи - увидеть ещё несколько. А еще статья содержит довольно большой раздел с анализом и ablation study.
#объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
https://youtu.be/-EayZBzlAI0?si=eZi62frOhxgwihl-
Понравилось это, довольно подобное и обстоятельное, видео про контент-фермы. Первые 20 минут рассказывается про фермы на основе ИИ... вторая буква "И" здесь, правда, выглядит лишней.🤔
Интересно наблюдать, какими всратыми путями взаимодействуют технологии и общество.
#генерация
Понравилось это, довольно подобное и обстоятельное, видео про контент-фермы. Первые 20 минут рассказывается про фермы на основе ИИ... вторая буква "И" здесь, правда, выглядит лишней.
Интересно наблюдать, какими всратыми путями взаимодействуют технологии и общество.
#генерация
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Ужасы Контент-ферм Ютуба
Пополняй Стим и покупай игры с промокодом FLYNNFT https://bit.ly/3S8m5wI (токен в субтитрах)
Twitch: https://www.twitch.tv/flynnflytaggart
Телега: https://www.group-telegram.com/ffttelega
Бусти: https://boosty.to/flynnflytaggart
Новая телега по солдатикам: https://www.group-telegram.com/fftwh40k…
Twitch: https://www.twitch.tv/flynnflytaggart
Телега: https://www.group-telegram.com/ffttelega
Бусти: https://boosty.to/flynnflytaggart
Новая телега по солдатикам: https://www.group-telegram.com/fftwh40k…