group-telegram.com/tech_priestess/2086
Last Update:
Зачем все LLM фокусируют attention на первом токене? (by DeepMind & Oxford)
Давно известно, что многие головы внимания у LLM упорно «смотрят» на самый первый токен последовательности (чаще всего это токен <bos>
). В моделях вроде GPT, LLaMA или Gemma такое внимание занимает до 80% от всех голов!
Авторы показывают, что такой «слив» внимания на первый токен — это не ошибка, а очень полезный механизм. Он работает примерно как «нулевая операция» (no-op), то есть помогает головам внимания эффективно ничего не делать и не вносить ненужных изменений в представления токенов, когда они не нужны.
Зачем это нужно? Постоянное активное перемешивание информации между токенами ведёт к трём серьёзным проблемам:
1. Rank collapse — представления всех токенов становятся линейно зависимыми.
2. Representational collapse — сильно растёт косинусная близость соседних токенов.
3. Over-squashing — дальние токены перестают эффективно обмениваться информацией.
Чем глубже модель и длиннее контекст, тем сильнее она нуждается в этом механизме. А если убрать первый токен <bos>
во время инференса, у модели, привыкшей к нему, качество генерации сильно падает.
P.S. Что-то оооочень похожее нам рассказывал профессор Вячеслав Дубынин на курсах химии мозга — у людей тоже есть механизм предотвращающий "смешивание" активаций. А, например, ЛСД его ослабляет, вызывая галлюцинации.
Статья
BY Техножрица 👩💻👩🏫👩🔧

Share with your friend now:
group-telegram.com/tech_priestess/2086