Telegram Group & Telegram Channel
Посмотрела выступление Jason Wei и Hyung Won Chung (оба из OpenAI) в Стенфорде, записанное пару месяцев назад. Первая часть от Jason Wei несет в себе довольно очевидный посыл – компьют решает все и с достаточным компьютом вы можете дождаться того момента, когда у модели появятся emergent capabilities. Hyung Won Chung продолжает эту тему, но немного с другой стороны

Он говорит: да, дешевый компьют – главный тренд, который определяет развитие ресерча, но не единственный. Как только мы начинаем заниматься каким-нибудь ML, мы сразу решаем научить модель думать в соответствии в тем, как нам кажется устроены механизмы нашего собственного мышления (teach model how we think we think). При этом то, как мы сами думаем, мы тоже не до конца понимаем

В итоге такие модели со встроенным индуктивным баесом довольно хорошо себя ведут, когда компьюта у нас мало. Например, если мы фитим регрессию на паре тысяч примеров, то нам очень помогает, что мы наложили на модель какую-то ограничивающую линейную структуру – без нее она бы не выучила ничего. Проблемы начинаются, если мы хотим, чтобы какая-нибудь модель хорошо выучила кучу разных примеров, при чем желательно unsupervised, разных модальностей, с разными инструкциями и тд

Вот в таком сеттинге наложение на модель каких-то ограничений и уменьшение степеней свободы стреляет нам в ногу и становится боттлнеком. Поэтому, по мнению Hyung’а, тренд в AI – это разработка все более общих методов с все более слабыми modelling assumption. При современном дешевом компьюте, мы можем дождаться, когда такая “бесструктурная” модель сама распознает какие-то паттерны в данных, а не будет полагаться на какие-то вспомогательные эвристики, наложенные ресерчерами

Как пример Hyung рассматривает эволюцию от Трансформера к современной decoder-only архитектуре, где последняя является “упрощенной” формой исходной версии: attention block берет на себя и функции self-attention, и cross-attention; для обработки входной и выходной последовательности мы используем один набор параметров, а не отдельно энкодер и декодер; attention теперь не bidirectional, а unidirectional

Интересную мысль он еще говорит в Q&A части: он тоже повторяет мнение, что архитектура не так уж и важна, а вот настоящий боттлнек – это learning objectives. Например, в том, что в обучающих датасетах у нас есть всего один “эталонный” ответ, даже когда вопрос поставлен так широко, что можно ответить кучей разных способов. Отчасти это решается переходом от maximum likelihood estimation к RLHF и всякому RL в целом

Еще он говорит, что ресерч комьюнити тебя поощряет, когда ты что-то добавляешь к модели, а не убираешь. Но тут кажется с ним можно не согласиться, так как есть уже целый жанр папир “убираем из трансформера все” (или делаем линейным, или сильно урезаем):
- Your Transformer is Secretly Linear
- Убираем poistional encoding: The Impact of Positional Encoding on Length Generalization in Transformers
- Убираем аттеншн: Pretraining Without Attention, Mamba: Linear-Time Sequence Modeling with Selective State Spaces и прочие RWKV
- Убираем большую часть KV cache, MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding



group-telegram.com/def_model_train/1036
Create:
Last Update:

Посмотрела выступление Jason Wei и Hyung Won Chung (оба из OpenAI) в Стенфорде, записанное пару месяцев назад. Первая часть от Jason Wei несет в себе довольно очевидный посыл – компьют решает все и с достаточным компьютом вы можете дождаться того момента, когда у модели появятся emergent capabilities. Hyung Won Chung продолжает эту тему, но немного с другой стороны

Он говорит: да, дешевый компьют – главный тренд, который определяет развитие ресерча, но не единственный. Как только мы начинаем заниматься каким-нибудь ML, мы сразу решаем научить модель думать в соответствии в тем, как нам кажется устроены механизмы нашего собственного мышления (teach model how we think we think). При этом то, как мы сами думаем, мы тоже не до конца понимаем

В итоге такие модели со встроенным индуктивным баесом довольно хорошо себя ведут, когда компьюта у нас мало. Например, если мы фитим регрессию на паре тысяч примеров, то нам очень помогает, что мы наложили на модель какую-то ограничивающую линейную структуру – без нее она бы не выучила ничего. Проблемы начинаются, если мы хотим, чтобы какая-нибудь модель хорошо выучила кучу разных примеров, при чем желательно unsupervised, разных модальностей, с разными инструкциями и тд

Вот в таком сеттинге наложение на модель каких-то ограничений и уменьшение степеней свободы стреляет нам в ногу и становится боттлнеком. Поэтому, по мнению Hyung’а, тренд в AI – это разработка все более общих методов с все более слабыми modelling assumption. При современном дешевом компьюте, мы можем дождаться, когда такая “бесструктурная” модель сама распознает какие-то паттерны в данных, а не будет полагаться на какие-то вспомогательные эвристики, наложенные ресерчерами

Как пример Hyung рассматривает эволюцию от Трансформера к современной decoder-only архитектуре, где последняя является “упрощенной” формой исходной версии: attention block берет на себя и функции self-attention, и cross-attention; для обработки входной и выходной последовательности мы используем один набор параметров, а не отдельно энкодер и декодер; attention теперь не bidirectional, а unidirectional

Интересную мысль он еще говорит в Q&A части: он тоже повторяет мнение, что архитектура не так уж и важна, а вот настоящий боттлнек – это learning objectives. Например, в том, что в обучающих датасетах у нас есть всего один “эталонный” ответ, даже когда вопрос поставлен так широко, что можно ответить кучей разных способов. Отчасти это решается переходом от maximum likelihood estimation к RLHF и всякому RL в целом

Еще он говорит, что ресерч комьюнити тебя поощряет, когда ты что-то добавляешь к модели, а не убираешь. Но тут кажется с ним можно не согласиться, так как есть уже целый жанр папир “убираем из трансформера все” (или делаем линейным, или сильно урезаем):
- Your Transformer is Secretly Linear
- Убираем poistional encoding: The Impact of Positional Encoding on Length Generalization in Transformers
- Убираем аттеншн: Pretraining Without Attention, Mamba: Linear-Time Sequence Modeling with Selective State Spaces и прочие RWKV
- Убираем большую часть KV cache, MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding

BY я обучала одну модель




Share with your friend now:
group-telegram.com/def_model_train/1036

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." "Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world."
from tw


Telegram я обучала одну модель
FROM American