Telegram Group & Telegram Channel
Посмотрела выступление Jason Wei и Hyung Won Chung (оба из OpenAI) в Стенфорде, записанное пару месяцев назад. Первая часть от Jason Wei несет в себе довольно очевидный посыл – компьют решает все и с достаточным компьютом вы можете дождаться того момента, когда у модели появятся emergent capabilities. Hyung Won Chung продолжает эту тему, но немного с другой стороны

Он говорит: да, дешевый компьют – главный тренд, который определяет развитие ресерча, но не единственный. Как только мы начинаем заниматься каким-нибудь ML, мы сразу решаем научить модель думать в соответствии в тем, как нам кажется устроены механизмы нашего собственного мышления (teach model how we think we think). При этом то, как мы сами думаем, мы тоже не до конца понимаем

В итоге такие модели со встроенным индуктивным баесом довольно хорошо себя ведут, когда компьюта у нас мало. Например, если мы фитим регрессию на паре тысяч примеров, то нам очень помогает, что мы наложили на модель какую-то ограничивающую линейную структуру – без нее она бы не выучила ничего. Проблемы начинаются, если мы хотим, чтобы какая-нибудь модель хорошо выучила кучу разных примеров, при чем желательно unsupervised, разных модальностей, с разными инструкциями и тд

Вот в таком сеттинге наложение на модель каких-то ограничений и уменьшение степеней свободы стреляет нам в ногу и становится боттлнеком. Поэтому, по мнению Hyung’а, тренд в AI – это разработка все более общих методов с все более слабыми modelling assumption. При современном дешевом компьюте, мы можем дождаться, когда такая “бесструктурная” модель сама распознает какие-то паттерны в данных, а не будет полагаться на какие-то вспомогательные эвристики, наложенные ресерчерами

Как пример Hyung рассматривает эволюцию от Трансформера к современной decoder-only архитектуре, где последняя является “упрощенной” формой исходной версии: attention block берет на себя и функции self-attention, и cross-attention; для обработки входной и выходной последовательности мы используем один набор параметров, а не отдельно энкодер и декодер; attention теперь не bidirectional, а unidirectional

Интересную мысль он еще говорит в Q&A части: он тоже повторяет мнение, что архитектура не так уж и важна, а вот настоящий боттлнек – это learning objectives. Например, в том, что в обучающих датасетах у нас есть всего один “эталонный” ответ, даже когда вопрос поставлен так широко, что можно ответить кучей разных способов. Отчасти это решается переходом от maximum likelihood estimation к RLHF и всякому RL в целом

Еще он говорит, что ресерч комьюнити тебя поощряет, когда ты что-то добавляешь к модели, а не убираешь. Но тут кажется с ним можно не согласиться, так как есть уже целый жанр папир “убираем из трансформера все” (или делаем линейным, или сильно урезаем):
- Your Transformer is Secretly Linear
- Убираем poistional encoding: The Impact of Positional Encoding on Length Generalization in Transformers
- Убираем аттеншн: Pretraining Without Attention, Mamba: Linear-Time Sequence Modeling with Selective State Spaces и прочие RWKV
- Убираем большую часть KV cache, MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding



group-telegram.com/def_model_train/1036
Create:
Last Update:

Посмотрела выступление Jason Wei и Hyung Won Chung (оба из OpenAI) в Стенфорде, записанное пару месяцев назад. Первая часть от Jason Wei несет в себе довольно очевидный посыл – компьют решает все и с достаточным компьютом вы можете дождаться того момента, когда у модели появятся emergent capabilities. Hyung Won Chung продолжает эту тему, но немного с другой стороны

Он говорит: да, дешевый компьют – главный тренд, который определяет развитие ресерча, но не единственный. Как только мы начинаем заниматься каким-нибудь ML, мы сразу решаем научить модель думать в соответствии в тем, как нам кажется устроены механизмы нашего собственного мышления (teach model how we think we think). При этом то, как мы сами думаем, мы тоже не до конца понимаем

В итоге такие модели со встроенным индуктивным баесом довольно хорошо себя ведут, когда компьюта у нас мало. Например, если мы фитим регрессию на паре тысяч примеров, то нам очень помогает, что мы наложили на модель какую-то ограничивающую линейную структуру – без нее она бы не выучила ничего. Проблемы начинаются, если мы хотим, чтобы какая-нибудь модель хорошо выучила кучу разных примеров, при чем желательно unsupervised, разных модальностей, с разными инструкциями и тд

Вот в таком сеттинге наложение на модель каких-то ограничений и уменьшение степеней свободы стреляет нам в ногу и становится боттлнеком. Поэтому, по мнению Hyung’а, тренд в AI – это разработка все более общих методов с все более слабыми modelling assumption. При современном дешевом компьюте, мы можем дождаться, когда такая “бесструктурная” модель сама распознает какие-то паттерны в данных, а не будет полагаться на какие-то вспомогательные эвристики, наложенные ресерчерами

Как пример Hyung рассматривает эволюцию от Трансформера к современной decoder-only архитектуре, где последняя является “упрощенной” формой исходной версии: attention block берет на себя и функции self-attention, и cross-attention; для обработки входной и выходной последовательности мы используем один набор параметров, а не отдельно энкодер и декодер; attention теперь не bidirectional, а unidirectional

Интересную мысль он еще говорит в Q&A части: он тоже повторяет мнение, что архитектура не так уж и важна, а вот настоящий боттлнек – это learning objectives. Например, в том, что в обучающих датасетах у нас есть всего один “эталонный” ответ, даже когда вопрос поставлен так широко, что можно ответить кучей разных способов. Отчасти это решается переходом от maximum likelihood estimation к RLHF и всякому RL в целом

Еще он говорит, что ресерч комьюнити тебя поощряет, когда ты что-то добавляешь к модели, а не убираешь. Но тут кажется с ним можно не согласиться, так как есть уже целый жанр папир “убираем из трансформера все” (или делаем линейным, или сильно урезаем):
- Your Transformer is Secretly Linear
- Убираем poistional encoding: The Impact of Positional Encoding on Length Generalization in Transformers
- Убираем аттеншн: Pretraining Without Attention, Mamba: Linear-Time Sequence Modeling with Selective State Spaces и прочие RWKV
- Убираем большую часть KV cache, MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding

BY я обучала одну модель




Share with your friend now:
group-telegram.com/def_model_train/1036

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips.
from no


Telegram я обучала одну модель
FROM American