Notice: file_put_contents(): Write of 2240 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 20480 of 22720 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Start Career in DS | Telegram Webview: start_ds/475 -
Telegram Group & Telegram Channel
⚔️🤖 Эволюция Трансформеров: отличие GPT-моделей от BERT-моделей

Продолжая линейку статей по Трансформерам, сегодня поговорим про GPT-like и BERT-like модели и погрузимся в детали их работы, чтобы понять ключевые отличия и способы применения.

❗️BERT и GPT созданы на основе архитектуры Transformer, который мы описывали тут.

BERT (Bidirectional Encoder Representations from Transformers) - это модель, построенная лишь на Encoder-блоках базового Трансформера.
Базовая модель BERT обучалась на двух задачах: Masked Language Modeling (предсказание замаксированных слов в предложении, учитывая контекст с двух сторон) и Next Sentence Prediction (предсказание является ли последовательность B продолжением последовательности А).

Именно благодаря подходу с обучением на MLM, BERT научилcя справляться с задачами, требующими глубокого семантического анализа текста, например, определение тональности текста, извлечение именованных сущностей (названий городов, имен людей и т.д.) и понимание связей между предложениями.

GPT (Generative Pre-trained Transformer) - это модель, разработанная компанией OpenAI. Архитектура строится только на Decoder-блоках, взятых из базового Трансформера, основная цель которых - решать задачу языкового моделирования, то есть предсказывать следующий кусок текста на основе предыдущего контекста. Это может быть генерация диалогов, написание статей, создание творческих текстов и даже программирование.

🔝Современные аналоги:

Для BERT-моделей существуют следующие ключевые аналоги:

- RoBERTa: Улучшенная версия BERT, обученная только на задаче MLM (Masked Language Modeling) на больших объемах данных.
- DistilBERT: Уменьшенная (дистилированная) и более быстрая версия BERT, сохраняющая 97% качества на разных задачах при меньших размерах на 40%.
- XLM, ALBERT и т.д.

Для GPT-моделей первая версия была представлена в 2018 году, а затем последовали её улучшенные версии, такие как:

- GPT-2, GPT-3, InstructGPT
- GPT-3.5: Версия GPT от OpenAI, способная выполнять огромное количество задач благодаря 175 миллиардам параметров.
- GPT-4: Следующее поколение моделей, с еще большими языковыми и мультимодальными возможностями.

📚 Чтение - мать учения:

- BERT - в двух словах, подойдет для новичков.
- Ещё немного про BERT.
- GPT для чайников на Хабре.
- Простое руководство по дистиляции BERT.
- Простенький список с основными Pre-train задачами в NLP.
- BERT и его вариации на YouTube.
- Репозиторий с картинкой дерева эволюции NLP-моделей.

Не забывайте ставить лайки❤️ и огоньки🔥!
Пишите свои вопросы, комментарии и предложения под постом!
До встречи👋🏻
41👍5🔥5



group-telegram.com/start_ds/475
Create:
Last Update:

⚔️🤖 Эволюция Трансформеров: отличие GPT-моделей от BERT-моделей

Продолжая линейку статей по Трансформерам, сегодня поговорим про GPT-like и BERT-like модели и погрузимся в детали их работы, чтобы понять ключевые отличия и способы применения.

❗️BERT и GPT созданы на основе архитектуры Transformer, который мы описывали тут.

BERT (Bidirectional Encoder Representations from Transformers) - это модель, построенная лишь на Encoder-блоках базового Трансформера.
Базовая модель BERT обучалась на двух задачах: Masked Language Modeling (предсказание замаксированных слов в предложении, учитывая контекст с двух сторон) и Next Sentence Prediction (предсказание является ли последовательность B продолжением последовательности А).

Именно благодаря подходу с обучением на MLM, BERT научилcя справляться с задачами, требующими глубокого семантического анализа текста, например, определение тональности текста, извлечение именованных сущностей (названий городов, имен людей и т.д.) и понимание связей между предложениями.

GPT (Generative Pre-trained Transformer) - это модель, разработанная компанией OpenAI. Архитектура строится только на Decoder-блоках, взятых из базового Трансформера, основная цель которых - решать задачу языкового моделирования, то есть предсказывать следующий кусок текста на основе предыдущего контекста. Это может быть генерация диалогов, написание статей, создание творческих текстов и даже программирование.

🔝Современные аналоги:

Для BERT-моделей существуют следующие ключевые аналоги:

- RoBERTa: Улучшенная версия BERT, обученная только на задаче MLM (Masked Language Modeling) на больших объемах данных.
- DistilBERT: Уменьшенная (дистилированная) и более быстрая версия BERT, сохраняющая 97% качества на разных задачах при меньших размерах на 40%.
- XLM, ALBERT и т.д.

Для GPT-моделей первая версия была представлена в 2018 году, а затем последовали её улучшенные версии, такие как:

- GPT-2, GPT-3, InstructGPT
- GPT-3.5: Версия GPT от OpenAI, способная выполнять огромное количество задач благодаря 175 миллиардам параметров.
- GPT-4: Следующее поколение моделей, с еще большими языковыми и мультимодальными возможностями.

📚 Чтение - мать учения:

- BERT - в двух словах, подойдет для новичков.
- Ещё немного про BERT.
- GPT для чайников на Хабре.
- Простое руководство по дистиляции BERT.
- Простенький список с основными Pre-train задачами в NLP.
- BERT и его вариации на YouTube.
- Репозиторий с картинкой дерева эволюции NLP-моделей.

Не забывайте ставить лайки❤️ и огоньки🔥!
Пишите свои вопросы, комментарии и предложения под постом!
До встречи👋🏻

BY Start Career in DS


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/start_ds/475

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday. It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists."
from it


Telegram Start Career in DS
FROM American