Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/start_ds/--): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Start Career in DS | Telegram Webview: start_ds/475 -
Telegram Group & Telegram Channel
⚔️🤖 Эволюция Трансформеров: отличие GPT-моделей от BERT-моделей

Продолжая линейку статей по Трансформерам, сегодня поговорим про GPT-like и BERT-like модели и погрузимся в детали их работы, чтобы понять ключевые отличия и способы применения.

❗️BERT и GPT созданы на основе архитектуры Transformer, который мы описывали тут.

BERT (Bidirectional Encoder Representations from Transformers) - это модель, построенная лишь на Encoder-блоках базового Трансформера.
Базовая модель BERT обучалась на двух задачах: Masked Language Modeling (предсказание замаксированных слов в предложении, учитывая контекст с двух сторон) и Next Sentence Prediction (предсказание является ли последовательность B продолжением последовательности А).

Именно благодаря подходу с обучением на MLM, BERT научилcя справляться с задачами, требующими глубокого семантического анализа текста, например, определение тональности текста, извлечение именованных сущностей (названий городов, имен людей и т.д.) и понимание связей между предложениями.

GPT (Generative Pre-trained Transformer) - это модель, разработанная компанией OpenAI. Архитектура строится только на Decoder-блоках, взятых из базового Трансформера, основная цель которых - решать задачу языкового моделирования, то есть предсказывать следующий кусок текста на основе предыдущего контекста. Это может быть генерация диалогов, написание статей, создание творческих текстов и даже программирование.

🔝Современные аналоги:

Для BERT-моделей существуют следующие ключевые аналоги:

- RoBERTa: Улучшенная версия BERT, обученная только на задаче MLM (Masked Language Modeling) на больших объемах данных.
- DistilBERT: Уменьшенная (дистилированная) и более быстрая версия BERT, сохраняющая 97% качества на разных задачах при меньших размерах на 40%.
- XLM, ALBERT и т.д.

Для GPT-моделей первая версия была представлена в 2018 году, а затем последовали её улучшенные версии, такие как:

- GPT-2, GPT-3, InstructGPT
- GPT-3.5: Версия GPT от OpenAI, способная выполнять огромное количество задач благодаря 175 миллиардам параметров.
- GPT-4: Следующее поколение моделей, с еще большими языковыми и мультимодальными возможностями.

📚 Чтение - мать учения:

- BERT - в двух словах, подойдет для новичков.
- Ещё немного про BERT.
- GPT для чайников на Хабре.
- Простое руководство по дистиляции BERT.
- Простенький список с основными Pre-train задачами в NLP.
- BERT и его вариации на YouTube.
- Репозиторий с картинкой дерева эволюции NLP-моделей.

Не забывайте ставить лайки❤️ и огоньки🔥!
Пишите свои вопросы, комментарии и предложения под постом!
До встречи👋🏻
41👍5🔥5



group-telegram.com/start_ds/475
Create:
Last Update:

⚔️🤖 Эволюция Трансформеров: отличие GPT-моделей от BERT-моделей

Продолжая линейку статей по Трансформерам, сегодня поговорим про GPT-like и BERT-like модели и погрузимся в детали их работы, чтобы понять ключевые отличия и способы применения.

❗️BERT и GPT созданы на основе архитектуры Transformer, который мы описывали тут.

BERT (Bidirectional Encoder Representations from Transformers) - это модель, построенная лишь на Encoder-блоках базового Трансформера.
Базовая модель BERT обучалась на двух задачах: Masked Language Modeling (предсказание замаксированных слов в предложении, учитывая контекст с двух сторон) и Next Sentence Prediction (предсказание является ли последовательность B продолжением последовательности А).

Именно благодаря подходу с обучением на MLM, BERT научилcя справляться с задачами, требующими глубокого семантического анализа текста, например, определение тональности текста, извлечение именованных сущностей (названий городов, имен людей и т.д.) и понимание связей между предложениями.

GPT (Generative Pre-trained Transformer) - это модель, разработанная компанией OpenAI. Архитектура строится только на Decoder-блоках, взятых из базового Трансформера, основная цель которых - решать задачу языкового моделирования, то есть предсказывать следующий кусок текста на основе предыдущего контекста. Это может быть генерация диалогов, написание статей, создание творческих текстов и даже программирование.

🔝Современные аналоги:

Для BERT-моделей существуют следующие ключевые аналоги:

- RoBERTa: Улучшенная версия BERT, обученная только на задаче MLM (Masked Language Modeling) на больших объемах данных.
- DistilBERT: Уменьшенная (дистилированная) и более быстрая версия BERT, сохраняющая 97% качества на разных задачах при меньших размерах на 40%.
- XLM, ALBERT и т.д.

Для GPT-моделей первая версия была представлена в 2018 году, а затем последовали её улучшенные версии, такие как:

- GPT-2, GPT-3, InstructGPT
- GPT-3.5: Версия GPT от OpenAI, способная выполнять огромное количество задач благодаря 175 миллиардам параметров.
- GPT-4: Следующее поколение моделей, с еще большими языковыми и мультимодальными возможностями.

📚 Чтение - мать учения:

- BERT - в двух словах, подойдет для новичков.
- Ещё немного про BERT.
- GPT для чайников на Хабре.
- Простое руководство по дистиляции BERT.
- Простенький список с основными Pre-train задачами в NLP.
- BERT и его вариации на YouTube.
- Репозиторий с картинкой дерева эволюции NLP-моделей.

Не забывайте ставить лайки❤️ и огоньки🔥!
Пишите свои вопросы, комментарии и предложения под постом!
До встречи👋🏻

BY Start Career in DS


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/start_ds/475

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content.
from cn


Telegram Start Career in DS
FROM American