Notice: file_put_contents(): Write of 6336 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 16384 of 22720 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Start Career in DS | Telegram Webview: start_ds/475 -
Telegram Group & Telegram Channel
⚔️🤖 Эволюция Трансформеров: отличие GPT-моделей от BERT-моделей

Продолжая линейку статей по Трансформерам, сегодня поговорим про GPT-like и BERT-like модели и погрузимся в детали их работы, чтобы понять ключевые отличия и способы применения.

❗️BERT и GPT созданы на основе архитектуры Transformer, который мы описывали тут.

BERT (Bidirectional Encoder Representations from Transformers) - это модель, построенная лишь на Encoder-блоках базового Трансформера.
Базовая модель BERT обучалась на двух задачах: Masked Language Modeling (предсказание замаксированных слов в предложении, учитывая контекст с двух сторон) и Next Sentence Prediction (предсказание является ли последовательность B продолжением последовательности А).

Именно благодаря подходу с обучением на MLM, BERT научилcя справляться с задачами, требующими глубокого семантического анализа текста, например, определение тональности текста, извлечение именованных сущностей (названий городов, имен людей и т.д.) и понимание связей между предложениями.

GPT (Generative Pre-trained Transformer) - это модель, разработанная компанией OpenAI. Архитектура строится только на Decoder-блоках, взятых из базового Трансформера, основная цель которых - решать задачу языкового моделирования, то есть предсказывать следующий кусок текста на основе предыдущего контекста. Это может быть генерация диалогов, написание статей, создание творческих текстов и даже программирование.

🔝Современные аналоги:

Для BERT-моделей существуют следующие ключевые аналоги:

- RoBERTa: Улучшенная версия BERT, обученная только на задаче MLM (Masked Language Modeling) на больших объемах данных.
- DistilBERT: Уменьшенная (дистилированная) и более быстрая версия BERT, сохраняющая 97% качества на разных задачах при меньших размерах на 40%.
- XLM, ALBERT и т.д.

Для GPT-моделей первая версия была представлена в 2018 году, а затем последовали её улучшенные версии, такие как:

- GPT-2, GPT-3, InstructGPT
- GPT-3.5: Версия GPT от OpenAI, способная выполнять огромное количество задач благодаря 175 миллиардам параметров.
- GPT-4: Следующее поколение моделей, с еще большими языковыми и мультимодальными возможностями.

📚 Чтение - мать учения:

- BERT - в двух словах, подойдет для новичков.
- Ещё немного про BERT.
- GPT для чайников на Хабре.
- Простое руководство по дистиляции BERT.
- Простенький список с основными Pre-train задачами в NLP.
- BERT и его вариации на YouTube.
- Репозиторий с картинкой дерева эволюции NLP-моделей.

Не забывайте ставить лайки❤️ и огоньки🔥!
Пишите свои вопросы, комментарии и предложения под постом!
До встречи👋🏻
41👍5🔥5



group-telegram.com/start_ds/475
Create:
Last Update:

⚔️🤖 Эволюция Трансформеров: отличие GPT-моделей от BERT-моделей

Продолжая линейку статей по Трансформерам, сегодня поговорим про GPT-like и BERT-like модели и погрузимся в детали их работы, чтобы понять ключевые отличия и способы применения.

❗️BERT и GPT созданы на основе архитектуры Transformer, который мы описывали тут.

BERT (Bidirectional Encoder Representations from Transformers) - это модель, построенная лишь на Encoder-блоках базового Трансформера.
Базовая модель BERT обучалась на двух задачах: Masked Language Modeling (предсказание замаксированных слов в предложении, учитывая контекст с двух сторон) и Next Sentence Prediction (предсказание является ли последовательность B продолжением последовательности А).

Именно благодаря подходу с обучением на MLM, BERT научилcя справляться с задачами, требующими глубокого семантического анализа текста, например, определение тональности текста, извлечение именованных сущностей (названий городов, имен людей и т.д.) и понимание связей между предложениями.

GPT (Generative Pre-trained Transformer) - это модель, разработанная компанией OpenAI. Архитектура строится только на Decoder-блоках, взятых из базового Трансформера, основная цель которых - решать задачу языкового моделирования, то есть предсказывать следующий кусок текста на основе предыдущего контекста. Это может быть генерация диалогов, написание статей, создание творческих текстов и даже программирование.

🔝Современные аналоги:

Для BERT-моделей существуют следующие ключевые аналоги:

- RoBERTa: Улучшенная версия BERT, обученная только на задаче MLM (Masked Language Modeling) на больших объемах данных.
- DistilBERT: Уменьшенная (дистилированная) и более быстрая версия BERT, сохраняющая 97% качества на разных задачах при меньших размерах на 40%.
- XLM, ALBERT и т.д.

Для GPT-моделей первая версия была представлена в 2018 году, а затем последовали её улучшенные версии, такие как:

- GPT-2, GPT-3, InstructGPT
- GPT-3.5: Версия GPT от OpenAI, способная выполнять огромное количество задач благодаря 175 миллиардам параметров.
- GPT-4: Следующее поколение моделей, с еще большими языковыми и мультимодальными возможностями.

📚 Чтение - мать учения:

- BERT - в двух словах, подойдет для новичков.
- Ещё немного про BERT.
- GPT для чайников на Хабре.
- Простое руководство по дистиляции BERT.
- Простенький список с основными Pre-train задачами в NLP.
- BERT и его вариации на YouTube.
- Репозиторий с картинкой дерева эволюции NLP-моделей.

Не забывайте ставить лайки❤️ и огоньки🔥!
Пишите свои вопросы, комментарии и предложения под постом!
До встречи👋🏻

BY Start Career in DS


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/start_ds/475

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. Founder Pavel Durov says tech is meant to set you free There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine.
from vn


Telegram Start Career in DS
FROM American