Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/start_ds/--): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Start Career in DS | Telegram Webview: start_ds/475 -
Telegram Group & Telegram Channel
⚔️🤖 Эволюция Трансформеров: отличие GPT-моделей от BERT-моделей

Продолжая линейку статей по Трансформерам, сегодня поговорим про GPT-like и BERT-like модели и погрузимся в детали их работы, чтобы понять ключевые отличия и способы применения.

❗️BERT и GPT созданы на основе архитектуры Transformer, который мы описывали тут.

BERT (Bidirectional Encoder Representations from Transformers) - это модель, построенная лишь на Encoder-блоках базового Трансформера.
Базовая модель BERT обучалась на двух задачах: Masked Language Modeling (предсказание замаксированных слов в предложении, учитывая контекст с двух сторон) и Next Sentence Prediction (предсказание является ли последовательность B продолжением последовательности А).

Именно благодаря подходу с обучением на MLM, BERT научилcя справляться с задачами, требующими глубокого семантического анализа текста, например, определение тональности текста, извлечение именованных сущностей (названий городов, имен людей и т.д.) и понимание связей между предложениями.

GPT (Generative Pre-trained Transformer) - это модель, разработанная компанией OpenAI. Архитектура строится только на Decoder-блоках, взятых из базового Трансформера, основная цель которых - решать задачу языкового моделирования, то есть предсказывать следующий кусок текста на основе предыдущего контекста. Это может быть генерация диалогов, написание статей, создание творческих текстов и даже программирование.

🔝Современные аналоги:

Для BERT-моделей существуют следующие ключевые аналоги:

- RoBERTa: Улучшенная версия BERT, обученная только на задаче MLM (Masked Language Modeling) на больших объемах данных.
- DistilBERT: Уменьшенная (дистилированная) и более быстрая версия BERT, сохраняющая 97% качества на разных задачах при меньших размерах на 40%.
- XLM, ALBERT и т.д.

Для GPT-моделей первая версия была представлена в 2018 году, а затем последовали её улучшенные версии, такие как:

- GPT-2, GPT-3, InstructGPT
- GPT-3.5: Версия GPT от OpenAI, способная выполнять огромное количество задач благодаря 175 миллиардам параметров.
- GPT-4: Следующее поколение моделей, с еще большими языковыми и мультимодальными возможностями.

📚 Чтение - мать учения:

- BERT - в двух словах, подойдет для новичков.
- Ещё немного про BERT.
- GPT для чайников на Хабре.
- Простое руководство по дистиляции BERT.
- Простенький список с основными Pre-train задачами в NLP.
- BERT и его вариации на YouTube.
- Репозиторий с картинкой дерева эволюции NLP-моделей.

Не забывайте ставить лайки❤️ и огоньки🔥!
Пишите свои вопросы, комментарии и предложения под постом!
До встречи👋🏻
41👍5🔥5



group-telegram.com/start_ds/475
Create:
Last Update:

⚔️🤖 Эволюция Трансформеров: отличие GPT-моделей от BERT-моделей

Продолжая линейку статей по Трансформерам, сегодня поговорим про GPT-like и BERT-like модели и погрузимся в детали их работы, чтобы понять ключевые отличия и способы применения.

❗️BERT и GPT созданы на основе архитектуры Transformer, который мы описывали тут.

BERT (Bidirectional Encoder Representations from Transformers) - это модель, построенная лишь на Encoder-блоках базового Трансформера.
Базовая модель BERT обучалась на двух задачах: Masked Language Modeling (предсказание замаксированных слов в предложении, учитывая контекст с двух сторон) и Next Sentence Prediction (предсказание является ли последовательность B продолжением последовательности А).

Именно благодаря подходу с обучением на MLM, BERT научилcя справляться с задачами, требующими глубокого семантического анализа текста, например, определение тональности текста, извлечение именованных сущностей (названий городов, имен людей и т.д.) и понимание связей между предложениями.

GPT (Generative Pre-trained Transformer) - это модель, разработанная компанией OpenAI. Архитектура строится только на Decoder-блоках, взятых из базового Трансформера, основная цель которых - решать задачу языкового моделирования, то есть предсказывать следующий кусок текста на основе предыдущего контекста. Это может быть генерация диалогов, написание статей, создание творческих текстов и даже программирование.

🔝Современные аналоги:

Для BERT-моделей существуют следующие ключевые аналоги:

- RoBERTa: Улучшенная версия BERT, обученная только на задаче MLM (Masked Language Modeling) на больших объемах данных.
- DistilBERT: Уменьшенная (дистилированная) и более быстрая версия BERT, сохраняющая 97% качества на разных задачах при меньших размерах на 40%.
- XLM, ALBERT и т.д.

Для GPT-моделей первая версия была представлена в 2018 году, а затем последовали её улучшенные версии, такие как:

- GPT-2, GPT-3, InstructGPT
- GPT-3.5: Версия GPT от OpenAI, способная выполнять огромное количество задач благодаря 175 миллиардам параметров.
- GPT-4: Следующее поколение моделей, с еще большими языковыми и мультимодальными возможностями.

📚 Чтение - мать учения:

- BERT - в двух словах, подойдет для новичков.
- Ещё немного про BERT.
- GPT для чайников на Хабре.
- Простое руководство по дистиляции BERT.
- Простенький список с основными Pre-train задачами в NLP.
- BERT и его вариации на YouTube.
- Репозиторий с картинкой дерева эволюции NLP-моделей.

Не забывайте ставить лайки❤️ и огоньки🔥!
Пишите свои вопросы, комментарии и предложения под постом!
До встречи👋🏻

BY Start Career in DS


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/start_ds/475

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts.
from br


Telegram Start Career in DS
FROM American