Telegram Group & Telegram Channel
Заблуждение о токенизации и обработке текста

Одним из наиболее распространенных и важных для понимания заблуждений является представление о том, что LLM обрабатывают текст на уровне отдельных букв или символов. Карпати объясняет, что современные языковые модели работают с токенами - фрагментами текста, которые могут представлять части слов, целые слова или даже фразы. Этот процесс токенизации создает словарь из десятков тысяч токенов. Токен при этом состоит не из букв в человеческом понимании. Токен - это набор цифр в таком виде [302, 1618, 19772] (так LLM видит слово strawberry).

Токенизация является корнем многих ограничений LLM, которые пользователи ошибочно приписывают архитектуре или алгоритмам обучения. Классический пример, который приводит Карпати - неспособность модели правильно подсчитать количество букв "r" в слове "strawberry". Поскольку слово может быть токенизировано как "st" + raw" +"berry", модель не имеет прямого доступа к отдельным символам, потому что видит его так [302, 1618, 19772]. Это объясняет, почему мощные языковые модели могут решать сложные математические задачи, но испытывают трудности с простым подсчетом символов.

В экспериментаторской есть раздел с объяснением понятия токен и калькулятор для подсчета количество токенов в тексте:
экспериментаторская.рф/tiktoken
Можете поиграться с этим на досуге.

Это серия постов с заблуждениями об ЛЛМ. Предыдущий здесь.

LawCoder



group-telegram.com/law_coder/195
Create:
Last Update:

Заблуждение о токенизации и обработке текста

Одним из наиболее распространенных и важных для понимания заблуждений является представление о том, что LLM обрабатывают текст на уровне отдельных букв или символов. Карпати объясняет, что современные языковые модели работают с токенами - фрагментами текста, которые могут представлять части слов, целые слова или даже фразы. Этот процесс токенизации создает словарь из десятков тысяч токенов. Токен при этом состоит не из букв в человеческом понимании. Токен - это набор цифр в таком виде [302, 1618, 19772] (так LLM видит слово strawberry).

Токенизация является корнем многих ограничений LLM, которые пользователи ошибочно приписывают архитектуре или алгоритмам обучения. Классический пример, который приводит Карпати - неспособность модели правильно подсчитать количество букв "r" в слове "strawberry". Поскольку слово может быть токенизировано как "st" + raw" +"berry", модель не имеет прямого доступа к отдельным символам, потому что видит его так [302, 1618, 19772]. Это объясняет, почему мощные языковые модели могут решать сложные математические задачи, но испытывают трудности с простым подсчетом символов.

В экспериментаторской есть раздел с объяснением понятия токен и калькулятор для подсчета количество токенов в тексте:
экспериментаторская.рф/tiktoken
Можете поиграться с этим на досуге.

Это серия постов с заблуждениями об ЛЛМ. Предыдущий здесь.

LawCoder

BY LawCoder


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/law_coder/195

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

NEWS Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities.
from no


Telegram LawCoder
FROM American