Telegram Group & Telegram Channel
Заблуждение о токенизации и обработке текста

Одним из наиболее распространенных и важных для понимания заблуждений является представление о том, что LLM обрабатывают текст на уровне отдельных букв или символов. Карпати объясняет, что современные языковые модели работают с токенами - фрагментами текста, которые могут представлять части слов, целые слова или даже фразы. Этот процесс токенизации создает словарь из десятков тысяч токенов. Токен при этом состоит не из букв в человеческом понимании. Токен - это набор цифр в таком виде [302, 1618, 19772] (так LLM видит слово strawberry).

Токенизация является корнем многих ограничений LLM, которые пользователи ошибочно приписывают архитектуре или алгоритмам обучения. Классический пример, который приводит Карпати - неспособность модели правильно подсчитать количество букв "r" в слове "strawberry". Поскольку слово может быть токенизировано как "st" + raw" +"berry", модель не имеет прямого доступа к отдельным символам, потому что видит его так [302, 1618, 19772]. Это объясняет, почему мощные языковые модели могут решать сложные математические задачи, но испытывают трудности с простым подсчетом символов.

В экспериментаторской есть раздел с объяснением понятия токен и калькулятор для подсчета количество токенов в тексте:
экспериментаторская.рф/tiktoken
Можете поиграться с этим на досуге.

Это серия постов с заблуждениями об ЛЛМ. Предыдущий здесь.

LawCoder



group-telegram.com/law_coder/195
Create:
Last Update:

Заблуждение о токенизации и обработке текста

Одним из наиболее распространенных и важных для понимания заблуждений является представление о том, что LLM обрабатывают текст на уровне отдельных букв или символов. Карпати объясняет, что современные языковые модели работают с токенами - фрагментами текста, которые могут представлять части слов, целые слова или даже фразы. Этот процесс токенизации создает словарь из десятков тысяч токенов. Токен при этом состоит не из букв в человеческом понимании. Токен - это набор цифр в таком виде [302, 1618, 19772] (так LLM видит слово strawberry).

Токенизация является корнем многих ограничений LLM, которые пользователи ошибочно приписывают архитектуре или алгоритмам обучения. Классический пример, который приводит Карпати - неспособность модели правильно подсчитать количество букв "r" в слове "strawberry". Поскольку слово может быть токенизировано как "st" + raw" +"berry", модель не имеет прямого доступа к отдельным символам, потому что видит его так [302, 1618, 19772]. Это объясняет, почему мощные языковые модели могут решать сложные математические задачи, но испытывают трудности с простым подсчетом символов.

В экспериментаторской есть раздел с объяснением понятия токен и калькулятор для подсчета количество токенов в тексте:
экспериментаторская.рф/tiktoken
Можете поиграться с этим на досуге.

Это серия постов с заблуждениями об ЛЛМ. Предыдущий здесь.

LawCoder

BY LawCoder


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/law_coder/195

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights.
from fr


Telegram LawCoder
FROM American