Telegram Group & Telegram Channel
🦖 Tokasaurus — универсальный токенизатор с поддержкой 70+ языков

Tokasaurus — это быстрый и лёгкий инструмент для токенизации текста, созданный на базе библиотеки tokenizers от Hugging Face. Он поддерживает более 70 языков программирования и естественных языков.

🔍 Что умеет Tokasaurus:

✂️ Разбивает текст на токены для языковых моделей
🧠 Поддерживает GPT-совместимые токенизаторы (tiktoken, BPE и другие)
🌍 Работает с Python, JavaScript, C++, Rust, Markdown, JSON, YAML и многими другими
Очень быстрый — написан на Rust с Python-обёрткой
📦 Используется как CLI, Python-библиотека или Web API


pip install tokasaurus

🧪 Пример использования (Python):

from tokasaurus import tokenize

tokens = tokenize("def hello(): print('Hi')", model="gpt2")
print(tokens)


🎯 Кому подойдёт:

• Тем, кто работает с LLM
• Для оценки длины prompt'ов
• Для предобработки кода и текста
• Для интеграции в пайплайны, IDE, аналитические инструменты

🔗 GitHub: github.com/ScalingIntelligence/tokasaurus

💡 Если тебе нужен универсальный и быстрый токенизатор — попробуй Tokasaurus.

@data_analysis_ml



group-telegram.com/data_analysis_ml/3639
Create:
Last Update:

🦖 Tokasaurus — универсальный токенизатор с поддержкой 70+ языков

Tokasaurus — это быстрый и лёгкий инструмент для токенизации текста, созданный на базе библиотеки tokenizers от Hugging Face. Он поддерживает более 70 языков программирования и естественных языков.

🔍 Что умеет Tokasaurus:

✂️ Разбивает текст на токены для языковых моделей
🧠 Поддерживает GPT-совместимые токенизаторы (tiktoken, BPE и другие)
🌍 Работает с Python, JavaScript, C++, Rust, Markdown, JSON, YAML и многими другими
Очень быстрый — написан на Rust с Python-обёрткой
📦 Используется как CLI, Python-библиотека или Web API


pip install tokasaurus

🧪 Пример использования (Python):


from tokasaurus import tokenize

tokens = tokenize("def hello(): print('Hi')", model="gpt2")
print(tokens)


🎯 Кому подойдёт:

• Тем, кто работает с LLM
• Для оценки длины prompt'ов
• Для предобработки кода и текста
• Для интеграции в пайплайны, IDE, аналитические инструменты

🔗 GitHub: github.com/ScalingIntelligence/tokasaurus

💡 Если тебе нужен универсальный и быстрый токенизатор — попробуй Tokasaurus.

@data_analysis_ml

BY Анализ данных (Data analysis)




Share with your friend now:
group-telegram.com/data_analysis_ml/3639

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. Despite Telegram's origins, its approach to users' security has privacy advocates worried. Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels.
from ye


Telegram Анализ данных (Data analysis)
FROM American