Telegram Group & Telegram Channel
🦖 Tokasaurus — универсальный токенизатор с поддержкой 70+ языков

Tokasaurus — это быстрый и лёгкий инструмент для токенизации текста, созданный на базе библиотеки tokenizers от Hugging Face. Он поддерживает более 70 языков программирования и естественных языков.

🔍 Что умеет Tokasaurus:

✂️ Разбивает текст на токены для языковых моделей
🧠 Поддерживает GPT-совместимые токенизаторы (tiktoken, BPE и другие)
🌍 Работает с Python, JavaScript, C++, Rust, Markdown, JSON, YAML и многими другими
Очень быстрый — написан на Rust с Python-обёрткой
📦 Используется как CLI, Python-библиотека или Web API


pip install tokasaurus

🧪 Пример использования (Python):

from tokasaurus import tokenize

tokens = tokenize("def hello(): print('Hi')", model="gpt2")
print(tokens)


🎯 Кому подойдёт:

• Тем, кто работает с LLM
• Для оценки длины prompt'ов
• Для предобработки кода и текста
• Для интеграции в пайплайны, IDE, аналитические инструменты

🔗 GitHub: github.com/ScalingIntelligence/tokasaurus

💡 Если тебе нужен универсальный и быстрый токенизатор — попробуй Tokasaurus.

@data_analysis_ml



group-telegram.com/data_analysis_ml/3639
Create:
Last Update:

🦖 Tokasaurus — универсальный токенизатор с поддержкой 70+ языков

Tokasaurus — это быстрый и лёгкий инструмент для токенизации текста, созданный на базе библиотеки tokenizers от Hugging Face. Он поддерживает более 70 языков программирования и естественных языков.

🔍 Что умеет Tokasaurus:

✂️ Разбивает текст на токены для языковых моделей
🧠 Поддерживает GPT-совместимые токенизаторы (tiktoken, BPE и другие)
🌍 Работает с Python, JavaScript, C++, Rust, Markdown, JSON, YAML и многими другими
Очень быстрый — написан на Rust с Python-обёрткой
📦 Используется как CLI, Python-библиотека или Web API


pip install tokasaurus

🧪 Пример использования (Python):


from tokasaurus import tokenize

tokens = tokenize("def hello(): print('Hi')", model="gpt2")
print(tokens)


🎯 Кому подойдёт:

• Тем, кто работает с LLM
• Для оценки длины prompt'ов
• Для предобработки кода и текста
• Для интеграции в пайплайны, IDE, аналитические инструменты

🔗 GitHub: github.com/ScalingIntelligence/tokasaurus

💡 Если тебе нужен универсальный и быстрый токенизатор — попробуй Tokasaurus.

@data_analysis_ml

BY Анализ данных (Data analysis)




Share with your friend now:
group-telegram.com/data_analysis_ml/3639

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. 'Wild West'
from sg


Telegram Анализ данных (Data analysis)
FROM American