🧠 DataTune — простой способ оптимизировать датасеты для ИИ
Это инструмент с открытым исходным кодом, который помогает улучшать качество датасетов для обучения LLM и других моделей.
Что делает DataTune: ▪ Автоматически находит и удаляет дубликаты ▪ Фильтрует нерелевантные, шумные и некачественные примеры ▪ Сортирует данные по «ценности» — оставляя то, что реально важно ▪ Работает с любыми текстовыми коллекциями (JSONL, TXT, HuggingFace Datasets)
🛠 Основан на embedding-моделях — сравнивает смысловую близость и уникальность примеров. Подходит для: • Fine-tuning LLM • Подготовки eval-наборов • Фильтрации перед RAG
🧠 DataTune — простой способ оптимизировать датасеты для ИИ
Это инструмент с открытым исходным кодом, который помогает улучшать качество датасетов для обучения LLM и других моделей.
Что делает DataTune: ▪ Автоматически находит и удаляет дубликаты ▪ Фильтрует нерелевантные, шумные и некачественные примеры ▪ Сортирует данные по «ценности» — оставляя то, что реально важно ▪ Работает с любыми текстовыми коллекциями (JSONL, TXT, HuggingFace Datasets)
🛠 Основан на embedding-моделях — сравнивает смысловую близость и уникальность примеров. Подходит для: • Fine-tuning LLM • Подготовки eval-наборов • Фильтрации перед RAG
At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors. The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych.
from sg