Завершена работа над первой версией датасета русско-черкесских параллельных текстов. Датасет состоит из около 330 тысяч пар переводов: 220 тысяч на восточном (кабардинском) диалекте и 110 тысяч на западном. Тексты собирались в течение нескольких лет из различных словарей

adiga.ai

Завершена работа над первой версией датасета русско-черкесских параллельных текстов. Датасет состоит из около 330 тысяч пар переводов: 220 тысяч на восточном (кабардинском) диалекте и 110 тысяч на западном. Тексты собирались в течение нескольких лет из различных словарей, книг, статей, а также с помощью волонтеров на zedzek.com. Спасибо всем кто принимает участие в сборе данных.

Датасет опубликован в открытом доступе на Hugging Face: https://huggingface.co/datasets/adiga-ai/circassian-parallel-corpus
Любой желающий может использовать его для обучения моделей, в академических и любых других целях.

Главной целью проекта adiga.ai является расширение присутствия черкесского языка в интернете. Поэтому датасет также был передан представителям компаний Яндекс, Гугл и Мета, которые планируют использовать его для обучения своих мультиязычных моделей. Если все пойдет хорошо, то в течение ближайшего года можно рассчитывать на появление черкесского языка в Яндекс Переводчике, Google Переводчике и его поддержку в продуктах компании Meta (facebook, instagram), а также в открытых языковых моделях этих компаний.

* * *

The first version of the Russian-Circassian parallel text dataset has been completed. The dataset consists of ~330,000 translation pairs: 220,000 in the Eastern (Kabardian) dialect and 110,000 in the Western dialect. These texts were compiled over several years from various dictionaries, books, and articles, as well as through contributions from volunteers at zedzek.com. Thanks a lot to everyone who contributed to collecting the data.

The dataset has been made publicly available on Hugging Face:
https://huggingface.co/datasets/adiga-ai/circassian-parallel-corpus
Anyone interested is free to use it for model training, academic research, or any other purposes.

The primary goal of the adiga.ai project is to increase the presence of the Circassian language online. To support this goal, the dataset has also been shared with representatives from Yandex, Google, and Meta, who plan to use it as part of their ongoing projects to train multilingual models. If everything goes well, we can expect Circassian to become available in Yandex Translate, Google Translate, and supported across Meta products (Facebook, Instagram), as well as integrated into open-source language models from these companies within the coming year.

7🔥24❤13🙏54❤‍🔥3💘1

www.group-telegram.com/us/adiga_ai.com/8

4.87K viewsAug 5 at 08:48

group-telegram.com/adiga_ai/8

Create: 2025-08-05
Last Update: 2025-08-24 03:07:12

BY adiga.ai

Share with your friend now:
group-telegram.com/adiga_ai/8

Telegram | DID YOU KNOW?