Telegram Group & Telegram Channel
Завершена работа над первой версией датасета русско-черкесских параллельных текстов. Датасет состоит из около 330 тысяч пар переводов: 220 тысяч на восточном (кабардинском) диалекте и 110 тысяч на западном. Тексты собирались в течение нескольких лет из различных словарей, книг, статей, а также с помощью волонтеров на zedzek.com. Спасибо всем кто принимает участие в сборе данных.

Датасет опубликован в открытом доступе на Hugging Face: https://huggingface.co/datasets/adiga-ai/circassian-parallel-corpus
Любой желающий может использовать его для обучения моделей, в академических и любых других целях.

Главной целью проекта adiga.ai является расширение присутствия черкесского языка в интернете. Поэтому датасет также был передан представителям компаний Яндекс, Гугл и Мета, которые планируют использовать его для обучения своих мультиязычных моделей. Если все пойдет хорошо, то в течение ближайшего года можно рассчитывать на появление черкесского языка в Яндекс Переводчике, Google Переводчике и его поддержку в продуктах компании Meta (facebook, instagram), а также в открытых языковых моделях этих компаний.

* * *

The first version of the Russian-Circassian parallel text dataset has been completed. The dataset consists of ~330,000 translation pairs: 220,000 in the Eastern (Kabardian) dialect and 110,000 in the Western dialect. These texts were compiled over several years from various dictionaries, books, and articles, as well as through contributions from volunteers at zedzek.com. Thanks a lot to everyone who contributed to collecting the data.

The dataset has been made publicly available on Hugging Face:
https://huggingface.co/datasets/adiga-ai/circassian-parallel-corpus
Anyone interested is free to use it for model training, academic research, or any other purposes.

The primary goal of the adiga.ai project is to increase the presence of the Circassian language online. To support this goal, the dataset has also been shared with representatives from Yandex, Google, and Meta, who plan to use it as part of their ongoing projects to train multilingual models. If everything goes well, we can expect Circassian to become available in Yandex Translate, Google Translate, and supported across Meta products (Facebook, Instagram), as well as integrated into open-source language models from these companies within the coming year.
7🔥2413🙏54❤‍🔥3💘1



group-telegram.com/adiga_ai/8
Create:
Last Update:

Завершена работа над первой версией датасета русско-черкесских параллельных текстов. Датасет состоит из около 330 тысяч пар переводов: 220 тысяч на восточном (кабардинском) диалекте и 110 тысяч на западном. Тексты собирались в течение нескольких лет из различных словарей, книг, статей, а также с помощью волонтеров на zedzek.com. Спасибо всем кто принимает участие в сборе данных.

Датасет опубликован в открытом доступе на Hugging Face: https://huggingface.co/datasets/adiga-ai/circassian-parallel-corpus
Любой желающий может использовать его для обучения моделей, в академических и любых других целях.

Главной целью проекта adiga.ai является расширение присутствия черкесского языка в интернете. Поэтому датасет также был передан представителям компаний Яндекс, Гугл и Мета, которые планируют использовать его для обучения своих мультиязычных моделей. Если все пойдет хорошо, то в течение ближайшего года можно рассчитывать на появление черкесского языка в Яндекс Переводчике, Google Переводчике и его поддержку в продуктах компании Meta (facebook, instagram), а также в открытых языковых моделях этих компаний.

* * *

The first version of the Russian-Circassian parallel text dataset has been completed. The dataset consists of ~330,000 translation pairs: 220,000 in the Eastern (Kabardian) dialect and 110,000 in the Western dialect. These texts were compiled over several years from various dictionaries, books, and articles, as well as through contributions from volunteers at zedzek.com. Thanks a lot to everyone who contributed to collecting the data.

The dataset has been made publicly available on Hugging Face:
https://huggingface.co/datasets/adiga-ai/circassian-parallel-corpus
Anyone interested is free to use it for model training, academic research, or any other purposes.

The primary goal of the adiga.ai project is to increase the presence of the Circassian language online. To support this goal, the dataset has also been shared with representatives from Yandex, Google, and Meta, who plan to use it as part of their ongoing projects to train multilingual models. If everything goes well, we can expect Circassian to become available in Yandex Translate, Google Translate, and supported across Meta products (Facebook, Instagram), as well as integrated into open-source language models from these companies within the coming year.

BY adiga.ai




Share with your friend now:
group-telegram.com/adiga_ai/8

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. READ MORE Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips.
from us


Telegram adiga.ai
FROM American