Telegram Group & Telegram Channel
This media is not supported in your browser
VIEW IN TELEGRAM
🔤🤖 Яндекс запускает большой проект — в течение трёх лет в Яндекс Переводчике появятся более 20 новых языков народов России. Первый из них — осетинский — уже доступен пользователям. Также в сервисе появилась поддержка распознавания и синтеза речи для татарского языка, а позже она распространится на другие языки народов России. Рассказываем, почему создание перевода для языков с небольшим количеством носителей — такая сложная задача.

Как работает машинный перевод
В первую очередь — с помощью нейросетей, и Яндекс Переводчик не исключение. Чтобы научить нейросеть переводить, ей показывают параллельные тексты — фрагменты одинакового текста на двух языках. Во время перевода одна нейросеть (энкодер) конвертирует исходный текст в абстрактное представление в виде чисел, а другая (декодер) использует это представление для генерации перевода.

Почему малые языки сложнее
Нейросети не хватает данных — чем больше информации, тем она быстрее учится и реже ошибается. Для этого требуются миллионы пар оригинал/перевод, и для больших языков такие примеры легко найти — на них переведены тысячи известных книг, и нейросеть учится, сравнивая текст с оригиналом. Но для малых языков такого количества текстов не существует — поэтому их называют малоресурсными.

Как решают эту проблему
На помощь приходит лингвистическое сообщество: энтузиасты помогают собирать тексты для обучения. Также улучшать перевод помогают знания о схожих языках. Так, в Яндекс Переводчике одна модель переводит с татарского, якутского и чувашского на русский. Дело в том, что всё это — тюркские языки. Создание единой модели для родственных языков позволяет собирать большой набор параллельных текстов и в итоге добиваться более высокого качества, чем при обучении отдельных моделей для каждого языка.

Подробнее о том, как нейросети учатся переводить на малые языки, мы рассказывали в журнале ТЕХНО.

Подписывайтесь 👉 @techno_yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22656👏40🔥308🤔5😁3🕊2🥱2👎1🤩1



group-telegram.com/techno_yandex/2674
Create:
Last Update:

🔤🤖 Яндекс запускает большой проект — в течение трёх лет в Яндекс Переводчике появятся более 20 новых языков народов России. Первый из них — осетинский — уже доступен пользователям. Также в сервисе появилась поддержка распознавания и синтеза речи для татарского языка, а позже она распространится на другие языки народов России. Рассказываем, почему создание перевода для языков с небольшим количеством носителей — такая сложная задача.

Как работает машинный перевод
В первую очередь — с помощью нейросетей, и Яндекс Переводчик не исключение. Чтобы научить нейросеть переводить, ей показывают параллельные тексты — фрагменты одинакового текста на двух языках. Во время перевода одна нейросеть (энкодер) конвертирует исходный текст в абстрактное представление в виде чисел, а другая (декодер) использует это представление для генерации перевода.

Почему малые языки сложнее
Нейросети не хватает данных — чем больше информации, тем она быстрее учится и реже ошибается. Для этого требуются миллионы пар оригинал/перевод, и для больших языков такие примеры легко найти — на них переведены тысячи известных книг, и нейросеть учится, сравнивая текст с оригиналом. Но для малых языков такого количества текстов не существует — поэтому их называют малоресурсными.

Как решают эту проблему
На помощь приходит лингвистическое сообщество: энтузиасты помогают собирать тексты для обучения. Также улучшать перевод помогают знания о схожих языках. Так, в Яндекс Переводчике одна модель переводит с татарского, якутского и чувашского на русский. Дело в том, что всё это — тюркские языки. Создание единой модели для родственных языков позволяет собирать большой набор параллельных текстов и в итоге добиваться более высокого качества, чем при обучении отдельных моделей для каждого языка.

Подробнее о том, как нейросети учатся переводить на малые языки, мы рассказывали в журнале ТЕХНО.

Подписывайтесь 👉 @techno_yandex

BY ТЕХНО: Яндекс про технологии


Share with your friend now:
group-telegram.com/techno_yandex/2674

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country.
from us


Telegram ТЕХНО: Яндекс про технологии
FROM American