group-telegram.com/techno_yandex/2674
Last Update:
Как работает машинный перевод
В первую очередь — с помощью нейросетей, и Яндекс Переводчик не исключение. Чтобы научить нейросеть переводить, ей показывают параллельные тексты — фрагменты одинакового текста на двух языках. Во время перевода одна нейросеть (энкодер) конвертирует исходный текст в абстрактное представление в виде чисел, а другая (декодер) использует это представление для генерации перевода.
Почему малые языки сложнее
Нейросети не хватает данных — чем больше информации, тем она быстрее учится и реже ошибается. Для этого требуются миллионы пар оригинал/перевод, и для больших языков такие примеры легко найти — на них переведены тысячи известных книг, и нейросеть учится, сравнивая текст с оригиналом. Но для малых языков такого количества текстов не существует — поэтому их называют малоресурсными.
Как решают эту проблему
На помощь приходит лингвистическое сообщество: энтузиасты помогают собирать тексты для обучения. Также улучшать перевод помогают знания о схожих языках. Так, в Яндекс Переводчике одна модель переводит с татарского, якутского и чувашского на русский. Дело в том, что всё это — тюркские языки. Создание единой модели для родственных языков позволяет собирать большой набор параллельных текстов и в итоге добиваться более высокого качества, чем при обучении отдельных моделей для каждого языка.
Подробнее о том, как нейросети учатся переводить на малые языки, мы рассказывали в журнале ТЕХНО.
Подписывайтесь 👉 @techno_yandex