Официальный сайт Федерального государственного
бюджетного учреждения «Дом народов России»

31 декабря 2025

Подготовка корпусов языков народов России, включая языки коренных малочисленных народов, для наполнения онлайн-переводчиков

Цифровое равенство: языки народов России в сервисах «Яндекс» и GigaChat

В современном мире сохранение культурного наследия неразрывно связано с цифровыми технологиями. Чтобы язык продолжал жить, он должен звучать не только в семьях и школах, но и в смартфонах, поисковых системах и нейросетях. В 2025 году проект по включению языков народов России в глобальную цифровую среду вышел на новый качественный уровень.

Масштаб и миссия проекта

Основная цель инициативы — создание равных условий для всех языков народов России в цифровом пространстве. Под руководством Дома народов России и при поддержке ФАДН России реализуется комплексная программа по подготовке языковых корпусов — массивов данных, необходимых для обучения современных алгоритмов перевода и искусственного интеллекта.

Ключевые задачи включают:

  • Обеспечение систем автоматического перевода для всех языков народов РФ.
  • Внедрение передовых ИТ-решений от научных организаций, бизнеса и языковых активистов.
  • Полноценное функционирование национальных языков в повседневной цифровой коммуникации.

Яндекс Переводчик: Новые горизонты

Работа по наполнению сервиса «Яндекс Переводчик» стартовала в 2023 году. Для координации процесса была создана специальная рабочая группа при ФАДН России, объединившая представителей 20 регионов, ученых и общественных деятелей.

Результаты 2025 года

На текущий момент в сервисе произошли значительные обновления:

  • Новые языки: В «Яндекс Переводчик» успешно интегрированы тувинский, коми, мокшанский, эрзянский, кабардино-черкесский, карачаево-балкарский, бурятский, абазинский, ногайский и мансийский языки.

  • Речевые технологии: Для башкирского, марийского, чувашского и удмуртского языков теперь доступны технологии синтеза и распознавания речи.

  • Качество перевода: Существенно улучшены алгоритмы перевода для удмуртского языка.

Всего работа ведется над 35 языками, включая такие редкие диалекты, как южноселькупский (нарымский диалект).


GigaChat и Искусственный Интеллект

С 2025 года Дом народов России совместно с ПАО «Сбербанк» начал амбициозный проект по обучению нейросети GigaChat языкам народов России. Это позволит пользователям общаться с искусственным интеллектом на родном языке, получать консультации и генерировать тексты.

Текущий статус:

  • В проекте задействовано 17 субъектов РФ.
  • Ведется работа над 20 языками, среди которых татарский, якутский, чеченский, лезгинский, осетинский и многие другие.

География и участники

Проект уникален своим охватом и объединением усилий государства, бизнеса и общества. В регионах сформированы рабочие группы, которые занимаются «разметкой» данных и проверкой корректности машинного перевода.

Список языков, охваченных проектом (Яндекс и Сбер):

  • Север и Сибирь: Алтайский, вепсский, карельский, мансийский, ненецкий, чукотский, тувинский, хакасский и др.

     

  • Кавказ: Аварский, даргинский, ингушский, кумыкский, лакский, лезгинский, табасаранский и др.
  • Поволжье и Центр: Башкирский, марийский, мордовские (мокша, эрзя), татарский, удмуртский, чувашский и др.

  • Крым: Крымскотатарский.


Полезные материалы