Подготовка корпусов языков народов России, включая языки коренных малочисленных народов, для наполнения онлайн-переводчиков
Цифровое равенство: языки народов России в сервисах «Яндекс» и GigaChat
В современном мире сохранение культурного наследия неразрывно связано с цифровыми технологиями. Чтобы язык продолжал жить, он должен звучать не только в семьях и школах, но и в смартфонах, поисковых системах и нейросетях. В 2025 году проект по включению языков народов России в глобальную цифровую среду вышел на новый качественный уровень.
Масштаб и миссия проекта
Основная цель инициативы — создание равных условий для всех языков народов России в цифровом пространстве. Под руководством Дома народов России и при поддержке ФАДН России реализуется комплексная программа по подготовке языковых корпусов — массивов данных, необходимых для обучения современных алгоритмов перевода и искусственного интеллекта.
Ключевые задачи включают:
- Обеспечение систем автоматического перевода для всех языков народов РФ.
- Внедрение передовых ИТ-решений от научных организаций, бизнеса и языковых активистов.
- Полноценное функционирование национальных языков в повседневной цифровой коммуникации.
Яндекс Переводчик: Новые горизонты
Работа по наполнению сервиса «Яндекс Переводчик» стартовала в 2023 году. Для координации процесса была создана специальная рабочая группа при ФАДН России, объединившая представителей 20 регионов, ученых и общественных деятелей.
Результаты 2025 года
На текущий момент в сервисе произошли значительные обновления:
-
Новые языки: В «Яндекс Переводчик» успешно интегрированы тувинский, коми, мокшанский, эрзянский, кабардино-черкесский, карачаево-балкарский, бурятский, абазинский, ногайский и мансийский языки.
-
Речевые технологии: Для башкирского, марийского, чувашского и удмуртского языков теперь доступны технологии синтеза и распознавания речи.
-
Качество перевода: Существенно улучшены алгоритмы перевода для удмуртского языка.
Всего работа ведется над 35 языками, включая такие редкие диалекты, как южноселькупский (нарымский диалект).
GigaChat и Искусственный Интеллект
С 2025 года Дом народов России совместно с ПАО «Сбербанк» начал амбициозный проект по обучению нейросети GigaChat языкам народов России. Это позволит пользователям общаться с искусственным интеллектом на родном языке, получать консультации и генерировать тексты.
Текущий статус:
- В проекте задействовано 17 субъектов РФ.
- Ведется работа над 20 языками, среди которых татарский, якутский, чеченский, лезгинский, осетинский и многие другие.
География и участники
Проект уникален своим охватом и объединением усилий государства, бизнеса и общества. В регионах сформированы рабочие группы, которые занимаются «разметкой» данных и проверкой корректности машинного перевода.
Список языков, охваченных проектом (Яндекс и Сбер):
-
Север и Сибирь: Алтайский, вепсский, карельский, мансийский, ненецкий, чукотский, тувинский, хакасский и др.
- Кавказ: Аварский, даргинский, ингушский, кумыкский, лакский, лезгинский, табасаранский и др.
-
Поволжье и Центр: Башкирский, марийский, мордовские (мокша, эрзя), татарский, удмуртский, чувашский и др.
-
Крым: Крымскотатарский.