Образование

Барнаульские студенты учат нейросети переводу с жестового языка

Светлана Ермошина

27 сентября 2025 10:10

Сразу два барнаульских студента вышли в финал конкурса «Лучшие проекты информатизации на Алтае» со своими работами по автоматизированному переводу с русского жестового языка. Социально значимую тему молодые разработчики решают с помощью цифровых технологий.

Фото: пресс-служба АлтГТУ
Фото: пресс-служба АлтГТУ

В реальном времени 

Студентка АлтГТУ Дарья Функ разрабатывает инновационное программное обеспечение, способное в реальном времени переводить жесты РЖЯ в текст или речь. Проект представляет собой веб- и десктоп-приложение, использующее современные технологии машинного обучения и компьютерного зрения для распознавания жестов. Приложение анализирует видеопоток с камеры, выделяет ключевые точки тела, рук и лица, а затем классифицирует жесты с использованием гибридной нейронной сети.

На тестовом наборе данных приложение показало высокую точность и способность работать в реальном времени, то есть удобство для повседневного использования. Важна и безопасность передачи данных: для этого в проекте предусмотрено обеспечение безопасного обмена данными между приложением и нейронной сетью с использованием протоколов шифрования. 

В отличие от сервисов, ориентированных на универсальные жесты, барнаульские разработчики создают приложения специально для русского жестового языка. К слову, под РЖЯ уже созданы программные решения, распознающие звучащую речь и переводящие её на жестовый язык. Тем не менее разработка универсального и точного распознавателя РЖЯ остается актуальной задачей, требующей адаптации современных алгоритмов.

— Разработанная модель будет предназначаться для распознавания жестового языка на основе временных последовательностей ключевых точек. Кроме этого, сервис сможет обрабатывать пропущенные кадры, учитывать динамику жестов. Модель способна эффективно работать с зашумленными данными и вариациями в выполнении жестов разными людьми, — изложила Дарья Функ в презентации проекта. — Разработанное программное обеспечение является кроссплатформенным и поддерживает работу на разных операционных системах. При реализации десктоп- и веб-версий приложения акцент сделан на простоту. Использован крупный шрифт при переводе, область перевода расположена в нижней части интерфейса, в случае отсутствия жестов в кадре в качестве перевода стоит прочерк. 

С учётом контекста 

Особенность разработки Данила Голотовского, студента факультета информационных технологий АлтГТУ, — комбинированный подход, позволяющий переводить не только отдельные жесты, но и их последовательности в связный текст. Его проект — это веб-платформа, которая, аналогично приложению Дарьи, получает видеосигнал с камеры, выделяет и классифицирует жесты, а затем преобразует их в текстовые предложения. Но у каждой разработки есть своя специфика.

— Алгоритм скользящего окна с перекрытием оптимизирован для непрерывного распознавания жестов, что позволяет учитывать контекст между соседними сегментами видео. Этот подход повышает точность распознавания последовательностей жестов, — поясняет Данил. — Существующие отечественные инициативы ориентированы на распознавание изолированных жестов, а не последовательностей с учетом грамматики.

В основе разработки Данила Голотовского лежит объединение возможностей компьютерного зрения и лингвистической обработки. Система располагает базой данных с 1000 видеопримерами жестов для обучения пользователей, причем на каждый жест приведено 20 примеров, выполненных разными людьми.

Для использования приложения достаточно обычной веб-камеры, встроенной в ноутбук. Пользователь может запускать и останавливать видео, а полученный перевод его слов будет отображаться в окне, похожем на чат.

— Мой проект особенно важен для повышения цифровой доступности для людей с нарушениями слуха, которых в России около 150 тысяч, — отмечает Данил Голотовский. — Отсутствие автоматизированных решений для перевода русского жестового языка в текст усложняет получение образования, трудоустройство и социальную адаптацию. Предлагаемая мной разработка направлена на решение данной проблемы, поскольку автоматический перевод позволяет общаться без сурдопереводчика, что принципиально важно в различных ситуациях.

Проект может эволюционировать в полноценный продукт для повседневного использования.

— Текущая реализация имеет ряд ограничений, которые необходимо преодолеть для использования в реальных условиях, — рассуждает Данил. — Модель достигает точности 64% на тестовом наборе данных, что недостаточно для надежного перевода. Качество распознавания зависит от освещения, фона и характеристик камеры. Прототип не рассчитан на одновременное использование многими пользователями, что ограничивает его применимость в масштабных сценариях. Шаги к улучшению — в повышении точности: расширить датасет, добавив больше примеров жестов, с привлечением носителей РЖЯ, внедрить дообучение модели на данных, собранных от пользователей через обратную связь. Необходимый уровень точности для реального использования должен быть выше 80–90%.

Сейчас веб-приложение позволяет в реальном времени захватывать видеопоток с веб-камеры, классифицировать жесты и формировать связный текст на русском языке. В дальнейшем автор видит перспективу реализации обработки жестов в реальном времени, возможен и обратный перевод с помощью 2D-аватара и технологий захвата ключевых точек рук.

Внедрение приложений-переводчиков с русского жестового языка позволит русскоговорящим людям понимать жесты, переводя их в текст.

Лента