Сразу два барнаульских студента вышли в финал конкурса «Лучшие проекты информатизации на Алтае» со своими работами по автоматизированному переводу с русского жестового языка. Социально значимую тему молодые разработчики решают с помощью цифровых технологий.
В реальном времени
Студентка АлтГТУ Дарья Функ разрабатывает инновационное программное обеспечение, способное в реальном времени переводить жесты РЖЯ в текст или речь. Проект представляет собой веб- и десктоп-приложение, использующее современные технологии машинного обучения и компьютерного зрения для распознавания жестов. Приложение анализирует видеопоток с камеры, выделяет ключевые точки тела, рук и лица, а затем классифицирует жесты с использованием гибридной нейронной сети.
На тестовом наборе данных приложение показало высокую точность и способность работать в реальном времени, то есть удобство для повседневного использования. Важна и безопасность передачи данных: для этого в проекте предусмотрено обеспечение безопасного обмена данными между приложением и нейронной сетью с использованием протоколов шифрования.
В отличие от сервисов, ориентированных на универсальные жесты, барнаульские разработчики создают приложения специально для русского жестового языка. К слову, под РЖЯ уже созданы программные решения, распознающие звучащую речь и переводящие её на жестовый язык. Тем не менее разработка универсального и точного распознавателя РЖЯ остается актуальной задачей, требующей адаптации современных алгоритмов.
— Разработанная модель будет предназначаться для распознавания жестового языка на основе временных последовательностей ключевых точек. Кроме этого, сервис сможет обрабатывать пропущенные кадры, учитывать динамику жестов. Модель способна эффективно работать с зашумленными данными и вариациями в выполнении жестов разными людьми, — изложила Дарья Функ в презентации проекта. — Разработанное программное обеспечение является кроссплатформенным и поддерживает работу на разных операционных системах. При реализации десктоп- и веб-версий приложения акцент сделан на простоту. Использован крупный шрифт при переводе, область перевода расположена в нижней части интерфейса, в случае отсутствия жестов в кадре в качестве перевода стоит прочерк.
С учётом контекста
Особенность разработки Данила Голотовского, студента факультета информационных технологий АлтГТУ, — комбинированный подход, позволяющий переводить не только отдельные жесты, но и их последовательности в связный текст. Его проект — это веб-платформа, которая, аналогично приложению Дарьи, получает видеосигнал с камеры, выделяет и классифицирует жесты, а затем преобразует их в текстовые предложения. Но у каждой разработки есть своя специфика.
— Алгоритм скользящего окна с перекрытием оптимизирован для непрерывного распознавания жестов, что позволяет учитывать контекст между соседними сегментами видео. Этот подход повышает точность распознавания последовательностей жестов, — поясняет Данил. — Существующие отечественные инициативы ориентированы на распознавание изолированных жестов, а не последовательностей с учетом грамматики.
В основе разработки Данила Голотовского лежит объединение возможностей компьютерного зрения и лингвистической обработки. Система располагает базой данных с 1000 видеопримерами жестов для обучения пользователей, причем на каждый жест приведено 20 примеров, выполненных разными людьми.
Для использования приложения достаточно обычной веб-камеры, встроенной в ноутбук. Пользователь может запускать и останавливать видео, а полученный перевод его слов будет отображаться в окне, похожем на чат.
— Мой проект особенно важен для повышения цифровой доступности для людей с нарушениями слуха, которых в России около 150 тысяч, — отмечает Данил Голотовский. — Отсутствие автоматизированных решений для перевода русского жестового языка в текст усложняет получение образования, трудоустройство и социальную адаптацию. Предлагаемая мной разработка направлена на решение данной проблемы, поскольку автоматический перевод позволяет общаться без сурдопереводчика, что принципиально важно в различных ситуациях.
Проект может эволюционировать в полноценный продукт для повседневного использования.
— Текущая реализация имеет ряд ограничений, которые необходимо преодолеть для использования в реальных условиях, — рассуждает Данил. — Модель достигает точности 64% на тестовом наборе данных, что недостаточно для надежного перевода. Качество распознавания зависит от освещения, фона и характеристик камеры. Прототип не рассчитан на одновременное использование многими пользователями, что ограничивает его применимость в масштабных сценариях. Шаги к улучшению — в повышении точности: расширить датасет, добавив больше примеров жестов, с привлечением носителей РЖЯ, внедрить дообучение модели на данных, собранных от пользователей через обратную связь. Необходимый уровень точности для реального использования должен быть выше 80–90%.
Сейчас веб-приложение позволяет в реальном времени захватывать видеопоток с веб-камеры, классифицировать жесты и формировать связный текст на русском языке. В дальнейшем автор видит перспективу реализации обработки жестов в реальном времени, возможен и обратный перевод с помощью 2D-аватара и технологий захвата ключевых точек рук.
Внедрение приложений-переводчиков с русского жестового языка позволит русскоговорящим людям понимать жесты, переводя их в текст.