Инженеры создали наушники-переводчики с ИИ

Команда исследователей из Вашингтонского университета представила революционную технологию для синхронного перевода речи нескольких собеседников с сохранением их интонаций, голосовых особенностей и даже пространственного положения. Презентация разработки под названием Transtial Speech Translation состоялась 30 апреля на престижной конференции ACM CHI в Иокогаме, Япония. Над проектом работали доктор философии Туочао Чен, профессор Шьям Голлакота, а также студенты и аспиранты Школы компьютерных наук и инженерии Пола Дж. Аллена.

Как передает Day.Az, Transtial представляет собой уникальную систему перевода, интегрированную в наушники с активным шумоподавлением и несколькими микрофонами. Она в реальном времени определяет, кто и откуда говорит, переводит сказанное с задержкой 2-4 секунды, при этом сохраняя тембр, интонации и направление источника - создавая эффект, будто собеседник сам говорит на понятном пользователю языке.

"Это первый случай, когда удалось сохранить не только смысл, но и индивидуальное звучание голоса каждого человека, а также его положение в пространстве", - отметил Шьям Голлакота.

Технология полного присутствия и ориентации в диалоге

В отличие от классических решений, где после небольшой паузы слышен безэмоциональный голос-переводчик, Transtial создаёт 360-градусную звуковую среду, позволяя слушателю точно распознавать, кто говорит и откуда. Система отлично работает даже в многолюдной обстановке - например, в туристических группах, где обычные переводчики теряются в шуме.

Чен рассказал, что алгоритмы системы функционируют "как радар" - они сканируют окружающее пространство и отслеживают, сколько человек говорит одновременно.

Интересно, что все вычисления происходят локально, на устройствах вроде ноутбуков с чипами Apple M2 или гарнитурах Apple Vision Pro, без использования облака. Это сделано в целях конфиденциальности, особенно при клонировании голосов - технология имитирует звучание каждого собеседника, но не передаёт данные на удалённые сервера.

Реализм и удобство: что показали тесты

Тестирование проводилось в 10 различных сценариях - от закрытых помещений до шумных улиц и перемещающихся собеседников. В эксперименте приняли участие 29 пользователей. Результаты показали, что наиболее естественным воспринимается перевод с задержкой 3-4 секунды: при меньшем времени точность существенно падала.

Сегодня система поддерживает повседневную речь на испанском, немецком и французском языках, однако разработчики уверены, что в будущем она сможет охватить до 100 языков и справляться даже с профессиональной терминологией.

"Это реальный шаг к устранению языковых барьеров. Даже не зная испанского, я могу понимать, что говорят вокруг меня", - поделился Туочао Чен.

Исходный код прототипа уже доступен для разработчиков. Команда работает над сокращением задержки перевода, расширением языковой базы и адаптацией системы под техническую и медицинскую лексику.