Обнаружены алгоритмы копирования голоса, способные обмануть устройства распознавания речи

Группа исследователей из Чикагского университета обнаружила, что алгоритмы копирования голоса продвинулись до такой степени, что теперь они способны обмануть устройства распознавания голоса и, во многих случаях, людей, которые их слушают. Группа разместила на сервере препринтов arXiv документ, в котором описаны два хорошо известных алгоритма копирования голоса. Об этом сообщает портал TechXplore.

На YouTube регулярно можно увидеть множество примеров видео-фейков знаменитостей. Такие видео стали более реалистичными и убедительными, но в одной из областей они терпят неудачу, — это воспроизведение человеческого голоса.

В новой работе команда Чикагского университета нашла доказательства того, что технология продвинулась вперед. Они протестировали два из самых известных алгоритма копирования голоса как на человеческих, так и на голосовых устройствах распознавания и обнаружили, что алгоритмы улучшились до такой степени, что теперь они могут обмануть всех.

Два алгоритма — SV2TTS и AutoVC — были протестированы путем получения образцов голосовых записей из общедоступных баз данных. Обе системы были обучены с использованием 90 пятиминутных фрагментов речи людей.

Ученые также заручились помощью 14 добровольцев, которые предоставили образцы голоса и доступ к своим устройствам распознавания речи. Затем исследователи протестировали две системы с помощью программного обеспечения с открытым исходным кодом Resemblyzer — оно прослушивает и сравнивает записи голоса, а затем дает оценку на основе двух похожих образцов. Они также протестировали алгоритмы, используя их для попытки доступа к службам на устройствах распознавания голоса.

Исследователи обнаружили, что алгоритмы могли обмануть Resemblyzer почти в половине случаев. Они также обнаружили, что им удавалось обмануть Azure (службу облачных вычислений Microsoft) примерно в 30% случаев. И им удавалось сделать то же самое с системой распознавания голоса Google Alexa примерно в 62% случаев.

Двести добровольцев также прослушали пары записей и попытались определить, были ли голоса от одного и того же человека — результаты были неоднозначными, но в целом алгоритмы обманывали добровольцев чаще.

загрузка...

Коротко

Показать все новости