В Google разработали обновленную систему распознавания и воспроизведения речи

Программистами Google была презентована Tacotron 2 — система синтеза речи, взявшая за основу рекуррентные нейросети. Алгоритм воссоздает речь, базируясь на воссозданных из текстовой информации спектрограммах. Компьютерная речь довольно близка к человеческой.

Алгоритм, который был презентован разработчиками Google совместно с Джонатаном Шеном, функционирует посредством двух нейронных сетей. Первая из них разделяет текст на составляющие и переводит их в форму спектрограмм, а вторая — создает на их базе звук, пользуясь алгоритмами WaveNet.

Данный алгоритм существенно превосходит остальные. К слову, Tacotron2 отличает разные формы глаголов, одинаковых по написанию, а также способен делать паузы в местах знаков препинания. Как утверждается, компьютерная речь практически неотличима от человеческой. Алгоритм был оценен аудиторией и получил сходную оценку.

загрузка...

Коротко

Показать все новости