Создан речевой синтезатор на основе ИИ, способный воспроизвести любой голос

Владимир Кузнецов ∙ 07.05.2017

Практически все существующие на данный момент виртуальные ассистенты, какими бы продвинутыми функциями они ни обладали, имеют крайне странный «машинный» голос, который ни с чем не спутаешь. Происходит это от того, что голосовые синтезаторы используют для речи набор заранее записанных фраз, звуков и их комбинаций. Как полагают некоторые эксперты в этой области, улучшения качества звучания можно добиться при помощи использования искусственного интеллекта, что и продемонстрировала компании Lyrebird из Монреаля. Их разработка может воспроизвести голос любого человека.

Создан речевой синтезатор на основе ИИ, способный воспроизвести любой голос.. Фото.

Для подражания голосу системе достаточно лишь нескольких секунд аудиозаписи голоса требуемого человека, на основе которых и будет создан звуковой фрагмент. Точное подражание голосу возможно благодаря использованию нейронных сетей на основе искусственного интеллекта, работающих по тем же принципам, что нейронные сети человеческого мозга. ИИ учится распознавать особенности речи человека, а затем эти данные уже используются для синтеза искусственного голоса. Сейчас работа новой системы все еще не лишена недостатков: есть проблемы с разборчивостью произносимой речи, присутствуют «голосовые артефакты» и некоторые другие признаки, указывающие на то, что слова произносит машина. Однако все они могут быть легко устранены в будущем, ведь уже сейчас система работает в режиме реального времени. Как утверждает один из авторов проекта Хосе Сотело,

«Наша программа обучалась на большом количестве аудиофрагментов выступлений тысяч различных людей. Полученная информация сжимается до вида своего рода «голосовой ДНК», которая является цифровым ключом. Затем на основе этого ключа система может воспроизводить любые слова, даже те, которые не были задействованы в процессе обучения».

Сами авторы проекта прекрасно понимают, что при должном уровне развития этой технологии не избежать проблем с безопасностью. К примеру, для обхода систем идентификации пользователя по голосу. Представители компании Lyrebird сравнивают свое изобретение с изобретением фотошопа. После создания пакета программ от Adobe стало сложно доверять изображениям на экране. Теперь же доверять нельзя и голосу.

«Мы понимаем, что из-за высокого уровня развития современных технологий такой голосовой синтезатор появился бы на свет рано или поздно. Мы призываем всех начать отказываться от принятия в качестве доказательств различных аудиозаписей, а также использования средств защиты на основе голоса».

В любом случае пока что беспокоиться рано, ведь система очень сырая, а в «синтетических» голосах все еще звучат «роботизированные нотки». Ознакомиться с тем, как система Lyrebird воспроизводит голоса Барака Обамы, Дональда Трампа и ряда других политических деятелей, вы можете по этой ссылке.