Adobe разработала революционный алгоритм синтезирования человеческой речи

Сергей Грэй ∙ 04.11.2016

Мы все привыкли к тому, что если те или иные разработчики затеяли синтезировать человеческую речь, то звучать она будет несколько «неестественно». Оно и неудивительно: ведь компьютер пока ещё не умеет стопроцентно правильно расставлять интонации, ударения и акценты. Прислушайтесь к Siri или Cortana — они всё ещё звучат как роботы. Но всё это вскоре может измениться раз и навсегда. Как оказалось, компания Adobe разработала инновационный алгоритм синтезирования человеческой речи, который она планирует задействовать в одной из своих новых программ.

Adobe разработала революционный алгоритм синтезирования человеческой речи

У Adobe (произносится название компании «Адоби», а не «Адоб», как многие ошибочно считают) уже есть одно профессиональное приложение для работы со звуком – это Audition. В нём даже достаточно неопытный пользователь сможет правильно нарезать, улучшить, видоизменить и свести любой имеющийся в его распоряжении звук. Но это приложение неспособно генерировать человеческую речь. В рамках конференции MAX, которую Adobe устраивает ежегодно, представители компании впервые представили зрителям удивительный алгоритм, способный практически на 100% сымитировать речь человека. Генерация речи происходит на основе 20-минутной записи голоса абсолютно любого человека. Скормили программе запись своего голоса, она тщательно проанализировала её, и сразу после этого заговорила точно так же, как вы. При этом достаточно сложно определить, что это не настоящая живая запись.

Adobe разработала революционный алгоритм синтезирования человеческой речи.. Фото.

Алгоритм этот будет частью некоей программы, которая пока проходит под кодовым названием Project VoCo. Может статься, что от Audition в итоге будет решено отказаться в пользу совершенно нового названия. Алгоритм сможет генерировать речь, согласно набранным вами текстам. Вы сможете в реальном времени править слова, а программа будет немедленно произносить их вслух, на основе имеющихся у неё данных о полученном с аудиозаписи голосе человека. Алгоритм был разработан в стенах лаборатории Adobe Research при непосредственном участии учёных из Принстонского университета. В ближайшее время с нами обещают поделиться новой информацией относительно этой революционной разработки. А она на самом деле революционна, вы только представьте, что будет, если наши гаджеты наконец смогут разговаривать с нами как живые люди, причём тем голосом, который нам наиболее приятен. Переворот произойдёт и в киноиндустрии, где актёры озвучки будут попросту не нужны. Зачем платить человеку за то, с чем справится и обычная программа?