Adobe разработала революционный алгоритм синтезирования человеческой речи

10 728 просмотров
Об авторе

Adobe разработала революционный алгоритм синтезирования человеческой речи

Мы все привыкли к тому, что если те или иные разработчики затеяли синтезировать человеческую речь, то звучать она будет несколько «неестественно». Оно и неудивительно: ведь компьютер пока ещё не умеет стопроцентно правильно расставлять интонации, ударения и акценты. Прислушайтесь к Siri или Cortana — они всё ещё звучат как роботы. Но всё это вскоре может измениться раз и навсегда. Как оказалось, компания Adobe разработала инновационный алгоритм синтезирования человеческой речи, который она планирует задействовать в одной из своих новых программ.

У Adobe (произносится название компании «Адоби», а не «Адоб», как многие ошибочно считают) уже есть одно профессиональное приложение для работы со звуком – это Audition. В нём даже достаточно неопытный пользователь сможет правильно нарезать, улучшить, видоизменить и свести любой имеющийся в его распоряжении звук. Но это приложение неспособно генерировать человеческую речь. В рамках конференции MAX, которую Adobe устраивает ежегодно, представители компании впервые представили зрителям удивительный алгоритм, способный практически на 100% сымитировать речь человека. Генерация речи происходит на основе 20-минутной записи голоса абсолютно любого человека. Скормили программе запись своего голоса, она тщательно проанализировала её, и сразу после этого заговорила точно так же, как вы. При этом достаточно сложно определить, что это не настоящая живая запись.

Алгоритм этот будет частью некоей программы, которая пока проходит под кодовым названием Project VoCo. Может статься, что от Audition в итоге будет решено отказаться в пользу совершенно нового названия. Алгоритм сможет генерировать речь, согласно набранным вами текстам. Вы сможете в реальном времени править слова, а программа будет немедленно произносить их вслух, на основе имеющихся у неё данных о полученном с аудиозаписи голосе человека. Алгоритм был разработан в стенах лаборатории Adobe Research при непосредственном участии учёных из Принстонского университета. В ближайшее время с нами обещают поделиться новой информацией относительно этой революционной разработки. А она на самом деле революционна, вы только представьте, что будет, если наши гаджеты наконец смогут разговаривать с нами как живые люди, причём тем голосом, который нам наиболее приятен. Переворот произойдёт и в киноиндустрии, где актёры озвучки будут попросту не нужны. Зачем платить человеку за то, с чем справится и обычная программа?

Adobe разработала революционный алгоритм синтезирования человеческой речи

Приложение
Hi-News.ru

Новости высоких технологий в приложении для iOS и Android.

44 комментария

  1. GumaNitariy88

    Думаю, что программа пока не заменит диктора, т.к. все таки произносить буквы максимально похожие на человеческие и читать с эмоциями , характером и т.д. - разные вещи . А вот если телефонные автоинформаторы станут с приятным не роботизированным голосом - это будет просто прекрасно ! (отправлено из приложения Hi-News.ru)

    • tonik

      Подумайте ещё раз. Оратора или актёра может и не заменит, а вот диктора - легко. Диктору, как раз, излишние эмоции и не нужны. А автоответчики и прочее уже давно человеческими голосами говорят. Например, навигаторы.. (отправлено из приложения Hi-News.ru)

  2. SergioG.

    Где уже можно скачать это чудо? (отправлено из приложения Hi-News.ru)

  3. Joe Statler

    Вот это я и называю инновациями. Очень круто.

  4. StarGazer

    «...произносится название компании «Адоби», а не «Адоб», как многие ошибочно считают...»
    Тогда уже «Эдоби»

    • Сергей Грэй

      Ну да :) Если совсем уж точно, то "эдоуби" :)

    • Elitnyy

      Мне кажется правильнее было будет Эдоуб (отправлено из приложения Hi-News.ru)

    • snow1eopard

      Прикол в том, что правы тут и те и эти) Ибо если относится к этому как к названию чего-то то да, читается так как это название и предусматривает свое прочтение, в данном случае это на каком-то там арабском или египетском кирпич сделанный из глины и соломы. Но если бы это было слово из простого Англиского то было бы просто "адоб" как есть слово size однако мы его не читаем сайзе) ну я думаю понятно объяснил)

  5. zestxvn

    Круто, но как быть с интонацией? Про кино уж слишком вы разогнались. (отправлено из приложения Hi-News.ru)

  6. Hitchcock

    Если к этому прикрутят последние разработки ИИ в сфере перевода (например Гугл буквально месяц назад начал прикручивать нейросеть к своему переводчику), а также в сфере распознавания контекста (чтобы правильно расставлять интонацию), то мы получим просто мега прорыв, о котором не могли даже мечтать фантасты....

  7. deaddreams

    напоминает обычный голливудский пиар, перед выпуском очередного .овна.
    Нечто подобное я уже наблюдал насчет google glass.

    • Сергей Грэй

      Адоби обычно такими глупостями не занимаются. Они выпускают по-настоящему мощный и полезный софт. Я так говорю потому, что более 15 лет профессионально с этим софтом работаю :) (отправлено из приложения Hi-News.ru)

      • deaddreams

        а мимо бесконечно прожорливого, дырявого и корявого флешплеера вы как проскользнули?

        • Сергей Грэй

          У каждой компании есть откровенно неудачные продукты. Но Flash вряд ли можно назвать "пиаром". Он исправно выполнял свою задачу на протяжении долгих лет, правда при этом содержал в себе кучу дыр для хакеров. Но это уже совсем другая история :)

  8. sergei.krutoi

    Пиар и больше ничего. Ещё в конце 80-х проскочила аналогичная информация в моей любимой газете "Труд", когда я ещё учился в школе. Также проскочила информация в 1987 году в училище, где я учился после школы про флеш-накопители. Кстати, говорили, что атомы будут выполнять функцию проводников и полупроводников. И только в 1999 году я приобрёл свой первый МП3 плеер, причём первым в своём городе. Как оказалось - это разработки инопланетного разума. Также был непосредственно в контакте с людьми из будущего из 5 000 года, американцами. Технология перевода на уровне чистого перевода с русского на английский, причём на мысленном уровне. (отправлено из приложения Hi-News.ru)

    • Sil0k

      а что русских в 5000 году уже не было, весь мир захватили американцы и правят им как хотят?

  9. sergei.krutoi

    ..т. е. рот открывать не нужно при разговоре. (отправлено из приложения Hi-News.ru)

  10. Аноним

    Представьте вот что. Кто-то на протяжении долгого времени записывает ваш голос, затем погоняет через эту программу. Далее звонит вашему знакомому и просит перевести денег или что-то в этом роде. Ну а дальше вы понимаете... Тему можно развивать бесконечно. (отправлено из приложения Hi-News.ru)

    • ttutiki

      И знакомый шлет его к чертям собачьим, потому что прошлый долг я еще не отдал.

    • sergei.krutoi

      Да, в суде теперь не будут предоставляться аудио и видеофайлы в качестве доказательств. Но вопрос в другом - насколько соотносится развитие технологий к уровню духовного развития. Я к тому - будут ли суды вообще?... Судя из развития одной из ветки будущего 5 000-го года, то там нет негатива вообще в любом понятии. (отправлено из приложения Hi-News.ru)

  11. praga777

    По моему у этой технологии слишком много криминальных приложений, чтобы вот безоговорочно радоваться этому

  12. Alex Voyager

    Если можно будет подбирать голос и накладывать на него любую интонацию, то это сопоставимо с изобретением холодильника и сотового телефона для любого продакшн :)) (отправлено из приложения Hi-News.ru)

  13. miromakh

    Ждём новых вокалоидов на основе этого алгоритма.

  14. Lazer

    Это всё конечно хорошо, но гугл их опередил https://deepmind.com/blog/wavenet-generative-model-raw-audio/

  15. Lazer

    Наконец заменю диктора для озвучки моего канала на ютуб

    • Elitnyy

      Это каким же надо быть корявым если нормально даже озвучивать не можете. Это все же ведь не песни петь в передаче Голос (отправлено из приложения Hi-News.ru)

      • Lazer

        Диктор стоит денег. Если самому озвучить, то это усилия. А зачем, когда есть робот?

  16. Elitnyy

    Ненавижу синт. голос. С этой программой может станет лучше (отправлено из приложения Hi-News.ru)

  17. w1ndwhisper

    Однажды они возьмут голос Курта Кобейна и на его основе запишут пару гранджевых песен.

  18. nickolay.zemlianin

    Бесперспективное направление исследований. Голос человека не сможет скопировать не один прибор. Человечество не владеет элементарными знаниями о материи. В космосе существуют два вида материи. Первый вид натуральный органический, только в нем существует сила жизни, к этому виду относится человек разумный. За счет этой силы жизни у него натуральный низкочастотный диапазон звуков. Ни один прибор не может его сымитировать. Второй вид материи в космосе это машинный. Ни одна машина не сможет заменить натуральный вид, но машины очень хотят создать клона человека, с таким же, как у нас низкочастотным диапазоном звуков, над этим вы так усердно и работаете. Вы создаете имитатор речи для роботов по их заказу, даже не понимая этого.

  19. Viktorkor

    Ну скажем так,меня это удивит тогда,когда программа сможет повторять и искать по тембральности,повторяя каждый тон,ноту голоса,интонацию.А пока, это все сыро ... (отправлено из приложения Hi-News.ru)

  20. ElkTheSenior

    "Переворот произойдёт и в киноиндустрии, где актёры озвучки будут попросту не нужны."

    Было бы просто замечательно, что касается сферы перевода фильмов, - слышать речь не очередного дяди "Васи", начитывающим заготовленный текст в душной студии звукозаписи, а слышать перевод к фильму, основанный на имитированном голосе реального актёра.

    Но музыкальную сферу, подобные инновации могли бы попросту разрушить. Ибо, на мой взгляд, реальный голос человека в данной сфере, должен играет, главенствующую роль, как совершенен бы ни был алгоритм имитации такового.

Новый комментарий

Для отправки комментария вы должны авторизоваться или зарегистрироваться.