Adobe разработала революционный алгоритм синтезирования человеческой речи

4 Ноября 2016, Сергей Грэй 44

Adobe разработала революционный алгоритм синтезирования человеческой речи

Мы все привыкли к тому, что если те или иные разработчики затеяли синтезировать человеческую речь, то звучать она будет несколько «неестественно». Оно и неудивительно: ведь компьютер пока ещё не умеет стопроцентно правильно расставлять интонации, ударения и акценты. Прислушайтесь к Siri или Cortana — они всё ещё звучат как роботы. Но всё это вскоре может измениться раз и навсегда. Как оказалось, компания Adobe разработала инновационный алгоритм синтезирования человеческой речи, который она планирует задействовать в одной из своих новых программ.


У Adobe (произносится название компании «Адоби», а не «Адоб», как многие ошибочно считают) уже есть одно профессиональное приложение для работы со звуком – это Audition. В нём даже достаточно неопытный пользователь сможет правильно нарезать, улучшить, видоизменить и свести любой имеющийся в его распоряжении звук. Но это приложение неспособно генерировать человеческую речь. В рамках конференции MAX, которую Adobe устраивает ежегодно, представители компании впервые представили зрителям удивительный алгоритм, способный практически на 100% сымитировать речь человека. Генерация речи происходит на основе 20-минутной записи голоса абсолютно любого человека. Скормили программе запись своего голоса, она тщательно проанализировала её, и сразу после этого заговорила точно так же, как вы. При этом достаточно сложно определить, что это не настоящая живая запись.

Алгоритм этот будет частью некоей программы, которая пока проходит под кодовым названием Project VoCo. Может статься, что от Audition в итоге будет решено отказаться в пользу совершенно нового названия. Алгоритм сможет генерировать речь, согласно набранным вами текстам. Вы сможете в реальном времени править слова, а программа будет немедленно произносить их вслух, на основе имеющихся у неё данных о полученном с аудиозаписи голосе человека. Алгоритм был разработан в стенах лаборатории Adobe Research при непосредственном участии учёных из Принстонского университета. В ближайшее время с нами обещают поделиться новой информацией относительно этой революционной разработки. А она на самом деле революционна, вы только представьте, что будет, если наши гаджеты наконец смогут разговаривать с нами как живые люди, причём тем голосом, который нам наиболее приятен. Переворот произойдёт и в киноиндустрии, где актёры озвучки будут попросту не нужны. Зачем платить человеку за то, с чем справится и обычная программа?

Adobe разработала революционный алгоритм синтезирования человеческой речи

44 комментария Оставить свой

  1. GumaNitariy88

    Думаю, что программа пока не заменит диктора, т.к. все таки произносить буквы максимально похожие на человеческие и читать с эмоциями , характером и т.д. - разные вещи . А вот если телефонные автоинформаторы станут с приятным не роботизированным голосом - это будет просто прекрасно !

    • tonik

      GumaNitariy88, Подумайте ещё раз. Оратора или актёра может и не заменит, а вот диктора - легко. Диктору, как раз, излишние эмоции и не нужны. А автоответчики и прочее уже давно человеческими голосами говорят. Например, навигаторы..

      • GumaNitariy88

        tonik, В общем то я привел к той же мысли.

  2. SergioG.

    Где уже можно скачать это чудо?

    • Сергей Грэй

      SergioG., Нигде вы не можете скачать это чудо ))) Чудо пока существует лишь в лабораториях Adobe.

  3. Joe Statler

    Вот это я и называю инновациями. Очень круто.

  4. StarGazer

    «...произносится название компании «Адоби», а не «Адоб», как многие ошибочно считают...»
    Тогда уже «Эдоби»

    • Сергей Грэй

      StarGazer, Ну да :) Если совсем уж точно, то "эдоуби" :)

    • Elitnyy

      StarGazer, Мне кажется правильнее было будет Эдоуб

      • Сергей Грэй

        Elitnyy, Эдоуби. Именно с И на конце. Это название реки.

        • Bit

          Сергей, Тогда почему не Adoby?
          Мне кажется, что Адоуб (если по-английски)
          Но слово-то итальянское... стало быть Адоби.

    • snow1eopard

      StarGazer, Прикол в том, что правы тут и те и эти) Ибо если относится к этому как к названию чего-то то да, читается так как это название и предусматривает свое прочтение, в данном случае это на каком-то там арабском или египетском кирпич сделанный из глины и соломы. Но если бы это было слово из простого Англиского то было бы просто "адоб" как есть слово size однако мы его не читаем сайзе) ну я думаю понятно объяснил)

  5. zestxvn

    Круто, но как быть с интонацией? Про кино уж слишком вы разогнались.

  6. Hitchcock

    Если к этому прикрутят последние разработки ИИ в сфере перевода (например Гугл буквально месяц назад начал прикручивать нейросеть к своему переводчику), а также в сфере распознавания контекста (чтобы правильно расставлять интонацию), то мы получим просто мега прорыв, о котором не могли даже мечтать фантасты....

  7. deaddreams

    напоминает обычный голливудский пиар, перед выпуском очередного .овна.
    Нечто подобное я уже наблюдал насчет google glass.

    • Сергей Грэй

      deaddreams, Адоби обычно такими глупостями не занимаются. Они выпускают по-настоящему мощный и полезный софт. Я так говорю потому, что более 15 лет профессионально с этим софтом работаю :)

      • deaddreams

        Сергей, а мимо бесконечно прожорливого, дырявого и корявого флешплеера вы как проскользнули?

        • Сергей Грэй

          deaddreams, У каждой компании есть откровенно неудачные продукты. Но Flash вряд ли можно назвать "пиаром". Он исправно выполнял свою задачу на протяжении долгих лет, правда при этом содержал в себе кучу дыр для хакеров. Но это уже совсем другая история :)

  8. sergei.krutoi

    Пиар и больше ничего. Ещё в конце 80-х проскочила аналогичная информация в моей любимой газете "Труд", когда я ещё учился в школе. Также проскочила информация в 1987 году в училище, где я учился после школы про флеш-накопители. Кстати, говорили, что атомы будут выполнять функцию проводников и полупроводников. И только в 1999 году я приобрёл свой первый МП3 плеер, причём первым в своём городе. Как оказалось - это разработки инопланетного разума. Также был непосредственно в контакте с людьми из будущего из 5 000 года, американцами. Технология перевода на уровне чистого перевода с русского на английский, причём на мысленном уровне.

    • Sil0k

      sergei.krutoi, а что русских в 5000 году уже не было, весь мир захватили американцы и правят им как хотят?

    • Yatakov

      sergei.krutoi, Мне интересно, Евгений Гайдучок прибывший из 23 века, встретивший Вадима Черноброва это правда или вымысел?

  9. sergei.krutoi

    ..т. е. рот открывать не нужно при разговоре.

  10. Аноним

    Представьте вот что. Кто-то на протяжении долгого времени записывает ваш голос, затем погоняет через эту программу. Далее звонит вашему знакомому и просит перевести денег или что-то в этом роде. Ну а дальше вы понимаете... Тему можно развивать бесконечно.

    • ttutiki

      Аноним, И знакомый шлет его к чертям собачьим, потому что прошлый долг я еще не отдал.

    • sergei.krutoi

      Аноним, Да, в суде теперь не будут предоставляться аудио и видеофайлы в качестве доказательств. Но вопрос в другом - насколько соотносится развитие технологий к уровню духовного развития. Я к тому - будут ли суды вообще?... Судя из развития одной из ветки будущего 5 000-го года, то там нет негатива вообще в любом понятии.

  11. praga777

    По моему у этой технологии слишком много криминальных приложений, чтобы вот безоговорочно радоваться этому

    • Joe

      praga777, Применений

    • static_method

      praga777, а где можно скачать эти кучи криминальных приложений? а то руки так и чешутся :D

  12. Alex Voyager

    Если можно будет подбирать голос и накладывать на него любую интонацию, то это сопоставимо с изобретением холодильника и сотового телефона для любого продакшн :))

  13. miromakh

    Ждём новых вокалоидов на основе этого алгоритма.

  14. Lazer

    Это всё конечно хорошо, но гугл их опередил https://deepmind.com/blog/wavenet-generative-model-raw-audio/

  15. Lazer

    Наконец заменю диктора для озвучки моего канала на ютуб

    • Elitnyy

      Lazer, Это каким же надо быть корявым если нормально даже озвучивать не можете. Это все же ведь не песни петь в передаче Голос

      • Lazer

        Elitnyy, Диктор стоит денег. Если самому озвучить, то это усилия. А зачем, когда есть робот?

  16. Elitnyy

    Ненавижу синт. голос. С этой программой может станет лучше

  17. w1ndwhisper

    Однажды они возьмут голос Курта Кобейна и на его основе запишут пару гранджевых песен.

  18. nickolay.zemlianin

    Бесперспективное направление исследований. Голос человека не сможет скопировать не один прибор. Человечество не владеет элементарными знаниями о материи. В космосе существуют два вида материи. Первый вид натуральный органический, только в нем существует сила жизни, к этому виду относится человек разумный. За счет этой силы жизни у него натуральный низкочастотный диапазон звуков. Ни один прибор не может его сымитировать. Второй вид материи в космосе это машинный. Ни одна машина не сможет заменить натуральный вид, но машины очень хотят создать клона человека, с таким же, как у нас низкочастотным диапазоном звуков, над этим вы так усердно и работаете. Вы создаете имитатор речи для роботов по их заказу, даже не понимая этого.

    • sergei.krutoi

      nickolay.zemlianin, Не бесперктивное направление. Бесперктетивность в компьютеином подходе на сегодня.

    • Guanzhou

      nickolay.zemlianin, ..два друга (выше), нашли друг-друга (:

  19. Viktorkor

    Ну скажем так,меня это удивит тогда,когда программа сможет повторять и искать по тембральности,повторяя каждый тон,ноту голоса,интонацию.А пока, это все сыро ...

  20. ElkTheSenior

    "Переворот произойдёт и в киноиндустрии, где актёры озвучки будут попросту не нужны."

    Было бы просто замечательно, что касается сферы перевода фильмов, - слышать речь не очередного дяди "Васи", начитывающим заготовленный текст в душной студии звукозаписи, а слышать перевод к фильму, основанный на имитированном голосе реального актёра.

    Но музыкальную сферу, подобные инновации могли бы попросту разрушить. Ибо, на мой взгляд, реальный голос человека в данной сфере, должен играет, главенствующую роль, как совершенен бы ни был алгоритм имитации такового.

Новый комментарий

Для отправки комментария вы должны авторизоваться или зарегистрироваться.