Создан речевой синтезатор на основе ИИ, способный воспроизвести любой голос

7 Мая 2017 в 9:00, Владимир Кузнецов 10 675 просмотров 24

Практически все существующие на данный момент виртуальные ассистенты, какими бы продвинутыми функциями они ни обладали, имеют крайне странный «машинный» голос, который ни с чем не спутаешь. Происходит это от того, что голосовые синтезаторы используют для речи набор заранее записанных фраз, звуков и их комбинаций. Как полагают некоторые эксперты в этой области, улучшения качества звучания можно добиться при помощи использования искусственного интеллекта, что и продемонстрировала компании Lyrebird из Монреаля. Их разработка может воспроизвести голос любого человека.

Для подражания голосу системе достаточно лишь нескольких секунд аудиозаписи голоса требуемого человека, на основе которых и будет создан звуковой фрагмент. Точное подражание голосу возможно благодаря использованию нейронных сетей на основе искусственного интеллекта, работающих по тем же принципам, что нейронные сети человеческого мозга. ИИ учится распознавать особенности речи человека, а затем эти данные уже используются для синтеза искусственного голоса. Сейчас работа новой системы все еще не лишена недостатков: есть проблемы с разборчивостью произносимой речи, присутствуют «голосовые артефакты» и некоторые другие признаки, указывающие на то, что слова произносит машина. Однако все они могут быть легко устранены в будущем, ведь уже сейчас система работает в режиме реального времени. Как утверждает один из авторов проекта Хосе Сотело,

«Наша программа обучалась на большом количестве аудиофрагментов выступлений тысяч различных людей. Полученная информация сжимается до вида своего рода «голосовой ДНК», которая является цифровым ключом. Затем на основе этого ключа система может воспроизводить любые слова, даже те, которые не были задействованы в процессе обучения».

Сами авторы проекта прекрасно понимают, что при должном уровне развития этой технологии не избежать проблем с безопасностью. К примеру, для обхода систем идентификации пользователя по голосу. Представители компании Lyrebird сравнивают свое изобретение с изобретением фотошопа. После создания пакета программ от Adobe стало сложно доверять изображениям на экране. Теперь же доверять нельзя и голосу.

«Мы понимаем, что из-за высокого уровня развития современных технологий такой голосовой синтезатор появился бы на свет рано или поздно. Мы призываем всех начать отказываться от принятия в качестве доказательств различных аудиозаписей, а также использования средств защиты на основе голоса».

В любом случае пока что беспокоиться рано, ведь система очень сырая, а в «синтетических» голосах все еще звучат «роботизированные нотки». Ознакомиться с тем, как система Lyrebird воспроизводит голоса Барака Обамы, Дональда Трампа и ряда других политических деятелей, вы можете по этой ссылке.

Создан речевой синтезатор на основе ИИ, способный воспроизвести любой голос

Приложение
Hi-News.ru

Новости высоких технологий в приложении для iOS и Android.

24 комментария

  1. tonik

    Этот ИИ уже в каждую дырку пихают. Скоро носки уже с ИИ будут.. А так хорошая заявка на продажу какому-нибудь Эпплу. (отправлено из приложения Hi-News.ru)

    • Valkirye

      А что плохого в том, чтобы ИИ "в каждую дырку пихали"? Это явление называется научно-техническим прогрессом. Ваше поведение напоминает ворчание старика о том, что раньше небо было голубее.

  2. kot777

    Adobe же уже показывало такую прогу. Нужно загрузить или наговорить 20 мин речи одного человека и потом она уже любые слова говорит его голосом.
    "3 ноября 2016 года на технологической конференции Adobe MAX"
    Плагиат !))

    • VEnergy

      есть, где скачать? (отправлено из приложения Hi-News.ru)

      • kot777

        его только представили там, а что дальше не знаю. полуглите

        • Hi-Ai

          В любимой проге пранкеров AV Voice Changer Diamond есть подстройка голоса по фрагменту. Ставишь речь Путина, говоришь то же, прога сравнивает и подстраивается. Звонишь по скайпу Порошенко или кому-нибудь. Задержка на обработку в полсекунды.

  3. Denus Warrus

    Отлично! Скоро персонажи компьютерных игр наконец-то заговорят на разные голоса.

  4. hi

    ждем дубляж фильмов с оригинальными голосами актеров

  5. rainbringer

    Первое, что пришло в голову, это Т-1000 говорящий с Джоном Коннором... (отправлено из приложения Hi-News.ru)

  6. kirfoton

    По видимому, максимального успеха можно добиться, создав виртуальный аналог речевого аппарата человека. А это
    1 мозг
    2 Голосовые связки
    3 дыхательные пути
    4 Глотка, горло , язык и даже зубы
    Потому что без зубов, сами знаете, какие звуки получаются :-)

    • Valkirye

      C пунктами 1-4 не соглашусь. Проблема ведь не в том, что динамики не могут воспроизвести определенные тембры человеческого голоса, а в том, что автоматика не может их грамотно сгенерировать.

  7. Baksov

    Замечательно! Надеюсь скоро можно будет аудиокниги создавать с искусственным голосом и без косяков в произношении слов.

  8. Ce3apyc

    Ссылка уже не действительна.

  9. romale

    Что ж, будем ставить голосовые пароли при каждом телефонном разговоре, подтверждать свою личность и другим способом (отправлено из приложения Hi-News.ru)

  10. Nikkko83

    А толку от этой технологии? Чтобы бы голосом умершей бабушки книги читали? А вот подставить из политиков очень удобная штука,или часового снять голос с паролем подобрав.

    • Valkirye

      Господи, как же мне это развидеть... Вы серьезно? А вам не приходила мысль о text-to-speech engines? Не приходила мысль об интерфейсах, построенных на основе голосового взаимодействия?

      • Nikkko83

        Так в статье главное про то что любой голос можно повторить. А не про сами технологии голосового взаимодействия.

        • Rincho

          У кого что болит

        • Valkirye

          Именно. Машинное обучение шаблону голоса. Вас сейчас устраивают голоса TTS? Меня нет. Включите на вычитку любым движком любой фрагмент текста и почувствуйте, как от него просто "воняет" роботом. Было бы в разы лучше, если бы текст читался голосом какого-либо диктора или актера.

  11. zar

    Голос Бендера!!))) (отправлено из приложения Hi-News.ru)

Новый комментарий

Для отправки комментария вы должны авторизоваться или зарегистрироваться.