Разработана офлайн-система распознавания речи, работающая с точностью в 97%

23 Октября 2018, Владимир Кузнецов 15

Как правило, различные системы распознавания речи, лиц, переводчики и прочие используют огромные серверные мощности для своей работы. А для того, чтобы сделать их доступными для каждого, разработчики передают все данные по интернету, что не дает возможности использовать их в офлайне. Однако современные алгоритмы нейросетей помогают добиться действительно потрясающих результатов. Не так давно Microsoft и Google уже сделали свои переводчики на основе нейросетей полностью независящим от сети, а сейчас настало время алгоритмов распознавания голоса.


За разработку отвечает группа исследователей из Университета Ватерлоо и стартапа под названием DarwinAI. Их технология получила название EdgeSpeechNets.

«В этом исследовании мы используем стратегию создания архитектуры с низким уровнем нагрузки на устройство, но со всеми плюсами подхода с использованием мощной нейросети с глубоким машинным обучением.»

Для начала эксперты создали прототип будущей системы, который выполнял распознавание речи, но обладал ограниченным словарным запасом. При этом он был способен выявлять известные ему ключевые слова даже из очень быстрого потока речи. После этого полученные данные использовались для преобразования звукового сигнала в математическую формулу. Эта формула и использовалась в дальнейшем для проектирования нейросети, которая обладала бы высокой производительностью, но была бы не требовательна к железу.

После этого ученые решили испытать получившуюся программу. Для этого использовалось хранилище Google Speech Commands, которое содержит 65000 1-секундных звуковых образцов. В итоге одна из версий системы, а именно EdgeSpeechNet-D, показала просто отличный результат, достигнув точности в 97% на довольно слабом смартфоне Motorola Moto E c процессором 1,4 ГГц.

«EdgeSpeechNet имеет более высокую точность распознавания при гораздо низких затратах на вычисления. Полученные результаты демонстрируют, что EdgeSpeechNet смогла достичь самой современной производительности, требуя значительно меньше вычислительной мощности, что делает их очень подходящими для использования в мобильных устройствах и приложениях.»

Эту и другие новости вы можете обсудить в нашем чате в Телеграм.

15 комментариев Оставить свой

  1. vladgans

    круто !

  2. mr Vanya

    Иными словами "облегчённый ИИ" не смог распознать 1950 секунд звукосэмплов из базового набора звуков.
    Хорошо-ли это или плохо?
    Если предположить, что современные программы распознавания голосовой речи, выдавая 100% результат на этой же базе звуков, всё равно уступают человеку в способности понимания речи произвольного собеседника, то как себя покажет их облегчённая оффлайн версия?

  3. .rathil

    А где скачать попробовать?

  4. amd212

    Это распознавалка звуков, а не речи. Её основная задача сидеть тихой сапой у вас на смартфоне и переводить звуки в буковки, чтобы товарищ офицер при надобности мог прочитать, что произносилось в присутствии вашего смартфона. Чем меньше ресурсов требует программ, тем дольше прослужит ваша батарейка.

    • AMDRYZEN

      amd212, Так вы опоздали сэр , это делатся уже давно , права это делают сами гугл и эпл но делаю , был эксперимент , поставили яблокофон и гуглофон (экран не включён) и начали говорить о машинах , но экран не включали в течении несколько часов часто упоминалась слово машина , так вот когда включили экран начала всплывать реклама машин , автосалон , запчасти и т д , такой же эксперимент сделали другие с собаками говорили о собаках и смартфон начал предлагать собачий корм, так что такая технология есть и это уже давно есть .

      • AMDRYZEN

        AMDRYZEN, *экран выключен ,смартфоны в ждущем режиме .

      • amd212

        AMDRYZEN, Отключи дату и вай-фай иваш гугл утрётся. А эта лапулечка от Вотерлу будет пахать даже в полном оффлайне.

        • AMDRYZEN

          amd212, Без Wi-Fi или 4G смартфон это кирпич , кто вообще их выключает ? Не встречал таких , к тому же гугл уже научился распознавания речи оффлайн , не факт что не записывает где-то в памяти а потом не передаёт , в любом случае большинство времени устройства подключены к сети .

          • Pyth0n

            AMDRYZEN, Можно заблочить файрволом сайты гугловской и яблочной телеметрии, что многие продвинутые пользователи и делают.

            • AMDRYZEN

              Pyth0n, Тут речь о большинстве , продвинутые пользователи пара процентов , из этой пары процентов всего несколько процентов параноики .

              • mr Vanya

                AMDRYZEN, Паранойя тут не при чём. Иными словами, небольшая по весу добавка к ядру OS вашего смартфона сможет эффективно добавлять к некоему бинарному файлу сжатому и закриптованному вашим прайвит ключом все звуки услышанные микрофоном смартфона в том числе и в лесу, в горах, в салоне самолёта, в переговорной комнате (активен GSM Jammer 3G 4G LTE 5G Blocker CDMA/2G Signal), в моде глубокого Power Safe когда всё Off и т.п. ...
                Т.е. у вас, как владельца и пользователя телефона, появится возможность просмотреть / вспомнить что происходило важного в вашей жизни например 24-го октября 2010-го года в районе полудня.

                • AMDRYZEN

                  mr, Вряд ли такое будет реализованно так что бы у владельца был доступ к этим данным , гугл и эпл записывают но доступ не дают же , да и такая функция попадает под запреты , это уже шпионские ПО , депутаты такое не допустят , с такими приколами не получится взятки брать )))

                  • mr Vanya

                    AMDRYZEN, Wanna see where you've traveled with Google Maps?

                    How to view your location history in Google Maps.
                    androidcentral.com/how-view-your-location-history-google-maps

                    • AMDRYZEN

                      mr, Это история местоположений , а ты давай мне запись всего того что записал микрофон и весь текст и отправил на серверах эпл и гугл , к ним у тебя доступ есть ?

      • Piter_Zdanovsky

        AMDRYZEN, Почитайте про контекстную рекламу и таргетинг,если не знаете такового(поисковики пестрят предложениями).Она может быть очень агрессивной,в том плане что разработчики приложений и смартфонов хоть и уверяют нас в том что мы можем сохранять анонимность и информация не будет передаваться третьим лицам,на деле всё куда сложнее,и не читая,но подписывая пользовательское соглашение,с потрохами сдаём сами себя.Проще говоря не хотите что бы за вами следили,живите в лесу без электроники?
        Лично от себя добавлю,какое-то время получал смс от м-видео об акциях,как только оказывался рядом с этим магазином,это только один из кучи личных примеров.

Новый комментарий

Для отправки комментария вы должны авторизоваться или зарегистрироваться.