Создатель виртуальных ассистентов считает, что они обречены без нового подхода в области ИИ

20.03.2019, обновлено 19.07.2019

Борис Кац построил карьеру, помогая машинам овладеть языком. Он считает, что нынешних технологий ИИ недостаточно, чтобы сделать Siri или Alexa по-настоящему умными. Siri, Alexa, Google Home — технологии, которые анализируют язык, все чаще находят свое применение в повседневной жизни. Но Бориса Каца, главного научного сотрудника MIT, это не впечатляет. За последние 40 лет он внес ключевой вклад в лингвистические способности машин.

В 1980-х он разработал систему START, способную отвечать на сформулированные естественным языком запросы. Идеи, использованные в START, помогли Watson победить в Jeopardy! и заложили основу для сегодняшних чатботов.

Но сейчас Кац обеспокоен тем, что эта область опирается на идеи, которым много лет, а эти идеи никак не приближают машинный интеллект к реальному. MIT Technolody Review взял интервью у Бориса Каца. Давайте узнаем, куда нужно направлять исследования, чтобы машины стали умнее.

Как сделать искусственный интеллект по-настоящему умным

С чего началась ваша история обучения компьютеров использованию языка?

Впервые я столкнулся с компьютерами в 1960-х годах, будучи студентом Московского университета. Машина, которой я пользовался, называлась БЭСМ-4. Для связи с ней можно было использовать только восьмеричный код. Мой первый компьютерный проект включал обучение компьютера чтению, пониманию и решению математических задач.

Затем я разработал компьютерную программу, пишущую стихи. Я до сих пор помню, как стоял в машинной комнате в ожидании очередного стихотворения, созданного машиной. Я был ошеломлен красотой стихов; казалось, что они созданы разумным существом. И тогда и там я понял, что хочу всю оставшуюся жизнь работать над созданием интеллектуальных машин и поиском способов общения с ними.

Что вы думаете о Siri, Alexa и других личных помощниках?

Забавно говорить об этом, потому что, с одной стороны, мы очень гордимся этим невероятным прогрессом — у каждого в кармане есть нечто, что мы помогли создать много-много лет назад, и это замечательно.

Но с другой стороны, эти программы невероятно глупые. Так что чувство гордости перемежается чувством стыда. Вы запускаете нечто, что люди считают разумным, но оно даже и близко не такое.

Благодаря машинному обучению, в искусственном интеллекте произошел значительный прогресс. Разве это не делает машины лучше в понимании языка?

С одной стороны, есть этот драматический прогресс, но с другой — часть этого прогресса раздута. Если вы посмотрите на достижения машинного обучения, все идеи появились 20-25 лет назад. Просто инженеры в итоге проделали большую работу и воплотили эти идеи в жизнь. Какой бы эта технология великой ни была, она не решит проблему настоящего понимания — настоящего интеллекта.

На очень высоком уровне современные методы — статистические методы, такие как машинное обучение и глубокое обучение, очень хороши для нахождения закономерностей. И поскольку люди обычно производят одни и те же предложения большую часть времени, их очень легко найти в языке.

Посмотрите на предиктивный ввод текста. Машина лучше вас знает, что вы собираетесь сказать. Вы можете назвать это разумным, но на самом деле она просто считает слова и цифры. Поскольку мы постоянно говорим одно и то же, очень легко создавать системы, которые ловят закономерности и ведут себя так, будто они разумны. Это фиктивный характер большей части современного прогресса.

Как насчет «опасного» инструмента генерации языка, представленного недавно OpenAI?

Эти примеры действительно впечатляют, но я не совсем понимаю, чем они нас учат. Языковая модель OpenAI была обучена на 8 миллиона веб-страниц, чтобы предсказывать следующее слово, учитывая все предыдущие слова в определенном тексте (на такую же тему). Этот огромный объем обучения, безусловно, обеспечивает локальную согласованность (синтаксическую и даже семантическую) текста.

Как вы думаете, почему искусственный интеллект движется в неверном направлении?

В обработке языка, как и в других областях, был достигнут прогресс в обучении моделей на огромных объемах данных — миллионах предложений. Но человеческий мозг не может выучить язык, используя такую парадигму. Мы не оставляем наших детей с энциклопедией в кроватке, ожидая, что они освоят язык.

Когда мы видим что-то, мы описываем это языком; когда мы слышим, как кто-то говорит что-то, мы представляем, как описанные объекты и события выглядят в мире. Люди живут в физической среде, наполненной визуальными, тактильными и лингвистическими сенсорными данными, и избыточный и взаимодополняющий характер этих вводов позволяет детям осмысливать мир и одновременно изучать язык. Возможно, изучая эти методы в отдельности, мы сделали проблему сложнее, а не проще?

Почему здравый смысл важен?

Скажем, ваш робот помогает вам собирать вещи, и вы говорите ему: «Эта книга не поместится в красную коробку, потому что она слишком маленькая». Конечно, вы хотите, чтобы робот понял, что красная коробка слишком маленькая и вы могли продолжить содержательный разговор. Но если вы скажете роботу: «Эта книга не поместится в красную коробку, потому что она слишком большая», робот должен догадаться, что это книга очень большая, а не коробка.

Понимание, к какой сущности разговора идет отсылка, очень важно, и люди выполняют эту задачу каждый день. Тем не менее, как вы могли видеть из этих и других примеров, оно часто опирается на глубокое понимание мира, который в настоящее время недоступен для наших машин: понимание здравого смысла и интуитивной физики, понимание убеждений и намерений других, способность визуализировать и рассуждать о причине и следствии, и многое другое.

Вы пытаетесь научить машины языку, используя симулированные физические миры. Почему?

Я еще не видел ребенка, родители которого кладут энциклопедию в кроватку и говорят: «Иди учись». Но так делают наши компьютеры сегодня. Я не думаю, что эти системы будут учиться так, как мы хотим, или понимать мир так, как мы хотим.

В случае с детьми, они сразу же получают тактильные ощущения от мира. Затем младенцы начинают видеть мир и впитывать события и свойства объектов. Затем ребенок слышит языковой ввод. И только так творится магия понимания.

Какой подход наилучший?

Одним из способов продвижения вперед будет получение более глубокого понимания человеческого интеллекта, а затем использование этого понимания для создания интеллектуальных машин. Исследования ИИ должны основываться на идеях психологии развития, когнитивной науки и нейробиологии, а модели ИИ должны отражать то, что уже известно о том, как люди изучают и понимают мир.

Реальный прогресс начнется только тогда, когда ученые выйдут из своих офисов и начнут общаться с людьми в других областях. Вместе мы приблизимся к пониманию интеллекта и выяснению того, как воспроизвести его в интеллектуальных машинах, которые могут говорить, видеть и действовать в нашем физическом мире.

Согласны с Борисом? Расскажите в нашем чате в Телеграме.

Искусственный интеллект