Пионер искусственного интеллекта поделился своими опасениями

В январе британо-американский компьютерный ученый Стюарт Рассел стал первым, кто подписал открытое письмо, призывающее исследователей задуматься глубже о своем стремлении создавать искусственный интеллект мощнее и мощнее. «Мы рекомендуем проведение расширенных исследований, направленных на обеспечение надежности и доброжелательности систем ИИ с растущей мощностью, — было указано в письме. — Наши системы ИИ должны делать то, что мы хотим, чтобы они делали».

Как насчет различий в человеческих ценностях?

Это внутренняя проблема. Можно сказать, машины должны сходить на обочину и ничего не делать в зонах, где может возникнуть конфликт ценностей. И это сложная задача. Я думаю, мы должны создавать в системе ценностей. Если вам нужен домашний робот, он должен хорошо ориентироваться в человеческих ценностях; в противном случае, он будет делать глупые вещи, помещая кота в духовку, поскольку в холодильнике нет еды, а дети голодны. Реальная жизнь полна подобных компромиссов. Если машина идет на такие компромиссы и выясняется, что она чего-то не понимает — чего-то, что очевидно людям, — едва ли вы захотите такую машину домой.

Я не вижу никакого реального пути по созданию своего рода индустрии ценностей. И я также думаю, что есть огромный экономический стимул для ее создания. Домашний робот сделает одну-две вещи неправильно — вроде запекания кота в духовке — и люди моментально потеряют к нему доверие.

Возникает вопрос, если мы будем учить интеллектуальные системы вести себя правильно, то по мере перехода к более разумным системам будет ли это означать, что мы будем получать лучшую систему ценностей, очищенную от глупых моментов, или машины все равно будут выкаблучиваться? У меня пока нет ответа на этот вопрос.

Вы утверждали, что мы должны математически проверять поведение ИИ при всех возможных обстоятельствах. Как это будет работать?

Одна из трудностей, на которые указывают люди, в том, что система может произвольно произвести новую версию себя, у которой будут другие цели. Это один из сценариев, о которых постоянно говорят писатели-фантасты: каким-то образом машина самопроизвольно получает цель уничтожить человеческую расу. Вопрос вот в чем: можете ли вы доказать, что ваши системы никогда, какими бы умными не были, не перепишут изначальные цели, заложенные людьми?

Будет относительно легко доказать, что система DQN, будучи написанной, никогда не смогла бы изменить свою цель или оптимизировать ее. Но представьте, что кто-то с проводами на голове на самом деле залезет в консоль игры Atari и изменит физически вещь, которая зарабатывает очки на экране. DQN пока так не может, поскольку она находится в самой игре и у нее нет манипулятора. Но если машина будет функционировать в реальном мире, это будет серьезной проблемой. Итак, сможете ли вы доказать, что ваша система спроектирована таким образом, что никогда не сможет изменить механизм, привязанный к набору очков, даже если захочет? Это доказать сложнее.

В этом направлении имеются какие-либо многообещающие достижения?

Есть развивающаяся область так называемых киберфизических систем, связанная с системами, которые выводят компьютеры в реальный мир. С киберфизической системой вы получаете пакет битов, представляющих программу управления воздушным движением, затем реальные самолеты и заботитесь о том, чтобы эти самолеты не столкнулись. Вы пытаетесь доказать теорему о сочетании битов и физического мира. Вам нужно написать довольно консервативное математическое описание физического мира — самолеты разгоняются таким-то и таким-то образом — и ваши теоремы должны оставаться истинными в реальном мире так долго, пока реальный мир будет находиться в таком себе конверте из поведений.

Вы же сказали, что может быть математически невозможно формально проверить систему ИИ?

Существует общая проблема «неразрешимости» во многих вопросах, которые вы можете задать на тему компьютерных программ. Алан Тьюринг показал, что ни одна компьютерная программа не сможет решить, когда другая возможная программа выдаст ответ, а когда застрянет в бесконечном цикле. Поэтому если вы начнете с одной программы, а она сможет себя перезаписать и стать другой программой, у вас появится проблема, поскольку вы не сможете доказать, что все возможные другие программы будут отвечать определенным критериям. Так стоит ли тогда переживать по поводу неразрешимости систем ИИ, которые перезаписывают себя? Они будут перезаписывать себя в новую программу на основе существующей программы плюс опыта, который получают из реального мира. Какими будут последствия тесного взаимодействия программ с реальным миром? Мы пока не знаем.