Очередная победа Deep Mind: после шахмат и го искусственный интеллект покорил StarCraft

Илья Хель

В ноябре 2017 года, то есть чуть больше года назад, мы писали, что искусственный интеллект пока не в силах одолеть профессиональных игроков в StarCraft. Но не прошло и года, как и этот барьер оказался взят. В прошлом месяце в Лондоне команда из английского подразделения исследования искусственного интеллекта DeepMind тихо заложила новый краеугольный камень в противостоянии людей и компьютеров. В четверг она раскрыла это достижение в трехчасовом стриме на YouTube, в ходе которого люди и роботы сражались не на жизнь, а на смерть.

Очередная победа Deep Mind: после шахмат и го искусственный интеллект покорил StarCraft. Фото.

DeepMind победил людей в StarCraft

Трансляция DeepMind показала, что ее робот с искусственным интеллектом AlphaStar побеждает профессионального игрока в сложной стратегии в реальном времени (RTS) StarCraft II. Чемпион человечества, 25-летний Гжегож Коминц из Польши, отлетел со счетом 5:0. Похоже, программное обеспечение для машинного обучения обнаружило стратегии, неизвестные профессионалам, которые соревнуются за миллионы долларов призовых, которые выдаются ежегодно в одной из самых прибыльных для мира киберспорта игр.

Очередная победа Deep Mind: после шахмат и го искусственный интеллект покорил StarCraft. DeepMind победил людей в StarCraft. Фото.

«Это не было похоже ни на один StarCraft, в который я играл», заявил Коминц, известный профессионал под ником MaNa.

Подвиг DeepMind является самым сложным в длинной цепочке состязаний, которые компьютеры навязывали лучшим из мира людей в играх и в которых побеждали. Шашки пали в 1994, шахматы в 1997, в 2016 году AlphaGo покорил игру го. Робот для StarCraft — самый мощный игрок из мира искусственного интеллекта; и его приход ждали.

AlphaStar появился примерно шесть лет назад в истории машинного обучения. Хотя победа AlphaGo в 2016 году была ошеломляющей — эксперты го считали, что этот момент наступит как минимум десятью годами позже — победа AlphaStar кажется более-менее прибывшей по расписанию. К настоящему времени ясно, что при достаточном количестве данных и вычислительной мощности машинное обучение может справиться со сложными, но конкретными проблемами.

Марк Ридл, доцент Технологического института Джорджии, нашел новости четверга захватывающими, но не потрясающими. «Мы уже дошли до этой точки, так что это был только вопрос времени. В некотором смысле, побеждать людей в играх стало скучно».

Видеоигры вроде StarCraft математически сложнее, чем шахматы или го. Количество действительных позиций на доске го представляет собой единицу с 170 нулями, а эквивалент в StarCraft оценивается как 1 с 270 нулями, не меньше. Создание и управление военными юнитами в StarCraft требует от игроков выбора и выполнения многих других действий, а также принятия решения без возможности видеть каждый шаг оппонента.

DeepMind предолел эти крутые барьеры с помощью мощных чипов TPU, которые Google изобрел для повышения мощности машинного обучения. Компания адаптировала алгоритмы, разработанные для обработки текста под задачу определения действий на поле битвы, которые приводят к победе. AlphaStar обучался в StarCraft на записях полумиллиона игр между людьми, затем играл с постоянно улучшающимися клонами самого себя в виртуальной лиге, что представляет собой своего рода цифровую эволюцию. Лучшие боты, появившиеся в этой лиге, накапливали опыт, эквивалентный геймплею 200 лет.

AlphaStar, который одолел MaNa, далеко не всесильный. На данный момент робот может играть только за одну из трех рас, доступных в StarCraft. В дополнение к нечеловечески долгому опыту игры, DeepMind также по-другому воспринимает эту игру. Он видит все, что происходит в игре, однвоременно, тогда как MaNa нужно было перемещаться по карте, чтобы увидеть, что происходит. AlphaStar также обладает более высокой точностью управления и нацеливания юнитов, чем человек, владеющий компьютерной мышью, хотя время реакции компьютера и меньше, чем у профессионального геймера.

Несмотря на эти огрехи, Ридл и другие эксперты целиком приветствовали работу DeepMind. «Это было очень впечатляющей», говорит Цзе Тан, исследователь независимого исследовательского института ИИ OpenAI, работающий над ботами, которые играют в Dota 2, самую прибыльную для киберспорта игру в мире. Такие трюки с видеоиграми могут иметь потенциально полезные побочные эффекты. Алгоритмы и код, которые OpenAI использовал для освоения Dota в прошлом году, с переменным успехом были адаптированы, чтобы сделать руки роботов более ловкими.

Тем не менее, AlphaStar иллюстрирует ограничение современных узкоспециализированных систем машинного обучения, говорит Джулиан Тогелиус, профессор Нью-Йоркского университета и автор недавно вышедшей книги об играх и искусственном интеллекте. В отличие от своего человеческого противника, новый чемпион DeepMind не может играть в полную силу на разных игровых картах или за разные расы инопланетян в игре без продолжительного дополнительного обучения. Также он не может играть в шашки, шахматы или более ранние версии StarCraft.

Эта неспособность справиться даже с небольшими сюрпризами является проблемой для многих ожидаемых приложений ИИ, таких как автономные автомобили или адаптируемые боты, которые исследователи называются общим искусственным интеллектом (AGI, ОИИ). Более значимая битва между человеком и машиной может быть своего рода десятиборьем, с настольными играми, видеоиграми и финалом в Dungeons and Dragons.

Ограничения узкоспециализированного искусственного интеллекта, казалось, проявились, когда MaNa играл в показательную игру против AlphaStar, который был ограничен просмотром карты по типу человека, по одному квадрату за раз. Данные DeepMind показали, что он почти так же хорош, как и тот, что обыграл MaNa в пяти играх.

Новый бот быстро собрал армию, достаточно мощную, чтобы сокрушить своего соперника-человека, но MaNa использовал умные маневры и опыт поражений, чтобы сдержать силы ИИ. Задержка дала ему время, чтобы собрать собственные войска и победить.

Чтобы найти больше интересных новостей, читайте нас в Дзен.