Искусственный интеллект поможет обуздать поток данных с БАК

Илья Хель ∙ 07.12.2015

Следующее поколение экспериментов по столкновению частиц задействует ряд самых продвинутых мыслящих машин в мире, если связи, созданные между физиками частиц и исследователями искусственного интеллекта (ИИ), укрепятся. Такие машины могут совершать открытия с небольшим вовлечением человека — и такая перспектива очень заинтересовала физиков.

Влекомые рвением совершать открытия и знанием того, что им придется столкнуться с неуправляемым объемом данных за десять лет, физики, работающие на Большом адронном коллайдере близ Женевы, Швейцария, запросили помощи экспертов в области ИИ.

9-13 ноября ведущие светила обоих сообществ приняли участие в семинаре — первом в своем роде, — на котором обсудили, как передовые методы ИИ могли бы ускорить свершения открытий на БАК. Физики частиц «осознали, что не смогут справиться с этим в одиночку», говорит Сесиль Жермен, ученый из Университета Париж-Юг в Орсе, принимавшая участие в семинаре ЦЕРН, лаборатории физики элементарных частиц, владеющей БАК.

Компьютерные ученые массово откликнулись на просьбу. В прошлом году Жермен помогла организовать конкурс по написанию программ, которые могли бы «обнаружить» следы бозона Хиггса в наиболее моделируемых данных; свои предложения выдвинули более 1700 команд.

Физика частиц, в принципе, уже знакома с ИИ. В частности, когда ATLAS и CMS, два крупнейших эксперимента БАК, обнаружили бозон Хиггса в 2012 году, они сделали это в рамках использования машинного обучения — формы ИИ, которая «обучает» алгоритмы распознавать закономерности в данных. Эти алгоритмы сначала обкатывались на моделях столкновений частиц и учились выделять закономерности, рожденные в процессе распада редких частиц Хиггса среди миллионов более понятных событий. Потом их отправили работать с реальными данными.

Но в ближайшем будущем эти эксперименты должны стать умнее в плане собирательства своих данных, а не только в их обработке. CMS и ATLAS в настоящее время производят сотни миллионов столкновений в секунду и опираются на быстрые и грязные критерии, игнорируя все события из тысячи кроме одного. Обновления, запланированные к 2025 году, означают, что число столкновений вырастет в 20 раз и что детекторам придется использовать более хитроумные способы, чтобы выбирать, что сохранять, говорит физик CMS Мария Спиропулу из Калифорнийского технологического института в Пасадене, помогавшая в организации семинара ЦЕРН. «Мы собираемся в неизвестность», — говорит она.

Вдохновение может прийти с другого эксперимента БАК, LHCb, который посвящен изучению тонких асимметрий между частицами и их антиматериальными противоположностями. В рамках подготовки ко второму запуску БАК с повышенной энергией, которая началась в апреле, команда LHCb запрограммировала свой детектор на использование машинного обучения при выборе, какие данные сохранять.

LHCb чувствителен к крошечным изменениям в температуре и давлении, поэтому данные, которые интересны сейчас, могут меняться на протяжении эксперимента — и к этому машинное обучение может адаптировать установку в режиме реального времени. «До этого никто такого не делал», — говорит Владимир Глигоров, физик LHCb в ЦЕРН, руководящий проектом ИИ.

Эксперименты в области физики частиц, как правило, требуют месяцев калибровки после обновления, говорит Глигоров. Но уже через две недели после энергетического апгрейда, детектор «заново обнаружил» частицу J/Ψ мезон — впервые обнаруженную в 1974 году в ходе двух независимых американских экспериментов и позже принесшую своим открывателям Нобелевскую премию.

В последующие годы CMS и ATLAS, скорее всего, пойдут по стопам LHCb, говорит Спиропулу и другие, и обеспечат детекторы алгоритмами, способными выполнять больше работы в режиме реального времени. Это будет революцией в области анализа данных.

Увеличение зависимости от принятия решений искусственным интеллектом будет сопряжено с новыми проблемами. В отличие от LHCb, который фокусируется в основном на поиске известных частиц, чтобы их можно было детально изучить, ATLAS и CMS предназначены для поиска новых частиц. Идея выбрасывания данных, которые могут в принципе содержать великие открытия, на основе критериев, которые будут непрозрачным образом определяться алгоритмами, вызывает беспокойство у многих физиков, говорит Жермен. Ученые хотят понять, как работают алгоритмы, и убедиться, что они основаны на принципах физики. «Это кошмар для них».

Сторонники этого подхода также должны убедить своих коллег отказаться от проверенных и испытанных методов, говорит Глигоров. «Эти сообщества огромны, поэтому на одобрение метода уйдет время, приблизительно равное возрасту Вселенной». В LHCb 1000 членов; в ATLAS и CMS по 3000.

Несмотря на эти проблемы, самым горячо обсуждаемым вопросом на семинаре было то, следует ли и если да, то как, физике частиц использовать еще более хитроумный ИИ, в форме так называемой техники глубокого обучения. Базовые алгоритмы машинного обучения обучаются на простых данных вроде изображений и «говорят», что на этих картинках изображено — лошадь или кот, например. Но в глубоком обучении, которое используется программным обеспечением Google (переводчик) и системы распознавания голоса в Siri от Apple, компьютер, как правило, не получает такого надзора и находит способы категоризации объектов самостоятельно.

И хотя они подчеркивают, что ученым было бы неудобно давать алгоритму такой уровень контроля, некоторые ораторы на семинаре ЦЕРН рассказали, как глубокое обучение можно было бы применить к физике. Пьер Бальди, исследователь ИИ в Калифорнийском университете в Ирвине, применявший машинное обучение к различным областям науки, описал, как он и его коллеги провели исследование и выяснили, что техника глубокого обучения, известная как «темное знание», могла бы помочь в поисках темной материи.

Глубокое обучение может даже привести к открытию частиц, которых теоретики еще не предсказывали, говорит член CMS Маурицио Пьерини, штатный физик ЦЕРН.