Простой тест на внимание: почему с ним справляется человек, но не ChatGPT?

Рамис Ганиев

Самые популярные нейросети провалили простой тест на внимание, с которым человек справляется почти не задумываясь. Исследователи взяли классический психологический эксперимент и обнаружили, что чем дольше идет испытание, тем сильнее рассыпается точность ИИ. Некоторые системы падали с 90% правильных ответов почти до полного провала. Звучит парадоксально, потому что нейросети пишут эссе, решают сложные задачи и даже пишут музыку за нас, но спотыкаются там, где человек справляется без проблем.

Нейросети теряют внимание быстрее, чем люди. Фото.

Нейросети теряют внимание быстрее, чем люди

Что такое тест Струпа и зачем его используют психологи

Тест Струпа — один из самых известных психологических экспериментов, и придумали его почти сто лет назад. Психологи используют его для оценки внимания, концентрации и самоконтроля.

Суть проста. Вам показывают названия цветов, но напечатаны они разными чернилами. Иногда слово и цвет совпадают, например слово «красный» написано красным. А иногда конфликтуют, например, слово «красный» напечатано синими чернилами. Задача участника — назвать цвет чернил, а не прочитать само слово.

Казалось бы, ничего сложного. Но именно здесь возникает подвох, потому что чтение слов у человека доведено до автоматизма. Мозгу приходится подавлять привычный порыв прочитать слово и вместо этого сосредоточиться на цвете чернил. Именно эта борьба и делает тест ценным для науки.

Попробуйте пройти тест Струпа сами. Фото.

Попробуйте пройти тест Струпа сами

Как ученые проверяли внимание искусственного интеллекта

Группа под руководством Сукету Пателя решила выяснить, справляются ли современные большие языковые модели с этим вызовом так же, как люди. Речь о тех самых системах, что стоят за ChatGPT, Claude и Gemini. Они обучены на огромных объемах текста и улавливают закономерности языка, из-за чего их ответы часто кажутся почти человеческими.

На коротких списках все выглядело прекрасно. Когда моделям давали пять названий цветов, они отвечали хорошо, даже если слово и цвет чернил не совпадали. Проблемы начинались, когда список становился длиннее.

Вот что показало исследование на примере GPT-4o:

  • на пяти словах — 91% правильных ответов
  • на десяти словах точность упала до 57%
  • на сорока словах осталось всего 15%

Похожая картина повторилась у других топовых систем. Claude 3.5 Sonnet держался стабильно до двадцати слов, но затем резко просеk до 24% точности на списках из сорока слов. Те же закономерности исследователи увидели у GPT-5, Claude Opus 4.1 и Gemini 2.5.

Читайте также: Почему нейросети могут сломаться уже через несколько лет?

Почему ИИ теряет фокус на длинных заданиях

Самое интересное началось, когда в одном списке перемешали совпадающие и конфликтующие пары. В таких условиях точность ответов нейросетей на конфликтных словах падала почти до нуля.

По словам исследователей, модели не могли удержать инструкцию называть цвет чернил. Вместо этого они все чаще скатывались к простому чтению самих слов. Иными словами, системы оказались не способны последовательно подавлять тот ответ, который в них заложен обучением сильнее всего, то есть прочитать слово.

И вот здесь возникает любопытная параллель с человеком. Люди тоже гораздо лучше читают слова, чем называют цвета чернил, и этот перекос у нас в голове никуда не девается. Но, несмотря на такую же склонность, человек сохраняет высокую точность даже на длинных списках конфликтующих слов и цветов. У нейросети такой устойчивости не оказалось.

Чем длиннее и запутаннее задание, тем сильнее у нейросети рассыпается точность

Чем длиннее и запутаннее задание, тем сильнее у нейросети рассыпается точность

Чем внимание человека отличается от внимания нейросети

Главный вывод исследования заключается в различии механизмов. Хотя современный искусственный интеллект выдает впечатляющие языковые способности, его внимание устроено иначе, чем процессы в живом мозге.

Человек умеет удерживать конкретную цель и отсеивать все лишнее, даже когда информации много, а соблазн отвлечься велик. Результаты же показывают, что нынешние модели плохо справляются с таким когнитивным контролем, когда задача становится все более объемной и требовательной.

Исследователи считают, что этот обвал точности указывает на фундаментальные ограничения языковых моделей. ИИ порой убедительно имитирует человеческое поведение, но его способность удерживать фокус работает совсем не так, как у людей. Это стоит помнить, когда мы доверяем нейросети длинные и монотонные задачи, где легко потерять нить.

Что провал теста Струпа значит для применения ИИ

Важно не переоценивать выводы и помнить, что тест Струпа это узкая проверка, а не приговор всему ИИ. Но он наглядно показывает слабое место нейросетей, которое легко не заметить в коротких диалогах. Пока модель отвечает на пару строк, она выглядит безупречно, но стоит нагрузить ее длинной последовательностью с отвлекающими элементами, и она начинает сбиваться.

Еще больше познавательных статей вы найдете в нашем канале в MAX. Подпишитесь прямо сейчас!

Так что, чем длиннее и монотоннее задание для нейросети, тем внимательнее стоит перепроверять результат. За гладкими и уверенными ответами не всегда стоит устойчивое удержание цели. А для разработчиков это подсказка, куда двигаться дальше, то есть учить модели не терять фокус в долгих рассуждениях.