Самые популярные нейросети провалили простой тест на внимание, с которым человек справляется почти не задумываясь. Исследователи взяли классический психологический эксперимент и обнаружили, что чем дольше идет испытание, тем сильнее рассыпается точность ИИ. Некоторые системы падали с 90% правильных ответов почти до полного провала. Звучит парадоксально, потому что нейросети пишут эссе, решают сложные задачи и даже пишут музыку за нас, но спотыкаются там, где человек справляется без проблем.

Нейросети теряют внимание быстрее, чем люди
Что такое тест Струпа и зачем его используют психологи
Тест Струпа — один из самых известных психологических экспериментов, и придумали его почти сто лет назад. Психологи используют его для оценки внимания, концентрации и самоконтроля.
Суть проста. Вам показывают названия цветов, но напечатаны они разными чернилами. Иногда слово и цвет совпадают, например слово «красный» написано красным. А иногда конфликтуют, например, слово «красный» напечатано синими чернилами. Задача участника — назвать цвет чернил, а не прочитать само слово.
Казалось бы, ничего сложного. Но именно здесь возникает подвох, потому что чтение слов у человека доведено до автоматизма. Мозгу приходится подавлять привычный порыв прочитать слово и вместо этого сосредоточиться на цвете чернил. Именно эта борьба и делает тест ценным для науки.

Попробуйте пройти тест Струпа сами
Как ученые проверяли внимание искусственного интеллекта
Группа под руководством Сукету Пателя решила выяснить, справляются ли современные большие языковые модели с этим вызовом так же, как люди. Речь о тех самых системах, что стоят за ChatGPT, Claude и Gemini. Они обучены на огромных объемах текста и улавливают закономерности языка, из-за чего их ответы часто кажутся почти человеческими.
На коротких списках все выглядело прекрасно. Когда моделям давали пять названий цветов, они отвечали хорошо, даже если слово и цвет чернил не совпадали. Проблемы начинались, когда список становился длиннее.
Вот что показало исследование на примере GPT-4o:
- на пяти словах — 91% правильных ответов
- на десяти словах точность упала до 57%
- на сорока словах осталось всего 15%
Похожая картина повторилась у других топовых систем. Claude 3.5 Sonnet держался стабильно до двадцати слов, но затем резко просеk до 24% точности на списках из сорока слов. Те же закономерности исследователи увидели у GPT-5, Claude Opus 4.1 и Gemini 2.5.
Читайте также: Почему нейросети могут сломаться уже через несколько лет?
Почему ИИ теряет фокус на длинных заданиях
Самое интересное началось, когда в одном списке перемешали совпадающие и конфликтующие пары. В таких условиях точность ответов нейросетей на конфликтных словах падала почти до нуля.
По словам исследователей, модели не могли удержать инструкцию называть цвет чернил. Вместо этого они все чаще скатывались к простому чтению самих слов. Иными словами, системы оказались не способны последовательно подавлять тот ответ, который в них заложен обучением сильнее всего, то есть прочитать слово.
И вот здесь возникает любопытная параллель с человеком. Люди тоже гораздо лучше читают слова, чем называют цвета чернил, и этот перекос у нас в голове никуда не девается. Но, несмотря на такую же склонность, человек сохраняет высокую точность даже на длинных списках конфликтующих слов и цветов. У нейросети такой устойчивости не оказалось.

Чем длиннее и запутаннее задание, тем сильнее у нейросети рассыпается точность
Чем внимание человека отличается от внимания нейросети
Главный вывод исследования заключается в различии механизмов. Хотя современный искусственный интеллект выдает впечатляющие языковые способности, его внимание устроено иначе, чем процессы в живом мозге.
Человек умеет удерживать конкретную цель и отсеивать все лишнее, даже когда информации много, а соблазн отвлечься велик. Результаты же показывают, что нынешние модели плохо справляются с таким когнитивным контролем, когда задача становится все более объемной и требовательной.
Исследователи считают, что этот обвал точности указывает на фундаментальные ограничения языковых моделей. ИИ порой убедительно имитирует человеческое поведение, но его способность удерживать фокус работает совсем не так, как у людей. Это стоит помнить, когда мы доверяем нейросети длинные и монотонные задачи, где легко потерять нить.
Что провал теста Струпа значит для применения ИИ
Важно не переоценивать выводы и помнить, что тест Струпа это узкая проверка, а не приговор всему ИИ. Но он наглядно показывает слабое место нейросетей, которое легко не заметить в коротких диалогах. Пока модель отвечает на пару строк, она выглядит безупречно, но стоит нагрузить ее длинной последовательностью с отвлекающими элементами, и она начинает сбиваться.
Еще больше познавательных статей вы найдете в нашем канале в MAX. Подпишитесь прямо сейчас!
Так что, чем длиннее и монотоннее задание для нейросети, тем внимательнее стоит перепроверять результат. За гладкими и уверенными ответами не всегда стоит устойчивое удержание цели. А для разработчиков это подсказка, куда двигаться дальше, то есть учить модели не терять фокус в долгих рассуждениях.



Новости, статьи и анонсы публикаций
Чат с читателямиСвободное общение и обсуждение материалов