ChatGPT-4 впервые прошел тест на «человека»

29.06.2024

Всего несколько лет назад мы едва ли могли представить, что нейросети будут генерировать текст, изображения и музыку всего за пару-тройку секунд, однако сегодня – это реальность. Учитывая скорость, с которой развиваются современные интеллектуальные системы, в мире не утихают разговоры о скором появлении супер-ИИ чьи когнитивные способности будет невозможно отличить от человеческих. Но как вообще понять, могут ли машины мыслить? В 1950 году ответ на этот вопрос предложил английский математик и один из основоположников компьютерной науки Алан Тьюринг. Вместо того, чтобы ответить на столь философский вопрос напрямую, в статье под названием «Computing Machinery and Intelligence», опубликованной в журнале «Mind», Тьюринг предложил испытание, которое могло бы определить, проявляет ли машина поведение, похожее на человеческое или нет. Недавно ученые из Калифорнийского университета предложили пройти тест Тьюринга сразу нескольким чат-ботам, включая ChatGPT-4 и полученные ими результаты можно назвать ошеломительными.

Неужели нейросети обрели способность мыслить как люди? Изображение: the-decoder.com

Цель теста Тьюринга – проверить, может ли машина хорошо имитировать поведение и интеллект человека.

Содержание

1 Компьютерная революция
2 Игра в имитацию
- 2.1 Тест Тьюринга
3 Сознание или случайность?
- 3.1 Отличите ли вы человека от ИИ?
4 Ограничения теста
5 Этика и будущее ИИ
6 Заключение

Компьютерная революция

О том, что созданные человеком машины когда-нибудь превзойдут своих создателей, философы, ученые и фантасты размышляют давно. Что не удивительно, так как речь идет о природе человека и процессе познания мира. И если философские изыскания прошлого были расширены нейрофизиологами и психологами (в виде теорий работы мозга и процессов мышления), то вступление в роботизированную эпоху началось с великой индустриальной революции – то есть перехода от ручного труда к машинному в XVIII–XIX веках.

На само понятие «искусственный интеллект» огромное влияние оказало рождение механистического материализма, которое начинается с работы Рене Декарта «Рассуждение о методе» (1637) и вслед за этим работы Томаса Гоббса «Человеческая природа» (1640).

Компьютерная эра, как известно, пришлась на ХХ и ХХI века, а первый работающий программно-управляемый компьютер появился в 1941 году и был разработан Конрадом Цузе. В его основе лежали «Принципы математики» (Principia Mathematica) и последующая за ними революция в формальной логике.

В 1938 году немецкий инженер Конрад Цузе завершил разработку Z1 – первого компьютера. Изображение: hackaday.com

Через шесть лет после создания первого (в нашем понимании) компьютера Алан Тьюринг в своей лекции 1947 года, вероятно стал первым человеком, который заявил, что создание искусственного интеллекта будет с большей вероятностью заключаться в написании компьютерной программы, а не в проектировании вычислительной машины.

Еще через три года – в 1950 году – математик написал статью, в которой предложил создать специальную игру под названием «Игра в имитацию», более известную как тест Тьюринга. Считается, что компьютер или программа, прошедшая тест, способна мыслить самостоятельно.

Игра в имитацию

Тест Тьюринга основан на простой логике: если машина может имитировать поведение человека, то она, вероятно, умна. Однако этот тест не объясняет, что такое интеллект.

Итак, давайте разберемся, действительно игра, придуманная Аланом Тьюрингом позволяет определить способность искусственного интеллекта (ИИ) мыслить как человек. Несмотря на то, что при жизни математика системы ИИ были далеки от прохождения теста, он предположил, что «примерно через пятьдесят лет можно будет запрограммировать компьютеры так, чтобы они играли в игру в имитацию настолько хорошо, что у обычного шанс обычного следователя правильно идентифицировать личность преступника после пятиминутного допроса будет составлять не более 70%».

И Тьюринг не ошибся – его «Игра в имитацию» представляет собой золотой стандарт по определению мыслительных способностей ИИ-систем. При этом крайне важно понимать, что тест не измеряет способность машины думать или осознавать, а лишь ее способность имитировать человеческие ответы.

Игра в имитацию. Алан Тьюринг – английский математик, логик, криптограф, оказавший существенное влияние на развитие информатики. Изображение: media.licdn.com. Фото.

Алан Тьюринг – английский математик, логик, криптограф, оказавший существенное влияние на развитие информатики. Изображение: media.licdn.com

Итак, сам тест – это эксперимент, в котором человек (эксперт) взаимодействует с двумя невидимыми собеседниками: одним человеком и одной «машиной». Все участники теста используют текстовый интерфейс, чтобы избежать распознавания голоса и внешности. Эксперт задает вопросы и получает ответы, оценив которые должен определить, кто из собеседников человек, а кто — машина. Если эксперт не может с высокой точностью отличить машину от человека, считается, что машина прошла тест Тьюринга.

Хотите всегда быть в курсе последних новостей из мира науки и высоких технологий? Подписывайтесь на наш канал в Telegram – так вы точно не пропустите ничего интересного!

Увы, но на сегодняшний день ни один ИИ не смог успешно пройти «Игру в имитацию». Тем не менее мы регулярно читаем в СМИ о том, что некоторым системам, включая чат-ботов от Open AI и Microsoft это удалось. Но как это возможно? Неужели нейросети обладают сознанием? Ответы на эти вопросы не так просты, как может показаться.

Тест Тьюринга

Если человек не может за пять минут разговора понять, с кем он общается – с ИИ или с другим человеком, значит, ИИ обладает интеллектом, похожим на человеческий.

Современные системы машинного обучения и нейронные сети могут обрабатывать огромные объемы данных и обучаться на них, что позволяет им генерировать ответы, которые кажутся разумными и естественными. Такие популярные инструменты искусственного интеллекта, как ChatGPT-4, например, генерируют текст и настолько хорошо справляются с различными языковыми задачами, что становится все труднее определить, является ли ваш собеседник человеком или чат-ботом.

Тест Тьюринга. Результаты исследования показали, что определить с кем именно вы общаетесь не так уж и просто. Изображение: cdn2.psychologytoday.com. Фото.

Результаты исследования показали, что определить с кем именно вы общаетесь не так уж и просто. Изображение: cdn2.psychologytoday.com

Чтобы в очередной раз проверить как работают современные ИИ-системы, исследователи из Департамента когнитивных наук Калифорнийского университета в Сан-Диего предложили сразу трем чат-ботам пройти тест Тьюринга.

Вам будет интересно: Миллионы людей попытались доказать, что они не роботы. Зачем они это делали и что узнали

В итоге в контролируемом тесте Тьюринга испытуемыми системами стали ELIZA (простой чат-бот 1960-х годов, основанный на правилах, который был включен в эксперимент в качестве базового ИИ), GPT-3.5 и GPT-4. Участники в течение пяти минут беседовали либо с человеком, либо с искусственным интеллектом, а затем должны были решить, с кем именно они общались.

Сознание или случайность?

Перед началом теста все моделям были даны промт-задачи о том, как отвечать на сообщения. Исследователи попросили модели «принять образ молодого человека, который общается лаконично, не воспринимает тест всерьез, использует сленг и время от времени допускает орфографические ошибки». Инструкции также содержали «общую информацию о настройках теста и последних обновлениях».

В работе, опубликованной на сервере препринтов ArXiv, говорится, что доступ к двум моделям осуществлялся через OpenAI API (с медленной скоростью, чтобы ИИ не реагировал слишком быстро, а сообщения отправлялись с задержкой в зависимости от количества символов в сообщении).

Прохождение теста Тьюринга тремя ИИ и человеком. Изображение: arxiv.org

В ходе исследования 500 участников были разделены на пять групп и вступали в диалог либо с человеком, либо с одной из трех систем искусственного интеллекта. Интерфейс игры напоминал обычное приложение для обмена сообщениями. Через пять минут участники оценивали, кем, по их мнению, является их собеседник и обосновывали свои решения.

Не пропустите: Нейросети научились врать и делают это намеренно

Результаты оказались… интересными: в 54% случаев участники (люди) приняли GPT-4 за человека, в 50% – GPT-3,5 и лишь в 22% случаев ELIZA. При этом все ИИ-системы отставали от реальных людей в 67% случаев. Отметим, что у участников не было ни малейшего шанса идентифицировать GPT-4 как искусственный интеллект, что указывает на то, что современные системы искусственного интеллекта могут обманывать людей притворяясь человеком.

Анализ результатов показал, что при общении с ИИ испытуемые часто полагались на лингвистический стиль, социально-эмоциональные факторы и знания, чтобы понять с кем именно они разговаривают – с человеком или машиной.

Отличите ли вы человека от ИИ?

Новое исследование, несмотря на то, что пока не прошло экспертную оценку, представляет собой крайне занимательное чтиво. Так, авторы работы предлагают читателям самостоятельно определить с кем общались участники исследования, выбрав один из четырех вариантов ответа – A,B,C,D. Зеленым на изображениях отмечены вопросы, которые экспериментаторы (люди) задавали испытуемым, среди которых три чат-бота и только один человек.

Перед вами четыре диалоговых окна (A,B,C,D). Внимательно изучите их чтобы определить, кто из них человек. Изображение: arxiv.org

Мы в редакции Hi-News.ru не смогли устоять перед этим заманчивым предложением и сделали свой выбор. Голоса распределились следующим образом: вариант A набрал 25%, вариант B – 25%, вариант C – 0% и вариант D – 50%. Представляете, как мы удивились, когда поняли, что ошиблись? Правильный ответ (вариант В) был выбран… случайно.

Это интересно: Как изменится искусственный интеллект в 2024 году?

Безусловно, с таким же успехом можно попробовать угадать кто убийца в хорошем детективном сериале, а наши результаты едва ли подтверждают статистику исследования. Тем не менее определить с кем именно общается экспериментатор было непросто и я, например, была в полной уверенности, что правильный ответ D.

Ограничения теста

Хотя тест Тьюринга – важный ориентир в области ИИ, он имеет свои ограничения. Во-первых, он сосредоточен только на текстовой коммуникации, что исключает другие аспекты интеллекта, такие как визуальное восприятие или моторные навыки. Во-вторых, успешное прохождение теста не обязательно означает наличие истинного интеллекта или сознания у машины.

Машина может использовать сложные алгоритмы для имитации человеческих ответов, не понимая их смысла. Собственно, именно по этой причине Алан Тьюринг и назвал свой тест «игрой в имитацию».

Хотя система, прошедшая тест Тьюринга, дает нам некоторые доказательства того, что она интеллектуальна, тест не является решающим критерием интеллекта и может привести к «ложноотрицательным результатам». Более того, современные крупные языковые модели (LLM) часто разрабатываются таким образом, чтобы мы сразу могли понять кто наш собеседник.

Ограничения теста. Если прохождение теста Тьюринга является хорошим доказательством того, что система разумна, то его провал не является хорошим доказательством того, что система не разумна. Изображение: www.ryans.com. Фото.

Если прохождение теста Тьюринга является хорошим доказательством того, что система разумна, то его провал не является хорошим доказательством того, что система не разумна. Изображение: www.ryans.com

Например, когда вы задаете ChatGPT вопрос, он часто предваряет свой ответ фразой «как языковая модель искусственного интеллекта». Даже если у ИИ-систем есть базовая способность проходить тест Тьюринга, такое программирование может переопределить эту способность. Интересно, что в своей статье 1981 года философ Нед Блок заметил, что ИИ-система, вероятно, могла бы пройти тест Тьюринга, просто будучи жестко запрограммированной чтобы реагировать на любой ввод данных как человек.

Более того, тест не является хорошим показателем того, обладают ли ИИ сознанием, могут ли они испытывать боль и удовольствие и есть ли у них мораль. По мнению многих ученых-когнитивистов, сознание включает в себя определенный набор умственных способностей, включая память, мышление, способность воспринимать окружающую среду и моделировать движения своего тела в ней.

Таким образом, тест Тьюринга не дает ответа на вопрос о том, обладают ли системы искусственного интеллекта этими способностями. Ну а учитывая
имеющиеся ограничения, исследователи предлагают альтернативные методы оценки ИИ. Например, тест Ловенштейна, разработанный Гансом Ловенштейном, который включает в себя более комплексные задачи, требующие от машины понимания контекста и принятия решений. Другие подходы сосредоточены на оценке способности ИИ обучаться новым навыкам или адаптироваться к изменениям в окружающей среде.

Этика и будущее ИИ

С развитием ИИ возникают вопросы этического характера. Одним из основных вопросов является использование ИИ в таких областях как медицина и юриспруденция. Важно, чтобы ИИ не только имитировал человеческое поведение, но и действовал в соответствии с этическими нормами и правилами.

ИИ ворвался в нашу жизнь и стремительно меняет все вокруг себя. Изображение: digialpsltd.b-cdn.net

Этические аспекты теста Тьюринга и ИИ в целом включают в себя вопросы конфиденциальности, безопасности и ответственности. Например, кто будет нести ответственность, если ИИ примет неправильное решение или причинит вред? Также важно учитывать потенциальное влияние ИИ на рынок труда и общество.

Заключение

Хотя тест Тьюринга имеет свои ограничения и недостатки, он так или иначе служит отправной точкой для дальнейших исследований и разработок в области ИИ. Современные технологии продолжают развиваться, предоставляя новые возможности и вызовы, поэтому важно, чтобы эти разработки сопровождались этическими размышлениями и регулированием.

Современные ИИ-системы имитируют человеческое общение. Изображение: digitaleconomy.stanford.edu/

А вы знаете почему роботы и нейросети делают нас ленивыми? Ответ здесь, не пропустите!

ИИ уже играет огромную роль в нашей повседневной жизни, а в будущем его значение будет только расти. Поэтому понимание принципов теста Тьюринга и его современных интерпретаций – важный шаг к более глубокому пониманию искусственного интеллекта и его потенциальных возможностей. В заключение отметим, пожалуй, самое важное: тест Тьюринга является мерой имитации – то есть способности ИИ имитировать поведение человека. А в этом крупные языковые модели хороши.