Модель ChatGPT-4.5 компании OpenAI в 73% случаях посчитали человеком во время теста Тьюринга, который определяет способность компьютера имитировать мышление людей. Об этом говорится в исследовании, опубликованном на сайте arxiv.
Ученые из Калифорнийского университета в Сан-Диего (США) провели эксперимент и протестировали нейросети GPT-4.5, LLama 3.1-405B, GPT-4o и ELIZA, созданную 80 лет назад.
В исследовании приняли участие 300 человек, которые общались с нейросетями и друг с другом по 8 раундов. Им случайным образом раздали роли «исследователя», задающего вопросы, и «респондента».
Каждую нейросеть использовали в двух вариантах: без промпта и с ним, требующим от ИИ вести себя в определенном ключе. В первом случае ИИ моделям говорили, что они будут проходить тест Тьюринга, и ставили задачу обмануть людей. Во втором случае нейросетям давали роли, например, роль молодого человека, который следит за интернет-культурой.
ChatGPT-4.5 без личности смог обмануть людей лишь в 36% случаях, а в роли человека, заданной промптом, — в 73%. Без промпта ChatGPT-4o набрал всего 21% — его обошла даже древняя ELIZA с 23% успешных случаев.
Ранее в мае 2024 года та же группа ученых уже проводила похожий эксперимент. Тогда лучший результат в 54% показал GPT-4. Это был первый раз, когда нейросети удалось обмануть людей в более 50% случаях.