Ни одна современная нейросеть не справилась с простым тестом на решение нетривиальных задач

ChatGPT, DeepSeek, Google Gemini и другие модели искусственного интеллекта не справились с новы тестом ARC-AGI-2, который измеряет общий интеллект нейросетей. Об этом говорится в результатах исследования некоммерческой организации ARC Prize, которая занимается развитием общего искусственного интеллекта (AGI).

Чтобы успешно пройти тест, не нужно знать огромное количество информации. Тест оценивает эффективность и скорость приобретения навыков в при выполнении новых задач.

ARC Prize протестировали 20 моделей искусственного интеллекта и выяснили, что тест для них слишком сложен. DeepSeek и Gemini 2.0 Flash набрали всего по 1,3%, GPT 4.5 — 0,8%. Лучше всех справились модели OpenAI o3 и o1, но даже они набрали всего 4% и 3% соответственно.

С предыдущей версией теста ARC-AGI-1 нейросети справлялись намного лучше. Лучше все себя проявила также o3, набрав 75%. DeepSeek тогда набрал 15,8%, а ARChitects — 56%.

При этом у человека эти тесты не вызвали никаких сложностей. Человек решил тест ARC-AGI-1 на 98%, а ARC-AGI-2 на максимальные 100%.

Ни одна современная нейросеть не справилась с простым тестом на решение нетривиальных задач

Читайте также

ИИ-помощник для айтишников троллит пользователей и советует научиться кодить самостоятельно

Могут ли нейросети заменить психологов: тестируем три способа борьбы с тревожностью с помощью ИИ

Итальянская газета опубликовала первый выпуск, полностью созданный ИИ

«В наше время глупо оценивать просто знания». Что такое креативное образование и кому оно нужно

30% популярных чат-ботов на основе ИИ, возможно, передают данные третьей стороне