ChatGPT, DeepSeek, Google Gemini и другие модели искусственного интеллекта не справились с новы тестом ARC-AGI-2, который измеряет общий интеллект нейросетей. Об этом говорится в результатах исследования некоммерческой организации ARC Prize, которая занимается развитием общего искусственного интеллекта (AGI).
Чтобы успешно пройти тест, не нужно знать огромное количество информации. Тест оценивает эффективность и скорость приобретения навыков в при выполнении новых задач.
ARC Prize протестировали 20 моделей искусственного интеллекта и выяснили, что тест для них слишком сложен. DeepSeek и Gemini 2.0 Flash набрали всего по 1,3%, GPT 4.5 — 0,8%. Лучше всех справились модели OpenAI o3 и o1, но даже они набрали всего 4% и 3% соответственно.
С предыдущей версией теста ARC-AGI-1 нейросети справлялись намного лучше. Лучше все себя проявила также o3, набрав 75%. DeepSeek тогда набрал 15,8%, а ARChitects — 56%.
При этом у человека эти тесты не вызвали никаких сложностей. Человек решил тест ARC-AGI-1 на 98%, а ARC-AGI-2 на максимальные 100%.