1. Новости

Ни одна современная нейросеть не справилась с простым тестом на решение нетривиальных задач

Chat­GPT, DeepSeek, Google Gem­ini и дру­гие мо­де­ли ис­кус­ствен­но­го ин­тел­лек­та не спра­ви­лись с новы те­стом ARC-AGI-2, ко­то­рый из­ме­ря­ет об­щий ин­тел­лект ней­ро­се­тей. Об этом го­во­рит­ся в ре­зуль­та­тах ис­сле­до­ва­ния неком­мер­че­ской ор­га­ни­за­ции ARC Prize, ко­то­рая за­ни­ма­ет­ся раз­ви­ти­ем об­ще­го ис­кус­ствен­но­го ин­тел­лек­та (AGI).

Что­бы успеш­но прой­ти тест, не нуж­но знать огром­ное ко­ли­че­ство ин­фор­ма­ции. Тест оце­ни­ва­ет эф­фек­тив­ность и ско­рость при­об­ре­те­ния на­вы­ков в при вы­пол­не­нии но­вых за­дач.

ARC Prize про­те­сти­ро­ва­ли 20 мо­де­лей ис­кус­ствен­но­го ин­тел­лек­та и вы­яс­ни­ли, что тест для них слиш­ком сло­жен. DeepSeek и Gem­ini 2.0 Flash на­бра­ли все­го по 1,3%, GPT 4.5 — 0,8%. Луч­ше всех спра­ви­лись мо­де­ли Ope­nAI o3 и o1, но даже они на­бра­ли все­го 4% и 3% со­от­вет­ствен­но.

С преды­ду­щей вер­си­ей те­ста ARC-AGI-1 ней­ро­се­ти справ­ля­лись на­мно­го луч­ше. Луч­ше все себя про­яви­ла так­же o3, на­брав 75%. DeepSeek то­гда на­брал 15,8%, а AR­Chi­tects — 56%.

При этом у че­ло­ве­ка эти те­сты не вы­зва­ли ни­ка­ких слож­но­стей. Че­ло­век ре­шил тест ARC-AGI-1 на 98%, а ARC-AGI-2 на мак­си­маль­ные 100%.