1. Новости

ИИ-агенты ужасные фрилансеры, они могут выполнять лишь 3% работы человека

Воз­мож­но­сти ИИ огра­ни­че­ны. Кро­ме того, они неве­ро­ят­но непро­дук­тив­ные по срав­не­нию с людь­ми и мо­гут вы­пол­нить лишь 3% ра­бо­ты че­ло­ве­ка. Об этом го­во­рит­ся в но­вом ис­сле­до­ва­нии.

Ис­сле­до­ва­те­ли из неком­мер­че­ской ор­га­ни­за­ции Cen­ter for AI Safety (CAIS) и фир­мы Scale AI ис­пы­та­ли шесть ве­ду­щих ИИ с по­мо­щью те­ста Re­mote La­bor In­dex и по­про­си­ли их вы­пол­нить за­да­ния для фри­лан­се­ров.

Ока­за­лось, что ни один из те­сти­ру­е­мых ИИ не смог вы­пол­нить за­да­ния бо­лее чем на 3%. Луч­ше всех с за­да­ни­я­ми спра­вил­ся ИИ ки­тай­ско­го стар­та­па Manus. Од­на­ко, он смог вы­пол­нить лишь 2,5% за­да­ний на при­ем­ле­мом уровне, ко­то­рый обыч­но ожи­да­ет­ся от лю­дей.

Вто­рое ме­сто с ре­зуль­та­том 2,1% раз­де­ли­ли Grok 4 Ило­на Мас­ка и Claude Son­net 4.5 ком­па­нии An­thropic, ко­то­рую ком­па­ния на­зы­ва­ет «луч­шей мо­де­лью ко­ди­ро­ва­ния в мире» и «са­мой силь­ной мо­де­лью для со­зда­ния слож­ных аген­тов».

Но­вая мо­дель Ope­nAI GPT-5, ко­то­рая, по за­яв­ле­ни­ям со­зда­те­лей, «до­стиг­ла уров­ня док­то­ра наук», спра­ви­лась все­го на 1,7%. А Chat­GPT Agent этой же ком­па­нии спра­вил­ся еще хуже и вы­пол­нил лишь 1,3% за­дач. Од­на­ко, са­мым худ­шим фри­лан­се­ром ока­зал­ся Google Gem­ini 2.5 Pro с жал­ки­ми 0,8%.

«Я на­де­юсь, что это даст го­раз­до бо­лее точ­ное пред­став­ле­ние о том, что про­ис­хо­дит с воз­мож­но­стя­ми ИИ», — рас­ска­зал WIRED один из ав­то­ров ис­сле­до­ва­ния Дэн Хенд­рикс.