ИИ-агенты ужасные фрилансеры, они могут выполнять лишь 3% работы человека

Возможности ИИ ограничены. Кроме того, они невероятно непродуктивные по сравнению с людьми и могут выполнить лишь 3% работы человека. Об этом говорится в новом исследовании.

Исследователи из некоммерческой организации Center for AI Safety (CAIS) и фирмы Scale AI испытали шесть ведущих ИИ с помощью теста Remote Labor Index и попросили их выполнить задания для фрилансеров.

Оказалось, что ни один из тестируемых ИИ не смог выполнить задания более чем на 3%. Лучше всех с заданиями справился ИИ китайского стартапа Manus. Однако, он смог выполнить лишь 2,5% заданий на приемлемом уровне, который обычно ожидается от людей.

Второе место с результатом 2,1% разделили Grok 4 Илона Маска и Claude Sonnet 4.5 компании Anthropic, которую компания называет «лучшей моделью кодирования в мире» и «самой сильной моделью для создания сложных агентов».

Новая модель OpenAI GPT-5, которая, по заявлениям создателей, «достигла уровня доктора наук», справилась всего на 1,7%. А ChatGPT Agent этой же компании справился еще хуже и выполнил лишь 1,3% задач. Однако, самым худшим фрилансером оказался Google Gemini 2.5 Pro с жалкими 0,8%.

«Я надеюсь, что это даст гораздо более точное представление о том, что происходит с возможностями ИИ», — рассказал WIRED один из авторов исследования Дэн Хендрикс.