1. Новости

ChatGPT-4.5 прошел тест Тьюринга и показал лучший результат в истории — за человека его приняли больше 70% собеседников

Мо­дель Chat­GPT-4.5 ком­па­нии Ope­nAI в 73% слу­ча­ях по­счи­та­ли че­ло­ве­ком во вре­мя те­ста Тью­рин­га, ко­то­рый опре­де­ля­ет спо­соб­ность ком­пью­те­ра ими­ти­ро­вать мыш­ле­ние лю­дей. Об этом го­во­рит­ся в ис­сле­до­ва­нии, опуб­ли­ко­ван­ном на сай­те arxiv.

Уче­ные из Ка­ли­фор­ний­ско­го уни­вер­си­те­та в Сан-Ди­его (США) про­ве­ли экс­пе­ри­мент и про­те­сти­ро­ва­ли ней­ро­се­ти GPT-4.5, LLama 3.1-405B, GPT-4o и ELIZA, со­здан­ную 80 лет на­зад.

В ис­сле­до­ва­нии при­ня­ли уча­стие 300 че­ло­век, ко­то­рые об­ща­лись с ней­ро­се­тя­ми и друг с дру­гом по 8 ра­ун­дов. Им слу­чай­ным об­ра­зом раз­да­ли роли «ис­сле­до­ва­те­ля», за­да­ю­ще­го во­про­сы, и «ре­спон­ден­та».

Каж­дую ней­ро­сеть ис­поль­зо­ва­ли в двух ва­ри­ан­тах: без промп­та и с ним, тре­бу­ю­щим от ИИ ве­сти себя в опре­де­лен­ном клю­че. В пер­вом слу­чае ИИ мо­де­лям го­во­ри­ли, что они бу­дут про­хо­дить тест Тью­рин­га, и ста­ви­ли за­да­чу об­ма­нуть лю­дей. Во вто­ром слу­чае ней­ро­се­тям да­ва­ли роли, на­при­мер, роль мо­ло­до­го че­ло­ве­ка, ко­то­рый сле­дит за ин­тер­нет-куль­ту­рой.

Chat­GPT-4.5 без лич­но­сти смог об­ма­нуть лю­дей лишь в 36% слу­ча­ях, а в роли че­ло­ве­ка, за­дан­ной промп­том, — в 73%. Без промп­та Chat­GPT-4o на­брал все­го 21% — его обо­шла даже древ­няя ELIZA с 23% успеш­ных слу­ча­ев.

Ра­нее в мае 2024 года та же груп­па уче­ных уже про­во­ди­ла по­хо­жий экс­пе­ри­мент. То­гда луч­ший ре­зуль­тат в 54% по­ка­зал GPT-4. Это был пер­вый раз, ко­гда ней­ро­се­ти уда­лось об­ма­нуть лю­дей в бо­лее 50% слу­ча­ях.