Выпускник MIT научился обманывать искусственный интеллект, принимающий на работу

Ис­кус­ствен­ный ин­тел­лект (ИИ) все чаще ис­поль­зу­ет­ся в про­цес­се най­ма со­труд­ни­ков — мы по­дроб­но пи­са­ли, чем опас­на та­кая тен­ден­ция. Неуди­ви­тель­но, что как толь­ко ИИ-ал­го­рит­мы на­ча­ли вво­дить но­вые усло­вия для лю­дей, пы­та­ю­щих­ся най­ти ра­бо­ту, мно­гие на­ча­ли ис­кать об­ход­ные пути. Вы­пуск­ник MIT Ди Джин (Di Jin) на­шел свой ва­ри­ант борь­бы с но­вы­ми тех­но­ло­ги­я­ми.




Ди Джин и ис­сле­до­ва­те­ли из уни­вер­си­те­та Гон­кон­га и Син­га­пур­ско­го агент­ства по на­у­ке, тех­но­ло­ги­ям и ис­сле­до­ва­ни­ям со­зда­ли тех­ни­ку для об­ма­на ИИ-про­грамм по ана­ли­зу тек­ста. TextFooler — это ал­го­ритм, ко­то­рый мо­жет «об­хо­дить» си­сте­му, при этом не из­ме­няя смысл из­на­чаль­но­го тек­ста. Он пред­ла­га­ет за­ме­нить сло­ва на си­но­ни­мы, ко­то­рые «по­нра­вят­ся» ис­кус­ствен­но­му ин­тел­лек­ту. При­мер был дан на ос­но­ве ре­цен­зий на филь­мы:

Пер­вый ва­ри­ант: «Пер­со­на­жи, ока­зы­ва­ю­щи­е­ся в неве­ро­ят­но на­ду­ман­ных (con­trived) си­ту­а­ци­ях, аб­со­лют­но (to­tally) ото­рва­ны от ре­аль­но­сти».

Ис­прав­лен­ный ва­ри­ант: «Пер­со­на­жи, ока­зы­ва­ю­щи­е­ся в неве­ро­ят­но спла­ни­ро­ван­ных (en­gi­neered) об­сто­я­тель­ствах, пол­но­стью (fully) ото­рва­ны от ре­аль­но­сти».

По­доб­ные из­ме­не­ния за­ста­ви­ли ал­го­ритм по­ме­нять оцен­ку ре­цен­зии с «нега­тив­ной» на «по­зи­тив­ную» — по та­ко­му же прин­ци­пу, в иде­а­ле, мож­но бу­дет ре­дак­ти­ро­вать свое ре­зю­ме, что­бы «за­ин­те­ре­со­вать» ИИ и пе­рей­ти на этап со­бе­се­до­ва­ния с че­ло­ве­ком. По­доб­ный при­мер поз­во­ля­ет уви­деть пе­чаль­ную прав­ду, ко­то­рую не все го­то­вы при­знать — ис­кус­ствен­ный ин­тел­лект мо­жет быть од­но­вре­мен­но неве­ро­ят­но ум­ным и уди­ви­тель­но глу­пым.

Сте­пень сла­бо­сти и уяз­ви­мо­сти ИИ-ал­го­рит­мов все еще изу­ча­ет­ся — это важ­но для всех слу­ча­ев, где тех­но­ло­гия ис­поль­зу­ет­ся для при­ня­тия кри­ти­че­ски важ­ных ре­ше­ний. По сло­вам Са­ми­ра Син­г­ха из Ка­ли­фор­ний­ско­го уни­вер­си­те­та в Ир­вайне, ме­тод, пред­ло­жен­ный Ди Джи­ном и его кол­ле­га­ми, «дей­стви­тель­но эф­фек­ти­вен в со­зда­нии хо­ро­ших про­тив­ни­ков» для ИИ-си­стем.

Ино­гда со­вер­шен­но слу­чай­ные сло­ва мо­гут спро­во­ци­ро­вать ИИ на стран­ное по­ве­де­ние — на­при­мер, за­ста­вить Ope­nAI-ал­го­ритм от­ве­чать на при­гла­ше­ние ра­сист­ски­ми вы­ска­зы­ва­ни­я­ми. Доун Сонг (Dawn Song), про­фес­сор Ка­ли­фор­ний­ско­го уни­вер­си­те­та в Берк­ли, за­ме­ча­ет, что ис­сле­до­ва­ние MIT — это лишь на­ча­ло боль­шой ра­бо­ты, ис­сле­ду­ю­щей уяз­ви­мо­сти ИИ и воз­мож­но­сти об­ма­на язы­ко­вых ал­го­рит­мов.