На счету искусственного интеллекта Google DeepMind много забавных достижений: в 2016 году его игровой алгоритм сумел обыграть человека в Го, в 2019-м — начал в реальном времени побеждать игроков в StarCraft. В начале этого года команда DeepMind объявила, что их алгоритмы научились распознавать рак груди на ранних стадиях с помощью одних только рентгеновских снимков. А последнее исследование самого искусственного интеллекта позволило точнее разобраться в работе мозга человека, пишут The Vox и MIT Technology Review.
В 1951 году студент Гарварда Марвин Мински построил свою первую, еще ламповую, обучающуюся нейросеть. Свою работу Мински спроектировал на принципах, открытых Павловым: его компьютер учился благодаря системе «поощрений» и «наказаний». В то время нейрофизиологи еще не до конца разобрались в механизмах мозга, которые позволяли животным учиться таким образом, поэтому нейросеть Мински, по сути, просто повторяла поведение животных. Спустя почти 70 лет именно нейросети помогли ученым приблизиться к пониманию того, как происходит процесс обучения в мозге.
Когда нейросеть работает по принципу обучения с подкреплением, она совершает действия и понимает, что некоторые из них «поощряются». Со временем ИИ корректирует свою работу так, чтобы получить максимум подкрепления. Примерно то же самое происходит и с человеческим мозгом, где источниками подкрепления выступают нейромедиаторы: например, дофамин.
Ученых заинтересовал вопрос — откуда у человека (или у ИИ) появляется мотивация делать что-то многоэтапное, за что они не сразу получат награду. Иными словами, как интеллект предсказывает отдаленное вознаграждение? Исследование, опубликованное в Nature, объясняет это так: наш мозг предсказывает не только награду, которую он получит, переходя на следующий этап, но и последовательно составляет прогноз для дальнейших уровней.
Эта система кажется простой: например, можно предположить, что студент хочет подготовиться к экзамену, чтобы получить хорошую оценку, которая обеспечит ему достойную работу с высокой зарплатой. Однако на деле эта система устроена тоньше и сложнее.
Искуственный интеллект, учитывающий рапределение вероятностей различных исходов, действует гораздо точнее, чем настроенный на вычисление средней выгоды на каждом этапе. И именно по такому принципу работает и наш мозг. Благодаря экспериментам на мышах, ученым удалось разобраться в том, как это происходит, и узнать, каким образом наш мозг удерживает такой объем информации.
Лабораторных мышей поместили в условия, где нужно было выполнять определенные действия, а подкрепление зависело от броска игральных костей, и попытались отследить, как нейроны выделяют дофамин. Оказалось, что все нейроны производили разное количество нейромедиатора: некоторые были «оптимистичными», прогнозировали удачу и выделяли много дофамина, некоторые, наоборот, были «пессимистичными».
Когда ученые сопоставили распределение прогнозов и фактических наград, они обнаружили, что графики очень похожи — мозг мышей обучался и составлял прогнозы на основе распределения вероятностей, равно как и алгоритм искуственного интеллекта, который создавался без знаний об этом механизме.
Кроме того, что это исследование расширило понимание о способностях мозга, оно может послужить основой для других исследований — например, о связи депрессии и дисбаланса в работе «пессимистичных нейронов».