Основная цель аналитика данных — выявить закономерности и связи между разными потоками информации. Несмотря на то, что профессия предполагает работу с фактами и алгоритмами, на финальные заключения могут повлиять субъективные установки человека. Специалист по работе с большими данными Рауль Агарваль (Rahul Agarwal) в своем тексте размышляет о том, как этого избежать и каких когнитивных искажений стоит опасаться в первую очередь.
Ошибка выжившего
Во время Второй мировой войны перед группой ученых Центра Военно-морских исследований стояла задача: понять, как исправить недостатки и проблемные зоны истребителей. Для этого они решили осмотреть каждый самолет, вернувшийся с военной миссии, и сделали пометки о том, в какие места попали пули. На них команда ученых и указала техникам, полагая, что справилась с поручением.
Проблема, однако, в том, что исследователи смотрели только на летательные аппараты, которые вернулись обратно, но исключили из своего анализа те, что потерпели крушение. А ведь именно последние хранили в себе ценные данные о фатальных уязвимостях самолетов.
Группа исследователей столкнулась с «ошибкой выжившего»: они обратились только к той информации, которая была у них под рукой и не приняли во внимание более широкий контекст. Это когнитивное искажение связано с отфильтровыванием данных на основе произвольного критерия, при этом человек не осознает, что ему недостает критически важных данных.
Один из способов справиться с подобной ошибкой восприятия — прибегнуть к научному методу мышления и понять, какая в принципе информация нужна, чтобы создать наиболее полный прогноз или оценку ситуации, вместо того, чтобы сразу начать с работы с данными.
Ловушка невозвратных затрат
Каждый из нас хотя бы раз попадался на крючок потраченных денег, которые нельзя вернуть: например, когда вы предпочли досидеть до конца неудачного спектакля и фильма, потому что билет уже был куплен. Ловушка невозвратных затрат описывает склонность человека оценивать свои действия, исходя из того, как много ресурсов ушло на их реализацию. В итоге можно потерять еще больше усилий и средств. В большинстве случаев единственный верный выход — смириться и не сожалеть о принятых решениях.
По словам Агарваля, такой исход — не редкость в работе с массивами данных. Проект может безрезультатно длиться больше двух лет, а исследователю бывает сложно принять тот факт, что время и энергия были потрачены даром, поэтому он продолжает бессмысленный труд.
Чтобы преодолеть свою нерешительность в подобной ситуации, Агарваль советует сосредоточиться на перспективах и дальнейших проектах, а не зацикливаться на прошлом. Сам аналитик данных выбирает метод составления списка: в одной колонке он перечисляет ресурсы, которые придется задействовать, чтобы продолжить исследование, во второй — преимущества и результаты, которые можно получить от работы. Если пункты из первой колонки перевешивают бонусы из второго, это говорит о том, что проект лучше отпустить.
Ложные причинно-следственные связи
Иногда наш мозг находит паттерны и связи даже там, где их нет. А поскольку поиск отношений между объектами составляет основную часть работы аналитика данных, такая особенность восприятия может быть довольно опасной.
Важно помнить, что корреляция не всегда означает причинно-следственные связи. Если две переменные все время двигаются в тандеме, вовсе необязательно, что одна зависит от другой.
Этот принцип можно продемонстрировать на нескольких примерах. Допустим, вы наблюдаете за тем, как все больше пожарных отправляются на тушение пожара и замечаете, что по их возвращению все больше техники выходит из строя. Можно ли сделать вывод, что от количества пожарных зависит уровень повреждения пожарной техники? В другом кейсе один академик обнаружил корреляцию между числом совершенных преступлений в Нью-Йорке 1980-х и количеством мороженого, которое было продано в тот период на улицах города. Стоит ли сделать заключение, что любовь к мороженому заставляет людей совершать преступления?
Такие абсурдные примеры заставляют исследователей всегда быть начеку и дважды подумать, прежде чем прийти к выводу о характере связей между двумя потоками данных.
Эффект доступности
Когда мы используем формулу «Я знаю, что X (вставьте сюда утверждение общего характера), потому что Y (вставьте сюда один конкретный пример)», то поддаемся «эффекту доступности». Пример: «Неправда, что пиво приводит к лишнему весу: посмотри на Ваню — он каждую неделю выпивает с друзьями, и не полнеет». Вы снова пытаетесь сделать вывод, опираясь на ограниченные данные.
Людям свойственно высказывать суждения, используя уже имеющиеся у них знания и не искать дополнительные подтверждения. Из-за этого в выводы закрадываются погрешности, а картина мира оказывается односторонней.
Преодолеть подобное когнитивное искажение можно, только придерживаясь идеи постоянного саморазвития и желания узнавать новое. Обсуждайте свои проекты с другими аналитиками данных, посещайте профессиональные встречи, выслушивайте критиков. Будьте открыты свежему опыту и идеям.
Предвзятость восприятия
Старая шутка гласит, что если достаточно долго мучить данные, то рано или поздно, можно вытянуть из них признание. Иначе говоря, если вы слишком давно погружены в материал, есть риск потерять объективность и трактовать информацию так, как говорят ваши убеждения.
Каждый из нас руководствуется в жизни определенными установками и принципами, но для ученого необходимо суметь от них отстраниться в процессе работы. В обыденных ситуациях предвзятость восприятия часто заставляет нас интерпретировать происходящее в соответствии со своими взглядами. Мы даже склонны больше общаться с теми, кто придерживается схожих мнений.
Перед погружением в очередной проект Агарваль рекомендует составить список своих убеждений и сопоставить их с фактами, чтобы избежать предвзятости. Постарайтесь взвесить свои гипотезы со всех сторон, изучить аргументы оппонентов и пройтись по научной базе.
В эпоху информационной перегрузки наш мозг всячески пытается защитить нас от лиших энергозатрат, поэтому стать жертвой одного из когнитивных искажений довольно легко. В повседневности ограничение источников знания может быть действительно полезным, однако когда речь заходит об анализе данных, крайне важно сохранять максимальную концентрацию и отдавать себе отчет в возможных эффектах и последствиях ошибок восприятия.