Дата-сайентист Анатолий Карпов окончил психологический факультет СПбГУ, преподавал статистику, работал аналитиком во «ВКонтакте», а сейчас переехал в Москву и занимается аналитикой в отделе рекламы Mail.ru. Анатолий — автор нескольких популярных онлайн-курсов по математической статистике и анализу данных. Он рассказал «Цеху», как пришел в профессию, где учился и какие первые шаги сегодня стоит делать начинающим дата-сайентистам.
«Еще 20 лет назад невозможно было представить, что человек мог чему-то научиться вне университета»
Я учился на факультете психологии, и сначала ничто не предвещало работы в IT-сфере. Впрочем, психология бывает разная: есть направления, которые решают прикладные задачи, — это психологическое консультирование, а есть академическая психология, куда входит статистика, анализ данных и программирование. В процессе обучения меня все больше интересовали именно академические исследования. У нас на психфаке был сложный курс «Методы математической модели», который сильно всех напугал. Я же во всем разобрался, начал объяснять материал нашим ребятам и со временем понял, что мне это даже нравится.
Мой хороший друг в то время открывал для студентов программу по обучению биоинформатике и искал преподавателя по статистике. Он мне позвонил и спросил: «Толя, ты статистику знаешь?». Я ответил, что нет. Тогда он продолжил: «Переформулируем вопрос: ты курс по статистике сможешь прочитать?». Я согласился, и в итоге этот опыт дал мне многое. Самый правильный способ чему-то научиться — начать учить других. Занятия в институте проходили раз в неделю: перед каждым уроком я готовился, полностью разбирал темы, а потом с неподдельным восторгом рассказывал ребятам базовые вещи про статистику и анализ данных.
Спустя некоторое время мне предложили пройти собеседование на позицию аналитика «ВКонтакте». Я долго не решался: в этой социальной сети работают самые хардкорные ребята, а я занимался IT постольку-поскольку и чувствовал себя самозванцем. Собеседование прошло довольно ожидаемо: я хорошо ответил на все вопросы по анализу данных и статистике, но плавал в программировании. Тем не менее, ребята, которые со мной разговаривали, решили дать мне шанс. После этого я проходил еще несколько этапов собеседования, делал тестовые задания, не спал ночами (больше от переживаний), но в итоге стал аналитиком в команде бизнеса и рекламы.
Первые несколько месяцев было очень тяжело. Ситуация, когда все вокруг умнее тебя, полезна для развития и приобретения новых навыков, но эмоционально это нелегко. Моя команда всегда была готова помочь, но иногда я чувствовал, что они не понимали, в чем моя проблема, для них это были очевидные вещи. В то время, в 2017 году, нас было всего пять человек, во «ВКонтакте» царила атмосфера стартапа. Мы все были и аналитиками, и разработчиками — на энтузиазме вытаскивали такие задачи, которые решают обычно человек 50. За время работы в соцсети я понял, как устроены многие процессы в IT-командах, и в какой-то момент решил больше времени уделять своим проектам. Недавно я переехал в Москву и начал работать аналитиком в отделе рекламы Mail.ru.
Моя история — хороший пример еще одного метода обучения: сразу сформулировать задачу и начать действовать. Например, твоя цель — научиться делать что-то в Python. Запрос уже сформирован, дальше можно взять несколько курсов, где разбирают эту тему, но не проходить их полностью, а посмотреть только то, что тебе интересно и важно. Я, наверное, изучил все курсы по программированию на Stepik, Coursera и EdX, но ни один из них не прошел до конца.
Я сменил профессию благодаря онлайн-образованию. Еще 20 лет назад невозможно было представить, что человек мог чему-то научиться вне университета. С появлением крупных проектов в онлайн-образовании можно стать очень крутым специалистом, не имея высшего. В IT-индустрии этим уже никого не удивишь: например, Сева Жидков еще не окончил школу, а уже возглавлял команду разработки «ВКонтакте».
«Аналитик — это и программист, и маркетолог, и немного дата-сайентист»
Термин «аналитик» сформулирован максимально широко, что отлично характеризует текущее положение дел на рынке. Самый первый пласт задач аналитика — организация процесса работы с данными в компании. Все должно лежать в одном месте, к которому будет доступ у каждого сотрудника. Следующий пласт — задачи на стыке машинного обучения и статистики, что уже интереснее. Пример из моей работы: во «ВКонтакте» пользователи могут размещать рекламные объявления в ленте новостей. Ещё до того, как человек запустит объявление, мы можем предсказать, насколько оно будет успешным. Если на этапе создания объявления мы уже понимаем, что оно не позволит достичь поставленных целей, можно сразу подсказать пользователю, как стоит улучшить настройки объявления и уберечь его от бесполезной траты денег. Такие предсказания на основе имеющихся данных тоже могут быть задачей аналитика.
Он также должен разбираться в Data Science. Дата-сайентист — это тот, кто понимает, как из данных, которые есть у бизнеса, извлечь полезные закономерности, описать их математически и решить таким образом определенные задачи. Самый банальный пример: если у нас есть онлайн-магазин, можно сделать систему умной рекомендации. Товары будут предлагаться с учетом предыдущего поведения клиента. Более сложный пример машинного обучения — научить беспилотные автомобили автоматически распознавать, где находится пешеход, а где другие транспортные средства. Дата-сайентисты — это, в первую очередь, эксперты в машинном обучении. Они применяют сложные математические модели, алгоритмы и нейронные сети, которые позволяют программам самостоятельно обучаться сложным навыкам. Например, если мы хотим научить нейросеть распознавать собачек и котиков на фотографии, нужно создать сложный математический алгоритм. Мы покажем ему десять тысяч фотографий котиков и собачек, представим их в виде некоего набора цифр и добьемся от алгоритма, чтобы он сам нашел отличия между животными и начал это применять.
Каждый раз, когда вы разблокируете телефон при помощи Face ID, вы видите результат машинного обучения. В телефоне есть хитрый алгоритм, который научили понимать, что перед ним именно лицо владельца, а не распечатанная фотография или другой человек. Машинное обучение используется и в персонализации контента: ленты социальных сетей, рекомендации сериалов на Netflix, даже внешнее оформление сайта может отличаться в зависимости от предпочтений пользователя.
В бизнесе сегодня всем нужны дата-сайентисты, поэтому зарплаты довольно высокие, хотя хайп постепенно спадает. Главное для начинающего специалиста — иметь острый ум и развивать софт-скиллс. Особенно важно это для аналитиков: им чаще нужно с кем-то договориться, объяснить, сделать красивую презентацию.
Главный навык дата-сайентиста и аналитика — постоянно все подвергать сомнению, не бояться спорить и уточнять цель поставленных перед тобой задач. Когда приходят коллеги из другого отдела и просят выгрузить им топ-5 клиентов, стоит спросить, зачем им это нужно. В процессе разговора может выясниться, что нужен не топ-5, а топ-10, и вовсе не клиентов, а менеджеров, и, может даже для других целей, чем они изначально думали. Умение помочь людям понять, что именно они хотят от данных, — это, наверное, самый важный софт-скилл аналитика и в то же время темная сторона его работы.
5 курсов от Анатолия Карпова
Три бесплатных курса на Stepik. Эти программы не требуют предварительной подготовки в области анализа данных:
- «Введение в статистику». Курс отлично подойдет тем, кто хочет разобраться в том, как устроена статистика. В рамках программы мы подробно разбираем саму суть статистических методов и подходов к анализу данных.
- «Анализ данных в R». В этом курсе мы учимся анализировать данные в R, визуализируем результаты, проверяем статистические гипотезы.
- «Введение в Data Science». Мой любимый курс, в котором мы начинаем говорить о первых карьерных шагах в области машинного обучения. Много практики, интервью с экспертами из индустрии, а в конце — соревнование.
Две платные программы:
- «Интенсив по работе с данными в Python». Три недели учимся основам работы с данными в Python, автоматизируем рутинные задачи, которые раньше вы делали в Excel.
- «Big Data для Data Science». Онлайн-программа по работе с большими данными. В первую очередь разработана для тех, кто уже имеет опыт в Data Science, но хочет освоить современные технологии для работы с Big Data.
«Сначала курсы помогли мне попасть в индустрию, а потом индустрия помогла записать курс»
Я понял, что преподавание дается мне неплохо, когда начал вести статистику в институте информатики, — курс набрал максимальный балл по отзывам студентов. В тот же период в Санкт-Петербурге только запустилась некоммерческая образовательная платформа Stepik, на которой мы записали первый базовый онлайн-курс по статистике — «Введение в статистику». Запись курса далась мне непросто: я не понимал, как работать с онлайн-форматом, думал днями и ночами, и в итоге чуть не отчислился из аспирантуры.
Многие считают, что статистика — это сложная математика, в которой они никогда не разберутся, поэтому страдают в университетах и не понимают, как ее применять в работе. Мне хотелось сделать курс максимально понятным и интересным, чтобы решить эти проблемы. Отчасти это удалось: сейчас на курс записались почти 100 тысяч человек и более 30% прошли его до конца. В 2015 году курс выиграл премию EdCrunch Award как самый популярный курс в Рунете.
Во «ВКонтакте» я стал гораздо лучше понимать, как работают статистика и машинное обучение в реальных проектах. Тогда, ориентируясь на полученный опыт, я записал новый курс «Введение в Data Science и машинное обучение». Таким образом, сначала курсы помогли мне попасть в индустрию, а потом индустрия помогла мне записать курс. Он, кстати, тоже довольно популярен: на него уже записано более 20 тысяч человек, и премию EdCrunch он так же получил.
У популярности этих курсов есть несколько причин. Сейчас Data Science, аналитика, анализ данных и машинное обучение — это максимально интересная область, в которой можно стремительно развиваться, не имея специального образования: в Data Science приходят бывшие психологи, биологи, экономисты, социологи. На курсе я начинаю объяснение с нуля, а в конце мы разбираем такие сложные вещи, которые могут спросить на собеседовании в хорошую компанию. Плюс, курс на русском языке удобнее слушать, даже если хорошо знаешь английский. Кроме того, на популярность влияет пропаганда здравого смысла: люди понимают, что статистика и математика помогают «правильно думать» и адекватнее смотреть на мир. Мыслить статистически — значит мыслить как ученый.
Упомянутые курсы не приносят мне денег, эта инициатива изначально задумывалась как максимально открытая. В то же время у нас есть проекты, направленные на монетизацию: недавно запустили трек по Big Data для аналитиков в формате «Stepik Академия». Обучение проходит в формате небольших групп с менторами и преподавателями. Наша задача — помочь студентам, направить их, ответить на все их вопросы в чате. Участие платное, но стоимость относительно небольшая и, кроме того, менторская поддержка очень важна для начинающих: с помощью наставников вы можете быстрее получить то, что вам нужно.
Последний курс по машинному обучению я доделывал с Эльбруса. Я долго собирался записать эту программу, постоянно откладывал, а потом дал себе три месяца на заверешение. Я даже анонсировал запуск в соцсетях, чтобы отступать было некуда. Первые два с половиной месяца я, разумеется, думал, что скоро начну, а последние две недели буквально ночевал в студии Stepik на пуфике. При этом я заранее спланировал отпуск с другом, мы собирались подниматься на Эльбрус. Последний урок я дописал в последний день перед вылетом, после чего взял все свои ледорубы, надел рюкзак и уехал в аэропорт. Тем не менее, нужно было еще многое доделать: оформить курс, залить видео, добавить задания и дополнительные материалы. Команда сработала отлично, я только с телефона следил за работой, отвечал на комментарии, вносил правки. На удивление, на Эльбрусе идеально ловит интернет — 4G на 3 тысячах метров над уровнем моря. Лежишь в пуховике и двух шапках в деревянной хижине без горячей воды и запускаешь онлайн-курс.
«Некоторые думают, что мы только лежим на пуфиках и пьем смузи»
Справиться с выгоранием мне помогает положительный отклик на мою работу. Однажды я покупал кофе, постучался в окошко, там сидела девушка и что-то делала на планшете. Увидев меня, она развернула экран и сказала: «Ого, это же вы!». Оказалось, она как раз проходила мой курс по статистике. Такие ситуации показывают, что я все делаю правильно.
Работа в IT — сложная штука. Кто-то может подумать, что мы только лежим на пуфиках и пьем смузи, но на самом деле мы целыми днями проводим за компьютером и переживаем из-за дедлайнов. Еще один популярный стереотип — каждый день мы делаем суперсложные вещи, которые помогают компании зарабатывать миллионы долларов. На практике это не так: значительную часть времени ты занимаешься рутинными делами и программистской работой.
Без знаний по программированию начать что-то делать в этой сфере довольно трудно. Хорошая новость в том, что концепция о процессе создания компьютерных программ претерпела значительные изменения. Чтобы хорошо ездить на машине, необязательно досконально знать, как устроен двигатель, — программирование работает так же. Уровень знаний, необходимый для анализа данных, гораздо ниже, чем тот, что нужен разработчикам. В одном из своих офлайн-проектов я рассказываю, как за три недели почувствовать себя в программировании увереннее, начиная с нуля.
Еще одно отличие нашей области — возможность быстрого карьерного продвижения. Компании охотно берут стажеров, и практика в IT чаще всего оплачиваемая. Наша сфера — одна из наиболее прогрессивных, поэтому предрассудки относительно пола и возраста людей не влияют на их развитие и карьеру. У нас в команде есть девушки-аналитики, тестировщицы, разработчики, мой руководитель направления рекламы и бизнеса в Mail.ru — девушка. Эйджизма у нас тоже нет: тот же Сева Жидков начал работать в «ВК» в 15 лет. Когда к нам на работу выходит очередной 18-летний сотрудник, я уже не удивляюсь — очевидно, что в этом возрасте человек может быть гораздо умнее меня.