Данные — самый ценный ресурс в современном мире, за которым охотятся все корпорации и стартапы. И Data Science сейчас на волне популярности. Подводя итоги Первого Московского форума дополнительного профессионального образования мы поговорили с Евгением Соколовым, руководителем департамента больших данных и информационного поиска, научным руководителем Центра непрерывного образования факультета компьютерных наук ВШЭ, и узнали, что это за профессия, где ей учиться, сколько денег в ней можно получать и как устроиться на первую работу.
1. Что такое Data Science?
Это «наука о данных», как следует из названия. Говоря понятнее — это область знаний, которая помогает находить ценную информацию в огромном количестве данных. С помощью кода, алгоритмов и математики Data Scientist’ы (почему не «аналитики», скажем позже) помогают компаниям строить бизнес, искать мошенников, лечить болезни и еще многое другое.
Массивы информации, с которыми работают специалисты, называются «большими данными» — это огромные объемы неструктурированных таблиц. Чтобы работать с такими данными, используют математическую статистику и методы машинного обучения. Этот процесс и называется Data Science.
2. Что вообще такое «данные»?
В каком-то смысле это философский вопрос. Данные — это информация, которая представляет пользу для поставленной задачи. Это может быть все что угодно: результаты спортивных состязаний, расположение нефтяных пятен в океане, человеческий геном. В зависимости от сферы будут отличаться и данные.
Еще информация может быть «модальной», то есть разниться по типам. Например, это могут быть визуальные данные. Такой вариант: мы целый год фотографировали в супермаркетах очереди к полкам с товарами. Это не просто кадры, но данные, на основе которых можно сделать алгоритмы для оценивания длины очереди и требуемой наполненности полок.
Звук — тоже данные, которые мы можем конвертировать в текст, генерировать, анализировать. На этих данных работают голосовые помощники или, скажем, системы распознавания речи. Данные могут быть текстовыми. По сути, из них состоит интернет, с ними работают поисковики, чат-боты и так далее. Посты в социальных сетях, новостные заметки — тоже примеры таких данных. Ну и, наконец, табличные данные. Хотя сегодня весь хайп вокруг текстов и звука, на самом деле чаще всего Data Scientist работает с таблицами.
3. Где нужна Data Science?
Вообще везде, за редкими исключениями. У нас на факультете есть магистерская программа по анализу данных в биологии и медицине: там мы проходим биоинформатику и машинное обучение, а учатся во многом студенты, изучавшие биологию или медицину в бакалавриате. На эту программу неожиданно большой спрос именно среди врачей, у которых уже есть практика.
И таких примеров можно привести очень много. Промышленность, банки, телеком, ритейл заинтересованы в Data Science, и даже в гуманитарных науках есть спрос на работу с Big Data. Например, DS могут облегчить работу с рукописями, превратив древние свитки в библиотеку данных, в которой будет легко искать неочевидные корреляции и совпадения. Не говоря уже про новые тренды в развитии ИИ, где без больших данных точно никуда.
4. Чем Data Scientist отличается от обычного аналитика?
Аналитик — это человек, который делает из данных какие-то выводы. То есть это такой связующий человек между сухими данными и бизнесом. Он анализирует, строит корреляции и проверяет гипотезы. Аналитик бывают разные: системные, бизнесовые, перфоманс и так далее. Кто-то больше работает с данными, кто-то меньше. Но в любом случае его задача — проводить анализ, делать выводы, давать рекомендации бизнесу.
Data Scientist, напротив, должен выдать какой-то сервис, алгоритм или продукт на основе своих данных. То есть он не просто должен понять, почему очереди в магазинах такие длинные, но и создать некоторый алгоритм, который будет в реальном времени анализировать данные и рекомендовать, как перераспределять товары для улучшения ситуации с очередями.
К сожалению, в русском языке нет понятного разграничения в этих двух понятиях, поэтому они часто смешиваются. Например, в знаменитой Школе анализа данных Яндекса дают навыки во многом по Data Science. Многие специалисты в компаниях работают на смежных ролях, и это нормально. Но если быть совсем дотошными, то это две разные профессии.
5. Какими навыками обладает Data Scientist?
В Data Science есть два главных навыка: программирование и математика.
Конечно, человек может уметь писать только SQL-запросы, но это будет сильно его ограничивать. Нужно хотя бы знать Python на хорошем уровне и владеть его библиотеками. Это открывает гораздо больше возможностей: вместо того чтобы руками разгребать массив, можно написать небольшой скрипт на Python и он выдаст нужный результат за пару минут.
Дальше поверх этого могут надстраиваться разные специфичные вещи вроде работы с распределенными хранилищами данных, то есть умение работать с большими объемами данных. Но это уже специальные навыки. Главное — уметь хорошо программировать, а остальное уж можно доучить.
Второе — хорошее знакомство с высшей математикой. Опять же можно, при желании, найти позиции и задачи, на которых математику особо знать не надо. Но в большинстве мест она пригодится. Математика — это язык, на котором многие аналитики и говорят. Будет очень тяжело освоиться и стать своим в сообществе, не зная местный язык.
6. Какое образование нужно для старта карьеры в Data Science?
Если человек мотивирован, то в целом хватит прохождения курсов, где он познакомится с базовыми вещами, но не получит фундаментального образования — этого может быть достаточно для старта карьеры, чтобы устроиться на стажировку, например. Но также очень важна готовность постоянно обучаться, прокачивать soft и hard скиллы.
В Центре непрерывного образования мы обязательно даем хорошеепонимание математики и программирования. А дальше всё в руках нашего выпускника. Можно растить свои технические навыки, расти до «синьора» и дальше, можно уходить в менеджмент, управление командой. Но в любом случае в нашей сфере ценится способность нестандартно решать задачи, глубокое понимание области работы.
Иными словами, курсов достаточно для старта, но недостаточно, чтобы потом успешно продолжать строить полноценную карьеру.
7. Этих специалистов не заменят ИИ?
Как раз наоборот — без Data Science не может быть нейросетей и ИИ. Все упирается в машинное обучение, в рамках которого специалисты учат алгоритм самостоятельно извлекать нужные данные из больших неструктурированных объёмов. Data Scientist выступает как школьный учитель: он решает какие данные давать нейронке и что она будет изучать. Корректирует выводы, которые она может делать. Следит за качеством исполнения.
Например, мы берем много записей речи и их расшифровки и на основе этого пытаемся вывести большой сложный алгоритм, который по любой записи речи выдаст нам расшифровку — это делается с помощью методов машинного обучения. менно оно позволяет решать суперсложные задачи, которые вручную сделать невозможно.
Взять задачу построения рекомендаций. Как порекомендовать пользователю товар, который он купит? Фильм, который он посмотрит? Песню, которую он послушает? Алгоритм неясен, зато есть много примеров. Вот миллион пользователей, которые что-то покупали на нашем сайте. На основе этого массива выведем машинным обучением сложный алгоритм для построения рекомендаций новым пользователям. Это грубый пример, но вполне реалистичный. Все это очень востребованные задачи, за которые компании готовы платить толковым специалистам.
8. Как найти первую работу в сфере?
Очень зависит от сферы, компании и позиции. В Яндексе человек может быть джуном, а в стартапе его поставят уже миддлом. Так что все меняется от вакансии к вакансии. Но, если брать что-то среднее, то я скажу так:
- Джуниор Data Science получает от 80 до 120 тысяч рублей;
- Миддл Data Science получает от 150 до 250 тысяч рублей;
- Синьор Data Science может получать вплоть до 500 тысяч рублей.
Чем больше человек наращивает свои навыки и важность на рынке, тем выше у него будет зарплата. Потолка в этом, пока что, нет.