Data Science — одна из самых перспективных и популярных сфер для смены профессии и дополнительного образования. По данным Coursera Global Skills Index Россия заняла первое место в мире по компетенциям в этой области. Если вы тоже хотите приобщиться к миру данных, но не знаете, с чего начать, «Цех» совместно с экспертом онлайн-школы Skillfactory Анастасией Максимовской составил подробный Data Science-гид.
Что такое Data Science
Data Science — это наука о том, как работать с большими данными, анализировать их и находить полезные взаимосвязи, которые потом можно использовать для самых разных задач.
Сегодня Data Science используют практически везде. Самый простой пример — онлайн-маркеты вроде «Беру» или Ozon: магазины советует нам, что купить, анализируя наши предыдущие покупки или просмотры. Так же работают плейлисты на Spotify или «Яндекс. Музыке». Еще один вариант — поиск по картинке: если девушка увидела где-то классные туфли, она может сфотографировать их и загрузить снимок в поисковик. Компьютерное зрение распознает объект и предложит похожие варианты.
Недавно я вызвала такси с работы, и мне предложили машину с ожиданием 7 минут. При этом на стоянке возле офиса было много свободных водителей. Позже я выяснила, что в агрегаторе есть специальная программа, которая отслеживает, сколько заказов принял таксист. У моего водителя вызовов было мало, а я могу подождать 7 минут — это видно из истории заказов, поэтому агрегатор нас соединил. Все это было бы невозможно без Data Science-технологий. Кстати, смешные видео, где Обама читает рэп или нейросеть пишет музыку — тоже работа дата-сайентистов.
Где можно работать
В Data Science, как и в других сферах, есть разные направления и специальности. Кто-то занимается рекомендательными системами для Netflix, кто-то — компьютерным зрением для Google, а кто-то — работой с текстом для онлайн-переводчиков. Автоматизировать процессы можно почти везде, поэтому дата-сайентист может работать в самых разных компаниях.
Что конкретно нужно уметь
Есть общий набор навыков, которыми должен обладать каждый дата-сайентист — шесть скиллов и три программы. Уже овладев ими, можно выбрать какое-то направление или специализацию.
Навыки:
1. Работа с данными
2. Визуализация данных
3. Программирование на Python
4. Теория вероятностей и математическая статистика
5. Машинное обучение
6. Глубокое обучение
Программы:
1. Apache Spark
2. Hadoop
3. SQL
Обязательно ли учить Python
Да, однако бояться не стоит. Python — несложный язык, в библиотеках кода есть много примеров для разных задач. Его очень удобно использовать. К нам часто приходят студенты, которые считают себя гуманитариями, неспособными к программированию, но с Python справляются все, тем более на базовом уровне.
Будет ли нужен английский
В России можно работать в Data Science, не зная английский. С переводчиком можно горы покорить. Однако на английском языке выходят ключевые статьи о новых моделях и методах, поэтому для обновления знаний он иногда будет нужен. Что касается программ для работы, их интерфейс не сложнее привычного Microsoft Word — даже на английском проблемы вряд ли возникнут.
Сколько можно зарабатывать
Data Science — область высоких зарплатных ожиданий. На самом деле труд дата-сайентистов действительно хорошо оплачивается. На этапе стажировки можно получать 40-50 тысяч рублей, на позиции джуниора — от 60 до 120 тысяч, мидлы могут зарабатывать до 180 тысяч рублей, а дальше цифры очень отличаются в зависимости от города или компании.
Где и как можно учиться
Многие люди хотят самостоятельно войти в Data Science без бэкграунда в математике и программировании. Это возможно, почти все материалы можно самому найти в интернете. Однако без опыта в этой сфере очень тяжело построить программу обучения, которая охватит все важные этапы. Высок риск, что какие-то темы будут упущены, и это отразится на поиске работы.
Если пойти по классическому пути, стать дата-сайентистом можно, окончив университет. Однако для взрослых людей этот путь не подходит, потому что совмещать учебу и полный рабочий день получается крайне редко. Другой вариант — очные и онлайн-курсы, к выбору которых нужно относиться очень внимательно.
Преимущество курса от Skillfactory — практикоориентированность. Мы стараемся сделать программу максимально прикладной, чтобы через 12 месяцев занятий человек мог сразу выйти на стартовую позицию дата-сайентиста. Сначала мы учим Python, потом математику, машинное обучение, глубокое обучение и инструменты работы с большими данными.
Во время обучения наши студенты выполняют проекты, которые при устройстве на работу смогут показать как портфолио. К тому же у нас всегда есть поддержка менторов, которые объяснят трудные моменты и посоветуют дополнительные материалы по западающим темам. Конечно, ответ на любой вопрос можно найти в интернете, но иногда гуглить нужно по нескольку часов, и ментор здорово экономит время.
Сколько стоит обучение
Цены на университетские программы по работе с данными могут доходить до полумиллиона рублей. Конечно, можно поступить на бюджетное место или осваивать Data Science самостоятельно, с помощью бесплатных курсов на Coursera и других доступных материалов. Но во втором варианте нет человеческого контроля и фидбека преподавателя. Онлайн-курс — отличная альтернатива: справедливая цена и все необходимые для работы знания.
Где еще можно потренироваться
Чтобы получить еще больше практики, можно зайти на Kaggle — это платформа, где проходят соревнования по машинному обучению. Компания ставит дата-сайентистам задачи, и тот, кто быстрее и лучше решит, — получает денежное вознаграждение и, возможно, работу. Плюс, Kaggle очень хорошо отражает потребности рынка и показывает, за что компании готовы платить. Мы в Skillfactory тоже проводим такие соревнования, чтобы студенты привыкали к рабочему ритму.
Что спросят при устройстве на работу
На этапе резюме попросят показать портфолио: его можно сделать на программистском портале Github — он также подходит для дата-сайентистов. На самом собеседовании будьте готовы к следующим вопросам:
- SQL, или как писать запросы к большим данным: например, я хочу выбрать из таблицы только людей старше 1998 года рождения. Как это сделать?
- Несколько вопросов о машинном и глубоком обучении: какие есть модели и метрики, и как они работают?
- Бэкграунд: попросят рассказать о прошлых проектах.
Бонусом могут добавить математическую задачку и вопросы по специфике работы. Мы в SkillFactory создали свой карьерный центр, специалисты которого помогают студентам подготовить резюме, подобрать вакансии (от крупных компаний-партнеров) и подготовиться к собеседованию. А успешным выпускникам мы гарантируем трудоустройство.
Что я буду делать каждый день
В основном работать за компьютером и ходить на командные переговоры. Data Science-задачи выполняются примерно по одному сценарию: компания рассказывает, что ей нужно получить, от запроса бизнеса нужно перейти к реальной постановке задачи на уровне математики и анализа данных. Затем нужно собрать и проанализировать данные, обработать их и построить модель — математический алгоритм, который сможет решить задачу. Следующий этап — обучение модели и оценка качества: нужно проверить, что все стабильно работает на протяжении долгого времени. Только после этого мы внедряем модель и закрываем проект. Над одной задачей можно работать почти год — это довольно долгий процесс.
Кому такая работа подойдет больше всего
К нам приходят люди из самых разных сфер: инженеры, политологи, химики — и для всех находятся интересные задачи, которые как-то переплетаются с их бэкграундом. Нельзя заниматься Data Science в финансах, если у тебя нет знаний в этой сфере: ошибка из-за незнания специфики может очень дорого стоить. Поэтому всем студентам я даю одну рекомендацию — будет здорово, если они найдут работу, которая перекликается с их предыдущим опытом.
Перспективы профессии
Считается, что каждая новая технология проходит пять основных стадий: триггер-инновация, пик раздутых ожиданий, естественное падение, новое развитие и плато. Data Science же сразу стала реально работать на бизнес. Эта сфера активно развивается и не собирается сдавать позиции. Порог входа в профессию постоянно повышается, а задач становится все больше.
Data Science может решить множество проблем, сделать жизнь человечества намного лучше и удобнее. Однако новичкам нужно морально подготовиться, что учить придется довольно много. Зато потом у вас будет отличная профессия — с перспективами роста и постоянного развития.
Только полезные посты и сторис — в нашем Instagram