Python часто советуют изучать тем, кто никогда раньше не программировал. Одно из его преимуществ — универсальность, за счёт которой он используется профессионалами в разных областях: от журналистики до продакт-менеджмента. Его можно применять для решения рутинных задач: например, чтобы визуализировать большой объём данных или составлять списки дел и покупок. Автор и менеджер программы «Анализ данных» в Яндекс.Практикуме Анна Чувилина рассказала как оптимизировать свой быт и работу при помощи программирования, какие библиотеки (шаблоны решений) могут использовать новички и как выбрать курс по изучению Python. Материал подготовлен Академией Яндекса
Почему Python советуют новичкам
Одно из главных преимуществ Python — низкий порог входа. Код на нём лаконичный и обычно сходу понятен даже тем, кто изучал другой язык. А подробная документация поможет разобраться в программировании с нуля.
Ресурсы для изучения Python:
Вокруг Python сформировались сообщества энтузиастов, которые пишут на этом языке. Например, в Москве есть группа Moscow Python: они проводят конференции и неформальные встречи и сотрудничают с крупными ИТ-компаниями.
Для Python существует объёмная система библиотек — готовых решений для тех или иных задач. Есть как алгоритмы для базовых математических операций, так и для сложных задач: например, распознавания картинок и звуков.
У языка много понятных приложений: его можно использовать для анализа данных и машинного обучения, бэкенда, веб-разработки, системного администрирования и игр. Конечно, при этом нужен разный набор навыков помимо программирования, но с Python можно начать осваивать почти любую предметную область.
Важно понимать, что для анализа данных язык программирования — это инструмент. Анализ данных можно проводить и в Excel, и на бумажке, а программирование — только один из вариантов того, как можно решать такие задачи.
Одно из распространённых приложений Python — работа с данными для продакт-менеджмента. Анализ данных позволяет менеджерам получать инсайты о поведении пользователей и принимать обоснованные решения. В крупных компаниях должности аналитиков и продакт-менеджеров обычно разделены, но в небольших проектах продактам нужно работать с данными самостоятельно.
Как понять, что вам нужен именно Python
Называть его «убийцей Excel» — некорректно. Многие команды и компании в России ведут весь учёт в обычных таблицах, и им этого достаточно. А Python нужен в тот момент, когда речь идет про действительно большие объемы данных. Например, у Яндекс.Музыки множество платящих пользователей, и их действия ежедневно генерируют какие-то события (лайки и прослушивания) — и терабайты данных. Хранить их в табличке Excel — из разряда фантастики.
В Python проще делать интерактивную и сложную визуализацию или проводить вычисления — для этого существуют библиотеки вроде Seaborn, matplot и Plotly. В Excel есть встроенный аппарат для решения математических задач (например, работы с данными), но для него нужно запоминать много названий операций — и работает он довольно неповоротливо. Кроме того, в Python можно быстрее и с разных сторон посмотреть на данные. Регрессию можно построить и в Excel, но зачем, когда в Python есть для этого готовые библиотеки?
Для статистических расчетов можно использовать R — люди с математическим образованием обычно осваивают его быстрее, чем Python. Однако большинству будет проще начать с Python.
Для разных задач анализа данных существуют коробочные решения. Например, Amplitude (для продуктовой аналитики), Mixpanel (для анализа поведения пользователей) Яндекс.Метрика и Google Analytics. При этом их использование часто платное.
Где применять Python, если вы не разработчик
Помимо анализа данных у языка есть и более простые приложения. Так, в учебниках по Python часто встречается задача с рассылками. В ней нужно создать рассылку, например, для людей, которые не сдали деньги на ремонт — найдя их данные в Excel-таблице. С помощью такого скрипта можно разослать письма по шаблону — и имена будут подставлены автоматически.
Python — про автоматизацию рутинных задач. Например, можно запустить скрипт, который подставляет пароли — и он автоматически откроет запароленные страницы или папки. Есть алгоритмы для того, чтобы автоматически создавать списки покупок или переименовывать фотографии определённым образом.
Люди, которые умеют писать код, придумывают такие вещи «на автомате». Например, маркетологи могут запустить скрипт для построения воронок продаж. А тестировщики — написать алгоритм, который будет подставлять данные в формы и тестировать приложения.
Если говорить про анализ данных, то многие начинают осваивать его из любопытства — чтобы найти инсайты в сфере, которую пока не исследовали. Например, можно определить социальные проблемы своего региона, анализируя опубликованную статистику. А если вы хотите через какое-то время попасть на стажировку или на работу, где нужен анализ данных, то такой кейс поможет вам показать свои навыки. Начать можно с простых, стандартных проектов, которые обычно предлагают тем, кто изучает Python.
Что нужно, чтобы выучить Python
Из математического аппарата кроме базовой арифметики для программирования ничего не нужно. Чтобы придумать, какой алгоритм использовать для решения той или иной задачи, важно структурное мышление — но это не математическая компетенция. Парадокс в том, что и развивать его нужно с помощью регулярной работы с задачами — важно быть готовым просидеть над, казалось бы, тривиальным заданием несколько часов и не отчаяться.
Для анализа данных, помимо школьной математики, понадобятся знания математической статистики и теории вероятности. Начинающему специалисту важнее всего освоить базовые понятия: уметь проверять гипотезы, знать, что такое доверительные интервалы, чем отличаются медиана и мода, понимать, как обозначать события и их вероятности.
Материалы по математике:
- Курс на Coursera
- Видеокурс по алгоритмам
- Статистика. Вероятность. Комбинаторика — Я. С. Бродский
Тем, кто хочет заниматься анализом данных (как профессионально, так и для себя), важно развить критическое мышление. Например, нужно самому выделять критерии для сравнения объектов: тут нет какого-то стандартного решения. Ещё важно сходу видеть закономерности и аномалии в данных.
Изучать программирование и анализ данных можно и самому — я не рекомендую обращаться к платным курсам до тех пор, пока вы не посмотрели бесплатный контент.
Во-первых, он служит для профориентации: чтобы лучше понять, какие приложения есть у программирования или анализа данных для разных профессий. Во-вторых, даёт понять, сколько сил и времени нужно будет прикладывать для изучения.
Преимущества обучения на курсах в том, что на них можно получить чётко сформулированные практические задачи. Также преподаватели могут рассказать о том, как общаться с заказчиком и уточнять у него необходимую информацию.
Как выбрать образовательную программу
Выбирая образовательную программу, важно обратить внимание на преподавателей, которые его ведут или создавали для него контент, — можно посмотреть их профили на Facebook и узнать про профессиональный опыт.
Что касается цены, то по моему опыту, качество курса не всегда с ней коррелирует — поэтому ориентироваться нужно на то, сколько вам комфортно потратить на обучение.
Также стоит чётко сформулировать то, что хочется получить в результате, — и сделать это ключевым критерием для выбора. Бывают случаи, когда студенты приходят на курс по анализу данных для менеджеров и ожидают занятия по программированию — а их учат общаться с аналитиками и рассказывают общие вещи про то, как внедрять анализ данных. Зачастую проблема не в плохой организации или преподавателях, а в том, что человек сам не проверил, соответствует ли программа его задачам. Правило с постановкой целей работает не только на выбор программы, но и на обучение в целом — не стоит осваивать язык программирования, чтобы поставить галочку.