1. Практика

Хочу стать дата-сайентистом. Что нужно делать? Эксперт отвечает на 13 главных вопросов

ПАРТНЕРСКИЙ МАТЕРИАЛ

Деконструируем профессию дата-сайентиста вместе с экспертами школы Skillfactory

© Фото: Личный архив

Data Sci­ence — одна из са­мых пер­спек­тив­ных и по­пу­ляр­ных сфер для сме­ны про­фес­сии и до­пол­ни­тель­но­го об­ра­зо­ва­ния. По дан­ным Cours­era Global Skills In­dex Рос­сия за­ня­ла пер­вое ме­сто в мире по ком­пе­тен­ци­ям в этой об­ла­сти. Если вы тоже хо­ти­те при­об­щить­ся к миру дан­ных, но не зна­е­те, с чего на­чать, «Цех» сов­мест­но с экс­пер­том он­лайн-шко­лы Skill­fac­tory Ана­ста­си­ей Мак­си­мов­ской со­ста­вил по­дроб­ный Data Sci­ence-гид.




Что та­кое Data Sci­ence

Data Sci­ence — это на­у­ка о том, как ра­бо­тать с боль­ши­ми дан­ны­ми, ана­ли­зи­ро­вать их и на­хо­дить по­лез­ные вза­и­мо­свя­зи, ко­то­рые по­том мож­но ис­поль­зо­вать для са­мых раз­ных за­дач.

Се­го­дня Data Sci­ence ис­поль­зу­ют прак­ти­че­ски вез­де. Са­мый про­стой при­мер — он­лайн-мар­ке­ты вро­де «Беру» или Ozon: ма­га­зи­ны со­ве­ту­ет нам, что ку­пить, ана­ли­зи­руя наши преды­ду­щие по­куп­ки или про­смот­ры. Так же ра­бо­та­ют плей­ли­сты на Spo­tify или «Ян­декс. Му­зы­ке». Еще один ва­ри­ант — по­иск по кар­тин­ке: если де­вуш­ка уви­де­ла где-то класс­ные туфли, она мо­жет сфо­то­гра­фи­ро­вать их и за­гру­зить сни­мок в по­ис­ко­вик. Ком­пью­тер­ное зре­ние рас­по­зна­ет объ­ект и пред­ло­жит по­хо­жие ва­ри­ан­ты.

Недав­но я вы­зва­ла так­си с ра­бо­ты, и мне пред­ло­жи­ли ма­ши­ну с ожи­да­ни­ем 7 ми­нут. При этом на сто­ян­ке воз­ле офи­са было мно­го сво­бод­ных во­ди­те­лей. Поз­же я вы­яс­ни­ла, что в аг­ре­га­то­ре есть спе­ци­аль­ная про­грам­ма, ко­то­рая от­сле­жи­ва­ет, сколь­ко за­ка­зов при­нял так­сист. У мо­е­го во­ди­те­ля вы­зо­вов было мало, а я могу по­до­ждать 7 ми­нут — это вид­но из ис­то­рии за­ка­зов, по­это­му аг­ре­га­тор нас со­еди­нил. Все это было бы невоз­мож­но без Data Sci­ence-тех­но­ло­гий. Кста­ти, смеш­ные ви­део, где Оба­ма чи­та­ет рэп или ней­ро­сеть пи­шет му­зы­ку — тоже ра­бо­та дата-сай­ен­ти­стов.

Где мож­но ра­бо­тать

В Data Sci­ence, как и в дру­гих сфе­рах, есть раз­ные на­прав­ле­ния и спе­ци­аль­но­сти. Кто-то за­ни­ма­ет­ся ре­ко­мен­да­тель­ны­ми си­сте­ма­ми для Net­flix, кто-то — ком­пью­тер­ным зре­ни­ем для Google, а кто-то — ра­бо­той с тек­стом для он­лайн-пе­ре­вод­чи­ков. Ав­то­ма­ти­зи­ро­вать про­цес­сы мож­но по­чти вез­де, по­это­му дата-сай­ен­тист мо­жет ра­бо­тать в са­мых раз­ных ком­па­ни­ях.

Что кон­крет­но нуж­но уметь

Есть об­щий на­бор на­вы­ков, ко­то­ры­ми дол­жен об­ла­дать каж­дый дата-сай­ен­тист — шесть скил­лов и три про­грам­мы. Уже овла­дев ими, мож­но вы­брать ка­кое-то на­прав­ле­ние или спе­ци­а­ли­за­цию.

На­вы­ки:
1. Ра­бо­та с дан­ны­ми
2. Ви­зу­а­ли­за­ция дан­ных
3. Про­грам­ми­ро­ва­ние на Python
4. Тео­рия ве­ро­ят­но­стей и ма­те­ма­ти­че­ская ста­ти­сти­ка
5. Ма­шин­ное обу­че­ние
6. Глу­бо­кое обу­че­ние

Про­грам­мы:
1. Apache Spark
2. Hadoop
3. SQL

иканам стьюдентс коммьюнити /vkontakte

Обя­за­тель­но ли учить Python

Да, од­на­ко бо­ять­ся не сто­ит. Python — неслож­ный язык, в биб­лио­те­ках кода есть мно­го при­ме­ров для раз­ных за­дач. Его очень удоб­но ис­поль­зо­вать. К нам ча­сто при­хо­дят сту­ден­ты, ко­то­рые счи­та­ют себя гу­ма­ни­та­ри­я­ми, неспо­соб­ны­ми к про­грам­ми­ро­ва­нию, но с Python справ­ля­ют­ся все, тем бо­лее на ба­зо­вом уровне.

Бу­дет ли ну­жен ан­глий­ский

В Рос­сии мож­но ра­бо­тать в Data Sci­ence, не зная ан­глий­ский. С пе­ре­вод­чи­ком мож­но горы по­ко­рить. Од­на­ко на ан­глий­ском язы­ке вы­хо­дят клю­че­вые ста­тьи о но­вых мо­де­лях и ме­то­дах, по­это­му для об­нов­ле­ния зна­ний он ино­гда бу­дет ну­жен. Что ка­са­ет­ся про­грамм для ра­бо­ты, их ин­тер­фейс не слож­нее при­выч­но­го Mi­crosoft Word — даже на ан­глий­ском про­бле­мы вряд ли воз­ник­нут.

Сколь­ко мож­но за­ра­ба­ты­вать

Data Sci­ence — об­ласть вы­со­ких зар­плат­ных ожи­да­ний. На са­мом деле труд дата-сай­ен­ти­стов дей­стви­тель­но хо­ро­шо опла­чи­ва­ет­ся. На эта­пе ста­жи­ров­ки мож­но по­лу­чать 40-50 ты­сяч руб­лей, на по­зи­ции джу­ни­о­ра — от 60 до 120 ты­сяч, мид­лы мо­гут за­ра­ба­ты­вать до 180 ты­сяч руб­лей, а даль­ше циф­ры очень от­ли­ча­ют­ся в за­ви­си­мо­сти от го­ро­да или ком­па­нии.

Где и как мож­но учить­ся

Мно­гие люди хо­тят са­мо­сто­я­тель­но вой­ти в Data Sci­ence без бэк­гра­ун­да в ма­те­ма­ти­ке и про­грам­ми­ро­ва­нии. Это воз­мож­но, по­чти все ма­те­ри­а­лы мож­но са­мо­му най­ти в ин­тер­не­те. Од­на­ко без опы­та в этой сфе­ре очень тя­же­ло по­стро­ить про­грам­му обу­че­ния, ко­то­рая охва­тит все важ­ные эта­пы. Вы­сок риск, что ка­кие-то темы бу­дут упу­ще­ны, и это от­ра­зит­ся на по­ис­ке ра­бо­ты.

Если пой­ти по клас­си­че­ско­му пути, стать дата-сай­ен­ти­стом мож­но, окон­чив уни­вер­си­тет. Од­на­ко для взрос­лых лю­дей этот путь не под­хо­дит, по­то­му что сов­ме­щать уче­бу и пол­ный ра­бо­чий день по­лу­ча­ет­ся крайне ред­ко. Дру­гой ва­ри­ант — оч­ные и он­лайн-кур­сы, к вы­бо­ру ко­то­рых нуж­но от­но­сить­ся очень вни­ма­тель­но.

Пре­иму­ще­ство кур­са от Skill­fac­tory — прак­ти­ко­ори­ен­ти­ро­ван­ность. Мы ста­ра­ем­ся сде­лать про­грам­му мак­си­маль­но при­клад­ной, что­бы че­рез 12 ме­ся­цев за­ня­тий че­ло­век мог сра­зу вый­ти на стар­то­вую по­зи­цию дата-сай­ен­ти­ста. Сна­ча­ла мы учим Python, по­том ма­те­ма­ти­ку, ма­шин­ное обу­че­ние, глу­бо­кое обу­че­ние и ин­стру­мен­ты ра­бо­ты с боль­ши­ми дан­ны­ми.

Во вре­мя обу­че­ния наши сту­ден­ты вы­пол­ня­ют про­ек­ты, ко­то­рые при устрой­стве на ра­бо­ту смо­гут по­ка­зать как порт­фо­лио. К тому же у нас все­гда есть под­держ­ка мен­то­ров, ко­то­рые объ­яс­нят труд­ные мо­мен­ты и по­со­ве­ту­ют до­пол­ни­тель­ные ма­те­ри­а­лы по за­па­да­ю­щим те­мам. Ко­неч­но, от­вет на лю­бой во­прос мож­но най­ти в ин­тер­не­те, но ино­гда гуг­лить нуж­но по несколь­ку ча­сов, и мен­тор здо­ро­во эко­но­мит вре­мя.

Сколь­ко сто­ит обу­че­ние

Цены на уни­вер­си­тет­ские про­грам­мы по ра­бо­те с дан­ны­ми мо­гут до­хо­дить до по­лу­мил­ли­о­на руб­лей. Ко­неч­но, мож­но по­сту­пить на бюд­жет­ное ме­сто или осва­и­вать Data Sci­ence са­мо­сто­я­тель­но, с по­мо­щью бес­плат­ных кур­сов на Cours­era и дру­гих до­ступ­ных ма­те­ри­а­лов. Но во вто­ром ва­ри­ан­те нет че­ло­ве­че­ско­го кон­тро­ля и фид­бе­ка пре­по­да­ва­те­ля. Он­лайн-курс — от­лич­ная аль­тер­на­ти­ва: спра­вед­ли­вая цена и все необ­хо­ди­мые для ра­бо­ты зна­ния.

Где еще мож­но по­тре­ни­ро­вать­ся

Что­бы по­лу­чить еще боль­ше прак­ти­ки, мож­но зай­ти на Kag­gle — это плат­фор­ма, где про­хо­дят со­рев­но­ва­ния по ма­шин­но­му обу­че­нию. Ком­па­ния ста­вит дата-сай­ен­ти­стам за­да­чи, и тот, кто быст­рее и луч­ше ре­шит, — по­лу­ча­ет де­неж­ное воз­на­граж­де­ние и, воз­мож­но, ра­бо­ту. Плюс, Kag­gle очень хо­ро­шо от­ра­жа­ет по­треб­но­сти рын­ка и по­ка­зы­ва­ет, за что ком­па­нии го­то­вы пла­тить. Мы в Skill­fac­tory тоже про­во­дим та­кие со­рев­но­ва­ния, что­бы сту­ден­ты при­вы­ка­ли к ра­бо­че­му рит­му.

Что спро­сят при устрой­стве на ра­бо­ту

На эта­пе ре­зю­ме по­про­сят по­ка­зать порт­фо­лио: его мож­но сде­лать на про­грам­мист­ском пор­та­ле Github — он так­же под­хо­дит для дата-сай­ен­ти­стов. На са­мом со­бе­се­до­ва­нии будь­те го­то­вы к сле­ду­ю­щим во­про­сам:

  • SQL, или как пи­сать за­про­сы к боль­шим дан­ным: на­при­мер, я хочу вы­брать из таб­ли­цы толь­ко лю­дей стар­ше 1998 года рож­де­ния. Как это сде­лать?
  • Несколь­ко во­про­сов о ма­шин­ном и глу­бо­ком обу­че­нии: ка­кие есть мо­де­ли и мет­ри­ки, и как они ра­бо­та­ют?
  • Бэк­гра­унд: по­про­сят рас­ска­зать о про­шлых про­ек­тах.

Бо­ну­сом мо­гут до­ба­вить ма­те­ма­ти­че­скую за­дач­ку и во­про­сы по спе­ци­фи­ке ра­бо­ты. Мы в Skill­Fac­tory со­зда­ли свой ка­рьер­ный центр, спе­ци­а­ли­сты ко­то­ро­го по­мо­га­ют сту­ден­там под­го­то­вить ре­зю­ме, по­до­брать ва­кан­сии (от круп­ных ком­па­ний-парт­не­ров) и под­го­то­вить­ся к со­бе­се­до­ва­нию. А успеш­ным вы­пуск­ни­кам мы га­ран­ти­ру­ем тру­до­устрой­ство.

Что я буду де­лать каж­дый день

В ос­нов­ном ра­бо­тать за ком­пью­те­ром и хо­дить на ко­манд­ные пе­ре­го­во­ры. Data Sci­ence-за­да­чи вы­пол­ня­ют­ся при­мер­но по од­но­му сце­на­рию: ком­па­ния рас­ска­зы­ва­ет, что ей нуж­но по­лу­чить, от за­про­са биз­не­са нуж­но пе­рей­ти к ре­аль­ной по­ста­нов­ке за­да­чи на уровне ма­те­ма­ти­ки и ана­ли­за дан­ных. За­тем нуж­но со­брать и про­ана­ли­зи­ро­вать дан­ные, об­ра­бо­тать их и по­стро­ить мо­дель — ма­те­ма­ти­че­ский ал­го­ритм, ко­то­рый смо­жет ре­шить за­да­чу. Сле­ду­ю­щий этап — обу­че­ние мо­де­ли и оцен­ка ка­че­ства: нуж­но про­ве­рить, что все ста­биль­но ра­бо­та­ет на про­тя­же­нии дол­го­го вре­ме­ни. Толь­ко по­сле это­го мы внед­ря­ем мо­дель и за­кры­ва­ем про­ект. Над од­ной за­да­чей мож­но ра­бо­тать по­чти год — это до­воль­но дол­гий про­цесс.

Кому та­кая ра­бо­та по­дой­дет боль­ше все­го

К нам при­хо­дят люди из са­мых раз­ных сфер: ин­же­не­ры, по­ли­то­ло­ги, хи­ми­ки — и для всех на­хо­дят­ся ин­те­рес­ные за­да­чи, ко­то­рые как-то пе­ре­пле­та­ют­ся с их бэк­гра­ун­дом. Нель­зя за­ни­мать­ся Data Sci­ence в фи­нан­сах, если у тебя нет зна­ний в этой сфе­ре: ошиб­ка из-за незна­ния спе­ци­фи­ки мо­жет очень до­ро­го сто­ить. По­это­му всем сту­ден­там я даю одну ре­ко­мен­да­цию — бу­дет здо­ро­во, если они най­дут ра­бо­ту, ко­то­рая пе­ре­кли­ка­ет­ся с их преды­ду­щим опы­том.

Пер­спек­ти­вы про­фес­сии

Счи­та­ет­ся, что каж­дая но­вая тех­но­ло­гия про­хо­дит пять ос­нов­ных ста­дий: триг­гер-ин­но­ва­ция, пик раз­ду­тых ожи­да­ний, есте­ствен­ное па­де­ние, но­вое раз­ви­тие и пла­то. Data Sci­ence же сра­зу ста­ла ре­аль­но ра­бо­тать на биз­нес. Эта сфе­ра ак­тив­но раз­ви­ва­ет­ся и не со­би­ра­ет­ся сда­вать по­зи­ции. По­рог вхо­да в про­фес­сию по­сто­ян­но по­вы­ша­ет­ся, а за­дач ста­но­вит­ся все боль­ше.

Data Sci­ence мо­жет ре­шить мно­же­ство про­блем, сде­лать жизнь че­ло­ве­че­ства на­мно­го луч­ше и удоб­нее. Од­на­ко но­вич­кам нуж­но мо­раль­но под­го­то­вить­ся, что учить при­дет­ся до­воль­но мно­го. Зато по­том у вас бу­дет от­лич­ная про­фес­сия — с пер­спек­ти­ва­ми ро­ста и по­сто­ян­но­го раз­ви­тия.


Толь­ко по­лез­ные по­сты и сто­рис — в на­шем In­sta­gram