1. Заработать

Что такое Data Science? 8 вопросов о больших данных и тех, кто с ними работает

И нет, это не аналитики данных

Что такое Data Science? 8 вопросов о больших данных и тех, кто с ними работаетЧто такое Data Science? 8 вопросов о больших данных и тех, кто с ними работаетЧто такое Data Science? 8 вопросов о больших данных и тех, кто с ними работаетЧто такое Data Science? 8 вопросов о больших данных и тех, кто с ними работает

Дан­ные — са­мый цен­ный ре­сурс в со­вре­мен­ном мире, за ко­то­рым охо­тят­ся все кор­по­ра­ции и стар­та­пы. И Data Sci­ence сей­час на волне по­пу­ляр­но­сти. Под­во­дя ито­ги Пер­во­го Мос­ков­ско­го фо­ру­ма до­пол­ни­тель­но­го про­фес­си­о­наль­но­го об­ра­зо­ва­ния мы по­го­во­ри­ли с Ев­ге­ни­ем Со­ко­ло­вым, ру­ко­во­ди­те­лем де­пар­та­мен­та боль­ших дан­ных и ин­фор­ма­ци­он­но­го по­ис­ка, на­уч­ным ру­ко­во­ди­те­лем Цен­тра непре­рыв­но­го об­ра­зо­ва­ния фа­куль­те­та ком­пью­тер­ных наук ВШЭ, и узна­ли, что это за про­фес­сия, где ей учить­ся, сколь­ко де­нег в ней мож­но по­лу­чать и как устро­ить­ся на первую ра­бо­ту.




1. Что та­кое Data Sci­ence?

Это «на­у­ка о дан­ных», как сле­ду­ет из на­зва­ния. Го­во­ря по­нят­нее — это об­ласть зна­ний, ко­то­рая по­мо­га­ет на­хо­дить цен­ную ин­фор­ма­цию в огром­ном ко­ли­че­стве дан­ных. С по­мо­щью кода, ал­го­рит­мов и ма­те­ма­ти­ки Data Sci­en­tist’ы (по­че­му не «ана­ли­ти­ки», ска­жем поз­же) по­мо­га­ют ком­па­ни­ям стро­ить биз­нес, ис­кать мо­шен­ни­ков, ле­чить бо­лез­ни и еще мно­гое дру­гое.

Мас­си­вы ин­фор­ма­ции, с ко­то­ры­ми ра­бо­та­ют спе­ци­а­ли­сты, на­зы­ва­ют­ся «боль­ши­ми дан­ны­ми» — это огром­ные объ­е­мы неструк­ту­ри­ро­ван­ных таб­лиц. Что­бы ра­бо­тать с та­ки­ми дан­ны­ми, ис­поль­зу­ют ма­те­ма­ти­че­скую ста­ти­сти­ку и ме­то­ды ма­шин­но­го обу­че­ния. Этот про­цесс и на­зы­ва­ет­ся Data Sci­ence.

2. Что во­об­ще та­кое «дан­ные»?

В ка­ком-то смыс­ле это фи­ло­соф­ский во­прос. Дан­ные — это ин­фор­ма­ция, ко­то­рая пред­став­ля­ет поль­зу для по­став­лен­ной за­да­чи. Это мо­жет быть все что угод­но: ре­зуль­та­ты спор­тив­ных со­стя­за­ний, рас­по­ло­же­ние неф­тя­ных пя­тен в оке­ане, че­ло­ве­че­ский ге­ном. В за­ви­си­мо­сти от сфе­ры бу­дут от­ли­чать­ся и дан­ные.

Еще ин­фор­ма­ция мо­жет быть «мо­даль­ной», то есть раз­нить­ся по ти­пам. На­при­мер, это мо­гут быть ви­зу­аль­ные дан­ные. Та­кой ва­ри­ант: мы це­лый год фо­то­гра­фи­ро­ва­ли в су­пер­мар­ке­тах оче­ре­ди к пол­кам с то­ва­ра­ми. Это не про­сто кад­ры, но дан­ные, на ос­но­ве ко­то­рых мож­но сде­лать ал­го­рит­мы для оце­ни­ва­ния дли­ны оче­ре­ди и тре­бу­е­мой на­пол­нен­но­сти по­лок.

Зву­к — тоже дан­ные, ко­то­рые мы мо­жем кон­вер­ти­ро­вать в текст, ге­не­ри­ро­вать, ана­ли­зи­ро­вать. На этих дан­ных ра­бо­та­ют го­ло­со­вые по­мощ­ни­ки или, ска­жем, си­сте­мы рас­по­зна­ва­ния речи. Дан­ные мо­гут быть тек­сто­вы­ми. По сути, из них со­сто­ит ин­тер­нет, с ними ра­бо­та­ют по­ис­ко­ви­ки, чат-боты и так да­лее. По­сты в со­ци­аль­ных се­тях, но­вост­ные за­мет­ки — тоже при­ме­ры та­ких дан­ных. Ну и, на­ко­нец, таб­лич­ные дан­ные. Хотя се­го­дня весь хайп во­круг тек­стов и зву­ка, на са­мом деле чаще все­го Data Sci­en­tist ра­бо­та­ет с таб­ли­ца­ми.

3. Где нуж­на Data Sci­ence?

Во­об­ще вез­де, за ред­ки­ми ис­клю­че­ни­я­ми. У нас на фа­куль­те­те есть ма­ги­стер­ская про­грам­ма по ана­ли­зу дан­ных в био­ло­гии и ме­ди­цине: там мы про­хо­дим био­ин­фор­ма­ти­ку и ма­шин­ное обу­че­ние, а учат­ся во мно­гом сту­ден­ты, изу­чав­шие био­ло­гию или ме­ди­ци­ну в ба­ка­лаври­а­те. На эту про­грам­му неожи­дан­но боль­шой спрос имен­но сре­ди вра­чей, у ко­то­рых уже есть прак­ти­ка.

И та­ких при­ме­ров мож­но при­ве­сти очень мно­го. Про­мыш­лен­ность, бан­ки, те­ле­ком, ри­тейл за­ин­те­ре­со­ва­ны в Data Sci­ence, и даже в гу­ма­ни­тар­ных на­у­ках есть спрос на ра­бо­ту с Big Data. На­при­мер, DS мо­гут об­лег­чить ра­бо­ту с ру­ко­пи­ся­ми, пре­вра­тив древ­ние свит­ки в биб­лио­те­ку дан­ных, в ко­то­рой бу­дет лег­ко ис­кать неоче­вид­ные кор­ре­ля­ции и сов­па­де­ния. Не го­во­ря уже про но­вые трен­ды в раз­ви­тии ИИ, где без боль­ших дан­ных точ­но ни­ку­да.

4. Чем Data Sci­en­tist от­ли­ча­ет­ся от обыч­но­го ана­ли­ти­ка?

Ана­ли­тик — это че­ло­век, ко­то­рый де­ла­ет из дан­ных ка­кие-то вы­во­ды. То есть это та­кой свя­зу­ю­щий че­ло­век меж­ду су­хи­ми дан­ны­ми и биз­не­сом. Он ана­ли­зи­ру­ет, стро­ит кор­ре­ля­ции и про­ве­ря­ет ги­по­те­зы. Ана­ли­тик бы­ва­ют раз­ные: си­стем­ные, биз­не­со­вые, пер­фо­манс и так да­лее. Кто-то боль­ше ра­бо­та­ет с дан­ны­ми, кто-то мень­ше. Но в лю­бом слу­чае его за­да­ча — про­во­дить ана­лиз, де­лать вы­во­ды, да­вать ре­ко­мен­да­ции биз­не­су.

Data Sci­en­tist, на­про­тив, дол­жен вы­дать ка­кой-то сер­вис, ал­го­ритм или про­дукт на ос­но­ве сво­их дан­ных. То есть он не про­сто дол­жен по­нять, по­че­му оче­ре­ди в ма­га­зи­нах та­кие длин­ные, но и соз­дать неко­то­рый ал­го­ритм, ко­то­рый бу­дет в ре­аль­ном вре­ме­ни ана­ли­зи­ро­вать дан­ные и ре­ко­мен­до­вать, как пе­ре­рас­пре­де­лять то­ва­ры для улуч­ше­ния си­ту­а­ции с оче­ре­дя­ми.

К со­жа­ле­нию, в рус­ском язы­ке нет по­нят­но­го раз­гра­ни­че­ния в этих двух по­ня­ти­ях, по­это­му они ча­сто сме­ши­ва­ют­ся. На­при­мер, в зна­ме­ни­той Шко­ле ана­ли­за дан­ных Ян­дек­са дают на­вы­ки во мно­гом по Data Sci­ence. Мно­гие спе­ци­а­ли­сты в ком­па­ни­ях ра­бо­та­ют на смеж­ных ро­лях, и это нор­маль­но. Но если быть со­всем до­тош­ны­ми, то это две раз­ные про­фес­сии.

5. Ка­ки­ми на­вы­ка­ми об­ла­да­ет Data Sci­en­tist?

В Data Sci­ence есть два глав­ных на­вы­ка: про­грам­ми­ро­ва­ние и ма­те­ма­ти­ка.

Ко­неч­но, че­ло­век мо­жет уметь пи­сать толь­ко SQL-за­про­сы, но это бу­дет силь­но его огра­ни­чи­вать. Нуж­но хотя бы знать Python на хо­ро­шем уровне и вла­деть его биб­лио­те­ка­ми. Это от­кры­ва­ет го­раз­до боль­ше воз­мож­но­стей: вме­сто того что­бы ру­ка­ми раз­гре­бать мас­сив, мож­но на­пи­сать неболь­шой скрипт на Python и он вы­даст нуж­ный ре­зуль­тат за пару ми­нут.

Даль­ше по­верх это­го мо­гут над­стра­и­вать­ся раз­ные спе­ци­фич­ные вещи вро­де ра­бо­ты с рас­пре­де­лен­ны­ми хра­ни­ли­ща­ми дан­ных, то есть уме­ние ра­бо­тать с боль­ши­ми объ­е­ма­ми дан­ных. Но это уже спе­ци­аль­ные на­вы­ки. Глав­ное — уметь хо­ро­шо про­грам­ми­ро­вать, а осталь­ное уж мож­но до­учить.

Вто­рое — хо­ро­шее зна­ком­ство с выс­шей ма­те­ма­ти­кой. Опять же мож­но, при же­ла­нии, най­ти по­зи­ции и за­да­чи, на ко­то­рых ма­те­ма­ти­ку осо­бо знать не надо. Но в боль­шин­стве мест она при­го­дит­ся. Ма­те­ма­ти­ка — это язык, на ко­то­ром мно­гие ана­ли­ти­ки и го­во­рят. Бу­дет очень тя­же­ло осво­ить­ся и стать сво­им в со­об­ще­стве, не зная мест­ный язык.

6. Ка­кое об­ра­зо­ва­ние нуж­но для стар­та ка­рье­ры в Data Sci­ence?

Если че­ло­век мо­ти­ви­ро­ван, то в це­лом хва­тит про­хож­де­ния кур­сов, где он по­зна­ко­мит­ся с ба­зо­вы­ми ве­ща­ми, но не по­лу­чит фун­да­мен­таль­но­го об­ра­зо­ва­ния — это­го мо­жет быть до­ста­точ­но для стар­та ка­рье­ры, что­бы устро­ить­ся на ста­жи­ров­ку, на­при­мер. Но так­же очень важ­на го­тов­ность по­сто­ян­но обу­чать­ся, про­ка­чи­вать soft и hard скил­лы.

В Цен­тре непре­рыв­но­го об­ра­зо­ва­ния мы обя­за­тель­но даем хорошеепо­ни­ма­ние ма­те­ма­ти­ки и про­грам­ми­ро­ва­ния. А даль­ше всё в ру­ках на­ше­го вы­пуск­ни­ка. Мож­но рас­тить свои тех­ни­че­ские на­вы­ки, рас­ти до «си­ньо­ра» и даль­ше, мож­но ухо­дить в ме­недж­мент, управ­ле­ние ко­ман­дой. Но в лю­бом слу­чае в на­шей сфе­ре це­нит­ся спо­соб­ность нестан­дарт­но ре­шать за­да­чи, глу­бо­кое по­ни­ма­ние об­ла­сти ра­бо­ты.

Ины­ми сло­ва­ми, кур­сов до­ста­точ­но для стар­та, но недо­ста­точ­но, что­бы по­том успеш­но про­дол­жать стро­ить пол­но­цен­ную ка­рье­ру.

7. Этих спе­ци­а­ли­стов не за­ме­нят ИИ?

Как раз на­обо­рот — без Data Sci­ence не мо­жет быть ней­ро­се­тей и ИИ. Все упи­ра­ет­ся в ма­шин­ное обу­че­ние, в рам­ках ко­то­ро­го спе­ци­а­ли­сты учат ал­го­ритм са­мо­сто­я­тель­но из­вле­кать нуж­ные дан­ные из боль­ших неструк­ту­ри­ро­ван­ных объ­ё­мов. Data Sci­en­tist вы­сту­па­ет как школь­ный учи­тель: он ре­ша­ет ка­кие дан­ные да­вать ней­рон­ке и что она бу­дет изу­чать. Кор­рек­ти­ру­ет вы­во­ды, ко­то­рые она мо­жет де­лать. Сле­дит за ка­че­ством ис­пол­не­ния.

На­при­мер, мы бе­рем мно­го за­пи­сей речи и их рас­шиф­ров­ки и на ос­но­ве это­го пы­та­ем­ся вы­ве­сти боль­шой слож­ный ал­го­ритм, ко­то­рый по лю­бой за­пи­си речи вы­даст нам рас­шиф­ров­ку — это де­ла­ет­ся с по­мо­щью ме­то­дов ма­шин­ного обу­че­ния. мен­но оно поз­во­ля­ет ре­шать су­пер­слож­ные за­да­чи, ко­то­рые вруч­ную сде­лать невоз­мож­но.

Взять за­да­чу по­стро­е­ния ре­ко­мен­да­ций. Как по­ре­ко­мен­до­вать поль­зо­ва­те­лю то­вар, ко­то­рый он ку­пит? Фильм, ко­то­рый он по­смот­рит? Пес­ню, ко­то­рую он по­слу­ша­ет? Ал­го­ритм неясен, зато есть мно­го при­ме­ров. Вот мил­ли­он поль­зо­ва­те­лей, ко­то­рые что-то по­ку­па­ли на на­шем сай­те. На ос­но­ве это­го мас­си­ва вы­ве­дем ма­шин­ным обу­че­ни­ем слож­ный ал­го­ритм для по­стро­е­ния ре­ко­мен­да­ций но­вым поль­зо­ва­те­лям. Это гру­бый при­мер, но вполне ре­а­ли­стич­ный. Все это очень вос­тре­бо­ван­ные за­да­чи, за ко­то­рые ком­па­нии го­то­вы пла­тить тол­ко­вым спе­ци­а­ли­стам.

8. Как най­ти первую ра­бо­ту в сфе­ре?

Очень за­ви­сит от сфе­ры, ком­па­нии и по­зи­ции. В Ян­дек­се че­ло­век мо­жет быть джу­ном, а в стар­та­пе его по­ста­вят уже мид­длом. Так что все ме­ня­ет­ся от ва­кан­сии к ва­кан­сии. Но, если брать что-то сред­нее, то я ска­жу так:

  • Джу­ни­ор Data Sci­ence по­лу­ча­ет от 80 до 120 ты­сяч руб­лей;
  • Мид­дл Data Sci­ence по­лу­ча­ет от 150 до 250 ты­сяч руб­лей;
  • Си­ньор Data Sci­ence мо­жет по­лу­чать вплоть до 500 ты­сяч руб­лей.

Чем боль­ше че­ло­век на­ра­щи­ва­ет свои на­вы­ки и важ­ность на рын­ке, тем выше у него бу­дет зар­пла­та. По­тол­ка в этом, пока что, нет.