Продукты
VK Cloud

Кто такой Data Scientist: что это за профессия и каким компаниям нужен такой специалист

21 ноября 2024 г.
_blog_head_191.png

Сейчас все вокруг говорят о том, как важно собирать данные, анализировать их и использовать для улучшения клиентского сервиса, оптимизации бизнес-процессов и увеличения прибыли. Всем этим занимаются Data Scientist. По статистике LinkedIn, с 2018 года в мире наняли 831 тысячу таких специалистов.

Мы поговорили с Иваном Пастуховым, Data Scientist из Сбербанка, и другими экспертами — расскажем, кто такие специалисты по Data Science, какие у них обязанности, что они должны уметь и как понять, нужен ли вашей компании такой специалист.

Data Scientist — кто это и что делает

Дословно Data Scientist переводится как «ученый данных». Но деятельность у такого специалиста не научная, а практическая: он работает с данными компании, анализирует их, ищет зависимости, делает выводы на их основе и при необходимости строит визуализации. Для этого Data Scientist использует разные математические алгоритмы, специальное программное обеспечение и инструменты разработки.

Из более привычных специальностей Data Scientist ближе всего к программисту и бизнес-аналитику.

Данные, с которыми работает Data Scientist, могут быть любыми: звук, текст, фото, видео, таблицы, документы. Если у вас есть любые данные и нужно их проанализировать — это работа для Data Scientist.

В сфере данных работают и другие специалисты, например, Machine Learning Engineer, Data Engineer или Data Analyst. У них более узкая специализация, например, Machine Learning Engineer меньше занимается анализом данных, в основном разрабатывает модели машинного обучения. Data Scientist — более широкий термин, который обозначает человека с разными компетенциями в области анализа данных.

Обычно компании на старте нанимают одного Data Scientist. В будущем, если разноплановых задач, связанных с данными, станет слишком много, можно нанять несколько таких специалистов, то есть создать целый отдел Data Science.

Чем занимается Data Scientist

Часто в бизнесе есть задачи, которые решаются вручную. Например, менеджер делает простенькие расчеты в Excel или руководитель магазина по своему опыту предсказывает спрос на товары. Такие ручные решения занимают много времени и часто необъективны.

Data Scientist автоматизирует принятие таких решений и делает их более точными, основанными на данных. Он разбирается в задаче, смотрит, какие данные нужны для ее решения. Потом разрабатывает программу, которая будет автоматически считать и анализировать данные. Такая программа может либо принимать простые решения самостоятельно, либо давать более точную и полезную информацию менеджерам.

«В компании SEMrush Data Scientist помогает решать маркетинговые задачи: вычислять вероятность клика, определять популярность поискового запроса, распознавать текст на картинке с объявлением. Именно Data Scientist решает, где нужно применять инструменты машинного обучения, а потом помогает разработчикам их создать и внедрить».

Кирилл Васин <br>Data Scientist, сервис для маркетологов SEMrush

Часто Data Scientist решает общие задачи, характерные для любого бизнеса: проанализировать поведение покупателей, привлечь и удержать клиента, предугадать спрос, построить систему рекомендаций, запустить эффективную акцию. Но бывают и специфические задачи: банк хочет предсказать вероятность возврата кредита, колл-центр — автоматизировать ответы на часто задаваемые вопросы. С этим тоже помогает Data Scientist. Бывает и так, что Data Scientist не решает конкретную задачу, а анализирует текущую ситуацию и ищет зоны роста для компании.

Почти всегда задачи Data Scientist связаны с машинным обучением. Так происходит, потому что именно машинное обучение и искусственный интеллект хорошо подходят для автоматизации бизнес-процессов.

В разных компаниях Data Scientist занимаются совсем разными вещами. Но в итоге они делают одно дело: помогают сэкономить деньги, увеличить доход или принять правильное решение.

«В Ozon отдел Data Science появился относительно недавно, но мы уже выделили основные направления работы: прогнозирование спроса на товары, персональные рекомендации для пользователей, ранжирование в поиске, разработка чат-ботов для службы поддержки. Кроме того, наш отдел прислушивается к болям и пожеланиям менеджеров: так рождаются новые направления и новые задачи».

Александр Северинов, Data Scientist, маркетплейс Ozon

Как понять, что вашей компании нужен Data Scientist

Если компания связана с технологиями, например, разработкой искусственного интеллекта или инструментов автоматизации, Data Scientist ей нужен с самого старта.

Если компания напрямую не связана с IT, Data Scientist обычно становится нужен, когда данных и бизнес-процессов много, ими сложно управлять вручную. Обычно такое происходит в крупных компаниях, которые уже перепробовали разные способы увеличить прибыль и пришли к тому, что нужно извлекать новую информацию из собранных данных, автоматизировать отдельные процессы и искать другие подходы к работе с клиентами.

«Если бизнес уже цифровизован, Data Scientist однозначно нужен хотя бы для наведения порядка в IT-системах и поиска инсайтов для извлечения дополнительной прибыли. Если бизнес не цифровизован, Data Scientist тоже пригодится, чтобы что-нибудь спрогнозировать, проанализировать конкурентов или подсказать, как подойти к вопросу цифровизации. Например, представим агрофирму, которая выращивает продукты. Data Scientist может помочь ей спрогнозировать влажность почвы на полях и сформировать график полива».

Илья Шутов, руководитель направления Data Science компании «Медиа-Тел», кандидат физико-математических наук

Впрочем, иногда Data Scientist может быть полезен и небольшой компании. Он подскажет, как стоит собирать данные, что можно автоматизировать, где искать проблемы и зоны роста.

«Data Scientist может быть полезен маленькой, но амбициозной компании. Он увидит потенциальные возможности, подскажет, какие данные стоит собирать, и подготовит площадку для развития компании в будущем. На старте для этого можно не брать специалиста в штат, а пригласить на консультацию или нанять на аутсорс».

Александр Северинов, Data Scientist, маркетплейс Ozon

Что нужно Data Scientist для работы

Главное, с чем работает Data Scientist — это данные. Компания должна уже собирать, обрабатывать и хранить данные, построить для этого соответствующую инфраструктуру.

Data Scientist обрабатывает данные, для чего часто требуются большие вычислительные мощности и специальные инструменты.

Инфраструктуру для работы с большими данными необязательно строить самостоятельно, ее можно арендовать в облаке. Например, в VK Cloud (бывш. MCS) есть готовые решения для работы с большими данными и разработки приложений на базе машинного обучения. Такие инструменты — базовые для Data Scientist.

Еще для работы Data Scientist нуждается в команде помощников. Чаще всего он работает в связке с Data Engineer и командой разработчиков. Первые обеспечивают его данными, вторые превращают разработанные модели в конкретные программы и сервисы, которыми могут пользоваться другие люди.

«Для работы Data Scientist будет полезен менеджер, знакомый со спецификой Data Science и разработки. Он поможет доносить до Data Scientist бизнес-задачи, контролировать разработку и доводить разработку приложений до финала».

Иван Пастухов, Data Scientist, Сбербанк

В небольших компаниях Data Scientist часто сам себе и Engineer, и разработчик. В более крупных за Data Science может отвечать целый отдел, состоящий из разных специалистов.

«В идеальном мире Data Scientist — пилот “Формулы 1”, вместе с которым работает огромная команда инженеров и механиков. Ему нужен „болид“ — сервер для вычислений, „топливо” — данные, и „техобслуживание“ — помощь Data-инженеров и DevOps-инженеров. На деле такая картина встречается редко, поэтому Data Scientist должен уметь делать всё понемногу. В Ozon очень мощная команда инженеров инфраструктуры, Data-инженеров и Data Science-специалистов. Я бы даже назвал это модным словом „комьюнити“ — развитое взаимодействие между командами дает возможность прийти с идеей и получить критику, советы и поддержку вместо сухого: „Согласуйте задачу с моим руководителем, потом поговорим.“».

Александр Северинов, Data Scientist, маркетплейс Ozon

Что нужно знать Data Scientist

Data Science — дисциплина, которая лежит на стыке математики, статистики и компьютерных наук. Поэтому обычно Data Scientist должен:

  1. Знать математику и статистику.
  2. Писать код, обычно на языках R и Python.
  3. Работать с базами данных и знать язык SQL.
  4. Владеть инструментами для работы с большими данными: Hadoop, Spark, Hive, Kafka.
  5. Отлаживать код и готовить к выкатке в продакшен.
  6. Работать с программами для визуализации и презентации результатов работы: PowerPoint, Shiny/Dash, Power BI, Tableau, Qlik
  7. Знать технологии машинного и глубокого обучения.

В вузах пока редко встречается специальность Data Scientist. Те, кто задаются вопросом «Как стать Data Scientist» обычно учатся на курсах, либо поступают в университеты на прикладную математику или специальности, связанные с математическим моделированием. Хотя кое-где, например в ВШЭ, есть магистерские программы, посвященные анализу данных и машинному обучению.

«Так как наша профессия сравнительно новая, у бизнеса часто нет четкого понимания, зачем нужен Data Scientist. Поэтому важно уметь вести диалог. Иногда задача клиента решается проще и дешевле без нас, а иногда мы находим неожиданные инсайты, о которых клиент не догадывался».

Иван Пастухов, Data Scientist, Сбербанк

Кратко о работе Data Scientist

  1. Data Scientist — это специалист, который с помощью математических алгоритмов и программных инструментов анализирует данные, которые собрала компания.
  2. С помощью данных Data Scientist помогает компаниям принимать правильные бизнес-решения, экономить деньги, улучшать клиентский сервис и автоматизировать рутинные задачи.
  3. Вашей компании нужен Data Scientist, если вы не знаете, что делать с собранными данными, или хотите увеличить прибыль, используя для этого собранную информацию о клиентах и бизнесе.
  4. Для работы Data Scientist нуждается в данных, инфраструктуре для их обработки и помощи других смежных специалистов.
  5. Data Scientist должен разбираться в математике, статистике, программировании, базах данных и построении предсказательных моделей.
Теги: анализ данных, машинное обучение, искусственный интеллект, data science, нейросети

Почитать по теме

_blog_head_74.png
26 ноября

Что такое методология DevOps: подробное руководство о том, как построить работу IT-отдела

_blog_head_197.png
26 ноября

Чем на самом деле занимается DevOps-инженер и зачем вам его нанимать

40+ готовых сервисов