Чем занимается специалист по Data Science?

Кажется, что очень легко рассказать про Data Science и что это такое без заумных слов, простыми словами. В прямом переводе это звучит как «Наука о данных».

Кто-то берет большие цифры, что-то с ними делает, получает какой-то результат. Стало понятнее? Увы, нет. Поэтому придется глубже разобраться в этом вопросе.

Что же такое Data Science?

Впервые термин Data Science появился в 1974 году, в книге Петера Наура.

В ней давалось определение: «Это дисциплина, которая изучает жизненный цикл цифровых данных, от момента их сбора до употребления в других областях знаний».

Однако истинная популярность пришла к этому термину приблизительно с 2010 года, вместе с широким распространением такого понятия как Big Data. Считается, что именно тогда вычислительные мощности позволили ученым оперировать действительно большим набором данных.

До этого периода на компьютерах тоже производились вычисления, но их мощности было откровенно недостаточной для действительно повсеместного использования.

Чтобы было понятно — производительность среднего в ценовом диапазоне мобильного телефона 2021 года на порядок выше, чем производительность среднего компьютера в домах пользователей в 2010 году.

Чем занимается специалист по Data Science?
90% смартфонов 2021 года обгонят по производительности этого старичка

Так все же, что из себя представляет Data Science в 2021 году?

Если говорить официальными терминами, то это междисциплинарный подход, позволяющее извлечь актуальную информацию из больших, при этом постоянно увеличивающихся объемов данных, полученными организациями.

Циклы проведения научных исследований

Согласно исследованию компании IBM, дата сайнс имеет от 5 до 16 циклов обработки сведений. Первый, и, наверное, самое важное из них — это получение данных. На этом этапе они не структурированы, могут приходить из разных источников, различаться по типам данных. Поэтому требуется привести их к единому стандарту, который сможет обработать машина. Затем следуют:

  • подготовка данных;
  • предварительная обработка;
  • анализ;
  • результат.

Подготовка заключается в преобразовании массива информации в один общий универсальный формат. Здесь происходит извлечение сведений из массива, их очистка и переформатирование, унификация. Затем наступает этап предварительной обработки, на котором выявляются закономерности, диапазоны и распределения данных, проверка на пригодность использования.

Чем занимается специалист по Data Science?
Графики, функции, формулы – вот с чем придется работать

Наглядно это выглядит примерно следующим образом — чтобы измерить температуру человека, необходим специальный термометр. Если взять научный прибор с точностью до 0,0001 градуса, невозможно получить объективный результат. Аналогично, обычный уличный термометр тоже не подойдет для этой цели.

После приведения цифр и общей структуре и изучения закономерностей наступает время провести анализ. Для этого используется прогнозная аналитика, статистика, регрессия, алгоритмы машинного обучения и другие технологии. Одни и те же цифры могут дать различные результаты в зависимости от способа анализа.

Чем занимается специалист по Data Science?
В Биг Дата тоже есть своя специализация

Заключительный этап — получение отчета. Команда проекта должна предоставить его в наглядном виде, чтобы далекие от математики и программирования человек смог применить полученные сведения в своей сфере деятельности. В некоторых случаях требуется вывод через API, для последующего использования в базах более высокого уровня.

Искусственный интеллект и Data Science, возможные риски

Еще в 2014 году Илон Маск написал в Twitter, что искусственный интеллект может стать страшнее, чем ядерное оружие. Именно в нем американский предприниматель видит основную угрозу для будущего человечества.

Тогда многие посмеялись над ним, подумав о восстании роботов из комиксов. Но стоит ли не доверять человеку, чья компания выпускает автомобили на автопилоте? При чем здесь Биг Дейт?

А каким образом можно спланировать и спрогнозировать поведение машины на оживленной трассе? Единственный вариант — большие данные.

Сначала собирается статистика из абсолютно разных источников, затем она приводится к единому формату. Полученный результат тестируется, проверяется на наличие ошибок. Судя по уровню безопасности автомобилей Тесла, эта работа проведена на высочайшем уровне. Однако постоянно происходят какие-то небольшие сбои. И пока ИИ находится под плотным контролем разработчиков, можно говорить об умеренном уровни риска.

Чем занимается специалист по Data Science?
Главное, чтобы страшная фантастика не стала реальностью

Но рано или поздно выяснится, что именно компьютерная программа лучше всего подходит на роль контролера другой машины. И человечество доверит ей эту роль. Илон Маск лучше всех понимает, что любая программа рано или поздно дает сбой. И чем больше у нее полномочий, чем она сложнее, тем выше риски.

Проблема заключается в том, что сейчас один человек уже не в силах разработать крупное ПО. Оно по своей сути является сборкой из «черных ящиков» — частей кода, написанных другими программистами для конкретной задачи. То есть сейчас Data Science превратился в своеобразный конструктор, каждая из деталей которого тоже является результатом сборки из другого конструктора.

Операционная система Windows 10 содержит порядка 50 миллионов строчек кода. Если предположить, что на каждую из них тратится по 10 секунд времени программиста, то только прочтение займет 5787 дней, или порядка 15 лет.

Активно применяемый в обработки Big Data пакет MySql содержит 12 миллионов строчек, на его чтение потребуется 45 месяцев.

Чем занимается специалист по Data Science?
Пакет MySql востребован датасаентистами

Почему у Data Science нет альтернативы, и где он применяется

Несмотря на все риски, будущее человечества невозможно представить без искусственного интеллекта и Data Science. Ключевым показателем является эффективность. Сейчас найдется мало желающих использовать проводную связь или отсылать почтового голубя, чтобы отправить сообщение. Big Data и Data Science активно применяются в повседневной жизни каждого человека, даже если он этого не замечает. Основные области применение на текущий момент из самых популярных и известных:

  • маркетинг и реклама;
  • решение банков по выдаче кредитов;
  • оптимизация поисковой выдачи Яндекс и Google;
  • автопилоты и автомобильная навигация;
  • камеры наблюдения и выявление правонарушений;
  • переводчики текстов;
  • графические редакторы.

Однако Data Science применяется не только в глобальных проектах. наука о больших данных оптимизирует логистику, управление продажами, складскими запасами, ведет контроль за работой персонала, сейчас она применяется практически во всех крупных компаниях. Этим объясняется повышенный спрос на специалистов, хороший дата саентист зарабатывает очень достойные деньги.

Чем занимается специалист по Data Science?
Диаграмма расчетов по финансовой организации

Конечно, вы имеете право обрабатывать фотографии в Paint, и может быть даже получите относительно неплохой результат. Но если ваш коллега-фотограф использует для этой цели пакет Adobe Photoshop, он гарантированно окажется в более выигрышной ситуации. Себестоимость и затраты времени сделают вас аутсайдером. Поэтому каждому неизбежно придется пользоваться плодами специалистов по Data Science.

Зачем Data Science бизнесу

Особенность big data science выключается в том, что здесь можно разрабатывать алгоритм, который делает прогнозы и вычисляет тенденции без вмешательства человека. Это уменьшает ошибки человеческого фактора, трудозатраты и финансовые расходы. Допустим, вы занимаетесь продажей бананов. Казалось бы, что может быть проще. Но чтобы не прогореть в этом бизнесе, требуется:

  • предложить лучшую цену;
  • обеспечить бесперебойные поставки;
  • защититься от излишних складских запасов;
  • создать логистические схемы;
  • учесть текущие и капитальные затраты;
  • посчитать рентабельность.

Можно ли все это вычислить вручную? Скорее всего можно, если создать отделы логистического и финансового анализа, анализа спроса и предложения на рынке поставщиков овощей и фруктов, анализа рынка труда.

В качестве альтернативы выступает big data science, где практически в режиме реального времени руководство бизнеса получает точные отчеты и прогнозы. То есть команда дата сайентистов радикально снижает риски для бизнеса. Резко уменьшается вероятность ошибки и поднимается точность прогнозов.

Чем занимается специалист по Data Science?
Прогресс невозможно остановить, никто не хочет назад в каменный век

И это мы рассказали о простейшем на первый взгляд бизнесе. А если идет речь об автомобильном заводе, производстве непрерывного цикла, или финансовых организациях? Там без полноценного анализа на основе больших данных компания гарантированно проиграет конкуренцию своим более продвинутым коллегам.

Отдельные направления в Big Data

Рассказ про профессию дата саентист будет неполным без акцента на облачные вычисления и Data Mining. Это два краеугольных камня, благодаря которым работа с большими данными стала настолько популярной.

Что такое Data Mining

Термин Data Mining невозможно перевести на русский напрямую, прямой перевод «сбор данных» никак не отражает его сути.

А одна кроется в поиске скрытой информации в больших массивах.

Задача этого направления — извлечь неявные тенденции и закономерности там, где их якобы не может. Традиционные шаблоны и алгоритмы здесь работают не очень хорошо, поскольку они стремятся сглаживать экстремумы и отсеивают показатели, выходящие за рамки нормы.

Чем занимается специалист по Data Science?
Data Mining интересное направление в науке и бизнесе

Однако если произвести синтез, разбить массив на несколько групп, и уже по ним проводить анализ, результат может оказаться весьма интересным.

Впрочем, алгоритм поиска не сильно отличается от стандартного, применяемого в традиционном дата сайнс. Главная особенность заключается в поиске и обнаружение аномалий, которые очень сильно выбиваются из общей картины. Для этого требуется изменить некоторые правила, ввести новые ассоциации и классификации.

Облачные вычисления в Data Science

При обработке больших массивов данных всегда остро стоит вопрос машинных ресурсов. Даже большие компании не имеют возможности каждому своему сотруднику предоставить оборудование достаточной производительности. Только благодаря выходу в облако стали доступными высокопроизводительные вычисления. Доступ к облачным инфраструктурам легко получить из любой точки мира, где есть интернет. Это дает возможность командам экспертов совместно работать над одним и тем же проектом, а технологии с открытым исходным кодом позволяют упростить работу по настройке и поддержанию глобальных систем.

Чем занимается специалист по Data Science?

Более того, отдельные поставщики облачных услуг также предлагают готовые наборы инструментов, которые позволяют специалистам по обработке данных создавать модели без программирования, что еще больше упрощает доступ к аналитическим данным.

Профессия Data Scientist

Чтобы оценить востребованность этой профессии, совершим экскурсию на сайт headhunter.ru. Здесь в списке работодателей встречаются медицинские компании, маркетинговые агентства, разработчики мобильных и доступных приложений, автомобильные холдинги. Есть вакансии от Газпромнефть и федеральной розничной сети Лента, онлайн магазина Ozon. Очень много предложений от финансовых организаций. Причем как от гигантов типа Сбербанк, так и от небольших брокеров.

Чем занимается специалист по Data Science?
Даже сейчас сама компания НН ищет специалиста по Data Scientist

Такую работу предлагают Северсталь, соцсеть ВКонтакте и Одноклассники, медийные корпорации. Из этого можно сделать вывод, что инженер по Data Scientist не останется безработным, и его уровень мотивации компенсирует потраченные на обучение время и силы.

Какие навыки нужны специалисту по Data Science

Чтобы стать специалистом в обработке данных, требуется умение проводить сбор и анализ информации. Как следствие, ключевыми навыками можно считать знание статистических методов, математики и информатики. Они непосредственно применяются в области бизнеса, технологии и социальных наук. Чтобы добиться успеха в этой профессии, необходимо изучить:

  • Методы машинного обучения.
  • Визуализацию данных и отчетность.
  • Риск-менеджмент.
  • Статистический анализ и математику.
  • Навыки программной инженерии.
  • Интеллектуальный анализ данных, очистку и изменение.
  • Платформы Big Data.
  • Облачные инструменты.
  • Хранилища данных и структуры.

Кажется, что изучить это все практически невозможно. Но не будем торопиться с выводами. Как и везде в IT-отрасли, в Data Science есть очень сильное разделение на узкую специализацию. Так, Сбербанк требует от своего будущего сотрудника всего лишь 1 года практической работы, но при этом он должен уметь задавать простые запросы на SQL, на среднем уровне знать язык программирования Python и его стандартные библиотеки pandas, numpy, h5py. Требуется знакомство с форматами данных CSV и bash.

Чем занимается специалист по Data Science?
Непосредственно сейчас на hh.ru есть 773 вакансии в Data Science

Также необходимо владеть математическими методами конструирования признаков Feature engineering, работать с регрессией, классификации, кластеризацией, знать API по их применению. Также некоторые работодатели требуют хотя бы базовых знаний Linux, Git, DVC. Список не столь велик, как стоило бы ожидать.

Чем занимается специалист по Data Science?
Набор скиллов кажется огромным, но не каждый из ник потребуется знать на глубоком уровне

По остальным вакансиям заявляется, что специалисты по обработке данных должны на высоком уровне владеть такими платформами обработки, как Apache Spark и Apache Hadoop. Им также требуется обладать навыками работы с широким спектром инструментов визуализации данных, включая простые графические инструменты, включенные в приложения для бизнес-презентаций и электронных таблиц. Потребуются специализированные коммерческие инструменты визуализации, такие как Tableau и Microsoft PowerBI, и инструменты с открытым исходным кодом, такие как D3.js (библиотека JavaScript для создания интерактивных визуализаций данных) и RAW Graphs.

Чем занимается специалист по Data Science?
RUBY и Python входят в набор необходимых знаний

Чтобы создавать модели, специалисты по Big Data должны писать машинный код. Есть два языка программирования, которые чаще всего применяются в этой сфере. Это R (или RUBY) и Python. Их алгоритмы лучше всего подходят для решения научных задач, а благодаря обширным библиотекам это работа делается намного быстрее и эффективнее.

Чем занимается специалист по Data Science и как начать работать в этой области?

Можно ли стать датасаентистом, не имея склонности к математике и программированию? Вряд ли это получится. Но если вы готовы погрузиться в эту сферу с головой, есть шансы добиться успеха.

Чем занимается специалист по Data Science?
«Большая тройка» в Data Science с максимальными перспективами

Это относительно новая профессия, получить в России высшее образование по этой специализации будет практически невозможно. Но работодатели с интересом рассматривают соискателей с высшим математическим, физико-математическим или экономическим образованием. Диплом программиста тоже котируется в больших и средник компаниях. Будущий Data Scientist без опыта может найти себя в новой профессии, однако некоторые рекомендуют пройти хотя бы базовый специализированный курс. Так, одна из российских обучающих компаний предлагает получить специализацию как дата-инженер, аналитик данных, или специалист по Machine Learning.

Чем занимается специалист по Data Science?
Machine Learning делает компьютер самообучаемым, что дает потрясающие перспективы

Абитуриенту не предъявляются требования по базовым знаниям, при этом на курсах обещают помощь в повышении своих математических навыков. Кроме того, здесь могут подтянуть аналитическое и алгоритмическое мышление. В программу входит:

  • освоение языка программирования Python и R;
  • система управления базами данных SQL;
  • обучение процессу отбора данных и деплою моделей;
  • разработка навыков по выдвижению и проверки гипотез на основе Big Data;
  • использование ML-Flow и Feature Engineering;
  • оценка эффективности моделей в реальных бизнес-задачах;
  • линейная алгебра, математический анализ и методы оптимизации;
  • Computer Vision;
  • Hard & Software для решения задач NLP.

Однако не стоит надеяться, что это будет легкая прогулка. Обычный курс рассчитан на 2 года, по 10 часов лекций и практических занятий каждую неделю. Стоит признать, что есть очень серьезный стимул для обучения профессию Data scientist, у этой профессии есть просто потрясающие перспективы.

Востребованность Data Sci­en­tist, вакансии, зарплата и перспектива

По оценке портала, HeadHunter, эта профессия заняла первое место в рейтинги самых востребованных за 2020 год. Даже Junior может рассчитывать на заработную плату от 100000 рублей, специалист с трехлетним опытом по анализу больших данных легко может требовать от работодателя вдвое большую сумму. При таких зарплатах стоимость обучения на курсах в размере 5-7 тысяч рублей в месяц кажется неплохой инвестицией в свое будущее.

Чем занимается специалист по Data Science?
Крупнейшие работодатели в мире прямо сейчас находятся в поиске новых сотрудников

Еще одна ценность профессии датасаентиста заключается в востребованности таких специалистов по всему миру. Исследование IBM показало ежегодный рост прирост на 20-30 процентов. В списке лучших вакансии по Америке профессия заняла третье место, в 2020 году среднее вознаграждение специалиста по данным в США составляет 105675 долларов. Конечно, переход на глобальный уровень требует знания английского языка, причем на неплохом уровне.

Ряд зарубежных университетов открыли у себя специализированные курсы по data and scientist, куда может поступить каждый желающий при наличии соответствующей квалификации. Например, год обучения в Школе информатике калифорнийского университета в Беркли на магистерских курсах обойдется абитуриенту в сумму от 35000 долларов. Однако выпускник получает диплом одного из самых престижных вузов мира, который позволяет рассчитывать на прекрасный доход в будущем. Но лучше начинать прямо сейчас. Это крайне интересный и перспективный, но очень небыстрый путь.

Андрей Сёмин Преподаватель информатики в прошлом, Middle developer в настоящем. В свободное время публикую здесь свои статьи

Оцените статью
Айтистанция
Добавить комментарий

Adblock
detector