Специалист по Data Science в 2024 году – чем занимается, сколько зарабатывает, как стать

Бизнес

В статье рассказываем о специальности Data Science: что это такое, применение в бизнесе, сколько можно заработать, где обучаться.

Data Science в прямом переводе это звучит как «Наука о данных».

Кто-то берет большие цифры, что-то с ними делает, получает какой-то результат. Стало понятнее? Увы, нет. Поэтому придется глубже разобраться в этом вопросе.

Что же такое Data Science

Впервые термин Data Science появился в 1974 году, в книге Петера Наура.

В ней давалось определение: «Это дисциплина, которая изучает жизненный цикл цифровых данных, от момента их сбора до употребления в других областях знаний».

Однако истинная популярность пришла к этому термину приблизительно с 2010 года, вместе с широким распространением такого понятия как Big Data. Считается, что именно тогда вычислительные мощности позволили ученым оперировать действительно большим набором данных.

До этого периода на компьютерах тоже производились вычисления, но их мощности было откровенно недостаточной для действительно повсеместного использования.

Чтобы было понятно — производительность среднего в ценовом диапазоне мобильного телефона 2023 года на порядок выше, чем производительность среднего компьютера в домах пользователей в 2010 году.

Специалист по Data Science в 2024 году – чем занимается, сколько зарабатывает, как стать
90% смартфонов 2021 года обгонят по производительности этого старичка

Так все же, что из себя представляет Data Science в 2024 году?

Если говорить официальными терминами, то это междисциплинарный подход, позволяющее извлечь актуальную информацию из больших, при этом постоянно увеличивающихся объемов данных, полученными организациями.

Циклы проведения научных исследований

Согласно исследованию компании IBM, дата сайнс имеет от 5 до 16 циклов обработки сведений. Первый, и, наверное, самое важное из них — это получение данных. На этом этапе они не структурированы, могут приходить из разных источников, различаться по типам данных. Поэтому требуется привести их к единому стандарту, который сможет обработать машина. Затем следуют:

  1. Подготовка данных
  2. Предварительная обработка
  3. Анализ
  4. Результат.

Подготовка заключается в преобразовании массива информации в один общий универсальный формат. Здесь происходит извлечение сведений из массива, их очистка и переформатирование, унификация. Затем наступает этап предварительной обработки, на котором выявляются закономерности, диапазоны и распределения данных, проверка на пригодность использования.

Специалист по Data Science в 2024 году – чем занимается, сколько зарабатывает, как стать
Графики, функции, формулы – вот с чем придется работать

Наглядно это выглядит примерно следующим образом — чтобы измерить температуру человека, необходим специальный термометр. Если взять научный прибор с точностью до 0,0001 градуса, невозможно получить объективный результат. Аналогично, обычный уличный термометр тоже не подойдет для этой цели.

После приведения цифр и общей структуре и изучения закономерностей наступает время провести анализ. Для этого используется прогнозная аналитика, статистика, регрессия, алгоритмы машинного обучения и другие технологии. Одни и те же цифры могут дать различные результаты в зависимости от способа анализа.

Специалист по Data Science в 2024 году – чем занимается, сколько зарабатывает, как стать
В Биг Дата тоже есть своя специализация

Заключительный этап — получение отчета. Команда проекта должна предоставить его в наглядном виде, чтобы далекие от математики и программирования человек смог применить полученные сведения в своей сфере деятельности. В некоторых случаях требуется вывод через API, для последующего использования в базах более высокого уровня.

Искусственный интеллект и Data Science, возможные риски

Еще в 2014 году Илон Маск написал в Twitter, что искусственный интеллект может стать страшнее, чем ядерное оружие. Именно в нем американский предприниматель видит основную угрозу для будущего человечества.

Тогда многие посмеялись над ним, подумав о восстании роботов из комиксов. Но стоит ли не доверять человеку, чья компания выпускает автомобили на автопилоте? При чем здесь Биг Дейт?

А каким образом можно спланировать и спрогнозировать поведение машины на оживленной трассе? Единственный вариант — большие данные.

Сначала собирается статистика из абсолютно разных источников, затем она приводится к единому формату. Полученный результат тестируется, проверяется на наличие ошибок. Судя по уровню безопасности автомобилей Тесла, эта работа проведена на высочайшем уровне. Однако постоянно происходят какие-то небольшие сбои. И пока ИИ находится под плотным контролем разработчиков, можно говорить об умеренном уровни риска.

Специалист по Data Science в 2024 году – чем занимается, сколько зарабатывает, как стать
Главное, чтобы страшная фантастика не стала реальностью

Но рано или поздно выяснится, что именно компьютерная программа лучше всего подходит на роль контролера другой машины. И человечество доверит ей эту роль. Илон Маск лучше всех понимает, что любая программа рано или поздно дает сбой. И чем больше у нее полномочий, чем она сложнее, тем выше риски.

Проблема заключается в том, что сейчас один человек уже не в силах разработать крупное ПО. Оно по своей сути является сборкой из «черных ящиков» — частей кода, написанных другими программистами для конкретной задачи. То есть сейчас Data Science превратился в своеобразный конструктор, каждая из деталей которого тоже является результатом сборки из другого конструктора.

Операционная система Windows 10 содержит порядка 50 миллионов строчек кода. Если предположить, что на каждую из них тратится по 10 секунд времени программиста, то только прочтение займет 5787 дней, или порядка 15 лет.

Активно применяемый в обработки Big Data пакет MySql содержит 12 миллионов строчек, на его чтение потребуется 45 месяцев.

Специалист по Data Science в 2024 году – чем занимается, сколько зарабатывает, как стать
Пакет MySql востребован датасаентистами

Почему у Data Science нет альтернативы, и где он применяется

Несмотря на все риски, будущее человечества невозможно представить без искусственного интеллекта, Data Science и специалистов в этой области. Ключевым показателем является эффективность. Сейчас найдется мало желающих использовать проводную связь или отсылать почтового голубя, чтобы отправить сообщение. Big Data и Data Science активно применяются в повседневной жизни каждого человека, даже если он этого не замечает. Основные области применение на текущий момент из самых популярных и известных:

  • маркетинг и реклама;
  • решение банков по выдаче кредитов;
  • оптимизация поисковой выдачи Яндекс и Google;
  • автопилоты и автомобильная навигация;
  • камеры наблюдения и выявление правонарушений;
  • переводчики текстов;
  • графические редакторы.

Однако Data Science применяется не только в глобальных проектах. наука о больших данных оптимизирует логистику, управление продажами, складскими запасами, ведет контроль за работой персонала, сейчас она применяется практически во всех крупных компаниях. Этим объясняется повышенный спрос на специалистов, хороший дата саентист зарабатывает очень достойные деньги.

Специалист по Data Science в 2024 году – чем занимается, сколько зарабатывает, как стать
Диаграмма расчетов по финансовой организации

Конечно, вы имеете право обрабатывать фотографии в Paint, и может быть даже получите относительно неплохой результат. Но если ваш коллега-фотограф использует для этой цели пакет Adobe Photoshop, он гарантированно окажется в более выигрышной ситуации. Себестоимость и затраты времени сделают вас аутсайдером. Поэтому каждому неизбежно придется пользоваться плодами специалистов по Data Science.

Зачем Data Science бизнесу

Особенность big data science выключается в том, что здесь можно разрабатывать алгоритм, который делает прогнозы и вычисляет тенденции без вмешательства человека. Это уменьшает ошибки человеческого фактора, трудозатраты и финансовые расходы. Допустим, вы занимаетесь продажей бананов. Казалось бы, что может быть проще. Но чтобы не прогореть в этом бизнесе, требуется многое.

Что требует бизнес от Data Science:

что требуется предложить лучшую цену;
что требуется обеспечить бесперебойные поставки;
что требуется защититься от излишних складских запасов;
что требуется создать логистические схемы;
что требуется учесть текущие и капитальные затраты;
что требуется посчитать рентабельность.

Можно ли все это вычислить вручную? Скорее всего можно, если создать отделы логистического и финансового анализа, анализа спроса и предложения на рынке поставщиков овощей и фруктов, анализа рынка труда.

В качестве альтернативы выступает big data science, где практически в режиме реального времени руководство бизнеса получает точные отчеты и прогнозы. То есть команда дата сайентистов радикально снижает риски для бизнеса. Резко уменьшается вероятность ошибки и поднимается точность прогнозов.

Специалист по Data Science в 2024 году – чем занимается, сколько зарабатывает, как стать
Прогресс невозможно остановить, никто не хочет назад в каменный век

И это мы рассказали о простейшем на первый взгляд бизнесе. А если идет речь об автомобильном заводе, производстве непрерывного цикла, или финансовых организациях? Там без полноценного анализа на основе больших данных компания гарантированно проиграет конкуренцию своим более продвинутым коллегам.

Отдельные направления в Big Data

Рассказ про профессию дата саентист будет неполным без акцента на облачные вычисления и Data Mining. Это два краеугольных камня, благодаря которым работа с большими данными стала настолько популярной.

Что такое Data Mining

Термин Data Mining невозможно перевести на русский напрямую, прямой перевод «сбор данных» никак не отражает его сути.

А одна кроется в поиске скрытой информации в больших массивах.

Задача этого направления — извлечь неявные тенденции и закономерности там, где их якобы не может. Традиционные шаблоны и алгоритмы здесь работают не очень хорошо, поскольку они стремятся сглаживать экстремумы и отсеивают показатели, выходящие за рамки нормы.

Специалист по Data Science в 2024 году – чем занимается, сколько зарабатывает, как стать
Data Mining интересное направление в науке и бизнесе

Однако если произвести синтез, разбить массив на несколько групп, и уже по ним проводить анализ, результат может оказаться весьма интересным.

Впрочем, алгоритм поиска не сильно отличается от стандартного, применяемого в традиционном дата сайнс. Главная особенность заключается в поиске и обнаружение аномалий, которые очень сильно выбиваются из общей картины. Для этого требуется изменить некоторые правила, ввести новые ассоциации и классификации.

Облачные вычисления в Data Science

При обработке больших массивов данных всегда остро стоит вопрос машинных ресурсов. Даже большие компании не имеют возможности каждому своему сотруднику предоставить оборудование достаточной производительности.

Только благодаря выходу в облако стали доступными высокопроизводительные вычисления. Доступ к облачным инфраструктурам легко получить из любой точки мира, где есть интернет. Это дает возможность командам экспертов совместно работать над одним и тем же проектом, а технологии с открытым исходным кодом позволяют упростить работу по настройке и поддержанию глобальных систем.

Специалист по Data Science в 2024 году – чем занимается, сколько зарабатывает, как стать

Более того, отдельные поставщики облачных услуг также предлагают готовые наборы инструментов, которые позволяют специалистам по обработке данных создавать модели без программирования, что еще больше упрощает доступ к аналитическим данным.

Профессия Data Scientist

Чтобы оценить востребованность этой профессии, совершим экскурсию на сайт Хедхантере. Здесь в списке работодателей встречаются медицинские компании, маркетинговые агентства, разработчики мобильных и доступных приложений, автомобильные холдинги. Есть вакансии от Газпромнефть и федеральной розничной сети Лента, онлайн магазина Ozon. Очень много предложений от финансовых организаций. Причем как от гигантов типа Сбербанк, так и от небольших брокеров.

Специалист по Data Science в 2024 году – чем занимается, сколько зарабатывает, как стать
Даже сейчас сама компания НН ищет специалиста по Data Scientist

Такую работу предлагают Северсталь, соцсеть ВКонтакте и Одноклассники, медийные корпорации. Из этого можно сделать вывод, что инженер по Data Scientist не останется безработным, и его уровень мотивации компенсирует потраченные на обучение время и силы.

Какие навыки нужны специалисту по Data Science

Чтобы стать специалистом Data Science в обработке данных, требуется умение проводить сбор и анализ информации. Как следствие, ключевыми навыками можно считать знание статистических методов, математики и информатики. Они непосредственно применяются в области бизнеса, технологии и социальных наук. Чтобы добиться успеха в этой профессии, необходимо изучить:

  • Методы машинного обучения.
  • Визуализацию данных и отчетность.
  • Риск-менеджмент.
  • Статистический анализ и математику.
  • Навыки программной инженерии.
  • Интеллектуальный анализ данных, очистку и изменение.
  • Платформы Big Data.
  • Облачные инструменты.
  • Хранилища данных и структуры.

Кажется, что изучить это все практически невозможно. Но не будем торопиться с выводами. Как и везде в IT-отрасли, в Data Science есть очень сильное разделение на узкую специализацию.

Так, Сбербанк требует от своего будущего сотрудника всего лишь 1 года практической работы, но при этом он должен уметь задавать простые запросы на SQL, на среднем уровне знать язык программирования Python и его стандартные библиотеки pandas, numpy, h5py. Требуется знакомство с форматами данных CSV и bash.

Специалист по Data Science в 2024 году – чем занимается, сколько зарабатывает, как стать
Непосредственно сейчас на hh.ru есть 773 вакансии в Data Science

Также необходимо владеть математическими методами конструирования признаков Feature engineering, работать с регрессией, классификации, кластеризацией, знать API по их применению. Также некоторые работодатели требуют хотя бы базовых знаний Linux, Git, DVC. Список не столь велик, как стоило бы ожидать.

Специалист по Data Science в 2024 году – чем занимается, сколько зарабатывает, как стать
Набор скиллов кажется огромным, но не каждый из ник потребуется знать на глубоком уровне

По остальным вакансиям заявляется, что специалисты по обработке данных должны на высоком уровне владеть такими платформами обработки, как Apache Spark и Apache Hadoop. Им также требуется обладать навыками работы с широким спектром инструментов визуализации данных, включая простые графические инструменты, включенные в приложения для бизнес-презентаций и электронных таблиц.

Потребуются специализированные коммерческие инструменты визуализации, такие как Tableau и Microsoft PowerBI, и инструменты с открытым исходным кодом, такие как D3.js (библиотека JavaScript для создания интерактивных визуализаций данных) и RAW Graphs.

Специалист по Data Science в 2024 году – чем занимается, сколько зарабатывает, как стать
RUBY и Python входят в набор необходимых знаний

Чтобы создавать модели, специалисты по Big Data должны писать машинный код. Есть два языка программирования, которые чаще всего применяются в этой сфере. Это R (или RUBY) и Python. Их алгоритмы лучше всего подходят для решения научных задач, а благодаря обширным библиотекам это работа делается намного быстрее и эффективнее.

Чем занимается специалист по Data Science и как начать работать в этой области

Можно ли стать датасаентистом, не имея склонности к математике и программированию? Вряд ли это получится. Но если вы готовы погрузиться в эту сферу с головой, есть шансы добиться успеха.

Специалист по Data Science в 2024 году – чем занимается, сколько зарабатывает, как стать
«Большая тройка» в Data Science с максимальными перспективами

Это относительно новая профессия, получить в России высшее образование по этой специализации будет практически невозможно. Но работодатели с интересом рассматривают соискателей с высшим математическим, физико-математическим или экономическим образованием.

Диплом программиста тоже котируется в больших и средник компаниях. Будущий Data Scientist без опыта может найти себя в новой профессии, однако некоторые рекомендуют пройти хотя бы базовый специализированный курс. Так, одна из российских обучающих компаний предлагает получить специализацию как дата-инженер, аналитик данных, или специалист по Machine Learning.

Специалист по Data Science в 2024 году – чем занимается, сколько зарабатывает, как стать
Machine Learning делает компьютер самообучаемым, что дает потрясающие перспективы

Абитуриенту не предъявляются требования по базовым знаниям, при этом на курсах обещают помощь в повышении своих математических навыков. Кроме того, здесь могут подтянуть аналитическое и алгоритмическое мышление. В программу входит:

  • освоение языка программирования Python и R;
  • система управления базами данных SQL;
  • обучение процессу отбора данных и деплою моделей;
  • разработка навыков по выдвижению и проверки гипотез на основе Big Data;
  • использование ML-Flow и Feature Engineering;
  • оценка эффективности моделей в реальных бизнес-задачах;
  • линейная алгебра, математический анализ и методы оптимизации;
  • Computer Vision;
  • Hard & Software для решения задач NLP.

Однако не стоит надеяться, что это будет легкая прогулка. Обычный курс рассчитан на 2 года, по 10 часов лекций и практических занятий каждую неделю. Стоит признать, что есть очень серьезный стимул для обучения профессию Data scientist, у этой профессии есть просто потрясающие перспективы.

Читайте здесь про профессию Тимлид: чем занимается, как стать, зарплата

Востребованность специалиста Data Sci­en­ce

По оценке портала, HeadHunter, эта профессия заняла первое место в рейтинги самых востребованных за 2023 год. Даже Junior может рассчитывать на заработную плату от 100 000 рублей, специалист с трехлетним опытом по анализу больших данных легко может требовать от работодателя вдвое большую сумму. При таких зарплатах стоимость обучения на курсах в размере 5-7 тысяч рублей в месяц кажется неплохой инвестицией в свое будущее.

Специалист по Data Science в 2024 году – чем занимается, сколько зарабатывает, как стать
Крупнейшие работодатели в мире прямо сейчас находятся в поиске новых сотрудников

Еще одна ценность профессии датасаентиста заключается в востребованности таких специалистов по всему миру. Исследование IBM показало ежегодный рост прирост на 20-30 процентов.

В списке лучших вакансии по Америке профессия заняла третье место, в 2024 году среднее вознаграждение специалиста по данным в США составляет 105 675 долларов в год. Конечно, переход на глобальный уровень требует знания английского языка, причем на неплохом уровне.

В Москве зарплата специалиста Data Sciece от 200 000 рублей в месяц.

Ряд зарубежных университетов открыли у себя специализированные курсы по data and scientist, куда может поступить каждый желающий при наличии соответствующей квалификации. Например, год обучения в Школе информатике калифорнийского университета в Беркли на магистерских курсах обойдется абитуриенту в сумму от 35 000 долларов.

Однако выпускник получает диплом одного из самых престижных вузов мира, который позволяет рассчитывать на прекрасный доход в будущем. Но лучше начинать прямо сейчас. Это крайне интересный и перспективный, но очень небыстрый путь.

Айтистанция
Добавить комментарий

  1. Юлия

    Да, статья конечно впечатляющая, насколько всё таки быстро шагают технологии. Хотя всё как всегда упирается в деньги. А ещё немного пугает то, что скоро людей может заменить искусственный интеллект, а радует то что любой исход можно будет просчитать. Немного смешанные чувства после статьи, не знаю пока радоваться или растраиваться!

    Ответить
  2. Карина

    Я не знала, что в Windows код занимает 50 млн. строк. 15 лет прочтения кода… Прогресс, действительно, не возможно остановить. Затраты на обучение профессии по обработке данных Data Sci­en­ce окупаются вмиг с такой зарплатой. Интересная информация. Спасибо.

    Ответить
    1. Сергей Тимофеев автор

      Вот еще интересные IT профессии с хорошим заработком и можно сразу устроится в западные компании:
      https://itstan.ru/upravlenie-v-it/python-razrabotchik.html
      https://itstan.ru/programmirovanie/kto-takoy-qa-spetsialist-qa-engineer-i-kak-im-stat.html

      Ответить

Мы используем файлы cookie на нашем сайте

OK