Профессия Big Data Analyst. Все о работе с Big Data

#

Аналитик Big Data в своей работе занимается сбором, извлечением, систематизацией и анализом данных из огромного массива информации, которые различные компании могут использовать в своих целях. 

Big Data Analyst — это тот человек, который помогает команде принимать решения более объективно, основываясь на данных, фактах и результатах анализа, в противовес интуиции и опыту. Именно люди этой профессии ищут точки роста продуктов и бизнеса в целом, которые способны подкрепить конкретными данными, прошедшими систематизацию. Можно сказать, что отдел BDA — это квинтэссенция математики и статистики в сфере развития и разработки. 

О профессии

Работа аналитика подразумевает работу с данными через использование SQL, Python и других языков программирования, автоматизацию процессов. Это средства для достижения целей команды по развитию и разработке. Но аналитик занимается не только этим. Он концентрируется на изучении данных, структурировании больших и сложных систем, которые будут приносить пользу бизнесу. 

Результат работы аналитика Big Data — ответы на заданные и необходимые для развития вопросы, создание моделей и фреймворков, и, конечно, выведенные из них рекомендации, что приводит к росту показателей бизнеса.

Если вы любите математику, систематизацию, склонны к анализу и увлекаетесь IT — возможно, профессия Big Data Analyst для вас. 

В чем разница?

Ключевая разница аналитика больших данных и просто аналитика — в стыке технологий, которые они используют. Например, если речь не о больших данных, то может быть достаточным использовать SQL в реляционных БД, Excel, Python и мощность оперативной памяти вашего собственного компьютера. В случае же работы с Big Data нужно:  

  • уметь работать с MPP-системами (базы данных с массово-параллельной архитектурой), такими как Arenadata DB, Greenplum, Vertica, Teradata и т. д.; 

  • понимать основные принципы работы и уметь оптимизировать запросы и работать с большими таблицами; 

  • уметь работать с распределенными файловыми системами (HDFS и S3) и, соответственно, уметь пользоваться инструментами для работы с ними (Spark, Hive, Impala, Hbase).

Что за зверь Big Data?

Однозначного определения больших данных до сих пор нет. Чаще всего под Big Data принято понимать массивы неструктурированных данных, различных по своему содержанию и сути, поступающих из различных источников на регулярной основе. Датчики, приложения, видеокамеры, социальные сети, запросы в поисковиках и многое другое — именно отсюда в режиме реального времени поступают новые данные, которые аналитик собирает и обрабатывает в целях компании. 

Сфера применения

Аналитик должен хорошо разбираться в сфере своей работы, но на деле, найти узкого специалиста сейчас практически невозможно, поэтому BD-аналитики часто переходят из, например, медицины в военную сферу или коммерческий бизнес, разбираясь со спецификой новых задач по ходу работы.

Необходимые навыки

  1. Академическая база

Аналитик Big Data работает со статическими данными. В начале карьеры у вас может не быть практического опыта в статистике, но за время стажировки вы вспомните данный предмет из вузовской программы или с недавних курсов, и быстро разберетесь в его применении. Вряд ли руководитель будет готов объяснять вам с нуля тонкости работы со сбором и структурированием информации.

  1. Способ мышления

Сложно будет сформулировать однозначно, что имеет в виду работодатель, но если коротко — вам нужно взять процесс, бытовой, самый обычный, с которым ежедневно сталкивается человек и придумать для него пользовательские метрики. К примеру, оцифровать процесс нагревания воды в электрическом чайнике (скорость, качество, объем, информирование пользователя и т. д.). Если вы делаете это с легкостью, то и с большим объемом данных сможете справиться на практике. 

  1. Навыки программирования. 

Нет необходимости иметь за спиной опыт промышленного программирования. Но BDA специалист должен уметь быстро обрабатывать большие объемы информации, понимать и разбираться в документации, автоматизировать процессы обработки и систематизации. Вам понадобятся знания SQL разных реализаций, Python, библиотеки pandas, библиотеки визуализации, умение использовать API.

  1. Софт скилы 

Ответственность, самоорганизация, навык ведения конструктивного диалога с коллегами и начальством — то, что необходимо для успешной работы всей команды. Вряд ли вам удастся задержаться на одном месте надолго, если вы не способны быстро переключаться между задачами и держать в голове большой объем задач.

  1. Недоверие

С опытом вы научитесь валидации всех поступающих к вам данных. Сомневаться — одна из главных задач аналитика. Перепроверять, подтверждать, проводить a/b- и сплит-тестирования — ваша ежедневная рутина.

  1. Понимание потребностей бизнеса

Разбираться в технологиях и процессах важно, но конечному заказчику чаще всего глубоко наплевать на то, как вы достигнете результата. Бизнесу нужны инсайты, с помощью которых они расширят свое влияние, найдут новых клиентов, закроют максимум потребностей потребителей, выйдут на новые рынки. Поэтому вам важно научиться отвечать на вопрос: «Какие данные помогут конечному потребителю?»

С чего начать?

Стать аналитиком Big Data — сложная задача, особенно если за спиной у вас нет опыта программирования, разработки и работы со статистикой. Но нет ничего невозможного. Существует огромное количество курсов для разного уровня подготовки, подборку которых мы тоже для вас подготовили. А пока вы выбираете, куда пойти учиться, можете начать с полезных сайтов и книг для начинающих.  

  1. Open Data Science

Одно из крупнейших и активных DS-сообществ. Чуть ли не самая широкая дверь в мир анализа данных. В сообществе можно подсмотреть разные подходы к работе с данными, найти ответы на вопрос любой сложности. По сути своей это очень хороший форум технической стороны профессии.

  1. Reveal The Data

Сайт Ромы Бунина, отвечающего за визуализацию и BI в Яндекс Go. Рома публикует правильные и красивые результаты своей и не только работы, а молодому специалисту нужна подборка «как надо». Вот у Романа как раз «Как надо!». Насмотренность пойдет вам на пользу, а может и вдохновит на собственные достижения. 

На сайте можно найти, например, дашборд «Как называют утят из „Утиных историй“ в разных странах».

  1. Tableau’s viz of the Day

Сайт Public Tableau, бесплатной платформы для публичного обмена визуализаций данных. Эстетическое наслаждение от необычных и красивых визуализаций на каждый день. 

  1. «Статистика и котики», Владимир Савельев 

Почти идеальный формат для новичков и даже джунов. Впрочем, проджект-менеджеру или разработчику тоже пригодится, если хочется понять, чем занимается коллега — аналитик данных.

  1. «Голая статистика», Чарльз Уилан + «Фрикономика», Стивен Левитт, Стивен Дабнер

Эти две книги объединяет мысль, что к данным нужно подходить с предельной осторожностью. Авторы не согласны с утверждением, что статистика — самая большая ложь. Она не лжет, просто с ней неправильно работают, ведь кроме математики, в статистике должны быть въедливость, творчество, отличное знание контекста — тогда и выводы будут правдивы.  

  1. DAMA-DMBOK: Data Management Body of Knowledge (2-е издание) 

Настольная книга дата-аналитиков, объясняющая процессы: как собираются данные, где хранятся, кто должен за них отвечать и т. д. Можно сказать, что DAMA-DMBOK задает каркас нашей профессии и ее уместно сравнивать с конституцией. 

 

Осваивайте новые профессии и развивайтесь вместе с #курсмаркет

Курсы по теме
Курсов по теме не найдено