Хард-скиллы аналитика
Все знания, необходимые для профессии, можно условно поделить на две категории: хард-скиллы и софт-скиллы. Первые - программирование, знание специализированных программ и т.п. Последнее больше про общение, умение ставить и решать задачи, преодолевать трудности. В это статье мы поймем какие языки программирования и технологии используют аналитики.
Еще раз определение
Точного определения больших данных не существует😎. Но мы попробуем его дать.
Большие данные - это данные, которые сложно обрабатывать в Excel без надстроек. Коли Excel вне игры то, очевидно, есть другие инструменты, позволяющие обрабатывать огромные массивы информации. Умение применять эти инструменты и определяет хард-скиллы аналитика:
Перечень хард-скиллов
✅ Python - современный язык программирования общего назначения. Нашел широкое применение в сфере анализа данных по причине огромного количества библиотек для их обработки и научных вычислений. Подходит для широкого круга задач, начиная с веб-разработки, заканчивая машинным обучением. 🚀 Освоить несложно, так как от аналитика не нужно знать весь Python , достаточно понимания основ .
✅ SQL - хлеб аналитика. Данные почти всегда хранятся в базах данных, их нужно уметь извлекать, соединять, обрабатывать, записывать в другие таблицы. Без знаний SQL, к сожалению, в профессии делать нечего, даже без Python можно худо-бедно работать. К счастью, изучение SQL - самый простой этап в подготовке аналитика данных.
✅ Pandas - библиотека для анализа данных, написанная на Python. Идейно близка к Excel, так как обработка данных происходит, по-сути, в привычной нам табличной форме в объекте DataFrame . Типичный пример использования Pandas: загрузили данные в DataFrame, переименовали/удалили/добавили пару колонок, вычислили еще несколько колонок, сделали сводную таблицу. Видим, что похоже на Excel, но подходит для анализа гигантских объемов данных. 🚀Чтобы освоить, нужно погрузиться, потренироваться, но, в целом, на базовом уровне ничего сложного.
✅ Matplotlib - библиотека для визуализации данных, строит графики как в Excel, только с помощью кода на Python. В базовом варианте использовать проще простого😎 (одна строка кода), однако если необходимо кастомизировать внешний вид диаграммы, придется погрузиться в документацию.
✅ Seaborn - библиотека для визуализации, созданная для упрощения matplotlib. По-идее, упрощает именно анализ данных, так как написав пару строк кода можно построить сложные диаграммы, визуализирующие взаимосвязи между данными. Знать не обязательно, но для продвинутого аналитика-звезды😎 желательно.
✅ Business Intelligence (BI) системы типа Tableau/PowerBI/Yandex Datalens и т.п. Аналитик должен уметь строить базовые графики, сильно погружаться не нужно. Отмечу, что современные BI-системы позволяют строить настролько красивые визуализации, что, возможно, вы сами захотите добавить капельку искусства в ремесло и разобраться с данными программными пакетами на более глубоком уровне.
✅ Базовая математика. Только без паники, не спешите сдувать пыль с учебника математического анализа. Кто бы что ни говорил, знаний на уровне "умножить, поделить" и формулы для математического ожидания (среднего из N-чисел) достаточно для большинства задач. Разумеется, речь идет об анализе данных и продуктовой аналитике. В случае машинного обучения и искусственного интеллекта, требования к математике намного выше.
✅ А/Б-тестирование. Если кратко, то А/Б-тестирование - это метод проведения экспериментов, чтобы понять, внедрять ли тот или иной функционал в приложение или сервис. Погружаться в тему можно бесконечно, но зачастую, от среднего аналитика нужно понимать границы применимости тех или иных методов и умение подставить значения в формулу. К счастью, в большинстве компаний этот процесс автоматизирован, аналитики нажимают на нужные кнопки, тест запускается. Другими словами, чтобы ездить на машине, не обязательно понимать устройство двигателя.