Откуда появились большие данные

Данные в виде электронных таблиц были с нами где-то с 1980-х годов, как раз тогда вышла первая версия Microsoft Excel. Однако в те времена никто не выводил анализ данных в отдельную отрасль, непосредственно на данных деньги не зарабатывались. Сейчас же анализ данных, ИИ, машинное обучение - лидирующая тема в ИТ-сообществе. Разбираемся, как так получилось и что послужило причиной.

Кто создал большие данные

Большие данные появились как результат одновременного действия как минимум трех факторов.

Рост вычислительной мощности смартфона. Даже самый простой телефон в кармане в тысячи раз мощнее компьютеров, которые использовались для первого космического полета;

Мы стали проводить много времени с гаджетам. Рядовой пользователь по несколько часов в день заходит на веб-сайты, читает новости, смотрит видео и общается в мессенджерах и соцсетях;

Рост скорости интернета. Быстрый интернет усиливает нашу вовлеченность в использование онлайн-маркетплейсов, приложений по доставке еды, банковских приложений и т.п. Мы проводим там больше времени, делаем больше кликов по кнопкам, заказываем больше услуг - данные копятся в геометрической прогрессии;

Многие приложения стали веб-приложениями. Раньше мы запускали приложение на компьютере и никто кроме нас не знал, что мы там делаем, к примеру, что рисуем в Photoshop. Сейчас же, когда приложение находится в браузере, все наши действия видны разработчикам посредством сбора логов. Базы данных крупных компаний разрастаются до космических объемов, особенно когда пользователей сотни тысяч;

Государство цифровизировалось. Государство, внедряя электронные сервисы, накапливает гигантский объем информации о гражданах.

Данные - это деньги

Имея такой гигантский объем данных, глупо не пытаться заработать на этом денег. На основе этой информации можно задавать интригующие вопросы и получать ценные ответы.

✅ Например, какой функционал приложения или сервиса используется чаще всего?

✅ Как часто, при каких обстоятельствах клиент использует приложение или сервис?

✅ Какие товары и в какое время покупается?

Так можно построить цифровой портрет пользователя, знать его привычки и ценности. Получение ответов на эти вопросы позволит компании значительно улучшить свои приложения и сервисы и тем самым неплохо заработать.

Прогресс не остановить

Только глобальная катастрофа может остановить рост отрасли больших данных. Сбор и анализ данных - слишком лакомый кусок, чтобы оставиться его в покое и вернуться назад в прошлое к громоздким персональным компьютерам и телефонным модемам.

Аналитики - новые герои

Большие данные - это цифровой мусор без специалистов, способных их соединить, очистить, обработать и сделать выводы.

Аналитик больших данных (аналитик данных, аналитик продукта и т.п.) умеет обрабатывать данные с помощью Python/Pandas, умеет визуализировать данные и делать выводы.

Договоримся о терминологии

Мы будем называть профессию аналитик данных (для краткости), при этом понимая, что речь идет об анализе именно больших данных, т.е. об обработке миллионов строк с данными.