Задача 4. Даты в Pandas - кошмар аналитика, но есть простой способ запомнить
Работа с датами в Pandas действительно может выглядеть устрашающе. Но это - тест на синьора, а должны умеют работать с датой/временем. К счастью, это не так сложно, если запомнить пару методов: они решают многие распространенные задачи. Как всегда, код и CSV-файл с данными приложен. Наберите мой код в редакторе и прочувствуйте работу с датами.
Проблематика
Работа с датами - сложная тема в Pandas. Он сложна своей неизвестностью и устрашающим видом некоторых дат/времен с часовыми поясами. В действительности, нужно знать несколько методов, которые покрывают большинство задач:
✅ to_datetime - метод, позволяющий превратить строку в дату/время;
✅ resample , который автоматически преобразует даты из одной гранулярности в другую. Например, данных по часам делает дневные данные;
✅ dt - атрибут колонки с типом данных datetime, который позволяет вернуть отдельные компоненты даты, например, дату отдельно от времени.
Постановка задачи
Дан датасет visits.csv , колонки следующие:
✅ timestamp - время, когда произошло событие на странице;
✅ user_id - id пользователя;
✅ page - название страницы.
Нужно сделать: вычислить число уникальных пользователей для каждого дня для каждой страницы. В идеале, для каждой страницы построить график зависимости числа пользователей от времени.