Задача 4. Даты в Pandas - кошмар аналитика, но есть простой способ запомнить

Работа с датами в Pandas действительно может выглядеть устрашающе. Но это - тест на синьора, а должны умеют работать с датой/временем. К счастью, это не так сложно, если запомнить пару методов: они решают многие распространенные задачи. Как всегда, код и CSV-файл с данными приложен. Наберите мой код в редакторе и прочувствуйте работу с датами.

Проблематика

Работа с датами - сложная тема в Pandas. Он сложна своей неизвестностью и устрашающим видом некоторых дат/времен с часовыми поясами. В действительности, нужно знать несколько методов, которые покрывают большинство задач:

to_datetime - метод, позволяющий превратить строку в дату/время;

resample , который автоматически преобразует даты из одной гранулярности в другую. Например, данных по часам делает дневные данные;

✅ dt - атрибут колонки с типом данных datetime, который позволяет вернуть отдельные компоненты даты, например, дату отдельно от времени.

Постановка задачи

Дан датасет visits.csv , колонки следующие:

✅ timestamp - время, когда произошло событие на странице;

✅ user_id - id пользователя;

✅ page - название страницы.

Нужно сделать: вычислить число уникальных пользователей для каждого дня для каждой страницы. В идеале, для каждой страницы построить график зависимости числа пользователей от времени.

Требуется уровень Капитан Повысить