Проект e-commerce
Продакт-менеджер Василий попросил вас проанализировать совершенные покупки и ответить на следующие вопросы:
- Сколько у нас пользователей, которые совершили покупку только один раз? (7 баллов)
- Сколько заказов в месяц в среднем не доставляется по разным причинам (вывести детализацию по причинам)? (10 баллов)
- По каждому товару определить, в какой день недели товар чаще всего покупается. (7 баллов)
- Сколько у каждого из пользователей в среднем покупок в неделю (по месяцам)? Не стоит забывать, что внутри месяца может быть не целое количество недель. Например, в ноябре 2021 года 4,28 недели. И внутри метрики это нужно учесть. (8 баллов) 5.1. Выполните когортный анализ пользователей. 5.2. В период с января по декабрь выявите когорту с самым высоким retention на 3-й месяц. Описание подхода можно найти тут. Для визуализации когортной таблицы рекомендуем использовать пример из 8-го урока python, раздел “Стильный урок”, степ 5. (15 баллов)
Для решения задачи проведи предварительное исследование данных и сформулируй, что должно считаться покупкой. Обосновать свой выбор ты можешь с помощью фактов оплат, статусов заказов и других имеющихся данных. Файлы: olist_customers_datase.csv — таблица с уникальными идентификаторами пользователей
customer_id — позаказный идентификатор пользователя customer_unique_id — уникальный идентификатор пользователя (аналог номера паспорта) customer_zip_code_prefix — почтовый индекс пользователя customer_city — город доставки пользователя customer_state — штат доставки пользователя
olist_orders_dataset.csv — таблица заказов
order_id — уникальный идентификатор заказа (номер чека) customer_id — позаказный идентификатор пользователя order_status — статус заказа order_purchase_timestamp — время создания заказа order_approved_at — время подтверждения оплаты заказа order_delivered_carrier_date — время передачи заказа в логистическую службу order_delivered_customer_date — время доставки заказа order_estimated_delivery_date — обещанная дата доставки
olist_order_items_dataset.csv — товарные позиции, входящие в заказы
order_id — уникальный идентификатор заказа (номер чека) order_item_id — идентификатор товара внутри одного заказа product_id — ид товара (аналог штрихкода) seller_id — ид производителя товара shipping_limit_date — максимальная дата доставки продавцом для передачи заказа партнеру по логистике price — цена за единицу товара freight_value — вес товара
— Пример структуры данных можно визуализировать по order_id == 00143d0f86d6fbd9f9b38ab440ac16f5
Уникальные статусы заказов в таблице olist_orders_dataset: created — создан approved — подтверждён invoiced — выставлен счёт processing — в процессе сборки заказа shipped — отгружен со склада delivered — доставлен пользователю unavailable — недоступен canceled — отменён
Ревью эксперта на выполненный проект:
Привет, Андрей, меня зовут Никита, я буду ревьюить твой проект. Ты проделал большую работу.
Давай сразу к делу !) АПИ Загрузку датасетов лучше делать через АПи и с использованием функции Хорошая предобработка данных Хорошая детализация решения. 1 - 3 Отлично выполнено , единственное , нехватает конкретики вывода , тоесть число которе ты получил видно, но было бы круто , если ты фиксировал ответ . 4 - гуд 5- гуд а 6 нет (( Жаль за него 23 балла , 1 балл возьму , за то что нет фиксированных ответов . Как итог 75- 24 = 51 Хороший результат , да и все что ты сделал сделал хорошо )