Проекты по курсу Спеицалист по Data Science
Название проекта | Спринт | Сфера деятельности | Напраление деятельности | Навыки | Задачи проекта | Описание проекта |
---|---|---|---|---|---|---|
Продажа квартир в Санкт-Петербурге – анализ рынка недвижимости | Исследовательский анализ данных | Интернет сервисы, площадки объявлений | Data Analyst, Маркетинг-аналитик | Python, Pandas, Matplotlib, Визуализация данных | Используя данные сервиса Яндекс.Недвижимость, определить рыночную стоимость объектов недвижимости и типичные параметры квартир | На основе данных сервиса Яндекс.Недвижимость определена рыночная стоимость объектов недвижимости разного типа, типичные параметры квартир, в зависимости от удаленности от центра. Проведена предобработка данных. Добавлены новые данные. Построены гистограммы, боксплоты, диаграммы рассеивания. |
Анализ сервиса аренды самокатов | Статистический анализ данных | Интернет сервисы, приложения | Data Analyst, Маркетинг-аналитик, Продуктовый аналитик | Python, Pandas, Matplotlib, SciPy, Проверка статистических гипотез | Используя данные приложения по аренде самокатов, необходимо провести анализ и проверить ряд гипотез, полезных для бизнеса | На основе данных были првоедены предобработка, исследовательский и статистический анализы, построены диаграммы распределения, а также првоерены статистические гипотезы. |
Изучение закономерностей, определяющих успешность игр | Сборный проект 1 | Интернет магазины, GameDev | Маркетинг-аналитик | Python, Pandas, Matplotlib, Визуализация данных | Используя исторические данные о продажах компьютерных игр, оценки пользователей и экспертов, жанры и платформы, выявить закономерности, определяющие успешность игры | Выявлены параметры, определяющие успешность игры в разных регионах мира. На основании этого подготовлен отчет для магазина компьютерных игр для планирования рекламных кампаний. Проведена предобработка данных, анализ. Выбран актуальный период для анализа. Составлены портреты пользователей каждого региона. Проверены гипотезы: средние пользовательские рейтинги платформ Xbox One и PC одинаковые; средние пользовательские рейтинги жанров Action и Sports разные. При анализе использовал критерий Стьюдента для независимых выборок. |
Классификация клиентов телеком компании | Введение в машинное обучение | Телеком | Машинное обучение, Классификация | Python, Pandas, Matplotlib, Scikit-learn | На основе данных предложить клиенту тариф. | Оператор мобильной связи выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям один из новых тариф. |
Прогнозирование оттока клиентов банка | Обучение с учителем | Бизнес, Инвестиции, Банковская сфера, Кредитование | Машинное обучение, Классификация | Python, Pandas, Matplotlib, Scikit-learn | На основе данных из банка определить клиент, который может уйти | Из банка стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. |
Определение наиболее выгодного региона нефтедобычи | Машинное обучение в бизнесе | Добывающие компании | Машинное обучение, Регрессия, Рабзработка бизнес-стратегии, финансовая аналитика | Python, Pandas, Matplotlib, Scikit-learn, бутстреп | На основе данных геологи разведки выбрать район добычи нефти | Вам предоставлены пробы нефти в трёх регионах. Характеристики для каждой скважины в регионе уже известны. Постройте модель для определения региона, где добыча принесёт наибольшую прибыль. |
Исследвоание технологического процесса очистки золота | Сборный проект 2 | Промышленность | Машинное обучение, Регрессия, аналитика | Python, Pandas, Matplotlib, Scikit-learn, бутстреп | Спрогнозировать концентрацию золота при проведении процесса очистки золота | Строится модель машинного обучения для промышленной компании, разрабатывающая решения для эффективной работы промышленных предприятий. Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды на основе данных с параметрами добычи и очистки. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками. |
защита данных клиентов страховой компании | Линейная алгебра | Банковская сфета, Интернет-сервисы | Машинное обучение, Регрессия | Python, Pandas, Matplotlib, Scikit-learn, бутстреп | Разработка модели анонимизации персональных данных | Необходимо защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы. Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется. |
Построение модеил определения стоимости автомобиля | Численные методы | Интернес-сервисы, интернет-магазины, бизнес | Машинное обучение, Регрессия, аналитика | Python, Pandas, Matplotlib, Scikit-learn, lightGBM | Разработка системы рекомендации стоимости автомобиля на основе его описания | Сервис по продаже автомобилей с пробегом разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. На основе исторические данные необходимо построить модель для определения стоимости автомобиля. |
Прогнозирование количества заказов такси за следующий час | Временные ряды | Интернес-сервисы, стартапы, бизнес | Машинное обучение, Регрессия | Python, Pandas, Matplotlib, Scikit-learn, statsmodels | Разработка системы предсказания объема заказа. | Компания такси собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Строится модель для такого предсказания. |
Обучение модеил классификации комментариев | Машинное обучение для текстов | Интернес-сервисы, стартапы | Машинное обучение, NLP | Python, Pandas, Scikit-learn, nltk, tf-idf | Определение токсичности комментарии. | Интернет-магазин запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Требуется инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. |
Исследование базы данных инвестиционного фонда | Базовый SQL | Интернес-сервисы | Data Analyst | SQL, PySpark, PostgreSQL, nltk | Исследование базы данных, хранящей информацию о пользователях инвестиционного фонда | К базе данных написан ряд запросов разной сложности, на основании которых сделаны выводы о пользователях инвестиционного фонда |
Обработка фотографий покупателя | Компьютерное зрение | Бизнес, оффлайн | Машинное обучение, CV | Python, Keras | Определение возраста по фотографии | Сетевой супермаркет внедряет систему компьютерного зрения для обработки фотографий покупателей. Фотофиксация в прикассовой зоне поможет определять возраст клиентов, чтобы анализировать покупки и предлагать товары, которые могут заинтересовать покупателей этой возрастной группы и контролировать добросовестность кассиров при продаже алкоголя. Строится модель, которая по фотографии определит приблизительный возраст человека. В вашем распоряжении набор фотографий людей с указанием возраста. |
Прогноз температуры стали во время плавления | Финальный спринт | Промышленность | Машинное обучение | Python, Scikit-learn, CatBoost, Регрессия | Проноз температуры стали во время плавления | Для оптимизации производственных расходов, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Вам предстоит построить модель, которая предскажет температуру стали. |