Name	Name	Last commit message	Last commit date
Latest commit History 157 Commits
2018	2018
2019	2019
2020	2020
README.md	README.md

ПЗАД: "Прикладные задачи анализа данных"

Курс на факультете ВМК, МГУ имени М.В. Ломоносова
для магистров: 517 группа (каф. математических методов прогнозирования) + спецкурс
лектор: Александр Дьяконов

регистрация на спецкурс ЗАВЕРШЕНА

Магистры ВМК МГУ могут посещать этот курс как спецкурс, для этого надо до 11.09.20 (первая лекция) зарегистрироваться.

Важно: курс читается по 2 занятия в неделю, есть лекции и семинары(!), даётся много нетривиальных заданий, прохождение курса очень трудоёмко. Читаться будет, скорее всего, по пятницам в 14:35.

Надо зарегистрироваться на классруме и войти в курс (необходимо иметь аккаунт на Google).

Дальше следите за заданиями через классрум - в день первой лекции 11.09.2020 Вам будет дана ссылка на неё, а также форма для окончательной регистрации.

оценки

тут будет список группы с оценками

слайды лекций

тема	программа
Введение 11.09.2020	Вводная лекция
Оценки среднего, вероятности и плотности; весовые схемы 11.09.2020	Понятие «среднее»: разные формализации, полюсы/минусы, практика. Среднее арифметическое. Медиана. многомерная медиана.Многомерная медиана как результат итерационного процесса. Среднее как решение оптимизационной задачи. Оценка минимального контраста. Среднее для номинальных признаков? Среднее по А.Н.Колмогорову. Тропическое среднее. Оценка вероятности как среднего: сглаживание Лапласа и весовые схемы. case: некорректности при вычислении вероятности.
CASE: Прогнозирование визитов покупателей супермаркетов и сумм их покупок 18.09.2020	Постановка задачи. Предположения метода. Оценки вероятности / весовые схемы. Оценки плотности / весовые схемы. «Состыковка» алгоритмов.
CASE: задача о пробках 18.09.2020	Постановка задачи. Двухмерное усреднение. Особенности данных. Специальное усреднение.
Искусство визуализации (часть 1 - историческая) 18.09.2020	Обоснование визуализации: квартет Энскомба. Цели визуализации. История анализа данных и инфографики: Джозеф Пристли, Уильям Плейфэр, Шарль Жозеф Минар, Флоренс Найтингейл, Уильям Дюбуа, Джон Сноу. Примеры плохих визуализаций: 3D-графика, нелинейные сравнения, диаграммы-пироги (pie). Максимизация «Data-Ink». Визуальные обманы. Визуализация для профессионала. Правило минимализма. Правило использования разнообразных средств. Рекомендации по выбору масштаба графиков и шкалы, пояснительного текста, цвета и стиля изображений. Табличные данные.
Игра "Что изображено?" слайды не выкладываются 25.09.2020
Искусство визуализации (часть 2 - одномерный анализ) 25.09.2020	Описательные статистики: среднее, характерные элементы, разброс значений, абсолютные вариации, относительные вариации, моменты, cтандартизованные моменты. Пример визуализаций описательных статистик. Исследование частей выборки (фолдов), визуализация важностей признаков, первичные действия при анализе признака. Визуализация отдельных признаков: диаграммы, гистограммы, плотности распределения, выбор числа бинов, трансформации признаков. Визуализация категориальных признаков: гистограммы, диаграммы-пироги и области, уточнение природы признака.
Искусство визуализации (часть 3 - многомерный анализ) 02.10.2020	Визуализация пары признаков: корреляция, зависимость признаков, независимость признаков, типичные значения, выбросы, кластеры. Диаграмма рассеивания. Использования шума для визуализации. Сводные таблицы, треугольные зависимости. Визуализации пары «вещественный признак» – «категориальный». Сравнение с бенчмарком. Визуализация «ответ алгоритма» – «ответ алгоритма». Визуализация «ответ алгоритма» – «признак». Деформации ответов и признаков. Residual plot. Корреляции. 3D-визуализации. Визуализация служебных признаков. Проверка соответствия «train-test». Агрегация.
Метрики качества. Часть 1. Функции ошибки в задаче регрессии 09.10.2020	Средний модуль отклонения MAE(MAD), средний квадрат отклонения MSE, его производные: RMSE, коэффициент детерминации R2, вероятностное и невероятностное обоснование RMSE, функция Хьюбера, Logcosh, обобщения MAE и RMSE, процентные функции ошибок (SMAPE, MAPE, PMAD), ошибки, основанные на сравнении с бенчмарком (MRAE, REL_MAE, PB), нормированные ошибки (MASE), несимметричные ошибки, ошибки с точностью до порога, использование функций ошибок для генерации признаков.
Метрики качества. Часть 2. Чёткая бинарная классификации 09.10.2020	Матрица ошибок / несоответствий «Сonfusion Matrix», точность (Accuracy, MCE), ошибки 1 и 2 рода, полнота (Recall, TPR, Sensitivity), специфичность (Specificity , TNR), точность (Precision),обратная точность (Inverse Precision), FPR(False Positive Rate), F1-мера, F-мера, Каппа Коэна (Cohen's Kappa), , Коэффициент Мэттьюса (MCC), Сбалансированная точность (Balanced Accuracy), сравнение функционалов на модельной задаче.
Метрики качества. Часть 3: скоринговые функции и кривые в машинном обучении 23.10.2020	Задачи с ответом в виде оценки принадлежности, скоринговые ошибки: логистическая функция ошибки Log Loss, MSE, Misclassification Loss, Exploss; Площадь под ROC-кривой, AUROC, GINI (кривая Лоренца), кривая «полнота-точность», Gain Curve (Chart), Lift Curve (Chart), Kolomogorov Smirnov chart, The Gains Table.
Метрики качества. Часть 4: многоклассовые задачи, ранжирование, кластеризация 23.10.2020	Weighted kappa, Многоклассовая задача «Multi-label»: Hamming Loss, Log Loss (cross-entropy), Mean Probability Rate, MSE, MAE, многоклассовый AUCROC, точность, полнота, F1-мера, сбалансированная точность «Balanced accuracy». Усреднения: микро-подход, макро-подход, макро-подход с весами, по объектам. Оценка результатов поиска/рекомендаций: Precision at n, Average Precision at n, Mean Average Precision, Concordant – Discordant ratio, Mean Reciprocal Rank (MRR), Cumulative Gain at n, Discounted Cumulative Gain at n, Normalized DCG, Ранговые корреляции, Expected reciprocal rank (ERR). Редакторское расстояние. Задача с «неклассическим целевым вектором»: Коэффициент Жаккара (Jaccard), коэффициент Шимкевича-Симпсона (Szymkiewicz, Simpson), коэффициент Браун-Бланке (Braun-Blanquet), коэффициент Сёренсена (Sörensen), коэффициент Кульчинского (Kulczinsky), коэффициент Отиаи (Ochiai). Оценка результатов кластеризации: внешняя оценка (External evaluation): взаимная информация (mutual information - MI), скорректированная взаимная информация (Adjusted mutual information), V-мера, Adjusted Rand index, общий подход (Rand index, Fowlkes-Mallows index - FMI). Внутренняя оценка (Internal evaluation): Davies–Bouldin index, Dunn index, Silhouette, Calinski-Harabasz Index (Variance Ratio Criterion). курсивом - пропущенное
Метрики качества: задачи и кейсы 30.10.2020	Как настраиваться на конкретные функции. Идеология РП. Критерий расщепления для AUC. CASE: Вычисление матожидания ошибки. Задачи с интервальными признаками. Обоснование деформации логарифмом. Градиентный спуск. Задачи для решения.
Подготовка данных 06.11.2020	Фундаментальные свойства данных. Виды данных. Предобработка данных. Очистка данных (Data Cleaning): аномалии/выбросы, пропуски, шум, некорректные значения. Сокращение данных (Data Reduction): сэмплирование, сокращение размерности, отбор признаков, отбор объектов. Трансформация данных (Data Transformation): переименование признаков, объектов, значений признаков, преобразование типов; кодирование значений категориальных переменных; дискретизация; нормализация; сглаживание; создание признаков; агрегирование; обобщение; деформация значений. Интеграция данных.
Генерация признаков 13.11.2020	Типы числовых признаков. Контекстные признаки. Служебные признаки. Утечка в данных. Странности в данных. Использование EDA для генерации признаков. Вещественные признаки. Строковые признаки. Временные признаки (характеристики моментов времени, взаимодействие пары признаков, использование для других признаков, использование для генерации признаков, использование для уточнения задачи). Географические (пространственные) признаки: Spatial Variables. (проекции на разные оси, кластеризация, идентификация, привязка, характеристики окрестности, анализ траекторий, деанонимизация данных, использование контекста и исследование странностей, генерация расстояний и использование для других признаков). Обработка категориальных признаков (обнаружение, создание новых, кодирование – по номеру категории Label Encoding, Dummy-кодирование / One-hot-encoding, по значениям вещественного признака, по значениям категориального признака – Count Encoding, Frequency Encoding, По значениям ДРУГОГО категориального признака, Хэш-кодирование, по значению целевого – Target Encoding, экспертное кодирование, вложение категориальных признаков в маломерное пространство – Category Embedding). Проблема мелких и новых категорий.
Ансамбли 27.11.2020	Ансамбли алгоритмов: примеры и обоснование (статистическое, вычислительное, функциональное). Повышения разнообразия в ансамбле. Комитеты (голосование) / усреднение. Бэгинг (bootstrap aggregating). OOB-prediction. Кодировки / перекодировки ответов, ECOC (Error-Correcting Output Code). Стекинг (stacking) и блендинг. Бустинг: AdaBoost (алгоритм, вывод формул), Forward stagewise additive modeling (FSAM). «Ручные методы». Однородные ансамбли.
Анализ социальных / сложных сетей 04.12.2020	Исследование социальных сетей (Social Network Analysis). Примеры соцсетей. Задачи с социальными сетями. Основные понятия теории графов. Понятие сложной сети (Complex network): 1. Степенные законы распределения степеней вершин (Power law degree distribution), правило Парето (Vilfredo Pareto, закон Ципфа (Zipf's Law) 2. Модель «малого мира»: малый диаметр и т.п. («small world»). Большая компонента связности (Giant component). 3. Высокий коэффициент кластеризации (Hight clustering coefficient). 4. Разреженность (Sparcity). 5. Сильные и слабые связи, кластерная структура. Теория связей. Гомофилия. Моделирование графов модель Пола Эрдёша и Альфреда Реньи (Erdös-Renyi). Моделирование графов: Модель Ваттса-Строгаца (Watts–Strogatz). Моделирование графов: Преимущественное присоединение Barábasi-Albert model (1999). Моделирование графов: выбор рёбер (Link Selection Model), Copying Model. Моделирование графов: c помощью кирпичиков (motif – кирпичик). Эволюция графов. Сети с негативными связями.Модель Шеллинга (Schelling’s model).

домашние задания

срок	задание
08.10.2020	Подготовить pdf-презентацию для игры "Что за данные"? Найти 2 визуализации и представить их на pdf-презентации в виде вопроса-ответа (как было на лекции). Организуйте презентацию так, чтобы её можно было листать и играть в игру постороннему человеку. Презентация заливается в classroom (к этому заданию) в формате pdf, название файла z1_ИвановИИ.pdf
08.10.2020	Сделать визуализацию данных реальной задачи. Выбрать датасет, отметить его в таблице (в классруме), лучше выбирать со вкладки Datasets сайта kaggle.com из свежих данных (< 1 года). Крайне желательно небольшое количество кёрнелов - если Ваши визуализации будут дублировать уже существующие, задание не будет засчитано. Старайтесь выполнить установку "я первый обнаружил, что ...". Любой другой датасет (старый / с другого сайта), надо согласовать с лектором в телеграме. Визуализация иммитирует полноценный EDA - поиск закономерностей и нелогичностей в данных, ыдвижение гипотез и т.п. (см. лекцию). В classroom (к этому заданию) загружаются 2 файла: z2_ИвановИИ.pdf - презентация, z2_ИвановИИ.ipynb - код (м.б. в архиве zip).
23.10.2020	MoA Prediction - первая посылка Начать решать соревнование https://www.kaggle.com/c/lish-moa/ Необходимо изучить задачу и сделать посылку решения - открытый ноутбук. Лучше сделать также EDA по задаче. Команду называйте в виде Ivanov Ivan (PZAD).
30.10.2020	MoA Prediction - подготовка к мозговому штурму Продолжаем решать соревнование https://www.kaggle.com/c/lish-moa/ Загрузить в классрум презентацию с находками по задаче.
??.??.2020	MoA Prediction - решаем задачу Подготовить окончательное решение, презентацию и код (демонстрация после окончания соревнования).

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ПЗАД: "Прикладные задачи анализа данных"

регистрация на спецкурс ЗАВЕРШЕНА

оценки

слайды лекций

домашние задания

About

Releases

Packages

Dyakonov/PZAD

Folders and files

Latest commit

History

Repository files navigation

ПЗАД: "Прикладные задачи анализа данных"

регистрация на спецкурс ЗАВЕРШЕНА

оценки

слайды лекций

домашние задания

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages