Skip to content

Commit

Permalink
Update README.md
Browse files Browse the repository at this point in the history
  • Loading branch information
Dyakonov authored Nov 16, 2020
1 parent ae07dcc commit 9eb16a4
Showing 1 changed file with 1 addition and 1 deletion.
2 changes: 1 addition & 1 deletion README.md
Original file line number Diff line number Diff line change
Expand Up @@ -36,7 +36,7 @@
| [**Метрики качества. Часть 4: многоклассовые задачи, ранжирование, кластеризация**](./2020/PZAD2020_034err_multirankcluster_03.pdf) 23.10.2020 | Weighted kappa, Многоклассовая задача «Multi-label»: Hamming Loss, Log Loss (cross-entropy), Mean Probability Rate, MSE, MAE, многоклассовый AUCROC, точность, полнота, F1-мера, сбалансированная точность «Balanced accuracy». Усреднения: микро-подход, макро-подход, макро-подход с весами, по объектам. *Оценка результатов поиска/рекомендаций: Precision at n, Average Precision at n, Mean Average Precision, Concordant – Discordant ratio, Mean Reciprocal Rank (MRR), Cumulative Gain at n, Discounted Cumulative Gain at n, Normalized DCG, Ранговые корреляции, Expected reciprocal rank (ERR). Редакторское расстояние.* Задача с «неклассическим целевым вектором»: Коэффициент Жаккара (Jaccard), коэффициент Шимкевича-Симпсона (Szymkiewicz, Simpson), коэффициент Браун-Бланке (Braun-Blanquet), коэффициент Сёренсена (Sörensen), коэффициент Кульчинского (Kulczinsky), коэффициент Отиаи (Ochiai). *Оценка результатов кластеризации: внешняя оценка (External evaluation): взаимная информация (mutual information - MI), скорректированная взаимная информация (Adjusted mutual information), V-мера, Adjusted Rand index, общий подход (Rand index, Fowlkes-Mallows index - FMI). Внутренняя оценка (Internal evaluation): Davies–Bouldin index, Dunn index, Silhouette, Calinski-Harabasz Index (Variance Ratio Criterion).* курсивом - пропущенное|
| [**Метрики качества: задачи и кейсы**](./2020/PZAD2020_035minfunc_05nold.pdf) 30.10.2020 | Как настраиваться на конкретные функции. Идеология РП. Критерий расщепления для AUC. CASE: Вычисление матожидания ошибки. Задачи с интервальными признаками. Обоснование деформации логарифмом. Градиентный спуск. Задачи для решения.|
| [**Подготовка данных**](./2020/PZAD2020_041datapreprocessing_04.pdf) 06.11.2020 | Фундаментальные свойства данных. Виды данных. Предобработка данных. Очистка данных (Data Cleaning): аномалии/выбросы, пропуски, шум, некорректные значения. Сокращение данных (Data Reduction): сэмплирование, сокращение размерности, отбор признаков, отбор объектов. Трансформация данных (Data Transformation): переименование признаков, объектов, значений признаков, преобразование типов; кодирование значений категориальных переменных; дискретизация; нормализация; сглаживание; создание признаков; агрегирование; обобщение; деформация значений. Интеграция данных.|
| [**Генерация признаков**](./2020/PZAD2020_042featureengineering_07.pdf) 03.11.2020 | Типы числовых признаков. Контекстные признаки. Служебные признаки. Утечка в данных. Странности в данных. Использование EDA для генерации признаков. Вещественные признаки. Строковые признаки. Временные признаки (характеристики моментов времени, взаимодействие пары признаков, использование для других признаков, использование для генерации признаков, использование для уточнения задачи). Географические (пространственные) признаки: Spatial Variables. (проекции на разные оси, кластеризация, идентификация, привязка, характеристики окрестности, анализ траекторий, деанонимизация данных, использование контекста и исследование странностей, генерация расстояний и использование для других признаков). Обработка категориальных признаков (обнаружение, создание новых, кодирование – по номеру категории Label Encoding, Dummy-кодирование / One-hot-encoding, по значениям вещественного признака, по значениям категориального признака – Count Encoding, Frequency Encoding, По значениям ДРУГОГО категориального признака, Хэш-кодирование, по значению целевого – Target Encoding, экспертное кодирование, вложение категориальных признаков в маломерное пространство – Category Embedding). Проблема мелких и новых категорий.|
| [**Генерация признаков**](./2020/PZAD2020_042featureengineering_07.pdf) 13.11.2020 | Типы числовых признаков. Контекстные признаки. Служебные признаки. Утечка в данных. Странности в данных. Использование EDA для генерации признаков. Вещественные признаки. Строковые признаки. Временные признаки (характеристики моментов времени, взаимодействие пары признаков, использование для других признаков, использование для генерации признаков, использование для уточнения задачи). Географические (пространственные) признаки: Spatial Variables. (проекции на разные оси, кластеризация, идентификация, привязка, характеристики окрестности, анализ траекторий, деанонимизация данных, использование контекста и исследование странностей, генерация расстояний и использование для других признаков). Обработка категориальных признаков (обнаружение, создание новых, кодирование – по номеру категории Label Encoding, Dummy-кодирование / One-hot-encoding, по значениям вещественного признака, по значениям категориального признака – Count Encoding, Frequency Encoding, По значениям ДРУГОГО категориального признака, Хэш-кодирование, по значению целевого – Target Encoding, экспертное кодирование, вложение категориальных признаков в маломерное пространство – Category Embedding). Проблема мелких и новых категорий.|



Expand Down

0 comments on commit 9eb16a4

Please sign in to comment.