Skip to content

Тестовое задание для стажировки в KazanExpress

Notifications You must be signed in to change notification settings

Ekaterina-Sinkova/Hierarchical-Classifier

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 

Repository files navigation

Hierarchical-Classifier (NLP, SVM linear model)

Тестовое задание для стажировки в KazanExpress

Задача

В наш маркетплейс каждый день поступает множество новых товаров и каждый из них необходимо отнести в определенную категорию в нашем дереве категорий. На это тратится много сил и времени, поэтому мы хотим научиться предсказывать категорию на основе названий и параметров товаров.

Ход исследования


  1. Прочитала статью по ссылке в задании и серию блогов по иерархической классификации на towardsdatascience.com В этих статьях предлагается использовать ансамбли локальных классификаторов на каждом родительском узле. Мне этот вариант показался очень ресурсозатратным.
  2. В качестве бейзлайна, посмотрела, какой результат даст простая модель - Наивный Байес над мешком слов. hF1 = 0.83 - довольно неплохо, можно улучшить.
  3. Раньше я никогда не обучала модели на текстовых данных, поэтому читала про векторизацию текстовых признаков и про способы решения частной задачи - мультиклассовой классификации отзывов клиентов. Выбрала более сложную модель - Linear Support Vector Classifier (SVC)
  4. Для LinearSVC на стратифицированной кросс-валидации получила хороший скор hF1 = 0.95, остановилась на этом варианте без поиска оптимальных гиперпараметров, т.к. GridSearchCV занимал слишком много времени, не удалось довести его до конца.
  5. Остановилась на модели LinearSVC, предсказала результаты для тестовой выборки.

About

Тестовое задание для стажировки в KazanExpress

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published