Тестовое задание для стажировки в KazanExpress
В наш маркетплейс каждый день поступает множество новых товаров и каждый из них необходимо отнести в определенную категорию в нашем дереве категорий. На это тратится много сил и времени, поэтому мы хотим научиться предсказывать категорию на основе названий и параметров товаров.
- Прочитала статью по ссылке в задании и серию блогов по иерархической классификации на towardsdatascience.com В этих статьях предлагается использовать ансамбли локальных классификаторов на каждом родительском узле. Мне этот вариант показался очень ресурсозатратным.
- В качестве бейзлайна, посмотрела, какой результат даст простая модель - Наивный Байес над мешком слов. hF1 = 0.83 - довольно неплохо, можно улучшить.
- Раньше я никогда не обучала модели на текстовых данных, поэтому читала про векторизацию текстовых признаков и про способы решения частной задачи - мультиклассовой классификации отзывов клиентов. Выбрала более сложную модель - Linear Support Vector Classifier (SVC)
- Для LinearSVC на стратифицированной кросс-валидации получила хороший скор hF1 = 0.95, остановилась на этом варианте без поиска оптимальных гиперпараметров, т.к. GridSearchCV занимал слишком много времени, не удалось довести его до конца.
- Остановилась на модели LinearSVC, предсказала результаты для тестовой выборки.