Skip to content

NikitaKononov/CompClust

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 

Repository files navigation

Company Clust

Разработать решение для кластеризации названий компаний по идентичности обозначаемой компании.

Подход 1: классификатор SKLearn

Подход 2: кластеризатор SKLearn

Подход 3: эмбеддинги текста

Language-agnostic BERT Sentence Embedding (LaBSE)

  • С помощью LaBSE извлекаем вектора признаков (эмбеддинги) предложений с помощью модели LaBSE
  • Извлекаем меры схожести пар векторов (пар названий компаний) - евклидово и косинусное расстояния
    img_1.png img.png

Эксперименты с косинусным расстоянием:

Обучение классификатора случайный лес RandomForest
img_9.png
Обучение классификатора логистическая регрессия LogisticRegression
img_10.png
Обучение и оптимизация гиперпараметров классификатора случайный лес
img_11.png
Upsamling данных, обучение RandomForest
img_4.png
img_5.png

Upsamling данных, обучение LogisticRegression
img_6.png
Upsampling данных, обучение и оптимизация гиперпараметров RandomForest
img_7.png

Эксперименты с евклидовым расстоянием:

Обучение классификатора случайный лес RandomForest
img_2.png
Обучение классификатора логистическая регрессия LogisticRegression
img_3.png
Обучение и оптимизация гиперпараметров классификатора случайный лес
img_8.png

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published