Разработать решение для кластеризации названий компаний по идентичности обозначаемой компании.
Language-agnostic BERT Sentence Embedding (LaBSE)
- С помощью LaBSE извлекаем вектора признаков (эмбеддинги) предложений с помощью модели LaBSE
- Извлекаем меры схожести пар векторов (пар названий компаний) - евклидово и косинусное расстояния
Обучение классификатора случайный лес RandomForest
Обучение классификатора логистическая регрессия LogisticRegression
Обучение и оптимизация гиперпараметров классификатора случайный лес
Upsamling данных, обучение RandomForest
Upsamling данных, обучение LogisticRegression
Upsampling данных, обучение и оптимизация гиперпараметров RandomForest
Обучение классификатора случайный лес RandomForest
Обучение классификатора логистическая регрессия LogisticRegression
Обучение и оптимизация гиперпараметров классификатора случайный лес