Skip to content

AlexandrShcherbakov/ContextExtractor

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

ContextExtractor.py - скрипт для извлечения самых частотных слов в категории, для использования их в качестве контекста.
Параметры запуска скрипта:
-i - путь к файлу, с данными в виде: "URL\tCategory\tTitle\n". Файл берется из adminer`а, в качестве разметки
-s - путь к файлу со стоп-словами. Каждое слово на новой строчке.
-ul - минимальное количество URL`ов, при котором домен будет обработан.
-wl - минимальное число вхождений слова в заголовки для одного домена, при котором оно будет выведено в результат.
-ml - минимальная длина слова, при которой оно войдет в результат

run.bat - пример использования скрипта

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published