-
Notifications
You must be signed in to change notification settings - Fork 1
AlexandrShcherbakov/ContextExtractor
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
ContextExtractor.py - скрипт для извлечения самых частотных слов в категории, для использования их в качестве контекста. Параметры запуска скрипта: -i - путь к файлу, с данными в виде: "URL\tCategory\tTitle\n". Файл берется из adminer`а, в качестве разметки -s - путь к файлу со стоп-словами. Каждое слово на новой строчке. -ul - минимальное количество URL`ов, при котором домен будет обработан. -wl - минимальное число вхождений слова в заголовки для одного домена, при котором оно будет выведено в результат. -ml - минимальная длина слова, при которой оно войдет в результат run.bat - пример использования скрипта
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published