Небольшая утилита для упрощения работы с большим количеством строк и ссылок.
Пример использования:
-
Режим 1: Разбить файл на несколько файлов по количеству строк.
python dsu.py 1 input.txt 1000
1
— выбранный режим работы.input.txt
— ваш входной файл.1000
— максимальное количество строк в каждом выходном файле.
-
Режим 2: Извлечь домены из ссылок.
python dsu.py 2 input.txt
2
— выбранный режим работы.input.txt
— ваш входной файл.
В результате выполнения скрипта будет создан файл
input_domains.txt
, содержащий список доменов из ссылок. -
Режим 3: Сравнение двух файлов с дополнительными опциями
python dsu.py 3 файл_домены файл_ссылки выходной_файл [-in] [-csv]
файл_домены
: Путь к файлу с доменами. Может содержать числовые показатели, разделенные табуляцией.файл_ссылки
: Путь к файлу со ссылками.выходной_файл
: Имя выходного файла.-in
(опционально): Если указано, числовые показатели из файла с доменами будут включены в выходной файл.-csv
(опционально): Если указано, выходной файл будет сохранен в формате CSV, который можно открыть в Excel.
Примеры использования:
-
Сравнить файлы без числовых показателей и сохранить в текстовый файл:
python dsu.py 3 domains.txt links.txt output.txt
-
Сравнить файлы, включая числовые показатели, и сохранить в текстовый файл:
python dsu.py 3 domains.txt links.txt output.txt -in
-
Сравнить файлы, включая числовые показатели, и сохранить результат в CSV для открытия в Excel:
python dsu.py 3 domains.txt links.txt output.csv -in -csv
Важно:
-
Кодировка файлов:
- Убедитесь, что все файлы имеют кодировку
utf-8
.
- Убедитесь, что все файлы имеют кодировку
-
Формат файла с доменами:
- Домены могут быть указаны с или без числовых показателей.
- Если числовые показатели присутствуют, они должны быть разделены символом табуляции
\t
.
-
Режим 4: Объединить текстовые файлы из каталога в один файл.
python dsu.py 4 путь/к/каталогу
4
— выбранный режим работы.путь/к/каталогу
— путь к каталогу, содержащему текстовые файлы для объединения.
Скрипт создаст файл
merged.txt
, содержащий содержимое всех файлов.txt
из указанного каталога.