PdfSplitter

pdf中文词频统计解决方案

初衷是为了解决一位朋友大规模 CNKI 中文文献内容词频统计的需求

作者使用此方法处理了数百篇 pdf 文件且达到了预期效果

在项目内包含了两个 pdf 文件用于示例（其中一篇内容不正常）

pdfminer.six

jieba分词

pandas

pip install pdfminer.six

for /r %i in (pdfs\*.pdf) do pdf2txt.py pdfs\%~ni.pdf -o txts\%~ni.txt

python splitter.py

Provide feedback

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
outputs		outputs
pdfs		pdfs
txts		txts
.gitignore		.gitignore
outputAll.txt		outputAll.txt
readme.md		readme.md
splitter.py		splitter.py