金庸小说人物关系图谱构建
Python 3.6+
MongoDB
Neo4j
|-
|- crawl-baike 爬取百度百科
|- crawl-novel 爬取小说
|- kgqa 知识图谱文档
|- mongo2neo mongo 数据导入 neo4j
1.爬取金庸小说数据
启动 MongoDB 进程,执行爬虫文件 xiaoshuo_spider.py ,得到小说文本存入MongoDB。
cd crawl-baike
scrapy crawl spider_xiaoshuo
2.爬取小说人物关系
- 执行转换脚本 convert.py,将 MongoDB 中的小说数据转成文本存到本地。
cd crawl-novel
python convert.py
- 执行 extract_persons.py ,对小说文本进行词法分析,提取出人名
python extract_persons.py
- 执行爬虫,根据人名爬取百度百科相关的属下和关系,存入MongoDB。
scrapy crawl person_spider
3.MongoDB 转 Neo4j
执行转换脚本 mongo2neo.py,将 MongoDB 中数据导入 Neo4j 。
cd mongo2neo
python mongo2neo.py
cd kgqa
python app.py