Skip to content

liuyuzhangolvz/novel-kg

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

46 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

novel-kg

金庸小说人物关系图谱构建


环境

Python 3.6+
MongoDB
Neo4j

⚠️ 请先启动 MongoDB 和 Neo4j

目录结构

|- 
  |- crawl-baike  爬取百度百科
  |- crawl-novel  爬取小说
  |- kgqa  知识图谱文档
  |- mongo2neo  mongo 数据导入 neo4j

操作说明

1.爬取金庸小说数据

启动 MongoDB 进程,执行爬虫文件 xiaoshuo_spider.py ,得到小说文本存入MongoDB。

cd crawl-baike
scrapy crawl spider_xiaoshuo

2.爬取小说人物关系

  • 执行转换脚本 convert.py,将 MongoDB 中的小说数据转成文本存到本地。
cd crawl-novel
python convert.py
  • 执行 extract_persons.py ,对小说文本进行词法分析,提取出人名
python extract_persons.py
  • 执行爬虫,根据人名爬取百度百科相关的属下和关系,存入MongoDB。
scrapy crawl person_spider

3.MongoDB 转 Neo4j

执行转换脚本 mongo2neo.py,将 MongoDB 中数据导入 Neo4j 。

cd mongo2neo
python mongo2neo.py

效果

人物关系知识图谱

全部人物关系图 persons relations

“张无忌”的人物关系图 张无忌

图谱问答系统

cd kgqa
python app.py

系统架构 wenda index

关于张无忌的问答 wenda zhangwuji

关于周芷若的问答 wenda zhouzhiruo

About

金庸小说人物关系图谱构建

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published