文本挖掘和社会网络分析课程的讲义和相关资源
(1)netcrawler是一个网络爬虫的eclipse项目
(2)maincontents是抽取网页主内容示例程序
(3) keywordsExtraction.zip是文本分析一章的算法。是eclipse工程
(4) reuter R8.zip是路透社语料库. https://pan.baidu.com/s/1tKWs_4gxIjYLMIcXCD-DXg 提取码:660j
(5) 人大报告数据集https://pan.baidu.com/s/1PB3_2TdBocZQYF1Q5cFcwg 提取码:3ic3
(6) Test2019Reuter.java是在路透社语料库上进行检索的程序;Test2019rdbg.java是在42年政府工作报告上进行检索的程序
(7) 作为搜索引擎项目需要的WWW会议论文集,链接:https://pan.baidu.com/s/1cyE_qr4cGSvulDwalBvySg 提取码:9sxy
(8) 下载一个TextMiner项目 链接:https://pan.baidu.com/s/17Agoq-_ZCfuLrDmrRo1r4A 提取码:ehj9
(9) TextMine所需要的包 链接:https://pan.baidu.com/s/10-DaP1FyfKRw61h7jbGQ9g 提取码:1b0d
(10) Mallet的包 链接:https://pan.baidu.com/s/1HMuM8PeK9j8iT1qJaBk03Q 提取码:skju
(11) 使用Mallet包的LDA模型的例子
(12) community_detection.zip是基于NMF和图上随机游走的社区检测算法和示例程序