参考以下论文的思想,综合了词林扩展版与知网Hownet的相似度计算方法,达到了更优的效果。
《基于知网与词林的词语语义相似度计算》朱新华,马润聪,孙 柳,陈宏朝,2016年7月《中文信息学报》
本人工作主要参考了论文的融合策略,整合了致谢里面的两种算法,实现了混合计算,扩大了词汇覆盖面,一定程度上改进了计算结果的合理性。不过该论文中改进知网方法因水平所限本人未能实现。本方法皮尔逊系数为0.8543。与该论文的结果还有些差距。
部分代码和数据来自GitHub项目,在此致谢:
本系统使用的两个同义词/概念库:
- 词林词汇量 77456 知网词汇量 53251
- 两者总词汇量 85721
- 重叠词汇量 44986