Skip to content

根据2016年7月论文,综合了词林扩展版与知网Hownet的相似度计算方法,达到了更大的词汇覆盖、更优的效果。

License

Notifications You must be signed in to change notification settings

lxiangge1126/Final_word_Similarity

 
 

Repository files navigation

词语相似度高级版

参考以下论文的思想,综合了词林扩展版与知网Hownet的相似度计算方法,达到了更优的效果。

《基于知网与词林的词语语义相似度计算》朱新华,马润聪,孙 柳,陈宏朝,2016年7月《中文信息学报》

本人工作主要参考了论文的融合策略,整合了致谢里面的两种算法,实现了混合计算,扩大了词汇覆盖面,一定程度上改进了计算结果的合理性。不过该论文中改进知网方法因水平所限本人未能实现。本方法皮尔逊系数为0.8543。与该论文的结果还有些差距。

部分代码和数据来自GitHub项目,在此致谢:

本系统使用的两个同义词/概念库:

  • 词林词汇量 77456 知网词汇量 53251
  • 两者总词汇量 85721
  • 重叠词汇量 44986

About

根据2016年7月论文,综合了词林扩展版与知网Hownet的相似度计算方法,达到了更大的词汇覆盖、更优的效果。

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%