-
Notifications
You must be signed in to change notification settings - Fork 9
Codelegant92/SentimentAnalysis-chinese
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
基于中文词典的中文情感分析,主要针对电商网站的商品评论: 1.词典来源:ntusd情感词典+HowNet情感词典 http://www.datatang.com/data/44317 http://www.keenage.com/html/e_index.html positive.txt 正面情感词典。 negative.txt 负面情感词典。 deny_adv.txt 否定副词词典。 level_adv.txt 程度副词词典(一共有6类程度副词:“极其”,“很”,“较”,“稍稍”,“不足,稍欠”,“超”)。 2.词典构造 BuildDict.py 有两个class, sentiDictionary类用于构造情感词典,featureDictionary类用于构造特征维度词典。 设置了10个特征维度:quality(质量),color(颜色),material(材质),style(风格),function(功能) package(包装),price(价格),service(服务),logistic(物流),description(图片与实物) 不涉及以上10类的在最后都归到others。 对维度的修改可以直接在该部分修改。 SentiAnalysis.py 输入一段文本,计算该文本分别对应11个维度的词(在句中的位置以及词本身)和情感值。 可以在该部分设置正面和负面情感的分值,否定词的分值,以及各类程度副词的权值。 MAIN.py 主函数,参数为ReviewID,即表Review中的ID。 包含三部分功能:(1)从Reviews表中读取ReviewID对应的ReviewContent。如果Reviews表中不存在该ID或者SentiValues 表中已经有该ReviewID,则不用再继续操作。 (2)计算从Reviews表中读取的ReviewContent的情感值。 (3)将ReviewID, ReviewContent, 11大维度对应的内容和情感值, 以及ReviewScore写入数据库。 需要修改服务器 self.ms = MSSQL(host="localhost", user="sa", pwd="****", db="****") 计算综合情感值的时候,默认11类特征的权重均为1,但可以手动设置。
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published