汉语言处理包
HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
HanLP提供下列功能:
- 中文分词 最短路分词 N-最短路分词 CRF分词 索引分词 用户自定义词典
- 词性标注
- 命名实体识别 中国人名识别 音译人名识别 日本人名识别 地名识别 实体机构名识别
- 关键词提取 TextRank关键词提取
- 自动摘要 TextRank自动摘要
- 短语提取 基于互信息和左右信息熵的短语提取
- 拼音转换 多音字 声母 韵母 声调
- 简繁转换 繁体中文分词 简繁分歧词
- 文本推荐 语义推荐 拼音推荐 字词推荐
- 依存句法分析 MaxEnt依存句法分析 CRF依存句法分析
- 语料库工具 分词语料预处理 词频词性词典制作 BiGram统计 词共现统计 CoNLL语料预处理 CoNLL UA/LA/DA评测工具
在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的语料。
HanLP将数据与程序分离,给予用户自定义的自由。
HanLP中的数据分为词典和模型,其中词典是词法分析必需的,模型是句法分析必需的。
data
│
├─dictionary
└─model
用户可以自行增删替换,如果不需要句法分析功能的话,随时可以删除model文件夹。
数据包 | 功能 | 体积(MB) |
---|---|---|
data.full.zip | 全部 | 1000 |
data.standard.zip | 全部词典,不含模型 | 94 |
data.mini.zip | 小体积词典,不含模型 | 20 |
下载后解压到任意目录,接下来通过配置文件告诉HanLP数据包的位置。 |
示例配置文件:HanLP.properties
配置文件的作用是告诉HanLP数据包的位置,只需修改第一行
root=usr/home/HanLP/
为data的父目录即可,比如data目录是/Users/hankcs/Documents/data
,那么root=/Users/hankcs/Documents/
。注意目录的后缀有一个/
,另外Windows用户也请使用/
作为分隔符。
- 如果选用mini数据包的话,则需要修改配置文件: CoreDictionaryPath=data/dictionary/CoreNatureDictionary.mini.txt BiGramDictionaryPath=data/dictionary/CoreNatureDictionary.ngram.mini.txt
最后将HanLP.properties放入classpath即可。 Web项目的话可以放在如下位置:
Webapp/WEB-INF/lib
Webapp/WEB-INF/classes
Appserver/lib
JRE/lib
HanLP几乎所有的功能都可以通过工具类HanLP
快捷调用,当你想不起来调用方法时,只需键入HanLP.
,IDE应当会给出提示,并展示HanLP完善的文档。
推荐用户始终通过工具类HanLP
调用,这么做的好处是,将来HanLP升级后,用户无需修改调用代码。
System.out.println(HanLP.segment("你好,欢迎使用HanLP汉语处理包!"));
- 关于java.lang.OutOfMemoryError
建议使用JVM option
-Xms512m -Xmx512m -Xmn256m
,如果内存有限,请使用小词典。HanLP默认使用大词典,同时提供小词典,只需修改配置文件: CoreDictionaryPath=data/dictionary/CoreNatureDictionary.mini.txt BiGramDictionaryPath=data/dictionary/CoreNatureDictionary.ngram.mini.txt - 写给正在编译HanLP的开发者 如果你正在编译运行从Github检出的HanLP代码,并且没有下载data,那么首次加载词典/模型会发生一个自动缓存的过程。自动缓存的目的是为了加速词典载入速度,在下次载入时,缓存的词典文件会带来毫秒级的加载速度。由于词典体积很大,自动缓存会耗费一些时间,请耐心等待。
List<Term> termList = StandTokenizer.segment("商品和服务");
System.out.println(termList);
- 说明
HanLP中有一系列“开箱即用”的静态分词器,以
Tokenizer
结尾,在接下来的例子中会继续介绍。HanLP.segment
其实是对StandTokenizer.segment
的包装。 - 算法详解 《词图的生成》
List<Term> termList = NLPTokenizer.segment("中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程");
System.out.println(termList);
- 说明
NLP分词
NLPTokenizer
会执行全部命名实体识别和词性标注。
List<Term> termList = IndexTokenizer.segment("主副食品");
for (Term term : termList)
{
System.out.println(term + " [" + term.offset + ":" + (term.offset + term.word.length()) + "]");
}
- 说明
索引分词
IndexTokenizer
是面向搜索引擎的分词器,能够对长词全切分,另外通过term.offset
可以获取单词在文本中的偏移量。
Segment nShortSegment = new NShortSegment().enableCustomDictionary(false).enablePlaceRecognize(true).enableOrganizationRecognize(true);
Segment shortestSegment = new DijkstraSegment().enableCustomDictionary(false).enablePlaceRecognize(true).enableOrganizationRecognize(true);
String[] testCase = new String[]{
"今天,刘志军案的关键人物,山西女商人丁书苗在市二中院出庭受审。",
"刘喜杰石国祥会见吴亚琴先进事迹报告团成员",
};
for (String sentence : testCase)
{
System.out.println("N-最短分词:" + nShortSegment.seg(sentence) + "\n最短路分词:" + shortestSegment.seg(sentence));
}
- 说明
N最短路分词器
NShortSegment
比最短路分词器慢,但是效果稍微好一些,对命名实体识别能力更强。 - 算法详解 《N最短路径的Java实现与分词应用》
Segment segment = new CRFSegment();
segment.enablePartOfSpeechTagging(true);
List<Term> termList = segment.seg("你看过穆赫兰道吗");
System.out.println(termList);
for (Term term : termList)
{
if (term.nature == null)
{
System.out.println("识别到新词:" + term.word);
}
}
- 说明 CRF对新词有很好的识别能力,但是无法利用自定义词典。
- 算法详解 《CRF分词的纯Java实现》 《CRF++模型格式说明》
// 动态增加
CustomDictionary.add("孔雀女");
// 强行插入
CustomDictionary.insert("码农", "nz 1024");
// 删除词语(注释掉试试)
CustomDictionary.remove("码农");
System.out.println(CustomDictionary.add("裸婚", "v 2 nz 1"));
System.out.println(CustomDictionary.get("裸婚"));
String text = "码农和孔雀女裸婚了";
// trie树分词
BaseSearcher searcher = CustomDictionary.getSearcher(text);
Map.Entry entry;
while ((entry = searcher.next()) != null)
{
System.out.println(entry);
}
// 标准分词
System.out.println(HanLP.segment(text));
- 说明
CustomDictionary
是一份全局的用户自定义词典,可以随时增删,影响全部分词器。另外可以在任何分词器中关闭它。通过代码动态增删不会保存到词典文件。 - 追加词典
CustomDictionary
主词典文本路径是data/dictionary/custom/CustomDictionary.txt
,用户可以在此增加自己的词语(不推荐);也可以单独新建一个文本文件,通过配置文件CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的词典.txt;
来追加词典(推荐)。始终建议将相同词性的词语放到同一个词典文件里,便于维护和分享。 - 词典格式
每一行代表一个单词,格式遵从
[单词] [词性A] [A的频次] [词性B] [B的频次] ...
如果不填词性则表示采用词典的默认词性。词典的默认词性默认是名词n,可以通过配置文件修改:全国地名大全.txt ns;
如果词典路径后面空格紧接着词性,则该词典默认是该词性。 - 算法详解 《Trie树分词》
String[] testCase = new String[]{
"签约仪式前,秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。",
"王国强、高峰、汪洋、张朝阳光着头、韩寒、小四",
"张浩和胡健康复员回家了",
"王总和小丽结婚了",
"编剧邵钧林和稽道青说",
"这里有关天培的有关事迹",
"龚学平等领导,邓颖超生前",
};
Segment segment = HanLP.newSegment().enableNameRecognize(true);
for (String sentence : testCase)
{
List<Term> termList = segment.seg(sentence);
System.out.println(termList);
}
- 说明
目前分词器基本上都默认开启了中国人名识别,比如
HanLP.segment()
接口中使用的分词器等等,用户不必手动开启;上面的代码只是为了强调。 - 算法详解 《实战HMM-Viterbi角色标注中国人名识别》
String[] testCase = new String[]{
"一桶冰水当头倒下,微软的比尔盖茨、Facebook的扎克伯格跟桑德博格、亚马逊的贝索斯、苹果的库克全都不惜湿身入镜,这些硅谷的科技人,飞蛾扑火似地牺牲演出,其实全为了慈善。",
"世界上最长的姓名是简森·乔伊·亚历山大·比基·卡利斯勒·达夫·埃利奥特·福克斯·伊维鲁莫·马尔尼·梅尔斯·帕特森·汤普森·华莱士·普雷斯顿。",
};
Segment segment = HanLP.newSegment().enableTranslatedNameRecognize(true);
for (String sentence : testCase)
{
List<Term> termList = segment.seg(sentence);
System.out.println(termList);
}
- 说明 目前分词器基本上都默认开启了音译人名识别,用户不必手动开启;上面的代码只是为了强调。
- 算法详解 《层叠隐马模型下的音译人名和日本人名识别》
String[] testCase = new String[]{
"北川景子参演了林诣彬导演的《速度与激情3》",
"林志玲亮相网友:确定不是波多野结衣?",
};
Segment segment = HanLP.newSegment().enableJapaneseNameRecognize(true);
for (String sentence : testCase)
{
List<Term> termList = segment.seg(sentence);
System.out.println(termList);
}
- 说明 目前标准分词器默认关闭了日本人名识别,用户需要手动开启;这是因为日本人名的出现频率较低,但是又消耗性能。
- 算法详解 《层叠隐马模型下的音译人名和日本人名识别》
String[] testCase = new String[]{
"武胜县新学乡政府大楼门前锣鼓喧天",
"蓝翔给宁夏固原市彭阳县红河镇黑牛沟村捐赠了挖掘机",
};
Segment segment = HanLP.newSegment().enablePlaceRecognize(true);
for (String sentence : testCase)
{
List<Term> termList = segment.seg(sentence);
System.out.println(termList);
}
- 说明 目前标准分词器都默认关闭了地名识别,用户需要手动开启;这是因为消耗性能,其实多数地名都收录在核心词典和用户自定义词典中。这不是在写论文,在生产环境中,能靠词典解决的问题就靠词典解决,这是最高效稳定的方法。
- 算法详解 《实战HMM-Viterbi角色标注地名识别》
String[] testCase = new String[]{
"我在上海林原科技有限公司兼职工作,",
"同时在上海外国语大学日本文化经济学院学习经济与外语。",
"我经常在荣祥餐厅吃饭,",
"济南杨铭宇餐饮管理有限公司是由杨先生创办的餐饮企业。",
};
Segment segment = HanLP.newSegment().enableOrganizationRecognize(true);
for (String sentence : testCase)
{
List<Term> termList = segment.seg(sentence);
System.out.println(termList);
}
- 说明 目前分词器默认关闭了机构名识别,用户需要手动开启;这是因为消耗性能,其实常用机构名都收录在核心词典和用户自定义词典中。HanLP的目的不是写论文,在生产环境中,能靠词典解决的问题就靠词典解决,这是最高效稳定的方法。
- 算法详解 《层叠HMM-Viterbi角色标注模型下的机构名识别》
String content = "程序员(英文Programmer)是从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员,但两者的界限并不非常清楚,特别是在中国。软件从业人员分为初级程序员、高级程序员、系统分析员和项目经理四大类。";
List<String> keywordList = HanLP.extractKeyword(content, 5);
System.out.println(keywordList);
- 说明
内部采用
TextRankKeyword
实现,用户可以直接调用TextRankKeyword.getKeywordList(document, size)
- 算法详解 《TextRank算法提取关键词的Java实现》
String document = "算法可大致分为基本算法、数据结构的算法、数论算法、计算几何的算法、图的算法、动态规划以及数值分析、加密算法、排序算法、检索算法、随机化算法、并行算法、厄米变形模型、随机森林算法。\n" +
"算法可以宽泛的分为三类,\n" +
"一,有限的确定性算法,这类算法在有限的一段时间内终止。他们可能要花很长时间来执行指定的任务,但仍将在一定的时间内终止。这类算法得出的结果常取决于输入值。\n" +
"二,有限的非确定算法,这类算法在有限的时间内终止。然而,对于一个(或一些)给定的数值,算法的结果并不是唯一的或确定的。\n" +
"三,无限的算法,是那些由于没有定义终止定义条件,或定义的条件无法由输入的数据满足而不终止运行的算法。通常,无限算法的产生是由于未能确定的定义终止条件。";
List<String> sentenceList = HanLP.extractSummary(document, 3);
System.out.println(sentenceList);
- 说明
内部采用
TextRankSentence
实现,用户可以直接调用TextRankSentence.getTopSentenceList(document, size)
。 - 算法详解 《TextRank算法自动摘要的Java实现》
String text = "算法工程师\n" +
"算法(Algorithm)是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法工程师就是利用算法处理事物的人。\n" +
"\n" +
"1职位简介\n" +
"算法工程师是一个非常高端的职位;\n" +
"专业要求:计算机、电子、通信、数学等相关专业;\n" +
"学历要求:本科及其以上的学历,大多数是硕士学历及其以上;\n" +
"语言要求:英语要求是熟练,基本上能阅读国外专业书刊;\n" +
"必须掌握计算机相关知识,熟练使用仿真工具MATLAB等,必须会一门编程语言。\n" +
"\n" +
"2研究方向\n" +
"视频算法工程师、图像处理算法工程师、音频算法工程师 通信基带算法工程师\n" +
"\n" +
"3目前国内外状况\n" +
"目前国内从事算法研究的工程师不少,但是高级算法工程师却很少,是一个非常紧缺的专业工程师。算法工程师根据研究领域来分主要有音频/视频算法处理、图像技术方面的二维信息算法处理和通信物理层、雷达信号处理、生物医学信号处理等领域的一维信息算法处理。\n" +
"在计算机音视频和图形图像技术等二维信息算法处理方面目前比较先进的视频处理算法:机器视觉成为此类算法研究的核心;另外还有2D转3D算法(2D-to-3D conversion),去隔行算法(de-interlacing),运动估计运动补偿算法(Motion estimation/Motion Compensation),去噪算法(Noise Reduction),缩放算法(scaling),锐化处理算法(Sharpness),超分辨率算法(Super Resolution),手势识别(gesture recognition),人脸识别(face recognition)。\n" +
"在通信物理层等一维信息领域目前常用的算法:无线领域的RRM、RTT,传送领域的调制解调、信道均衡、信号检测、网络优化、信号分解等。\n" +
"另外数据挖掘、互联网搜索算法也成为当今的热门方向。\n" +
"算法工程师逐渐往人工智能方向发展。";
List<String> phraseList = HanLP.extractPhrase(text, 10);
System.out.println(phraseList);
- 说明
内部采用
MutualInformationEntropyPhraseExtractor
实现,用户可以直接调用MutualInformationEntropyPhraseExtractor..extractPhrase(text, size)
。 - 算法详解 《基于互信息和左右信息熵的短语提取识别》
/**
* 汉字转拼音
* @author hankcs
*/
public class DemoPinyin
{
public static void main(String[] args)
{
String text = "重载不是重任";
List<Pinyin> pinyinList = HanLP.convertToPinyinList(text);
System.out.print("原文,");
for (char c : text.toCharArray())
{
System.out.printf("%c,", c);
}
System.out.println();
System.out.print("拼音(数字音调),");
for (Pinyin pinyin : pinyinList)
{
System.out.printf("%s,", pinyin);
}
System.out.println();
System.out.print("拼音(符号音调),");
for (Pinyin pinyin : pinyinList)
{
System.out.printf("%s,", pinyin.getPinyinWithToneMark());
}
System.out.println();
System.out.print("拼音(无音调),");
for (Pinyin pinyin : pinyinList)
{
System.out.printf("%s,", pinyin.getPinyinWithoutTone());
}
System.out.println();
System.out.print("声调,");
for (Pinyin pinyin : pinyinList)
{
System.out.printf("%s,", pinyin.getTone());
}
System.out.println();
System.out.print("声母,");
for (Pinyin pinyin : pinyinList)
{
System.out.printf("%s,", pinyin.getShengmu());
}
System.out.println();
System.out.print("韵母,");
for (Pinyin pinyin : pinyinList)
{
System.out.printf("%s,", pinyin.getYunmu());
}
System.out.println();
System.out.print("输入法头,");
for (Pinyin pinyin : pinyinList)
{
System.out.printf("%s,", pinyin.getHead());
}
System.out.println();
}
}
- 说明 HanLP不仅支持基础的汉字转拼音,还支持声母、韵母、音调、音标和输入法首字母首声母功能。HanLP能够识别多音字,也能给繁体中文注拼音。最重要的是,HanLP采用了双数组trie树和压缩的词典格式,能够提供毫秒级的响应速度!
- 算法详解 《汉字转拼音与简繁转换的Java实现》
/**
* 简繁转换
* @author hankcs
*/
public class DemoTraditionalChinese2SimplifiedChinese
{
public static void main(String[] args)
{
System.out.println(HanLP.convertToTraditionalChinese("用笔记本电脑写程序"));
System.out.println(HanLP.convertToSimplifiedChinese("「以後等妳當上皇后,就能買士多啤梨慶祝了」"));
}
}
- 说明
HanLP能够识别简繁分歧词,比如
打印机=印表機
。许多简繁转换工具不能区分“以后”“皇后”中的两个“后”字,HanLP可以。 - 算法详解 《汉字转拼音与简繁转换的Java实现》
/**
* 文本推荐(句子级别,从一系列句子中挑出与输入句子最相似的那一个)
* @author hankcs
*/
public class DemoSuggester
{
public static void main(String[] args)
{
Suggester suggester = new Suggester();
String[] titleArray =
(
"威廉王子发表演说 呼吁保护野生动物\n" +
"《时代》年度人物最终入围名单出炉 普京马云入选\n" +
"“黑格比”横扫菲:菲吸取“海燕”经验及早疏散\n" +
"日本保密法将正式生效 日媒指其损害国民知情权\n" +
"英报告说空气污染带来“公共健康危机”"
).split("\\n");
for (String title : titleArray)
{
suggester.addSentence(title);
}
System.out.println(suggester.suggest("发言", 1)); // 语义
System.out.println(suggester.suggest("危机公共", 1)); // 字符
System.out.println(suggester.suggest("mayun", 1)); // 拼音
}
}
- 说明 在搜索引擎的输入框中,用户输入一个词,搜索引擎会联想出最合适的搜索词,HanLP实现了类似的功能。
/**
* 语义距离
* @author hankcs
*/
public class DemoWordDistance
{
public static void main(String[] args)
{
String[] wordArray = new String[]
{
"香蕉",
"苹果",
"白菜",
"水果",
"蔬菜",
"自行车",
"公交车",
"飞机",
"买",
"卖",
"购入",
"新年",
"春节",
"丢失",
"补办",
"办理",
"送给",
"寻找",
"孩子",
"教室",
"教师",
"会计",
};
for (String a : wordArray)
{
for (String b : wordArray)
{
System.out.println(a + "\t" + b + "\t之间的距离是\t" + CoreSynonymDictionary.distance(a, b));
}
}
}
}
- 说明 设想的应用场景是搜索引擎对词义的理解,词与词并不只存在“同义词”与“非同义词”的关系,就算是同义词,它们之间的意义也是有微妙的差别的。
- 算法 为每个词分配一个语义ID,词与词的距离通过语义ID的差得到。语义ID通过《同义词词林扩展版》计算而来。
/**
* 依存句法解析
* @author hankcs
*/
public class DemoDependencyParser
{
public static void main(String[] args)
{
System.out.println(HanLP.parseDependency("把市场经济奉行的等价交换原则引入党的生活和国家机关政务活动中"));
}
}
- 说明
内部采用
MaxEntDependencyParser
实现,用户可以直接调用MaxEntDependencyParser.compute(sentence)
,也可以调用基于随机条件场的依存句法分析器CRFDependencyParser.compute(sentence)
- 算法详解 《最大熵依存句法分析器的实现》 《基于CRF序列标注的中文依存句法分析器的Java实现》
本章详细介绍HanLP中的词典格式,满足用户自定义的需要。HanLP中有许多词典,它们的格式都是相似的,形式都是文本文档,随时可以修改。
词典分为词频词性词典和词频词典。
- 词频词性词典每一行代表一个单词,格式遵从
[单词] [词性A] [A的频次] [词性B] [B的频次] ...
。 - 词频词典每一行代表一个单词,格式遵从
[单词] [单词的频次]
。 每一行的分隔符为空格符,制表符可能不被支持。
少数词典有自己的专用格式,比如同义词词典兼容《同义词词林扩展版》的文本格式,而转移矩阵词典则是一个csv表格。
下文主要介绍通用词典,如不注明,词典特指通用词典。
Trie树(字典树)是HanLP中使用最多的数据结构,为此,我实现了通用的Trie树,支持泛型、遍历、储存、载入。
用户自定义词典采用二分Trie树储存,其他词典采用双数组Trie树(DoubleArrayTrie)实现。
词典有两个形态:文本文件(filename.txt)和缓存文件(filename.txt.bin或filename.txt.trie.dat和filename.txt.trie.value)。
- 文本文件 采用明文储存,UTF-8编码,CRLF换行符。
- 缓存文件 就是一些二进制文件,通常在文本文件的文件名后面加上.bin表示。有时候是.trie.dat和.trie.value。后者是历史遗留产物,分别代表trie树的数组和值。有时候历史遗留产物还挺有用的,特别是把trie树当作set用的时候,不需要储存值。
HanLP的核心词典训练自人民日报2014语料,语料不是完美的,总会存在一些错误。这些错误可能会导致分词出现奇怪的结果,这时请打开调试模式排查问题:
HanLP.Config.enableDebug();
- 核心词性词频词典
比如你在
data/dictionary/CoreNatureDictionary.txt
中发现了一个不是词的词,或者词性标注得明显不对,那么你可以修改它,然后删除缓存文件使其生效。 - 核心二元文法词典
二元文法词典
data/dictionary/CoreNatureDictionary.ngram.txt
储存的是两个词的接续,如果你发现不可能存在这种接续时,删掉即可。 - 命名实体识别词典 基于角色标注的命名实体识别比较依赖词典,请阅读相应的文章或代码修改它。
如果问题解决了,欢迎向我提交一个pull request,这是我在代码库中保留明文词典的原因,众人拾柴火焰高!
授权待定
感谢使用!
作者 @hankcs 2014年12月16日