Stars
本项目的数据来自“互联网新闻情感分析”赛题。基于Transformer2.0库中的中文Bert模型,对新闻语料进行三分类。
基于分布式爬虫,采集互联网公开来源的金融类新闻和文档类文本; 基于文本挖掘技术,进行无监督/半监督学习的数据ETL与特征工程; 基于金融数据挖掘技术,进行宏观经济分析,基本面分析与行业分析
中文人名语料库。人名生成器。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。可用于中文分词、人名实体识别。
mirror of dongxiexidian/Chinese
ChineseSemanticKB,chinese semantic knowledge base, 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,可支持句子扩展、转写、事件抽象与泛化等多种应用场景。
公司名语料库。机构名语料库。公司简称,缩写,品牌词,企业名。可用于中文分词、机构名实体识别。
本项目实现了ocr主流算法gru/lstm+ctc+cnn架构,进行不定长度验证码识别,达到不分割字符而识别验证码内容的效果。验证码内容包含了大小字母以及数字,并增加点、线、颜色、位置、字体等干扰项。本项目对gru +ctc+cnn、lstm+ctc+cnn、cnn三种架构进行了对比,实践说明同等训练下gru/lstm+ctc+cnn架构准确率和速度均明显优于cnn架构,gru +ctc+c…
Deep Learning Book Chinese Translation