Skip to content

这是一个基于全卷积神经网络的语音识别系统

Notifications You must be signed in to change notification settings

jx1100370217/DFCNN-master

Repository files navigation

A Full-Convolutional Neural Networks-Based Chinese Speech Recognition System

基于全卷积神经网络的中文语音识别系统

GPL-3.0 Licensed TensorFlow Version Keras Version Python Version

Introduction 简介

本项目使用TensorFlow基于全深度卷积神经网络实现。 通过git克隆仓库以后,需要将datalist目录下的文件全部拷贝到dataset目录下,也就是将其跟数据集放在一起。

$ cp -rf datalist/* dataset/

目前可用的模型有24、25和251

本项目开始训练请执行:

$ python3 train_mspeech.py

本项目开始测试请执行:

$ python3 test_mspeech.py iters_num (这里的iters_num为迭代的step数,可以在生成的step_dfcnn.txt文件里查看)

测试之前,请确保代码中填写的模型文件路径存在。

ASRT API服务器启动请执行:

$ python3 asrserver.py

Model 模型

Speech Model 语音模型

CNN + LSTM/GRU + CTC

Language Model 语言模型

基于概率图的最大熵隐马尔可夫模型

About Accuracy 关于准确率

当前,最好的模型在测试集上基本能达到80%的汉语拼音正确率

不过由于目前国际和国内的部分团队能做到97%,所以正确率仍有待于进一步提高

Python Import

Python的依赖库

  • python_speech_features
  • TensorFlow
  • Keras
  • Numpy
  • wave
  • matplotlib
  • math
  • Scipy
  • h5py

Data Sets 数据集

  • 清华大学THCHS30中文语音数据集

data_thchs30.tgz http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz http://www.openslr.org/resources/18/data_thchs30.tgz

test-noise.tgz http://cn-mirror.openslr.org/resources/18/test-noise.tgz http://www.openslr.org/resources/18/test-noise.tgz

resource.tgz http://cn-mirror.openslr.org/resources/18/resource.tgz http://www.openslr.org/resources/18/resource.tgz

  • Free ST Chinese Mandarin Corpus

ST-CMDS-20170001_1-OS.tar.gz http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

About

这是一个基于全卷积神经网络的语音识别系统

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages