Skip to content

Eleven-is-cool/Audio_classification

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

63 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Audio_classification

The project is to classify audio

数据集

数据集

训练集来自urbanSound8k数据集,清华大学thchs-30普通话语音,Audacity生成的音频,csdn上有关环境的音频与自己录制的音频,最终数据集大小为10G左右,人声和其他声音的音频占比一致。 需要对数据集音频进行切割,转化为统一采样率。

分割音频。核心代码

librosa库请使用版本不要过高,本次训练用的librosa版本是0.6.0

模型训练

对数据集音频进行降噪,提取mcff系数(梅尔频率倒谱系数),用keras训练出二分类模型

  1. 音频降噪。 代码
  2. 利用Keras训练模型。训练代码
  3. 保存模型。模型下载
  4. 模型预测。预测代码

打包

  1. 将目前实现的模块打包。 Package文件夹
  2. 实现web api,可以部署到服务器,但是识别前得先要把 文件上传 到服务器,这也就导致了只能应用于识别短时音频。API

About

The project is to classify audio

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published