智慧星球
分在线语音识别,离线语音识别以及混合式语音识别
- 在线语音识别
HMM (Hidden Markov Model) + TDNN (Time Delay Neural Network)作为声学模型,在架构上优于业界普遍采用的HMM + DNN (Deep Neural Network)
- 离线语音识别
针对离线应用场景使用了单独的模型和大量的性能优化。目前主要支持语音命令识别,以及通讯录相关的识别。
- 混合式语音识别 通过一定的融合策略,混合离线和在线识别的结果,使得语音识别的最终结果可以更快,更准确的返回给用户。在没有网络或者网络质量很差的情况下也能完成语音指令功能,而在网络连接稳定的情况下,可以通过在线获得更通用的语音识别服务。
对语音识别的结果进行语义分析。针对垂直领域进行大量的优化,从而可以更准确的理解用户的查询需求。另外,还有提供给注册用户的个性化服务,比如语音指令“导航到公司”,后台可以根据用户公布给系统的公司位置信息进行自动补全。
对语音识别以及理解后的结果进行垂直领域的搜索,我们有业界最全面的互联网数据库,可以提供给用户最新,最准确的搜索信息。我们自建的搜索引擎支持约60个垂直领域,均实现了多维度的查询,比如餐馆可以支持地点、价位、无线上网等。通过NLP的精准多维度分析,结合切面搜索,能够一次性完成较为复杂的用户查询。同时,技术团队对搜索速度进行了卓有成效的优化,减少搜索延时。
采用HMM + DNN相结合的方式进行语音合成,既保证了合成结果的稳定性,同时又提升语音的自然度,实现了业界领先的合成效果。有效的使用了离在线相结合的方式,即便在网速不理想的情况下,也可以及时给用户合成语音反馈。
在线语音合成使用了独创的Ultra Streaming技术,可以极速合成大量文本,让用户瞬间享受到高质量的播报服务,同时在线合成的流量低至3kB/s, 有效节约了用户的流量资源。离线语音合成针对用户设备进行了深度优化,对设备的计算资源占用极低,基本不会影响到设备的电量消耗。目前合成支持多种输出格式,包括mp3、speex格式等, 可以满足应用的多种需求。