Skip to content

zmeet-ai/asr-sdk-v2

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

产品优势

Zmeet专注于高精度多语言语音识别、情感辨识和音频事件检测

海量数据积累

立足于中国电信庞大的海量数据,积累了数十万小时的语音标注数据,拥有丰富多样的语料库,为高识别率奠定数据基础。

算法业界领先

非自回归端到端框架,推理延迟极低, 涵盖声纹识别和语音识别、情感识别在内,RTF控制在0.01以内,在通用以及垂直领域有业内领先的识别精度。

富文本识别:

  • 具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。
  • 支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。

支持多平台设备

具有完整的服务部署链路,支持多并发请求,支持客户端语言有,python、c++、html、java 与 c# 等。支持智能硬件、移动应用、网站、桌面客户端和物联网等多种设备终端。

支持语种丰富

现阶段已经支持中文普通话、英文、粤语、韩语、日语、泰语等100种语种和上海话、四川话、武汉话、贵阳话、昆明话、郑州话、藏语、维语和蒙语等28种方言的语音识别,后续将持续开放其他语种和方言的识别能力。

噪声环境识别佳

语音识别模型鲁棒性佳,识别精度高,抗噪声的干扰能力强,能够识别来自嘈杂环境的音频信息,不需要客户进行降噪处理。

支持语言定制增强

针对特定场景,客户可以定制自己的语言模型,实现对特定场景和少数民族语言和方言的增强识别。

本项目涵盖如下语音识别接口

  • 支持中英文等100种实时语音识别和同声传译
  • 支持多方言识别
  • 支持藏语、维语和蒙语等极少民族语言的语音识别
  • 支持实时流式识别
  • 支持实时声纹识别,声纹识别可以和语音识别同步返回,60秒语音1s内完成所有识别(业内只有我们
  • 支持情感识别
  • 支持场景音识别
  • 支持中英文等100种离线识别和同声传译
  • 支持多方言识别
  • 支持藏语、维语和蒙语等极少民族语言的语音识别
  • 理论上支持任意时间长度如十小时以上的录音文件识别(业内只有我们
  • 1小时录音文件识别1分钟完毕(排队除外)
  • 支持声纹识别,声纹识别定位到字符
  1. 一句话语音识别接口* 支持中英文等多国语言识别

  • 支持中英文等100种离线识别和同声传译
  • 支持藏语、维语和蒙语等极少民族语言的语音识别
  • 支持多方言识别
  • 支持声纹识别
  • 最快100毫秒返回

公共参数

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Packages

No packages published

Contributors 3

  •  
  •  
  •