语音技术-奇异果体育app竞彩官网下载
产品概述
将60秒以内的完整音频文件识别为文字,专有gpu服务集群,识别响应速度较标准版api提升2倍及识别准确率提升15%。适用于近场短语音交互,如手机语音搜索、聊天输入等场景。 支持上传完整的录音文件,录音文件时长不超过60秒。实时返回识别结果
产品价格
短语音识别极速版支持按调用量后付费及次数包。按用量后付费按每月累计调用量阶梯计价。次数包为预付费,一年内有效,价格更优惠。详情见
语音识别模型
百度短语音极速版提供极速版输入法模型1个模型(暂时不支持其他方言及英语)。识别速度更快,识别效果更好。支持智能标点,可以识别简单的常用英语语句。
可通过设置dev_pid参数选择模型。
语音识别模型自训练
如果您在应用语音识别能力时,有行业专有名词,如金融、医疗、餐饮、地产、制造等行业术语,无法准确识别。推荐使用,可以上传词汇和长文本进行模型训练,以及根据业务发展迭代不断训练。
调用短语音识别极速版api,添加训练模型id即可生效。
调用流程
- 鉴权认证:使用appkey secretkey 访问 换取 token ,详细见[]
- 确认请求方式:选择一种http post 请求格式,参见下一节
- 填写参数:详细见
适用范围及demo下载
任意操作系统,任意编程语言,只要可以对百度语音服务器发起http请求的,均可以使用本接口。
示例demo代码见:
浏览器由于无法跨域请求百度语音服务器的域名,因此无法直接使用本接口。需从服务器端发起调用。
语音识别极速版调用地址:
语音格式
格式支持:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)、m4a(压缩格式,仅支持极速版模型,m4a格式输入适用于微信小程序的录音文件,)。推荐pcm 采样率 :16000 固定值。 编码:16bit 位深的单声道。
百度服务端会将非pcm格式,转为pcm格式,因此使用wav、amr、m4a会有额外的转换耗时。
音频文件格式转换可以使用音频软件进行。批量音频格式转换,可使用开源ffmpeg格式转换工具文档。
超过60秒音频可使用vad切分工具进行切分。
小程序m4a格式设置
- 参数format改为m4a
- 仅支持单声道
- 采样率仅支持16000
- cbr bitrates 24000-96000,推荐48000
- 仅支持aac-lc, 不支持 例如he-aac ,ld,eld等
- brand 仅支持 mp42:0, mini version 0 ,不支持 m4a
- 微信小程序录音设置,见
微信小程序录音参数,请重点关注并设置以下必填字段:
属性 | 类型 | 默认值 | 必填 | 说明 |
---|---|---|---|---|
duration | number | 60000 | 否 | 百度语音restapi最大支持 60s,即这个值不能超过60000 |
samplerate | number | 16000 | 是 | 必须设为 16000 |
numberofchannels | number | 1 | 是 | 比如设为1,单声道 |
encodebitrate | number | 48000 | 否 | 默认值即可,建议48000,可设为24000-96000。该值越大的话,生成文件越大 |
format | string | aac | 否 | 默认值即可,只支持aac,不支持mp3 |