最新动态
# 离线语音听写 Android SDK 文档
2025-01-01 12:12

语音听写,是基于自然语言处理,将自然语言音频转换为文本输出的技术。语音听写技术与语法识别技术的不同在于,语音听写不需要基于某个具体的语法文件,其识别范围是整个语种内的词条。

语音听写详细的接口介绍及说明请参考: MSC Android API 文档。

在集成过程中出现错误,请优先查询SDK&API 错误码查询。如有疑问,请提交工单进行咨询,也可登录讯飞开放平台论坛与广大开发者共同学习和交流

点击跳转在线咨询

下载完SDK后,解压至相应的路径。

注:使用demo测试时,需将res中除layout外资源拷贝到demo中assets相应的路径下

以Android Studio集成开发工具为例,测试时建议直接用真机进行测试。

方法一(导入project方式):

如在导入项目中还出现其他问题,可参考帖子:安卓demo常见错误排查

方法二(导入module方式):

打开Android Studio,在菜单栏File--->new--->import Module当前解压sdk路径,使用离线服务能力选择导入mscV5PlusDemo,导入成功之后sync编译下,编译无误可连接手机,开启手机USB开发调试模式,直接在Android Studio运行导入的mscV5PlusDemo,最后生成的apk可直接安装在对应的手机上。

2.2.1、SDK包说明

《Android SDK目录结构一览》

  • manifests:
    • android配置应用权限文件
  • sample:
    • 相关离线能力demo(离线语音听写IatDemo)
  • assets:
    • SDK相关资源配置文件
  • Libs:
    • 动态库和jar包
  • res:
    • UI文件和相关布局文件xml
  • readme说明(必看)
  • release 版本说明

2.2.2、导入SDK

将在官网下载的Android SDK 压缩包中libs目录下所有子文件拷贝至Android工程的libs目录下,如下图所示:

备注:

  1. arm版本已经逐步淘汰了,arm架构的推荐使用armeabi-v7a。
  2. 如果您需要将应用push到设备使用,请将设备cpu对应指令集的libmsc.so push到/system/lib中。
  3. 使用demo测试时,需将res中除layout外资源拷贝到demo中assets相应的路径下。
  4. .集成到项目,需要将sdk中Demo/src/main/下文件拷贝到项目main中,以AS为例,且需要在项目main文件夹下新建Jnilibs并拷贝libmsc.so。
  5. msc.jar需要拷贝至项目libs下,并且右键jar添加Add As Library。
  6. sdk下文件夹main/assets/,自带UI页面(iflytek文件夹)和相关其他服务资源文件(语法文件、音频示例、词表),使用自带UI接口时,可以将assets/iflytek文件拷贝到项目中。

2.2.3、添加用户权限

在工程 AndroidManifest.xml 文件中添加如下权限

注意:如需在打包或者生成APK的时候进行混淆,请在proguard.cfg中添加如下代码:

2.2.4、接入

为保证用户个人隐私,防止APP不当收集用户信息,我们强烈建议您遵守以下流程接入本SDK保证合规,防止因调用时机不当引发的后果,例如但不限于:APP被应用市场下架等。

(1)您需要确保贵APP有《隐私政策》,并且在用户首次启动App时就弹出《隐私政策》争得用户同意。

(2)您务必在App的《第三方共享清单及SDK目录》中告知用户MSC SDK收集的个人信息类型以及MSC SDK隐私政策。

(3)个人信息收集说明:MSC SDK需要收集唯一设备识别码(android ID)以提供能力授权服务。

(4)隐私政策请点击查看。

(5)您务必严格遵守如下调用步骤,确保用户同意《隐私政策》之后,且在用户主动使用本SDK提供的各项功能时再进行相关函数调用。

接入即创建语音配置对象,只有接入后才可以使用MSC的各项服务。接入代码如下:

sdk提供了两种识别方式,分别为带UI识别和无UI方式:

2.3.1、无UI识别

2.3.2、带UI识别

参数名称 名称 说明 engine_type 引擎类型 离线语音听写默认为:local asr_res_path 离线识别资源 离线命令词识别需要使用本地资源,通过此参数设置本地资源所在的路径
值范围:有效的资源文件路径
默认值:null result_type 返回结果格式 主要分为三种:json,xml,plain
默认:json language 语言 离线语音听写仅支持中文:zh_cn accent 方言 离线语音听写仅支持:mandarin asr_ptt 标点符号 (仅中文支持)标点符号添加
1:开启(默认值)
0:关闭 vad_bos 前端点检测 开始录入音频后,音频前面部分最长静音时长,取值范围[0,10000ms],默认值5000ms vad_eos 后端点检测 开始录入音频后,音频后面部分最长静音时长,取值范围[0,10000ms],默认值1800ms。

resource设置中包含两个资源,common.jet 和 sms_16k.jet, 从资源配置中可以看出,目前离线听写仅支持16k音频

支持哪些语言?

答:目前只支持中文(普通话)。

离线语音听写是否可以试用?

答:可以的,目前提供10个装机量可以免费试用,试用期90天。

离线语音听写是否支持个性化热词功能?

答:目前不支持。

离线语音听写支持的音频格式是什么?

答:音频长度:小于20s;采样率16KHz;采样精度:16bit;声道单声道,音频文件的录制和格式确认(推荐使用Cool Edit Pro工具)。

离线语音听写识别率低是什么原因?

答:请检查上传的音频格式和属性是否满足pcm、wav对应16KHZ,16bit的音频,如果离线语音听写效果达不到您项目的要求,建议使用在线听写。

支持平台是什么?

    以上就是本篇文章【# 离线语音听写 Android SDK 文档】的全部内容了,欢迎阅览 ! 文章地址:http://ww.kub2b.com/news/17953.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 http://ww.kub2b.com/mobile/ , 查看更多   
最新文章
DxoMark新规则,排名重排,小米10霸占榜首!dxomark手机拍照排名「DxoMark新规则,排名重排,小米10霸占榜首!」
近日,DXOMark拍照榜单调整评分规则。在新规则下,榜前五分别是:第一:小米10U第二:华为P40Pro第三:小米10Pro第四:vivo X50P
到底是谁在用折叠屏手机?柔性屏手机「到底是谁在用折叠屏手机?」
虽然折叠屏手机仍是相对小众的产品,但它在技术上越来越成熟,价格上也步步下探,成为拉动手机市场发展的一股重要力量。押注折叠
与小霸王游戏机一起凉了的,还有那个“山寨”的时代至尊宝手机游戏「与小霸王游戏机一起凉了的,还有那个“山寨”的时代」
文 | 贝塔斯曼亚洲投资基金(BAI),作者 | 钟成、许露颖陪伴一代人童年的小霸王游戏机在2018年宣布回归游戏机市场,但在此后一
betapubg绝地求生体验服(PUBG MOBILE)绝地求生手机版「betapubg绝地求生体验服(PUBG MOBILE)」
betapubg绝地求生体验服是一款拥有超多技巧的枪战类游戏,在游戏里包含了多种场景地图,每一个地图面积很大,玩家们需要灵活使用
Global Venture Capital Transactions Plummet by 32%, Asia Accounts for Less Than 10% in Q1 AI Funding
AsianFin -- The global venture capital (VC) transaction volumes plunged in the first quarter of 2025, according to globa
DNF手游:传承战士火了,能增加无形装备爆率?已有玩家一身传承套
DNF手游这游戏还是非常看运气的,运气好的玩家可以轻松玩好这游戏,而运气差一点的玩家,即使氪金再多可能也是比不上那些运气好
与上海相伴上百年,恼人的一个多月怎么办
连日的温暖“唤醒”了一位与上海相伴上百年的老朋友,忙着“传宗接代”的它一反平日里温文尔雅的形象,带来持续一个月左右的“毛
A股集体收涨!
截至4月8日午间收盘,沪指涨0.91%,报3124.77点;深成指涨0.42%,报9404.20点;创业板指涨1.78%,报1839.31点。零售、农业、食品
iphone13 pro电池容量是多少?iphone13pro电池续航介绍苹果手机电池容量「iphone13 pro电池容量是多少?iphone13pro电池续航介绍」
iphone13pro电池容量多少?苹果在2021年北京时间9月15日凌晨1点举办秋季发布会,这次发布全新iPhone13系列机型。这次一共发布了4

loading