定制加工
4.1K Star,业界首个流式语音合成系统开源!
2025-01-01 05:09

智能语音技术已经在生活中随处可见,常见的智能应用助手、语音播报、近年来火热的虚拟数字人,这些都有着智能语音技术的身影。智能语音是由语音识别,语音合成,自然语言处理等诸多技术组成的综合型技术,对开发者要求高,一直是企业应用的难点。

飞桨语音模型库 PaddleSpeech ,为开发者提供了语音识别、语音合成、声纹识别、声音分类等多种语音处理能力,代码全部开源,各类服务一键部署,并附带保姆级教学文档,让开发者轻松搞定产业级应用!

PaddleSpeech 自开源以来,就受到了开发者们的广泛关注,关注度持续上涨。

在此过程中,我们也根据用户的反馈不断升级,推陈出新,优化用户体验。

本次, PaddleSpeech 1.0 版本正式发布,为开发者带来了四项重要升级

  • 全新发布 PP-TTS:业界首个开源端到端流式语音合成系统,支持流式声学模型与流式声码器,开源一键式流式语音合成服务部署方案。

  • 全新发布 PP-ASR:开源基于上万小时数据的流式语音识别系统,开源一键式流式语音识别服务部署方案。支持 Language Model 解码和个性化语音识别。

  • 全新发布 PP-VPR:开源全链路声纹提取与检索系统,10分钟轻松搭建产业级系统。

  • 一键服务化能力:语音识别、语音合成、声纹识别、声音分类、标点恢复,一键部署五项核心语音服务。

项目传送门

https://github.com/PaddlePaddle/PaddleSpeech

以下为本次发布内容详细解读。

1

PP-TTS

业界首个开源端到端流式语音合成系统

语音合成是机器“说话”的“嘴巴”。随着深度学习技术的发展,采用端到端神经网络进行语音合成的效果相较于传统技术有了极大的提升,但是端到端语音合成的响应时间长,在实时性要求较高的场景中难以满足业务需求。

如在实时交互的虚拟数字人应用中, 需要虚拟人对用户指令快速做出应答,否则会消耗用户的耐心、降低用户体验,此时就需要流式语音合成系统,在保障合成质量的同时,提高响应速度、提升交互体验。

PaddleSpeech 全新发布的 PP-TTS ,提供了一键式部署流式语音合成系统的方案,解决了在语音合成技术应用过程中,响应时间长、落地困难的问题。

流式推理结构,降低平均响应时延

以声学模型 FastSpeech2 、声码器 HiFi-GAN 为例, PP-TTS 对 FastSpeech2 的 Decoder 模块进行了创新,替换了 FFT-Block 为卷积结构,创新性地提出了基于 FastSpeech2 结合 HiFi-GAN 的流式推理结构, 以 Chunk 的方式进行流式推理,可以使声学模型和声码器的输出与非流式推理保持一致。

PP-TTS 的流式语音合成可以在保证合成质量的前提下,大幅降低平均响应时延:

测试环境:测试用例为 CSMSC 数据集后100条, CPU 为 Intel(R) Core(TM) i5-8250U CPU @ 1.60GHz

相较于端到端非流式合成, PP-TTS 流式合成的平均响应时延降低了97.4%,即使在普通的 CPU 笔记本上也能够实时响应。

文本前端优化

PP-TTS 提供了针对中文场景的语音合成文本前端优化方案:针对时间、日期、电话、温度等常见非标准词进行了文本正则化处理;开源了针对中文场景的轻声变调、三声变调和“一”“不”变调等字音转换( G2P )解决方案。在自建的文本正则化测试集上, CER 低至0.73%;以 CSMSC 数据集的拼音标注为 Ground Truth ,字音转换( G2P )的 WER 低至 2.6%。

基于 PP-TTS 优越的文本前端优化,语音合成的输出可以像真人一样自然、优雅,举个例子大家体验一下:

不一会儿,我就在跑马场买了1头牛,它的编号是556。

2

PP-ASR

基于上万小时数据的流式语音识别系统

如果说语音合成是机器的“嘴巴”,那语音识别就是机器的“耳朵”,拥有一个识别准确的“耳朵”,才能让机器变得更加聪明。端到端非流式语音识别模型的优势在于识别效果更好,但是劣势是系统延迟大,无法满足实时交互场景的需求。针对这个问题, PaddleSpeech 1.0 版本给大家带来了PP-ASR:基于 WenetSpeech 上万小时数据的流式语音识别系统。

PP-ASR 流式语音识别在保障识别效果的前提下,响应时延显著降低,可以实时得到识别结果,提升用户的使用体验。

测试数据集:Conformer 模型,测试数据集为 AIShell-1 ,流式识别分块长度为 640ms , GPU: Tesla V100-SXM2-32GB,CPU:80 Core Intel(R) Xeon(R) Gold 6271C CPU@ 2.60GHz

个性化识别方案

基于 WFST 的个性化识别方案,支持特定场景的语音识别任务。例如交通报销场景,针对通用语音识别对 POI 、日期、时间等实体识别效果差,通过基于 WFST 的个性化识别可以提升识别的准确率。在打车报销内部测试集上,通用识别 CER 为5.4%,优化后 CER 为1.32%,绝对提升4.08%。

演示效果见文末示例

3

PP-VPR

全链路声纹识别与音频检索系统

声纹特征作为生物特征,具有防伪性好,不易篡改和窃取等优点,配合语音识别与动态密码技术,非常适合于远程身份认证场景。在声纹识别技术的基础上,配合音频检索技术(如演讲、音乐、说话人等检索),可在海量音频数据中快速查询并找出相似声音(或相同说话人)片段。

其中声纹识别作为一个典型的模式识别问题,其基本的系统架构如下:

PaddleSpeech 这次开源的 PP-VPR 声纹识别与音频检索系统,集成了业界领先的声纹识别模型,使用 ECAPA-TDNN 模型提取声纹特征,识别等错误率( EER , Equal error rate )低至0.83%,并且通过串联 MySQL 和 Milvus ,可以搭建完整的音频检索系统,实现毫秒级声音检索。

4

一键部署五项核心语音服务

语音识别、语音合成、声纹识别

声音分类和标点恢复

在产业应用中,将训练好的模型以服务的形式提供给他人使用可以更方便。 考虑到搭建一套完整的网络服务应用是一件繁琐的工作, PaddleSpeech 为大家提供了一键式部署服务,命令行一行代码即可同时启动语音识别,语音合成,声纹识别,声音分类和标点恢复五大服务。

Demo使用及展示

进入 demo/speech_server 目录下,一键启动语音识别、语音合成、声纹识别、声音分类和标点恢复服务。

此时服务已经挂载到了配置的8090端口了,我们可以通过命令行对服务进行调用。

客户端调用,以语音识别为例:

识别结果:

语音合成、声纹识别、声音分类和标点恢复的服务使用类似,可以参考对应的文档。

这么好的项目,欢迎大家star鼓励

并前来体验,送上链接:

https://github.com/PaddlePaddle/PaddleSpeech

欢迎更多热爱语音技术的开发者们,一起加入 PaddleSpeech 的社区交流。

更多开发者应用案例

PaddleSpeech 作为飞桨智能语音模型库,可以与其它的一些基于飞桨的深度学习套件一起,搭建有趣的应用。

  • 智能语音工单报销

    (基于 PaddleSpeech 和 PaddleNLP )

  • 虚拟数字人

( 基于 PaddleSpeech 和 PaddleGAN )

B站视频地址:https://b23.tv/qCCZmT9

了解更多 PaddleSpeech 信息,可以参看我们在 NAACL 2022 发表的论文:

PaddleSpeech: An Easy-to-Use All-in-One SpeechToolkit.

论文链接

    以上就是本篇文章【4.1K Star,业界首个流式语音合成系统开源!】的全部内容了,欢迎阅览 ! 文章地址:http://ww.kub2b.com/news/17707.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 http://ww.kub2b.com/mobile/ , 查看更多   
最新文章
华为Mate 60大降价!仅4699元入手华为手机降价「华为Mate 60大降价!仅4699元入手」
促销大降价!现仅需5199元就能入手一款高性能的手机。这款手机的设计风格与以往的Mate系列相似,共有四种颜色可供选择。机身采用
保险资金上调入市比例
  新华社北京4月8日电(记者李延霞、张千千)金融监管总局8日对外发布《关于调整保险资金权益类资产监管比例有关事项的通知》
清明假期北京60个重点商圈客流量同比增长11.4%
北京商报讯(记者 胡静蓉)4月6日,北京市商务局发布清明假期消费市场数据显示,假期三天,市商务局重点监测的百货、超市、专业
我爱我家:去年营收125.4亿元,核心城市市占率继续提高
4月9日,房地产经纪企业我爱我家控股集团有限公司(000560.SZ)发布2024年财报。数据显示,2024年,我爱我家实现住房总交易额(g
华为开发者模式关闭教程:步骤与注意事项华为手机开发者选项在哪里「华为开发者模式关闭教程:步骤与注意事项」
华为手机开发者模式关闭教程很多使用手机的朋友在开发或者测试应用时,需要用到华为手机的开发者模式。但在使用完毕后,出于安全
苹果手机怎么关掉振动苹果手机勿扰模式怎么关闭「苹果手机怎么关掉振动」
苹果手机关闭振动的教程苹果手机提供了多种方式来关闭振动,以满足不同用户的需求。以下是详细的步骤指导:方法一:通过控制中心
窦唯的结局,早已注定
“人潮人海中,有你有我,相遇相识相互琢磨。”窦唯隐退多年,娱乐圈中仍然有他的传说。他是唯一一个在纷乱繁杂的演艺圈里,被用
生化危机4:白金版生化危机4手机版「生化危机4:白金版」
游戏介绍:We've given Resident Evil 4 the Platinum treatment! This update contains the COMPLETE Resident Evil 4 saga
投资者大规模撤出原油看跌基金,创2020年以来最大资金外流
智通财经APP获悉,一只与原油市场下跌挂钩的交易型开放式产品(ETF)刚刚经历了自2020年以来最大规模的资金外流。随着原油价格暴跌
对美加征84%关税!中方坚决反制再出“组合拳”
美国东部时间4月8日,美方将此前宣布的对中国输美产品加征34%所谓“对等关税”,进一步提高50%至84%。国务院关税税则委员会今天