预生成的神经语音
在公共预览版中引入了 4 个 Turbo 版本的 Azure OpenAI 语音:、、 和 。 Azure OpenAI 声音的 Turbo 版本具有与 Azure OpenAI 声音类似的声音角色,但支持其他功能。 Turbo 声音支持完整的 SSML 元素集和字词边界等更多功能,就像其他 Azure AI 语音声音一样。 有关详细信息,请参阅完整的语言和语音列表。
这些语音现已正式发布:
预生成的高清 (HD) 神经网络声音
Azure AI 语音高清 (HD) 语音现已推出公共预览版。 HD 语音可以理解内容,自动检测输入文本中的情绪,并实时调整说话语调,使之与情绪匹配。 HD 语音保持与其神经网络语音(和非高清语音)一致的声音特征,甚至会通过增强的功能提供更多价值。 有关详细信息,请参阅什么是 Azure AI 语音高清 (HD) 语音?。
神经网络定制声音
以前,某些区域设置仅支持 V3 的训练方案。 这些区域设置现在也支持 V9,从而能够提高训练质量并扩展功能。 对于这些区域设置,请参阅下表:
区域设置 (BCP-47) 语言 阿拉伯语(埃及) 阿拉伯语(沙特阿拉伯) 加泰罗尼亚语 捷克语(捷克) 丹麦语(丹麦) 德语(奥地利) 德语(瑞士) 希腊语(希腊) 英语(印度) 芬兰语(芬兰) 法语(瑞士) 希伯来语(以色列) 印地语(印度) 匈牙利语(匈牙利) 马来语(马来西亚) 书面挪威语(挪威) 荷兰语(荷兰) 波兰语(波兰) 葡萄牙语(葡萄牙) 罗马尼亚语(罗马尼亚) 俄语(俄罗斯) 斯洛伐克语(斯洛伐克) 瑞典语(瑞典) 泰语(泰国) 土耳其语 (Türkiye) 越南语(越南) 中文(粤语,繁体) 中文(台湾普通话,繁体) 神经网络定制声音专业版现在支持以下新区域设置:
- :英语(新西兰)
- :西班牙语(智利)
- :西班牙语(美国)
- :泰米尔语(马来西亚)
请参阅神经网络定制声音的语言列表,了解受支持区域设置的完整列表。
跨语言功能现在支持将以下新区域设置用作源区域设置:
区域设置 (BCP-47) 语言 丹麦语(丹麦) 德语(奥地利) 德语(瑞士) 德语(德国) 英语(加拿大) 芬兰语(芬兰) 法语(瑞士) 匈牙利语(匈牙利) 马来语(马来西亚) 书面挪威语(挪威) 葡萄牙语(葡萄牙) 瑞典语(瑞典) 土耳其语 (Türkiye) 泰米尔语(印度) 中文(粤语,繁体) 请参阅神经网络定制声音的语言列表,了解受支持区域设置的完整列表。
多样式语音功能现支持以下新区域设置:
区域设置 (BCP-47) 语言 阿拉伯语(埃及) 阿拉伯语(沙特阿拉伯) 加泰罗尼亚语 捷克语(捷克) 丹麦语(丹麦) 德语(奥地利) 德语(瑞士) 德语(德国) 希腊语(希腊) 英语(澳大利亚) 英语(加拿大) 英语(英国) 英语(印度) 西班牙语(西班牙) 西班牙语(墨西哥) 芬兰语(芬兰) 法语(加拿大) 法语(瑞士) 法语(法国) 希伯来语(以色列) 印地语(印度) 匈牙利语(匈牙利) 意大利语(意大利) 韩语(韩国) 马来语(马来西亚) 书面挪威语(挪威) 荷兰语(比利时) 荷兰语(荷兰) 波兰语(波兰) 葡萄牙语(巴西) 葡萄牙语(葡萄牙) 罗马尼亚语(罗马尼亚) 俄语(俄罗斯) 斯洛伐克语(斯洛伐克) 瑞典语(瑞典) 泰语(泰国) 土耳其语 (Türkiye) 越南语(越南) 中文(粤语,繁体) 中文(台湾普通话,繁体) 请参阅神经网络定制声音的语言列表,了解受支持区域设置的完整列表。
预生成的神经语音
在以下区域设置中添加了对新语音的支持和正式发布:
(男)
(男)
(女)
此表中的一种声音已正式发布,但仅支持“en-IN”区域设置。
此表中的五种语音已正式发布,支持“en-IN”和“hi-IN”区域设置。
(女)
(女)
(男)
(男)
(女)
(女)
(男)
(男)
声音风格和角色
添加了对 和 语音的 、、 样式支持。
为以下语音添加了新样式:
- :、、
- :、、
- : , , ,
- : ,
- : ,
- : ,
- : , , ,
- :、、
- :、、
- : ,
- :
有关详细信息,请参阅语音风格和角色。
预生成的神经语音
在公共预览版中推出了新的多语言声音。 有关详细信息,请参阅完整的语言和语音列表。
全新的多语言声音
Locale 语言 性别 语音名称 en-US 英语(美国) 男 en-US-AdamMultilingualNeural en-US 英语(美国) 女 en-US-AmandaMultilingualNeural en-US 英语(美国) 男 en-US-DerekMultilingualNeural en-US 英语(美国) 男 en-US-LewisMultilingualNeural en-US 英语(美国) 女 en-US-LolaMultilingualNeural en-US 英语(美国) 女 en-US-PhoebeMultilingualNeural en-US 英语(美国) 男 en-US-SamuelMultilingualNeural en-US 英语(美国) 女 en-US-SerenaMultilingualNeural en-US 英语(美国) 男 en-US-DustinMultilingualNeural en-US 英语(美国) 女 en-US-EvelynMultilingualNeural es-ES 西班牙语(西班牙) 男 es-ES-TristanMultilingualNeural fr-FR 法语(法国) 男 fr-FR-LucienMultilingualNeural pt-BR 葡萄牙语(巴西) 男 pt-BR-MacerioMultilingualNeural zh-CN 中文(普通话,简体) 男 zh-CN-YunfanMultilingualNeural zh-CN 中文(普通话,简体) 男 zh-CN-YunxiaoMultilingualNeural zh-CN 中文(普通话,简体) 男 zh-CN-YunyiMultilingualNeural 单语言模型更新为多语言声音,提升了自然性
Locale 语言 性别 语音名称 en-US 英语(美国) 女 en-US-NancyMultilingualNeural en-US 英语(美国) 男 en-US-BrandonMultilingualNeural en-US 英语(美国) 男 en-US-ChristopherMultilingualNeural en-US 英语(美国) 女 en-US-CoraMultilingualNeural en-US 英语(美国) 男 en-US-DavisMultilingualNeural en-US 英语(美国) 男 en-US-SteffanMultilingualNeural es-ES 西班牙语(西班牙) Female es-ES-XimenaMultilingualNeural it-IT 意大利语(意大利) 男 it-IT-GiuseppeMultilingualNeural ko-KR 韩语(韩国) 男 ko-KR-HyunsuMultilingualNeural 增强了下列当前的多语言声音,提高了质量。
Locale 语言 性别 语音名称 en-US 英语(美国) 男 en-US-AndrewMultilingualNeural en-US 英语(美国) 女 en-US-AvaMultilingualNeural 现在有三种多语言声音支持风格。 有关详细信息,请参阅语音风格和角色。
- en-US-SerenaMultilingualNeural:、、、、、、。
- en-US-AndrewMultilingualNeural: 和 。
- zh-CN-XiaoxiaoMultilingualNeural:、、、、、、。
文本转语音虚拟形象 (GA)
文本转语音虚拟形象现已正式发布。 有关详细信息,请参阅文本转语音虚拟形象。
预生成的神经语音
在公共预览版中引入 2 个 Turbo 版本的 Azure OpenAI 声音: 和 。 Azure OpenAI 声音的 Turbo 版本具有与 Azure OpenAI 声音类似的声音角色,但支持其他功能。 Turbo 声音支持完整的 SSML 元素集和字词边界等更多功能,就像其他 Azure AI 语音声音一样。 有关详细信息,请参阅完整的语言和语音列表。
在公共预览版中引入了 2 种新的多语言声音: 和 。 有关详细信息,请参阅完整的语言和语音列表。
嵌入式神经网络语音
声音在生产环境中发布,支持多达 24 个区域设置的设备端体验。 有关支持的区域设置,请参阅下表。
Locale 语言 丹麦语(丹麦) 德语(德国) 英语(澳大利亚) 英语(英国) 英语(印度) 英语(美国) 西班牙语(西班牙) 西班牙语(墨西哥) 法语(加拿大) 法语(法国) 希伯来语(以色列) 意大利语(意大利) 日语(日本) 韩语(韩国) 书面挪威语(挪威) 荷兰语(荷兰) 波兰语(波兰) 葡萄牙语(葡萄牙) 瑞典语(瑞典) 泰语(泰国) 土耳其语(土耳其) 中文(普通话,简体) 中文(粤语,繁体) 中文(台湾普通话,繁体)
预生成的神经语音
公共预览版中的 6 个新语音在特定区域可用:东亚、东南亚、美国东部、美国西部和印度中部。
Locale 语言 文本转语音声音 奥里雅语(印度) (女) 奥里雅语(印度) (男) 旁遮普语(印度) (女) 旁遮普语(印度) (男) 阿萨姆语(印度) (女) 阿萨姆语(印度) (男) 有关详细信息,请参阅完整的语言和语音列表。
文本转语音虚拟形象
- 文本转语音虚拟形象功能现在支持以下区域:东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部 2。 有关详细信息,请参阅语音服务区域。
个人声音(正式版)
个人声音现已推出正式版。 使用个人语音,可以在几秒钟内获得 AI 生成的你的语音(或应用程序用户的语音)的副本。 提供一分钟的语音示例作为音频提示,然后使用它来生成跨 100 个以上区域设置支持的 90 多种语言中的任何一种语音。 有关详细信息,请参阅个人声音概述。
预生成的神经语音
在公共预览版中引入了 8 种新的多语言语音:、、、、、、 和 。 有关详细信息,请参阅完整的语言和语音列表。
在公共预览版中引入了针对呼叫中心场景优化的 2 种新的 语音: 和 。 有关详细信息,请参阅完整的语言和语音列表。
文本转语音虚拟形象
- 现在可以为头像设置静态背景图像。 若要利用此功能,只需使用 属性并指定指向所需图像的 URL。 有关详情,请参阅如何编辑背景。
预生成的神经语音
9 种多语言语音在所有区域正式发布:、、、、、、、、。 有关详细信息,请参阅完整的语言和语音列表。
为公共预览版引入一种新的多语言语音:。 有关详细信息,请参阅完整的语言和语音列表。
其他更新:
- 在所有区域正式发布。
- 在所有区域正式发布,并与 合并。
- 更新后的 和 提供了预览版,有 3 种新的样式在美国东部、西欧和东南亚推出。
- 新的女性语音在印度中部提供预览版:、、、 和 。
文本转语音虚拟形象
- 删除了Azure 通信服务 (ACS) TURN的依赖项,以实现虚拟形象。 示例代码已相应地更新,以反映此更改。
- 已发布文本转语音虚拟形象定价。 有关详细信息,请参阅定价页。 请注意,虚拟形象定价将仅在服务区域中可见,包括美国西部 2、西欧和东南亚。
OpenAI 语音
Azure AI 语音服务支持以下区域中的 OpenAI 文本转语音:美国中北部和瑞典中部。 与 Azure AI 语音声音一样,OpenAI 文本转语音声音提供高质量的语音合成,将书面文本转换为自然的口述音频。 它可解锁各种沉浸式和交互式用户体验的可能性。 有关详细信息,请参阅什么是 OpenAI 文本转语音声音?。
通过此更新,我们调整了 Azure AI 语音预生成的神经语音的定价。 在此处查看更新的定价。
个人语音
个人声音功能现在支持 和 模型。 这些新模型增强了合成语音的自然性,使其更加贴近提示中的声音的语音特征。 有关更多详细信息,请参阅在你的应用程序中集成个人声音。
定制声音 API
定制声音 API 可用于创建和管理专业和个人神经网络定制声音模型。
神经网络定制声音
新训练的语音模型现在支持 48 kHz 采样率,无论模型版本如何。 对于之前训练过的语音模型,需要将引擎版本升级到至少 2023.11.13.0 版本,以将采样率提高到 48 kHz。
预生成的神经语音
- 为公共预览版引入新的多语言语音:
- 支持多个中文方言和口音的公共预览版新 语音简介:
个人语音
个人语音可在以下地区预览:西欧、美国东部和东南亚。 使用个人语音(预览版),可以在几秒钟内获得 AI 生成的语音(或应用程序用户)的复制内容。 提供一分钟的语音示例作为音频提示,然后使用它会生成 100 多个地区支持的 90 多种语言中的任何一种语言的语音。
有关更多信息,请参阅个人语音。
文本转语音虚拟形象
文本转语音虚拟形象可在以下地区预览:美国西部 2、西欧和东南亚。
文本转语音虚拟形象将文本转换为拟真人物(预构建的虚拟形象或自定义文本到语音虚拟形象)以自然声音说话的数字视频。 文本转语音虚拟形象视频可以异步合成或实时合成。 开发人员可以通过 API 生成与文本转语音虚拟形象集成的应用程序,或使用 Speech Studio 上的内容创建工具创建视频内容,而无需编码。
有关更多信息,请参阅文本转语音虚拟形象、透明度说明以及语音和虚拟形象发音人的披露。
神经网络定制声音
为跨语言语音添加了 24 个新区域设置的支持。 有关详细信息,请参阅完整的语言列表。
预生成的神经语音
为公共预览版引入新语音:
模型更新,修复了错误并改进了质量:
有关详细信息,请参阅完整的语言和语音列表。
神经网络定制声音
- 在神经网络定制声音专业版中添加了对 12 个区域设置的支持。 有关详细信息,请参阅完整的语言列表。
预生成的神经语音
- 为公共预览版引入新语音:
有关详细信息,请参阅完整的语言和语音列表。
嵌入式神经网络语音
- 此处的所有 147 个区域设置(fa-IR、波斯语(伊朗) 除外)都可直接使用,它们带有 1 个选定的女性语音和/或 1 个选定的男性语音。
神经网络定制声音
- 最新的 CNV 精简版训练方案版本现已发布。 此版本对语言模型的质量进行了多项增强。 试用 Speech Studio。
神经网络定制声音
- 多风格语音已正式发布。
- 公共预览版中为多风格语音添加了两个新的区域设置: 和 。 有关详细信息,请参阅完整的语言和语音列表。 请参阅不同语言的预设风格列表。
- 跨语言语音已正式发布。
- 为跨语言语音添加了两个新的区域设置: 和 。 有关详细信息,请参阅完整的语言和语音列表。
预生成的神经网络 TTS 语音
为公共预览版引入新的 性别中立语音:
为公共预览版引入新的多语言语音:
多语言语音 和 会自动检测输入文本的语言。 但是,你仍然可以使用 元素来调整这些语音的说话语言。
这些新的多语言语音可以使用 41 种语言和口音说出:、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、。
这些多语言语音并不完全支持某些 SSML 元素,例如中断、强调、静音和亚语音。
公共预览版中对以下语音推出新功能:
- 为塞尔维亚语(塞尔维亚) 语音添加了拉丁语输入: 和 。
- 添加了对阿尔巴尼亚语(阿尔巴尼亚) 语音的英语发音支持: 和 。
音频内容创建
- 所有具有讲话风格的预生成语音和多风格自定义语音都支持风格程度调整。
- 现在,可以通过说出单词并录制,即可修复单词的发音。 可以从录制内容中自动识别音素。 通过语音识别功能现已进入公开预览。
预生成的神经网络 TTS 语音
- 这些语音的以下功能已从公共预览版升级为正式版:
- 改进 、 和 语音的英语发音,目前正在公共预览版区域中进行此工作
有关详细信息,请参阅语言和语音列表。
新增功能
语音合成标记语言 (SSML) 已更新,可支持音频效果处理器元素,这些元素可针对设备上的特定方案优化合成语音输出的质量。 在语音合成标记中了解详细信息。
神经网络定制声音
添加了对 区域设置使用神经网络定制声音专业版的支持。 有关详细信息,请参阅完整的语言和语音列表。
预生成的神经网络 TTS 语音
现已正式发布以下语音。 有关详细信息,请参阅完整的语言和语音列表。
(女)
(男)
(男)
(女)
(女)
(女)
(男)
(女)
(男)
(男)
(女)
(男)
(女)
(男)
(男)
(男)
(女)
(女)
(女)
(女)
(男)
(男)
(男)
(女)
(女)
(男)
(女)
(男)
(女)
添加了对 语音的 样式的支持。
预生成的神经网络 TTS 语音
现已正式发布以下语音。 有关详细信息,请参阅完整的语言和语音列表。
(女)
(女)
(男)
(男)
(男)
(男)
(男)
批处理合成 REST API(预览版)
批处理合成 API 目前为公共预览版。 其正式发布后,就会弃用长音频 API。 有关详细信息,请参见迁移到批处理合成 API。
预生成的神经网络 TTS 语音 (GA)
现已正式发布以下语音。 有关详细信息,请参阅完整的语言和语音列表。
(女)
(女)
(男)
(男)
(女)
(男)
(男)
(女)
(女)
(男)
(女)
(男)
(男)
(男)
(女)
(女)
(男)
(女)
(女)
(男)
(女)
(女)
(男)
(男)
(女)
(男)
(女)
(男)
(男)
(女)
(女)
(女)
(男)
(男)
(女)
神经网络定制声音
为神经网络定制声音添加了以下区域设置支持。 有关详细信息,请参阅完整的语言和语音列表。
- 添加了对 区域设置使用神经网络定制声音专业版的支持。
- 添加了对 区域设置使用神经网络定制声音精简版的支持。
预生成的神经网络 TTS 语音 (GA)
现已正式发布以下语音。 有关详细信息,请参阅完整的语言和语音列表。
(男)
(男)
预生成的神经网络 TTS 语音(预览版)
以下语音现在以公共预览版提供。 有关详细信息,请参阅完整的语言和语音列表。
(女)
(男)
(男)
(女)
(女)
(女)
(男)
(女)
(男)
(男)
(女)
(男)
(男)
(男)
(男)
(女)
(女)
(女)
(女)
(男)
(男)
(男)
(女)
(女)
(男)
(女)
(男)
(女)
(男)
(女)
(女)
(女)
(女)
(男)
(男)
常规 TTS 语音更新
- 改进了 和 语音的质量。
- 为区域设置为 西班牙语(智利) 和 乌兹别克语(乌兹别克斯坦) 的语音更新了文本规范化规则。
- 为区域设置为 阿尔巴尼亚语(阿尔巴尼亚) 和 阿塞拜疆语(阿塞拜疆) 的语音添加了英语字母拼写。
- 改进了 语音的英语发音。
- 改进了 和 语音的问题语气。
- 添加了对 标记的支持,该标记可以改善以下语音的英语发音:、、、、、、、、 和 。
- 添加了对用于以下语音的 标记的支持:、 和 。
- 添加了对用于以下语音的 标记的支持:、、、、 和 。
- 添加了对用于以下语音的 标记的支持:、 和 。
预生成的神经 TTS 语音
- 所有预生成神经语音已升级为 48kHz 采样率的高保真语音。
预生成的神经 TTS 语音
发布了新语音的公共预览版:
- 英语(美国)语音: 和 。
- 中文区域性语言的语音:、 和 。
有关详细信息,请参阅语言和语音列表。
预生成的神经 TTS 语音
- 在公共预览版中添加了 5 种新的 中文(普通话,简体)语音和 1 种新的 英语(美国)语音。 参阅完整语言和语音列表。
- 添加的神经语音的受支持样式和角色。
使用视位获取面部位置
- 添加了对混合形状的支持,以驱动设计的 3D 角色的面部运动。 详细了解如何使用视位获取面部位置。
- SSML 已更新以支持视位元素。 请参阅语音合成标记。
预生成的神经 TTS 语音
- 为神经网络文本转语音添加了 9 种新语言和变体:
- 英语(英国)、 法语(法国)和 德语(德国)公共预览版的正式发布 36 种声音:
- 在公共预览版中添加了 40 种新语音,包括 西班牙语(墨西哥)、 意大利语(意大利)、 葡萄牙语(巴西)和 2 种 中文口音(普通话、简体)的语音:
- 改进了 和 的质量
- 48kHz 输出支持公共预览版,其中包含 en-US-JennyNeural、en-US-AriaNeural 和 zh-CN-XiaoxiaoNeural
神经网络定制声音
- 启用后即可联机修复数据问题。 详细了解如何解决 Speech Studio 中的数据问题。
- 添加了训练方案版本。 详细了解如何为语音模型选择训练方案版本。
有声内容创作工具
- 支持分页。
- 启用此项即可以全局方式按工作文件页上的名称、文件类型和更新时间排序。
预生成的神经 TTS 语音
- 在公共预览版中发布了 5 种新声音,这些声音有多种风格,可以丰富美国英语的多样性。 参阅完整语言和语音列表。
- 的公共预览版支持这些新风格:、、、、、、、 和 。
- 、 的公共预览版支持这些新风格:、、、、、、、、 和 。
- 的公共预览版支持这些新风格:、、、、、 和 。 请参阅语音风格和角色。
- 发布了新语音 、 和 的公共预览版。 参阅完整语言和语音列表。
- 的公共预览版支持 2 个新样式:、。 请参阅语音风格和角色。
- 的公共预览版支持 1 个新样式:。 请参阅语音风格和角色。
- 支持的样式 和 在所有区域中都已正式发布。
- SSML 已更新以支持 en-US 和 en-AU 语音的 MathML 元素。 在语音合成标记中了解详细信息。
神经网络定制声音
- 启用此项即可在训练语音模型期间取消训练。 详细了解如何取消训练。
- 启用此项即可克隆模型(重命名语音模型)。 详细了解如何重命名语音模型。
- 启用此项即可通过添加你自己的测试脚本来测试语音模型。 详细了解如何上传测试脚本。
- 启用此项即可更新语音模型的引擎版本。 详细了解如何更新模型引擎版本。
- 支持更多训练区域。 请参阅区域支持。
- 神经网络定制声音精简版(预览版)支持的 10 个区域设置。 请参阅语言支持。
有声内容创作工具
- 启用此项后,无需登录即可试用有声内容创作工具。
- 改进了用于调整音素的布局。
- 增强性能:指定了一次上传文件的最大数目 (200)。
- 增强性能:指定了最大目录深度级别(5 个级别)。
预生成的神经 TTS 语音
- 公共预览版中为 增加了对 和 样式的支持。 请参阅语音风格和角色。
- 针对预生成的神经 TTS 语音发布了公共预览版的断开连接容器。 请参阅在断开连接的环境中使用 Docker 容器。
神经网络定制声音
- 支持基于角色的访问控制。 参阅 Speech Studio 中 Azure 基于角色的访问控制来详细了解。
- 支持专用终结点和虚拟网络服务终结点。 参阅如何将专用终结点与语音服务结合使用来详细了解。
有声内容创作工具
- 更新了免费层 (F0) 资源的文件大小和并发限制,以获得与语音 SDK 和 API 一致的体验。 请参阅语音服务配额和限制。
神经网络定制声音
- 发布了公共预览版的神经网络定制声音精简版。 详细了解什么是神经网络定制声音精简版。
- 将语言支持扩展到了 49 个区域设置。 请参阅语言支持。
- 支持更多区域/数据中心。 请参阅区域支持。
有声内容创作工具
- 删除了下载音频时的输出长度限制。
新语言和语音
为神经网络文本转语音添加了 10 种新语言和变体:
有关可用语音的完整列表,请参阅语言支持。
新语音(预览版)
在预览版中为 en-GB、fr-FR 和 de-DE 添加了新语音:
有关可用语音的完整列表,请参阅语言支持。
发音准确度
- 改进了所有 语音的英语单词发音。
- 为 和 改进了单词级别的发音准确度。
- 改进了阿拉伯语音调符号和希伯来语 Nikud 处理。
- 为 改进了实体读取
Speech Studio
- 神经网络定制声音:使用批处理 API(长音频 API)启用了其他模型测试
- 有声内容创作:启用了更多输出格式
新语言和语音
为神经网络文本转语音添加了 49 种新语言和 98 种语音:
Adri 南非语(南非)、Willem 南非语(南非)、Mekde 阿姆哈拉语(埃塞俄比亚)、Ameha 阿姆哈拉语(埃塞俄比亚)、Fatima 阿拉伯语(阿拉伯联合酋长国)、Hamdan 阿拉伯语(阿拉伯联合酋长国)、Laila 阿拉伯语(巴林)、Ali 阿拉伯语(巴林)、Amina 阿拉伯语(阿尔及利亚)、Ismael 阿拉伯语(阿尔及利亚)、Rana 阿拉伯语(伊拉克)、Bassel 阿拉伯语(伊拉克)、Sana 阿拉伯语(约旦)、Taim 阿拉伯语(约旦)、Noura 阿拉伯语(科威特)、Fahed 阿拉伯语(科威特)、Iman 阿拉伯语(利比亚)、Omar 阿拉伯语(利比亚)、Mouna 阿拉伯语(摩洛哥)、Jamal 阿拉伯语(摩洛哥)、Amal 阿拉伯语(卡塔尔)、Moaz 阿拉伯语(卡塔尔)、Amany 阿拉伯语(叙利亚)、Laith 阿拉伯语(叙利亚)、Reem 阿拉伯语(突尼斯)、Hedi 阿拉伯语(突尼斯)、Maryam 阿拉伯语(也门)、Saleh 阿拉伯语(也门)、Nabanita 孟加拉语(孟加拉国)、Pradeep 孟加拉语(孟加拉国)、Asilia 英语(肯尼亚)、Chilemba 英语(肯尼亚)、Ezinne 英语(尼日利亚)、Abeo 英语(尼日利亚)、Imani 英语(坦桑尼亚)、Elimu 英语(坦桑尼亚)、Sofia 西班牙语(玻利维亚)、Marcelo 西班牙语(玻利维亚)、Catalina 西班牙语(智利)、Lorenzo 西班牙语(智利)、Maria 西班牙语(哥斯达黎加)、Juan 西班牙语(哥斯达黎加)、Belkys 西班牙语(古巴)、Manuel 西班牙语(古巴)、Ramona 西班牙语(多米尼加共和国)、Emilio 西班牙语(多米尼加共和国)、Andrea 西班牙语(厄瓜多尔)、Luis 西班牙语(厄瓜多尔)、Teresa 西班牙语(赤道几内亚)、Javier 西班牙语(赤道几内亚)、Marta 西班牙语(危地马拉)、Andres 西班牙语(危地马拉)、Karla 西班牙语(洪都拉斯)、Carlos 西班牙语(洪都拉斯)、Yolanda 西班牙语(尼加拉瓜)、Federico 西班牙语(尼加拉瓜)、Margarita 西班牙语(巴拿马)、Roberto 西班牙语(巴拿马)、Camila 西班牙语(秘鲁)、Alex 西班牙语(秘鲁)、Karina 西班牙语(波多黎各)、Victor 西班牙语(波多黎各)、Tania 西班牙语(巴拉圭)、Mario 西班牙语(巴拉圭)、Lorena 西班牙语(萨尔瓦多)、Rodrigo 西班牙语(萨尔瓦多)、Valentina 西班牙语(乌拉圭)、Mateo 西班牙语(乌拉圭)、Paola 西班牙语(委内瑞拉)、Sebastian 西班牙语(委内瑞拉)、Dilara 波斯语(伊朗)、Farid 波斯语(伊朗)、Blessica 菲律宾语(菲律宾)、Angelo 菲律宾语(菲律宾)、Sabela 加利西亚语、Roi 加利西亚语、Siti 爪哇语(印度尼西亚)、Dimas 爪哇语(印度尼西亚)、Sreymom 高棉语(柬埔寨)、Piseth 高棉语(柬埔寨)、Nilar 缅甸语(缅甸)、Thiha 缅甸语(缅甸)、Ubax 索马里语(索马里)、Muuse 索马里语(索马里)、Tuti 巽他语(印度尼西亚)、Jajang 巽他语(印度尼西亚)、Rehema 斯瓦希里语(坦桑尼亚)、Daudi 斯瓦希里语(坦桑尼亚)、Saranya 泰米尔语(斯里兰卡)、Kumar 泰米尔语(斯里兰卡)、Venba 泰米尔语(新加坡)、Anbu 泰米尔语(新加坡)、Gul 乌尔都语(印度)、Salman 乌尔都语(印度)、Madina 乌兹别克语(乌兹别克斯坦)、Sardor 乌兹别克语(乌兹别克斯坦)、Thando 祖鲁语(南非)、Themba 祖鲁语(南非)。
- 新的聊天机器人语音(英语(美国)):Sara 表示一位年轻女性,其说话风格更随意,最适合聊天机器人场景。
- 为 日语语音 Nanami 添加的新样式:Nanami 现在提供三种新样式:聊天、客户服务和快乐。
- 整体发音改进:Ardi 、Premwadee 、Christel 、HoaiMy 和 NamMinh 。
- 预览版中的两个新语音 中文(普通话):小陈和小燕,针对自发语音和客户服务场景进行了优化。
神经网络文本转语音更新
- 希伯来语减少了 20% 的发音错误。
Speech Studio 更新
- 神经网络定制声音:将训练管道更新为 UniTTSv3,通过此次更新,模型质量得到了改进,同时,声学模型的训练时间减少了 50%。
- 音频内容创建:修复了“导出”性能问题和自定义神经语音选择方面的 bug。
Speech Studio 更新
- 神经网络定制声音:扩展了神经网络定制声音训练以支持东南亚。 发布了支持检查数据上传状态的新功能。
- 音频内容创建:发布了支持自定义词典的新功能。 利用此功能,用户可以轻松地创建其词典文件,并为其音频输出定义自定义发音。
为神经 TTS 添加的新语言和语音
引入了 10 种新语言 - 神经 TTS 语言列表中添加了 10 个新区域设置中的 20 种新语音,分别为:Yan 英语(香港),Sam 英语(香港),Molly 英语(新西兰),Mitchell 英语(新西兰),Luna 英语(新加坡),Wayne 英语(新加坡),Leah 英语(南非),Luke 英语(南非),Dhwani 古吉拉特语(印度),Niranjan 古吉拉特语(印度),Aarohi 马拉地语(印度),Manohar 马拉地语(印度),Elena 西班牙语(阿根廷),Tomas 西班牙语(阿根廷),Salome 西班牙语(哥伦比亚),Gonzalo 西班牙语(哥伦比亚),Paloma 西班牙语(美国),Alonso 西班牙语(美国),Zuri 斯瓦希里语(肯尼亚),Rafiki 斯瓦希里语(肯尼亚)。
预览版中添加十一种新 en-US 语音 - 预览版中有 11 种新 en-US 语音添加到美式英语中,分别为 Ashley、Amber、Ana、Brandon、Christopher、Cora、Elizabeth、Eric、Michelle、Monica、Jacob。
五种中文(普通话,简体中文)语音正式发布 - 5 种中文(普通话,简体中文)语音从预览版转为正式发布。 分别为 Yunxi、Xiaomo、Xiaoman、Xiaoxuan、Xiaorui。 现在,这些语音在所有区域都可以使用。 Yunxi 添加了一种新的“助手”风格,适用于聊天机器人和语音代理。 Xiaomo 的语音风格经过改进,更加自然和富有特色。
神经网络文本转语音已在 21 个区域中可用
- 添加了十二个新区域 - 神经网络文本转语音现在可用于以下 12 个新区域:、、、、、、、、、、、。 查看此处,了解 21 个受支持区域的完整列表。
为神经 TTS 添加的新语言和语音
引入了六种新语言 - 向神经 TTS 语言列表中添加了 6 个新的区域设置中的 12 种新语音: 威尔士语(英国) 中的 Nia、 威尔士语(英国) 中的 Aled、 英语(菲律宾) 中的 Rosa、 英语(菲律宾) 中的 James、 法语(比利时) 中的 Charline、 法语(比利时) 中的 Gerard、 荷兰语(比利时) 中的 Dena、 荷兰语(比利时) 中的 Arnaud、 乌克兰语(乌克兰) 中的 Polina、 乌克兰语(乌克兰) 中的 Ostap、 乌尔都语(巴基斯坦) 中的 Uzma、 乌尔都语(巴基斯坦) 中的 Asad。
五种语言从预览版升级到正式版 - 11 月在 5 个区域设置中引入的 10 种语音现在已正式发布: 爱沙尼亚语(爱沙尼亚) 中的 Kert、 爱尔兰语(爱尔兰) 中的 Colm、 拉脱维亚语(拉脱维亚) 中的 Nils、 立陶宛语(立陶宛) 中的 Leonas、 马耳他语(马耳他) 中的 Joseph。
为法语(加拿大) 添加了新的男性语音 - 现在为 法语(加拿大) 提供了新语音 Antoine。
质量改进 - 降低了语音错误率: 匈牙利语 - 48.17%、 挪威语 - 52.76%、 荷兰语(荷兰) - 22.11%。
此发行版现在支持 60 种语言/区域设置的总共 142 种神经语音。 此外,可在 49 种语言/区域设置中使用超过 70 种的标准语音。 有关完整列表,请访问语言支持。
获取人脸姿态事件以创建角色动画
神经网络文本转语音现在包含视素事件。 使用视素事件,用户可获取人脸姿态序列和合成语音。 视素可以用来控制 2D 和 3D 头像模型的运动,使嘴巴的运动与合成的语音匹配。 视素事件目前仅适用于 语音。
以语音合成标记语言 (SSML) 添加 bookmark 元素
使用 bookmark 元素可以在 SSML 中插入自定义标记,以获得音频流中每个标记的偏移量。 它可用于引用文本或标记序列中的特定位置。
神经网络定制声音正式发布
2 月份以 13 种语言正式发布了神经网络定制声音:中文(普通话,简体)、英语(澳大利亚)、英语(印度)、英语(英国)、英语(美国)、法语(加拿大)、法语(法国)、德语(德国)、意大利语(意大利)、日语(日本)、韩语(韩国)、葡萄牙语(巴西)、西班牙语(墨西哥)、西班牙语(西班牙)。 详细了解什么是神经网络定制声音以及如何负责任地使用它。 神经网络定制声音功能需要注册。Microsoft 可能会根据 Microsoft 的资格条件限制访问权限。 详细了解受限访问。
正式版和预览版中的新神经语音
为 54 种语言/区域设置中的总共 129 种神经语音发布了 51 种新语音:
正式版区域设置中的 46 种新语音: 阿拉伯语(埃及)中的 Shakir、 阿拉伯语(沙特阿拉伯)中的 Hamed、 保加利亚语(保加利亚)中的 Borislav、 加泰罗尼亚语中的 Joana、 捷克语(捷克共和国)中的 Antonin、 丹麦语(丹麦)中的 Jeppe、 德语(澳大利亚)中的 Jonas、 德语(瑞士)中的 Jan、 希腊语(希腊)中的 Nestoras、 英语(加拿大)中的 Liam、 英语(爱尔兰)中的 Connor、 印地语(印度)中的 Madhur、 泰卢固语(印度)中的 Mohan、 英语(印度)中的 Prabhat、 泰米尔语(印度)中的 Valluvar、 加泰罗尼亚语中的 Enric、 爱沙尼亚语(爱沙尼亚)中的 Kert、 芬兰语(芬兰)中的 Harri、 芬兰语(芬兰)中的 Selma、 法语(瑞士)中的 Fabrice、 爱尔兰语(爱尔兰)中的 Colm、 希伯来语(以色列)中的 Avri、 克罗地亚语(克罗地亚)中的 Srecko、 匈牙利语(匈牙利)中的 Tamas、 印度尼西亚语(印度尼西亚)中的 Gadis、 立陶宛语(立陶宛)中的 Leonas、 拉脱维亚语(拉脱维亚)中的 Nils、 马来语(马来西亚)中的 Osman、 马耳他语(马耳他)中的 Joseph、 挪威语、博克马尔语(挪威)中的 Finn、 挪威语、博克马尔语(挪威)中的 Pernille、 荷兰语(荷兰)的 Fenna、 荷兰语(荷兰)中的 Maarten、 波兰语(波兰)中的 Agnieszka、 波兰语(波兰)中的 Marek、 葡萄牙语(巴西)中的 Duarte、 葡萄牙语(葡萄牙)中的 Raquel、 罗马尼亚语(罗马尼亚)中的 Emil、 俄语(俄罗斯)中的 Dmitry、 俄语(俄罗斯)中的 Svetlana、 斯洛伐克语(斯洛伐克)中的 Lukas、 斯洛文尼亚语(斯洛文尼亚)中的 Rok、 瑞典语(瑞典)中的 Mattias、 瑞典语(瑞典)中的 Sofie、 泰语(泰国)中的 Niwat、 土耳其语(土耳其)中的 Ahmet、 越南语(越南)中的 NamMinh、 台湾普通话(台湾)中的 HsiaoChen、 台湾普通话(台湾)中的 YunJhe、 粤语(香港特別行政区)中的 HiuMaan、 粤语(香港特別行政区)中的 WanLung。
预览版区域设置中的 5 种新语音: 爱沙尼亚语(爱沙尼亚)中的 Kert、 爱尔兰语(爱尔兰)中的 Colm、 拉脱维亚语(拉脱维亚)中的 Nils、 立陶宛语(立陶宛)中的 Leonas、 马耳他语(马耳他)中的 Joseph。
此发行版现在支持 54 种语言/区域设置中的总共 129 种神经语音。 此外,可在 49 种语言/区域设置中使用超过 70 种的标准语音。 有关完整列表,请访问语言支持。
音频内容创建的更新
- 通过语音类别和详细的语音说明改善了语音选择 UI。
- 针对不同语言的所有神经语音启用了语调优化。
- 根据浏览器的语言自动执行了 UI 本地化。
- 已为所有 神经语音启用 控件。 若要查看新功能,请访问音频内容创建工具。
zh-CN 语音的更新
- 已更新所有 神经语音以支持英语。
- 已启用所有 神经语音以支持语调调整。 可以使用 SSML 或音频内容创建工具进行调整以获取最佳语调。
- 已更新所有 多样式神经语音以支持 控件。 可调整情感强度(弱或强)。
- 已更新 以支持可以执行不同情感的多种风格。
预览版中的新区域设置和语音
- 神经网络文本转语音项目组合中引入了五种新语音和语言。 分别是:马耳他语(马耳他)中的 Grace、立陶宛语(立陶宛)中的 Ona、爱沙尼亚语(爱沙尼亚)中的 Anu、爱尔兰语(爱尔兰)中的 Orla、拉脱维亚语(拉脱维亚)中的 Everita。
- 五种新的 语音,支持多个样式和角色:Xiaohan、Xiaomo、Xiaorui、Xiaoxuan 和 Yunxi。
在以下三个 Azure 区域的公共预览版中可以使用这些语音:EastUS、SouthEastAsia 和 WestEurope。
神经网络文本转语音容器 GA
- 借助神经网络文本转语音容器,开发人员可以在自己的环境中使用最自然的数字语音运行语音合成,以满足特定的安全和数据治理需求。 查看如何安装语音容器。
新增功能
- 定制声音:使用户能够将语音模型从一个区域复制到另一个区域;支持终结点暂停和恢复。 转到此处的 Azure 门户。
- 支持 SSML 无声标记。
- 一般性的 TTS 语音质量改进:在 nb-NO 中改进了单词级别的发音准确度。 将发音错误减小了 53%。
有关详细信息,请参阅此技术博客。
新增功能
- Jenny 支持新的 样式。 请参阅如何在 SSML 中使用说话风格。
- 神经语音已升级为 HiFiNet vocoder,具有更高的音频保真度和更快的合成速度。 这使那些方案依赖于高保真音频或长时间交互(包括视频翻译、有声书籍或在线教育材料)的客户受益。 在我们的技术社区博客上详细了解该内容并收听语音样本
- 定制声音和音频内容创建工作室本地化为 17 个区域设置。 用户可以轻松地将 UI 切换为本地语言,以获得更好的体验。
- 音频内容创建:为 Xiaoxiaoneural 添加了样式度控件;优化了自定义中断功能,使之包括 50 毫秒的增量中断。
一般性的 TTS 语音质量改进
- 提高了以下语言单词级别发音的准确度:(错误率降低:51%)和 (错误速率降低:58%)
- 改进了字典方案的 单个字词阅读功能。 将发音错误减小了 80%。
- :改进了情绪/客户服务/新闻广播/快乐/愤怒风格的语音质量。
- :改进了儿化音发音和轻声,优化了空间韵律,从而大大提高了清晰度。
新增功能
神经网络文本转语音
- 已经过扩展以支持 18 种新的语言/区域设置, 它们分别是:保加利亚语、捷克语、德语(奥地利)、德语(瑞士)、希腊语、英语(爱尔兰)、法语(瑞士)、希伯来语、克罗地亚语、匈牙利语、印度尼西亚语、马来语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、泰米尔语、泰卢固语和越南语。
- 发布了 14 种新语音,以丰富现有语言的多样性。 参阅完整语言和语音列表。
- 和 语音的新说话风格。 英语(美国)区域设置中的 Jenny 支持聊天机器人、客户服务和助理说话风格。 简体中文语音 XiaoXiao 有 10 种新的说话风格可用。 此外,XiaoXiao 神经语音支持 优化。 请参阅如何在 SSML 中使用说话风格。
容器:已发布公共预览版神经网络文本转语音容器,其中提供了 14 种语言的 16 种语音。 详细了解如何部署用于神经网络文本转语音的语音容器
阅读 Ignite 2020 TTS 更新的完整公告
新增功能
神经网络文本转语音:为 Aria 语音添加了新的说话风格。 播报新闻时,AriaNeural 听起来像新闻播音员。 “newscast-formal”风格听起来更严肃,而“newscast-casual”风格则更为放松和随意。 请参阅如何在 SSML 中使用说话风格。
定制声音:发布了一项新功能以自动检查训练数据质量。 当你上传数据时,系统将检查音频和脚本数据的各个方面,并自动修复或筛选问题,以提高语音模型的质量。 这涉及到音频音量、噪声级别、语音的发音准确度、语音与规范化文本的相符程度、音频中的沉默,以及音频和脚本格式。
音频内容创建:一组新功能,可实现更强大的语音优化和音频管理功能。
发音:将发音优化功能更新为最新的音素集。 可以从库中选取正确的音素元素,并优化所选字词的发音。
下载:音频“下载”/“导出”这一功能得到增强,支持按段落生成音频。 可以编辑同一文件/SSML 中的内容,同时生成多个音频输出。 “下载”的文件结构也得到了完善。 现在,可以轻松将所有音频文件保存在一个文件夹中。
任务状态:多文件导出体验得到改善。 过去导出多个文件时,如果其中一个文件失败,则整个任务将失败。 但现在,所有其余文件都将成功导出。 任务报表中包含了更加详细和结构化的信息。 可以通过报表查看所有失败文件和句子的记录。
SSML 文档:链接到 SSML 文档,有助于查看有关如何使用所有优化功能的规则。
语音列表 API 已更新,现包含易记的显示名称和神经网络语音支持的说话风格。
一般性的 TTS 语音质量改进
降低了单词级别发音错误 %:(错误减少 56%)、(错误减少 49%)
对 神经网络语音的复音词读取能力提高了 40%。 复音词的示例包括“read”、“live”、“content”、“record”、“object”等。
使 中的疑问语气更加自然。 MOS(平均意见得分)增益:+0.28