❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
- Amphion 是一个开源的音频、音乐和语音生成工具包,支持多种生成任务。
- 提供多种预训练模型和神经声码器,确保生成音频的质量和一致性。
- 包括经典模型的可视化功能,帮助研究人员和工程师理解模型工作原理。
Amphion 是一个开源的音频、音乐和语音生成工具包,由香港中文大学(深圳)副教授武执政团队联合上海人工智能实验室和深圳市大数据研究院共同推出。该工具包支持可重复的研究,帮助初级研究人员和工程师快速进入音频、音乐和语音生成领域。Amphion 提供多种功能,包括文本转语音(TTS)、歌声合成(SVS)、语音转换(VC)、歌声转换(SVC)、文本转音频(TTA)和文本转音乐(TTM)。集成多种神经声码器,如 MelGAN、HiFi-GAN 等,以及全面的评估指标,确保生成音频的质量和一致性。Amphion 的独特之处在于经典模型和架构的可视化功能,有助于研究人员和工程师深入理解模型的内部工作原理。
- 文本转语音(TTS):Amphion 支持多种先进的 TTS 模型,能将文本转换为自然流畅的语音输出。
- 歌声合成(SVS):基于提取参考和源音频的相关特征,Amphion 能合成歌声,实现演唱者声音的转换。
- 语音转换(VC):Amphion 能将一个人的声音转换成另一个人的声音,不改变语音内容。
- 歌声转换(SVC):Amphion 能将一位演唱者的歌声转换为另一位演唱者的歌声。
- 文本转音频(TTA):Amphion 能根据文本提示生成逼真的音效、语音及音乐。
- 文本转音乐(TTM):Amphion 能将文本描述转换为音乐作品。
- 声码器(Vocoder):Amphion 集成多种声码器,用于生成高质量的音频信号。
- 模型架构可视化:Amphion 提供经典模型或架构的可视化,帮助研究人员和工程师更好地理解模型的工作原理。
- 统一框架:Amphion 提供统一的框架,支持多种音频生成任务,使研究和开发更加方便。
- 预训练模型:Amphion 发布多种高质量的预训练模型,推动可重复性研究。
- 神经声码器集成:Amphion 集成多种神经声码器,如基于 GAN 的声码器(MelGAN、HiFi-GAN 等)、基于流的声码器(WaveGlow)和基于扩散的声码器(DiffWave)。
- 文本到音频生成:Amphion 采用潜在扩散模型,类似于 AudioLDM、Make-an-Audio 和 AUDIT 的设计,根据文本提示生成音频。
安装
Amphion 可以通过 Setup Installer 或 Docker Image 进行安装。
Setup Installer
Docker Image
-
安装 Docker、NVIDIA Driver、NVIDIA Container Toolkit 和 CUDA。
-
运行以下命令:
使用 Docker 时,挂载数据集是必要的。详细信息请参见 Mount dataset in Docker container 和 Docker Docs。
使用示例
以下是使用 Amphion 进行文本转语音(TTS)的示例:
快速启动
- 关注并回复公众号【66】或【Amphion】获取相关项目资源。
❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!