这是「进击的Coder」的第 841 篇技术分享
作者:小 G
来源:GitHubDaily
“
阅读本文大概需要 4 分钟。
”过去一周,从外界看,AI 貌似放缓了进步速度,但只有身处其中的人才能知道,AI 一直没有停下进化的脚步。
以下是 GitHub 过去一周,诞生的多个实用的 AI 开源项目,今天给大家做下介绍。
1. meta 开源 AI 生成音乐模型
meta 今天在 GitHub 开源了一个 Python 库:Audiocraft,可直接用 AI 生成音乐。
点击播放下方视频,查看音乐生成效果:
GitHub:https://github.com/facebookresearch/audiocraft
里面主要用到了一个名为 MusicGen 的音乐生成模型,MusicGen 是一个单级自回归 Transformer 模型,在 32kHz EnCodec 分词器上训练,具有 4 个以 50Hz 采样的码本。
与 MusicLM 等现有方法不同,MusicGen 不需要自我监督的语义表示,它一次生成所有 4 个码本。
卷完了文生文和文生图,接下来就看文本生成音乐要怎么发力了。
2. Diffusers 发布重磅更新
Diffusers v0.17.0 正式发布,改进了 LoRA、Kandinsky 2.1、Torch 编译加速等特性。
Diffusers 是 GitHub 上一个知名的预训练扩散模型首选库,可用于生成图像、音频,甚至分子的 3D 结构。
GitHub:https://github.com/huggingface/diffusers
无论你是在寻找简单的推理解决方案还是训练自己的扩散模型,Diffusers 均可作为模块化工具箱提供支持。
该库设计重在可用性与可定制性,主要提供以下 3 个核心组件:
最先进的扩散管道,只需几行代码即可在推理中运行;
可互换的噪声调度器,用于不同的扩散速度和输出质量;
预训练模型可用作构建块,并与调度程序结合使用,用于创建自己的端到端扩散系统。
该项目由 Hugging Face 免费开源,你可以用它来快速训练 ControlNet,以便进一步提升 AI 绘画的效果与质量。
3. 万物皆可识别
meta 之前在 GitHub 上开源过一个 Segment Anything Model,可自动实现图像切割。
不过该模型在图像定位表现出色,但在图像识别方面便反响平平。
为此,复旦大学联合 OPPO 研究员、国际数字经济学院,在 GitHub 开源了一个强大的图像标记基础模型:Recognize Anything Model (RAM)。
该模型采用一种新的图像标记范例,可高精度地识别任何常见类别,并利用大规模图像文本对进行训练,而不是手动注释。
GitHub:https://github.com/xinyu1205/Recognize_Anything-Tag2Text
RAM 的开发包括四个关键步骤:
通过自动文本语义解析大规模获取无注释图像标签;
使用统一标题和标记任务,训练初步模型进行自动注释,分别由原始文本和解析标签监督;
利用数据引擎生成额外注释并清除不正确的注释;
利用处理后的数据对模型进行再训练,并使用更小但质量更高的数据集进行微调。
经过众多基准测试评估,RAM 的标记能力颇为优秀,效果明显优于 CLIP 和 BLIP。值得注意的是,RAM 甚至超越了完全监督的方式,甚至可媲美 Google API。
于此同时,该项目里面还包含着一个名为 Tag2Text 的工具,可直接批量化给图像中的指定对象,生成标签。
如果结合 meta 开源的 SAM 模型,那我们就能做到批量移除图像中的指定对象,进一步提升图像处理效率。
以上,就是本期给大家推荐的 AI 开源项目。
End
【福利来袭】
亲爱的读者们,我们很高兴地宣布,我们与清华大学出版社合作,为大家带来了一波 618 特别赠书福利!🎉🎁
📚如何参与?
在评论区留言,告诉我们您想要的书籍名称以及为什么想要这本书(书籍列表请扫描下方海报二维码查看)。
邀请您的朋友们为您的留言点赞,点赞前五名的留言将获得赠书资格!
获得赠书资格者,稍后我们将提供书单供您选择。
📢活动细则:
活动时间:即日起至 6 月 18 日 24:00。
获奖名单将在活动结束后的 3 个工作日内公布。
请确保您的留言包含书名及理由,以便我们更好地了解您的需求。
请注意,中奖者需在公布名单后的 7 天内联系我们提供收货信息,逾期未联系将视为自动放弃。
赶快行动起来吧!分享您的心愿书单,让我们一起在知识的海洋里遨游!📖💡
祝您好运!🍀 (请扫描下方二维码查看书籍列表)