测评的软件
1. Word的誊写功能
2. 开源离线软件Buzz的tinny、small、medium模型
3. Adobe Primiere Pro 2024的语音转字幕功能
4. 微软语音转文字功能(Win+Ctrl+L快捷键开启)
评测结果分析和说明
1. 网络方面:
Buzz的Whisper模型是离线的,微软的字幕功能也是离线的,二者都无需网络即可实现语音转文字
2. 费用方面:
Buzz是开源免费的、微软的字幕功能是自带的(快捷键Win+Ctrl+L即可开启)
Word的誊写功能目前是免费的、PR是订阅制的
3. 导出方面:
除了微软的字幕功能是不能导出,其他都是可以导出的而且是支持时间戳功能的。
但是微软的Win11可以启用听写功能(快捷键:Win+H)可以输出位文本【这个功能其实是微软的语音输入法】
4. 准确率和效率方面:
a.评测的结果可以忽略音乐部分(准确率一言难尽呀),此外毕竟正经人谁会音乐转文字呀,字幕网上都有得搜索。
b.日常的会议、视频等方面,Buzz的模型的漏字情况都是比较少的,对于难以识别的音频Buzz会用同音字来代替。
其他软件,就是听不懂、识别不了就会跳过那种。
5.推荐:
Win11的字幕功能可以实现实时字幕而且无需联网(最推荐),但是就是不支持导出
Buzz的Medium准确率表现最为出色,但是耗时差强人意。
Word和PR的功能,表现差不多,但是Word打开速度更快一点,而且是常用办公软件,笔者更加倾向的使Word的誊写功能
测评的内容
测评结果
PR识别歌曲的结果是最离谱,这都不是歌曲了:
下面是截取的一小段:
00:00:23:09 - 00:01:20:17 未知 那么这个时候你找你的你如果真的追不回来,那么你自己说追的吧,就不追的对也为在前边的。你说,有的男人想让我真的对你我不想要这一辈子,只要小了,我也可以走浪漫的,也可能我霸道的一直用你的拥有着时间去爱,让爱上你从那天起就没有人去去爱,让别人去爱你的人。
日常视频方面,这是语音转文字的正常工作内容
这几款软件的功能都比较强大,做实时翻译的话,Win11的字幕功能是最好的,Buzz因为是离线模型专有名词可能会差一点
下面给出测评的结果:
Buzz的medium模型:
1 00:00:00,000 --> 00:00:04,080 今天介绍的Buzz是一个能够大幅减轻录制影片后 2 00:00:04,080 --> 00:00:07,000 制作字幕时间的语音识别工具 3 00:00:07,000 --> 00:00:10,920 它的底层是使用来自OpenAI公司的Whisper模型 4 00:00:10,920 --> 00:00:12,960 OpenAI是一家美国公司 5 00:00:12,960 --> 00:00:15,880 它的创始人之一正是Twitter的新老板 6 00:00:15,880 --> 00:00:16,920 Elon Musk 7 00:00:16,920 --> 00:00:18,320 在今天的影片里面 8 00:00:18,320 --> 00:00:20,400 会来介绍Buzz的使用方法 9 00:00:20,400 --> 00:00:23,760 并且再跟简硬的智能字幕来做比较 10 00:00:23,760 --> 00:00:25,760 最后再介绍字幕编辑工具 11 00:00:25,760 --> 00:00:28,360 Subtitle Editor使用Whisper的步骤 12 00:00:28,360 --> 00:00:29,960 Buzz的安装非常简单 13 00:00:29,960 --> 00:00:33,640 只要找到Buzz在GitHub上面的网址以后 14 00:00:33,640 --> 00:00:35,760 点击右方的Releases 15 00:00:35,760 --> 00:00:39,400 在Releases里面找到你的作业系统对应的安装档 16 00:00:39,400 --> 00:00:43,200 并且执行以后就可以很顺利的把它安装起来了 17 00:00:43,200 --> 00:00:45,080 它的操作也非常的简单 18 00:00:45,080 --> 00:00:47,360 启动以后就会是转录的画面 19 00:00:47,360 --> 00:00:50,200 在这边你可以马上使用你的麦克风 20 00:00:50,200 --> 00:00:53,400 它就会把你的录音直接就转成文字
Buzz的tinny模型:
1 00:00:00,000 --> 00:00:04,080 今天介绍的法史是一个能够大幅减轻录制影片后 2 00:00:04,080 --> 00:00:07,040 制作字幕时间的语音视别工具 3 00:00:07,040 --> 00:00:11,000 他的底层是使用来自Oppen AI公司的FishPermotion 4 00:00:11,000 --> 00:00:13,040 Oppen AI是一家美国公司 5 00:00:13,040 --> 00:00:15,960 他的创始人之一正式推特的新老板 6 00:00:15,960 --> 00:00:16,960 一龙马斯克 7 00:00:16,960 --> 00:00:18,320 在今天影片里面 8 00:00:18,320 --> 00:00:20,440 会来介绍法史的使用方法 9 00:00:20,440 --> 00:00:23,800 并且再跟检验的智能字幕来做比较
Word的誊写功能:
00:00:00 今天介绍的boss是一个能够大幅减轻录制影片后制作植物时间的语音识别工具。它的底层是使用来自open AI公司的模型。open AI是一家美国公司,它的创始人之一正是Twitter的新老板伊隆马斯克在今天的影片里面会来介绍Buds的使用。 00:00:20 方法,并且在跟检验的智能字幕来做比较。最后再介绍字幕编辑工具使用的步骤。的安装非常简单,只要找到在GitHub上面的网址以后,点击右方的with the release里面找到你的作业系统对应的安装档,并且执行以后就可以很顺利的。 00:00:42 把它安装起来了,他的操作也非常的简单,启动以后呢,就会是转入的画面,在这边你可以马上使用你的麦克风,他就会把你的录音直接就转成了文字,只要点击这个richer就可以了,等他这边出现了秒数以后,你就可以开始录音,并且他就及时。
PR的字幕功能:
00:00:00:01 - 00:00:23:22 未知 今天介绍的Bus是一个能够大幅减轻录制。影片后,制作字幕时间的语音识别工具,它的底层是使用来自Open公司的Future模型,OpenTable是一家美国公司它的创始人之一,正式推出的新老板伊隆马斯克在今天的影片里面会介绍Box的使用方法,并且在跟检验的智能字幕来做比较。 00:00:23:22 - 00:01:02:10 未知 最后在介绍字幕编辑工具Completed的使用Twister的步骤大致的安装非常简单,只要找到大师在GitHub上面的网址以后,编辑右方的Release意思在Messages里面找到你的作业系统对应的安装等,并且执行以后就可以很顺利的把它安装起来了。它的操作也非常的简单启动以后就会转入的画面在这边你可以马上使用你的麦克风,它就会把你的录音直接就转成了文字,只要点击这个Record就可以了等它这边出现的描述以后,你就可以开始录音,并且它就及时的转录,因为我们现在是要测试
2.效率:
笔者没有记录准确的时间,但是大略说,Win11的字幕功能是最快的(毕竟人家主打的功能是实时字幕嘛),其次Word、PR、Buzz的tinny模型不分上下、Buzz的small模型稍微落后、medium是耗时最久的