来源:infozon.net/gelecegin-teknolojisi-chatgpt-destekli-solos-airgo-3-gozlukleri/
澳大利亚配音演员协会(AAVA)向调查 AI 的议会委员会表示,估计有 5000 名本地配音演员的工作已经面临危险,其中一个全国性广播网络正积极投资技术以取代人类配音演员。该协会在其提交的报告中批评这一发展,称其是“一个令人失望的举动,这个行业已经依赖配音艺术家提供质量、信誉和人性化服务超过 100 年。”
有声书将是配音演员的试金石,因为公司认为可以通过 AI 声音节省成本,但他认为如果有声书的声音是 AI,人们可能会不再感兴趣。企业和教育材料也是组织削减人类配音工作的低垂果实,但广告行业可能需要更长时间,因为大广告商需要高质量的声音,而 AI 目前无法提供。
来源:https://www.theguardian.com/technology/article/2024/jun/30/ai-clones-voice-acting-industry-impact-australia
百度发布了其升级版的人工智能(AI)模型,展示了公司在AI技术方面的最新进展。
用户量突破3亿:百度宣布其AI产品的用户数量已经达到3亿,这表明百度的AI技术在市场上取得了广泛的应用和认可。
技术改进:升级版AI模型可能在算法效率、处理能力和用户体验方面有显著提升,以更好地满足不同场景下的需求。
应用领域:该AI模型可能被应用于多个领域,如智能助手、自动驾驶、医疗健康等,以推动各行业的智能化发展。
来源:https://www.reuters.com/technology/artificial-intelligence/baidu-launches-upgraded-ai-model-says-user-base-hits-300-mln-2024-06-28/
SK海力士计划在2028年前投资750亿美元,专注于人工智能(AI)芯片的发展。投资目的:此投资旨在提升SK海力士在全球半导体市场的竞争力,特别是在快速增长的AI芯片领域。
战略目标:通过大规模投资,SK海力士希望加速AI芯片技术的研发和生产,满足日益增长的市场需求。
市场前景:随着AI技术的快速发展,对高性能AI芯片的需求也在增加,SK海力士此举将有助于其在这一新兴市场中占据有利位置。
来源:https://www.reuters.com/technology/south-koreas-sk-hynix-invest-75-bln-by-2028-ai-chips-2024-06-30/
先进的文本识别:Kosmos-2.5通过大规模预训练,擅长将文本密集型图像中的文本转换为结构化格式,提升机器阅读理解能力。
空间感知与结构化输出:模型能够生成具有空间坐标的文本块,并将文本转换为Markdown等标记语言格式,保留原始样式和结构。
共享Transformer架构:Kosmos-2.5采用共享的解码器只自回归架构,通过任务特定的提示和灵活的文本表示,实现了多模态任务的高效处理。
多场景适用:模型可以通过不同的提示进行适应,实现对各种文本密集型图像理解任务的应用,是一种通用的图像文本处理工具。
对未来的启示:Kosmos-2.5的研究为多模态模型的未来发展提供了新的思路,特别是在处理文本密集型图像方面具有重要的应用前景。
详情: https://huggingface.co/microsoft/kosmos-2.5
跃然创新科技有限公司推出了BubblePal,全球首款基于AIGC技术的AI玩具,旨在促进孩子的智趣成长和提供情感陪伴。BubblePal采用专为儿童设计的AI大模型,支持多角色互动、多语言交流,并具备互动故事创作能力,能够激发孩子的探索欲和想象力。产品设计灵感来源于七彩泡泡,可以捆绑在毛绒玩具上,随时回应孩子的奇思妙想,成为孩子的「超级百科」。跃然创新的核心竞争力在于对儿童使用场景的深刻理解和对AI大模型技术的创新应用,使得玩具能够学习和适应,与孩子的互动越多越能理解孩子。
尽管成立时间不长,跃然创新已经获得了众多知名投资机构的支持,包括高秉强、李泽湘教授旗下的基金,以及Vtech和Alpha Group等行业巨头的资金,预示着AI玩具市场的颠覆性变革。
详情:https://www.geekpark.net/news/337142
自动为视频进行配音配乐 Resona V2A 是首个商用的视频转音频技术产品。 它能够通过视频数据自动生成高质量、上下文相关的音频,包括声音设计、音效、拟音和环境音。 支持主流的AI视频生成应用(如Runway、Luma、、SORA、Veo、可灵等)
链接:dlvr.it/T8yKJH
仅293行代码,它可以几乎完美地解析任何 PDF 文件,包括排版、数学公式、表格、图片和图表等内容,平均每页成本为 $0.013。 工作原理: 使用 PyMuPDF 库,首先对 PDF 进行解析出所有非文本区域,并做好标记 然后使用 GPT-4o进行解析,得到 markdown 文件。
GitHub:https://github.com/CosmosShadow/gptpdf…
Arrow: 一个无 UI 的前端工具,专为与 LLMs 交互的创意写作设计,提供两种文本生成选项,并支持并行生成。
核心原则:生成完整的段落、提供双重选择、实现零界面操作,全靠键盘快捷键。
兼容性:支持所有 OpenAI API 兼容的后端,包括 text-generation-webui、llama.cpp 服务器和 OpenAI API。
详情: https://github.com/p-e-w/arrows
能够将各种非结构化数据(如文档、图片、视频等)转换为结构化数据的平台,便于 AI 应用程序使用。 它支持20多种文件类型。
所有的数据处理都在本地完成,不需要通过外部API,从而确保用户的数据隐私和安全。