TAG:AI配音
通义实验室发布PrismAudio:让AI听懂视频实现智能配音告别声画分离
阿里通义实验室发布全新视频生成音频框架PrismAudio,通过引入思维链与多维度强化学习评估,实现声音与画面的精准同步,解决AI配音中‘声画两张皮’难题。9秒视频仅需0.63秒生成高质量环境音效,轻量高效,已入选ICLR2026,推动影视创作进入‘所见即所闻’的真音时代。
阿里推出Fun-CineForge 首开电影级多模态配音大模型
阿里巴巴通义实验室联合中国科学技术大学开源Fun-CineForge项目,推出首个电影级多模态配音大模型及大规模数据集。该项目通过MLLM配音模型和CineDub数据集,解决了影视配音中的口型同步、音色迁移及情感表达等核心难题,显著提升AI配音质量。现已开源推理代码与模型权重,为影视后期制作带来革命性突破。
阿里通义开源影视级配音模型Fun-CineForge 解决音画同步问题
阿里通义实验室发布开源影视级配音大模型Fun-CineForge,首次引入时间模态概念,攻克音画不同步、情感表达缺失等难题。支持复杂场景下的精准配音,配套CineDub数据集构建流程显著降低标注成本,已在GitHub、HuggingFace和魔搭社区上线,推动AI语音技术向影视后期制作迈进。
通义开源首个影视级配音大模型 AI实现情感化语音
阿里通义实验室开源全球首个影视级配音大模型Fun-CineForge,突破AI配音机械感瓶颈,实现情感化表达和多场景音效还原。该模型采用创新一体化设计,配套开放高质量数据集构建方法,为影视创作者提供低成本高质量配音解决方案。
AI革新影视配音 通义开源Fun-CineForge攻克多人对话
通义实验室开源影视级多场景配音大模型Fun-CineForge,突破传统AI配音瓶颈,实现口型同步、情绪表达、音色一致性和时间对齐四大核心挑战。该模型首次引入时间模态,结合视觉、文本和音频多模态融合,填补了多人对话配音的空白,在影视、动画等高要求场景中表现卓越。
Apple Fitness+ 正式登陆日本市场 引入AI配音功能
苹果健身服务Apple Fitness+正式进入日本市场,提供力量训练、有氧运动、瑜伽等多种课程,可通过iPhone、iPad等设备访问。值得注意的是,此次上线未采用本地教练重新录制,而是为现有课程配备统一AI生成配音,引发对本地化策略的关注。