TAG:语音合成

微软开源语音AI VibeVoice 单次处理90分钟多说话人对话 GitHub获27K星

微软开源语音AI VibeVoice 单次处理90分钟多说话人对话 GitHub获27K星

微软开源了前沿语音AI家族VibeVoice,包含自动语音识别(ASR)和文本转语音(TTS)模型,支持长达90分钟的多说话人对话处理,GitHub已获27K Star。项目采用MIT许可,支持本地部署,无需云端费用,为语音合成领域带来创新突破。

2026-03-30 15:33
0
0

AI革新影视配音 通义开源Fun-CineForge攻克多人对话

AI革新影视配音 通义开源Fun-CineForge攻克多人对话

通义实验室开源影视级多场景配音大模型Fun-CineForge,突破传统AI配音瓶颈,实现口型同步、情绪表达、音色一致性和时间对齐四大核心挑战。该模型首次引入时间模态,结合视觉、文本和音频多模态融合,填补了多人对话配音的空白,在影视、动画等高要求场景中表现卓越。

2026-03-16 17:38
0
0

阿里通义千问开源Qwen3-TTS:97ms超低延迟 3秒克隆音色 改变实时AI语音格局

阿里通义千问开源Qwen3-TTS:97ms超低延迟 3秒克隆音色 改变实时AI语音格局

阿里通义千问团队开源Qwen3-TTS语音合成模型,采用端到端架构实现97ms超低延迟,支持3秒音色克隆和跨语言迁移,并能通过自然语言指令设计全新音色。该模型提供1.7B和0.6B双版本,适用于实时交互、多语言内容创作等场景,大幅降低AI语音应用门槛。

2026-01-23 13:57
54
0

智元机器人携手MiniMax推出全模态AI机器人

智元机器人携手MiniMax推出全模态AI机器人

智元机器人与MiniMax达成深度合作,将AI语音技术与机器人结合,打造拥有专属人设和个性化交互的全模态AI机器人。通过定制化提示词策略和音乐生成模型,提升用户沉浸感,满足家庭、办公等多场景需求。

2026-01-05 17:06
0
0

智元联手MiniMax打造个性化机器人

智元联手MiniMax打造个性化机器人

MiniMax与智元机器人达成战略合作,为后者提供从文本到语音的全流程AI技术支持,实现深度定制的交互体系和“千人千面”的个性化音色合成。此次合作标志着具身智能从“硬核运动”向“情感交互”迈出关键一步,将提升人形机器人在导览、养老及商业服务等场景中的用户体验。

2026-01-05 17:05
0
0

Resemble AI 开源旗舰 TTS 模型 防伪水印助力商业应用

Resemble AI 开源旗舰 TTS 模型 防伪水印助力商业应用

Resemble AI开源旗舰级TTS模型Chatterbox Turbo,仅需5秒参考音频即可精准克隆语音,延迟低至150毫秒,性能超越闭源竞品。模型内置防伪水印功能,支持商业化应用,旨在重塑语音合成市场格局。

2025-12-29 10:16
2
0

阿里巴巴发布Qwen新模型 三秒音频即可克隆声音

阿里巴巴发布Qwen新模型 三秒音频即可克隆声音

阿里巴巴Qwen团队发布两款创新AI语音模型:Qwen3-TTS-VD-Flash可根据文本描述生成定制化声音,支持情感和节奏控制;Qwen3-TTS-VC-Flash仅需3秒音频即可克隆声音,支持十种语言,性能超越竞争对手。两款模型均通过阿里云API提供,适用于广告、配音及多语言声音复制等场景。

2025-12-24 16:10
7
0

谷歌Gemini TTS 2.5发布:支持24种语言与情绪化语音

谷歌Gemini TTS 2.5发布:支持24种语言与情绪化语音

Google正式推出Gemini TTS 2.5文本转语音模型,主打情绪级表达、上下文自适应节奏及24语种多角色对话功能。新模型可一键切换音色与语速,适用于有声书、游戏NPC等场景,显著提升语音自然度与沉浸感。开发者现可免费测试,预计2025年第一季度投入生产环境。

2025-12-11 15:51
93
0

阿里推出Qwen3-TTS语音合成模型 49种音色可选

阿里推出Qwen3-TTS语音合成模型 49种音色可选

阿里通义千问发布新一代语音合成模型Qwen3-TTS,免费向全球开发者开放。该模型提供49种多角色音色,支持10种主流语言和10种中国方言,在词错误率(WER)上表现优异,拟人化程度高。具备自适应语速、实时流式合成等功能,适用于播客、有声书、游戏NPC等多种场景,且默认支持商业用途,无需额外授权费。

爱力方 2025-12-11 12:02
19
0

Qwen3-TTS升级 多样化声音提升语音合成自然度

Qwen3-TTS升级 多样化声音提升语音合成自然度

Qwen3-TTS语音合成模型迎来全面升级,新增超过49种高品质音色,覆盖不同性别、年龄和地域特征,支持10种主要语言及多种方言,显著提升语音自然度和拟人化效果。通过简单易用的API接口,用户可轻松生成流畅自然的语音内容,满足多样化场景需求。

2025-12-11 10:23
6
0

阿里Qwen3-TTS发布:49种音色支持10语9方言,准确率超越主流商用模型

阿里Qwen3-TTS发布:49种音色支持10语9方言,准确率超越主流商用模型

阿里巴巴推出Qwen3-TTS语音合成模型,支持49种音色、10种语言和9种方言,实现零样本多角色切换。该模型在WER基准测试中超越主流商用引擎,提供免费额度并已上线阿里云,适用于教育、客服、直播等场景。

2025-12-08 15:00
21
0

微软开源实时语音模型VibeVoice,0.5B参数实现300毫秒响应,支持90分钟长音频流畅播放

微软开源实时语音模型VibeVoice,0.5B参数实现300毫秒响应,支持90分钟长音频流畅播放

微软开源实时语音模型VibeVoice-Realtime-0.5B,具备极低延迟(300ms开声)、超长音频生成(90分钟不喘)和多角色对话(支持4人)等强大功能。模型轻量高效,支持中英文,情感表达自然,适用于实时语音助手、有声阅读等场景,已在HuggingFace开源。

2025-12-05 16:00
8
0

语音交互的“GPT时刻”:当MOSS学会“直接听、直接说”,传统方案全面过时

语音交互的“GPT时刻”:当MOSS学会“直接听、直接说”,传统方案全面过时

复旦大学MOSS团队开源国内首个端到端语音到语音大模型MOSS-Speech,采用创新层拆分架构,无需传统ASR→LLM→TTS流程即可实现语音问答、情绪模仿和笑声生成。在ZeroSpeech2025评测中WER低至4.1%,情感识别准确率91.2%,中文口语MOS分达4.6接近真人水平。提供48kHz超采样和16kHz轻量版本,支持单张RTX4090实时推理,延迟低于300ms,已开放商用许可。

爱力方 2025-11-20 16:51
80
0

StepFun AI 推出开源音频编辑模型 Step-Audio-EditX,实现音频编辑新体验

StepFun AI 推出开源音频编辑模型 Step-Audio-EditX,实现音频编辑新体验

StepFun AI发布开源音频编辑模型Step-Audio-EditX,这是一个3B参数的创新模型,将音频编辑转化为类似文本编辑的直观操作。通过双代码本标记器和混合语料库训练,模型实现了对语音情感、风格和音色的精确控制。采用大边距学习和强化学习技术,在Step-Audio-Edit-Test基准测试中展现出卓越的编辑效果,还能提升其他TTS系统的音频质量。

2025-11-10 10:50
15
0

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/