TAG:语音合成

xAI全面升级Grok Voice，新增21款多语言旗舰语音

xAI对Grok Voice系统进行重大升级，一次性推出21款全新旗舰级语音，覆盖客服、教育、广告等多领域。同时深度优化原有5款经典语音，提升自然表达。新增Grok Voice Agent Builder平台，支持实时语音智能体API和TTS API，原生多语言支持超25种语言，并引入精细节奏控制标签。开发者可通过Playground免费试用。

aibase

2026-07-07 10:18

微软开源语音AI VibeVoice 单次处理90分钟多说话人对话 GitHub获27K星

微软开源了前沿语音AI家族VibeVoice，包含自动语音识别(ASR)和文本转语音(TTS)模型，支持长达90分钟的多说话人对话处理，GitHub已获27K Star。项目采用MIT许可，支持本地部署，无需云端费用，为语音合成领域带来创新突破。

aibase

2026-03-30 15:33

AI革新影视配音通义开源Fun-CineForge攻克多人对话

通义实验室开源影视级多场景配音大模型Fun-CineForge，突破传统AI配音瓶颈，实现口型同步、情绪表达、音色一致性和时间对齐四大核心挑战。该模型首次引入时间模态，结合视觉、文本和音频多模态融合，填补了多人对话配音的空白，在影视、动画等高要求场景中表现卓越。

aibase

2026-03-16 17:38

阿里通义千问开源Qwen3-TTS：97ms超低延迟 3秒克隆音色改变实时AI语音格局

阿里通义千问团队开源Qwen3-TTS语音合成模型，采用端到端架构实现97ms超低延迟，支持3秒音色克隆和跨语言迁移，并能通过自然语言指令设计全新音色。该模型提供1.7B和0.6B双版本，适用于实时交互、多语言内容创作等场景，大幅降低AI语音应用门槛。

aibase

2026-01-23 13:57

智元机器人携手MiniMax推出全模态AI机器人

智元机器人与MiniMax达成深度合作，将AI语音技术与机器人结合，打造拥有专属人设和个性化交互的全模态AI机器人。通过定制化提示词策略和音乐生成模型，提升用户沉浸感，满足家庭、办公等多场景需求。

aibase

2026-01-05 17:06

智元联手MiniMax打造个性化机器人

MiniMax与智元机器人达成战略合作，为后者提供从文本到语音的全流程AI技术支持，实现深度定制的交互体系和“千人千面”的个性化音色合成。此次合作标志着具身智能从“硬核运动”向“情感交互”迈出关键一步，将提升人形机器人在导览、养老及商业服务等场景中的用户体验。

aibase

2026-01-05 17:05

Resemble AI 开源旗舰 TTS 模型防伪水印助力商业应用

Resemble AI开源旗舰级TTS模型Chatterbox Turbo，仅需5秒参考音频即可精准克隆语音，延迟低至150毫秒，性能超越闭源竞品。模型内置防伪水印功能，支持商业化应用，旨在重塑语音合成市场格局。

aibase

2025-12-29 10:16

阿里巴巴发布Qwen新模型三秒音频即可克隆声音

阿里巴巴Qwen团队发布两款创新AI语音模型：Qwen3-TTS-VD-Flash可根据文本描述生成定制化声音，支持情感和节奏控制；Qwen3-TTS-VC-Flash仅需3秒音频即可克隆声音，支持十种语言，性能超越竞争对手。两款模型均通过阿里云API提供，适用于广告、配音及多语言声音复制等场景。

aibase

2025-12-24 16:10

谷歌Gemini TTS 2.5发布：支持24种语言与情绪化语音

Google正式推出Gemini TTS 2.5文本转语音模型，主打情绪级表达、上下文自适应节奏及24语种多角色对话功能。新模型可一键切换音色与语速，适用于有声书、游戏NPC等场景，显著提升语音自然度与沉浸感。开发者现可免费测试，预计2025年第一季度投入生产环境。

aibase

2025-12-11 15:51

阿里推出Qwen3-TTS语音合成模型 49种音色可选

阿里通义千问发布新一代语音合成模型Qwen3-TTS，免费向全球开发者开放。该模型提供49种多角色音色，支持10种主流语言和10种中国方言，在词错误率（WER）上表现优异，拟人化程度高。具备自适应语速、实时流式合成等功能，适用于播客、有声书、游戏NPC等多种场景，且默认支持商业用途，无需额外授权费。

爱力方

2025-12-11 12:02

Qwen3-TTS升级多样化声音提升语音合成自然度

Qwen3-TTS语音合成模型迎来全面升级，新增超过49种高品质音色，覆盖不同性别、年龄和地域特征，支持10种主要语言及多种方言，显著提升语音自然度和拟人化效果。通过简单易用的API接口，用户可轻松生成流畅自然的语音内容，满足多样化场景需求。

aibase

2025-12-11 10:23

阿里Qwen3-TTS发布：49种音色支持10语9方言，准确率超越主流商用模型

阿里巴巴推出Qwen3-TTS语音合成模型，支持49种音色、10种语言和9种方言，实现零样本多角色切换。该模型在WER基准测试中超越主流商用引擎，提供免费额度并已上线阿里云，适用于教育、客服、直播等场景。

aibase

2025-12-08 15:00

微软开源实时语音模型VibeVoice，0.5B参数实现300毫秒响应，支持90分钟长音频流畅播放

微软开源实时语音模型VibeVoice-Realtime-0.5B，具备极低延迟（300ms开声）、超长音频生成（90分钟不喘）和多角色对话（支持4人）等强大功能。模型轻量高效，支持中英文，情感表达自然，适用于实时语音助手、有声阅读等场景，已在HuggingFace开源。

aibase

2025-12-05 16:00

语音交互的“GPT时刻”：当MOSS学会“直接听、直接说”，传统方案全面过时

复旦大学MOSS团队开源国内首个端到端语音到语音大模型MOSS-Speech，采用创新层拆分架构，无需传统ASR→LLM→TTS流程即可实现语音问答、情绪模仿和笑声生成。在ZeroSpeech2025评测中WER低至4.1%，情感识别准确率91.2%，中文口语MOS分达4.6接近真人水平。提供48kHz超采样和16kHz轻量版本，支持单张RTX4090实时推理，延迟低于300ms，已开放商用许可。

爱力方

2025-11-20 16:51

StepFun AI 推出开源音频编辑模型 Step-Audio-EditX，实现音频编辑新体验

StepFun AI发布开源音频编辑模型Step-Audio-EditX，这是一个3B参数的创新模型，将音频编辑转化为类似文本编辑的直观操作。通过双代码本标记器和混合语料库训练，模型实现了对语音情感、风格和音色的精确控制。采用大边距学习和强化学习技术，在Step-Audio-Edit-Test基准测试中展现出卓越的编辑效果，还能提升其他TTS系统的音频质量。

aibase

2025-11-10 10:50

通知

尊敬的用户

user

TAG:语音合成

xAI全面升级Grok Voice，新增21款多语言旗舰语音

微软开源语音AI VibeVoice 单次处理90分钟多说话人对话 GitHub获27K星

AI革新影视配音通义开源Fun-CineForge攻克多人对话

阿里通义千问开源Qwen3-TTS：97ms超低延迟 3秒克隆音色改变实时AI语音格局

智元机器人携手MiniMax推出全模态AI机器人

智元联手MiniMax打造个性化机器人

Resemble AI 开源旗舰 TTS 模型防伪水印助力商业应用

阿里巴巴发布Qwen新模型三秒音频即可克隆声音

谷歌Gemini TTS 2.5发布：支持24种语言与情绪化语音

阿里推出Qwen3-TTS语音合成模型 49种音色可选

Qwen3-TTS升级多样化声音提升语音合成自然度

阿里Qwen3-TTS发布：49种音色支持10语9方言，准确率超越主流商用模型

微软开源实时语音模型VibeVoice，0.5B参数实现300毫秒响应，支持90分钟长音频流畅播放

语音交互的“GPT时刻”：当MOSS学会“直接听、直接说”，传统方案全面过时

StepFun AI 推出开源音频编辑模型 Step-Audio-EditX，实现音频编辑新体验

快讯

美股三大指数震荡整理，芯片股走高，光通信板块大涨

多空胶着恒指震荡整理，AI景气外溢主导行情波动

宠物AI公司PurrPurr获阿尔法公社投资首年GMV目标5000万

隆源股份业绩说明会回应今年新能源汽车零部件领域新客户洽谈中

中国品牌市占率达75%，4月我国汽车销量约252.6万辆，新能源汽车出口贡献度近五成

英特尔涨超8%，CEO陈立武透露与英伟达合作开发新品；与台积电成立芯片企业，索尼涨近7%；抗病毒概念股普涨，Moderna涨7.9%

4月汽车出口增长51% 国内零售下跌超20%

4月全国新能源汽车渗透率历史首次突破60%，燃油车零售同比暴跌37%

港股复盘：强势翻红芯片概念股冲高回落短期风险需警惕

申昊科技拟设具身智能子公司加码人形机器人业务

推荐专栏

爱力方

机器人大讲堂

user

TAG:语音合成

xAI全面升级Grok Voice，新增21款多语言旗舰语音

微软开源语音AI VibeVoice 单次处理90分钟多说话人对话 GitHub获27K星

AI革新影视配音 通义开源Fun-CineForge攻克多人对话

阿里通义千问开源Qwen3-TTS：97ms超低延迟 3秒克隆音色 改变实时AI语音格局

智元机器人携手MiniMax推出全模态AI机器人

智元联手MiniMax打造个性化机器人

Resemble AI 开源旗舰 TTS 模型 防伪水印助力商业应用

阿里巴巴发布Qwen新模型 三秒音频即可克隆声音

谷歌Gemini TTS 2.5发布：支持24种语言与情绪化语音

阿里推出Qwen3-TTS语音合成模型 49种音色可选

Qwen3-TTS升级 多样化声音提升语音合成自然度

阿里Qwen3-TTS发布：49种音色支持10语9方言，准确率超越主流商用模型

微软开源实时语音模型VibeVoice，0.5B参数实现300毫秒响应，支持90分钟长音频流畅播放

语音交互的“GPT时刻”：当MOSS学会“直接听、直接说”，传统方案全面过时

StepFun AI 推出开源音频编辑模型 Step-Audio-EditX，实现音频编辑新体验

快讯

美股三大指数震荡整理，芯片股走高，光通信板块大涨

多空胶着恒指震荡整理，AI景气外溢主导行情波动

宠物AI公司PurrPurr获阿尔法公社投资 首年GMV目标5000万

隆源股份业绩说明会回应今年新能源汽车零部件领域新客户洽谈中

中国品牌市占率达75%，4月我国汽车销量约252.6万辆，新能源汽车出口贡献度近五成

英特尔涨超8%，CEO陈立武透露与英伟达合作开发新品；与台积电成立芯片企业，索尼涨近7%；抗病毒概念股普涨，Moderna涨7.9%

4月汽车出口增长51% 国内零售下跌超20%

4月全国新能源汽车渗透率历史首次突破60%，燃油车零售同比暴跌37%

港股复盘：强势翻红 芯片概念股冲高回落 短期风险需警惕

申昊科技拟设具身智能子公司 加码人形机器人业务

推荐专栏

爱力方

机器人大讲堂

AI革新影视配音通义开源Fun-CineForge攻克多人对话

阿里通义千问开源Qwen3-TTS：97ms超低延迟 3秒克隆音色改变实时AI语音格局

Resemble AI 开源旗舰 TTS 模型防伪水印助力商业应用

阿里巴巴发布Qwen新模型三秒音频即可克隆声音

Qwen3-TTS升级多样化声音提升语音合成自然度

宠物AI公司PurrPurr获阿尔法公社投资首年GMV目标5000万

港股复盘：强势翻红芯片概念股冲高回落短期风险需警惕

申昊科技拟设具身智能子公司加码人形机器人业务