TAG:语音技术
OpenAI发布三款实时语音模型,GPT-5级推理能力落地
OpenAI最新推出三款实时语音模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。GPT-Realtime-2作为首款具备GPT-5级推理能力的语音工具,能实现自然流畅对话、复杂逻辑推理和实时处理打断,攻克语音交互中的延迟高、无法自然打断等痛点。另外两款模型分别专注于多语言翻译和低延迟转录,通过Realtime API提供,标志着AI语音交互从简单响应向深度实时理解的跨越。
阿里推出Qwen3-TTS语音合成模型 49种音色可选
阿里通义千问发布新一代语音合成模型Qwen3-TTS,免费向全球开发者开放。该模型提供49种多角色音色,支持10种主流语言和10种中国方言,在词错误率(WER)上表现优异,拟人化程度高。具备自适应语速、实时流式合成等功能,适用于播客、有声书、游戏NPC等多种场景,且默认支持商业用途,无需额外授权费。
巴黎AI语音公司Gradium融资7000万美元
法国AI语音初创公司Gradium宣布完成7000万美元种子轮融资,创欧洲语音AI领域新纪录。公司主打超低延迟和高情感表达的音频语言模型,支持多语言实时响应,计划扩展团队和全球市场,与OpenAI等竞争下一代人机交互基础设施。
Step-Audio-EditX 发布:30亿参数音频 LLM 打开语音“可编辑时代”
StepFun AI发布开源项目Step-Audio-EditX,基于30亿参数音频语言模型,首次将语音编辑转化为类似文本标记级别的可控操作。该模型通过双码本分词架构和大间隔学习技术,实现情感、语调、风格及副语言特征的精准编辑,在中文情感准确率上从57.0%提升至77.7%。项目全栈开源,大幅降低语音编辑研究门槛,让开发者能像编辑文本一样直观操作语音。
美股三大指数震荡整理,芯片股走高,光通信板块大涨
2026-05-11
0 浏览
多空胶着恒指震荡整理,AI景气外溢主导行情波动
2026-05-11
0 浏览
宠物AI公司PurrPurr获阿尔法公社投资 首年GMV目标5000万
2026-05-11
0 浏览
隆源股份业绩说明会回应今年新能源汽车零部件领域新客户洽谈中
2026-05-11
0 浏览
中国品牌市占率达75%,4月我国汽车销量约252.6万辆,新能源汽车出口贡献度近五成
2026-05-11
0 浏览
4月汽车出口增长51% 国内零售下跌超20%
2026-05-11
0 浏览
4月全国新能源汽车渗透率历史首次突破60%,燃油车零售同比暴跌37%
2026-05-11
0 浏览
港股复盘:强势翻红 芯片概念股冲高回落 短期风险需警惕
2026-05-11
0 浏览
申昊科技拟设具身智能子公司 加码人形机器人业务
2026-05-11
0 浏览