TAG:语音大模型

字节跳动发布原生全双工语音大模型Seeduplex:懂倾听、抗干扰

字节跳动发布原生全双工语音大模型Seeduplex:懂倾听、抗干扰

本文介绍字节跳动4月9日发布的原生全双工语音大模型Seeduplex,其突破“边听边说”同步处理框架,抗干扰能力提升,误回复率、误打断率降50%,判停延迟缩短,已在豆包App全量上线,推动AI语音交互向实时自然交互演进,为多模态交互行业发展提供新方向。

2026-04-09 14:54
0
0

语音交互的“GPT时刻”:当MOSS学会“直接听、直接说”,传统方案全面过时

语音交互的“GPT时刻”:当MOSS学会“直接听、直接说”,传统方案全面过时

复旦大学MOSS团队开源国内首个端到端语音到语音大模型MOSS-Speech,采用创新层拆分架构,无需传统ASR→LLM→TTS流程即可实现语音问答、情绪模仿和笑声生成。在ZeroSpeech2025评测中WER低至4.1%,情感识别准确率91.2%,中文口语MOS分达4.6接近真人水平。提供48kHz超采样和16kHz轻量版本,支持单张RTX4090实时推理,延迟低于300ms,已开放商用许可。

爱力方 2025-11-20 16:51
80
0

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/