TAG:多语言支持

Hume AI开源TADA模型 手机端可流畅运行700秒长音频

Hume AI开源TADA模型 手机端可流畅运行700秒长音频

Hume AI开源了其最新TTS模型TADA,采用文本-声学双对齐架构,实现5倍速生成与零内容幻觉,支持多语言并在低功耗设备上运行长达700秒长音频。该模型还支持同步转录,提升语音交互与内容创作效率。

2026-03-12 14:49
0
0

谷歌AI虚拟形象支持24种语言打破语言障碍

谷歌AI虚拟形象支持24种语言打破语言障碍

谷歌宣布对其AI虚拟形象和AI配音功能进行重大升级,新增7种语言支持,现已覆盖24种语言。此次升级通过原生语音模型和多角色协同技术,使AI发音更自然、更具情感,大幅提升了企业培训、客户服务和全球化内容创作的效率与体验,推动跨语言沟通进入无障碍时代。

2026-02-25 11:02
22
0

Mistral 发布全新语音转文字 AI 模型,主打极致低延迟

Mistral 发布全新语音转文字 AI 模型,主打极致低延迟

Mistral AI发布两款全新语音转文字模型Voxtral Mini Transcribe V2和Voxtral Realtime,主打极致低延迟与高性价比。实时模型延迟最低可配置为200毫秒,支持本地部署保障隐私;批量处理模型在词错率基准测试中表现优异,API价格低至每分钟0.003美元。两款模型均原生支持中文、英语等13种语言,适用于虚拟助手、呼叫中心等多种商业场景。

2026-02-11 16:57
7
0

Mistral AI发布Voxtral Transcribe 2语音模型,中文实时转录延迟低于0.2秒

Mistral AI发布Voxtral Transcribe 2语音模型,中文实时转录延迟低于0.2秒

Mistral AI发布Voxtral Transcribe 2语音模型系列,包括Voxtral Realtime实时转录模型和Voxtral Mini Transcribe V2批量处理模型。Realtime模型延迟低于0.2秒,支持音频即时转录,并已开源权重;Mini版在准确率上超越GPT-4o mini等竞品,支持3小时长音频处理。两款模型均支持中文等13种语言,定价具有竞争力,适用于实时对话、同声传译及批量转录场景。

2026-02-05 17:04
550
0

Meta发布Omnilingual ASR系统:实现1600种语言的语音识别

Meta发布Omnilingual ASR系统:实现1600种语言的语音识别

Meta推出革命性的Omnilingual ASR自动语音识别系统,支持1600种语言的语音转录,其中500种语言首次获得AI覆盖。该系统采用上下文学习技术,用户只需提供少量样本即可扩展识别能力,理论上可支持超过5400种语言。Meta同时开源了包含350种语言的大型数据集,帮助开发者为特定地区构建定制化语音识别模型,显著推进全球语言无障碍进程。

爱力方 2025-11-11 12:25
40
0

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/