TAG:评测基准
具身大模型:先对齐评测,再对齐世界
本文剖析具身智能“演示火热却难落地”的现状,指出仿真与现实鸿沟及评测标准缺失的痛点。文章重点介绍真实机器人评测平台RoboChallenge,通过最新测试数据揭示当前模型在精细操作上的短板,强调建立统一、客观的评测基准与排行榜是推动具身大模型从实验室走向真实世界的关键前提。
AI外呼迈入精准时代 声网美团发布首个行业评测基准
声网与美团联合发布首个AI外呼行业评测基准VoiceAgentEval,通过真实业务场景、多维度评估和150种对话模拟,推动AI模型从技术参数转向业务实效,让AI外呼更具人性化和实用性。
全球首个物理AI全模态测试基准发布 重塑AI与现实连接
飞捷科思智能科技与复旦大学联合发布全球首个面向真实物理世界的统一全模态评测基准FysicsWorld,旨在解决AI在物理世界感知与理解上的短板。该基准包含16大类高难度任务,要求AI整合视觉、听觉、语言等多模态信息进行深度推理,并引入防作弊机制确保测试有效性。这一成果为AI从虚拟对话迈向真实行动提供了关键评估工具,加速具身智能与机器人技术的发展。
AI振兴网络视听每一帧,但人仍是不可替代的灵魂
2026-04-15
0 浏览
中国工程院院士郑纬民:从模型服务走向词元服务,是智能体时代对基础设施的必然要求
2026-04-15
0 浏览
微软接手OpenAI挪威星际之门项目 加码AI算力布局
2026-04-15
0 浏览
让AI帮忙买保险结果付款给了陌生人?每经记者亲测:通用AI和保险AI用谁买保险更靠谱
2026-04-15
0 浏览
爱奇艺创始人、首席执行官龚宇:期待AI生成的高品质影视作品
2026-04-15
0 浏览
激进投资者施压叠加AI效率提升 Snap启动16%裁员计划 股价盘前大涨11%
2026-04-15
0 浏览
地平线副总裁吕鹏:物理AI时代需打造超级平台,舱驾融合是智能电动2026发展方向
2026-04-15
0 浏览
加纳驻华大使携手APUS签署战略合作,启动KOJO BONSU GEN Z AI CLUB
2026-04-15
0 浏览
AI时代背景下初高中学习:真人老师与AI工具谁更能提升学习效果
2026-04-15
0 浏览
佰维存储Q1净利28.99亿元实现扭亏为盈 AI端侧存储收入增近5倍
2026-04-15
0 浏览