TAG:评测基准
视觉大模型评测遇挑战,首个中国古文字OCR基准开源
文章介绍了首个完整覆盖中国古文字‘七体之变’的OCR评测基准‘Chronicles-OCR’的开源。该基准由腾讯混元大模型等机构联合多所高校与故宫博物院推出,包含2800张高质量图像,用于评估AI模型识别古文字的能力。评测结果显示,主流视觉大模型在古文字识别上表现不佳,最高准确率仅27.1%,并揭示了模型在微观笔画识别上的短板。这一基准为未来视觉大模型从‘识字’走向‘读史’提供了明确优化方向。
具身大模型:先对齐评测,再对齐世界
本文剖析具身智能“演示火热却难落地”的现状,指出仿真与现实鸿沟及评测标准缺失的痛点。文章重点介绍真实机器人评测平台RoboChallenge,通过最新测试数据揭示当前模型在精细操作上的短板,强调建立统一、客观的评测基准与排行榜是推动具身大模型从实验室走向真实世界的关键前提。
AI外呼迈入精准时代 声网美团发布首个行业评测基准
声网与美团联合发布首个AI外呼行业评测基准VoiceAgentEval,通过真实业务场景、多维度评估和150种对话模拟,推动AI模型从技术参数转向业务实效,让AI外呼更具人性化和实用性。
全球首个物理AI全模态测试基准发布 重塑AI与现实连接
飞捷科思智能科技与复旦大学联合发布全球首个面向真实物理世界的统一全模态评测基准FysicsWorld,旨在解决AI在物理世界感知与理解上的短板。该基准包含16大类高难度任务,要求AI整合视觉、听觉、语言等多模态信息进行深度推理,并引入防作弊机制确保测试有效性。这一成果为AI从虚拟对话迈向真实行动提供了关键评估工具,加速具身智能与机器人技术的发展。
美股三大指数震荡整理,芯片股走高,光通信板块大涨
2026-05-11
0 浏览
多空胶着恒指震荡整理,AI景气外溢主导行情波动
2026-05-11
0 浏览
宠物AI公司PurrPurr获阿尔法公社投资 首年GMV目标5000万
2026-05-11
0 浏览
隆源股份业绩说明会回应今年新能源汽车零部件领域新客户洽谈中
2026-05-11
0 浏览
中国品牌市占率达75%,4月我国汽车销量约252.6万辆,新能源汽车出口贡献度近五成
2026-05-11
0 浏览
4月汽车出口增长51% 国内零售下跌超20%
2026-05-11
0 浏览
4月全国新能源汽车渗透率历史首次突破60%,燃油车零售同比暴跌37%
2026-05-11
0 浏览
港股复盘:强势翻红 芯片概念股冲高回落 短期风险需警惕
2026-05-11
0 浏览
申昊科技拟设具身智能子公司 加码人形机器人业务
2026-05-11
0 浏览