TAG:评测基准

千问发布原生语言世界模型 Qwen-AgentWorld 推进AI智能体进化

千问大模型发布了Qwen-AgentWorld，全球首个原生语言世界模型。它能统一覆盖代码终端和GUI图形界面等多种复杂环境，实现跨领域知识迁移，使AI从聊天者进化为具备独立操作能力的行动者。推出的AgentWorldBench评测基准基于真实操作数据，确保模型在实际交互中的高效准确，为AI智能体在自动化办公、业务处理等领域带来更智能的体验。

aibase

2026-06-24 16:53

视觉大模型评测遇挑战，首个中国古文字OCR基准开源

文章介绍了首个完整覆盖中国古文字‘七体之变’的OCR评测基准‘Chronicles-OCR’的开源。该基准由腾讯混元大模型等机构联合多所高校与故宫博物院推出，包含2800张高质量图像，用于评估AI模型识别古文字的能力。评测结果显示，主流视觉大模型在古文字识别上表现不佳，最高准确率仅27.1%，并揭示了模型在微观笔画识别上的短板。这一基准为未来视觉大模型从‘识字’走向‘读史’提供了明确优化方向。

aibase

2026-05-19 18:42

具身大模型：先对齐评测，再对齐世界

本文剖析具身智能“演示火热却难落地”的现状，指出仿真与现实鸿沟及评测标准缺失的痛点。文章重点介绍真实机器人评测平台RoboChallenge，通过最新测试数据揭示当前模型在精细操作上的短板，强调建立统一、客观的评测基准与排行榜是推动具身大模型从实验室走向真实世界的关键前提。

机器人大讲堂

2026-04-01 17:48

AI外呼迈入精准时代声网美团发布首个行业评测基准

声网与美团联合发布首个AI外呼行业评测基准VoiceAgentEval，通过真实业务场景、多维度评估和150种对话模拟，推动AI模型从技术参数转向业务实效，让AI外呼更具人性化和实用性。

aibase

2026-02-10 15:58

全球首个物理AI全模态测试基准发布重塑AI与现实连接

飞捷科思智能科技与复旦大学联合发布全球首个面向真实物理世界的统一全模态评测基准FysicsWorld，旨在解决AI在物理世界感知与理解上的短板。该基准包含16大类高难度任务，要求AI整合视觉、听觉、语言等多模态信息进行深度推理，并引入防作弊机制确保测试有效性。这一成果为AI从虚拟对话迈向真实行动提供了关键评估工具，加速具身智能与机器人技术的发展。

资讯中国

2025-12-19 17:42

通知

尊敬的用户

user

TAG:评测基准

千问发布原生语言世界模型 Qwen-AgentWorld 推进AI智能体进化

视觉大模型评测遇挑战，首个中国古文字OCR基准开源

具身大模型：先对齐评测，再对齐世界

AI外呼迈入精准时代声网美团发布首个行业评测基准

全球首个物理AI全模态测试基准发布重塑AI与现实连接

快讯

美股三大指数震荡整理，芯片股走高，光通信板块大涨

多空胶着恒指震荡整理，AI景气外溢主导行情波动

宠物AI公司PurrPurr获阿尔法公社投资首年GMV目标5000万

隆源股份业绩说明会回应今年新能源汽车零部件领域新客户洽谈中

中国品牌市占率达75%，4月我国汽车销量约252.6万辆，新能源汽车出口贡献度近五成

英特尔涨超8%，CEO陈立武透露与英伟达合作开发新品；与台积电成立芯片企业，索尼涨近7%；抗病毒概念股普涨，Moderna涨7.9%

4月汽车出口增长51% 国内零售下跌超20%

4月全国新能源汽车渗透率历史首次突破60%，燃油车零售同比暴跌37%

港股复盘：强势翻红芯片概念股冲高回落短期风险需警惕

申昊科技拟设具身智能子公司加码人形机器人业务

推荐专栏

爱力方

机器人大讲堂

user

TAG:评测基准

千问发布原生语言世界模型 Qwen-AgentWorld 推进AI智能体进化

视觉大模型评测遇挑战，首个中国古文字OCR基准开源

具身大模型：先对齐评测，再对齐世界

AI外呼迈入精准时代 声网美团发布首个行业评测基准

全球首个物理AI全模态测试基准发布 重塑AI与现实连接

快讯

美股三大指数震荡整理，芯片股走高，光通信板块大涨

多空胶着恒指震荡整理，AI景气外溢主导行情波动

宠物AI公司PurrPurr获阿尔法公社投资 首年GMV目标5000万

隆源股份业绩说明会回应今年新能源汽车零部件领域新客户洽谈中

中国品牌市占率达75%，4月我国汽车销量约252.6万辆，新能源汽车出口贡献度近五成

英特尔涨超8%，CEO陈立武透露与英伟达合作开发新品；与台积电成立芯片企业，索尼涨近7%；抗病毒概念股普涨，Moderna涨7.9%

4月汽车出口增长51% 国内零售下跌超20%

4月全国新能源汽车渗透率历史首次突破60%，燃油车零售同比暴跌37%

港股复盘：强势翻红 芯片概念股冲高回落 短期风险需警惕

申昊科技拟设具身智能子公司 加码人形机器人业务

推荐专栏

爱力方

机器人大讲堂

AI外呼迈入精准时代声网美团发布首个行业评测基准

全球首个物理AI全模态测试基准发布重塑AI与现实连接

宠物AI公司PurrPurr获阿尔法公社投资首年GMV目标5000万

港股复盘：强势翻红芯片概念股冲高回落短期风险需警惕

申昊科技拟设具身智能子公司加码人形机器人业务