RoboChallenge测评:π0、π0.5领先,自变量WALL-OSS-Flow零成功率引关注

2025-12-04 12:31:22     来源:

在具身智能竞速加速升温的当下,真实场景的客观评测成为检验机器人模型能力最关键的一环。

近日,“具身进化论”在查询最新发布的RoboChallenge测试结果时注意到,π0、π0.5 在成功率上遥遥领先其他开源模型。自变量机器人(X Square Robot)的大模型wall-oss-flow虽然在多次企业自我宣传中提到,“基本上和PI、和google在同一个水平线上”,但是在多个任务上成功率偏低。根据公开的测评记录,其在31次测试中大部分成功率为零,这一表现引发业内对其大模型真实能力的讨论。

RoboChallenge是全球首个具身智能的大规模真机评测平台,也是目前行业内最受关注的真实物理机器人评测平台,由Dexmal原力灵机联合Hugging Face发布,被视作“机器人界的硬核基准”。其最大特点是真机真测:评测同时接入UR5、Franka、Aloha 双臂系统以及国产ARX-5 四类主流机器人,统一软件栈并配备多台RGB-D深度相机,以确保任务在高度一致的物理条件下进行。

平台的任务覆盖柔性物体处理、双臂协作、多阶段顺序动作等真实世界的关键难点。其中Table30场景包含30个具有代表性的日常任务,包括叠抹布、整理果篮、插花、开关水龙头等,难度从基础操作递进到长链条组合动作。

据了解,RoboChallenge 之所以被认为更加客观,是因为其采用了 “任务成功率 + 进度评分”的双指标体系。前者统计任务是否完整成功,后者将任务拆解为多个关键阶段并按推进程度累计分值,即便任务未完成也能反映模型做到哪一步,为能力评估提供更细粒度的信息。

在该评测体系中,多款主流开源模型已完成测试。“具身进化论”对比发现,基于Physical Intelligence (Pi)系列构建的π0和π0.5是官方重点基线,它们在成功率与进度得分上整体领先其他开源模型,特别是π0.5,显示出更成熟的任务执行能力。

π0测试结果

π0.5测试结果

相比之下,自变量的wall-oss-flow 在相同条件下的表现明显偏弱。测评结果显示:wall-oss-flow共测试31次,其中2次成功率为60%,1次成功率为50%,1次成功率为20%,其余所有任务成功率均为0。

wall-oss-flow测试结果

“具身进化论”从进度分情况看到,模型虽然在部分任务中能完成初段动作,但多数情况下未能完成关键步骤,执行链条往往在中段被迫中断。这与平台强调的“多阶段连续操作能力”形成明显差距。

公开信息显示,自变量2023年成立,创始人兼CEO为王潜。今年9月,自变量发布其开源大模型WALL-OSS,自变量在官方宣传稿中强调该模型“具备强大的泛化性和推理能力,在长程操作任务方面表现优于其他基础模型”。

王潜甚至曾在接受媒体采访时表示:“我们(自变量)的模型水平基本上和PI、和google在同一个水平线上。”

但此次RoboChallenge 的评测结果显示,自变量模型的水平、能力在真实机器人执行任务时未能体现,与PI的模型(π0 和 π0.5)也存在明显差距。

一位具身智能从业者对“具身进化论”分析,RoboChallenge的独特价值正是在于提供透明、可复现的真机评估环境,避免主观展示带来的偏差。随着越来越多模型加入测评,业内对“模型真实能力差异”有了更清晰的认知。

对具身智能行业而言,此次结果再次提醒:真正的竞争不在PR宣传中,而在三方认可的评测,学术基准线,以及机器人能否稳定完成任务的那一刻。

真实世界,正在成为检验大模型能力的最终标准。而认识到差距,正是追赶的开始。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

利郎牵头起草国内首批拒水羽绒团体标准,定义“抗湿冷羽绒”新赛道
康缘药业猛攻4100亿市场,今年第8款中药新药来了
探路者6.8亿收购双芯企:卡位AI端侧赛道 赋能户外智能生态
“舒客宝贝·关爱小乳牙”公益行走进四川绵阳守护儿童口腔健康
瑞尔特联合京东启动“空间魔方入住计划”,携手五大知名品牌共筑智慧卫浴新生态
多元资产配置应对波动,鹏华易选稳健3个月持有期FOF顺势发行
央视网聚焦Mom's Garden科学路径 任我行液体钙科学实证驱动骨骼健康领域产业升级
全球华人的骄傲!张学政荣登“华人榜”,用实力粉碎小人无端抹黑
AI赋能平安保险电话服务,构建综金服务生态
爱博医疗携手银河通用打造具身智能落地应用新场景,规模化布局隐形眼镜24小时智慧门店
永泰能源沙洲电力荣获“电力安全文化建设精品工程”二等奖
永泰能源华兴公司荣获“丝路杯”技能竞赛佳绩 彰显职工技术素养
利欧董事长王相荣引领昂狮蓝图项目,与青年共成长
HiLock海洛克:赋能高校科研,破解纳米分散难题
GENEIII仅三生物荣膺 毕马威中国第五届“消费50”标杆企业
雷诺表双子星·马年限定腕表全球首发,机械金马演绎“马到成功”!
吉姆·罗杰斯到访欣旺达,“欣旺达·2025罗杰斯全球赛艇精英赛”圆满落幕
获奖名单揭晓!第五届未来视听创新大赛集结视听新势力!
瑞幸首家无障碍门店开业,打造“残健融合、职教一体”实践平台
新朋友“蓝”不住 庞巴迪BRP(中国)2026新品预售开启
聚通装饰集团发布顶级私宅精造品牌「美锦墅」,定义健康豪宅新标准
泸州银行:从标准化到精准化,量身定制金融民生关切
AI 赋能乡镇新零售,汇通达携手生态伙伴共建数智商业新生态
悦可诗:「天鹅针」以治疗型产品重塑「颈部抗衰」赛道, 开辟百亿蓝海
绿电产业释放积极信号,业内公司业绩向好
艾德金融新加坡业务再迈进,专属交易程序正式推出
2025MorketingAwards灵眸奖揭晓!impact商业项目荣获营销策略组铜奖
国际残疾人日微芒音乐会长沙上演,音乐搭建残健共融桥梁
掘金东南亚新风口!盈拓展览携手2026年菲律宾国际建材展WORLDBEX开启官方直通车
人瑞人才捐款100万港元支持大埔宏福苑受灾居民