超越Gemini3、GPT5.1!阿里千问登顶空间推理全球冠军
|
快科技11月26日消息,今日,空间推理基准测试SpatialBench更新了最新一期榜单,阿里千问的视觉理解模型Qwen3-VL、Qwen2.5-VL位列头两名,超越Gemini 3、GPT-5.1、Claude Sonnet4.5等国际顶尖模型。 SpatialBench榜单显示,Qwen3-VL-235B和Qwen2.5-VL-72B分别斩获13.5和12.9分,领先于Gemini 3.0 Pro Preview(9.6) 、GPT-5.1(7.5)、Claude Sonnet 4.5等海外顶尖模型。 然而,AI大模型的整体表现距离人类仍有差距,人类基准线约为80分左右,可专业处理电路分析、CAD 工程和分子生物学等复杂空间推理任务,目前大模型还无法完全自动化完成此类工作。 据悉,Qwen2.5-VL于2024年开源,Qwen3-VL是阿里在2025年开源的新一代视觉理解模型。 Qwen3-VL在视觉感知和多模态推理方面实现重大突破,在32项核心能力测评中超过Gemini2.5-Pro和GPT-5,不但可调用抠图、搜索等工具完成带图推理”,也可以凭借一张设计草图或一段小游戏视频直接视觉编程”。 同时,Qwen3-VL专门增强了3D检测能力,可以更好地感知空间,基于Qwen3-VL,机器人更好地判断物体方位、视角变化和遮挡关系,实现远处苹果的精准抓取。 目前,Qwen3-VL已开源不同版本,包括2B、4B、8B、32B等密集模型以及30B-A3B、235B-A22B等MoE模型,每个模型都有指令版和推理版两款,是当下最受企业和开发者欢迎的开源视觉理解模型。同时,Qwen3-VL模型也已上线千问APP,用户可免费体验。 据了解,SpatialBench是一项近年来兴起的第三方空间推理基准测试榜单,主要聚焦多模态模型在空间、结构、路径等方面的综合推理能力,被AI社区视为是衡量具身智能”进展的新兴测试标准之一。 SpatialBench不仅测试模型已知的知识,还测试模型在二维和三维空间中感知”和操控抽象概念的能力,这对具身智能的落地尤为关键。 |
在线投稿
-
相关阅读
-
故事是编的、奖是买的、专家是雇的,揭秘网络时代虚假信息泛滥的背后
-
1岁男童输液后抽搐去世 家属质疑医院应对措施
-
幼儿园小朋友裹被子开溜被老师抓包,一场温馨的追逐战上演
-
张雪机车郑州有门店称“已无现车” 夺冠引爆市场热情
-
俄军宣布控制卢甘斯克全境,战局再起波澜
-
张雪机车员工为了热爱裸辞投奔张雪 热血逐梦之路
-
日本球迷徒手清理垃圾 网友批其作秀 素质之争引爆网络
-
“粉底液将军”背后观众在反感什么 过度美化消解阳刚之气
-
精彩图片
-
严重污染!印度首都河面漂浮大量有毒泡沫
-
金饰价格突破800元/克大关
-
绝美!北京朝霞遇到平流雾
-
美国给以色列派先遣队,援助的“萨德”也将启用?
-
以总理住宅遭无人机袭击 以方反应强烈
-
美政府紧急调查以色列报复伊朗计划外泄事件
-
以军袭击加沙地带北部拜特拉希亚地区已致73人死亡
-
加沙民众:每时每刻都有屠杀发生 我们已是活死人
-
新帖速递
-
故事是编的、奖是买的、专家是雇的,揭秘网络时代虚假信息泛滥的背后
-
1岁男童输液后抽搐去世 家属质疑医院应对措施
-
幼儿园小朋友裹被子开溜被老师抓包,一场温馨的追逐战上演
-
张雪机车郑州有门店称“已无现车” 夺冠引爆市场热情
-
俄军宣布控制卢甘斯克全境,战局再起波澜
-
张雪机车员工为了热爱裸辞投奔张雪 热血逐梦之路
-
日本球迷徒手清理垃圾 网友批其作秀 素质之争引爆网络
-
“粉底液将军”背后观众在反感什么 过度美化消解阳刚之气

精彩评论文明上网理性发言,请遵守评论服务协议
共0条评论