跟着东谈主工智能手艺的快速发展性爱大师第一季,让机器清醒并奉行复杂的空间任务成为一个遑急究诘场地。
在复杂的 3D 结构拼装中,清醒和奉行讲明书是一个多头绪的挑战:从高层的任务策划,到中层的视觉对应,再到底层的动作奉行,每一步都需要精准的空间清醒能力。
斯坦福 Vision Lab 最新推出的 IKEA Video Manuals 数据集,初度终光显拼装指示在真实场景中的 4D 对都,为究诘这一复杂问题提供了遑急基准。
论文地址:https://arxiv.org/pdf/2411.11409
技俩主页:https://yunongliu1.github.io/ikea-video-manual/
开源代码:https://github.com/yunongLiu1/IKEA-Manuals-at-Work
相助者指出了这项使命在空间智能究诘中的遑急地位:「这项使命将拼装策划从 2D 鼓舞到 3D 空间,通过清醒底层视觉细节(如部件怎样伙同),惩处了空间智能究诘中的一个主要瓶颈。这是首个全面评估模子在真实场景中对邃密 3D 细节清醒能力的基准。」
知名科技博主、前微软战术究诘者 Robert Scoble:「有了这项使命,机器东谈主将不详自主拼装 IKEA 产物,或者通过 AI 启动的 AR 眼镜。」
冲破性的多模态对都拼装一件 IKEA 产物需要清醒多种时局的指示:讲明书提供了任务的举座阐明和关节方法;视频展示了详备的拼装过程;而 3D 模子则界说了部件之间的精准空间干系。
IKEA Video Manuals 初度将这三种模态进行了细粒度的对都:
137 个手册方法被凭证装配视频细分为 1120 个具体子方法,捕捉了完好的拼装过程;
通过 6D Pose 跟踪,精准记载每个部件的空间轨迹;
在视频帧、产物拼装讲明书和 3D 模子之间设立密集对应干系。
丰富的产物类型与场景数据集涵盖了 6 大类 36 种 IKEA 产物,精辟单的凳子到复杂的柜子,呈现了不同难度的拼装任务。每种产物都包含完好的 3D 模子、拼装讲明书和本色拼装视频。
这些视频来自 90 多个不同的环境,包括室表里场景、不同光照条款,真实反馈了产物拼装的万般性。
真实宇宙的复杂性与在实验室环境下集结的数据比拟,来自互联网的真实视频呈现了更丰富的挑战:
部件频繁被手或其他物体笼罩
相似部件识别(思象一下四条一模相同的桌子腿!)
录像机频繁移动、变焦,带来参数臆测的勤苦
室表里场景、不同光照条款下的万般性
这些真实场景下的复杂性性爱大师第一季,让数据集更能反馈本色讹诈中的难点。
意旨的是,究诘团队发现 25% 的产物存在多种有用的拼装规章。比如 Laiva 架子就有 8 种不同的拼装口头!这种万般性真实地反馈了履行宇宙中拼装任务的纯真性。
系统的标注过程为了获取高质料的标注,鄙俗真实视频带来的挑战,究诘团队设立了一套可靠的标注系统:
大香蕉网伊人在线识别并标注相机参数变化的关节帧,确保片断内的一致性
结合 2D-3D 对应点和 RANSAC 算法进行相机参数臆测
通过多视角考据和时序拘谨保证标注质料
中枢任求实验评估基于 IKEA Video Manuals 数据集,团队联想了多个中枢任务来评估现时 AI 系统在清醒和奉众人具拼装,以及空间推理 (spatial reasoning) 方面的能力:
1. 在基于 3D 模子的分割(Segmentation)与姿态臆测 (Pose Estimation)输入 3D 模子和视频帧,要求 AI 完成两个任务:准确分割出特定部件区域,并臆测其在视频中的 6 目田度姿态。实验测试了最新的分割模子 (CNOS, SAM-6D) 和姿态臆测模子 (MegaPose)。
基于 3D 模子的分割
基于 3D 模子的姿态臆测
分析发现它们在以下场景说明欠安:
- 笼罩问题:手部笼罩、近距离拍摄导致部分可见、笼罩引起的深度臆测邪恶
- 特征缺失:阑珊纹理的部件难以分割、对称部件的场地难以判断
- 突出拍摄角度(如俯瞰)导致的方法误判
2. 视频见地分割 Mask Trackin评估了 SAM2 和 Cutie 两个最新的视频跟踪模子。与其他基准数据集比拟,它们在 IKEA Video Manuals 数据集上说明显贵着落:
SAM2: 从其他数据集的 85-90% 降至 73.6%
Cutie: 从 85-87% 降至 54.7%
主要挑战包括:
- 相机通顺导致见地丢失
- 难以分歧外不雅相似的部件(如多个相通的桌腿)
- 长时间跟踪的准确度难以保抓
3. 基于视频的时局拼装团队提议了一个革新的拼装系统,包含关节帧检测、部件识别、姿态臆测和迭代拼装四个方法。实验采纳两种成就:
使用 GPT-4V 自动检测关节帧:恶果不睬思,Chamfer Distance 达 0.55,且 1/3 的测试视频未能完成拼装,反馈 GPT-4V 对拼装关节时刻的识别能力有限;
使用东谈主工标注的关节帧:即便如斯,由于姿态臆测模子的局限性,最终 Chamfer Distance 仍达 0.33
这些实验恶果揭示了现时 AI 模子的两个关节局限:
1、视频清醒能力不及:现时的视频模子对时序信息的分析仍然较弱,频频停留在单帧图像分析的层面
2、空间推理受限:在真实场景的复杂条款下(如光照变化、视角改造、部件笼罩等),现存模子的空间推理能力仍显不及
改日预测IKEA Video Manuals 的推出,通过究诘怎样将拼装指示对都到真实场景,为空间智能究诘提供了一个遑急的评估基准。
思象一下,改日你戴上 AR 眼镜,就能看到 IKEA 产物的每个拼装方法被清亮地投影在目下,系统还能及时教唆你是否装配正确;或者,机器东谈主不详像东谈主类相同,仅通过不雅看视频就学会拼装复杂的产物。IKEA Video Manuals 的推出让这些设思离履行更近了一步。
通过提供真实场景下的多模态数据,这个数据集为空间智能究诘提供了遑急的评估基准。咱们期待看到更多冲破性的进展,让 AI 系统果然清醒和奉行复杂的空间任务。
作家先容第一作家刘雨浓,斯坦福大学算计机科学硕士生,附庸于斯坦福 SVL 实验室(Vision and Learning Lab),由吴佳俊磨真金不怕火指导。本科毕业于爱丁堡大学电子与算计机科学专科(荣誉学位)。曾在得克萨斯大学奥斯汀分校从事究诘实习。现在正在寻找 2025 年秋季入学的博士契机。
吴佳俊,斯坦福大学助理磨真金不怕火,附庸于 SVL 和 SAIL 实验室。麻省理工博士,清华姚班本科。手脚技俩指导磨真金不怕火。
Juan Carlos Niebles,Salesforce AI Research 究诘主任,斯坦福大学算计机科学系兼职磨真金不怕火,斯坦福视觉与学习实验室(SVL)协调主任。在算计机视觉和机器学习边界有凸起孝顺,曾获多项遑急奖项
刘蔚宇,斯坦福大学博士后究诘员,在 CogAI 组和 SVL 实验室从事究诘。专注于机器东谈主感知、建模和交互边界,尽力于于开拓能通过浅陋话语号召完成恒久任务的机器东谈主系统。手脚技俩共同指导。
李曼玲,西北大学算计机科学系助理磨真金不怕火,曾为斯坦福大学博士后,现为斯坦福探员学者。究诘兴味聚合在话语、视觉、机器东谈主偏激社会影响等交叉边界,尽力于于开拓真实且真实的多模态系统。
参考贵府:
https://yunongliu1.github.io/ikea-video-manual/
本文来自微信公众号:微信公众号(ID:null),作家:新智元
告白声明:文内含有的对外跳转一语气(包括不限于超一语气、二维码、口令等时局),用于传递更多信息性爱大师第一季,节约甄选时间,恶果仅供参考,IT之家统共著作均包含本声明。