ai 巨乳

你的位置:小表妹 > ai 巨乳 > 性爱大师第一季 全自动拼装产物,斯坦福发布 IKEA Video Manuals 数据集

性爱大师第一季 全自动拼装产物,斯坦福发布 IKEA Video Manuals 数据集

发布日期:2024-12-08 19:54    点击次数:106
跟着东谈主工智能手艺的快速发展性爱大师第一季,让机器清醒并奉行复杂的空间任务成为一个遑急究诘场地。 在复杂的 3D 结构拼装中,清醒和奉行讲明书是一个多头绪的挑战:从高层的任务策划,到中层的视觉对应,再到底层的动作奉行,每一步都需要精准的空间清醒能力。 斯坦福 Vision Lab 最新推出的 IKEA Video Manuals 数据集,初度终光显拼装指示在真实场景中的 4D 对都,为究诘这一复杂问题提供了遑急基准。 论文地址:https://arxiv.org/pdf/2411.11409...

性爱大师第一季 全自动拼装产物,斯坦福发布 IKEA Video Manuals 数据集

跟着东谈主工智能手艺的快速发展性爱大师第一季,让机器清醒并奉行复杂的空间任务成为一个遑急究诘场地。

在复杂的 3D 结构拼装中,清醒和奉行讲明书是一个多头绪的挑战:从高层的任务策划,到中层的视觉对应,再到底层的动作奉行,每一步都需要精准的空间清醒能力。

斯坦福 Vision Lab 最新推出的 IKEA Video Manuals 数据集,初度终光显拼装指示在真实场景中的 4D 对都,为究诘这一复杂问题提供了遑急基准。

论文地址:https://arxiv.org/pdf/2411.11409

技俩主页:https://yunongliu1.github.io/ikea-video-manual/

开源代码:https://github.com/yunongLiu1/IKEA-Manuals-at-Work

相助者指出了这项使命在空间智能究诘中的遑急地位:「这项使命将拼装策划从 2D 鼓舞到 3D 空间,通过清醒底层视觉细节(如部件怎样伙同),惩处了空间智能究诘中的一个主要瓶颈。这是首个全面评估模子在真实场景中对邃密 3D 细节清醒能力的基准。」

知名科技博主、前微软战术究诘者 Robert Scoble:「有了这项使命,机器东谈主将不详自主拼装 IKEA 产物,或者通过 AI 启动的 AR 眼镜。」

冲破性的多模态对都

拼装一件 IKEA 产物需要清醒多种时局的指示:讲明书提供了任务的举座阐明和关节方法;视频展示了详备的拼装过程;而 3D 模子则界说了部件之间的精准空间干系。

IKEA Video Manuals 初度将这三种模态进行了细粒度的对都:

137 个手册方法被凭证装配视频细分为 1120 个具体子方法,捕捉了完好的拼装过程;

通过 6D Pose 跟踪,精准记载每个部件的空间轨迹;

在视频帧、产物拼装讲明书和 3D 模子之间设立密集对应干系。

丰富的产物类型与场景

数据集涵盖了 6 大类 36 种 IKEA 产物,精辟单的凳子到复杂的柜子,呈现了不同难度的拼装任务。每种产物都包含完好的 3D 模子、拼装讲明书和本色拼装视频。

这些视频来自 90 多个不同的环境,包括室表里场景、不同光照条款,真实反馈了产物拼装的万般性。

真实宇宙的复杂性

与在实验室环境下集结的数据比拟,来自互联网的真实视频呈现了更丰富的挑战:

部件频繁被手或其他物体笼罩

相似部件识别(思象一下四条一模相同的桌子腿!)

录像机频繁移动、变焦,带来参数臆测的勤苦

室表里场景、不同光照条款下的万般性

这些真实场景下的复杂性性爱大师第一季,让数据集更能反馈本色讹诈中的难点。

意旨的是,究诘团队发现 25% 的产物存在多种有用的拼装规章。比如 Laiva 架子就有 8 种不同的拼装口头!这种万般性真实地反馈了履行宇宙中拼装任务的纯真性。

系统的标注过程

为了获取高质料的标注,鄙俗真实视频带来的挑战,究诘团队设立了一套可靠的标注系统:

大香蕉网伊人在线

识别并标注相机参数变化的关节帧,确保片断内的一致性

结合 2D-3D 对应点和 RANSAC 算法进行相机参数臆测

通过多视角考据和时序拘谨保证标注质料

中枢任求实验评估

基于 IKEA Video Manuals 数据集,团队联想了多个中枢任务来评估现时 AI 系统在清醒和奉众人具拼装,以及空间推理 (spatial reasoning) 方面的能力:

1. 在基于 3D 模子的分割(Segmentation)与姿态臆测 (Pose Estimation)

输入 3D 模子和视频帧,要求 AI 完成两个任务:准确分割出特定部件区域,并臆测其在视频中的 6 目田度姿态。实验测试了最新的分割模子 (CNOS, SAM-6D) 和姿态臆测模子 (MegaPose)。

基于 3D 模子的分割

基于 3D 模子的姿态臆测

分析发现它们在以下场景说明欠安:

- 笼罩问题:手部笼罩、近距离拍摄导致部分可见、笼罩引起的深度臆测邪恶

- 特征缺失:阑珊纹理的部件难以分割、对称部件的场地难以判断

- 突出拍摄角度(如俯瞰)导致的方法误判

2. 视频见地分割 Mask Trackin

评估了 SAM2 和 Cutie 两个最新的视频跟踪模子。与其他基准数据集比拟,它们在 IKEA Video Manuals 数据集上说明显贵着落:

SAM2: 从其他数据集的 85-90% 降至 73.6%

Cutie: 从 85-87% 降至 54.7%

主要挑战包括:

- 相机通顺导致见地丢失

- 难以分歧外不雅相似的部件(如多个相通的桌腿)

- 长时间跟踪的准确度难以保抓

3. 基于视频的时局拼装

团队提议了一个革新的拼装系统,包含关节帧检测、部件识别、姿态臆测和迭代拼装四个方法。实验采纳两种成就:

使用 GPT-4V 自动检测关节帧:恶果不睬思,Chamfer Distance 达 0.55,且 1/3 的测试视频未能完成拼装,反馈 GPT-4V 对拼装关节时刻的识别能力有限;

使用东谈主工标注的关节帧:即便如斯,由于姿态臆测模子的局限性,最终 Chamfer Distance 仍达 0.33

这些实验恶果揭示了现时 AI 模子的两个关节局限:

1、视频清醒能力不及:现时的视频模子对时序信息的分析仍然较弱,频频停留在单帧图像分析的层面

2、空间推理受限:在真实场景的复杂条款下(如光照变化、视角改造、部件笼罩等),现存模子的空间推理能力仍显不及

改日预测

IKEA Video Manuals 的推出,通过究诘怎样将拼装指示对都到真实场景,为空间智能究诘提供了一个遑急的评估基准。

思象一下,改日你戴上 AR 眼镜,就能看到 IKEA 产物的每个拼装方法被清亮地投影在目下,系统还能及时教唆你是否装配正确;或者,机器东谈主不详像东谈主类相同,仅通过不雅看视频就学会拼装复杂的产物。IKEA Video Manuals 的推出让这些设思离履行更近了一步。

通过提供真实场景下的多模态数据,这个数据集为空间智能究诘提供了遑急的评估基准。咱们期待看到更多冲破性的进展,让 AI 系统果然清醒和奉行复杂的空间任务。

作家先容

第一作家刘雨浓,斯坦福大学算计机科学硕士生,附庸于斯坦福 SVL 实验室(Vision and Learning Lab),由吴佳俊磨真金不怕火指导。本科毕业于爱丁堡大学电子与算计机科学专科(荣誉学位)。曾在得克萨斯大学奥斯汀分校从事究诘实习。现在正在寻找 2025 年秋季入学的博士契机。

吴佳俊,斯坦福大学助理磨真金不怕火,附庸于 SVL 和 SAIL 实验室。麻省理工博士,清华姚班本科。手脚技俩指导磨真金不怕火。

Juan Carlos Niebles,Salesforce AI Research 究诘主任,斯坦福大学算计机科学系兼职磨真金不怕火,斯坦福视觉与学习实验室(SVL)协调主任。在算计机视觉和机器学习边界有凸起孝顺,曾获多项遑急奖项

刘蔚宇,斯坦福大学博士后究诘员,在 CogAI 组和 SVL 实验室从事究诘。专注于机器东谈主感知、建模和交互边界,尽力于于开拓能通过浅陋话语号召完成恒久任务的机器东谈主系统。手脚技俩共同指导。

李曼玲,西北大学算计机科学系助理磨真金不怕火,曾为斯坦福大学博士后,现为斯坦福探员学者。究诘兴味聚合在话语、视觉、机器东谈主偏激社会影响等交叉边界,尽力于于开拓真实且真实的多模态系统。

参考贵府:

https://yunongliu1.github.io/ikea-video-manual/

本文来自微信公众号:微信公众号(ID:null),作家:新智元

告白声明:文内含有的对外跳转一语气(包括不限于超一语气、二维码、口令等时局),用于传递更多信息性爱大师第一季,节约甄选时间,恶果仅供参考,IT之家统共著作均包含本声明。



上一篇:偷偷撸改 数字期间告白教师翻新与产教和会暨ECI Young Awards第二届中国大学生数字(营销)翻新大赛东师站巡讲于我院举办
下一篇:夜必撸 英集芯左券芯片获超百款拓荒选定,你还不来望望?|车充|充电器|适配器|迁移电源
TOP