让机器“看懂”3D世界:开放词汇3D物体检测新突破

论文信息

标题:Hierarchical Cross-Modal Alignment for Open-Vocabulary 3D Object Detection 作者:赵友军、林佳颖、刘文胜(香港城市大学) 论文链接:/

背景与挑战

在3D场景中精准检测物体是自动驾驶、机器人等领域的核心技术。传统方法依赖有限标注数据,无法识别训练集外的“新物体”。近年来,视觉语言模型(如CLIP)在开放词汇的2D图像理解中表现出色,但直接应用于3D场景面临三大挑战:

  1. 复杂场景理解难:3D场景包含多物体、多尺度,需全局与局部信息的协同;
  2. 模态差异大:3D点云与2D图像/文本的跨模态对齐困难;
  3. 物体位置多变:3D物体可能位于场景边缘或部分遮挡,难以准确定位。

在这里插入图片描述

创新点:分层跨模态对齐框架HCMA

研究团队提出HCMA框架,通过分层结构融合3D物体特征与场景上下文,实现开放词汇的3D检测。三大核心技术突破:

  1. 分层数据集成(HDI)多粒度数据生成:从“物体级”到“视角级”再到“场景级”,构建“由细到粗”的3D-图像-文本数据。 • 全局上下文感知:例如,将多个视角的物体文本描述合并为场景级描述,提升对复杂场景的整体理解。
  2. 交互式跨模态对齐(ICMA)层内对齐:在同一层级(如物体级)对齐点云、图像、文本特征; • 跨层交互:通过“局部-全局”特征拼接,实现不同层级信息的互补(如物体级+场景级特征联合优化检测)。
  1. 对象聚焦上下文调整(OFCA)去噪增强:通过噪声注入提升特征鲁棒性; • 注意力机制:强化物体相关特征,抑制无关背景干扰。

方法解析:让机器“分层思考”

  1. 输入数据:原始点云、多视角图像、物体/场景文本描述;
  2. 特征提取:3D检测器提取物体位置,CLIP编码图像/文本特征;
  3. 分层对齐: • 物体级:单物体检测与文本匹配(如“椅子”); • 视角级:多物体组合描述(如“客厅的沙发和茶几”); • 场景级:全局语义理解(如“办公室场景”);
  4. 跨模态对比学习:通过损失函数缩小3D点云与图像/文本特征的距离。

实验结果:全面超越现有方法

在ScanNet和SUN RGB-D数据集上的实验表明,HCMA显著优于现有方法:

数据集

方法

mAP25(提升幅度)

亮点案例

ScanNet

HCMA

21.77%

椅子检测精度提升37.26%

此前最佳CoDA

19.32%

SUN RGB-D

HCMA

21.53%

床检测精度达72.81%

此前最佳方法

20.46%

关键优势: • 跨数据集泛化:在ScanNet训练后,SUN RGB-D测试mAP25达13.3%,优于基线12.31%; • 大词汇量检测:在ScanNet200数据集(200类)上,mAP25达3.1%,优于此前2.39%。

总结与展望

HCMA框架通过分层融合3D物体与场景信息,首次实现了无需3D标注的开放词汇检测,为机器人导航、AR/VR等应用开辟新可能。未来方向包括:

  1. 提升透明物体检测(如玻璃桌);
  2. 无需预定义词汇表,实现更自由的开放世界理解;
  3. 轻量化部署,适应实时场景需求。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-10,如有侵权请联系 cloudcommunity@tencent 删除机器人框架论文数据自动驾驶