让机器“看懂”3D世界：开放词汇3D物体检测新突破-阿南达文事网

让机器“看懂”3D世界：开放词汇3D物体检测新突破

标题：Hierarchical Cross-Modal Alignment for Open-Vocabulary 3D Object Detection 作者：赵友军、林佳颖、刘文胜（香港城市大学） 论文链接：/

在3D场景中精准检测物体是自动驾驶、机器人等领域的核心技术。传统方法依赖有限标注数据，无法识别训练集外的“新物体”。近年来，视觉语言模型（如CLIP）在开放词汇的2D图像理解中表现出色，但直接应用于3D场景面临三大挑战：

在这里插入图片描述

研究团队提出HCMA框架，通过分层结构融合3D物体特征与场景上下文，实现开放词汇的3D检测。三大核心技术突破：

分层数据集成（HDI） • 多粒度数据生成：从“物体级”到“视角级”再到“场景级”，构建“由细到粗”的3D-图像-文本数据。 • 全局上下文感知：例如，将多个视角的物体文本描述合并为场景级描述，提升对复杂场景的整体理解。
交互式跨模态对齐（ICMA） • 层内对齐：在同一层级（如物体级）对齐点云、图像、文本特征； • 跨层交互：通过“局部-全局”特征拼接，实现不同层级信息的互补（如物体级+场景级特征联合优化检测）。

输入数据：原始点云、多视角图像、物体/场景文本描述；
特征提取：3D检测器提取物体位置，CLIP编码图像/文本特征；
分层对齐： • 物体级：单物体检测与文本匹配（如“椅子”）； • 视角级：多物体组合描述（如“客厅的沙发和茶几”）； • 场景级：全局语义理解（如“办公室场景”）；
跨模态对比学习：通过损失函数缩小3D点云与图像/文本特征的距离。

在ScanNet和SUN RGB-D数据集上的实验表明，HCMA显著优于现有方法：

数据集	方法	mAP25（提升幅度）	亮点案例
ScanNet	HCMA	21.77%	椅子检测精度提升37.26%
	此前最佳CoDA	19.32%
SUN RGB-D	HCMA	21.53%	床检测精度达72.81%
	此前最佳方法	20.46%

关键优势： • 跨数据集泛化：在ScanNet训练后，SUN RGB-D测试mAP25达13.3%，优于基线12.31%； • 大词汇量检测：在ScanNet200数据集（200类）上，mAP25达3.1%，优于此前2.39%。

HCMA框架通过分层融合3D物体与场景信息，首次实现了无需3D标注的开放词汇检测，为机器人导航、AR/VR等应用开辟新可能。未来方向包括：

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2025-04-10，如有侵权请联系 cloudcommunity@tencent 删除机器人框架论文数据自动驾驶