夜间行车黑科技!中国团队全新YOLO
论文题目: YOLO-LLTS: Real-Time Low-Light Traffic Sign Detection via Prior-Guided Enhancement and Multi-Branch Feature Interaction 论文链接: .13883
一、摘要
低光照条件下交通标志的有效检测仍是一项重大挑战。为解决这一问题,我们提出YOLO-LLTS算法,这是一种专为低光环境设计的端到端实时交通标志检测方法。首先,我们引入高分辨率小目标特征检测模块(HRFM-TOD)以解决低光场景中小目标特征模糊的问题。该模块通过利用高分辨率特征图,有效缓解传统PANet框架中的特征稀释现象,从而同时提升检测精度与推理速度。其次,我们开发了多分支特征交互注意力模块(MFIA),该模块通过在通道和空间维度上实现多感受野的深层特征交互,显著增强了模型的信息提取能力。最后,我们提出先验引导增强模块(PGFE)以应对低光环境中常见的图像质量问题(如噪声、低对比度和模糊)。该模块利用先验知识丰富图像细节并提升可视性,大幅改善检测性能。为支撑本研究,我们构建了新型数据集CNTSSS(中国夜间交通标志样本集),涵盖城市、高速公路、乡村等多种夜间场景及不同天气条件。实验评估表明,YOLO-LLTS在TT100K-night数据集上mAP50和mAP50:95分别超越现有最佳方法2.7%和1.6%,在CNTSSS数据集上分别提升1.3%和1.9%,并在CCTSDB2021数据集上取得最优结果。边缘设备部署实验进一步验证了该方法的实时性与有效性。
二、引言
交通标志检测在高级驾驶辅助系统(ADAS)与自动驾驶中具有关键作用,能有效保障道路安全并辅助导航。现有目标检测方法在行人、车辆、交通信号灯等交通要素检测中已展现出强大能力。然而,由于交通标志尺寸较小且需从复杂场景中区分,其检测仍面临重大挑战——在2048×2048像素的高清图像中,标志可能仅占据30×30像素的极小区域。针对此类低分辨率小目标的检测难题,近年来研究者们已提出多种改进方案,使得日间环境下的交通标志检测取得显著进展。
但随着夜间交通事故频发与全天候系统需求增长,低光照条件下的标志检测重要性日益凸显。如图1所示,低光环境下能见度下降与图像噪声增加导致驾驶场景复杂化。面对"小目标低分辨率"与"低光照弱可视性"的双重挑战,现有方法难以清晰捕捉标志特征进行有效检测。
传统解决方案通常采用"先增强后检测"的两阶段流程:先通过低光增强技术预处理图像,再运用目标检测算法识别。然而,这种分离式处理易导致任务兼容性问题,且串联模型会降低推理速度,无法满足ADAS的实时性要求。Chowdhury等采用强化学习策略与生成对抗网络(GAN)增强训练数据,但该方法严重依赖特定数据集标签。张等通过曝光/色调/亮度滤波器提升模型鲁棒性,但简单提亮操作会导致原始信息丢失与噪声放大。孙等提出的LLTH-YOLOv5虽采用像素级调整与无参考损失函数进行增强,但其基于YOLO设计的专用损失函数未能实现完全端到端训练。
为解决低光环境下"小目标低分辨率"与"弱可视性"的双重难题,我们设计了一种专用于低光条件的端到端交通标志识别算法。如图2所示,当摄像头捕获交通标志后,搭载辅助驾驶系统的车辆通过移动边缘计算设备运行我们的YOLO-LLTS模型进行实时检测,从而保障行车安全。该算法基于YOLOv8改进,通过高分辨率图像提取清晰特征,并设计新型多分支特征交互注意力模块以融合不同感受野特征。此外,我们开发的先验引导模块不仅能增强图像,还可补充细节信息。本算法有效改善了现有方法在低光条件下的性能缺陷,提升了自动驾驶系统安全性。针对现有交通标志数据集缺乏低光场景数据的问题,我们还构建了包含黄昏至深夜多场景的中国交通标志数据集,为行业研究提供基础资源。
本文主要贡献可归纳为:
- 中国夜间交通标志样本集(CNTSSS):首个覆盖中国17个城市、包含黄昏至深夜多时段、涵盖城乡/高速/雨晴等多场景的低光交通标志数据集;
- 高分辨率小目标特征检测模块(HRFM-TOD):通过高分辨率特征图缓解传统PANet的小目标特征稀释问题,实现检测精度与速度的双重提升;
- 多分支特征交互注意力模块(MFIA):在通道/空间维度实现多感受野特征的深层交互融合,突破传统单尺度注意力机制的局限;
- 先验引导增强模块(PGFE):利用先验知识解决低光图像噪声/低对比度/模糊等质量问题,通过细节补充显著提升检测性能。
三、相关研究
针对交通标志检测任务,最大挑战在于交通标志的微小尺寸及其在各种复杂场景中的精确定位。因此,我们系统性地从低光照图像增强(LLIE)方法、复杂场景目标检测方法和小目标检测方法三个维度梳理相关研究现状。
低光照图像增强方法(LLIE方法)
LLIE方法能有效提升低光照条件下的图像质量。当前该领域增强方法主要分为传统方法和机器学习方法两类。
传统LLIE方法主要聚焦于直方图均衡化和基于Retinex理论的衍生策略。直方图均衡化通过扩展像素值动态范围来提升图像亮度,包括全局方法与局部方法。基于Retinex的方法将图像分解为光照与反射分量,假设反射分量在不同光照下保持恒定。例如,Fu等首次采用双范数约束光照并提出基于双范数的优化方案;Li等提出的Retinex模型考虑噪声因素,通过求解优化问题估计光照图。然而这些传统方法通常依赖人工提取特征,在复杂光照条件下难以实现理想增强效果。
基于机器学习的LLIE方法主要包含监督学习与无监督学习两类。监督学习方法通常需要大量低光照图像及其对应正常光照图像的配对数据集进行训练。例如,LLNet作为首个端到端低光增强深度学习模型,采用随机伽马校正模拟数据进行训练;Wei等创新性地将Retinex理论与卷积神经网络结合,将网络分解为分解、调整和重建模块,并利用自建LOL数据集训练。这类方法的性能高度依赖配对训练数据的质量与多样性。
无监督学习方法则致力于无需配对数据实现低光图像增强。Zero-DCE将图像增强视为图像特定曲线的估计任务,通过精心设计的损失函数驱动网络学习;EnlightenGAN采用基于注意力机制的U-Net作为生成器,利用GAN方法实现无配对数据增强;Cui等提出的光照自适应变换器(IAT)模型,通过注意力机制调整图像信号处理器(ISP)相关参数,有效适应不同光照条件下的增强需求。这些方法展现了无监督学习在LLIE领域的潜力,证明了深度学习模型对多样化光照条件的适应能力。
小目标检测方法
目标检测中的小目标检测具有显著挑战性。小目标通常存在分辨率低的问题,且受背景信息干扰导致特征提取与精确定位极为困难。加之小目标可能出现于图像任意位置(包括边缘区域或重叠物体),其定位难度进一步加剧。数据增强、多感受野学习和上下文学习是提升小目标检测性能的有效策略。
数据增强作为一种简单有效的策略,可通过增加训练集多样性提升小目标特征提取能力。Cui等将目标粘贴至不同背景实现数据集稀有类别增强;Zhang等利用GAN进行数据增强以优化模型稳定性与鲁棒性;Xie等通过模拟复杂环境变化增加高难度负样本数量,实现数据集平衡与扩展。
多尺度融合学习通过整合深层语义信息与浅层表征信息,有效缓解小目标特征在检测网络中的逐层衰减问题。SODNet通过多尺度融合自适应获取空间信息;Ma等采用反卷积上采样深层语义信息并与浅层特征构建金字塔;TsingNet构建双向注意力特征金字塔,通过自上而下与自下而上的子网感知前景特征并缩小多尺度语义间隙。MIAF-Net由轻量化FCSP-Net主干网络、注意力平衡特征金字塔网络(ABFPN)和多尺度信息融合检测头(MIFH)组成,不仅有效提取小目标特征,还通过自注意力机制强化前景特征与上下文信息的关联。
小目标的表观特征通常不明显,因此合理的上下文建模可提升检测器性能。AGPCNet通过上下文金字塔模块融合多尺度上下文信息;YOLO-TS优化多感受野特征图的感受野,在富含上下文信息的高分辨率特征图上进行多感受野目标检测。
复杂场景目标检测方法
相比常规目标检测,复杂场景下的目标检测对模型鲁棒性提出更高要求,通常包括各类恶劣天气与多变光照条件下的检测任务。
IA-YOLO采用可微分图像处理(DIP)模块自适应增强图像;PE-YOLO利用金字塔增强网络(PENet)构建低光目标检测框架,通过端到端训练简化流程;Yang等提出的OMOT模型基于深度可分离卷积与自注意力机制,通过轻量级目标建议模块和自注意力增强的分类模块,显著提升夜间车辆与行人检测精度。该模型不仅考虑车灯特征,还通过自注意力强化夜间特征提取,在复杂环境中表现出强大鲁棒性。
低光照条件下的交通标志检测作为复杂场景目标检测的子任务,可分解为"复杂场景目标检测"与"小目标检测"双重挑战。现有相关研究较少:Zhang等采用曝光/色调/亮度滤波器配合小型卷积网络预测参数;Sun等在低光增强阶段采用像素级调整与无参考损失函数,并在检测阶段用BIFPN替换PANet,引入基于Transformer的检测头以提升小目标检测能力。
四、方法
本节将详细介绍本研究的核心数据集与算法模块。首先阐述支撑后续研究的基础数据集构成与细节信息,其次解析HRFM-TOD模块如何缓解低光环境下小目标特征模糊问题,继而说明MFIA模块增强多感受野特征交互能力的设计思路,最后呈现利用先验知识提升低光图像质量的PGFE模块。
中国夜间交通标志样本集(CNTSSS)
现有交通标志数据集如TT100K和GTSRB缺乏夜间场景样本,限制了算法在实际夜间环境中的性能表现。虽然CCTSDB2021包含500张夜间测试图像,但其规模不足以支撑大规模训练需求。
为解决这一问题,我们构建了新型夜间交通标志数据集CNTSSS。如图3所示,该数据集涵盖北京、上海、广州等中国17个城市的4062张夜间交通标志图像,确保数据覆盖不同地理区域与经济水平下的城市环境。数据集按4:1比例划分为训练集(3276张,13个城市)与测试集(786张,成都/上海/深圳/天津4市)。
如图4所示,数据集沿用CCTSDB2021分类标准,包含禁令标志(4954例)、指示标志(1658例)和警告标志(1075例)三类中国道路最常见且关乎夜间行车安全的关键标志。数据覆盖黄昏至深夜多时段光照条件,包含晴雨两种夜间天气,并囊括高速公路、城市道路与乡村道路等多场景。
图5展示了数据集中目标锚框尺寸分布特征,每个蓝点代表交通标志的像素宽高,红点标记数据集均值(33×19像素)。分析表明本数据集中的交通标志普遍具有较小的像素占比。
高分辨率小目标特征检测模块(HRFM-TOD)
低光环境下的小目标检测面临像素信息不足导致特征表达弱化的挑战。传统PANet在特征融合过程中易使小目标特征被大量背景特征稀释,且自上而下与自下而上的多尺度采样操作会导致信息损失。
如图6所示,HRFM-TOD模块通过1×1卷积与双线性上采样将多尺度特征统一调整至高分辨率(160×160×128),
其计算过程可表述为:
其中PiPi为输入特征,FiFi为输出特征。
该模块采用文献提出的感受野计算方法,使HRFM-TOD获得随目标尺寸自适应的动态感受野。高分辨率特征图输入至MFIA模块(MFIA1-MFIA4)进行特征融合,通过整合四个不同感受野的特征图F1F1-F4F4,在降低计算成本的同时显著增强小目标特征表征。最终特征融合公式为:
多分支特征交互注意力模块(MFIA)
低光小目标因分辨率低、信息量少,需更强特征捕获能力。现有注意力机制(如SENet、CBAM)多聚焦单特征处理,忽视多特征互补性。Dai等提出的局部-全局特征融合方法未能解决两尺度以上特征融合问题,Zhao等的BA-Net虽改进SENet但忽略了空间域信息。
如图7所示,MFIA模块由多分支特征通道注意力(MFCA)与多分支特征空间注意力(MFSA)组成,可在通道与空间维度实现多特征高效交互。该模块在网络中被复用四次,图示展示其中一个MFIAii模块及其输出特征。
多分支特征通道注意力(MFCA):
通过串联的两个通道注意力模块(CAM1与CAM2)实现多感受野特征的初步交互。每个CAM层对输入特征进行1×1卷积与ReLU激活后,经Sigmoid函数生成注意力权重α1α1与α2α2。实验表明,轻量级通道注意力的多次迭代可在不降低性能前提下增强特征交互,避免初始特征图整合可能造成的瓶颈。计算过程表述为:
多分支特征空间注意力(MFSA):
通过空间注意力机制(SAM)实现特征图深层交互。SAM采用平均池化与最大池化提取空间信息,经7×7卷积处理后生成空间注意力权重,该权重用于调整特征图的空间重要性分布,最终输出特征为:
先验引导特征增强模块
低光照条件下采集的图像常存在噪声增强、对比度降低、边缘模糊及暗部信息隐匿等质量问题,严重影响交通标志检测精度。现有直接提升曝光度的网络可能放大图像噪声,导致质量本已低劣的图像依然不清晰,进而影响后续检测任务。
为解决这一挑战,我们提出先验引导特征增强模块(PGFE),替代YOLOv8原有的P0层。该模块将RGB图像从3通道扩展至64通道,在增强低光图像的同时为后续检测提供先验知识。模块由先验引导增强(PGE)与细节纹理恢复(DTR)两个核心组件构成。
先验引导增强模块(PGE):
基于Retinex理论,清晰图像zz与低光观测yy存在关系:y=z⊗xy=z⊗x(xx为光照分量)。受SCI启发,通过学习光照与低光观测间的残差表示可有效提升图像亮度。相比直接映射低光观测至光照,残差表示学习能显著降低计算复杂度,并避免亮度增强失衡导致的曝光问题。该设计使网络在提升夜间性能的同时保持日间检测能力。
如图8所示,L(u)对输入特征执行nn次连续残差运算后,将最终输出与初始特征相加实现增强:
细节纹理恢复模块(DTR):
特征增强可能导致低光图像原始信息丢失,因此需要构建能够有效提取图像细节纹理的网络进行补充。可逆神经网络(INN)可提取与频域高频特征高度相关的局部信息(特别是图像边缘和线条特征)。INN通过将输入参数划分为两个部分实现输入输出特征的相互推导,这种机制可视为无损特征提取,特别适用于本应用场景。如图8所示,DTR模块通过m次INN迭代实现细节纹理的完整提取。具体实现过程为:将输入特征uk分割为uk[1:c]和uk[c+1:C]两部分,通过以下可逆计算确保细节特征的无损传输,同时为增强后的特征图提供补充:
五、Coovally AI模型训练与应用平台
如果你也想要进行模型训练或模型改进,Coovally平台满足你的要求!
Coovally平台整合了国内外开源社区1000+模型算法和各类公开识别数据集,无论是YOLO系列模型还是Transformer系列视觉模型算法,平台全部包含,均可一键下载助力实验研究与产业应用。
而且在该平台上,无需配置环境、修改配置文件等繁琐操作,一键上传数据集,使用模型进行训练与结果预测,全程高速零代码!
具体操作步骤可参考:YOLO11全解析:从原理到实战,全流程体验下一代目标检测
平台链接:
如果你想要另外的模型算法和数据集,欢迎后台或评论区留言,我们找到后会第一时间与您分享!
六、实验
本节详细阐述实验数据集、参数设置与评估指标,通过实验结果验证算法有效性与结构合理性,最后对实验结果进行误差分析并开展实际场景测试。
数据集
为评估模型夜间交通标志识别性能,我们采用公开数据集TT100K、CCTSDB2021及自建数据集CNTSSS进行综合测评。
TT100K-night:
由清华大学-腾讯联合实验室整理的TT100K数据集经Zhu等方法改造,剔除样本量少于100的类别后保留45类。训练集含6,105张图像,测试集3,071张,分辨率均为2048×2048像素。如图9所示,我们采用CycleGAN对TT100K进行数据增强以提升评估准确性。
CNTSSS:
白昼数据转换无法准确评估夜间性能,因此我们构建了纯夜间采集的交通标志数据集。CNTSSS包含训练集3,276张、测试集786张图像,标志分为禁令、指示与警告三类(详见前文)。
CCTSDB2021:
长沙理工大学构建的数据集含17,856张图像,训练集16,356张中约700张为夜间图像,其余为日间数据。这种分布更贴近真实驾驶场景,是具有挑战性的基准。我们选取测试集中500张夜间图像作为性能评估依据。
实验设置
训练细节:
实验平台配置4块NVIDIA RTX 4090 GPU,输入图像缩放至640×640分辨率。CNTSSS训练200轮次,TT100K与CCTSDB2021训练300轮次,批量大小为48。采用随机梯度下降(SGD)优化器,学习率0.01,动量0.937。
评估指标:
采用精确率(Precision)、召回率(Recall)、F1分数、mAP50、mAP50:95及帧率(FPS)作为评估指标。计算公式如下:
其中TP为真正例,FP为假正例,FN为假反例,N为类别总数,M为IoU阈值区间数(0.5至0.95,步长0.05,共10个区间)。
与先进方法对比
如表1所示,在TT100K-night数据集上,YOLO-LLTS以77.2%准确率超越第二名YOLO-TS 2.0%,召回率达64.4%(提升1.2%),F1分数70.2(领先1.5)。mAP50与mAP50:95分别达到71.4%与50.0%,参数量仅9.9M且FPS达83.3。MIAF-net因无开源代码由我们复现实现,Zhang等方法在TT100K-night表现不佳可能源于其对生成数据的泛化能力有限。
表2显示,在CNTSSS数据集上,YOLO-LLTS以88.3%准确率领先YOLO-TS 1.0%,召回率74.9%(超越GOLD-YOLO-L 1.0%),mAP50与mAP50:95分别达81.2%与60.1%。参数量13.9M时仍保持82.0 FPS的高效推理速度。
表3结果表明,在CCTSDB2021数据集上,尽管夜间训练数据占比较小,YOLO-LLTS仍以88.8%准确率(领先0.7%)、81.1%召回率(领先0.3%)及84.8 F1分数(领先0.5)全面领先。mAP50与mAP50:95分别达87.8%与57.5%,参数量10.2M时FPS高达93.6。
如图10所示,与2024年最新YOLO系列模型对比显示,YOLO-LLTS在CNTSSS数据集上实现零误检与零漏检,检测结果与真实标注完全吻合。
消融实验
为验证各模块有效性,我们在CNTSSS数据集上以mAP50与mAP50:95为指标进行对比:
HRFM-TOD模块:
单独使用该模块使mAP50从75.1%提升至77.6%(+2.5%),mAP50:95从53.3%提升至55.5%(+2.2%),FPS从75.4提升至77.0,证明其兼具性能提升与加速效果。
PGFE模块:
该模块使mAP50提升3.2%,与HRFM-TOD联合使用时mAP50与mAP50:95分别提升4.4%与5.8%。实验表明当公式参数γ=2、δ=2.5时模型性能最优。
DFEDR模块:
与HRFM-TOD联用使mAP50与mAP50:95较基线提升4.5%与5.1%,较单HRFM-TOD配置提升2.0%与2.9%,验证了多感受野特征融合的有效性。
误差分析与模型部署
图11展示三个数据集上归一化损失、精确率等关键指标随训练轮次的变化曲线。可见归一化损失(框损失、分类损失与分布焦点损失之和)随训练快速下降并趋于稳定,其他指标亦快速收敛,表明模型具有良好的训练稳定性。
在NVIDIA Jetson AGX Orin边缘设备(Ubuntu 18.04系统,PyTorch 2.1.0框架,Jetpack 5.1加速)的测试中,未启用TensorRT加速时单图推理耗时44.9 ms(FPS=22.3)。实际道路场景测试(图12)显示模型能准确检测并分类交通标志,证明其在ADAS与自动驾驶系统中的实用价值。
七、结论
本文提出YOLO-LLTS算法,这是一种专为低光环境设计的端到端实时交通标志检测方法。针对现有数据集中夜间场景样本匮乏的问题,我们构建了中国夜间交通标志样本集(CNTSSS),该数据集涵盖黄昏至深夜多时段低光条件图像,包含城市、高速公路、乡村等多场景及不同天气条件下的交通标志样本。通过引入高分辨率小目标特征检测模块(HRFM-TOD),有效解决了低光环境下小目标特征模糊的难题,在提升检测精度的同时显著加快了推理速度。设计的基于多分支特征交互注意力机制(MFIA)实现了多感受野特征的深度交互与融合,增强了模型对关键信息的捕获与利用能力。提出的先验引导增强模块(PGFE)则有效缓解了低光环境下的噪声增强、对比度下降及图像模糊等问题,使检测性能得到显著提升。
实验结果表明,我们的方法在TT100K-night、CNTSSS和CCTSDB2021三个数据集上均达到了最先进的性能水平。边缘设备部署实验进一步验证了该方法的实际有效性与实时适用性。未来工作将重点从以下三方面展开:
(1) 扩展CNTSSS数据集的场景多样性;
(2) 优化算法以增强实际自动驾驶应用的鲁棒性与泛化能力;
(3) 公开源代码与数据集以促进该领域研究发展。
本研究为低光环境下的交通标志检测提供了新的解决方案,对提升全天候自动驾驶系统的安全性具有重要实践价值。
发布评论