当前位置：首页>南京>南京林业大学高德民副教授团队:基于改进Mask Scoring R-CNN的航拍图像林火检测与分割方法

南京林业大学高德民副教授团队:基于改进Mask Scoring R-CNN的航拍图像林火检测与分割方法

2026-06-04 23:12:37

基于改进Mask Scoring R-CNN的航拍图像林火检测与分割方法

刘同¹,管志浩^2△,牛海峰³,王润生³,曲烨慧³,高德民^1*

(1. 南京林业大学信息科学技术学院,南京 210037; 2. 南京理工大学计算机科学与工程学院,南京 210094; 3. 张家口市林业科学研究院,张家口 075100)

关键词

林火检测; 实例分割; 航拍图像; 深度学习; 卷积神经网络

摘要

针对早期林火具有火点小、隐蔽性强以及识别效果差的特点,提出了一种实例分割模型,旨在提高对早期林火的检测精度和分割质量。本研究通过在规定实验场地焚烧可烧物,使用无人机和地面相机来采集林火航拍与地面影像。以现有的实例分割模型Mask Scoring R-CNN为基础,采用DeepLabV3+网络对其MaskIoU分支进行重构。通过空洞卷积,增大感受野从而获得全局上下文信息,在下采样和上采样过程中通过特征级联,实现了浅层细粒度特征信息和深层高阶语义的融合。此外,为分割质量提供了一种新的评分机制,从而可以避免将分割置信度等同于分类置信度的弊端。为检验改进后模型的合理性,将本研究模型与Mask R-CNN和Mask Scoring R-CNN在同一数据集上进行对比,结果表明:在林火分割精度和林火检测精度上,本研究模型的均交并比、平均精度均值、准确率和召回率明显优于Mask R-CNN和Mask Scoring R-CNN。此外,实验证明了本研究利用DeepLabv3+网络重构后的网络进一步提升了预测掩膜的质量,对于林火目标的边缘像素具有明显的优化和校正作用。由于烟雾的干扰和林火外形的不规则性,3种模型的分割结果均略有瑕疵,但本研究模型的结果与真实标签最为接近。就林火分割而言,本研究的改进模型明显优于许多现有的实例分割模型,并在林火的检测与分割上取得了令人满意的结果。

森林火灾是指由自然或人为因素引起并且火势在森林中扩散和发展,对林地、森林生态系统及人类财产和健康造成损失和破坏的林火行为。

据全球数据统计,平均每年发生林火20万余起,林地毁坏面积约1 000万hm²,直接经济损失达到数十亿美元。我国因林区分布广和地形复杂崎岖等因素的影响,林火发生的概率和危险性不断加大。

因此,快速检测林火的发生可以及时采取应对措施来减少对生态系统和基础设施的破坏。尤其早期林火识别可以让森林消防人员快速准确掌握火灾发生地点,在火灾大规模蔓延前快速扑灭林火。

传统的林火识别方法通常在林区设置瞭望塔和人工巡护,但监测范围有限且效率较低。

无线传感器网络被广泛应用于林火长时间监测,但是需要在森林中部署大量的传感器,成本较高。

卫星遥感因分辨率限制,在火源较小时识别率低,且卫星监测易受到云、雾等因素的影响。

目前高山视频作为林火监测的工具,结合神经网络技术的图像识别得到广泛应用。

·Jeong等基于YOLOv3和长短期记忆网络实现了对烟雾的探测。

·Li等使用3D并行全卷积网络消除了自然场景的干扰并且能够准确快速分割出不同场景下的烟雾目标。

·Xu等研究了不同检测算法在林火目标上的识别能力,并设计了一套基于集成学习思想的林火检测系统。

虽然上述林火检测模型在特定场景下能够拥有良好的性能,但是使用的数据集大多数由火灾中后期的林火图像和地面相机拍摄的火灾图像组成,具有火点大、火势集中的特点,因此,对于早期的林火识别仿真效果较差。

目前我国无人机技术相对成熟和应用成本较低,可以实现自动采集和追踪火灾信息,并将现场图像和火灾状况实时发送给控制中心,便于工作人员随时掌握火情的最新情况。由于其低空飞行可以拍摄高分辨率的图像,提供火场的详细信息,便于更新火灾的动态。

目前我国林火航拍的最新研究成果和应用实例众多,比如利用无人机群对森林防火进行监测,无人机森林防火巡护路径使用K-means聚类分析结合基于模拟退火改进的遗传算法进行优化,应用于青藏高原的重载无人机。

·Vasconcelos等借助无人机全天候、视野宽、灵活性好、部署速度快的优势,利用搭载了微型边缘计算平台和可见光镜头的无人机实现对林区的早期林火监测。

林火航拍数据集对于分析火灾行为十分重要,航拍图像表现出了不同的特性,如俯视图视角等,与由地面相机拍摄的图像有本质上的不同。

目前利用深度神经网络和无人机航拍图像来实现森林火灾检测和分割的研究较少,因为林火具有不规则形状、燃烧产生烟雾等特性影响林火分割的像素分类,所以准确地从图像中分割出林火目标更具有挑战性。

南京林业大学刘同、高德民等通过在规定试验场地焚烧森林可燃物模拟早期林火,利用无人机和地面相机对火灾行为进行拍摄以实现对早期林火的识别,并且基于卷积神经网络Mask Scoring R-CNN提出了一种改进的林火实例分割模型,对林火目标进行检测与分割。对Mask Scoring R-CNN的掩膜交并比分支进行重构,引入DeepLabv3+网络的空洞卷积和编码器-解码器结构并加入特征级联,扩大了感受野捕捉更广泛的全局信息,同时提升对目标边缘像素的校正,增强了浅层像素位置信息与深层像素类别特征的融合,显著提高了掩膜的质量和分割的置信度。

1 试验材料

1.1研究区概况

室外点火试验位于张家口市崇礼区,地处河北省西北部,总面积为2 334 km²。该地区的山地占据了80%的面积,森林覆盖率达52%,并且崇礼区依托第24届冬季奥林匹克运动会比赛场地大力发展旅游产业,冬季开设多个滑雪场和配套设施,旅客人数集中,用火不当极易引发火灾,因此对于野火、林火的预防显得尤为重要。研究区的地理位置以及点火试验装备见图1。

1.2室外点火试验与数据标注

崇礼区的植被具有种类多、覆盖广的特点,因此在室外点火试验前,本研究对该地区一些常见的森林可燃物进行火行为分析(图2a),试验测得4种森林可燃物(白桦、干草、落叶松、樟子松)的燃烧性数据如表1所示。其中,干草的烧损率最高为69.09%,其次为落叶松65.00%,最低为樟子松54.48%。室外点火试验的可燃物使用白桦树枝,并且使用干草、落叶对其助燃。

本次室外点火试验的天气情况为晴朗、微风,影像采集使用经纬M300 RTK无人机搭载禅思H2T云台相机。本研究还使用地面相机获取林火正视角影像,一些代表性的林火图像(帧)见图2b。研究林火分割的问题有助于实现早期林火的探测,其本质是通过分割模型来预测每个像素点的标签。因此,林火分割可以定义为二进制Mask Scoring R-CNN像素级分类问题,每个像素有且仅有2个标签(火、非火)。为了保证林火分割的质量,将帧间隔数设置为10,并且4名研究人员参与了视频抽帧与图像标注工作,本研究采用交互式多边形工具Labelme软件对每个林火目标提取精确的标签区域,包括被遮挡或存在于图像边缘的林火目标,总共获取3 060张真实标签。在试验中,选择2 800张图像用于训练(80%训练集,20%验证集),260张图像用于网络模型的性能评估。为了提高模型处理效率,需要对图像进行统一预处理:所有图像被缩放至1 280×720的分辨率,并以JPEG格式保存。训练集图像的具体标注过程见图3。本研究早期林火航拍数据集特点对比分析结果见表2。

2 试验方法

2.1改进模型Mask SD R-CNN的构建

Mask R-CNN使用分类置信度来估计掩膜的质量,难以准确反映掩膜与真实物体边界的相符程度。Mask Scoring R-CNN实例分割模型结合目标检测和像素分割任务,在Mask R-CNN模型基础上增加掩膜交并比(mask intersection over union,MaskIoU)分支,预测掩膜与真实标签的匹配程度,可以更好地反映掩膜的实际质量。在无须增加计算量的前提下,DeepLabv3+通过空洞卷积获取更大范围的上下文信息,对边缘细节有良好的捕捉能力,适用于复杂背景下的目标分割。为了更准确地识别早期林火,本研究通过对MaskIoU分支使用DeepLabv3+进行重新构造,将重新构造后的模型命名为Mask SD(Scoring and DeepLabv3+)R-CNN,其模型结构如图4所示。

2.1.1特征提取网络

在图4模型架构中特征提取网络从输入信息中提取相关特征,帮助完成后续的相关任务。残差结构(如ResNet101)能够帮助缓解梯度消失和退化的问题,通过不同层次的特征,残差结构能够提取从局部到全局的信息,对处理复杂场景中的目标效果较好,且分类效果好,因此,将ResNet101作为Mask SD R-CNN的基础网络。本研究使用特征金字塔网络来提升有效特征提取和多尺度特征融合的能力,提升模型对不同大小目标的检测能力。

2.1.2区域候选网络和感兴趣区域匹配层

区域候选网络在目标检测中起着生成候选区域的关键作用,如图4所示,其首先从ResNet101的输出特征图中使用卷积块来提取特征,然后通过卷积块预测锚框的偏移量,精准调节锚框的坐标,使锚框更准确地覆盖目标。在训练过程中,在特征图的每个像素位置生成9个锚框,通过分类判断每个锚框内是否包含物体,由于锚框的数量较多,通过非极大值抑制减少冗余的检测框,保留那些与目标最吻合的框,从而生成一组初始候选区域。在区域候选网络中分类和边界框回归过程中造成的损失L_RPN加入模型总损失L_final。

感兴趣区域匹配层在实例分割任务中的主要作用是将区域候选网络生成的不同大小的候选区域特征图统一缩放至相同尺寸,并通过双线性插值法来确保特征图的细节不会在缩放过程中丢失,能够更好地为每个候选区域生成高质量的分割掩膜,从而提高实例分割的性能。感兴趣匹配层通过聚合更多上下文信息,从而更好地分割复杂背景下的火源。

模型训练中损失函数值与交并比得分成反比。Mask SD R-CNN的损失由区域候选网络和多分支预测网络2部分损失组成,计算公式如下:

式中:N_*表示锚框的个数; λ₁表示锚框调整所造成的损失; L_cls示分类损失; L_reg表示边界框回归损失; p_i表示第i个锚框输出结果为正类的概率; t_i表示第i个锚框的回归参数。

2.1.4 模型训练及损失函数

在训练过程中,本研究使用Mask Scoring R-CNN的训练方法。如果一个感兴趣区域与真实标签之间的交并比大于0.5,则它被认为是一个正类,否则为负类。此外,掩膜损失(L_mask)和掩膜交并比损失(L_maskiou)仅在正类上定义。

回归损失L_reg、掩膜损失L_mask、分类损失L_cls和掩膜交并比损失L_maskiou计算公式如下:

式中:当|x|<1时,smooth_L1(x)=0.5x²,否则,smooth_L1(x)=|x|-0.5; p_i表示第i个锚框输出结果为正类的概率,在区域候选网络中检测图像是否存在目标,当输出结果是正类时p^*_i为1,是负类时为0; t_i=(t^x_i,t^y_i,t^w_i,t^h_i)表示第i个锚框的回归参数;(x,y)表示锚框的中心点在图像中的位置;(w,h)表示锚框的宽度和高度; t^*_i为第i个锚框对应的正类或负类; ⊙、⊕表示矩阵的乘积和求和运算; ∩、∪表示矩阵的交、并运算。

在目标检测和分割任务中,掩膜得分S_mask用于量化每个目标对象的分割质量,计算公式如下:

式中:S_cls表示R-CNN分支得到目标分类置信度; S_maskiou表示掩膜交并比分支回归得到的结果。

2.2 模型评价指标

在目标检测领域,交并比表示目标边界框与真实标签之间重合比例,该值越高,说明检测性能越好,计算公式如下:

式中:A_bbox表示目标经回归得到的边界框; A_gt表示目标的真实标签; U_IoU阈值设置为0.5。

为了验证Mask SD R-CNN的目标性能,评价指标采用精准率(P_precision)、召回率(R_recall)及F1分数(式中记为F₁),计算公式如下:

式中: N_TP表示正确分为正类的数量; N_FP表示错误分为正类的数量; N_FN表示错误分为负类的数量。

在图像分割领域,均交并比(M_U)是衡量分割性能的重要指标,计算公式如下:

式中:k+1表示目标的类别数(含背景); p_ii表示分类正确的像素数量; p_ij和p_ji表示分类错误的像素数量。

3 结果与分析

3.1模型训练与收敛分析

本试验是在基于Tensorflow和Keras的深度学习开发环境下进行的,采用GTX1080Ti GPU和Adam算法对Mask SD R-CNN进行训练。整个周期的平均训练损失和每个周期结束后的验证损失,两者都逐渐趋于收敛(图5a)。为了更好地验证本研究模型的性能,将Mask SD R-CNN与其他两个模型性能进行量化比较。根据图5b分析,在训练阶段,Mask SD R-CNN的整体训练损失低于其他2个模型。Mask Scoring R-CNN通过增加掩膜交并比分支从而提升了掩膜的质量,并且减少了训练损失。而本研究提出的Mask SD R-CNN利用DeepLabv3+对MaskIoU分支进行优化,结合了网络中的浅层特征与深层特征,从整体上提高了分割模型的性能。

3.2实例分割效果对比

一些测试样本的实例分割效果见图6。从试验结果(图6b)可以看出,本研究提出的改进模型Mask SD R-CNN能够对林火目标正确地识别,并且取得了优秀的分割效果。相比于真实标签(图6c),除了部分存在分段现象(图b4),两者基本保持一致。其主要原因是由于林火的半透明性和不固定性,在火势蔓延过程中,即便是人工肉眼也很难对个别火源进行区分。

在分割效果上本研究提出的Mask SD R-CNN优于PatchDCT、TurboInst两种模型(图7)。本研究重新对MaskIoU分支进行重构,使得掩膜质量评分更加准确,因此分割结果最出色。此外,在林火目标的边缘像素上,本研究模型的分割效果更加细腻并且具有明显的校正功能。至于一些细节之处或是不明显的火点,由于烟雾的干扰和林火外形的不规则性,分割模型的分割效果均略有瑕疵,这也是所有分割模型都面临的问题与不足。但就目前的林火数据集和现阶段的研究,本研究的改进模型明显优于许多现有的实例分割模型,并在林火的检测与分割上取得了优秀的分割性能。

3.3空洞卷积率敏感性分析

在Mask SD R-CNN中,核心模块DeepLabv3+受空洞卷积率的影响最大。为了分析空洞卷积率对模型性能的影响,进行了空洞卷积率的敏感性实验,结果如表3所示。由表3可知,过大的空洞卷积率可能导致特征提取稀疏化,性能下降; 过小的空洞卷积率不利于捕获全局信息和上下文特征。当空洞卷积率设置为6,12,18时,模型在验证集上的均交并比、准确率分别达到了88.82%和92.41%,优于其他组合,进一步验证了参数调整的有效性。

本研究的消融实验中,依次去除DeepLabv3+、MaskIoU分支,并评估模型在火灾检测分割任务中的性能变化。表4表明:移除DeepLabv3+后,均交并比从88.82%下降至86.55%,准确率下降了0.26个百分点。去除MaskIoU分支,平均精度从63.49%下降至59.15%,召回率下降了1.1个百分点。综合上述结果,DeepLabv3+在MaskIoU分支的基础上使模型性能继续提升,有效提升了火灾目标的检测分割能力。

3.4模型性能对比与消融实验

模型具体的测试结果和对比数据见表4。通过与近期的方法QueryInst、PatchDCT、FastInst、TurboInst对比发现,相较于性能最好的TurboInst,本研究模型在检测精度(准确率、召回率、F1分数)上分别提升了0.20,0.13和0.17个百分点; 在分割精度(mIoU、mAP)上分别提升了1.24和1.21个百分点。这进一步证实了利用DeepLabv3+对MaskIoU分支重构后的网络在林火分割上是十分有效的。

结论

本研究采用改进实例分割模型对林火进行识别,通过修改模型分支与优化损失函数,深入挖掘图像特征中的浅层信息与深层高阶语义,实现了对早期林火的多视角、高精度识别,同时该模型兼具了检测与分割功能。本模型通过引入DeepLabv3+网络重构MaskIoU分支,在编码器-解码器架构中采用空洞卷积,有效扩大了特征提取的感受野,捕获全局上下文信息; 同时,通过特征级联将浅层的高分辨率位置特征与深层的语义特征深度融合,有效解决了因忽略全局信息导致的边缘模糊问题,对林火不规则边缘像素的校正效果显著,准确率(92.41%)与召回率(87.52%)均优于对比模型(TurboInst、PatchDCT)。基于崇礼区室外点火试验构建的高分辨率航拍数据集,本模型在复杂背景下仍表现出鲁棒性。本研究模型的分割掩膜与林火实际形状匹配程度最高,在处理林火边缘像素方面具有明显的优势。研究结果可为森林消防人员提供一种精准的火灾行为分析方法。在未来工作中,计划进一步优化模型结构,以增强其在复杂背景和隐蔽火焰条件下的鲁棒性和适应性; 扩展数据集的多样性,涵盖更多复杂场景下的早期火灾样本,以提升模型在真实应用环境中的泛化能力。

责任编辑：田亚玲

该文发表于《林业工程学报》2026年第1期。

引文格式：

刘同,管志浩,牛海峰,等.基于改进Mask Scoring R-CNN的航拍图像林火检测与分割方法[J].林业工程学报,2026,11(1):161-171.

LIU T,GUAN Z H,NIU H F,et al.Forest fire detection and segmentation method based on improved mask scoring R-CNN[J].Journal of Forestry Engineering,2026,11(1):161-171.