一种FPGA,实现的复杂背景红外小目标检测网络

时间：2023-09-30 15:10:03 来源：网友投稿

周海，侯晴宇，卞春江，冯水春，刘一腾

(1.中国科学院国家空间科学中心，北京 100190；
2.中国科学院复杂航天系统电子信息技术重点实验室，北京 100190；
3.中国科学院大学，北京 100049；
4.哈尔滨工业大学航天学院，哈尔滨 150001)

小目标检测在红外图像处理领域占有重要地位，特别是在遥感领域中具有较高的军民应用价值。而复杂背景下的低信噪比小目标检测是一项具有挑战性的任务，因为图像中的目标通常很小很弱并缺乏特定的形状、纹理和结构信息。

近几十年来，许多红外小目标检测算法被提出，算法主要包括单帧检测和多帧关联2 个步骤。由于多帧关联往往是在单帧检测基础上进一步开展时域关联处理，因此，单帧检测算法对于复杂背景下弱小目标的检测能力更为关键。本文聚焦在红外小目标单帧检测算法的研究上，传统的单帧检测算法可分为两类：局部对比法（local contrast measure，LCM）和非局部自相关法（nonlocal autocorrelation measure，NAM）。

LCM 主要是通过定义一种合理的局部对比度来抑制背景和增强小目标。Chen 等[1]应用LCM 来测量每个像素位置与其邻域之间的差异。Han 等[2]进一步考虑中心子块的均值估计来改进LCM（improved local contrast measure，ILCM），并通过增加窗口的滑动步长提高算法效率。Wei 等[3]提出一种基于多尺度图像块的对比度度量方法（multiscale patch-based contrastmeasure，MPCM），利用每个位置像素与其相邻区域的灰度比作为真实目标对比度的增强因子。类似的LCM 还包括相对局部对比度度量（relative local contrast measure，RLCM）[4]和多尺度改进的LCM（multiscale modifiedlocalcontrast measure，MLCM）[5]。Han 等[6]联合比值和差值的局部对比度（ratiodifference jointlocalcontrast measure，RDLCM）来增强小目标并抑制背景。

以红外块图像（infrared pat ch image，IPI）模型为代表的NAM 利用目标的稀疏性和背景的低秩性将目标检测问题转化为最优化问题，然后通过求解目标函数来分离目标和背景[7]。IPI 存在的2 个明显缺点是检测结果中目标形态的过收缩和噪声残留，主要原因是采用核范数作为背景的低秩正则项。通过在IPI 模型中引入更多的低秩矩阵恢复技术以获得更好的性能。Dai 等[8]提出非负约束的红外块图像模型和加权的红外块图像张量模型（reweighted infrared patchtensor model，RIPT）[9]，同时采用不同形式的紧秩对传统IPI 模型低秩正则项替换来解决背景残留问题。此外，Zhang 等[10]使用非凸秩逼近最小化联合范数，Zhou 等[11]联合应用Schatten 1/2 拟范数正则化和重加权稀疏增强来提高检测性能。

传统检测算法通常仅采用手工制作的特征，其性能取决于特征选取的有效性。深度学习可以从大量的训练数据中自动学习特征，更有助于描述数据中丰富而独特的信息。近年来一些基于深度学习的目标检测算法被提出，如Faster R-CNN[12]、YoloV 2[13]、YoloV3[14]、SSD[15]等。这些算法对纹理明显的大目标具有很高的检测性能，但由于红外小目标纹理特征并不十分明显，现有深度学习算法难以适用。

针对现有检测算法的不足和应用对算法实时处理性能的需求，本文主要工作如下：①以文献[16]提出的强鲁棒型红外小目标检测网络（robustinfrared small targetdetection network，RISTDnet）[16]为研究基础，面向更为丰富的目标结构特征和实时处理性能提升的需求，提出一种增强型红外小目标检测网络（enhanced infraredsmalltargetdetection network，EISTDnet）；
②提出基于现场可编程逻辑门阵列（field programmable gate array，FPGA）平台的EISTDnet 高性能实时并行处理优化与实现算法；
③使用多幅测试图像对EISTDnet 检测性能和实时处理性能进行了实验验证，并与其他检测算法进行了对比。

首先，利用EISTDnet 计算目标似然图，似然图中的各像素值表征该像素属于小目标概率，然后，在目标似然图上设置阈值，进行阈值分割提取真实目标。

RISTDnet 在复杂背景下对小目标已能够表现出较好的检测性能，但依然存在两方面不足：①通过对更多复杂场景下不同类型小目标进行测试，发现RISTDnet 对部分呈现条状结构特征的低信噪比小目标检测能力偏弱，如图1 所示的高分5 号红外图像[17]；
②虽然能够在地面服务器中通过使用高性能GPU NVIDIA RTX2080Ti 获得较好的RISTDnet处理性能，但在以空天飞行器为代表的算法应用场景中，受使用环境制约只能选用以FPGA 为主的低功耗小体积嵌入式处理器，难以满足RISTDnet 快速实时处理需求。针对上述问题，EISTDnet 在研究中重点通过1.1 节和1.2 节介绍的两方面优化策略对网络结构开展重新设计。

图1 低信噪比条状小目标示意图[17]Fig.1 Small strip target with low SNR[17]

1.1 强化多尺度特征提取

多尺度特征提取主要用于为复杂背景下的低信噪比小目标获得足够数量的特征图。RISTDnet定义了5 种特征提取尺度：3×3、5×5、7×7、9×9 和11×11，并通过15 种定权卷积核生成15 幅特征图，如图2(a)～图2(o)所示。这些定权卷积核在设计上均基于对图像中复杂背景和目标特性的研究而制定，以满足不同场景下有效特征提取。运算方式是以输入图像逐像素为中心，计算每个卷积核模板下邻域红色像素的平均值减去黑色像素的平均值，目的是提取小目标的对比度信息。

图2 EISTDnet定权特征提取卷积核Fig.2 EISTDnet feature extraction convolution kernel with fixed weight

EISTDnet 继承了RISTDnet 特征提取定权卷积核对传统斑点状小目标提取能力，并针对复杂场景中更为丰富的条状小目标结构特征，新增8 种定权卷积核，如图2(p)～图2(w)所示。这些卷积核的结果是以红色像素为中心，分别计算4 种颜色条带的累加和，继而通过比较选出4 个条带累加和中最大的那条，计算其与红色像素的平均值减去所有黑色像素的平均值，目的是增强不同方向下条状小目标对比度信息提取能力。

1.2 卷积网络轻量化

卷积网络主要采用深度学习算法用于对小目标深度特征进行提取。由于卷积运算为4 层循环乘加运算，计算量庞大，因而EISTDnet 在设计时充分考虑了应用中处理器性能约束，采用卷积核尺寸归一化、归一化（batch normalization，BN）层参数融合和特征映射层简化3 种方法对卷积网络开展轻量化设计。

1)卷积核尺寸归一化。RISTDnet 卷积核包括11×11、7×7、5×5、3×3 和1×1 这5 种尺寸规格，差异较大。这在对卷积层并行实时计算时，难以对卷积核并行展开。并且由于5 种尺寸中除1×1 外互相之间不能整除，因此并行展开时无法选择出一个适用于各层的最优卷积核展开尺度，这会造成部分计算资源的浪费。

EISTDnet 在设计中为提高实时处理架构并行展开能力，最大化利用处理资源，对较大卷积核采用多级小卷积核串联的方式予以优化，如图3 所示。

图3 卷积核尺寸多级串联优化Fig.3 Multi-stage series optimization of convolution kernel size

由图3 可以看出一个5×5 的卷积核可以替换成2 级3×3 的卷积核，此时卷积权重个数由25 降低至18，同理对于11×11 和7×7 卷积核可以分别替换成5 级和3 级3×3 的卷积核，此时权重数量由121和49 分别降低至45 和27。优化算法在确保替换前后各卷积层感受野不变的情况下，大幅度降低了卷积核权重数，并将原有3×3 尺度以上的卷积核归一化到3×3，有利于选择处理架构最优并行展开尺度，提高计算效率。

2)BN 层参数融合。BN 层主要是为在网络训练过程中解决梯度消失和梯度爆炸问题，同时提高泛化性能。BN 层计算涉及到高精度乘加运算，因而在FPGA 实现时需要消耗大量计算时间与参数存储资源。由于BN层在推理阶段参数已经完全固定，EISTDnet 设计中对BN 层采用训练后与卷积层参数融合的方式降低推理阶段计算资源开销。

设卷积计算为

式中：Y为卷积层输出；
W为卷积核参数；
X为卷积层输入；
b为偏置。

BN 层与卷积层融合后输出Y bn依然可依照式(1)进行卷积计算，仅需对W和b变量采用W′和b′进行参数更新：

式中：
γ为尺度因子；

ε为方差调整因子；

β为偏移因子；

µ和 σ2为每个通道的平均值与方差。这4 个变量均为训练结束后BN 层静态参数。

3)特征映射层简化。RISTDnet 特征映射层采用Sigmoid 函数将特征提取结果分别映射到目标和背景似然图。以x为变量Sigmoid 函数定义为

Sigmoid 函数具有单增性质，可将变量映射到[0,1]内，从而获得百分比表示的概率似然值。在网络训练阶段通过Sigmoid 函数获得概率似然值有利于计算损失函数，但其推理阶段FPGA 处理中通常需采用级数展开算法进行运算，如式(5)所示，式中O(x12)为可忽略的极小项。这些高次方级数展开计算会消耗FPGA 大量乘加运算资源。

考虑到映射后数值在实时处理中仅用于阈值分割，因而在EISTDnet 设计中将推理阶段特征映射函数简化为S(x)=x，相对Sigmoid 函数运算开销降低明显，仅需要通过调整阈值分割取值即可获得同等目标提取精度，不会影响网络检测性能。

1.3 EISTDnet 网络结构

采用强化多尺度特征提取和卷积网络轻量化两方面优化策略后，EISTDnet 网络结构如图4 所示，主要由多尺度定权特征提取网络和变权卷积网络两部分组成。

图4 EISTDnet网络结构Fig.4 Network structure of EISTDnet

多尺度定权特征提取网络主要用于提取手工制作的多尺度特征，其中，红色方框示意的15 种特征提取图采用继承RISTDnet 的原始定权特征卷积核提取，黄色方框示意的8 种特征提取图为EISTDnet新增的特征卷积核提取，提取后将原图与特征图串联作为变权卷积网络输入。变权卷积网络通过采用自学习训练后参数进一步对目标深度特征进行提取。

变权卷积网络中包含一个特征拼接子网络，采用Passthrough 层结构设计。如图5 所示，特征连接子网络在对高分辨率特征图进行分割和重新排列后，将结果与卷积后低分辨率特征图连接起来，形成多尺度特征图，更有利于检测不同大小的小目标。

图5 特征拼接子网络细节Fig.5 Detail of feature connection sub-network

变权卷积网络中的特征映射层采用简化设计方法，在推理阶段仅需要将输入的特征图进行通道展开重新组织即可生成目标似然图用于后续阈值分割，如图6 所示。

图6 特征映射层细节Fig.6 The detail of feature mapping layer

从网络结构可以看出EISTDnet 是一个多尺度手工制作特征和深度自学习特征融合的小目标检测框架，其网络参数如表1 所示。其中各卷积层后均跟有ReLU 层，篇幅考虑不予表中列出。

表1 EISTDnet 网络参数Table 1 EISTDnet network parameters

表2 给出了EISTDnet 相对RISTDnet 在各项优化策略应用前后运算操作数变化。可以直观看出由于新增了8 种多尺度特征提取，EISTDnet 运算操作数相对RISTDnet 增加了29.23%。但通过应用3 种网络轻量化优化方法，EISTDnet 运算操作数降低至RISTDnet 的48.46%，有效削减了推理阶段实时处理计算资源需求。

表2 EISTDnet 与RISTDnet 运算操作数比对Table 2 Com parison of operands between EISTDnet and RISTDnet

EISTDnet 网络结构主要由多尺度定权特征提取网络和变权卷积网络两部分组成。其中变权卷积网络中卷积操作采用常规卷积运算，而多尺度定权特征提取网络由于新加入8 种基于四向特征点比较的特征提取卷积核，其计算过程无法简单转化为常规卷积运算。因此，在顶层设计上EISTDnet采用独立模块分别实现多尺度定权特征提取网络和变权卷积网络实时处理。

与CPU、DSP 等嵌入式处理器不同，FPGA 可以针对算法内不同处理单元计算需求与特点量身定制处理电路，并采用数据复用、并行处理与流水处理等设计算法构建高性能处理架构。EISTDnet实现中有效运用了这些设计算法。

2.1 多尺度特征提取网络优化与实现

多尺度定权特征提取网络中不同特征提取卷积核之间存在数据深度复用关系，如图7 所示。

图7 多尺度定权特征提取数据复用关系示意图Fig.7 Multi-scale feature extraction data reuse relationship with fixed weight

对于输入图像中坐标为 (x,y)的像素，设其灰度值为s，则由图7 可以直观看出，只要再计算以该像素为中心的k3、k5、k7、k9和k11这5 个不同尺度框体和变量，即可获得图2(a)～图2(o)15 种不同特征提取卷积核对应特征值，对应关系如式（6）～式（20）所示。F(A)代表图2(a)卷积核特征提取值，其余标号以此类推：

同理对于EISTDnet 新增定权特征提取卷积核，也存在如图8 所示复用关系。

图8 EISTDnet新增定权特征提取数据复用关系示意图Fig.8 New feature extraction data reuse relationship with fixed weight of EISTDnet

对于输入图像中坐标为 (x,y)的像素，设ta1/2/3/4分别代表以其为中心，纵向距离为1 像素、2 像素、3 像素和4 像素的2 点和变量，tb1/2/3/4、tc1/2/3/4和td1/2/3/4分别代表以其为中心，其他3 个方向距离为2 点和变量。设tmax1/2/3/4和tsum1/2/3/4分别为四向2 点和的最大值变量与四向2 点和的累加和变量，如式（21）～式（28）所示，MAX 为取最大值运算符。

则对于图2(p)～图2(w)中8 种新增特征提取卷积核，对应特征值关系如式（29）～式（35）所示。

对于F(W)则需要通过记录坐标 (x,y)相邻点变量予以计算，设s3(x,y)为坐标 (x,y)邻域3×3 区域累加和，则可通过如式（36）～式（37）所示计算F(W)。

从式（6）～式（37）推导可得出，由于计算时存在大量的数据复用，在处理时仅需要对原图各像素通过加法简单计算出k3、k5、k7、k9、k11和tsum2/3/4这8 个变量，继而通过最大值比较运算获得tmax1/2/3/4这4 个变量，即可进一步通过简单线性计算获得23 幅特征图对应特征点，循环全图所有像素即可获得23 幅特征图。由于所提算法采用分块循环计算这一设计思路，因而并不受固定图像分辨率大小制约，可满足不同分辨率图像特征提取需求。

与优化前卷积形式计算算法相比，得益于不同模板之间的耦合性和数据深度复用策略，优化后可大幅度降低图像读取次数与运算操作数，提高处理速率的同时降低FPGA 内部资源占用，如表3 所示（以640×512 输入图像为例）。

表3 图像读取与运算操作比对Table 3 Im age reading and operation com parison

基于本节优化方式，特征提取模块FPGA 实现框图如图9 所示，其中变量计算模块和特征值计算模块均采用并行计算方式对读出图像点进行快速处理，同时图像块缓存采用乒乓设计以保证整体运算单元处于高效流水工作状态。

图9 定权特征提取模块FPGA实现框图Fig.9 FPGA implementation block diagram of fixed-weight feature extraction module

2.2 变权卷积网络优化与实现

EISTDnet 变权卷积网络中超过90%的操作涉及到卷积，因此，基于FPGA 的实时处理设计侧重于卷积并行计算的优化。为实现变权卷积网络高性能快速处理，需重点考虑以下3 点优化目标：

1)在FPGA 内计算资源允许条件下尽可能构建大规模并行流水计算架构，减少计算单元等待周期，降低计算延时，提高处理性能；

2)基于有限片内缓存加强数据复用设计，尽可能降低外部缓存访问频次，以降低外部存储器吞吐和规模需求，节约硬件成本和功耗开销；

3)充分利用分布式寄存器提高FPGA 布局布线后工作频率，进一步提高系统整体处理性能。

2.2.1 多维循环并行展开优化

卷积网络中的卷积运算操作由4 层循环组成，如图10 所示。这些循环沿着卷积核和特征图滑动从而产生丰富的优化设计空间，其中最为关键的是循环并行展开的层次、维度和规模。

图10 卷积运算4层循环示意图Fig.10 Four-layer loop diagram of convolution operation

循环展开的维度与方式决定了卷积计算中不同的并行化设计，继而会影响处理架构优化设计中数据复用和存储访问方式。4 层循环各自一维展开如图11 所示。

图11 循环一维展开示意图Fig.11 One-dimensional unfolding loop diagram

从图11 中可以直观看出，卷积核循环和输入通道循环展开有助于快速生成输出特征点，节省处理中间结果缓存，但展开并行计算时不同乘法器所需的输入特征点和权重均不同，复用度较低，对输入特征图和权重缓存访问吞吐量要求较高；
输入特征图和输出通道展开分别充分复用了权重和特征点，但并行计算中间结果分属不同输出特征值，需要较大输出中间结果缓存深度。

并行展开尺度对不同卷积层的契合度直接影响整体并行架构运算效率，即各维度展开尺度应为不同层相关维度的公因数，否则会在处理过程中无法充分利用展开后的并行度，例如对于EISTDnet 输出通道展开时，若将并行尺度设为24，则在处理Conv1.1 层时利用率为100%，但在处理Conv2.1 层时利用率会降低为75%。因而仅采用一维循环展开时往往会受限于公因数大小难以构建高利用率大规模并行展开架构，多维展开能够有效解决该难题。

EISTDnet 在网络结构设计时运用了卷积核尺寸归一化设计算法，除最后一层外其余各层卷积核均为3×3。同时输入和输出通道数各层最大公因数均为8，输入特征图各层最大公因数为64×80。受限于FPGA 片内乘法器数量，为最大化并行度和尽可能提升数据复用率，并平衡不同展开维度对缓存带宽和深度影响，EISTDnet 适合采用卷积核、输入特征图和输出通道三维循环展开，如图12 所示。此时卷积核循环并行展开度为3，输入特征图并行展开度为16×8，输出通道并行展开度为8，整体并行度为3 072。

图12 EISTDnet二维循环展开示意图Fig.12 Two-dimensional loop unfolding diagram of EISTDnet

2.2.2 多级缓存与循环计算顺序优化

变权卷积网络在FPGA 实现中涉及多级缓存单元，从类型上分主要包含片外动态随机存储器（dynam ic RAM，DRAM）、块缓存（b l o c k RAM，BRAM）和寄存器（register，REG）3 种。如图13 所示，REG 在FPGA 片内，与计算资源耦合紧密，使用灵活但容量最小；
BRAM 同属片内资源，并为双口RAM 形式，吞吐能力强，但使用规模与扇出过大时会影响布线后时序，需在REG 配合下使用；
DRAM 具有较大容量，但吞吐能力受输入输出（inputoutput，IO）限制，延迟相对较大，过度使用也会直接加剧硬件成本和功耗开销。

图13 多级缓存示意图Fig.13 Multi-level cache diagram

受BRAM 和REG 数量限制FPGA 内无法存储完整的特征图，每层卷积计算时需将待处理的输入特征图划分为多个块依次从DRAM 中读出。结合循环展开机制，通过优化卷积循环计算顺序和分块大小，可以有效增加片内缓冲区数据的重复使用、减少片上缓存需求并降低外部DRAM 访问频次，避免因DRAM 访问带来的长延迟和高功耗。

在循环计算顺序选择中为尽快生成可直接存入外部DRAM 的输出特征值，节省片内输出特征值中间结果缓存，输出通道循环除已展开的部分外其余应放在最后进行。此外，由于输入特征图尺寸相对卷积核较大，并且循环展开中输入特征图展开尺度也大于卷积核展开尺度，为充分复用当前展开的特征图，降低片内缓存吞吐压力，卷积核循环应首先完成，再完成输入特征图循环。此时输入特征图分块可按输入通道依次缓存，卷积核片内缓存则需要从外部缓存搬入当前分块对应的8 个输出通道全部权重，从而最大化片内数据复用，降低DRAM 吞吐压力。如图14 所示变权卷积网络循环最优计算顺序。

图14 循环计算顺序示意图Fig.14 Diagram of cyclic calculation sequence

2.2.3 高性能计算架构

依据多维循环并行展开、循环计算顺序和多级缓存优化设计结果，EISTDnet 变权卷积网络在实现中构建了以8 个16×8×3 并行计算矩阵为主的实时高性能并行处理架构，如图15 所示，其中C1～C8对应8 个输出通道循环展开。每个矩阵中包含16×8个计算单元，每个计算单元中包含的3 个乘法器用于对卷积核循环展开并行计算。

图15 变权卷积网络实时高性能并行处理架构示意图Fig.15 Real-time high-performance parallel processing architecture of variable-weight convolutional networks

考虑到卷积核权重需要从缓存中同时为多个计算单元更新，因而将权重队列设为8×8，每个权重队列仅负责更新当前矩阵横排的8 个计算单元，以控制每个权重队列扇出。而对于输入特征图队列，则采用依次传递的方式对不同矩阵进行更新，更新后的特征点在计算单元内利用分布式寄存器进行缓存，同时控制了输入特征点队列扇出和队列数量，有效抑制当并行计算单元规模过大时由扇出引入的时序问题，以进一步优化FPGA 布局布线后时钟频率，提高处理性能。

此外，对于EISTDnet 变权卷积网络处理中特征拼接需求，在设计中采用外部缓存地址动态管理的方式对数据进行虚拟拼接，即在相关层特征图BRAM 分块向DRAM 存储时依据拼接需求动态调整读写地址，避免拼接数据搬移对处理架构带来的额外负担。

为验证EISTDnet 及FPGA 实现性能，构建了训练和测试实验数据集，并以FPGA 处理板为核心搭建了一整套实验与测试平台。

3.1 实验数据集

实验数据集针对复杂场景下弱小目标进行设计，包括多种云、地表、空天、海洋等复杂背景类型。数据集建立过程中对图像随机添加不同位置、信噪比和大小的目标到背景图像中，目标位置服从均匀分布，目标信噪比范围为0.5～1，目标尺寸范围为1×1～13×13，并包含条状小目标。训练数据集包含6 743 幅图像，测试数据集包含3 个测试序列共4 917 幅图像，如表4 和图16 所示。

图16 测试序列典型帧示意图Fig.16 Diagram of test sequence typical frames

表4 测试序列典型帧与数量Table 4 Typical fram es and number of test sequences

3.2 实验与测试平台

实验与测试平台采用高性能FPGA 处理板对EISTDnet 的实现予以验证，实物如图17 所示。

图17 高性能FPGA处理板Fig.17 Self-developed image processing board

为验证算法处理性能，以高性能FPGA 处理板为核心搭建了一套自测试验证系统，系统组成如图18 所示。高性能处理板实时接收图像模拟源发送设备输出的测试序列图，由FPGA 处理后将结果送至处理结果接收解析设备存储，继而通过解析软件对结果进行分析比对，完成对EISTDnet 实现功能性能测试与验证。

图18 自测试验证系统Fig.18 Self-test verification system

3.3 检测性能测试与分析

为证明EISTDnet 的优越性，本文将其测试结果与ILCM、MLCM、MPCM、RIPT 和RLCM 这5 种算法的仿真结果进行对比，这些算法的代码来自相应作者的网站。不同算法对应的目标增强结果如图19 所示，可以看出EISTDnet 相对其他算法具有较明显优势。

图19 不同算法检测结果对比Fig.19 Detection results of different methods

此外，为更系统地描述EISTDnet 与其他算法性能比较，采用受试者工作特征（receiver operating characteristic，ROC）曲线作为性能量化指标，曲线中虚警率（false posi t iverate，FPR）和检测率（t rueposi t ive rate，TPR）定义如式（38）和式（39）所示。

式中：Nfalse为检出的错误目标数量；
Npix为每张图片像素总数；
Ntest为测试用图片总数；
Ntrue为检出的正确目标数量；
Nreal为测试序列中实际目标数量。

图20 给出了EISTDnet 与其他5 种算法在不同测试序列下ROC 曲线对比，可以直观看出，本文算法相较其他算法检测率提升明显，在低虚警率(10−3)下3 个测试序列平均检测率提升49.5%，充分说明EISTDnet 对复杂背景下低信噪比小目标的检测优势。

图20 不同算法ROC曲线对比Fig.20 ROC curves of different methods

表5 给出了EISTDnet 与RISTDnet 在3 个测试序列下的检测率对比。图21 给出了不同信噪比下EISTDnet 与RISTDnet 对条状小目标检测率的对比曲线。从表5 和图21 可知，EISTDnet 与RISTDnet相比检测性能有一定优势，性能差异主要体现在测试序列中信噪比偏低的条状小目标。表6 分别统计了各测试序列中信噪比最低的50 个条状目标在10−3虚警率下2 种网络的检测性能，这些目标信噪比范围为0.5～0.68。

图21 不同信噪比下EISTDnet与RISTDnet条状弱小目标检测率曲线Fig.21 Stripe dim targets detection rate curves of different SNR between EISTDnet and RISTDnet

表6 EISTDnet 与RISTDnet 条状弱小目标检测性能对比Table 6 Com parison of stripe dim target detection perform ance between EISTDnet and RISTDnet

3.4 FPGA 实现资源与处理性能分析

表7 给出了优化后的检测算法FPGA 硬件资源使用情况，FPGA 型号为Xilinx 公司生产XC7VX690T，开发工具为Vivado2 019.1。

表7 FPGA 资源利用率Table 7 FPGA resource utilization

从表7 中可以看出，为尽可能优化时序并降低外部存储器访问频次，片内BRAM 和用来生成REG的触发器(flip flop，FF)利用率分别高达93%与87%。大量BRAM 和FF 的使用有效保证了并行处理架构无阻塞流水运行，同时，降低了FPGA 内布局布线难度，继而提高了系统布局布线后时钟频率。乘除等复杂高精度运算全部使用片内DSP 硬核资源，由于卷积并行计算矩阵规模较大，利用率也高达91%。

图22 给出了EISTDnet 网络在FPGA 内处理流水线示意图，依据处理流程流水线上主要包括图像传输、特征提取、卷积网络计算3 级。其中由于计算规模较大，卷积网络计算占用了流水线上最长处理时间，因而其处理时延决定了FPGA 实时流水处理能力。而对于固定尺寸输入图像，卷积网络处理时延取决于网络各层处理循环数量，其仅与循环分块数量、输入通道数量和输出通道数量相关，而这些参数在网络训练后固化，不受图像特性影响，因此，FPGA 整体流水处理架构具有良好的稳定性和实时性保障。

图22 EISTDnet网络在FPGA内处理流水线示意图Fig.22 Schematic diagram of EISTDnet network processing pipeline in FPGA

图23 给出了EISTDnet 的FPGA 实现仿真波形。FPGA 实现中图像传输、特征提取和卷积计算三部分采用并行流水处理方式，仿真显示单帧图像流水线上最大处理时钟数为5826324 个时钟周期(clock period，简称clk)。FPGA 布局布线后时钟支持的最高频率为187MH z，实际片内工作时钟为1 8 0 MHz，此时处理周期为32.37m s，可满足3 0 Hz、640×512图像快速实时处理需求。

图23 EISTDnet 的FPGA实现仿真波形Fig.23 FPGA simulation waveform of EISTDnet

图24 给出了同等规模处理架构下RISTDnet 的实现仿真波形，仿真显示单帧图像流水线上最大处理时钟数为135 9 8 7 2 0 个时钟周期，1 8 0MHz 时钟下处理周期为75.55ms。对比可见得益于计算操作数的优化和并行处理架构与卷积核尺寸之间的匹配性，EISTDnet 在FPGA 实时处理速率上相对RISTDnet提高了1.33 倍。

图24 RISTDnet 的FPGA实现仿真波形Fig.24 FPGA simulation waveform of RISTDnet

本文面向复杂背景红外弱小目标实时检测难题，提出一种基于深度学习的增强型红外小目标检测网络EISTDnet，并基于FPGA 平台实现其高性能实时处理，具体结论如下：

1)EISTDnet 可实现较为优异的检测性能，经3 个序列共4 917 幅图像测试，相比传统5 种算法，在虚警率为10−3条件下，平均检测率提升49.5%，充分说明EISTDnet 对复杂背景下低信噪比红外小目标的检测优势。

2)针对RISTDnet 对复杂背景下条状弱小目标检测性能较弱的问题，EISTDnet 通过增加8 种定权特征提取卷积核强化特征提取能力，对信噪比范围在0.5～0.68 之间的条状小目标，实现了10−3虚警率下29.4%检测率的提升。

3)由于定权特征图数量增加，EISTDnet 运算操作数相对RISTDnet 增加了29.23%。通过采用卷积核尺寸归一化、BN 层融合和特征映射层简化3 种优化算法，EISTDnet 运算操作数降低至RISTDnet的48.46%。同时，通过采用数据深度复用算法进一步优化EISTDnet 多尺度定权特征提取模块，优化后该模块运算操作数降低至优化前的15.51%。运算操作数的多方面优化显著降低了对处理芯片计算资源的需求。

4)通过多维循环并行展开、循环计算顺序优化和多级缓存优化算法，构建了EISTDnet 高性能并行计算架构，在单片FPGA 上实现30Hz、640×512 图像快速实时处理，相比RISTDnet 处理速率提高了1.33 倍。

为继续提高EISTDnet 实时处理性能，拟在后续进一步开展针对该网络的裁剪压缩方法研究，并通过训练与优化网络参数控制裁减压缩后精度损失。

猜你喜欢特征提取卷积像素像素前线之“幻影”2000小哥白尼(军事科学)(2022年2期)2022-05-25基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02“像素”仙人掌红领巾·萌芽(2019年8期)2019-08-27从滤波器理解卷积电子制作(2019年11期)2019-07-04基于Daubechies(dbN)的飞行器音频特征提取电子制作(2018年19期)2018-11-14基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20ÉVOLUTIONDIGAE Style de vie tactile中国与非洲(法文版)(2017年10期)2017-11-23Bagging RCSP脑电特征提取算法自动化学报(2017年11期)2017-04-04高像素不是全部CHIP新电脑(2016年3期)2016-03-10基于MED和循环域解调的多故障特征提取噪声与振动控制(2015年4期)2015-01-01

推荐访问:背景检测目标