首页 创业指南 致富视频 网上开店 养殖视频 范文大全 创业项目开店经验创业杂谈如何创业技术资料创业防骗项目分析微信营销农村创业投资理财
  • 致富经
  • 农广天地
  • 致富早班车
  • 乡约
  • 科技苑
  • 农业电商
  • 农业要闻
  • 地方动态
  • 食品安全
  • 深度
  • 独家
  • 利用特征融合提升深度学习图像检索算法

    时间:2023-04-15 19:55:05 来源:东东创业网 本文已影响 东东创业网手机站

    相关热词搜索:

    廖 逍,王兴涛,徐海青

    (1.国网信息通信产业集团有限公司,北京 100021)(2.安徽继远软件有限公司,安徽 合肥 230088)

    在创建基于内容的图像检索系统(content-based image retrieval,CBIR)过程中,一般使用图像特征提取、特征处理和特征表达等技术。图像的特征表达和相似性度量对于图像检索来说尤为重要,要重视机器可处理的低层级的像素信息和人所感知到的语义概念之间的鸿沟[1]。相关研究提出,可以利用卷积神经网络将图片的编码作为图片的特征进行图像检索,深度卷积神经网络能够表达图片的图像信息[2]。但是,将预训练深度网络模型作为特征提取器存在局限性,在ImageNet上针对图像分类任务设计的网络对图片的差异并不敏感,使用有监督的针对图像检索设计的学习框架才能起到良好的效果[3]。特征提取方式与训练损失函数都会对图像检索的性能有所影响,所以本文重点探讨如何从卷积神经网络中提取图像的全局特征。

    1.1 图像检索

    传统图像检索方式是基于SIFT[4](scale invariant feature transform)图像提取特征实现的,主要特点为尺度不变性、旋转不变性。但即使是某些语义上不相近的图片,利用SIFT特征去度量相似性时也会呈现出较高的置信度[5]。

    全局特征指的是直接提取卷积层激活的信息,包括SPoC[6]、MAC[7]、GeM[8]等内容。另外,还可以使用注意力机制对模型的全局特征进行重新整合。局部特征能够降低图片背景的影响,只提取图片中的部分区域作为该图片的编码。R-MAC模型是将一张图片的几个区域聚合,从而构成固定长度的图像特征表达[7],但由于采用的是固定的网格划分,无法保证一个区域能够完全和感兴趣的区域对准。而采用Faster-RCNN中提出的区域候选网络(region proposal network,RPN)进行感兴趣区域的筛选[3]则可以避免这一点。目前最新的图像特征表达形式是将全局特征和局部特征结合起来,如DELG[9]特征或者通过ASMK等聚合算法将局部特征综合起来[10]。因此,本文提出在创建特征的时候融合特征,一方面是不局限于某一层,另一方面是挖掘神经网络特征层内部的信息并重新整合。

    1.2 度量学习

    度量学习是机器学习的核心,能够实现检索任务,将数据映射到嵌入的度量空间中。相似的图片在度量空间中的距离更近,而不相似的图片则距离较远,图片之间的距离度量包含欧氏距离、余弦距离、SNR(signal-to-noise ratio)、信噪比[11]等。使用深度神经网络进行度量学习的研究集中在设计良好的损失函数,比如如何构建训练组(batch)、如何利用训练组进行距离度量计算。训练组选择的内容非常重要,所以提出了多种多样的样本采集策略,包含困难样本挖掘、距离权重采样[12]、基于训练结果的跨训练组采样[13]等。

    常用的训练组损失函数包括Contrastive loss[14]、Triplet loss[15]、N pair loss[16]、Proxy NCA loss[17]、MultiSimilarity loss[18]等,Contrastive loss能够缩小两张相似图片之间的距离,使不相似图片之间的距离大于一定的阈值;
    Triplet loss会导致正样本接近anchor、负样本远离anchor,出现优化困难等问题;
    N pair loss利用1个anchor、1个正样本与多个负样本进行距离计算;
    Proxy NCA loss利用代理点进行NCA(neighborhood component analysis)损失计算;
    MultiSimilarity loss根据样本之间的不同关系进行权重赋值,从而计算损失结果。最近的研究表明,损失函数并不是决定性能高低的关键,在公平实验中,各个损失函数并没有显著的差异[19]。

    2.1 图像特征

    图像特征的设计对于保证图像检索质量至关重要,以下探讨3种常见的特征池化方式。设χk为某一卷积层的第k个特征图(feature map)。

    1)SPoC(平均池化),是指对卷积层中每个特征图求平均。

    (1)

    式中:fSPoC为平均池化输出值;
    |χk|表示第k个特征图的元素个数;
    K为特征图的维数;
    x为第k个特征图中的元素。

    2)MAC(最大池化),是指卷积层内中每个特征图的最大值。

    (2)

    式中:fMAC为最大池化输出值。

    3)GeM,是指对卷积层中每个特征图单元进行“非线性平均”,之所以叫做GeM,是因为其介于SPoC和MAC之间。

    (3)

    式中:fGeM为广义平均池化输出值;
    pk表示一个可学习的参数。

    MAC特征的优势为每个特征层的极大值能够实现“空间不变性”,不受复杂背景因素的影响;
    SPoC特征的优势为能够考虑图片的全局信息;
    GeM则是MAC和SPoC的折中,既考虑了主要内容即极值点的影响,又能够兼顾图片中的全局信息。深度神经网络在学习的过程中,高层的卷积层通常学习语义信息,低层级的卷积层可以学习到更多细节信息,无论是SPoC、MAC还是GeM,考虑的都是从单一的卷积层提取信息。但是,在深度学习图像检测领域,利用多尺度的特征图提取检测对象已经是一个惯例,例如SSD[20]、FCOS[21]等检测网络。因此,借鉴这种思想,利用多尺度、多层级的特征层信息进行融合,以提取内容丰富的特征,对图像向量进行描述。

    多层融合的方式包括“硬融合”(hard fusion)和“软融合”(soft fusion)两种方式,“硬融合”是指各个层的系数为常数,“软融合”是指可学习的参数在反向传播的过程中更新。在下文的实验中将使用这两种不同的融合方式。

    另外,本文提出了DELF[22]特征描述,通过注意力机制提取特征,得到关于一张图片的全局特征。为此引入了ECA[23]和CBAM[24]两种注意力机制开展特征提取实验。ECA是一个轻量化的注意力机制,而CBAM是一个相对复杂的注意力模块,其利用Spatial Attention模块和Channel Attention模块,综合了空间和通道两个方面的信息。在获得图像特征的卷积层上使用这两种不同的机制,能够得到图像的表达特征。

    2.2 损失函数

    根据文献[25]中的对比实验结果,在统一训练方式、评测基准的背景下,各个损失函数的训练结果差异并不大,这说明SOTA(state-of-the-art)的方式并不完全准确,因此本文采用最传统的最直接的Contrastive loss。损失函数公式为:

    (4)

    式中:L为损失函数;
    N为输入样本量;
    d为两张图片之间的距离;
    y表示两张图片是否相似,相似为1,反之为0;
    margin为事先设定的阈值,是一个人为指定的超参数。Contrastive loss通过对给定的两张图片计算损失进行对比,如果两张图片相似,则缩小它们之间的距离,否则使它们之间的距离大于所设置的阈值。

    本节针对之前提出的图像特征提取和融合方式,使用统一的训练框架和实验进行验证。

    3.1 数据集的选取

    采用的训练数据集和文献[8]中一致,由全球各个国家的地标、城市的图片构成,共约163 000张图片,包含713个建筑物模型,其中551个用来作为训练集,162个作为验证集,而测试集采用rOxford和rParis[25],衡量指标采用mAP(平均精度均值)。

    3.2 层级融合特征实验

    实验采用ResNet-101[26]网络,去掉了其全连接层部分,采用ImageNet预训练的参数作为网络的初始化参数,最后的输出向量要经过正则化(Normalize)处理,最终获得维度为2 048的特征向量。使用Adam作为随机梯度下降算法,相关实验参数设置为:batch-size为4,初始学习率为10-6,每一轮训练的学习率衰减参数为exp(-0.01),冲量为0.9,权重衰减为5×10-4,负样本图片数量是5张。使用GeForce GTX 1080Ti显卡,margin设为0.7。

    首先,对比原始的SPoC、MAC和GeM特征的检索效果,见表1,训练图片尺寸采用256×256,查询过程中是1 024×1 024,查询过程中不对PCA进行处理,直接对神经网络提取到的特征进行检索。在rOxford和rParis数据集上,SPoC的平均准确率都是最低的,这说明求平均的处理方式无法表征图像内容,原因可能在于图像中待检索的内容被其他要素淹没,降低了特征向量的显著性。

    表1 不同特征提取方式在测试集上的mAP

    之前创建的特征都是将最后一层卷积层的特征图作为基础实现特征的提取和综合,这样做忽视了低层卷积所提供的细节信息。本文考虑将高层的语义信息与低层的纹理信息相融合以获得更好的特征,如图1所示,而利用ResNet-101进行的实验表明,低层和高层的融合确实会提升检索的平均准确率。

    图1 ResNet网络上的不同层的融合说明

    不同层级融合的特征在测试集上的mAP见表2。在rOxford数据集上,无论是MAC特征还是GeM特征,Fusion_34基本上超过了原始的卷积层提取到的特征,MAC+Fusion_34在Easy检索难度下给出了最好的结果,比Fusion_4的最好结果提升了2.5%,GeM+Fusion_34和GeM+Fusion_234则分别在Medium和Hard检索难度下给出了最好的结果,比Fusion_4的最好结果分别提升了1.5%和2.0%。在rParis数据集上,MAC与不同的融合方式组合效果没有提升反而有所下降,GeM+Fusion_34在Easy和Medium检索难度下同时给出了最好的结果。

    表2 不同层级融合的特征在测试集上的mAP

    总之,相较于单层提取到的特征,特征融合能够提高检索准确率,但是在不同数据集上效果并不完全一致。

    利用注意力机制开展实验,在ResNet-101的最后一层卷积层激活上,ECA分别使用了长度为7和11的一维卷积核,将ECA和CBAM模块处理后的卷积方法和GeM及MAC提取方法结合起来,最终获得的都是2048维的特征向量。在测试集上的检索效果见表3,可以看出,在整体上直接将注意力模块插入到原始网络结构中并没有取得良好效果,只有MAC+ECA_7在rOxford和rParis上的检索性能比起原始信息有微弱的提升,而CBAM模块的使用反而使得检索的准确率下降。实验结果证明,通道信息注意力机制可以提升检索准确率,而空间信息的注意力机制反而会降低原始信息的可区分度和检索准确率。

    表3 注意力机制融合特征在测试集上的mAP

    本文探讨了针对图像检索进行全局特征提取的不同方式,证明了MAC特征和GeM特征要优于SPoC特征,平均池化会导致待检索内容被淹没在背景信息中,而不同层级的信息融合,可以有效提升图像的检索准确率。尤其是当图片之间的差异比较小时,低层细节信息的补充对于图像特征的表达十分重要。在相同的特征提取方式下,不同数据集上的检索准确率不同,说明数据集本身的分布对于该分布下的图像检索的质量有很大的影响,如何针对数据集的分布进行建模并研究是非常值得探讨的问题。

    猜你喜欢集上特征提取检索Cookie-Cutter集上的Gibbs测度数学年刊A辑(中文版)(2020年2期)2020-07-25链完备偏序集上广义向量均衡问题解映射的保序性数学物理学报(2019年6期)2020-01-13分形集上的Ostrowski型不等式和Ostrowski-Grüss型不等式井冈山大学学报(自然科学版)(2019年4期)2019-09-09基于Daubechies(dbN)的飞行器音频特征提取电子制作(2018年19期)2018-11-14Bagging RCSP脑电特征提取算法自动化学报(2017年11期)2017-04-04专利检索中“语义”的表现专利代理(2016年1期)2016-05-17基于MED和循环域解调的多故障特征提取噪声与振动控制(2015年4期)2015-01-01几道导数题引发的解题思考新课程学习·中(2013年3期)2013-06-14Walsh变换在滚动轴承早期故障特征提取中的应用轴承(2010年2期)2010-07-28国际标准检索质量与标准化(2010年5期)2010-05-03
    • 创业指南
    • 网上开店
    • 养殖视频
    • 理财
    • 政策
    • 技术
    • 致富视频

    推荐访问