(利用CNN实现的的BOV,Fisher Vector,VLAD或改进版本)
- Introduction
在过去的几十年里,图像检索系统取得了巨大的进步,从手工制作的特征和索引算法到最近基于卷积神经网络(CNNs)的全局描述符学习方法。全局描述符缺乏在图像之间找到匹配的块的能力。因此,在存在遮挡和背景杂乱的情况下,根据局部块来检索相应图像是比较困难的。 在最近的一个趋势中,提出了基于cnn的局部特征用于图像块匹配[1中相关论文]。然而,这些技术并没有专门针对图像检索进行优化,因为它们缺乏检测语义上有意义的特征的能力,并且在实践中显示出有限的准确性。
文章的主要目标是开发一个基于新的基于cnn的特征描述符的大规模图像检索系统。首先引入了一个新的大规模的dataset, Google-Landmarks,它包含了超过1M landmark的图像,来自近13K个独特的landmark。该数据集覆盖了世界上的广泛领域,因此比现有数据集更加多样化和全面。查询集由多出的10万幅具有不同特征的图像组成;特别是,我们在数据库中包含了没有匹配的图像,这使得我们的数据集更具挑战性。然后,提出了一种基于cnn的带注意力集中机制的局部特征,它只使用图像级的类标签进行弱监督训练,不需要对象级和图像块的注释,这个新的特性描述符称为DELF。
- Image Retrieval with DELF
1 密集局部特征提取
2 关键点选择 Attention-based Keypoint Selection
文中设计了一种有效提取特征子集的技术,而不是直接使用密集提取的特征进行图像检索。先训练得到图像描述子,然后固定描述子再去学习attention机制中的score function,在训练的时候对图像进行随机的scaling等,希望注意力机制能抓住不同情况下的共有特征。注意的是,keypoint selection是在描述符提取之后进行的,这与现有技术不同。
3 PCA降维 Dimension Reduction
4 索引和检索:Image Retrieval System(涉及到了很多检索常用的技术)
最近邻搜索,D-tree和ProductQuantization (PQ),k-means聚类,Locally Optimized Product Quantizer,RANSAC几何验证等