qg777钱柜误乐

热门关键词: qg777钱柜误乐

钱柜官网自动化所在人脸识别研究中取得进展

摘要 在很多的人脸识别的应用中,有大量的人脸数据每个人有两张照片,一个是身份证照片,注册用的,还有一个是定点采集的照片。已有的方法大部分是用来处理有限的宽度和足够的深度(每个类别有足够多的图像)。当遇到身份证和定点照这种数据集的时候,已有的方法就会遇到很多麻烦。本文中,我们提出了一个大规模双样本深度学习方法,用来处理身份证照和自拍照的人脸识别问题。为了处理每个类别只有两个样本的问题,我们提出了分类-验证-分类的训练策略,逐渐的提升模型的能力。另外,和一个支配原型softmax结合起来,使得训练可以应用在大规模的数据集上。我们将LBL用在一个超过200万人的数据集上。实验表明,我们的方法能够取得最佳的表现,验证了LBL在人脸识别上的有效性。

摘要:人脸识别利用CNN获得了很多的提升,这个问题的核心在于特征的可分性。为了解决这个问题,一部分人试着探索基于挖掘的策略(困难样本挖掘和focal loss),聚焦于样本的可提供的信息。另外一部分人设计了基于margin的损失函数(angular, additive和 additive angular margin)来增加特征和在ground truth上的投影之间的margin。这两个方法都被验证是学习可分特征的方法。但是,这两个方法要么会遇到困难样本的随意性的问题,要么会遇到其他的类别的可分性不强的问题。在这篇文章中,我们设计了一个新的损失函数(SV-Softmax),把重点放在错误分类的点上,来指导可分特征的学习。所以,SV-Softmax可以抑制难样本的随意性,同时可以汲取其他的类别的可分能力,得到更加好的可分特征。据我们所知,这是第一次尝试同时将基于挖掘和基于margin的方法放到一个框架里。我们在几个benchmarks做了实验,实验表明我们的方法做到了业界最佳。

近些年得益于网络架构、训练策略以及人脸数据的发展,人脸识别技术取得了巨大的提升,越来越多地被推广到安防领域,延伸出考勤机、门禁机等多种产品,产品系列达20多种类型,可以全面覆盖煤矿、楼宇、银行、军队、社会福利保障、电子商务及安全防务等领域,人脸识别的全面应用时代已经到来。

​ 人脸识别近年来发展很大,这要归功于深度学习结构,训练的策略和大量的数据。现有的方法都是集中在处理非限制场景的人脸识别,这些数据集常常人数有限,每个人有大量的照片。在现实应用中,有很多人证比对的场景。对比非限制场景人脸识别,人证比对有几个特点:

人脸识别是计算机视觉和模式识别的基础任务。人脸识别任务包括两类,人脸身份验证和人脸比对。对于人脸识别来说,仍然有很多的挑战,特别是在大型的数据集上,例如MegaFace Challenge和Trillion Pairs Challenge。

然而,现有方法主要关注自然环境下的人脸识别,其训练数据大都从网络上收集而来,一般只包含中等量级的人数,但每类平均样本数很多。然而,实际应用中的人脸识别系统通常只能获取2张图像,一张证件照,一张现场照。同时,系统需要面对的人脸个体数量可达到上百万甚至是千万级。因此,实际中人脸数据库通常具有海量类别,但每类只有2个样本,一般被称之为大规模双样本问题。

  1. 异构性:证件照和自拍照采集的途径不一样,证件照一般是限制场景的采集,干净的背景,正面照,光线充足,表情自然。自拍照一般是非限制场景,监控相机等。姿态,光照,表情,遮挡各不相同。更重要的是年龄的差距,身份证照和自拍照的年龄差距有时候会10~20年,这是最大的不同。
  2. 双样本数据:通常,人证比对的数据集是通过授权系统采集的,授权系统只能采集两张图像,一张证件照,一张自拍照。只有两张照片,很难很好的表达类内的多样性,这对双样本数据是个很大的问题。
  3. 大量的类别:人证比对的数据集往往会有非常多的类别,几百万甚至上亿,如何使用有限的GPU资源来训练那么大类别的数据,也是个麻烦的问题。

最近几年,人脸识别常常是使用深度神经网络来构建。训练深度模型的时候,通常使用分类损失函数,度量学习损失函数。度量学习损失函数有对比损失和三元组损失,常常需要非常大的计算开销。为了避免这个问题,需要非常仔细的设计minibatch的采样的策略,所以度量学习的performance对于这些策略非常的敏感。所以,越来越多的学者开始转向重新构建基于分类的损失函数。

现有方法在训练这种数据时会遇到巨大的挑战,例如类内变化不足使得训练难以收敛以及海量样本数对计算设备的极端要求。为此,中国科学院自动化研究所针对真实场景下的人证核验问题,提出了基于深度学习的大规模双样本学习方法,解决了双样本数据带来的类内变化不足问题和海量样本数计算压力大的问题。

​ 在现实场景中,我们要求很低的FAR(false accept rate),比如FAR=钱柜官网 1,为了达到这个目的,需要大的内间距离和内聚的内类距离。由于只有两张图像,所以没办法获取大量的内类的多样性,所以特征的可分性也会不好。还有,类别数非常大,如何使用有限的GPU设备来挖掘可分离的特征信息,也是个大问题。比如使用softmax的话,最后一个全连接层需要N个特征向量作为参数,N是类别数,N很大的时候,直接进行训练是不可行的。

直观上看,如果类内的聚合性和类间的可分性都优化到最大的话,人脸特征就是可分的。但是,最近的研究指出,当前最常用的分类损失,对于深度学习人脸识别来说,特征缺乏可分性。为了解决这个问题,一部分人提出了基于挖掘的损失函数,如hard mining softmax,通过在minibatch中构建高loss的样本来得到更好的特征可分性。沿着这个思路更近一步,通过先验知识得到困难样本的比例,丢掉全部的容易样本。另一方面,有人设计了soft mining softmax,也就是Focal loss,聚焦于在一个困难样本的稀疏集上进行训练。还有人基于模型的复杂性来选择困难样本,训练了一个集成模型,为不同的困难程度的样本分别训练了一个模型。另外有一部分人趋向于设计基于margin的损失函数,包括center loss,为每个类别学习一个类中心,来增强同一个类别的内聚性,还有通过一个缩放参数来控制softmax的温度,对区分的很好的样本产生高的梯度,来削弱类间的变换。还有提出了angular margin,对于ground truth和其他的类别,在两者之间增加一个margin,这样可以增加类别之间的可分性。但是,这样常常不是很稳定,参数很难优化。所以提出了AM-Softmax,使得优化更加的稳定,得到了更好的结果。然后又提出了arc-softmax,给出了更加清晰的几何解释。

目前,深度学习在人脸识别界具有统治地位,基于分类的训练方法是主流,其将每个人当作独立的类别,并使用softmax进行分类训练。近两年SphereFace,CosFace以及InsightFace进一步引入了边界裕量来提高识别网络的可扩展性,在公开测试集上取得了领先性能。然而,softmax的计算消耗与类别数直接相关。在实际应用中,百万类甚至千万类的分类会对训练平台产生极大压力,普通训练平台(如8卡TITANX)甚至无法训练,给主流方法的应用带来了困难。

​ 本文中我们将人证比对的深度学习问题变成Large-scale Bisample Learning 问题。训练数据有大量的类别,每个类别只有两张图像。为了解决类别的欠表达的问题,我们提出了改进的迁移学习模型,叫做Classification-Verification-Classification 。先在公开数据集上进行训练,然后再使用对比损失或者triplet loss进行finetune,然后再使用一个新的支配原型的softmax来进行大规模的分类,最后得到最好的模型。

尽管这两个方向都很好的验证了人脸识别需要学习更好的可分性特征。基于挖掘的损失聚焦于困难的样本,而基于margin的损失聚焦于增加不同类别之间的特征margin。目前,这两个方向是独自发展的,各有各的优缺点。对于基于挖掘的损失来说,对于困难样本的定义是很随意的,通常是更加经验来选取的。如何决定困难样本仍然是一个开放性的问题。对于基于margin的损失,大部分通过增加特征之间的margin来得到可分性的特征,只对于ground truth的投影向量来说。他们往往忽略了其他的非ground truth的类别的投影的可分能力。更进一步,基于挖掘和基于margin的损失的相互关系还不明朗。

自动化所朱翔昱、雷震等研究人员提出的大规模双样本学习方法包括两个方面,一是提出了一种分类-验证-分类的训练策略来逐步提高实际场景中的性能,二是针对大规模分类问题提出了DP-softmax使得深度学习在超大规模类别的分类上具有可扩展性。

​ CVC的最后一步使用了原型选择的策略来减小大规模分类的代价。我们发现,softmax的梯度只受很小的一个比例的类别支配,这些影响类别可以通过类别的近似很有效的识别出来。基于这个,我们创建了一个支配队列,每个类别可以记录相似的类别。通过这个队列,我们可以选出支配能力最强的类别出来预测这个类别。这个新的softmax可以只使用0.15%的类别,大大减小了计算资源的依赖。

为了克服上面的缺点,这篇文章尝试设计了一个新的损失函数,自适应的重点关照了那些具有更多信息的支持向量,来为基于挖掘的损失基于margin的损失之间搭起一座桥梁,将两者纳入同一个框架中。总结一下,这篇文章主要的贡献有:

在分类-验证-分类训练策略中,研究人员将整个训练过程分为三个阶段。第一个阶段为Pre-learning(Classification),首先在网图人脸数据库上训练一个深度神经网络模型,以得到一个较好的初始人脸识别性能。第二阶段为Transfer Learning (Verification),使用基于度量学习的人脸验证方法如triplet loss在大规模双样本数据上进行微调,将人脸知识从自然环境迁移到人证场景下。第三阶段为Fine-grained Learning (Classification),构建了一个特殊的分类层DP-softmax对百万级类别进行分类,最终达到人证场景下的最优性能。

​ 我们在一个真实的人证比对数据集上评估我们的模型,我们在有限的计算资源上取得了state of the art的结果。另外,我们发布了1262个人的数据集作为公开的评估。

  • 我们提出了新的SV-Softmax损失,削弱了困难样本的随意性同时通过支持向量汲取了其他类别的可分能力。据我们所知,这是首次试图将基于挖掘的损失基于margin的损失纳入同一个框架中。

  • 我们深入的分析了我们的SV-Softmax损失和基于挖掘的损失基于margin的损失之间的关系,进一步开发了一个增强版的sv-x-softmax损失来增强特征的可分性。我们代码在:

  • 我们在LFW,MegaFace,Trillion Pairs上做了实验,验证了我们的方法的优越性。

DP-softmax极大降低了大规模分类的计算需求,首先通过CVC策略中第二阶段的模型对训练数据抽取特征并构建每个类别的类别模板(prototype),生成所有类别的类别模板库。在训练过程中,针对当前mini-batch中的样本选择与他们最相似的少量类别模板构建临时分类层来完成本次分类训练。整个过程可以在不影响训练效果的前提下,极大降低大规模分类的计算需求。研究人员对提出的方法进行了充分的实验,表明在IvS场景下,该方法相比现有方法有了明显提升。

2.1 基于深度学习的人脸识别

​ 做人脸识别通常用的是两个方案:分类和验证。分类方案就是将每个人作为一个独立的类别进行分类,测试的时候,去掉最后的分类器,用顶层的特征作为人脸的特征表达。最常用的loss是softmax的loss。基于这个,center loss提出了学习一个类的中心来让同一类的特征更加的内聚。L2-softmax通过对特征加上一个L2的限制来提升欠表达的类别。normface对特征和权值同时进行归一化,large-margin softmax和GA-softmax通过增加类别之间的margin来让不同类别的特征更具区分性。AM-Softmax则专注于cosine距离的margin。通过这些方法,可以得到很好的特征表达,收敛也很快,泛化也很好。

​ 另一方面,验证的方案优化的是样本之间的距离。主要方法是对比损失和triplet损失,还有一些triplet的变体,如lifted structured loss,N-pairs loss。使用验证的策略,模型的能力和一个minibatch中产生的图像对高度相关,图像对的数量又和minibatch的size相关,也和显存的大小相关。为了减小GPU显存的使用,smart sampling 在数据层就选取最优价值的样本,而不是在特征层选取。这个方法记忆了有最大loss的图像对,然后会有较大的几率选择这些图像对。

​ 表1给出了通用的数据集和人证比对数据集之间的对比。可以看到,分布基本是相反的,人证比对数据集很宽但是很浅,现有的方法效果并不好。

钱柜官网 2图1

Softmax. Softmax损失在最后一层全连接之后定义。在人脸识别中,权重w_k和最后一层出来的特征x通常会进行归一化,然后用一个缩放参数s进缩放。连起来就是,给定一个输入特征向量x,对应的ground truth是y,softmax的公式如下:

相关研究成果发表于International Journal of Computer Vision

2.2 使用不充分的数据进行学习

Low-shot learning: 通过少量样本来学习新的类别的识别。通常来说小样本学习是通过迁移学习从一个适当的源领域迁移到目标领域。小样本学习和双样本学习的区别在于,小样本学习是个close set的问题,测试的数据也是从小样本数据集中来的,双样本学习则是个open set的问题,测试的数据是从来没有见过的。

Long-tail problem:这个问题表示,只有有限的类别出现的非常频繁,大部分的类别都是很少见的。深度学习模型在训练的时候,容易忽略long-tailed数据,同时忽略long-tailed类别。有一些方法,如重新采样的方法,让long-tailed的样本分布变得均匀,还有提出了range loss来平滑多的和少的类别,这个loss减少了最大的类内距离,增大了类别的中心间距。

钱柜官网 3

论文链接

本文由qg777发布于编程,转载请注明出处:钱柜官网自动化所在人脸识别研究中取得进展

TAG标签:
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。