搜索

林元庆：百度大脑如何在人脸识别上战胜人类

admin2026年06月28日 06:06:55

阅读：

标签： 人脸大脑人类

分享：

与以往主要考验空间搜索能力的人机 PK 不同，此次比拼主要集中在识别领域，而识别过程中需要模糊推理的能力，百度深度学习实验室（IDL）主任林元庆坦言，这场应战也并不轻松。

　　2017 年 1 月 6 日，百度首席科学家吴恩达带着小度机器人来到了《最强大脑》现场，与人类选手展开了对决，并在人脸识别比赛里以 3:2 的比分赢得胜利。Master 事件引发大众热议人工智能的余热未退，小度机器人又在跨年龄人脸识别挑战中战胜了本届最强大脑队长王峰——拥有数个世界冠军头衔的「世界记忆大师」。与以往主要考验空间搜索能力的人机 PK 不同，此次比拼主要集中在识别领域，而识别过程中需要模糊推理的能力，百度深度学习实验室（IDL）主任林元庆坦言，这场应战也并不轻松。

　　对于此次比赛任务，百度 IDL 人脸团队主要是使用了「度量学习」，即通过学习一个非线性投影函数把图像空间投影到特征空间中。在这个特征空间里，跨年龄的同一个人的两张人脸的距离会比不同人的相似年龄的两张人脸的距离要小。同时考虑到跨年龄人脸数据的稀缺性，百度大脑使用了一个用大规模人脸数据训练好的模型作为「底座」，然后用跨年龄数据对它做更新。这样不容易过拟合。然后再将这两点结合起来做端到端的训练，从而大幅度地提升了小度跨年龄人脸识别的识别率。

　　从这期节目开始，机器之心将通过访谈视频「AI Talk」持续为大家解读百度参加最强大脑比赛的多项技术原理，还原 IDL 筹备比赛的细节故事。

　　下面是机器之心对百度深度学习实验室（IDL）主任林元庆独家专访完整版文字：

　　机器之心：请简单介绍一下人脸识别。

　　林元庆：人脸识别简单说就是给你一张人脸的照片，然后我希望能识别照片里面是哪一个人。

　　人脸识别其实有两种技术。

　　一种技术我们经常叫 1：1 的人脸比对，比如像银行的应用场景，就是你给一个身份证信息，然后再给一张人脸，通过比对希望知道这张人脸是不是身份证上面的那个人。系统会拿这个身份证的信息给到公安的系统里面取一张照片回来，然后跟你现在的照片比对看是不是同一个人。

　　还有一种更通用的 1:N 人脸识别，N 可以是几千、几万或者几十万进行比对，这叫 1：N 的比对或者是 1：N 的人脸识别。

　　机器之心：机器是通过哪些特征进行人脸识别的？

　　林元庆：深度学习还没有特别流行起来之前，一般会设计一些特征对人脸进行识别。现在用深度学习的方法其实是一层一层的去学不同的特征，底层会是非常低级别的特征，越往上会学到一些非常高级别的特征。像我们的系统应该是千万到亿的低级别特征，慢慢一层一层学上去，最后那一层其实只有 128 个特征。

　　机器之心：在不同的应用场景中，机器学习算法如何决定人脸特征点的的数目？

　　林元庆：像我们现在做的方法，在不同的应用场景里面其实特征数目是确定的，只是可能会是不同的特征。特征数目的大小是由深度学习的架构决定的。一旦我们把神经网络的架构确定下来，这个数目就是固定的。我们只是根据不同的场景（不同的场景意思就是不同的训练数据）训练出来的特征可能是很不一样的。因此在不同的场景里面特征数目可能是一样的，但具体特征会是很不一样的。

　　机器之心：比赛中，小度机器人能将少年时期和中年时期的人脸识别出来，如果是将年龄扩大拉长，婴儿和老人的照片是否可以识别和匹配出来？

　　林元庆：跨年龄识别是非常难的。就我们现在的系统，年龄跨度在 20 到 30 岁的时候我们仍然能做到比较高的精度。当我们把这个跨度进一步增加到 50 岁或 60 岁的话，难度肯定也会进一步增加，精度会下降。我们还没有很仔细地做过这么大年龄跨度的实验。这是我们下一步要做的事情。

　　机器之心：介绍一下跨年龄人脸识别使用的度量学习？

　　林元庆：我们这次去参加《最强大脑》的这套系统，使用的其实是基于深度学习的端到端的度量学习方法（Metric Learning）。这个方法通过学习一个非线性映射函数（用深度神经网络模型），把图像空间投影到一个 128 维的特征空间中。深度学习要实现的是，对于同一个人的两张照片，不管年龄差距有多大，它们映射到这 128 唯特征空间的两个点（即两个 128 维的向量）要离得很近；对于不同人的两张照片，它们映射到这 128 唯特征空间的两个点要离得足够远 – 即使他们年龄相近。当这个映射函数学习好之后，看两张照片是否是同一个人变得简单：把他们映射到这个 128 维的空间了，如果映射到的两个点离得近，那这两张照片就是同一个人，否则就是不同人。因此核心是如何训练这个用深度神经网络建模的映射函数，即通过调整深度神经网络的参数。我们用大规模人脸数据训练出深度神经网络模型，实现高识别率。

　　机器之心：百度通过非线性投影函数进行映射减少训练损失，那么这个非线性投影函数是如何得出来的，是通过训练集得出来的吗？

　　林元庆：定义度量学习的目标函数之后，我们是通过梯度下降法来进行训练，慢慢把目标函数给降下来。梯度下降法是很通用的做法。这里面很重要的是要定义度量学习的目标函数，然后要定义深度神经网络的架构，最后通过训练实现目标函数的逐渐优化。

　　机器之心：人脸识别业务的核心问题是人脸关键特征点的定位，错误的特征定位会导致提取的人脸描述特征严重变形，进而导致识别性能下降，百度是如何解决这个问题的？

　　林元庆：其实是两个方面。一个方面是我们要想办法去做出非常好的特征点定位的算法，然后要训练非常好的模型。在一些极端的情况下，得到的特征点定位可能不准确，因此我们希望后面的识别模块有一定的容错能力。我们是在训练的时候制造一些数据，在定位上人为地产生一些误差，然后拿这些数据放在深度神经网络里面一起去参加训练，这样的话最后训出来的模型对定位的误差会有一定的容错能力。

　　机器之心：百度大脑的这种能力的培养使用了多少的训练样本？训练了多长时间？

　　林元庆：我们的训练其实是分两部分，最重要的一部分叫通用的人脸识别的能力，就是百度这几年来一直在积累搭建的技术，到比赛为止我们大概用了 200 万人的 2 亿张照片进行人脸识别基础模型训练。

　　另一方面，为了这次比赛，我们也收集了一些跨年龄的数据，根据跨年龄这个场景再进一步优化模型，跨年龄数据大概在几千张这个级别，并不算特别的多。

　　机器之心：角度、表情、光线、阴影化妆、和配饰等会在多大程度上影响人脸识别准确率？

　　林元庆：我们主要是针对人脸角度在 45 度之内的应用场景，因此我们的训练模型基本上在 45 度之内识别的还是比较准确的。在这个范围之内，角度影响不会特别大。但是在大于 45 度之后精度就会开始下降。如果是 90 度，特别是当我们没办法检测到五官的时候，精度就会下降比较严重，比如说一边眼睛看不到的情况下下降会比较严重。

　　化妆肯定会有影响，但如果只是很局部的化妆其实还好。像美瞳只是造成一个局部被改变，人脸整体基本上变化不是那么大。这些其实我们的算法都能够比较好的处理。整形整容就很难，属于比较大的改变，识别难度就比较大。

　　机器之心：小度机器人是通过安装的摄像头直接观察还是接入图像信号？

　　林元庆：在录制的现场，节目组会在选手前面的显示屏上给出一路信号，同样的信号也给到小度这边。我们的系统得到的信号和选手肉眼可以看到的信号是一样的。

　　机器之心：小度机器人分析处理是在本地完成还是在云端？此次使用的计算资源情况如何？

　　林元庆：训练都是在云端。云端我们有非常多、非常大的一个计算集群来专门做刚才提到的 200 万人的 2 亿张照片的训练。但真正训练完之后，计算是在本地完成的，我们在本地只用了一个 GPU。

　　实际上，我们希望我们的人脸识别技术能够广泛应用到各个领域，甚至是让很多人在手机上就可以用到这一功能。因此，我们希望在训练的时候用非常多的计算机，但是真正应用时的计算量不要太大。

　　机器之心：节目中，人类选手在介绍判断方法时也提到选取一些人脸特征，是否意味着这方面机器和人类的识别原理类似，就像 CNN 从某种程度上来说是借鉴了人类的视觉原理一样？

　　林元庆：从广义上来说肯定都是通过特征来识别，但是区别在于提取的是什么特征。深度学习系统其实是从海量的数据里学一些共同特征，对共性的特征也更加敏感。但是人其实不仅仅会用共性的特征，还会用一些很特别的特征。举个例子，假如说一个人的鼻子上有一颗痣，目前我们的这个系统是不会学出来的，因为它在我们数据库里的两百万人身上不常见，它就会把这个特征忽略掉，但人去识别的时候，他会把这颗痣变成一个非常重要的特征去跟踪。

　　CNN 架构毫无疑问在相当程度上都是模仿人的视觉系统。和人的视觉系统类似，CNN 有很多层，然后一层层进行非线性映射，从非常低级别的特征一层层映射上去，最后生成一个非常高级别的有分辨能力的特征。

　　机器之心：作为机器学习和计算机视觉领域的专家，你认为一家公司在人脸识别技术方面足够领先的标准是什么？

　　林元庆：关键在于看技术能力的强大与否，具体还要看三个层次。第一个是算法层次，大家通常会选择在一些通用和公开的测试集上进行测试，看这套算法究竟有多强。但这种方法也是有局限性的，公开测试集的样本量可能比较小，所以你在这种测试集上的表现做得很好，并不代表你在实际问题上也能做得很好。因此，在百度内部，我们会搭建的一些规模很大的测试集。我们通常的做法是，在我们算法研发的过程中，我们会在这些大测试集上去测。如果要和别人比的话，我们会在公开的测试集上进行测试。

　　下一个层面是技术层面。其实技术不单单是算法，它需要的是算法加数据。前面我们提到的公开测试集，它等于假设说我们不需要去管数据了。而实际上非常重要的是算法要跟数据一起发展。人脸的数据就是这样的例子。我们有两百万人的人脸，有的算法可能没办法在这上面应用，因为你需要非常长的时间去训练。并且有些算法可能不能完全利用大数据里面的一些特点。所以，算法和技术一定要一起发展的。

　　最后一个层面是应用层面。非常重要的是研发出一些技术，并在实际问题的解决上拥有较高的精度。这既是技术是否满足实际应用的重要指标，更是检验人工智能技术最重要的一个指标。不同公司的技术有多好在于他们能解决多少实际的问题。特别是对于人工智能而言，被应用的广度和深度就是衡量一项人工智能技术是否强大的一个重要指标。

　　所以总的来说就是算法、技术和应用三个层面。我们希望能够研发出非常好的技术和算法来满足更多实际场景应用的需要。人工智能领域里的很多技术是需要不断增长的数据去训练，从而不断提高模型精准度的。大应用是非常重要的一环。所以，即便你的公司搭建了一套非常好的基础技术，但如果你背后没有大的应用给你形成闭环的话，这个技术也很难往前发展。拿图像识别来说，它需要算法加数据，然后再将这项技术应用。有了应用，用户会给你提交更多数据，这又会帮你训练出更好的模型。然后你就有了更好的技术。这是一个正循环，直到把技术发展到极致。因此大应用是非常重要的。对人工智能来说，研发一项技术要短期做到极致是不太可能的，一定是要有很好的应用场景能够迭代起来，最后才能把技术做到极致。

　　机器之心：接下来，百度会将人脸识别这项技术重点应用于哪些领域？

　　林元庆：我们这次决定去参加人机 PK，最重要的出发点就是希望看看百度通过这几年的研发积累，我们的人工智能水平跟最顶尖的人类相比处于哪一个水平上。节目组跟我们定的「图片识别」和「声音识别」两个方向，我们也非常喜欢。其实之前有很多次人机 PK 的比赛，最早的「深蓝」，后来的 Watson 在《危险边缘》节目上的比赛，还有最近的 AlphaGo，这些更多是在比这一步棋我该怎么走、下一步该怎么走，或是去寻找答案，和这次 PK 有较大区别。这次应该是人类历史上第一次在图像和声音的识别能力上跟人进行高水平 PK。

　　之所以我们会对这两个技术特别感兴趣，是因为这两个技术有非常多应用，实用性很强。人脸识别的应用领域中很重要的一个场景是互联网金融的身份认证。百度有一个金融事业部，他们的主营业务就是互联网金融，已经用到我们的人脸识别技术。我们认为要做好互联网金融，身份认证是第一件你必须做的非常好的事情，你一定要知道在计算机或手机前面的那个人到底是谁，身份认证甚至可以说是互联网金融的第一步。我们也希望以后这项技术不单单用在百度，也可以用到更多的金融公司里面。

　　另一个很重要的应用是人脸识别可以用在门禁系统中，百度大厦现在就使用了人脸闸机。是去年在互联网大会时，我们在乌镇落地了一个人脸识别的闸机，之前景区使用的是指纹认证系统，在乌镇参观游玩的游客会需要多次进入，需要身份认证。如果每一次要进出的时间过长，非常影响用户的体验，甚至要排很长的队。在这样的场景下，人脸识别系统跟指纹系统相比，有相当大的优势，乌镇现在用这种 1：N 的认证，游客走到附近就被识别出来，马上可以通畅进出。为什么这些原来没有，其实也是因为最近百度在人脸识别上有非常好的技术突破，今年我们真正实现了高精度 1：N 的人脸识别，我们现在外面公布的是能做到 99% 以上的精度，这应该在国内是首创。

注：本文系作者 admin 授权融媒体发表，并经融媒体编辑，转载请注明出处和本文链接

我要围观…

705人参与 36条评论