李永乐老师 Youtube, 人脸识别啥原理？人工智能（二）卷积神经网络 (1)

人脸识别啥原理？人工智能（二）卷积神经网络 (1)

各位同学大家好我是李永乐老师在上一回咱们介绍了人工智能的基本概念和算法为大家介绍了梯度下降算法机器学习和神经网络的基本概念有个小朋友就跟我说他下载了一个人工智能软件可以通过拍照的方法来识别物体我还特意试了一下这个软件发现这个软件不光能够识别出我们家的狗还能认出狗的类型威尔士柯基大家知道计算机是如何进行图像识别的吗那今天我们就来介绍一下在图像识别里面最流行的一种算法卷积神经网络为了介绍卷积神经网络我们首先先来介绍一下视觉的原理人和动物如何能够把看到的图像转化成他大脑中的一个概念比如这个是猫那个是狗的呢我们知道计算机实际上是把一幅图转化成一大堆的数字对吧然后通过训练就可以知道这些数字代表一个什么样的含义但是如果我们用上节课所说的这种方法来进行训练费时费力而且一旦这个图片发生了一点放缩旋转或者是一些变化那么这个计算机就认不出来了但是我们的眼睛效率就特别高如果我看过一次汽车和摩托车之后我就能立刻把它们的区别分辨出来下次再看到这个摩托车的时候哪怕这个摩托车方向变了位置变了或者是它破损了我们依然能认出来它是一辆摩托车而不是一个汽车这是为什么呢在 1981 年的时候 1981 年的时候诺贝尔生理学和医学奖授予给两位神经科学家他们的名字一个叫做大卫 · 休伯尔还有一个是他的合作者叫做威泽尔那么这两位科学家他们用猫做实验猫把这个电极插入到猫的脑子当中去然后给猫看各种各样不同的图片去研究猫脑子的反应结果他就发现这个跟视觉相关的这个大脑中的一些细胞分为两种第一种叫做简单的细胞这种简单的视觉神经细胞它的特点是对某一些线条是比较敏感的某个方向的线条出现了之后这些细胞就会比较敏感就能看出来还有一些是比较复杂的细胞这些复杂的细胞不光能够对线条产生反应它还能够对线条的运动产生反应对吧于是他们提出了这样的一个理论去解释人的眼睛是如何看到物体的那么后来在他们的启发下有一个日本的科学家名字叫做福岛邦彦他就提出了一个模型叫做神经认知模型就是说这个人他是如何看出来这个物体是猫还是狗的呢他说人大脑里面有很多的皮层是一层一层对这个视觉信号进行处理的你这个光从眼睛里面进去之后你先进到第一个皮层然后又进到第二个皮层然后又进到第三个皮层然后一直往下进那么可能有五六个皮层每一个皮层它对于这个信号的处理方式是不一样的最开始刚进到眼睛的视网膜里面的时候实际上我们看到的光线是一大堆的像素点一大堆的像素点是吧然后在第一个皮层之中这些像素点抽象出一些特征比如说边缘是吧这个边缘它是具有方向性的是吧你是横着的边缘呢还是竖着的边缘呢还是斜着的边缘呢在某一个皮层中我们就抽象出这些特征了好找完了这个特征之后继续下一个皮层就会把这些特征组合起来形成什么呢形成这个物体的轮廓轮廓以及这个物体的更多的细节是吧大体来讲是轮廓里边是细节然后最后我们再把这些个轮廓和细节组合成一个整体最终才会做出一个判断是吧这过程是比较复杂的所以它是有一层一层的这样的关系去认识到这个物体的比如说你现在看到我你说我是李永乐老师但是你开始看到的时候并不是我李永乐老师你看到的是一大堆像素点这些个像素点进到你的脑子里面之后它首先会抽象出边缘和方向信息你发现我好像直立行走的对不对然后进而你又发现了更多的轮廓和细节你发现我好像有两个胳膊两个腿是吧两个眼睛一个鼻子一个嘴是不是然后你觉得这应该不是个昆虫你继续去看然后你才会抽象出来原来这个人他是李永乐老师对吧这就是人的眼睛是如何看出物体的那么根据这个原理我们上节课谈到的著名的科学家杨立昆他就发明出来了一种能够实用的图像识别的方法称之为卷积神经网络那这种方法简写叫 CNN 好像还有一个机构简写也是 CNN 是吧好那么这个卷积神经网络到底是怎么回事呢下面我就来介绍一下这里面会涉及到比较多的数学内容我们首先来说一说卷积什么是卷积呢在通信里面经常会谈到卷积那么这里我们说的卷积跟那个通讯的卷积形式上有点不一样那卷积是什么意思呢我们举个例子比如说我们有一幅图片我想判断一下这幅图片是不是 X 我们知道这个 X 有很多种写法但是不管是哪一种写法它都有一些共同的特征比如说它中间有一个这样的叉对不对它有一个往右下的线还有一个往左下的线对不对越符合这些特征那么这幅图就越有可能是 X 对不对所以卷积的作用就是我们希望用一种数学的方法然后怎么样呢能够提取出提取出这个图像中的这些特征你这个图像需要一些特征那么这些特征我通过卷积的方法提取出来我们来举一个具体的例子大家看我给出了一幅 7×7 的图片我想让计算机告诉我这个 7×7 图片到底是不是 X 怎么判断呢首先计算机会把它转化成数字就是所有的这个亮的地方设为 1 比如说这个地方是 1 1 1 1 1 对吧这亮的地方就是 1 因为它是纯黑白的那么所有黑的地方就是 0 了于是我们把其它地方补上 0 所以这幅图片在计算机看来就是这么一大堆数字那么这一堆数字计算机要认说它到底是 X 呢还是不是 X 它怎么去做呢首先要提取特征提取特征的方法就是使用一个叫做卷积核的东西来做卷积运算卷积核也是一个矩阵一个方块这个方块一般是 3×3 或者 5×5 的比如说我们这里有一个卷积核这个卷积核它是 3×3 的并且里面的数字是这样的这三个数字它是 1 其他的数字它是 0 好这就是我们的一个卷积核了这个卷积核我们和左边的这个图像做卷积运算什么叫卷积运算呢它的意思就是把这个卷积核放到图片上某一个 3×3 的部位让它们对应元素相乘比如说你先把它放到左边的这个部位然后盖住了盖住了之后它不是有对应元素吗然后对应元素乘起来就 1×0+0×0+0×0+0×0+... 这么一直加加完了之后再把它写到中间这个位置我再说一遍就是把这个卷积核放到它这个部位对应元素相乘乘完了之后相加再放到正中央这个部位于是就会构成一张新的图这张新的图就叫做特征图特征图的第一个元素就是把这个卷积核和这一块元素对应相乘再相加我们仔细看就会发现这个卷积核只有这么斜着的三个元素是 1 其他全都是 0 所以我只要把这里边的这三个数加起来是不是就应该是第一个结果了对不对我们把它算出来这个是 0 这个是 1 这个是 1 一加结果应该是 2 对不对特征图第一个元素就是 2 那特征图第二个元素我们该怎么找呢很简单你只需要把这个卷积核往右边平移一下找到这样的一个方块是不是找到这样一个方块你把这个卷积核和这个方块一叠加然后对应元素相乘再相加这叫卷积事实上也就是把第二个方块的这三个元素加起来因为只有这三个数是 1 其他都是 0 那把它们三个一相加结果是几结果是 0 这就是特征图的第二个元素你按照这种方法把所有的元素都写出来我把它写完这样我们就得到了所谓的特征图好那咱们来解释一下你说你干了这件事之后到底得到了什么呢我们仔细看就会知道这个卷积核只有斜着的这 3 个元素是 1 所以如果原来那张图上也是斜着这 3 个元素是 1 的话最后它们一做卷积这个数字就会特别大也就是说我们提取到了这个特征你在这张图上找一找说哪个数字特别大这个数字特别大就说明在这个部位特别满足这种斜着的线条的特征对吗这个数字是 3 也特别大这就说明在这个部位也有一个斜着右下的线条这个数字也是 3 就说明这个部位也有一个斜的线条那么 2 和 2 这两个部位就说明它的特征性稍微弱一点事实上你会发现左上和右下这两个角它虽然也有一个右下的 1 和 1 但它缺了一个角对不对缺了一个角其它地方还有数字小的比如 0 和 1 就说明这样的部位它没有斜向右下的线条所以我们这一个卷积核其实就是对应了一个特征这个特征就是一个斜向右下的线条而在这个特征图中那个数字比较大的部位就说明这些个部位它就满足这个特征其它的部位数字越小它就越不满足特征这不就是用数学方法提取图像特征吗当然你刚才说的这个卷积核它是右下的 3 个数字是 1 所以就提取出来一个往右下方斜的一个线段这个特征那么如果你想提出来一个比如说往左下斜的线段的特征你应该找什么样的卷积核呢那应该是这 3 个元素是 1 其他是 0 对不对你说我想要一个竖着的线段那怎么办那就是这 3 个元素是 1 其他是 0 你说我想要一个这样的圈怎么办那就是这几个数字是 1 其他是 0 总而言之通过不同的卷积核我们就能够对图像进行不同的处理得到不同的特征图显示出来这种特征它分布在图像的什么样的位置卷积之后下一个步骤就是池化池化还有就是激活我们来介绍一下这两个步骤什么叫池化呢这张特征图元素个数还是比较多的你比如左上角左上角到底有没有一个往右下方的线条这个特征它有对吧这个 2 这个 3 就说明它已经有了

To hear audio for this text, and to learn the vocabulary sign up for a free LingQ account.

Откройте этот урок на LingQ

人脸识别啥原理？人工智能（二）卷积神经网络 (1) facial recognition|what|principle|||convolution|neural network Was ist das Prinzip der Gesichtserkennung? Künstliche Intelligenz (II) Faltungsneuronale Netze (1) What is the principle of face recognition? Artificial Intelligence (II) Convolutional Neural Network (1) ¿Cuál es el principio del reconocimiento facial? Inteligencia artificial (II) Redes neuronales convolucionales (1) Quel est le principe de la reconnaissance des visages ? Intelligence artificielle (II) Réseaux neuronaux convolutifs (1)

各位同学大家好我是李永乐老师 ||||||Li Yongle|teacher 在上一回咱们介绍了 ||||introduced| 人工智能的基本概念和算法 artificial intelligence||basic concepts||algorithm 为大家介绍了梯度下降算法 ||||gradient|gradient descent| 机器学习和神经网络的基本概念 machine|||neural networks||Basic concepts 有个小朋友就跟我说他下载了一个人工智能软件 |downloaded|||| 可以通过拍照的方法来识别物体 ||taking photos||||recognize objects|object 我还特意试了一下这个软件 ||specifically||||| 发现这个软件不光能够识别出我们家的狗 |||not only|can|recognize||||| 还能认出狗的类型 ||recognize|||breed 威尔士柯基 Wales|corgi Welsh Corgi 大家知道计算机是如何进行图像识别的吗 |know|computer||how|carry out|image recognition||(question particle) 那今天我们就来介绍一下在图像识别里面最流行的一种算法 |image recognition|||||| 卷积神经网络 convolution|neural network 为了介绍卷积神经网络 ||convolution|convolutional neural networks 我们首先先来介绍一下视觉的原理 ||||||vision||principle 人和动物如何能够把看到的图像 ||||||||images 转化成他大脑中的一个概念 into|||||| 比如这个是猫那个是狗的呢 ||||that||dog|| 我们知道计算机实际上是把一幅图 |||actually|||a picture| 转化成一大堆的数字对吧 turn into|a bunch||a bunch of numbers|| 然后通过训练就可以知道 |through training|training||| 这些数字代表一个什么样的含义 |||||possessive particle|meaning 但是如果我们用上节课所说的这种方法 |||use|the lesson|||| 来进行训练费时费力 ||training|time-consuming and laborious 而且一旦这个图片发生了一点放缩旋转 |once||||||zooming|rotation And once the picture is zoomed and rotated a bit 或者是一些变化 |||changes 那么这个计算机就认不出来了 ||computer||can't recognize| 但是我们的眼睛效率就特别高 ||||efficiency||especially| 如果我看过一次汽车和摩托车之后 ||||||motorcycle| 我就能立刻把它们的区别分辨出来 |||immediately|||||distinguish them| 下次再看到这个摩托车的时候 ||||motorcycle|| 哪怕这个摩托车方向变了 even if||motorcycle|direction|changes| 位置变了或者是它破损了 ||||||damaged|past tense marker 我们依然能认出来它是一辆摩托车 |still||recognize it|||a motorcycle| 而不是一个汽车这是为什么呢在 1981 年的时候 1981 年的时候诺贝尔生理学和医学奖授予给两位神经科学家 Nobel|physiology||Nobel Prize in Physiology or Medicine|awarded|||neuroscientists|scientists 他们的名字一个叫做大卫 · 休伯尔 |||||David Hubble|Huber 还有一个是他的合作者叫做威泽尔 |||||co-worker||Weiser 那么这两位科学家他们用猫做实验猫 ||these two||||||experiment|cat 把这个电极插入到猫的脑子当中去 ||electrode|insert||||brain|| 然后给猫看各种各样不同的图片 ||||various||| 去研究猫脑子的反应 |||||reaction 结果他就发现这个跟视觉相关的这个大脑中的一些细胞 ||visual|related|||||||cells 分为两种 divided into| 第一种叫做简单的细胞 ||||cell 这种简单的视觉神经细胞 |||visual|nerve cells 它的特点是对某一些线条是比较敏感的 |||||||lines|||sensitive| 某个方向的线条出现了之后 |||line|appeared|| 这些细胞就会比较敏感就能看出来 |cells|||||||| 还有一些是比较复杂的细胞 |||quite complex||cells 这些复杂的细胞不光能够对线条产生反应 ||||not only||||generate response| 它还能够对线条的运动产生反应对吧 ||||lines|||||to| 于是他们提出了这样的一个理论去解释人的眼睛是如何看到物体的 ||||||||objects| 那么后来在他们的启发下 |||||inspiration| Then, under their inspiration 有一个日本的科学家名字叫做福岛邦彦 ||Fukushima|Kuniyuki 他就提出了一个模型 |||||model 叫做神经认知模型 |neural|cognitive|model Neurocognitive model 就是说这个人他是如何看出来这个物体是猫还是狗的呢他说人大脑里面有很多的皮层 ||||||||cerebral cortex 是一层一层对这个视觉信号进行处理的 |layer||||visual signal|signal||| 你这个光从眼睛里面进去之后你先进到第一个皮层 |advanced|||cortex 然后又进到第二个皮层 ||entered|| 然后又进到第三个皮层 ||into||cortex 然后一直往下进 ||go down 那么可能有五六个皮层每一个皮层它对于这个信号的处理方式是不一样的 |||signal||handling method|||| 最开始刚进到眼睛的视网膜里面的时候 |At the beginning|just entered||||retina||| 实际上我们看到的光线是一大堆的像素点 In fact||||light||a bunch||pixels 一大堆的像素点是吧 ||pixel points|| 然后在第一个皮层之中这些像素点抽象出一些特征 ||abstracted|||features These pixels abstract some features 比如说边缘是吧 |marginal|| 这个边缘它是具有方向性的是吧 |edge||||directionality||| 你是横着的边缘呢还是竖着的边缘呢 ||horizontal|||edge|||vertical edge|||edge| 还是斜着的边缘呢 |slanted|||| 在某一个皮层中我们就抽象出这些特征了 |||||||abstracted|||features| 好找完了这个特征之后 |||||characteristic| 继续下一个皮层就会把这些特征组合起来 ||||||||features|combine| 形成什么呢 form what|| 形成这个物体的轮廓轮廓 ||object||outline|outline 以及这个物体的更多的细节是吧 and more||object|||||details|| 大体来讲是轮廓里边是细节 generally speaking|||outline||| 然后最后我们再把这些个轮廓和细节 |||||||contours|| 组合成一个整体 form a whole||whole 最终才会做出一个判断是吧这过程是比较复杂的所以它是有一层一层的这样的关系去认识到这个物体的 ||||object| 比如说你现在看到我你说我是李永乐老师 ||||Li Yongle| 但是你开始看到的时候并不是我李永乐老师你看到的是一大堆像素点 |||||pixel dots 这些个像素点进到你的脑子里面之后 |||enter into||||| 它首先会抽象出边缘和方向信息你发现我好像直立行走的对不对 ||||upright|walking upright|||| 然后进而你又发现了更多的轮廓和细节 |furthermore||||||||||details 你发现我好像有两个胳膊两个腿是吧 ||||||arms|||| 两个眼睛一个鼻子一个嘴是不是然后你觉得这应该不是个昆虫 |||||||insect 你继续去看然后你才会抽象出来原来这个人他是李永乐老师对吧这就是人的眼睛是如何看出物体的那么根据这个原理 |||principle 我们上节课谈到的著名的科学家杨立昆 |last class||talked about||famous|||Yang Likun 他就发明出来了一种能够实用的图像识别的方法 |practical||image recognition|| 称之为卷积神经网络 |convolution| 那这种方法简写叫 CNN |||abbreviation|| 好像还有一个机构简写也是 CNN 是吧 ||||abbreviation||||| 好那么这个卷积神经网络到底是怎么回事呢 good|||||||what's going on| 下面我就来介绍一下 |||||a bit 这里面会涉及到比较多的数学内容 |||involves|||||| 我们首先来说一说卷积 ||||convolution 什么是卷积呢 ||convolution| 在通信里面经常会谈到卷积 |communication||often||| 那么这里我们说的卷积跟那个通讯的卷积形式上有点不一样 ||communication||||||| 那卷积是什么意思呢 |convolution|||| 我们举个例子比如说我们有一幅图片我想判断一下这幅图片是不是 X 我们知道这个 X 有很多种写法但是不管是哪一种写法它都有一些共同的特征 ||||||features 比如说它中间有一个这样的叉对不对 |||||||fork||| 它有一个往右下的线 |||to the right||| 还有一个往左下的线对不对 |||bottom left||||| 越符合这些特征 more than||| 那么这幅图就越有可能是 X 对不对 |this (picture)|||||||||| 所以卷积的作用就是我们希望用一种数学的方法然后怎么样呢能够提取出 |extract| 提取出这个图像中的这些特征 extract|||image||||features 你这个图像需要一些特征那么这些特征我通过卷积的方法提取出来 ||features||||||| 我们来举一个具体的例子 |to give||specific|| 大家看我给出了一幅 7×7 的图片我想让计算机告诉我这个 7×7 图片到底是不是 X 怎么判断呢首先计算机会把它转化成数字 |||||convert to| 就是所有的这个亮的地方设为 1 |||||||set as 比如说这个地方是 1 1 1 1 1 对吧这亮的地方就是 1 this bright||| 因为它是纯黑白的 |||pure|black and white| 那么所有黑的地方就是 0 了于是我们把其它地方补上 0 |||||filled in 所以这幅图片在计算机看来就是这么一大堆数字那么这一堆数字计算机要认 ||a bunch|||needs to recognize 说它到底是 X 呢还是不是 X 它怎么去做呢首先要提取特征提取特征的方法 ||extraction|features|||| 就是使用一个叫做卷积核的东西来做卷积运算 |||convolution operation 卷积核也是一个矩阵一个方块 |kernel||||matrix||square 这个方块一般是 3×3 或者 5×5 的 |cube|||| 比如说我们这里有一个卷积核 |||||convolution kernel|kernel 这个卷积核它是 3×3 的 ||it|| 并且里面的数字是这样的这三个数字它是 1 其他的数字它是 0 好这就是我们的一个卷积核了 ||||||convolution kernel|kernel| 这个卷积核我们和左边的这个图像做卷积运算什么叫卷积运算呢 ||convolution|| 它的意思就是把这个卷积核放到图片上某一个 3×3 的部位 ||||||position 让它们对应元素相乘 ||correspond|elements|multiply 比如说你先把它放到左边的这个部位然后盖住了 |covered up| 盖住了之后它不是有对应元素吗然后对应元素乘起来 |||multiply 就 1×0+0×0+0×0+0×0+... 这么一直加加完了之后 |||finished adding|| 再把它写到中间这个位置我再说一遍就是把这个卷积核放到它这个部位对应元素相乘乘完了之后相加 |||||||add 再放到正中央这个部位 |||center|| 于是就会构成一张新的图 |||form|||| 这张新的图就叫做特征图 ||||||feature map| 特征图的第一个元素就是把这个卷积核和这一块元素 ||||||this|| 对应相乘再相加 |||add 我们仔细看就会发现 |carefully|||| 这个卷积核只有这么斜着的三个元素是 1 |||||||||elements| 其他全都是 0 所以我只要把这里边的这三个数加起来 ||||this place|||||add up| 是不是就应该是第一个结果了对不对我们把它算出来这个是 0 这个是 1 这个是 1 一加结果应该是 2 对不对 One plus|||||| 特征图第一个元素就是 2 feature|||element| 那特征图第二个元素我们该怎么找呢 |||||||how to|| 很简单你只需要把这个卷积核往右边平移一下 |||||||to the right|shift| 找到这样的一个方块是不是 ||||block| 找到这样一个方块你把这个卷积核和这个方块一叠加 |||||||||stack 然后对应元素相乘再相加这叫卷积事实上也就是把第二个方块的 |||||square| 这三个元素加起来因为只有这三个数是 1 其他都是 0 那把它们三个一相加结果是几 |||||add them together||| 结果是 0 这就是特征图的第二个元素 ||feature map|||| 你按照这种方法把所有的元素都写出来我把它写完这样我们就得到了所谓的特征图好那咱们来解释一下你说你干了这件事之后到底得到了什么呢我们仔细看就会知道这个卷积核只有斜着的这 3 个元素是 1 ||||slanted|||||| 所以如果原来那张图上 ||||that picture| 也是斜着这 3 个元素是 1 的话最后它们一做卷积这个数字就会特别大 ||do||||||| 也就是说我们提取到了这个特征 ||extracted|||| 你在这张图上找一找说哪个数字特别大这个数字特别大就说明在这个部位特别满足这种斜着的线条的特征对吗 |||slanted|||lines|||| 这个数字是 3 也特别大这就说明在这个部位也有一个斜着右下的线条这个数字也是 3 就说明这个部位也有一个斜的线条那么 2 和 2 这两个部位就说明它的特征性稍微弱一点 ||||characteristic|slightly|slightly weak| 事实上你会发现左上和右下这两个角 ||||top left|||||| 它虽然也有一个右下的 1 和 1 |||||bottom right|| 但它缺了一个角对不对缺了一个角 ||||a corner|||||| 其它地方还有数字小的比如 0 和 1 就说明这样的部位它没有斜向右下的线条 ||slanted||||| 所以我们这一个卷积核 ||||convolution kernel|kernel 其实就是对应了一个特征 ||corresponds||| 这个特征就是一个斜向右下的线条而在这个特征图中那个数字比较大的部位 ||||in this feature diagram|||||| 就说明这些个部位它就满足这个特征其它的部位数字越小它就越不满足特征 ||||the smaller|||||| 这不就是用数学方法提取图像特征吗 ||||mathematical methods|extract|image features|features| 当然你刚才说的这个卷积核它是右下的 3 个数字是 1 所以就提取出来一个往右下方斜的一个线段这个特征 |bottom right||||line segment||feature 那么如果你想提出来一个比如说往左下斜的线段的特征 |||diagonally||line segment|| 你应该找什么样的卷积核呢那应该是这 3 个元素是 1 其他是 0 对不对你说我想要一个竖着的线段那怎么办那就是这 3 个元素是 1 其他是 0 你说我想要一个这样的圈怎么办那就是这几个数字是 1 其他是 0 总而言之通过不同的卷积核 in conclusion||||convolution kernel|kernel 我们就能够对图像进行不同的处理得到不同的特征图显示出来这种特征 |||features||||| 它分布在图像的什么样的位置 |distribution|||||| 卷积之后下一个步骤就是池化池化 ||||Step 1||pooling| The next step after convolution is pooling 还有就是激活 ||activate 我们来介绍一下这两个步骤 ||||||steps 什么叫池化呢 ||pooling| 这张特征图元素个数还是比较多的 ||||number|||| 你比如左上角 |for example|top left corner 左上角到底有没有一个 top left corner||| 往右下方的线条这个特征 |bottom right||line||feature 它有对吧这个 2 这个 3 就说明它已经有了

李永乐老师 Youtube, 人脸识别啥原理？人工智能（二）卷积神经网络 (1)

人脸识别 啥 原理 ？人工智能 （二 ）卷积 神经网络 (1)

人脸识别啥原理？人工智能（二）卷积神经网络 (1)