×

Wir verwenden Cookies, um LingQ zu verbessern. Mit dem Besuch der Seite erklärst du dich einverstanden mit unseren Cookie-Richtlinien.


image

李永乐老师 Youtube, 人脸识别啥原理?人工智能(二)卷积神经网络 (1)

人脸识别 啥 原理 ?人工智能 (二 )卷积 神经网络 (1)

各位 同学 大家 好 我 是 李永乐 老师 在 上 一回 咱们 介绍 了 人工智能 的 基本概念 和 算法 为 大家 介绍 了 梯度 下降 算法 机器 学习 和 神经网络 的 基本概念 有个 小朋友 就 跟 我 说 他 下载 了 一个 人工智能 软件 可以 通过 拍照 的 方法 来 识别 物体 我 还 特意 试 了 一下 这个 软件 发现 这个 软件 不光 能够 识别 出 我们 家 的 狗 还 能 认出 狗 的 类型 威尔士 柯基 大家 知道 计算机 是 如何 进行 图像识别 的 吗 那 今天 我们 就 来 介绍 一下 在 图像识别 里面 最 流行 的 一种 算法 卷积 神经网络 为了 介绍 卷积 神经网络 我们 首先 先 来 介绍 一下 视觉 的 原理 人 和 动物 如何 能够 把 看到 的 图像 转化成 他 大脑 中 的 一个 概念 比如 这个 是 猫 那个 是 狗 的 呢 我们 知道 计算机 实际上 是 把 一幅 图 转化成 一大堆 的 数字 对 吧 然后 通过 训练 就 可以 知道 这些 数字 代表 一个 什么样 的 含义 但是 如果 我们 用上 节课 所说 的 这种 方法 来 进行 训练 费时费力 而且 一旦 这个 图片 发生 了 一点 放缩 旋转 或者 是 一些 变化 那么 这个 计算机 就 认不出来 了 但是 我们 的 眼睛 效率 就 特别 高 如果 我 看过 一次 汽车 和 摩托车 之后 我 就 能 立刻 把 它们 的 区别 分辨 出来 下次 再 看到 这个 摩托车 的 时候 哪怕 这个 摩托车 方向 变 了 位置 变 了 或者 是 它 破损 了 我们 依然 能 认出来 它 是 一辆 摩托车 而 不是 一个 汽车 这是 为什么 呢 在 1981 年 的 时候 1981 年 的 时候 诺贝尔 生理学 和 医学奖 授予 给 两位 神经 科学家 他们 的 名字 一个 叫做 大卫 · 休伯尔 还有 一个 是 他 的 合作者 叫做 威泽尔 那么 这 两位 科学家 他们 用 猫 做 实验 猫 把 这个 电极 插入 到 猫 的 脑子 当中 去 然后 给 猫 看 各种各样 不同 的 图片 去 研究 猫 脑子 的 反应 结果 他 就 发现 这个 跟 视觉 相关 的 这个 大脑 中 的 一些 细胞 分为 两种 第一种 叫做 简单 的 细胞 这种 简单 的 视觉 神经细胞 它 的 特点 是 对 某 一些 线条 是 比较 敏感 的 某个 方向 的 线条 出现 了 之后 这些 细胞 就 会 比较 敏感 就 能 看 出来 还有 一些 是 比较复杂 的 细胞 这些 复杂 的 细胞 不光 能够 对 线条 产生 反应 它 还 能够 对 线条 的 运动 产生 反应 对 吧 于是 他们 提出 了 这样 的 一个 理论 去 解释 人 的 眼睛 是 如何 看到 物体 的 那么 后来 在 他们 的 启发 下 有 一个 日本 的 科学家 名字 叫做 福岛 邦彦 他 就 提出 了 一个 模型 叫做 神经 认知 模型 就是说 这个 人 他 是 如何 看 出来 这个 物体 是 猫 还是 狗 的 呢 他 说 人 大脑 里面 有 很多 的 皮层 是 一层 一层 对 这个 视觉 信号 进行 处理 的 你 这个 光 从 眼睛 里面 进去 之后 你 先进 到 第一个 皮层 然后 又 进到 第二个 皮层 然后 又 进到 第三个 皮层 然后 一直 往下进 那么 可能 有 五六个 皮层 每 一个 皮层 它 对于 这个 信号 的 处理方式 是 不 一样 的 最 开始 刚进 到 眼睛 的 视网膜 里面 的 时候 实际上 我们 看到 的 光线 是 一大堆 的 像素点 一大堆 的 像素点 是 吧 然后 在 第一个 皮层 之中 这些 像素点 抽象 出 一些 特征 比如说 边缘 是 吧 这个 边缘 它 是 具有 方向性 的 是 吧 你 是 横 着 的 边缘 呢 还是 竖 着 的 边缘 呢 还是 斜 着 的 边缘 呢 在 某 一个 皮层 中 我们 就 抽象 出 这些 特征 了 好 找 完 了 这个 特征 之后 继续 下 一个 皮层 就 会 把 这些 特征 组合 起来 形成 什么 呢 形成 这个 物体 的 轮廓 轮廓 以及 这个 物体 的 更 多 的 细节 是 吧 大体 来讲 是 轮廓 里边 是 细节 然后 最后 我们 再 把 这些 个 轮廓 和 细节 组合成 一个 整体 最终 才 会 做出 一个 判断 是 吧 这 过程 是 比较复杂 的 所以 它 是 有 一层 一层 的 这样 的 关系 去 认识 到 这个 物体 的 比如说 你 现在 看到 我 你 说 我 是 李永乐 老师 但是 你 开始 看到 的 时候 并 不是 我 李永乐 老师 你 看到 的 是 一大堆 像素点 这些 个 像素点 进到 你 的 脑子 里面 之后 它 首先 会 抽象 出 边缘 和 方向 信息 你 发现 我 好像 直立 行走 的 对 不 对 然后 进而 你 又 发现 了 更 多 的 轮廓 和 细节 你 发现 我 好像 有 两个 胳膊 两个 腿 是 吧 两个 眼睛 一个 鼻子 一个 嘴 是不是 然后 你 觉得 这 应该 不是 个 昆虫 你 继续 去 看 然后 你 才 会 抽象 出来 原来 这个 人 他 是 李永乐 老师 对 吧 这 就是 人 的 眼睛 是 如何 看出 物体 的 那么 根据 这个 原理 我们 上节 课 谈到 的 著名 的 科学家 杨立昆 他 就 发明 出来 了 一种 能够 实用 的 图像识别 的 方法 称之为 卷积 神经网络 那 这种 方法 简写 叫 CNN 好像 还有 一个 机构 简写 也 是 CNN 是 吧 好 那么 这个 卷积 神经网络 到底 是 怎么回事 呢 下面 我 就 来 介绍 一下 这 里面 会 涉及 到 比较 多 的 数学 内容 我们 首先 来说 一说 卷积 什么 是 卷积 呢 在 通信 里面 经常 会谈 到 卷积 那么 这里 我们 说 的 卷积 跟 那个 通讯 的 卷积 形式 上 有点 不 一样 那 卷积 是 什么 意思 呢 我们 举个 例子 比如说 我们 有 一幅 图片 我 想 判断 一下 这 幅 图片 是不是 X 我们 知道 这个 X 有 很 多种 写法 但是 不管 是 哪 一种 写法 它 都 有 一些 共同 的 特征 比如说 它 中间 有 一个 这样 的 叉 对 不 对 它 有 一个 往右 下 的 线 还有 一个 往 左下 的 线 对 不 对 越 符合 这些 特征 那么 这幅 图 就 越 有 可能 是 X 对 不 对 所以 卷积 的 作用 就是 我们 希望 用 一种 数学 的 方法 然后 怎么样 呢 能够 提取 出 提取 出 这个 图像 中 的 这些 特征 你 这个 图像 需要 一些 特征 那么 这些 特征 我 通过 卷积 的 方法 提取 出来 我们 来举 一个 具体 的 例子 大家 看 我 给出 了 一幅 7×7 的 图片 我 想 让 计算机 告诉 我 这个 7×7 图片 到底 是不是 X 怎么 判断 呢 首先 计算机 会 把 它 转化成 数字 就是 所有 的 这个 亮 的 地方 设为 1 比如说 这个 地方 是 1 1 1 1 1 对 吧 这亮 的 地方 就是 1 因为 它 是 纯 黑白 的 那么 所有 黑 的 地方 就是 0 了 于是 我们 把 其它 地方 补上 0 所以 这 幅 图片 在 计算机 看来 就是 这么 一大堆 数字 那么 这 一堆 数字 计算机 要认 说 它 到底 是 X 呢 还 是不是 X 它 怎么 去 做 呢 首先 要 提取 特征 提取 特征 的 方法 就是 使用 一个 叫做 卷积 核 的 东西 来 做 卷积 运算 卷积 核 也 是 一个 矩阵 一个 方块 这个 方块 一般 是 3×3 或者 5×5 的 比如说 我们 这里 有 一个 卷积 核 这个 卷积 核它 是 3×3 的 并且 里面 的 数字 是 这样 的 这 三个 数字 它 是 1 其他 的 数字 它 是 0 好 这 就是 我们 的 一个 卷积 核 了 这个 卷积 核 我们 和 左边 的 这个 图像 做 卷积 运算 什么 叫 卷积 运算 呢 它 的 意思 就是 把 这个 卷积 核 放到 图片 上 某 一个 3×3 的 部位 让 它们 对应 元素 相乘 比如说 你 先 把 它 放到 左边 的 这个 部位 然后 盖住 了 盖住 了 之后 它 不是 有 对应 元素 吗 然后 对应 元素 乘起来 就 1×0+0×0+0×0+0×0+... 这么 一直 加 加完 了 之后 再 把 它 写 到 中间 这个 位置 我 再说 一遍 就是 把 这个 卷积 核 放到 它 这个 部位 对应 元素 相乘 乘 完 了 之后 相加 再 放到 正 中央 这个 部位 于是 就 会 构成 一张 新 的 图 这张 新 的 图 就 叫做 特征 图 特征 图 的 第一个 元素 就是 把 这个 卷积 核 和 这 一块 元素 对应 相乘 再 相加 我们 仔细 看 就 会 发现 这个 卷积 核 只有 这么 斜 着 的 三个 元素 是 1 其他 全都 是 0 所以 我 只要 把 这里 边 的 这 三个 数加 起来 是不是 就 应该 是 第一个 结果 了 对 不 对 我们 把 它 算 出来 这个 是 0 这个 是 1 这个 是 1 一加 结果 应该 是 2 对 不 对 特征 图 第一个 元素 就是 2 那 特征 图 第二个 元素 我们 该 怎么 找 呢 很 简单 你 只 需要 把 这个 卷积 核 往右边 平移 一下 找到 这样 的 一个 方块 是不是 找到 这样 一个 方块 你 把 这个 卷积 核 和 这个 方块 一 叠加 然后 对应 元素 相乘 再 相加 这 叫 卷积 事实上 也 就是 把 第二个 方块 的 这 三个 元素 加 起来 因为 只有 这 三个 数是 1 其他 都 是 0 那 把 它们 三个 一 相加 结果 是 几 结果 是 0 这 就是 特征 图 的 第二个 元素 你 按照 这种 方法 把 所有 的 元素 都 写 出来 我 把 它 写 完 这样 我们 就 得到 了 所谓 的 特征 图 好 那 咱们 来 解释一下 你 说 你 干 了 这件 事 之后 到底 得到 了 什么 呢 我们 仔细 看 就 会 知道 这个 卷积 核 只有 斜 着 的 这 3 个 元素 是 1 所以 如果 原来 那 张图 上 也 是 斜 着 这 3 个 元素 是 1 的话 最后 它们 一做 卷积 这个 数字 就 会 特别 大 也就是说 我们 提取 到 了 这个 特征 你 在 这 张图 上 找 一 找 说 哪个 数字 特别 大 这个 数字 特别 大 就 说明 在 这个 部位 特别 满足 这种 斜 着 的 线条 的 特征 对 吗 这个 数字 是 3 也 特别 大 这 就 说明 在 这个 部位 也 有 一个 斜 着 右 下 的 线条 这个 数字 也 是 3 就 说明 这个 部位 也 有 一个 斜 的 线条 那么 2 和 2 这 两个 部位 就 说明 它 的 特征性 稍 微弱 一点 事实上 你 会 发现 左上 和 右 下 这 两个 角 它 虽然 也 有 一个 右下 的 1 和 1 但 它 缺 了 一个角 对 不 对 缺 了 一个角 其它 地方 还有 数字 小 的 比如 0 和 1 就 说明 这样 的 部位 它 没有 斜 向 右 下 的 线条 所以 我们 这 一个 卷积 核 其实 就是 对应 了 一个 特征 这个 特征 就是 一个 斜 向 右 下 的 线条 而 在 这个 特征 图中 那个 数字 比较 大 的 部位 就 说明 这些 个 部位 它 就 满足 这个 特征 其它 的 部位 数字 越小 它 就 越 不 满足 特征 这 不 就是 用 数学方法 提取 图像 特征 吗 当然 你 刚才 说 的 这个 卷积 核 它 是 右 下 的 3 个 数字 是 1 所以 就 提取 出来 一个 往 右下方 斜 的 一个 线段 这个 特征 那么 如果 你 想 提出 来 一个 比如说 往 左下 斜 的 线段 的 特征 你 应该 找 什么样 的 卷积 核 呢 那 应该 是 这 3 个 元素 是 1 其他 是 0 对 不 对 你 说 我 想要 一个 竖 着 的 线段 那 怎么办 那 就是 这 3 个 元素 是 1 其他 是 0 你 说 我 想要 一个 这样 的 圈 怎么办 那 就是 这 几个 数字 是 1 其他 是 0 总而言之 通过 不同 的 卷积 核 我们 就 能够 对 图像 进行 不同 的 处理 得到 不同 的 特征 图 显示 出来 这种 特征 它 分布 在 图像 的 什么样 的 位置 卷积 之后 下 一个 步骤 就是 池化 池化 还有 就是 激活 我们 来 介绍 一下 这 两个 步骤 什么 叫 池化 呢 这张 特征 图 元素 个数 还是 比较 多 的 你 比如 左上角 左上角 到底 有没有 一个 往 右下方 的 线条 这个 特征 它 有 对 吧 这个 2 这个 3 就 说明 它 已经 有 了

Learn languages from TV shows, movies, news, articles and more! Try LingQ for FREE

人脸识别 啥 原理 ?人工智能 (二 )卷积 神经网络 (1) facial recognition|what|principle|||convolution|neural network Was ist das Prinzip der Gesichtserkennung? Künstliche Intelligenz (II) Faltungsneuronale Netze (1) What is the principle of face recognition? Artificial Intelligence (II) Convolutional Neural Network (1) ¿Cuál es el principio del reconocimiento facial? Inteligencia artificial (II) Redes neuronales convolucionales (1) Quel est le principe de la reconnaissance des visages ? Intelligence artificielle (II) Réseaux neuronaux convolutifs (1)

各位 同学 大家 好 我 是 李永乐 老师 ||||||Li Yongle|teacher 在 上 一回 咱们 介绍 了 ||||introduced| 人工智能 的 基本概念 和 算法 artificial intelligence||basic concepts||algorithm 为 大家 介绍 了 梯度 下降 算法 ||||gradient|gradient descent| 机器 学习 和 神经网络 的 基本概念 machine|||neural networks||Basic concepts 有个 小朋友 就 跟 我 说 他 下载 了 一个 人工智能 软件 |downloaded|||| 可以 通过 拍照 的 方法 来 识别 物体 ||taking photos||||recognize objects|object 我 还 特意 试 了 一下 这个 软件 ||specifically||||| 发现 这个 软件 不光 能够 识别 出 我们 家 的 狗 |||not only|can|recognize||||| 还 能 认出 狗 的 类型 ||recognize|||breed 威尔士 柯基 Wales|corgi Welsh Corgi 大家 知道 计算机 是 如何 进行 图像识别 的 吗 |know|computer||how|carry out|image recognition||(question particle) 那 今天 我们 就 来 介绍 一下 在 图像识别 里面 最 流行 的 一种 算法 |image recognition|||||| 卷积 神经网络 convolution|neural network 为了 介绍 卷积 神经网络 ||convolution|convolutional neural networks 我们 首先 先 来 介绍 一下 视觉 的 原理 ||||||vision||principle 人 和 动物 如何 能够 把 看到 的 图像 ||||||||images 转化成 他 大脑 中 的 一个 概念 into|||||| 比如 这个 是 猫 那个 是 狗 的 呢 ||||that||dog|| 我们 知道 计算机 实际上 是 把 一幅 图 |||actually|||a picture| 转化成 一大堆 的 数字 对 吧 turn into|a bunch||a bunch of numbers|| 然后 通过 训练 就 可以 知道 |through training|training||| 这些 数字 代表 一个 什么样 的 含义 |||||possessive particle|meaning 但是 如果 我们 用上 节课 所说 的 这种 方法 |||use|the lesson|||| 来 进行 训练 费时费力 ||training|time-consuming and laborious 而且 一旦 这个 图片 发生 了 一点 放缩 旋转 |once||||||zooming|rotation And once the picture is zoomed and rotated a bit 或者 是 一些 变化 |||changes 那么 这个 计算机 就 认不出来 了 ||computer||can't recognize| 但是 我们 的 眼睛 效率 就 特别 高 ||||efficiency||especially| 如果 我 看过 一次 汽车 和 摩托车 之后 ||||||motorcycle| 我 就 能 立刻 把 它们 的 区别 分辨 出来 |||immediately|||||distinguish them| 下次 再 看到 这个 摩托车 的 时候 ||||motorcycle|| 哪怕 这个 摩托车 方向 变 了 even if||motorcycle|direction|changes| 位置 变 了 或者 是 它 破损 了 ||||||damaged|past tense marker 我们 依然 能 认出来 它 是 一辆 摩托车 |still||recognize it|||a motorcycle| 而 不是 一个 汽车 这是 为什么 呢 在 1981 年 的 时候 1981 年 的 时候 诺贝尔 生理学 和 医学奖 授予 给 两位 神经 科学家 Nobel|physiology||Nobel Prize in Physiology or Medicine|awarded|||neuroscientists|scientists 他们 的 名字 一个 叫做 大卫 · 休伯尔 |||||David Hubble|Huber 还有 一个 是 他 的 合作者 叫做 威泽尔 |||||co-worker||Weiser 那么 这 两位 科学家 他们 用 猫 做 实验 猫 ||these two||||||experiment|cat 把 这个 电极 插入 到 猫 的 脑子 当中 去 ||electrode|insert||||brain|| 然后 给 猫 看 各种各样 不同 的 图片 ||||various||| 去 研究 猫 脑子 的 反应 |||||reaction 结果 他 就 发现 这个 跟 视觉 相关 的 这个 大脑 中 的 一些 细胞 ||visual|related|||||||cells 分为 两种 divided into| 第一种 叫做 简单 的 细胞 ||||cell 这种 简单 的 视觉 神经细胞 |||visual|nerve cells 它 的 特点 是 对 某 一些 线条 是 比较 敏感 的 |||||||lines|||sensitive| 某个 方向 的 线条 出现 了 之后 |||line|appeared|| 这些 细胞 就 会 比较 敏感 就 能 看 出来 |cells|||||||| 还有 一些 是 比较复杂 的 细胞 |||quite complex||cells 这些 复杂 的 细胞 不光 能够 对 线条 产生 反应 ||||not only||||generate response| 它 还 能够 对 线条 的 运动 产生 反应 对 吧 ||||lines|||||to| 于是 他们 提出 了 这样 的 一个 理论 去 解释 人 的 眼睛 是 如何 看到 物体 的 ||||||||objects| 那么 后来 在 他们 的 启发 下 |||||inspiration| Then, under their inspiration 有 一个 日本 的 科学家 名字 叫做 福岛 邦彦 ||Fukushima|Kuniyuki 他 就 提出 了 一个 模型 |||||model 叫做 神经 认知 模型 |neural|cognitive|model Neurocognitive model 就是说 这个 人 他 是 如何 看 出来 这个 物体 是 猫 还是 狗 的 呢 他 说 人 大脑 里面 有 很多 的 皮层 ||||||||cerebral cortex 是 一层 一层 对 这个 视觉 信号 进行 处理 的 |layer||||visual signal|signal||| 你 这个 光 从 眼睛 里面 进去 之后 你 先进 到 第一个 皮层 |advanced|||cortex 然后 又 进到 第二个 皮层 ||entered|| 然后 又 进到 第三个 皮层 ||into||cortex 然后 一直 往下进 ||go down 那么 可能 有 五六个 皮层 每 一个 皮层 它 对于 这个 信号 的 处理方式 是 不 一样 的 |||signal||handling method|||| 最 开始 刚进 到 眼睛 的 视网膜 里面 的 时候 |At the beginning|just entered||||retina||| 实际上 我们 看到 的 光线 是 一大堆 的 像素点 In fact||||light||a bunch||pixels 一大堆 的 像素点 是 吧 ||pixel points|| 然后 在 第一个 皮层 之中 这些 像素点 抽象 出 一些 特征 ||abstracted|||features These pixels abstract some features 比如说 边缘 是 吧 |marginal|| 这个 边缘 它 是 具有 方向性 的 是 吧 |edge||||directionality||| 你 是 横 着 的 边缘 呢 还是 竖 着 的 边缘 呢 ||horizontal|||edge|||vertical edge|||edge| 还是 斜 着 的 边缘 呢 |slanted|||| 在 某 一个 皮层 中 我们 就 抽象 出 这些 特征 了 |||||||abstracted|||features| 好 找 完 了 这个 特征 之后 |||||characteristic| 继续 下 一个 皮层 就 会 把 这些 特征 组合 起来 ||||||||features|combine| 形成 什么 呢 form what|| 形成 这个 物体 的 轮廓 轮廓 ||object||outline|outline 以及 这个 物体 的 更 多 的 细节 是 吧 and more||object|||||details|| 大体 来讲 是 轮廓 里边 是 细节 generally speaking|||outline||| 然后 最后 我们 再 把 这些 个 轮廓 和 细节 |||||||contours|| 组合成 一个 整体 form a whole||whole 最终 才 会 做出 一个 判断 是 吧 这 过程 是 比较复杂 的 所以 它 是 有 一层 一层 的 这样 的 关系 去 认识 到 这个 物体 的 ||||object| 比如说 你 现在 看到 我 你 说 我 是 李永乐 老师 ||||Li Yongle| 但是 你 开始 看到 的 时候 并 不是 我 李永乐 老师 你 看到 的 是 一大堆 像素点 |||||pixel dots 这些 个 像素点 进到 你 的 脑子 里面 之后 |||enter into||||| 它 首先 会 抽象 出 边缘 和 方向 信息 你 发现 我 好像 直立 行走 的 对 不 对 ||||upright|walking upright|||| 然后 进而 你 又 发现 了 更 多 的 轮廓 和 细节 |furthermore||||||||||details 你 发现 我 好像 有 两个 胳膊 两个 腿 是 吧 ||||||arms|||| 两个 眼睛 一个 鼻子 一个 嘴 是不是 然后 你 觉得 这 应该 不是 个 昆虫 |||||||insect 你 继续 去 看 然后 你 才 会 抽象 出来 原来 这个 人 他 是 李永乐 老师 对 吧 这 就是 人 的 眼睛 是 如何 看出 物体 的 那么 根据 这个 原理 |||principle 我们 上节 课 谈到 的 著名 的 科学家 杨立昆 |last class||talked about||famous|||Yang Likun 他 就 发明 出来 了 一种 能够 实用 的 图像识别 的 方法 |practical||image recognition|| 称之为 卷积 神经网络 |convolution| 那 这种 方法 简写 叫 CNN |||abbreviation|| 好像 还有 一个 机构 简写 也 是 CNN 是 吧 ||||abbreviation||||| 好 那么 这个 卷积 神经网络 到底 是 怎么回事 呢 good|||||||what's going on| 下面 我 就 来 介绍 一下 |||||a bit 这 里面 会 涉及 到 比较 多 的 数学 内容 |||involves|||||| 我们 首先 来说 一说 卷积 ||||convolution 什么 是 卷积 呢 ||convolution| 在 通信 里面 经常 会谈 到 卷积 |communication||often||| 那么 这里 我们 说 的 卷积 跟 那个 通讯 的 卷积 形式 上 有点 不 一样 ||communication||||||| 那 卷积 是 什么 意思 呢 |convolution|||| 我们 举个 例子 比如说 我们 有 一幅 图片 我 想 判断 一下 这 幅 图片 是不是 X 我们 知道 这个 X 有 很 多种 写法 但是 不管 是 哪 一种 写法 它 都 有 一些 共同 的 特征 ||||||features 比如说 它 中间 有 一个 这样 的 叉 对 不 对 |||||||fork||| 它 有 一个 往右 下 的 线 |||to the right||| 还有 一个 往 左下 的 线 对 不 对 |||bottom left||||| 越 符合 这些 特征 more than||| 那么 这幅 图 就 越 有 可能 是 X 对 不 对 |this (picture)|||||||||| 所以 卷积 的 作用 就是 我们 希望 用 一种 数学 的 方法 然后 怎么样 呢 能够 提取 出 |extract| 提取 出 这个 图像 中 的 这些 特征 extract|||image||||features 你 这个 图像 需要 一些 特征 那么 这些 特征 我 通过 卷积 的 方法 提取 出来 ||features||||||| 我们 来举 一个 具体 的 例子 |to give||specific|| 大家 看 我 给出 了 一幅 7×7 的 图片 我 想 让 计算机 告诉 我 这个 7×7 图片 到底 是不是 X 怎么 判断 呢 首先 计算机 会 把 它 转化成 数字 |||||convert to| 就是 所有 的 这个 亮 的 地方 设为 1 |||||||set as 比如说 这个 地方 是 1 1 1 1 1 对 吧 这亮 的 地方 就是 1 this bright||| 因为 它 是 纯 黑白 的 |||pure|black and white| 那么 所有 黑 的 地方 就是 0 了 于是 我们 把 其它 地方 补上 0 |||||filled in 所以 这 幅 图片 在 计算机 看来 就是 这么 一大堆 数字 那么 这 一堆 数字 计算机 要认 ||a bunch|||needs to recognize 说 它 到底 是 X 呢 还 是不是 X 它 怎么 去 做 呢 首先 要 提取 特征 提取 特征 的 方法 ||extraction|features|||| 就是 使用 一个 叫做 卷积 核 的 东西 来 做 卷积 运算 |||convolution operation 卷积 核 也 是 一个 矩阵 一个 方块 |kernel||||matrix||square 这个 方块 一般 是 3×3 或者 5×5 的 |cube|||| 比如说 我们 这里 有 一个 卷积 核 |||||convolution kernel|kernel 这个 卷积 核它 是 3×3 的 ||it|| 并且 里面 的 数字 是 这样 的 这 三个 数字 它 是 1 其他 的 数字 它 是 0 好 这 就是 我们 的 一个 卷积 核 了 ||||||convolution kernel|kernel| 这个 卷积 核 我们 和 左边 的 这个 图像 做 卷积 运算 什么 叫 卷积 运算 呢 ||convolution|| 它 的 意思 就是 把 这个 卷积 核 放到 图片 上 某 一个 3×3 的 部位 ||||||position 让 它们 对应 元素 相乘 ||correspond|elements|multiply 比如说 你 先 把 它 放到 左边 的 这个 部位 然后 盖住 了 |covered up| 盖住 了 之后 它 不是 有 对应 元素 吗 然后 对应 元素 乘起来 |||multiply 就 1×0+0×0+0×0+0×0+... 这么 一直 加 加完 了 之后 |||finished adding|| 再 把 它 写 到 中间 这个 位置 我 再说 一遍 就是 把 这个 卷积 核 放到 它 这个 部位 对应 元素 相乘 乘 完 了 之后 相加 |||||||add 再 放到 正 中央 这个 部位 |||center|| 于是 就 会 构成 一张 新 的 图 |||form|||| 这张 新 的 图 就 叫做 特征 图 ||||||feature map| 特征 图 的 第一个 元素 就是 把 这个 卷积 核 和 这 一块 元素 ||||||this|| 对应 相乘 再 相加 |||add 我们 仔细 看 就 会 发现 |carefully|||| 这个 卷积 核 只有 这么 斜 着 的 三个 元素 是 1 |||||||||elements| 其他 全都 是 0 所以 我 只要 把 这里 边 的 这 三个 数加 起来 ||||this place|||||add up| 是不是 就 应该 是 第一个 结果 了 对 不 对 我们 把 它 算 出来 这个 是 0 这个 是 1 这个 是 1 一加 结果 应该 是 2 对 不 对 One plus|||||| 特征 图 第一个 元素 就是 2 feature|||element| 那 特征 图 第二个 元素 我们 该 怎么 找 呢 |||||||how to|| 很 简单 你 只 需要 把 这个 卷积 核 往右边 平移 一下 |||||||to the right|shift| 找到 这样 的 一个 方块 是不是 ||||block| 找到 这样 一个 方块 你 把 这个 卷积 核 和 这个 方块 一 叠加 |||||||||stack 然后 对应 元素 相乘 再 相加 这 叫 卷积 事实上 也 就是 把 第二个 方块 的 |||||square| 这 三个 元素 加 起来 因为 只有 这 三个 数是 1 其他 都 是 0 那 把 它们 三个 一 相加 结果 是 几 |||||add them together||| 结果 是 0 这 就是 特征 图 的 第二个 元素 ||feature map|||| 你 按照 这种 方法 把 所有 的 元素 都 写 出来 我 把 它 写 完 这样 我们 就 得到 了 所谓 的 特征 图 好 那 咱们 来 解释一下 你 说 你 干 了 这件 事 之后 到底 得到 了 什么 呢 我们 仔细 看 就 会 知道 这个 卷积 核 只有 斜 着 的 这 3 个 元素 是 1 ||||slanted|||||| 所以 如果 原来 那 张图 上 ||||that picture| 也 是 斜 着 这 3 个 元素 是 1 的话 最后 它们 一做 卷积 这个 数字 就 会 特别 大 ||do||||||| 也就是说 我们 提取 到 了 这个 特征 ||extracted|||| 你 在 这 张图 上 找 一 找 说 哪个 数字 特别 大 这个 数字 特别 大 就 说明 在 这个 部位 特别 满足 这种 斜 着 的 线条 的 特征 对 吗 |||slanted|||lines|||| 这个 数字 是 3 也 特别 大 这 就 说明 在 这个 部位 也 有 一个 斜 着 右 下 的 线条 这个 数字 也 是 3 就 说明 这个 部位 也 有 一个 斜 的 线条 那么 2 和 2 这 两个 部位 就 说明 它 的 特征性 稍 微弱 一点 ||||characteristic|slightly|slightly weak| 事实上 你 会 发现 左上 和 右 下 这 两个 角 ||||top left|||||| 它 虽然 也 有 一个 右下 的 1 和 1 |||||bottom right|| 但 它 缺 了 一个角 对 不 对 缺 了 一个角 ||||a corner|||||| 其它 地方 还有 数字 小 的 比如 0 和 1 就 说明 这样 的 部位 它 没有 斜 向 右 下 的 线条 ||slanted||||| 所以 我们 这 一个 卷积 核 ||||convolution kernel|kernel 其实 就是 对应 了 一个 特征 ||corresponds||| 这个 特征 就是 一个 斜 向 右 下 的 线条 而 在 这个 特征 图中 那个 数字 比较 大 的 部位 ||||in this feature diagram|||||| 就 说明 这些 个 部位 它 就 满足 这个 特征 其它 的 部位 数字 越小 它 就 越 不 满足 特征 ||||the smaller|||||| 这 不 就是 用 数学方法 提取 图像 特征 吗 ||||mathematical methods|extract|image features|features| 当然 你 刚才 说 的 这个 卷积 核 它 是 右 下 的 3 个 数字 是 1 所以 就 提取 出来 一个 往 右下方 斜 的 一个 线段 这个 特征 |bottom right||||line segment||feature 那么 如果 你 想 提出 来 一个 比如说 往 左下 斜 的 线段 的 特征 |||diagonally||line segment|| 你 应该 找 什么样 的 卷积 核 呢 那 应该 是 这 3 个 元素 是 1 其他 是 0 对 不 对 你 说 我 想要 一个 竖 着 的 线段 那 怎么办 那 就是 这 3 个 元素 是 1 其他 是 0 你 说 我 想要 一个 这样 的 圈 怎么办 那 就是 这 几个 数字 是 1 其他 是 0 总而言之 通过 不同 的 卷积 核 in conclusion||||convolution kernel|kernel 我们 就 能够 对 图像 进行 不同 的 处理 得到 不同 的 特征 图 显示 出来 这种 特征 |||features||||| 它 分布 在 图像 的 什么样 的 位置 |distribution|||||| 卷积 之后 下 一个 步骤 就是 池化 池化 ||||Step 1||pooling| The next step after convolution is pooling 还有 就是 激活 ||activate 我们 来 介绍 一下 这 两个 步骤 ||||||steps 什么 叫 池化 呢 ||pooling| 这张 特征 图 元素 个数 还是 比较 多 的 ||||number|||| 你 比如 左上角 |for example|top left corner 左上角 到底 有没有 一个 top left corner||| 往 右下方 的 线条 这个 特征 |bottom right||line||feature 它 有 对 吧 这个 2 这个 3 就 说明 它 已经 有 了