×
我们使用 cookie 帮助改善 LingQ。通过浏览本网站,表示你同意我们的
cookie 政策 .
李永乐老师 Youtube, 人脸识别啥原理?人工智能(二)卷积神经网络 (1)
人脸识别 啥 原理 ?人工智能 (二 )卷积 神经网络 (1)
各位 同学 大家 好 我 是 李永乐 老师
在 上 一回 咱们 介绍 了
人工智能 的 基本概念 和 算法
为 大家 介绍 了 梯度 下降 算法
机器 学习 和 神经网络 的 基本概念
有个 小朋友 就 跟 我 说
他 下载 了 一个 人工智能 软件
可以 通过 拍照 的 方法 来 识别 物体
我 还 特意 试 了 一下 这个 软件
发现 这个 软件 不光 能够 识别 出 我们 家 的 狗
还 能 认出 狗 的 类型
威尔士 柯基
大家 知道 计算机 是 如何 进行 图像识别 的 吗
那 今天 我们 就 来 介绍 一下
在 图像识别 里面 最 流行 的 一种 算法
卷积 神经网络
为了 介绍 卷积 神经网络
我们 首先 先 来 介绍 一下 视觉 的 原理
人 和 动物 如何 能够 把 看到 的 图像
转化成 他 大脑 中 的 一个 概念
比如 这个 是 猫 那个 是 狗 的 呢
我们 知道 计算机 实际上 是 把 一幅 图
转化成 一大堆 的 数字 对 吧
然后 通过 训练 就 可以 知道
这些 数字 代表 一个 什么样 的 含义
但是 如果 我们 用上 节课 所说 的 这种 方法
来 进行 训练 费时费力
而且 一旦 这个 图片 发生 了 一点 放缩 旋转
或者 是 一些 变化
那么 这个 计算机 就 认不出来 了
但是 我们 的 眼睛 效率 就 特别 高
如果 我 看过 一次 汽车 和 摩托车 之后
我 就 能 立刻 把 它们 的 区别 分辨 出来
下次 再 看到 这个 摩托车 的 时候
哪怕 这个 摩托车 方向 变 了
位置 变 了 或者 是 它 破损 了
我们 依然 能 认出来 它 是 一辆 摩托车
而 不是 一个 汽车
这是 为什么 呢
在 1981 年 的 时候
1981 年 的 时候
诺贝尔 生理学 和 医学奖 授予 给 两位 神经 科学家
他们 的 名字 一个 叫做 大卫 · 休伯尔
还有 一个 是 他 的 合作者 叫做 威泽尔
那么 这 两位 科学家 他们 用 猫 做 实验 猫
把 这个 电极 插入 到 猫 的 脑子 当中 去
然后 给 猫 看 各种各样 不同 的 图片
去 研究 猫 脑子 的 反应
结果 他 就 发现
这个 跟 视觉 相关 的 这个 大脑 中 的 一些 细胞
分为 两种
第一种 叫做 简单 的 细胞
这种 简单 的 视觉 神经细胞
它 的 特点 是 对 某 一些 线条 是 比较 敏感 的
某个 方向 的 线条 出现 了 之后
这些 细胞 就 会 比较 敏感 就 能 看 出来
还有 一些 是 比较复杂 的 细胞
这些 复杂 的 细胞 不光 能够 对 线条 产生 反应
它 还 能够 对 线条 的 运动 产生 反应 对 吧
于是 他们 提出 了 这样 的 一个 理论
去 解释 人 的 眼睛 是 如何 看到 物体 的
那么 后来 在 他们 的 启发 下
有 一个 日本 的 科学家
名字 叫做 福岛 邦彦
他 就 提出 了 一个 模型
叫做 神经 认知 模型
就是说 这个 人 他 是 如何 看 出来
这个 物体 是 猫 还是 狗 的 呢
他 说 人 大脑 里面 有 很多 的 皮层
是 一层 一层 对 这个 视觉 信号 进行 处理 的
你 这个 光 从 眼睛 里面 进去 之后
你 先进 到 第一个 皮层
然后 又 进到 第二个 皮层
然后 又 进到 第三个 皮层
然后 一直 往下进
那么 可能 有 五六个 皮层
每 一个 皮层
它 对于 这个 信号 的 处理方式 是 不 一样 的
最 开始 刚进 到 眼睛 的 视网膜 里面 的 时候
实际上 我们 看到 的 光线 是 一大堆 的 像素点
一大堆 的 像素点 是 吧
然后 在 第一个 皮层 之中
这些 像素点 抽象 出 一些 特征
比如说 边缘 是 吧
这个 边缘 它 是 具有 方向性 的 是 吧
你 是 横 着 的 边缘 呢 还是 竖 着 的 边缘 呢
还是 斜 着 的 边缘 呢
在 某 一个 皮层 中 我们 就 抽象 出 这些 特征 了
好 找 完 了 这个 特征 之后
继续 下 一个 皮层 就 会 把 这些 特征 组合 起来
形成 什么 呢
形成 这个 物体 的 轮廓 轮廓
以及 这个 物体 的 更 多 的 细节 是 吧
大体 来讲 是 轮廓 里边 是 细节
然后 最后 我们 再 把 这些 个 轮廓 和 细节
组合成 一个 整体
最终 才 会 做出 一个 判断 是 吧
这 过程 是 比较复杂 的
所以 它 是 有 一层 一层 的 这样 的 关系
去 认识 到 这个 物体 的
比如说 你 现在 看到 我
你 说 我 是 李永乐 老师
但是 你 开始 看到 的 时候 并 不是 我 李永乐 老师
你 看到 的 是 一大堆 像素点
这些 个 像素点 进到 你 的 脑子 里面 之后
它 首先 会 抽象 出 边缘 和 方向 信息
你 发现 我 好像 直立 行走 的 对 不 对
然后 进而 你 又 发现 了 更 多 的 轮廓 和 细节
你 发现 我 好像 有 两个 胳膊 两个 腿 是 吧
两个 眼睛 一个 鼻子 一个 嘴 是不是
然后 你 觉得 这 应该 不是 个 昆虫
你 继续 去 看
然后 你 才 会 抽象 出来
原来 这个 人 他 是 李永乐 老师 对 吧
这 就是 人 的 眼睛 是 如何 看出 物体 的
那么 根据 这个 原理
我们 上节 课 谈到 的 著名 的 科学家 杨立昆
他 就 发明 出来 了 一种
能够 实用 的 图像识别 的 方法
称之为 卷积 神经网络
那 这种 方法 简写 叫 CNN
好像 还有 一个 机构 简写 也 是 CNN 是 吧
好 那么 这个 卷积 神经网络 到底 是 怎么回事 呢
下面 我 就 来 介绍 一下
这 里面 会 涉及 到 比较 多 的 数学 内容
我们 首先 来说 一说 卷积
什么 是 卷积 呢
在 通信 里面 经常 会谈 到 卷积
那么 这里 我们 说 的 卷积
跟 那个 通讯 的 卷积 形式 上 有点 不 一样
那 卷积 是 什么 意思 呢
我们 举个 例子
比如说 我们 有 一幅 图片
我 想 判断 一下 这 幅 图片 是不是 X
我们 知道 这个 X 有 很 多种 写法
但是 不管 是 哪 一种 写法
它 都 有 一些 共同 的 特征
比如说 它 中间 有 一个 这样 的 叉 对 不 对
它 有 一个 往右 下 的 线
还有 一个 往 左下 的 线 对 不 对
越 符合 这些 特征
那么 这幅 图 就 越 有 可能 是 X 对 不 对
所以 卷积 的 作用 就是
我们 希望 用 一种 数学 的 方法
然后 怎么样 呢
能够 提取 出
提取 出 这个 图像 中 的 这些 特征
你 这个 图像 需要 一些 特征
那么 这些 特征 我 通过 卷积 的 方法 提取 出来
我们 来举 一个 具体 的 例子
大家 看 我 给出 了 一幅 7×7 的 图片
我 想 让 计算机 告诉 我
这个 7×7 图片 到底 是不是 X
怎么 判断 呢
首先 计算机 会 把 它 转化成 数字
就是 所有 的 这个 亮 的 地方 设为 1
比如说 这个 地方 是 1 1 1 1 1 对 吧
这亮 的 地方 就是 1
因为 它 是 纯 黑白 的
那么 所有 黑 的 地方 就是 0 了
于是 我们 把 其它 地方 补上 0
所以 这 幅 图片 在 计算机 看来
就是 这么 一大堆 数字
那么 这 一堆 数字 计算机 要认
说 它 到底 是 X 呢 还 是不是 X
它 怎么 去 做 呢
首先 要 提取 特征 提取 特征 的 方法
就是 使用 一个 叫做 卷积 核 的 东西
来 做 卷积 运算
卷积 核 也 是 一个 矩阵 一个 方块
这个 方块 一般 是 3×3 或者 5×5 的
比如说 我们 这里 有 一个 卷积 核
这个 卷积 核它 是 3×3 的
并且 里面 的 数字 是 这样 的
这 三个 数字 它 是 1 其他 的 数字 它 是 0
好 这 就是 我们 的 一个 卷积 核 了
这个 卷积 核
我们 和 左边 的 这个 图像 做 卷积 运算
什么 叫 卷积 运算 呢
它 的 意思 就是 把 这个 卷积 核
放到 图片 上 某 一个 3×3 的 部位
让 它们 对应 元素 相乘
比如说 你 先 把 它 放到 左边 的 这个 部位
然后 盖住 了
盖住 了 之后 它 不是 有 对应 元素 吗
然后 对应 元素 乘起来
就 1×0+0×0+0×0+0×0+...
这么 一直 加 加完 了 之后
再 把 它 写 到 中间 这个 位置 我 再说 一遍
就是 把 这个 卷积 核 放到 它 这个 部位
对应 元素 相乘 乘 完 了 之后 相加
再 放到 正 中央 这个 部位
于是 就 会 构成 一张 新 的 图
这张 新 的 图 就 叫做 特征 图
特征 图 的 第一个 元素
就是 把 这个 卷积 核 和 这 一块 元素
对应 相乘 再 相加
我们 仔细 看 就 会 发现
这个 卷积 核 只有 这么 斜 着 的 三个 元素 是 1
其他 全都 是 0
所以 我 只要 把 这里 边 的 这 三个 数加 起来
是不是 就 应该 是 第一个 结果 了 对 不 对
我们 把 它 算 出来
这个 是 0 这个 是 1 这个 是 1
一加 结果 应该 是 2 对 不 对
特征 图 第一个 元素 就是 2
那 特征 图 第二个 元素 我们 该 怎么 找 呢
很 简单
你 只 需要 把 这个 卷积 核 往右边 平移 一下
找到 这样 的 一个 方块 是不是
找到 这样 一个 方块
你 把 这个 卷积 核 和 这个 方块 一 叠加
然后 对应 元素 相乘 再 相加 这 叫 卷积
事实上 也 就是 把 第二个 方块 的
这 三个 元素 加 起来
因为 只有 这 三个 数是 1 其他 都 是 0
那 把 它们 三个 一 相加 结果 是 几
结果 是 0
这 就是 特征 图 的 第二个 元素
你 按照 这种 方法 把 所有 的 元素 都 写 出来
我 把 它 写 完
这样 我们 就 得到 了 所谓 的 特征 图
好 那 咱们 来 解释一下
你 说 你 干 了 这件 事 之后 到底 得到 了 什么 呢
我们 仔细 看 就 会 知道
这个 卷积 核 只有 斜 着 的 这 3 个 元素 是 1
所以 如果 原来 那 张图 上
也 是 斜 着 这 3 个 元素 是 1 的话
最后 它们 一做 卷积 这个 数字 就 会 特别 大
也就是说 我们 提取 到 了 这个 特征
你 在 这 张图 上 找 一 找 说 哪个 数字 特别 大
这个 数字 特别 大
就 说明 在 这个 部位
特别 满足 这种 斜 着 的 线条 的 特征 对 吗
这个 数字 是 3 也 特别 大
这 就 说明 在 这个 部位
也 有 一个 斜 着 右 下 的 线条 这个 数字 也 是 3
就 说明 这个 部位 也 有 一个 斜 的 线条
那么 2 和 2 这 两个 部位
就 说明 它 的 特征性 稍 微弱 一点
事实上 你 会 发现 左上 和 右 下 这 两个 角
它 虽然 也 有 一个 右下 的 1 和 1
但 它 缺 了 一个角 对 不 对 缺 了 一个角
其它 地方 还有 数字 小 的
比如 0 和 1 就 说明 这样 的 部位
它 没有 斜 向 右 下 的 线条
所以 我们 这 一个 卷积 核
其实 就是 对应 了 一个 特征
这个 特征 就是 一个 斜 向 右 下 的 线条
而 在 这个 特征 图中 那个 数字 比较 大 的 部位
就 说明 这些 个 部位 它 就 满足 这个 特征
其它 的 部位 数字 越小 它 就 越 不 满足 特征
这 不 就是 用 数学方法 提取 图像 特征 吗
当然 你 刚才 说 的 这个 卷积 核
它 是 右 下 的 3 个 数字 是 1
所以 就 提取 出来 一个
往 右下方 斜 的 一个 线段 这个 特征
那么 如果 你 想 提出 来 一个
比如说 往 左下 斜 的 线段 的 特征
你 应该 找 什么样 的 卷积 核 呢
那 应该 是 这 3 个 元素 是 1
其他 是 0 对 不 对
你 说 我 想要 一个 竖 着 的 线段 那 怎么办
那 就是 这 3 个 元素 是 1 其他 是 0
你 说 我 想要 一个 这样 的 圈 怎么办
那 就是 这 几个 数字 是 1 其他 是 0
总而言之 通过 不同 的 卷积 核
我们 就 能够 对 图像 进行 不同 的 处理
得到 不同 的 特征 图 显示 出来 这种 特征
它 分布 在 图像 的 什么样 的 位置
卷积 之后 下 一个 步骤 就是 池化 池化
还有 就是 激活
我们 来 介绍 一下 这 两个 步骤
什么 叫 池化 呢
这张 特征 图 元素 个数 还是 比较 多 的
你 比如 左上角
左上角 到底 有没有 一个
往 右下方 的 线条 这个 特征
它 有 对 吧
这个 2 这个 3 就 说明 它 已经 有 了
To hear audio for this text, and to learn the vocabulary sign up for a free LingQ account.
在 LingQ 上打开此课程
人脸识别 啥 原理 ?人工智能 (二 )卷积 神经网络 (1)
facial recognition|what|principle|||convolution|neural network
Was ist das Prinzip der Gesichtserkennung? Künstliche Intelligenz (II) Faltungsneuronale Netze (1)
What is the principle of face recognition? Artificial Intelligence (II) Convolutional Neural Network (1)
¿Cuál es el principio del reconocimiento facial? Inteligencia artificial (II) Redes neuronales convolucionales (1)
Quel est le principe de la reconnaissance des visages ? Intelligence artificielle (II) Réseaux neuronaux convolutifs (1)
各位 同学 大家 好 我 是 李永乐 老师
||||||Li Yongle|teacher
在 上 一回 咱们 介绍 了
||||introduced|
人工智能 的 基本概念 和 算法
artificial intelligence||basic concepts||algorithm
为 大家 介绍 了 梯度 下降 算法
||||gradient|gradient descent|
机器 学习 和 神经网络 的 基本概念
machine|||neural networks||Basic concepts
有个 小朋友 就 跟 我 说
他 下载 了 一个 人工智能 软件
|downloaded||||
可以 通过 拍照 的 方法 来 识别 物体
||taking photos||||recognize objects|object
我 还 特意 试 了 一下 这个 软件
||specifically|||||
发现 这个 软件 不光 能够 识别 出 我们 家 的 狗
|||not only|can|recognize|||||
还 能 认出 狗 的 类型
||recognize|||breed
威尔士 柯基
Wales|corgi
Welsh Corgi
大家 知道 计算机 是 如何 进行 图像识别 的 吗
|know|computer||how|carry out|image recognition||(question particle)
那 今天 我们 就 来 介绍 一下
在 图像识别 里面 最 流行 的 一种 算法
|image recognition||||||
卷积 神经网络
convolution|neural network
为了 介绍 卷积 神经网络
||convolution|convolutional neural networks
我们 首先 先 来 介绍 一下 视觉 的 原理
||||||vision||principle
人 和 动物 如何 能够 把 看到 的 图像
||||||||images
转化成 他 大脑 中 的 一个 概念
into||||||
比如 这个 是 猫 那个 是 狗 的 呢
||||that||dog||
我们 知道 计算机 实际上 是 把 一幅 图
|||actually|||a picture|
转化成 一大堆 的 数字 对 吧
turn into|a bunch||a bunch of numbers||
然后 通过 训练 就 可以 知道
|through training|training|||
这些 数字 代表 一个 什么样 的 含义
|||||possessive particle|meaning
但是 如果 我们 用上 节课 所说 的 这种 方法
|||use|the lesson||||
来 进行 训练 费时费力
||training|time-consuming and laborious
而且 一旦 这个 图片 发生 了 一点 放缩 旋转
|once||||||zooming|rotation
And once the picture is zoomed and rotated a bit
或者 是 一些 变化
|||changes
那么 这个 计算机 就 认不出来 了
||computer||can't recognize|
但是 我们 的 眼睛 效率 就 特别 高
||||efficiency||especially|
如果 我 看过 一次 汽车 和 摩托车 之后
||||||motorcycle|
我 就 能 立刻 把 它们 的 区别 分辨 出来
|||immediately|||||distinguish them|
下次 再 看到 这个 摩托车 的 时候
||||motorcycle||
哪怕 这个 摩托车 方向 变 了
even if||motorcycle|direction|changes|
位置 变 了 或者 是 它 破损 了
||||||damaged|past tense marker
我们 依然 能 认出来 它 是 一辆 摩托车
|still||recognize it|||a motorcycle|
而 不是 一个 汽车
这是 为什么 呢
在 1981 年 的 时候
1981 年 的 时候
诺贝尔 生理学 和 医学奖 授予 给 两位 神经 科学家
Nobel|physiology||Nobel Prize in Physiology or Medicine|awarded|||neuroscientists|scientists
他们 的 名字 一个 叫做 大卫 · 休伯尔
|||||David Hubble|Huber
还有 一个 是 他 的 合作者 叫做 威泽尔
|||||co-worker||Weiser
那么 这 两位 科学家 他们 用 猫 做 实验 猫
||these two||||||experiment|cat
把 这个 电极 插入 到 猫 的 脑子 当中 去
||electrode|insert||||brain||
然后 给 猫 看 各种各样 不同 的 图片
||||various|||
去 研究 猫 脑子 的 反应
|||||reaction
结果 他 就 发现
这个 跟 视觉 相关 的 这个 大脑 中 的 一些 细胞
||visual|related|||||||cells
分为 两种
divided into|
第一种 叫做 简单 的 细胞
||||cell
这种 简单 的 视觉 神经细胞
|||visual|nerve cells
它 的 特点 是 对 某 一些 线条 是 比较 敏感 的
|||||||lines|||sensitive|
某个 方向 的 线条 出现 了 之后
|||line|appeared||
这些 细胞 就 会 比较 敏感 就 能 看 出来
|cells||||||||
还有 一些 是 比较复杂 的 细胞
|||quite complex||cells
这些 复杂 的 细胞 不光 能够 对 线条 产生 反应
||||not only||||generate response|
它 还 能够 对 线条 的 运动 产生 反应 对 吧
||||lines|||||to|
于是 他们 提出 了 这样 的 一个 理论
去 解释 人 的 眼睛 是 如何 看到 物体 的
||||||||objects|
那么 后来 在 他们 的 启发 下
|||||inspiration|
Then, under their inspiration
有 一个 日本 的 科学家
名字 叫做 福岛 邦彦
||Fukushima|Kuniyuki
他 就 提出 了 一个 模型
|||||model
叫做 神经 认知 模型
|neural|cognitive|model
Neurocognitive model
就是说 这个 人 他 是 如何 看 出来
这个 物体 是 猫 还是 狗 的 呢
他 说 人 大脑 里面 有 很多 的 皮层
||||||||cerebral cortex
是 一层 一层 对 这个 视觉 信号 进行 处理 的
|layer||||visual signal|signal|||
你 这个 光 从 眼睛 里面 进去 之后
你 先进 到 第一个 皮层
|advanced|||cortex
然后 又 进到 第二个 皮层
||entered||
然后 又 进到 第三个 皮层
||into||cortex
然后 一直 往下进
||go down
那么 可能 有 五六个 皮层
每 一个 皮层
它 对于 这个 信号 的 处理方式 是 不 一样 的
|||signal||handling method||||
最 开始 刚进 到 眼睛 的 视网膜 里面 的 时候
|At the beginning|just entered||||retina|||
实际上 我们 看到 的 光线 是 一大堆 的 像素点
In fact||||light||a bunch||pixels
一大堆 的 像素点 是 吧
||pixel points||
然后 在 第一个 皮层 之中
这些 像素点 抽象 出 一些 特征
||abstracted|||features
These pixels abstract some features
比如说 边缘 是 吧
|marginal||
这个 边缘 它 是 具有 方向性 的 是 吧
|edge||||directionality|||
你 是 横 着 的 边缘 呢 还是 竖 着 的 边缘 呢
||horizontal|||edge|||vertical edge|||edge|
还是 斜 着 的 边缘 呢
|slanted||||
在 某 一个 皮层 中 我们 就 抽象 出 这些 特征 了
|||||||abstracted|||features|
好 找 完 了 这个 特征 之后
|||||characteristic|
继续 下 一个 皮层 就 会 把 这些 特征 组合 起来
||||||||features|combine|
形成 什么 呢
form what||
形成 这个 物体 的 轮廓 轮廓
||object||outline|outline
以及 这个 物体 的 更 多 的 细节 是 吧
and more||object|||||details||
大体 来讲 是 轮廓 里边 是 细节
generally speaking|||outline|||
然后 最后 我们 再 把 这些 个 轮廓 和 细节
|||||||contours||
组合成 一个 整体
form a whole||whole
最终 才 会 做出 一个 判断 是 吧
这 过程 是 比较复杂 的
所以 它 是 有 一层 一层 的 这样 的 关系
去 认识 到 这个 物体 的
||||object|
比如说 你 现在 看到 我
你 说 我 是 李永乐 老师
||||Li Yongle|
但是 你 开始 看到 的 时候 并 不是 我 李永乐 老师
你 看到 的 是 一大堆 像素点
|||||pixel dots
这些 个 像素点 进到 你 的 脑子 里面 之后
|||enter into|||||
它 首先 会 抽象 出 边缘 和 方向 信息
你 发现 我 好像 直立 行走 的 对 不 对
||||upright|walking upright||||
然后 进而 你 又 发现 了 更 多 的 轮廓 和 细节
|furthermore||||||||||details
你 发现 我 好像 有 两个 胳膊 两个 腿 是 吧
||||||arms||||
两个 眼睛 一个 鼻子 一个 嘴 是不是
然后 你 觉得 这 应该 不是 个 昆虫
|||||||insect
你 继续 去 看
然后 你 才 会 抽象 出来
原来 这个 人 他 是 李永乐 老师 对 吧
这 就是 人 的 眼睛 是 如何 看出 物体 的
那么 根据 这个 原理
|||principle
我们 上节 课 谈到 的 著名 的 科学家 杨立昆
|last class||talked about||famous|||Yang Likun
他 就 发明 出来 了 一种
能够 实用 的 图像识别 的 方法
|practical||image recognition||
称之为 卷积 神经网络
|convolution|
那 这种 方法 简写 叫 CNN
|||abbreviation||
好像 还有 一个 机构 简写 也 是 CNN 是 吧
||||abbreviation|||||
好 那么 这个 卷积 神经网络 到底 是 怎么回事 呢
good|||||||what's going on|
下面 我 就 来 介绍 一下
|||||a bit
这 里面 会 涉及 到 比较 多 的 数学 内容
|||involves||||||
我们 首先 来说 一说 卷积
||||convolution
什么 是 卷积 呢
||convolution|
在 通信 里面 经常 会谈 到 卷积
|communication||often|||
那么 这里 我们 说 的 卷积
跟 那个 通讯 的 卷积 形式 上 有点 不 一样
||communication|||||||
那 卷积 是 什么 意思 呢
|convolution||||
我们 举个 例子
比如说 我们 有 一幅 图片
我 想 判断 一下 这 幅 图片 是不是 X
我们 知道 这个 X 有 很 多种 写法
但是 不管 是 哪 一种 写法
它 都 有 一些 共同 的 特征
||||||features
比如说 它 中间 有 一个 这样 的 叉 对 不 对
|||||||fork|||
它 有 一个 往右 下 的 线
|||to the right|||
还有 一个 往 左下 的 线 对 不 对
|||bottom left|||||
越 符合 这些 特征
more than|||
那么 这幅 图 就 越 有 可能 是 X 对 不 对
|this (picture)||||||||||
所以 卷积 的 作用 就是
我们 希望 用 一种 数学 的 方法
然后 怎么样 呢
能够 提取 出
|extract|
提取 出 这个 图像 中 的 这些 特征
extract|||image||||features
你 这个 图像 需要 一些 特征
那么 这些 特征 我 通过 卷积 的 方法 提取 出来
||features|||||||
我们 来举 一个 具体 的 例子
|to give||specific||
大家 看 我 给出 了 一幅 7×7 的 图片
我 想 让 计算机 告诉 我
这个 7×7 图片 到底 是不是 X
怎么 判断 呢
首先 计算机 会 把 它 转化成 数字
|||||convert to|
就是 所有 的 这个 亮 的 地方 设为 1
|||||||set as
比如说 这个 地方 是 1 1 1 1 1 对 吧
这亮 的 地方 就是 1
this bright|||
因为 它 是 纯 黑白 的
|||pure|black and white|
那么 所有 黑 的 地方 就是 0 了
于是 我们 把 其它 地方 补上 0
|||||filled in
所以 这 幅 图片 在 计算机 看来
就是 这么 一大堆 数字
那么 这 一堆 数字 计算机 要认
||a bunch|||needs to recognize
说 它 到底 是 X 呢 还 是不是 X
它 怎么 去 做 呢
首先 要 提取 特征 提取 特征 的 方法
||extraction|features||||
就是 使用 一个 叫做 卷积 核 的 东西
来 做 卷积 运算
|||convolution operation
卷积 核 也 是 一个 矩阵 一个 方块
|kernel||||matrix||square
这个 方块 一般 是 3×3 或者 5×5 的
|cube||||
比如说 我们 这里 有 一个 卷积 核
|||||convolution kernel|kernel
这个 卷积 核它 是 3×3 的
||it||
并且 里面 的 数字 是 这样 的
这 三个 数字 它 是 1 其他 的 数字 它 是 0
好 这 就是 我们 的 一个 卷积 核 了
||||||convolution kernel|kernel|
这个 卷积 核
我们 和 左边 的 这个 图像 做 卷积 运算
什么 叫 卷积 运算 呢
||convolution||
它 的 意思 就是 把 这个 卷积 核
放到 图片 上 某 一个 3×3 的 部位
||||||position
让 它们 对应 元素 相乘
||correspond|elements|multiply
比如说 你 先 把 它 放到 左边 的 这个 部位
然后 盖住 了
|covered up|
盖住 了 之后 它 不是 有 对应 元素 吗
然后 对应 元素 乘起来
|||multiply
就 1×0+0×0+0×0+0×0+...
这么 一直 加 加完 了 之后
|||finished adding||
再 把 它 写 到 中间 这个 位置 我 再说 一遍
就是 把 这个 卷积 核 放到 它 这个 部位
对应 元素 相乘 乘 完 了 之后 相加
|||||||add
再 放到 正 中央 这个 部位
|||center||
于是 就 会 构成 一张 新 的 图
|||form||||
这张 新 的 图 就 叫做 特征 图
||||||feature map|
特征 图 的 第一个 元素
就是 把 这个 卷积 核 和 这 一块 元素
||||||this||
对应 相乘 再 相加
|||add
我们 仔细 看 就 会 发现
|carefully||||
这个 卷积 核 只有 这么 斜 着 的 三个 元素 是 1
|||||||||elements|
其他 全都 是 0
所以 我 只要 把 这里 边 的 这 三个 数加 起来
||||this place|||||add up|
是不是 就 应该 是 第一个 结果 了 对 不 对
我们 把 它 算 出来
这个 是 0 这个 是 1 这个 是 1
一加 结果 应该 是 2 对 不 对
One plus||||||
特征 图 第一个 元素 就是 2
feature|||element|
那 特征 图 第二个 元素 我们 该 怎么 找 呢
|||||||how to||
很 简单
你 只 需要 把 这个 卷积 核 往右边 平移 一下
|||||||to the right|shift|
找到 这样 的 一个 方块 是不是
||||block|
找到 这样 一个 方块
你 把 这个 卷积 核 和 这个 方块 一 叠加
|||||||||stack
然后 对应 元素 相乘 再 相加 这 叫 卷积
事实上 也 就是 把 第二个 方块 的
|||||square|
这 三个 元素 加 起来
因为 只有 这 三个 数是 1 其他 都 是 0
那 把 它们 三个 一 相加 结果 是 几
|||||add them together|||
结果 是 0
这 就是 特征 图 的 第二个 元素
||feature map||||
你 按照 这种 方法 把 所有 的 元素 都 写 出来
我 把 它 写 完
这样 我们 就 得到 了 所谓 的 特征 图
好 那 咱们 来 解释一下
你 说 你 干 了 这件 事 之后 到底 得到 了 什么 呢
我们 仔细 看 就 会 知道
这个 卷积 核 只有 斜 着 的 这 3 个 元素 是 1
||||slanted||||||
所以 如果 原来 那 张图 上
||||that picture|
也 是 斜 着 这 3 个 元素 是 1 的话
最后 它们 一做 卷积 这个 数字 就 会 特别 大
||do|||||||
也就是说 我们 提取 到 了 这个 特征
||extracted||||
你 在 这 张图 上 找 一 找 说 哪个 数字 特别 大
这个 数字 特别 大
就 说明 在 这个 部位
特别 满足 这种 斜 着 的 线条 的 特征 对 吗
|||slanted|||lines||||
这个 数字 是 3 也 特别 大
这 就 说明 在 这个 部位
也 有 一个 斜 着 右 下 的 线条 这个 数字 也 是 3
就 说明 这个 部位 也 有 一个 斜 的 线条
那么 2 和 2 这 两个 部位
就 说明 它 的 特征性 稍 微弱 一点
||||characteristic|slightly|slightly weak|
事实上 你 会 发现 左上 和 右 下 这 两个 角
||||top left||||||
它 虽然 也 有 一个 右下 的 1 和 1
|||||bottom right||
但 它 缺 了 一个角 对 不 对 缺 了 一个角
||||a corner||||||
其它 地方 还有 数字 小 的
比如 0 和 1 就 说明 这样 的 部位
它 没有 斜 向 右 下 的 线条
||slanted|||||
所以 我们 这 一个 卷积 核
||||convolution kernel|kernel
其实 就是 对应 了 一个 特征
||corresponds|||
这个 特征 就是 一个 斜 向 右 下 的 线条
而 在 这个 特征 图中 那个 数字 比较 大 的 部位
||||in this feature diagram||||||
就 说明 这些 个 部位 它 就 满足 这个 特征
其它 的 部位 数字 越小 它 就 越 不 满足 特征
||||the smaller||||||
这 不 就是 用 数学方法 提取 图像 特征 吗
||||mathematical methods|extract|image features|features|
当然 你 刚才 说 的 这个 卷积 核
它 是 右 下 的 3 个 数字 是 1
所以 就 提取 出来 一个
往 右下方 斜 的 一个 线段 这个 特征
|bottom right||||line segment||feature
那么 如果 你 想 提出 来 一个
比如说 往 左下 斜 的 线段 的 特征
|||diagonally||line segment||
你 应该 找 什么样 的 卷积 核 呢
那 应该 是 这 3 个 元素 是 1
其他 是 0 对 不 对
你 说 我 想要 一个 竖 着 的 线段 那 怎么办
那 就是 这 3 个 元素 是 1 其他 是 0
你 说 我 想要 一个 这样 的 圈 怎么办
那 就是 这 几个 数字 是 1 其他 是 0
总而言之 通过 不同 的 卷积 核
in conclusion||||convolution kernel|kernel
我们 就 能够 对 图像 进行 不同 的 处理
得到 不同 的 特征 图 显示 出来 这种 特征
|||features|||||
它 分布 在 图像 的 什么样 的 位置
|distribution||||||
卷积 之后 下 一个 步骤 就是 池化 池化
||||Step 1||pooling|
The next step after convolution is pooling
还有 就是 激活
||activate
我们 来 介绍 一下 这 两个 步骤
||||||steps
什么 叫 池化 呢
||pooling|
这张 特征 图 元素 个数 还是 比较 多 的
||||number||||
你 比如 左上角
|for example|top left corner
左上角 到底 有没有 一个
top left corner|||
往 右下方 的 线条 这个 特征
|bottom right||line||feature
它 有 对 吧
这个 2 这个 3 就 说明 它 已经 有 了