×

우리는 LingQ를 개선하기 위해서 쿠키를 사용합니다. 사이트를 방문함으로써 당신은 동의합니다 쿠키 정책.


image

李永乐老师 Youtube, 机器能像人一样思考吗?人工智能(一)机器学习和神经网络 (2)

机器 能 像 人 一样 思考 吗 ?人工智能 (一 )机器 学习 和 神经网络 (2)

它 等于 原来 的 wₙ-η∂J/∂w 有 同学 在 数学 上 可能 会 遇到 一点 困难 反正 大概 的 意思 就是说 我 通过 这种 方式 我 可以 怎么样 我 可以 从 这个 数 我 找到 一个 更好 的 这个 w 我 作为 w₂ 对 吧 w₂ 之后 可能 还是 不够 怎么办 我们 继续 去求 在 w₂ 这个 地方 它 的 倾斜 程度 然后 我们 再 去 计算 一个 新 的 迭代 过程 于是 我们 就 又 往下跳 了 一步 就 w₃ 你 看 这 w₃ 就 已经 非常 完美 了 对 吧 当然 也 有 可能 我 这 一步 跳过 跳 到 右边 去 了 那么 它 还 会 继续 跳回来 就 通过 这样 的 式子 反复 进行 迭代 一步 一步 就 会 找到 这个 最低点 了 那 这个 方式 我们 就 称之为 梯度 下降 算法 那么 最终 的 情况 是 什么样 的 最终 就是 我们 通过 一次 又 一次 的 计算 我们 是 希望 找到 那个 最优化 的 w 也 就是 直到 这个 ∂J/∂w=0 约等于 0 不 可能 严格 是 等于 0 的 或者说 这个 wₙ₊₁ 它 已经 约等于 wₙ 了 这个 时候 我们 就 不再 需要 迭代 了 我们 就 找到 了 这个 最优 的 解 事实上 我 刚才 只 考虑 到 这个 参数 w 参数 还有 一个 叫 b 叫 截距 我们 在 进行 梯度 下降 算法 的 时候 实际上 是 w 和 b 同时 进行 优化 的 我们 是 在 一个三维 的 空间 中 寻找 一个 最低点 而 不是 像 我 这画 的 这个 样 在 一个 平面 上 寻找 最低点 那 刚才 我们 说 房价 只 取决于 面积 这 很 显然 不合理 的 对 吧 房价 可能 有 很多 的 影响 因素 比如说 你 是 在 哪个 城市 的 呀 你 距离 市中心 的 远近 你 小区 的 环境 好不好 对 吧 你 这个 楼层 怎么样 你 这个 朝向 很多很多 个 因素 那 我们 把 这 很多很多 个 因素 作为 输入 叫 x₁ x₂ ... 一直 到 xₙ 这样一来 你 就 会 发现 房价 有 可能 是 这样 一个 函数 叫做 w₁x₁+w₂x₂+...+wₙxₙ x₁ x₂ ... 一直 到 xₙ 都 是 它 的 输入 端 而 w₁ w₂ ... 一直 到 wₙ 都 是 参数 最后 我们 再 加上 一个 b 这个 就是 一个 更加 详细 的 分析 房价 的 一个 模型 我们 通过 一大堆 的 训练 找到 这个 w₁ w₂ ... wₙ 以及 b 这些 参数 的 最优 值 这个 最优 值 能够 让 损失 函数 最小 这 就是 一个 成功 的 训练 了 我们 找到 了 一个 房价 的 模型 这个 我们 称之为 回归 的 一个 分析 除此之外 还有 一个 分类 的 分析 你 比如说 我 给 你 一大堆 的 这个 肿瘤 的 CT 照片 哪 一个 是 良性 的 哪 一个 是 恶性 的 我 都 告诉 你 然后 让 你 给 我 一个 新 的 这个 肿瘤 照片 问 你 这 是 良性 还是 恶性 这种 就 叫 分类 分类 问题 的 本质 其实 也 是 画 一条线 把 良性 和 恶性 给 分开 对 吧 我 给 你 一大堆 猫 的 照片 给 你 一大堆 狗 的 照片 然后 你 去 问 猫 和 狗 其实 还是 画 一条线 所以 说白了 我们 不管 是 什么 人工智能 问题 都 可以 把 它 最后 化成 一个 数学 问题 而 这个 数学 问题 就是 寻找 参数 的 最优 值 那 我们 的 方法 就是 所谓 的 梯度 下降 算法 其实 利用 梯度 下降 算法 来 训练 这个 参数 非常 类似 于 人 的 学习 和 认知 过程 我们 之前 讲过 皮亚杰 的 这个 认知 发展 理论 所谓 的 同化 和 顺应 吃一堑长一智 这 就 和 机器 学习 的 过程 是 一模一样 的 是 吧 好 那么 我们 说完 了 这个 梯度 下降 之后 我们 再 来说 一个 在 人工智能 里面 经常 会 出现 的 一个 词 叫做 神经网络 神经网络 大家 有 可能 在 搜索 人工智能 的 时候 经常 会 蹦出来 这么 一张 图 一些 小圆圈 然后 怎么着 啊 每 两个 圆圈 每 两层 之间 都 有 连接 这种 其实 就是 一个 神经网络 图 神经网络 图 它 的 意思 就是 左边 叫做 输入 层 从 这个 输入 层 输入 了 一大堆 的 这个 自变量 比如说 x₁ x₂ ... 一直 到 xₙ 这 就是 输入 层 输入 的 输入 完 了 之后 经过 一大堆 处理 最后 到 右边 就是 输出 左边 是 输入 右边 是 输出 中间 我们 称之为 隐层 那么 这种 神经网络 实际上 它 是 来源于 人类 对于 大脑 的 认知 说 大脑 里边 有 几百亿 个 神经元 说 这些 神经元 怎么 组成 的 呢 说 研究 了 人 大脑 中 的 这些 神经元 发现 它们 组成 了 这个 结构 首先 左边 我们 称之为 有 树突 叫做 树突 它 用于 接收 上 一个 信号 然后 这个 信号 经过 中间 的 这个 神经元 叫做 轴突 经过 轴突 的 处理 之后 它会 有 选择地 向下 释放 而 向下 释放 的 这个 就 叫做 突触 说 人 的 大脑 里边 它 这个 神经元 长 的 就是 这个 样子 它 可以 从 上面 接收 很多很多 个 信号 接收 完 了 信号 之后 它会 进行 选择 也许 会 向下 一级 释放 信号 也许 不 向下 一级 进行 释放 信号 在 1943 年 美国 神经 科学家 麦卡 洛克 还有 皮茨 他们 两个 人 提出 了 一种 理论 这种 理论 是 说 呀 说 这个 每 一个 神经元 它 都 是 一个 什么 呢 都 是 一个多 输入 多 输入 然后 单 输出 就是 你 有 很多 个 输入 你 可以 从 很多 个 神经元 得到 一些 信号 得到 完 了 之后 经过 综合 处理 如果 你 认为 有 必要 你 就 会 向 下游 输出 信号 所以 叫 多 输入 单 输出 而且 这个 输出 的 信号 只有 两种 可能 要么 就是 0 要么 就是 1 和 计算机 非常 类似 对 不 对 所以 他们 就 提出 了 一种 模型 人工智能 模型 就 叫 M-P 模型 叫 麦卡 洛克 一 皮茨 模型 是 吧 这个 M-P 模型 就是说 每 一个 神经元 它 其实 都 是 有 很多 个 输入 端 最后 也 只有 一个 输出 端 你 看 我们 这个 神经元 这个 神经元 它 有 很多 个 输入 端 从 一个 两个 三个 输入 输入 完 了 之后 它 只有 一个 输出 虽然 我们 画 了 两条线 但 实际上 它 只有 一个 输出 它 是 把 这 一个 输出 给 了 两个 刺激 对 吧 你 看 它 接收 了 很多 个 输入 最后 只有 一个 输出 再 把 这 一个 输出 给 很多 个 刺激 这 就是 M-P 模型 如果 我们 再画 得 仔细 一点 M-P 模型 大概 可以 看成 这个 样子 有 一个 神经元 左侧 有 很多 个 输入 这 很多 个 输入 所 接收 到 的 信号 就是 一大堆 的 这个 x 比如 x₁ x₂ x₃ ... 每 一个 x 你 在 输入 的 时候 都 会 乘 一个 权重 w₁ w₂ w₃ ... 这 就是 我们 刚才 所说 的 这 一部分 对 不 对 最后 你 还 会加 一个 b 这个 加 一个 b 叫 阈值 所以 把 它 加 起来 然后 最后 我们 再 加 一个 b 加完 了 这个 数 之后 就 会 得到 一个 值 得到 了 这个 值 你 是否 会 选择 向 下游 输出 呢 此时 就 会 有 一个 函数 f 这个 函数 f 我们 称之为 激活 函数 就是 它会 进行 选择 我要 不要 把 这个 数 输出 刚才 说 了 输出 要么 就是 0 要么 就是 1 它 输出 要么 就是 0 要么 就是 1 这个 激活 函数 长 什么样 呢 有 很多很多 种 激活 函数 比如 比较 常用 的 激活 函数 叫 Sigmoid 的 函数 这个 函数 是 长 这个 样子 横坐标 纵坐标 这个 函数 叫 f(y)=1/(1+e⁻ʸ) 所以 它 就 长 的 是 这个 样子 如果 你 这个 y 要是 0 的话 那么 这个 值 正好 是 0.5 如果 y 值 非常 大 它 就 非常 的 接近 于 1 如果 这个 值 是 1 的话 它 就 会 选择 向 下游 输出 如果说 你 这个 值 非常 接近 于 0 算 出来 这个 激活 函数 非常 接近 于 0 它 就 会 不 向 下游 输出 如果 你算出 的 激活 函数 是 0.5 它 就 有 50% 的 可能 向 下游 输出 也 有 50% 的 可能 不向 下游 输出 去 所以 它 是 一个 未定 的 那 我们 生活 中 不 也 是 一样 吗 你 看到 一个 物体 你 可能 会 认为 它 是 个 猫 你 也 有 可能 会 认为 它 是 个 狗 你 再 多 看 一会 你 就 会 说 这个 我 有 99% 的 可能性 说 它 是 狗 但 实际上 实际上 它 可能 是 一个 玩偶 是不是 它 可能 既 不是 猫 也 不是 狗 是 一个 玩偶 所以 即便 是 人类 判断 它 也 是 有 一定 的 可能性 的 所以 它 就 存在 着 这样 的 一个 激活 函数 选择 向 下游 输出 或者 不向 下游 输出 把 这 一大堆 神经元 组合 起来 就是 我们 所 看到 的 这 张图 了 那么 这个 神经网络 是 如何 帮助 我们 做 一些 事 比如 识别 图像 的 呢 我们 也 举 一个 例子 比如说 我们 就要 识别 一个 图像 这个 图像 还是 像素 比较 低 的 它 是 一个 5×5 的 图像 这个 5×5 的 图像 一共 也 就 只有 五五 二十五个 格子 我 在 这 25 个 格子 里面 我 写 了 一个 字母 大家 能 看 出来 我 写 的 这个 涂黑 的 这个 地方 形成 了 一个 字母 是 什么 字母 吗 能 看 出来 吧 是 x 对 不 对 我们 大脑 就 能够 识别 它 是 x 现在 我 就 问 你 如果 用 计算机 去 识别 的话 你 怎么 能 看出 它 是 个 x 呢 实际上 在 我们 看来 这是 一幅 图 但是 计算机 看来 它 其实 就 一大堆 数 它 每 一个 格子 要么 黑 的 要么 白 的 比如说 黑 的 是 1 白 的 是 0 吧 所以 它 所 代表 的 就是 一共 x₁ x₂ ... 一直 到 x₂₅ 一共 有 25 个 输入 端 这 25 个 输入 端 代表 了 一大堆 数字 黑 的 就是 1 白 的 就是 0 就 1 0 ... 这么 一直 最后 一个 数是 1 对 不 对 你 相当于 是 把 这 一大堆 数字 输入 电脑 之中 了 输入 完 了 之后 我 就 想 问 你 这 一大堆 数字 代表 了 什么 字母 那 你 该 怎么 做 你 不 就 通过 这 一系列 的 训练 过程 找到 一大堆 的 参数 以 判断 它 是不是 一个 x 吗 有人 说 那 你 这里 边 只有 黑和白 两种 情况 万一 我 这 是 灰度 图 怎么办 你 灰度 图 的话 每个 数字 就 不是 0 和 1 了 就是 0 到 255 的 一个 灰度 值 你 说 我 是 彩色 的 怎么办 那 就是 R G B 三个 颜色 你 分别 代 进去 把 数据量 扩大 就行了 所以 从 本质 上 讲 不管 是 什么 图 我 最后 都 能 换成 一大堆 的 数字 我 就 可以 把 这 一大堆 数字 作为 输入 我 进入 神经元 里面 去 然后 进行 训练 训练 什么 训练 参数 w₁ w₂ ... 一直 到 b 最后 我 找到 一个 误差 最小 的 函数 这 就是 一个 成功 的 训练 从此 之后 我 利用 这 一大堆 参数 我 就 能 判断 这个 玩意 是不是 x 那么 如果 只想 判断 这幅 图 是 x 或者 不是 x 那 也许 一层 神经元 就够 了 但是 我们 在 现实生活 中说 阅读文章 要 理解 别人 的 语音 要 进行 图像识别 你 仅仅 用 一层 神经元 往往 是 达 不到 效果 的 于是 我们 就 设计 了 多层 神经元 那 意思 是 说 你 先 有 一个 输入 然后 输入 端的 连接 每 一个 第一个 隐层 的 神经元 然后 第一个 隐层 把 这些 数据 输出 来 之后 选择 向 下游 输出 输出 到 第二 隐层 第二 隐层 输出 的 结果 又 进入 到 第三 隐层 这 就是 所谓 的 多层 神经网络 每 两层 神经网络 之间 的 连接 都 会 有 大量 的 参数 那 我们 通过 一定 的 算法 能够 让 大量 的 参数 调节 到 最优 使得 最后 的 误差 函数 最小 这样 就是 一个 成功 的 训练 这样 我们 就 不光 能够 识别 说 这个 字母 到底 是 x 还 是不是 x 我 还 可以 看 这个 x 写得 好不好 就 可以 让 机器 像 人 一样 叫思国 思家思 社稷 赏花 赏月 赏 秋香 了 不过 全 连接 网络 最大 的 问题


机器 能 像 人 一样 思考 吗 ?人工智能 (一 )机器 学习 和 神经网络 (2) Can machines think like humans? Artificial Intelligence (I) Machine Learning and Neural Networks (2)

它 等于 原来 的 wₙ-η∂J/∂w 有 同学 在 数学 上 可能 会 遇到 一点 困难 反正 大概 的 意思 就是说 我 通过 这种 方式 我 可以 怎么样 我 可以 从 这个 数 我 找到 一个 更好 的 这个 w 我 作为 w₂ 对 吧 w₂ 之后 可能 还是 不够 怎么办 我们 继续 去求 在 w₂ 这个 地方 它 的 倾斜 程度 然后 我们 再 去 计算 一个 新 的 迭代 过程 于是 我们 就 又 往下跳 了 一步 就 w₃ 你 看 这 w₃ 就 已经 非常 完美 了 对 吧 当然 也 有 可能 我 这 一步 跳过 跳 到 右边 去 了 那么 它 还 会 继续 跳回来 就 通过 这样 的 式子 反复 进行 迭代 一步 一步 就 会 找到 这个 最低点 了 那 这个 方式 我们 就 称之为 梯度 下降 算法 那么 最终 的 情况 是 什么样 的 最终 就是 我们 通过 一次 又 一次 的 计算 我们 是 希望 找到 那个 最优化 的 w We hope to find the optimal w 也 就是 直到 这个 ∂J/∂w=0 约等于 0 不 可能 严格 是 等于 0 的 或者说 这个 wₙ₊₁ 它 已经 约等于 wₙ 了 这个 时候 我们 就 不再 需要 迭代 了 我们 就 找到 了 这个 最优 的 解 事实上 我 刚才 只 考虑 到 这个 参数 w 参数 还有 一个 叫 b 叫 截距 我们 在 进行 梯度 下降 算法 的 时候 实际上 是 w 和 b 同时 进行 优化 的 我们 是 在 一个三维 的 空间 中 寻找 一个 最低点 而 不是 像 我 这画 的 这个 样 在 一个 平面 上 寻找 最低点 那 刚才 我们 说 房价 只 取决于 面积 这 很 显然 不合理 的 对 吧 房价 可能 有 很多 的 影响 因素 比如说 你 是 在 哪个 城市 的 呀 你 距离 市中心 的 远近 你 小区 的 环境 好不好 对 吧 你 这个 楼层 怎么样 你 这个 朝向 很多很多 个 因素 那 我们 把 这 很多很多 个 因素 作为 输入 叫 x₁ x₂ ... 一直 到 xₙ 这样一来 你 就 会 发现 房价 有 可能 是 这样 一个 函数 叫做 w₁x₁+w₂x₂+...+wₙxₙ x₁ x₂ ... 一直 到 xₙ 都 是 它 的 输入 端 而 w₁ w₂ ... 一直 到 wₙ 都 是 参数 最后 我们 再 加上 一个 b 这个 就是 一个 更加 详细 的 分析 房价 的 一个 模型 我们 通过 一大堆 的 训练 找到 这个 w₁ w₂ ... wₙ 以及 b 这些 参数 的 最优 值 这个 最优 值 能够 让 损失 函数 最小 这 就是 一个 成功 的 训练 了 我们 找到 了 一个 房价 的 模型 这个 我们 称之为 回归 的 一个 分析 除此之外 还有 一个 分类 的 分析 你 比如说 我 给 你 一大堆 的 这个 肿瘤 的 CT 照片 哪 一个 是 良性 的 哪 一个 是 恶性 的 我 都 告诉 你 然后 让 你 给 我 一个 新 的 这个 肿瘤 照片 问 你 这 是 良性 还是 恶性 这种 就 叫 分类 分类 问题 的 本质 其实 也 是 画 一条线 把 良性 和 恶性 给 分开 对 吧 我 给 你 一大堆 猫 的 照片 给 你 一大堆 狗 的 照片 然后 你 去 问 猫 和 狗 其实 还是 画 一条线 所以 说白了 我们 不管 是 什么 人工智能 问题 都 可以 把 它 最后 化成 一个 数学 问题 而 这个 数学 问题 就是 寻找 参数 的 最优 值 那 我们 的 方法 就是 所谓 的 梯度 下降 算法 其实 利用 梯度 下降 算法 来 训练 这个 参数 非常 类似 于 人 的 学习 和 认知 过程 我们 之前 讲过 皮亚杰 的 这个 认知 发展 理论 所谓 的 同化 和 顺应 吃一堑长一智 这 就 和 机器 学习 的 过程 是 一模一样 的 是 吧 好 那么 我们 说完 了 这个 梯度 下降 之后 我们 再 来说 一个 在 人工智能 里面 经常 会 出现 的 一个 词 叫做 神经网络 神经网络 大家 有 可能 在 搜索 人工智能 的 时候 经常 会 蹦出来 这么 一张 图 一些 小圆圈 然后 怎么着 啊 每 两个 圆圈 每 两层 之间 都 有 连接 这种 其实 就是 一个 神经网络 图 神经网络 图 它 的 意思 就是 左边 叫做 输入 层 从 这个 输入 层 输入 了 一大堆 的 这个 自变量 A lot of this independent variable is input from this input layer 比如说 x₁ x₂ ... 一直 到 xₙ 这 就是 输入 层 输入 的 输入 完 了 之后 经过 一大堆 处理 最后 到 右边 就是 输出 左边 是 输入 右边 是 输出 中间 我们 称之为 隐层 那么 这种 神经网络 实际上 它 是 来源于 人类 对于 大脑 的 认知 说 大脑 里边 有 几百亿 个 神经元 说 这些 神经元 怎么 组成 的 呢 说 研究 了 人 大脑 中 的 这些 神经元 发现 它们 组成 了 这个 结构 首先 左边 我们 称之为 有 树突 叫做 树突 它 用于 接收 上 一个 信号 然后 这个 信号 经过 中间 的 这个 神经元 叫做 轴突 经过 轴突 的 处理 之后 它会 有 选择地 向下 释放 而 向下 释放 的 这个 就 叫做 突触 说 人 的 大脑 里边 它 这个 神经元 长 的 就是 这个 样子 它 可以 从 上面 接收 很多很多 个 信号 接收 完 了 信号 之后 它会 进行 选择 也许 会 向下 一级 释放 信号 也许 不 向下 一级 进行 释放 信号 在 1943 年 美国 神经 科学家 麦卡 洛克 还有 皮茨 他们 两个 人 提出 了 一种 理论 这种 理论 是 说 呀 说 这个 每 一个 神经元 它 都 是 一个 什么 呢 都 是 一个多 输入 多 输入 然后 单 输出 就是 你 有 很多 个 输入 你 可以 从 很多 个 神经元 得到 一些 信号 得到 完 了 之后 经过 综合 处理 如果 你 认为 有 必要 你 就 会 向 下游 输出 信号 所以 叫 多 输入 单 输出 而且 这个 输出 的 信号 只有 两种 可能 要么 就是 0 要么 就是 1 和 计算机 非常 类似 对 不 对 所以 他们 就 提出 了 一种 模型 人工智能 模型 就 叫 M-P 模型 叫 麦卡 洛克 一 皮茨 模型 是 吧 这个 M-P 模型 就是说 每 一个 神经元 它 其实 都 是 有 很多 个 输入 端 Each neuron actually has many inputs 最后 也 只有 一个 输出 端 你 看 我们 这个 神经元 这个 神经元 它 有 很多 个 输入 端 从 一个 两个 三个 输入 输入 完 了 之后 它 只有 一个 输出 虽然 我们 画 了 两条线 但 实际上 它 只有 一个 输出 它 是 把 这 一个 输出 给 了 两个 刺激 对 吧 你 看 它 接收 了 很多 个 输入 最后 只有 一个 输出 再 把 这 一个 输出 给 很多 个 刺激 这 就是 M-P 模型 如果 我们 再画 得 仔细 一点 M-P 模型 大概 可以 看成 这个 样子 有 一个 神经元 左侧 有 很多 个 输入 这 很多 个 输入 所 接收 到 的 信号 就是 一大堆 的 这个 x 比如 x₁ x₂ x₃ ... 每 一个 x 你 在 输入 的 时候 都 会 乘 一个 权重 w₁ w₂ w₃ ... 这 就是 我们 刚才 所说 的 这 一部分 对 不 对 最后 你 还 会加 一个 b 这个 加 一个 b 叫 阈值 所以 把 它 加 起来 然后 最后 我们 再 加 一个 b 加完 了 这个 数 之后 就 会 得到 一个 值 得到 了 这个 值 你 是否 会 选择 向 下游 输出 呢 此时 就 会 有 一个 函数 f 这个 函数 f 我们 称之为 激活 函数 就是 它会 进行 选择 我要 不要 把 这个 数 输出 刚才 说 了 输出 要么 就是 0 要么 就是 1 它 输出 要么 就是 0 要么 就是 1 这个 激活 函数 长 什么样 呢 有 很多很多 种 激活 函数 比如 比较 常用 的 激活 函数 叫 Sigmoid 的 函数 这个 函数 是 长 这个 样子 横坐标 纵坐标 这个 函数 叫 f(y)=1/(1+e⁻ʸ) 所以 它 就 长 的 是 这个 样子 如果 你 这个 y 要是 0 的话 那么 这个 值 正好 是 0.5 如果 y 值 非常 大 它 就 非常 的 接近 于 1 如果 这个 值 是 1 的话 它 就 会 选择 向 下游 输出 如果说 你 这个 值 非常 接近 于 0 算 出来 这个 激活 函数 非常 接近 于 0 它 就 会 不 向 下游 输出 如果 你算出 的 激活 函数 是 0.5 它 就 有 50% 的 可能 向 下游 输出 也 有 50% 的 可能 不向 下游 输出 去 所以 它 是 一个 未定 的 那 我们 生活 中 不 也 是 一样 吗 你 看到 一个 物体 你 可能 会 认为 它 是 个 猫 你 也 有 可能 会 认为 它 是 个 狗 你 再 多 看 一会 你 就 会 说 这个 我 有 99% 的 可能性 说 它 是 狗 但 实际上 实际上 它 可能 是 一个 玩偶 是不是 它 可能 既 不是 猫 也 不是 狗 是 一个 玩偶 所以 即便 是 人类 判断 它 也 是 有 一定 的 可能性 的 所以 它 就 存在 着 这样 的 一个 激活 函数 选择 向 下游 输出 或者 不向 下游 输出 把 这 一大堆 神经元 组合 起来 就是 我们 所 看到 的 这 张图 了 那么 这个 神经网络 是 如何 帮助 我们 做 一些 事 比如 识别 图像 的 呢 我们 也 举 一个 例子 比如说 我们 就要 识别 一个 图像 这个 图像 还是 像素 比较 低 的 This image is still relatively low in pixels 它 是 一个 5×5 的 图像 这个 5×5 的 图像 一共 也 就 只有 五五 二十五个 格子 我 在 这 25 个 格子 里面 我 写 了 一个 字母 大家 能 看 出来 我 写 的 这个 涂黑 的 这个 地方 形成 了 一个 字母 是 什么 字母 吗 能 看 出来 吧 是 x 对 不 对 我们 大脑 就 能够 识别 它 是 x 现在 我 就 问 你 如果 用 计算机 去 识别 的话 你 怎么 能 看出 它 是 个 x 呢 实际上 在 我们 看来 这是 一幅 图 但是 计算机 看来 它 其实 就 一大堆 数 它 每 一个 格子 要么 黑 的 要么 白 的 比如说 黑 的 是 1 白 的 是 0 吧 所以 它 所 代表 的 就是 一共 x₁ x₂ ... 一直 到 x₂₅ 一共 有 25 个 输入 端 这 25 个 输入 端 代表 了 一大堆 数字 黑 的 就是 1 白 的 就是 0 就 1 0 ... 这么 一直 最后 一个 数是 1 对 不 对 你 相当于 是 把 这 一大堆 数字 输入 电脑 之中 了 输入 完 了 之后 我 就 想 问 你 这 一大堆 数字 代表 了 什么 字母 那 你 该 怎么 做 你 不 就 通过 这 一系列 的 训练 过程 找到 一大堆 的 参数 以 判断 它 是不是 一个 x 吗 有人 说 那 你 这里 边 只有 黑和白 两种 情况 万一 我 这 是 灰度 图 怎么办 你 灰度 图 的话 每个 数字 就 不是 0 和 1 了 就是 0 到 255 的 一个 灰度 值 你 说 我 是 彩色 的 怎么办 那 就是 R G B 三个 颜色 你 分别 代 进去 把 数据量 扩大 就行了 所以 从 本质 上 讲 不管 是 什么 图 我 最后 都 能 换成 一大堆 的 数字 我 就 可以 把 这 一大堆 数字 作为 输入 我 进入 神经元 里面 去 然后 进行 训练 训练 什么 训练 参数 w₁ w₂ ... 一直 到 b 最后 我 找到 一个 误差 最小 的 函数 这 就是 一个 成功 的 训练 从此 之后 我 利用 这 一大堆 参数 我 就 能 判断 这个 玩意 是不是 x 那么 如果 只想 判断 这幅 图 是 x 或者 不是 x 那 也许 一层 神经元 就够 了 但是 我们 在 现实生活 中说 阅读文章 要 理解 别人 的 语音 要 进行 图像识别 你 仅仅 用 一层 神经元 往往 是 达 不到 效果 的 于是 我们 就 设计 了 多层 神经元 那 意思 是 说 你 先 有 一个 输入 然后 输入 端的 连接 每 一个 第一个 隐层 的 神经元 然后 第一个 隐层 把 这些 数据 输出 来 之后 选择 向 下游 输出 输出 到 第二 隐层 第二 隐层 输出 的 结果 又 进入 到 第三 隐层 这 就是 所谓 的 多层 神经网络 每 两层 神经网络 之间 的 连接 都 会 有 大量 的 参数 那 我们 通过 一定 的 算法 能够 让 大量 的 参数 调节 到 最优 使得 最后 的 误差 函数 最小 这样 就是 一个 成功 的 训练 这样 我们 就 不光 能够 识别 说 这个 字母 到底 是 x 还 是不是 x 我 还 可以 看 这个 x 写得 好不好 就 可以 让 机器 像 人 一样 叫思国 思家思 社稷 赏花 赏月 赏 秋香 了 It’s called Si Guo Si Jia Si She Ji, Appreciating Flowers, Moon, and Autumn Fragrance 不过 全 连接 网络 最大 的 问题