人脸识别 啥 原理 ?人工智能 (二 )卷积 神经网络 (1)
各位 同學 大家 好 我 是 李永樂 老師
在 上 一回 咱們 介紹 了
人工智能 的 基本概念 和 算法
為 大家 介紹 了 梯度 下降 算法
機器 學習 和 神經網絡 的 基本概念
有個 小朋友 就 跟 我 說
他 下載 了 一個 人工智能 軟件
可以 通過 拍照 的 方法 來 識別 物體
我還 特意 試 了 一下 這個 軟件
發現 這個 軟件 不光 能夠 識別 出 我們 家 的 狗
還能 認出 狗 的 類型
威爾士 柯基
大家 知道 計算機 是 如何 進行 圖像識別 的 嗎
那 今天 我們 就 來 介紹 一下
在 圖像識別 裏面 最 流行 的 一種 算法
卷積 神經網絡
為 了 介紹 卷積 神經網絡
我們 首先 先來 介紹 一下 視覺 的 原理
人 和 動物 如何 能夠 把 看到 的 圖像
轉化成 他 大腦 中 的 一個 概念
比如 這個 是貓 那個 是 狗 的 呢
我們 知道 計算機 實際上 是 把 一幅 圖
轉化成 一大堆 的 數字 對 吧
然後 通過 訓練 就 可以 知道
這些 數字 代表 一個 什 麽 樣 的 含義
但是 如果 我們 用上 節課 所說 的 這種 方法
來 進行 訓練 費時費力
而且 一旦 這個 圖片 發生 了 一點 放縮 旋轉
或者 是 一些 變化
那 麽 這個 計算機 就 認不出來 了
但是 我們 的 眼睛 效率 就 特別 高
如果 我 看過 一次 汽車 和 摩托車 之後
我 就 能 立刻 把 它們 的 區別 分辨 出來
下次 再 看到 這個 摩托車 的 時候
哪怕 這個 摩托車 方向 變 了
位置 變 了 或者 是 它 破損 了
我們 依然 能 認出來 它 是 一輛 摩托車
而 不是 一個 汽車
這是 為 什 麽 呢
在 1981 年 的 時候
1981 年 的 時候
諾貝爾 生理學 和 醫學獎 授予 給 兩位 神經 科學家
他們 的 名字 一個 叫做 大衛 · 休伯爾
還有 一個 是 他 的 合作者 叫做 威澤爾
那 麽 這 兩位 科學家 他們 用貓 做 實驗 貓
把 這個 電極 插入 到貓 的 腦子 當中 去
然後 給貓 看 各種各樣 不同 的 圖片
去 研究 貓 腦子 的 反應
結果 他 就 發現
這個 跟 視覺 相關 的 這個 大腦 中 的 一些 細胞
分為 兩種
第一種 叫做 簡單 的 細胞
這種 簡單 的 視覺 神經細胞
它 的 特點 是 對 某 一些 線條 是 比較 敏感 的
某個 方向 的 線條 出現 了 之後
這些 細胞 就 會 比較 敏感 就 能 看 出來
還有 一些 是 比較 復 雜的 細胞
這些 復 雜的 細胞 不光 能夠 對 線條 產生 反應
它還 能夠 對 線條 的 運動 產生 反應 對 吧
於是 他們 提出 了 這樣 的 一個 理論
去 解釋 人 的 眼睛 是 如何 看到 物體 的
那 麽 後來 在 他們 的啟 發下
有 一個 日本 的 科學家
名字 叫做 福島 邦彥
他 就 提出 了 一個 模型
叫做 神經 認知 模型
就是說 這個 人 他 是 如何 看 出來
這個 物體 是貓 還是 狗 的 呢
他 說 人 大腦 裏面 有 很多 的 皮層
是 一層 一層 對 這個 視覺 信號 進行 處理 的
你 這個 光 從 眼睛 裏面 進去 之後
你 先進 到 第一個 皮層
然後 又 進到 第二個 皮層
然後 又 進到 第三個 皮層
然後 一直 往下進
那 麽 可能 有 五六個 皮層
每 一個 皮層
它 對於 這個 信號 的 處理方式 是 不 一樣 的
最 開始 剛進 到 眼睛 的 視網膜 裏面 的 時候
實際上 我們 看到 的 光線 是 一大堆 的 像素點
一大堆 的 像素點 是 吧
然後 在 第一個 皮層 之中
這些 像素點 抽象 出 一些 特征
比如說 邊緣 是 吧
這個 邊緣 它 是 具有 方向性 的 是 吧
你 是 橫著 的 邊緣 呢 還是 豎著 的 邊緣 呢
還是 斜著 的 邊緣 呢
在 某 一個 皮層 中 我們 就 抽象 出 這些 特征 了
好 找 完 了 這個 特征 之後
繼續 下 一個 皮層 就 會 把 這些 特征 組合 起來
形成 什 麽 呢
形成 這個 物體 的 輪廓 輪廓
以及 這個 物體 的 更 多 的 細節 是 吧
大體 來講 是 輪廓 裏邊 是 細節
然後 最後 我們 再 把 這些 個 輪廓 和 細節
組合成 一個 整體
最終 才 會 做出 一個 判斷 是 吧
這 過程 是 比較 復 雜的
所以 它 是 有 一層 一層 的 這樣 的 關系
去 認識 到 這個 物體 的
比如說 你 現在 看到 我
你 說 我 是 李永樂 老師
但是 你 開始 看到 的 時候 並 不是 我 李永樂 老師
你 看到 的 是 一大堆 像素點
這些 個 像素點 進到 你 的 腦子 裏面 之後
它 首先 會 抽象 出 邊緣 和 方向 信息
你 發現 我 好像 直立 行走 的 對 不 對
然後 進而 你 又 發現 了 更 多 的 輪廓 和 細節
你 發現 我 好像 有 兩個 胳膊 兩個 腿 是 吧
兩個 眼睛 一個 鼻子 一個 嘴 是不是
然後 你 覺得 這 應該 不是 個 昆蟲
你 繼續 去 看
然後 你 才 會 抽象 出來
原來 這個 人 他 是 李永樂 老師 對 吧
這 就是 人 的 眼睛 是 如何 看出 物體 的
那 麽 根據 這個 原理
我們 上節 課 談到 的 著名 的 科學家 楊立昆
他 就 發明 出來 了 一種
能夠 實用 的 圖像識別 的 方法
稱之為 卷積 神經網絡
那 這種 方法 簡寫 叫 CNN
好像 還有 一個 機構 簡寫 也 是 CNN 是 吧
好 那 麽 這個 卷積 神經網絡 到底 是 怎 麽 回事 呢
下面 我 就 來 介紹 一下
這裏 面 會 涉及 到 比較 多 的 數學 內容
我們 首先 來說 一說 卷積
什 麽 是 卷積 呢
在 通信 裏面 經常 會談 到 卷積
那 麽 這裏 我們 說 的 卷積
跟 那個 通訊 的 卷積 形式 上 有點 不 一樣
那 卷積 是 什 麽 意思 呢
我們 舉 個例 子
比如說 我們 有 一幅 圖片
我 想 判斷 一下 這幅 圖片 是不是 X
我們 知道 這個 X 有 很 多種 寫法
但是 不管 是 哪 一種 寫法
它 都 有 一些 共同 的 特征
比如說 它 中間 有 一個 這樣 的 叉 對 不 對
它 有 一個 往右 下 的 線
還有 一個 往 左下 的 線 對 不 對
越 符合 這些 特征
那 麽 這幅 圖 就 越 有 可能 是 X 對 不 對
所以 卷積 的 作用 就是
我們 希望 用 一種 數學 的 方法
然後 怎 麽 樣 呢
能夠 提取 出
提取 出 這個 圖像 中 的 這些 特征
你 這個 圖像 需要 一些 特征
那 麽 這些 特征 我 通過 卷積 的 方法 提取 出來
我們 來舉 一個 具體 的 例子
大家 看 我 給出 了 一幅 7×7 的 圖片
我 想 讓 計算機 告訴 我
這個 7×7 圖片 到底 是不是 X
怎 麽 判斷 呢
首先 計算機 會 把 它 轉化成 數字
就是 所有 的 這個 亮 的 地方 設為 1
比如說 這個 地方 是 1 1 1 1 1 對 吧
這亮 的 地方 就是 1
因為 它 是 純 黑白 的
那 麽 所有 黑 的 地方 就是 0 了
於是 我們 把 其它 地方 補上 0
所以 這幅 圖片 在 計算機 看來
就是 這 麽 一大堆 數字
那 麽 這 一堆 數字 計算機 要認
說 它 到底 是 X 呢 還 是不是 X
它 怎 麽 去 做 呢
首先 要 提取 特征 提取 特征 的 方法
就是 使用 一個 叫做 卷積 核 的 東西
來 做 卷積 運算
卷積 核 也 是 一個 矩陣 一個 方塊
這個 方塊 一般 是 3×3 或者 5×5 的
比如說 我們 這裏 有 一個 卷積 核
這個 卷積 核它 是 3×3 的
並且 裏面 的 數字 是 這樣 的
這 三個 數字 它 是 1 其他 的 數字 它 是 0
好 這 就是 我們 的 一個 卷積 核 了
這個 卷積 核
我們 和 左邊 的 這個 圖像 做 卷積 運算
什 麽 叫 卷積 運算 呢
它 的 意思 就是 把 這個 卷積 核
放到 圖片 上 某 一個 3×3 的 部位
讓 它們 對應 元素 相乘
比如說 你 先 把 它 放到 左邊 的 這個 部位
然後 蓋住 了
蓋住 了 之後 它 不是 有 對應 元素 嗎
然後 對應 元素 乘起來
就 1×0+0×0+0×0+0×0+...
這 麽 一直 加 加完 了 之後
再 把 它 寫到 中間 這個 位置 我 再說 一遍
就是 把 這個 卷積 核 放到 它 這個 部位
對應 元素 相乘 乘 完 了 之後 相加
再 放到 正 中央 這個 部位
於是 就 會 構成 一張 新 的 圖
這張 新 的 圖 就 叫做 特征 圖
特征 圖 的 第一個 元素
就是 把 這個 卷積 核 和 這 一塊 元素
對應 相乘 再 相加
我們 仔細 看 就 會 發現
這個 卷積 核 只有 這 麽 斜著 的 三個 元素 是 1
其他 全都 是 0
所以 我 只要 把 這裏 邊的 這三 個數 加 起來
是不是 就 應該 是 第一個 結果 了 對 不 對
我們 把 它 算 出來
這個 是 0 這個 是 1 這個 是 1
一加 結果 應該 是 2 對 不 對
特征 圖 第一個 元素 就是 2
那 特征 圖 第二個 元素 我們 該 怎 麽 找 呢
很 簡單
你 只 需要 把 這個 卷積 核 往右邊 平移 一下
找到 這樣 的 一個 方塊 是不是
找到 這樣 一個 方塊
你 把 這個 卷積 核 和 這個 方塊 一 疊加
然後 對應 元素 相乘 再 相加 這叫 卷積
事實上 也 就是 把 第二個 方塊 的
這 三個 元素 加 起來
因為 只有 這三 個數 是 1 其他 都 是 0
那 把 它們 三個 一 相加 結果 是 幾
結果 是 0
這 就是 特征 圖 的 第二個 元素
你 按照 這種 方法 把 所有 的 元素 都 寫 出來
我 把 它 寫 完
這樣 我們 就 得到 了 所謂 的 特征 圖
好 那 咱們 來 解釋一下
你 說 你 幹 了 這件 事 之後 到底 得到 了 什 麽 呢
我們 仔細 看 就 會 知道
這個 卷積 核 只有 斜著 的 這 3 個 元素 是 1
所以 如果 原來 那 張圖 上
也 是 斜著 這 3 個 元素 是 1 的話
最後 它們 一做 卷積 這個 數字 就 會 特別 大
也就是說 我們 提取 到 了 這個 特征
你 在 這張 圖上 找 一 找 說 哪個 數字 特別 大
這個 數字 特別 大
就 說明 在 這個 部位
特別 滿足 這種 斜著 的 線條 的 特征 對 嗎
這個 數字 是 3 也 特別 大
這就 說明 在 這個 部位
也 有 一個 斜著 右下 的 線條 這個 數字 也 是 3
就 說明 這個 部位 也 有 一個 斜 的 線條
那 麽 2 和 2 這 兩個 部位
就 說明 它 的 特征性 稍 微弱 一點
事實上 你 會 發現 左上 和 右 下 這 兩個 角
它 雖然 也 有 一個 右下 的 1 和 1
但 它 缺 了 一個角 對 不 對 缺 了 一個角
其它 地方 還有 數字 小 的
比如 0 和 1 就 說明 這樣 的 部位
它 沒有 斜 向 右 下 的 線條
所以 我們 這 一個 卷積 核
其實 就是 對應 了 一個 特征
這個 特征 就是 一個 斜 向 右 下 的 線條
而 在 這個 特征 圖中 那個 數字 比較 大 的 部位
就 說明 這些 個 部位 它 就 滿足 這個 特征
其它 的 部位 數字 越小 它 就 越 不 滿足 特征
這不 就是 用 數學方法 提取 圖像 特征 嗎
當然 你 剛才 說 的 這個 卷積 核
它 是 右 下 的 3 個數 字 是 1
所以 就 提取 出來 一個
往 右下方 斜 的 一個 線段 這個 特征
那 麽 如果 你 想 提 出來 一個
比如說 往 左下 斜 的 線段 的 特征
你 應該 找什 麽 樣 的 卷積 核 呢
那 應該 是 這 3 個 元素 是 1
其他 是 0 對 不 對
你 說 我 想要 一個 豎著 的 線段 那 怎 麽 辦
那 就是 這 3 個 元素 是 1 其他 是 0
你 說 我 想要 一個 這樣 的 圈 怎 麽 辦
那 就是 這 幾個 數字 是 1 其他 是 0
總而言之 通過 不同 的 卷積 核
我們 就 能夠 對 圖像 進行 不同 的 處理
得到 不同 的 特征 圖 顯示 出來 這種 特征
它 分布 在 圖像 的 什 麽 樣 的 位置
卷積 之後 下 一個 步驟 就是 池化 池化
還有 就是 激活
我們 來 介紹 一下 這 兩個 步驟
什 麽 叫 池化 呢
這張 特征 圖元 素 個數 還是 比較 多 的
你 比如 左上角
左上角 到底 有沒有 一個
往 右下方 的 線條 這個 特征