Начать изучать этот урок прямо сейчас

李永樂老師, 机器能像人一样思考吗？人工智能（一）机器学习和神经网络 (2)

机器能像人一样思考吗？人工智能（一）机器学习和神经网络 (2)

你先把這個數求出來

求完了之後

我們說你進行叠代

怎麽叠代呢

就是新的 w 就 wₙ₊₁

它等於原來的 wₙ-η∂J/∂w

有同學在數學上可能會遇到一點困難

反正大概的意思就是說

我通過這種方式我可以怎麽樣

我可以從這個數我找到一個更好的這個 w

我作為 w₂ 對吧

w₂ 之後可能還是不夠怎麽辦

我們繼續去求在 w₂ 這個地方它的傾斜程度

然後我們再去計算一個新的叠代過程

於是我們就又往下跳了一步就 w₃

你看這 w₃ 就已經非常完美了對吧

當然也有可能我這一步跳過跳到右邊去了

那麽它還會繼續跳回來

就通過這樣的式子反復進行叠代

一步一步就會找到這個最低點了

那這個方式我們就稱之為梯度下降算法

那麽最終的情況是什麽樣的

最終就是我們通過一次又一次的計算

我們是希望找到那個最優化的 w

也就是直到這個 ∂J/∂w=0

約等於 0 不可能嚴格是等於 0 的

或者說這個 wₙ₊₁ 它已經約等於 wₙ 了

這個時候我們就不再需要叠代了

我們就找到了這個最優的解

事實上我剛才只考慮到這個參數 w

參數還有一個叫 b 叫截距

我們在進行梯度下降算法的時候

實際上是 w 和 b 同時進行優化的

我們是在一個三維的空間中

尋找一個最低點

而不是像我這畫的這個樣

在一個平面上尋找最低點

那剛才我們說房價只取決於面積

這很顯然不合理的對吧

房價可能有很多的影響因素

比如說你是在哪個城市的呀

你距離市中心的遠近

你小區的環境好不好對吧

你這個樓層怎麽樣

你這個朝向很多很多個因素

那我們把這很多很多個因素

作為輸入叫 x₁ x₂ ... 一直到 xₙ

這樣一來你就會發現

房價有可能是這樣一個函數

叫做 w₁x₁+w₂x₂+...+wₙxₙ

x₁ x₂ ... 一直到 xₙ 都是它的輸入端

而 w₁ w₂ ... 一直到 wₙ 都是參數

最後我們再加上一個 b

這個就是一個更加詳細的分析房價的一個模型

我們通過一大堆的訓練找到

這個 w₁ w₂ ... wₙ 以及 b

這些參數的最優值

這個最優值能夠讓損失函數最小

這就是一個成功的訓練了

我們找到了一個房價的模型

這個我們稱之為回歸的一個分析

除此之外還有一個分類的分析

你比如說我給你一大堆的這個腫瘤的 CT 照片

哪一個是良性的哪一個是惡性的

我都告訴你

然後讓你給我一個新的這個腫瘤照片

問你這是良性還是惡性

這種就叫分類

分類問題的本質其實也是畫一條線

把良性和惡性給分開對吧

我給你一大堆貓的照片

給你一大堆狗的照片

然後你去問貓和狗其實還是畫一條線

所以說白了我們不管是什麽人工智能問題

都可以把它最後化成一個數學問題

而這個數學問題

就是尋找參數的最優值

那我們的方法就是所謂的梯度下降算法

其實利用梯度下降算法來訓練這個參數

非常類似於人的學習和認知過程

我們之前講過皮亞傑的這個認知發展理論

所謂的同化和順應吃一塹長一智

這就和機器學習的過程是一模一樣的是吧

好那麽我們說完了這個梯度下降之後

我們再來說一個

在人工智能裏面經常會出現的一個詞

叫做神經網絡

神經網絡

大家有可能在搜索人工智能的時候

經常會蹦出來這麽一張圖

一些小圓圈

然後怎麽著啊

每兩個圓圈每兩層之間都有連接

這種其實就是一個神經網絡圖

神經網絡圖

它的意思就是左邊叫做輸入層

從這個輸入層輸入了一大堆的這個自變量

比如說 x₁ x₂ ... 一直到 xₙ

這就是輸入層輸入的

輸入完了之後經過一大堆處理

最後到右邊就是輸出

左邊是輸入右邊是輸出

中間我們稱之為隱層

那麽這種神經網絡

實際上它是來源於人類對於大腦的認知

說大腦裏邊有幾百億個神經元

說這些神經元怎麽組成的呢

說研究了人大腦中的這些神經元

發現它們組成了這個結構

首先左邊我們稱之為有樹突

叫做樹突

它用於接收上一個信號

然後這個信號經過中間的這個神經元叫做軸突

經過軸突的處理之後

它會有選擇地向下釋放

而向下釋放的這個就叫做突觸

說人的大腦裏邊

它這個神經元長的就是這個樣子

它可以從上面接收很多很多個信號

接收完了信號之後它會進行選擇

也許會向下一級釋放信號

也許不向下一級進行釋放信號

在 1943 年美國神經科學家

麥卡洛克還有皮茨

他們兩個人提出了一種理論

這種理論是說呀

說這個每一個神經元它都是一個什麽呢

都是一個多輸入

多輸入然後單輸出

就是你有很多個輸入

你可以從很多個神經元得到一些信號

得到完了之後經過綜合處理

如果你認為有必要

你就會向下遊輸出信號

所以叫多輸入單輸出

而且這個輸出的信號只有兩種可能

要麽就是 0 要麽就是 1

和計算機非常類似對不對

所以他們就提出了一種模型

人工智能模型就叫 M-P 模型

叫麥卡洛克一皮茨模型是吧

這個 M-P 模型就是說

每一個神經元它其實都是有很多個輸入端

最後也只有一個輸出端

你看我們這個神經元

這個神經元它有很多個輸入端

從一個兩個三個輸入

輸入完了之後它只有一個輸出

雖然我們畫了兩條線

但實際上它只有一個輸出

它是把這一個輸出給了兩個刺激對吧

你看它接收了很多個輸入最後只有一個輸出

再把這一個輸出給很多個刺激

這就是 M-P 模型

如果我們再畫得仔細一點

M-P 模型大概可以看成這個樣子

有一個神經元

左側有很多個輸入

這很多個輸入所接收到的信號

就是一大堆的這個 x

比如 x₁ x₂ x₃ ...

每一個 x 你在輸入的時候都會乘一個權重

w₁ w₂ w₃ ...

這就是我們剛才所說的這一部分對不對

最後你還會加一個 b

這個加一個 b 叫閾值

所以把它加起來

然後最後我們再加一個 b

加完了這個數之後就會得到一個值

得到了這個值你是否會選擇向下遊輸出呢

此時就會有一個函數 f

這個函數 f 我們稱之為激活函數

就是它會進行選擇

我要不要把這個數輸出

剛才說了輸出要麽就是 0 要麽就是 1

它輸出要麽就是 0 要麽就是 1

這個激活函數長什麽樣呢

有很多很多種激活函數

比如比較常用的激活函數叫 Sigmoid 的函數

這個函數是長這個樣子

橫坐標縱坐標這個函數叫

f(y)=1/(1+e⁻ʸ)

所以它就長的是這個樣子

如果你這個 y 要是 0 的話

那麽這個值正好是 0.5

如果 y 值非常大它就非常的接近於 1

如果這個值是 1 的話它就會選擇向下遊輸出

如果說你這個值非常接近於 0

算出來這個激活函數非常接近於 0

它就會不向下遊輸出

如果你算出的激活函數是 0.5

它就有 50% 的可能向下遊輸出

也有 50% 的可能不向下遊輸出去

所以它是一個未定的

那我們生活中不也是一樣嗎

你看到一個物體你可能會認為它是個貓

你也有可能會認為它是個狗

你再多看一會你就會說

這個我有 99% 的可能性說它是狗

但實際上

實際上它可能是一個玩偶是不是

它可能既不是貓也不是狗是一個玩偶

所以即便是人類判斷

它也是有一定的可能性的

所以它就存在著這樣的一個激活函數

選擇向下遊輸出或者不向下遊輸出

把這一大堆神經元組合起來

就是我們所看到的這張圖了

那麽這個神經網絡是如何幫助我們做一些事

比如識別圖像的呢

我們也舉一個例子

比如說我們就要識別一個圖像

這個圖像還是像素比較低的

它是一個 5×5 的圖像

這個 5×5 的圖像

一共也就只有五五二十五個格子

我在這 25 個格子裏面我寫了一個字母

大家能看出來我寫的這個塗黑的這個地方

形成了一個字母是什麽字母嗎

能看出來吧

是 x 對不對

我們大腦就能夠識別它是 x

現在我就問你如果用計算機去識別的話

你怎麽能看出它是個 x 呢

實際上在我們看來這是一幅圖

但是計算機看來它其實就一大堆數

它每一個格子要麽黑的要麽白的

比如說黑的是 1 白的是 0 吧

所以它所代表的就是一共 x₁ x₂ ... 一直到 x₂₅

一共有 25 個輸入端

這 25 個輸入端代表了一大堆數字

黑的就是 1 白的就是 0

就 1 0 ... 這麽一直

最後一個數是 1 對不對

你相當於是把這一大堆數字輸入電腦之中了

輸入完了之後

我就想問你這一大堆數字代表了什麽字母

那你該怎麽做

你不就通過這一系列的訓練過程

找到一大堆的參數以判斷它是不是一個 x 嗎

有人說那你這裏邊只有黑和白兩種情況

萬一我這是灰度圖怎麽辦

你灰度圖的話每個數字就不是 0 和 1 了

就是 0 到 255 的一個灰度值

你說我是彩色的怎麽辦

那就是 R G B 三個顏色

你分別代進去把數據量擴大就行了

所以從本質上講

不管是什麽圖我最後都能換成一大堆的數字

我就可以把這一大堆數字作為輸入

我進入神經元裏面去

然後進行訓練訓練什麽訓練參數

w₁ w₂ ... 一直到 b

最後我找到一個誤差最小的函數

這就是一個成功的訓練

從此之後我利用這一大堆參數

我就能判斷這個玩意是不是 x

那麽如果只想判斷這幅圖是 x 或者不是 x

那也許一層神經元就夠了

但是我們在現實生活中說

閱讀文章要理解別人的語音要進行圖像識別

你僅僅用一層神經元往往是達不到效果的

於是我們就設計了多層神經元

那意思是說你先有一個輸入

然後輸入端的連接每一個第一個隱層的神經元

然後第一個隱層把這些數據輸出來之後

選擇向下遊輸出輸出到第二隱層

第二隱層輸出的結果又進入到第三隱層

這就是所謂的多層神經網絡

每兩層神經網絡之間的連接都會有大量的參數

那我們通過一定的算法

能夠讓大量的參數調節到最優

To hear audio for this text, and to learn the vocabulary sign up for a free LingQ account.

Откройте этот урок на LingQ

机器能像人一样思考吗？人工智能（一）机器学习和神经网络 (2)

你先把這個數求出來

求完了之後

我們說你進行叠代

怎麽叠代呢

就是新的 w 就 wₙ₊₁

它等於原來的 wₙ-η∂J/∂w

有同學在數學上可能會遇到一點困難

反正大概的意思就是說

我通過這種方式我可以怎麽樣

我可以從這個數我找到一個更好的這個 w

我作為 w₂ 對吧

w₂ 之後可能還是不夠怎麽辦

我們繼續去求在 w₂ 這個地方它的傾斜程度

然後我們再去計算一個新的叠代過程

於是我們就又往下跳了一步就 w₃

你看這 w₃ 就已經非常完美了對吧

當然也有可能我這一步跳過跳到右邊去了

那麽它還會繼續跳回來

就通過這樣的式子反復進行叠代

一步一步就會找到這個最低點了

那這個方式我們就稱之為梯度下降算法

那麽最終的情況是什麽樣的

最終就是我們通過一次又一次的計算

我們是希望找到那個最優化的 w

也就是直到這個 ∂J/∂w=0

約等於 0 不可能嚴格是等於 0 的

或者說這個 wₙ₊₁ 它已經約等於 wₙ 了

這個時候我們就不再需要叠代了

我們就找到了這個最優的解

事實上我剛才只考慮到這個參數 w

參數還有一個叫 b 叫截距

我們在進行梯度下降算法的時候

實際上是 w 和 b 同時進行優化的

我們是在一個三維的空間中

尋找一個最低點

而不是像我這畫的這個樣

在一個平面上尋找最低點

那剛才我們說房價只取決於面積

這很顯然不合理的對吧

房價可能有很多的影響因素

比如說你是在哪個城市的呀

你距離市中心的遠近

你小區的環境好不好對吧

你這個樓層怎麽樣

你這個朝向很多很多個因素

那我們把這很多很多個因素

作為輸入叫 x₁ x₂ ... 一直到 xₙ

這樣一來你就會發現

房價有可能是這樣一個函數

叫做 w₁x₁+w₂x₂+...+wₙxₙ

x₁ x₂ ... 一直到 xₙ 都是它的輸入端

而 w₁ w₂ ... 一直到 wₙ 都是參數

最後我們再加上一個 b

這個就是一個更加詳細的分析房價的一個模型

我們通過一大堆的訓練找到

這個 w₁ w₂ ... wₙ 以及 b

這些參數的最優值

這個最優值能夠讓損失函數最小

這就是一個成功的訓練了

我們找到了一個房價的模型

這個我們稱之為回歸的一個分析

除此之外還有一個分類的分析

你比如說我給你一大堆的這個腫瘤的 CT 照片

哪一個是良性的哪一個是惡性的

我都告訴你

然後讓你給我一個新的這個腫瘤照片

問你這是良性還是惡性

這種就叫分類

分類問題的本質其實也是畫一條線

把良性和惡性給分開對吧

我給你一大堆貓的照片

給你一大堆狗的照片

然後你去問貓和狗其實還是畫一條線

所以說白了我們不管是什麽人工智能問題

都可以把它最後化成一個數學問題

而這個數學問題

就是尋找參數的最優值

那我們的方法就是所謂的梯度下降算法

其實利用梯度下降算法來訓練這個參數

非常類似於人的學習和認知過程

我們之前講過皮亞傑的這個認知發展理論

所謂的同化和順應吃一塹長一智

這就和機器學習的過程是一模一樣的是吧

好那麽我們說完了這個梯度下降之後

我們再來說一個

在人工智能裏面經常會出現的一個詞

叫做神經網絡

神經網絡

大家有可能在搜索人工智能的時候

經常會蹦出來這麽一張圖

一些小圓圈

然後怎麽著啊

每兩個圓圈每兩層之間都有連接

這種其實就是一個神經網絡圖

神經網絡圖

它的意思就是左邊叫做輸入層

從這個輸入層輸入了一大堆的這個自變量

比如說 x₁ x₂ ... 一直到 xₙ

這就是輸入層輸入的

輸入完了之後經過一大堆處理

最後到右邊就是輸出

左邊是輸入右邊是輸出

中間我們稱之為隱層

那麽這種神經網絡

實際上它是來源於人類對於大腦的認知

說大腦裏邊有幾百億個神經元

說這些神經元怎麽組成的呢

說研究了人大腦中的這些神經元

發現它們組成了這個結構

首先左邊我們稱之為有樹突

叫做樹突

它用於接收上一個信號

然後這個信號經過中間的這個神經元叫做軸突

經過軸突的處理之後

它會有選擇地向下釋放

而向下釋放的這個就叫做突觸

說人的大腦裏邊

它這個神經元長的就是這個樣子

它可以從上面接收很多很多個信號

接收完了信號之後它會進行選擇

也許會向下一級釋放信號

也許不向下一級進行釋放信號

在 1943 年美國神經科學家

麥卡洛克還有皮茨

他們兩個人提出了一種理論

這種理論是說呀

說這個每一個神經元它都是一個什麽呢

都是一個多輸入

多輸入然後單輸出

就是你有很多個輸入

你可以從很多個神經元得到一些信號

得到完了之後經過綜合處理

如果你認為有必要

你就會向下遊輸出信號

所以叫多輸入單輸出

而且這個輸出的信號只有兩種可能

要麽就是 0 要麽就是 1

和計算機非常類似對不對

所以他們就提出了一種模型

人工智能模型就叫 M-P 模型

叫麥卡洛克一皮茨模型是吧

這個 M-P 模型就是說

每一個神經元它其實都是有很多個輸入端

最後也只有一個輸出端

你看我們這個神經元

這個神經元它有很多個輸入端

從一個兩個三個輸入

輸入完了之後它只有一個輸出

雖然我們畫了兩條線

但實際上它只有一個輸出

它是把這一個輸出給了兩個刺激對吧

你看它接收了很多個輸入最後只有一個輸出

再把這一個輸出給很多個刺激

這就是 M-P 模型

如果我們再畫得仔細一點

M-P 模型大概可以看成這個樣子

有一個神經元

左側有很多個輸入

這很多個輸入所接收到的信號

就是一大堆的這個 x

比如 x₁ x₂ x₃ ...

每一個 x 你在輸入的時候都會乘一個權重

w₁ w₂ w₃ ...

這就是我們剛才所說的這一部分對不對

最後你還會加一個 b

這個加一個 b 叫閾值

所以把它加起來

然後最後我們再加一個 b

加完了這個數之後就會得到一個值

得到了這個值你是否會選擇向下遊輸出呢

此時就會有一個函數 f

這個函數 f 我們稱之為激活函數

就是它會進行選擇

我要不要把這個數輸出

剛才說了輸出要麽就是 0 要麽就是 1

它輸出要麽就是 0 要麽就是 1

這個激活函數長什麽樣呢

有很多很多種激活函數

比如比較常用的激活函數叫 Sigmoid 的函數

這個函數是長這個樣子

橫坐標縱坐標這個函數叫

f(y)=1/(1+e⁻ʸ)

所以它就長的是這個樣子

如果你這個 y 要是 0 的話

那麽這個值正好是 0.5

如果 y 值非常大它就非常的接近於 1

如果這個值是 1 的話它就會選擇向下遊輸出

如果說你這個值非常接近於 0

算出來這個激活函數非常接近於 0

它就會不向下遊輸出

如果你算出的激活函數是 0.5

它就有 50% 的可能向下遊輸出

也有 50% 的可能不向下遊輸出去

所以它是一個未定的

那我們生活中不也是一樣嗎

你看到一個物體你可能會認為它是個貓

你也有可能會認為它是個狗

你再多看一會你就會說

這個我有 99% 的可能性說它是狗

但實際上

實際上它可能是一個玩偶是不是

它可能既不是貓也不是狗是一個玩偶

所以即便是人類判斷

它也是有一定的可能性的

所以它就存在著這樣的一個激活函數

選擇向下遊輸出或者不向下遊輸出

把這一大堆神經元組合起來

就是我們所看到的這張圖了

那麽這個神經網絡是如何幫助我們做一些事

比如識別圖像的呢

我們也舉一個例子

比如說我們就要識別一個圖像

這個圖像還是像素比較低的

它是一個 5×5 的圖像

這個 5×5 的圖像

一共也就只有五五二十五個格子

我在這 25 個格子裏面我寫了一個字母

大家能看出來我寫的這個塗黑的這個地方

形成了一個字母是什麽字母嗎

能看出來吧

是 x 對不對

我們大腦就能夠識別它是 x

現在我就問你如果用計算機去識別的話

你怎麽能看出它是個 x 呢

實際上在我們看來這是一幅圖

但是計算機看來它其實就一大堆數

它每一個格子要麽黑的要麽白的

比如說黑的是 1 白的是 0 吧

所以它所代表的就是一共 x₁ x₂ ... 一直到 x₂₅

一共有 25 個輸入端

這 25 個輸入端代表了一大堆數字

黑的就是 1 白的就是 0

就 1 0 ... 這麽一直

最後一個數是 1 對不對

你相當於是把這一大堆數字輸入電腦之中了

輸入完了之後

我就想問你這一大堆數字代表了什麽字母

那你該怎麽做

你不就通過這一系列的訓練過程

找到一大堆的參數以判斷它是不是一個 x 嗎

有人說那你這裏邊只有黑和白兩種情況

萬一我這是灰度圖怎麽辦

你灰度圖的話每個數字就不是 0 和 1 了

就是 0 到 255 的一個灰度值

你說我是彩色的怎麽辦

那就是 R G B 三個顏色

你分別代進去把數據量擴大就行了

所以從本質上講

不管是什麽圖我最後都能換成一大堆的數字

我就可以把這一大堆數字作為輸入

我進入神經元裏面去

然後進行訓練訓練什麽訓練參數

w₁ w₂ ... 一直到 b

最後我找到一個誤差最小的函數

這就是一個成功的訓練

從此之後我利用這一大堆參數

我就能判斷這個玩意是不是 x

那麽如果只想判斷這幅圖是 x 或者不是 x

那也許一層神經元就夠了

但是我們在現實生活中說

閱讀文章要理解別人的語音要進行圖像識別

你僅僅用一層神經元往往是達不到效果的

於是我們就設計了多層神經元

那意思是說你先有一個輸入

然後輸入端的連接每一個第一個隱層的神經元

然後第一個隱層把這些數據輸出來之後

選擇向下遊輸出輸出到第二隱層

第二隱層輸出的結果又進入到第三隱層

這就是所謂的多層神經網絡

每兩層神經網絡之間的連接都會有大量的參數

那我們通過一定的算法

能夠讓大量的參數調節到最優

李永樂老師, 机器能像人一样思考吗？人工智能（一）机器学习和神经网络 (2)

机器 能 像 人 一样 思考 吗 ？人工智能 （一 ）机器 学习 和 神经网络 (2)

机器 能 像 人 一样 思考 吗 ？人工智能 （一 ）机器 学习 和 神经网络 (2)

机器能像人一样思考吗？人工智能（一）机器学习和神经网络 (2)

机器能像人一样思考吗？人工智能（一）机器学习和神经网络 (2)