李永樂老師, 手机拍照为啥这么好看？都是AI算出来的！ (2)

手机拍照为啥这么好看？都是 AI算出来的！ (2)

這個過程其實沒有太大意義因為你只是把這個尺寸變大它就變模糊了對吧你得把細節補充上去讓這個 Y 跟 x 一樣才行怎麼做呢董超說你可以這樣你首先對它進行卷積操作大家還記得什麼叫卷積嗎我們在以前講人工智能的時候談到過這個事兒就這個圖在計算機看來它實際上是一個矩陣對吧它是 512x512 的一個矩陣這個矩陣上每一個像素點就是一個數字對吧對這個數字進行一大堆的加法和乘法運算我們稱之為卷積卷積有個卷積核叫 W₁ 對它進行卷積操作然後再加上一個偏置叫做 B₁ 進行了這些操作之後還要進行激活然後就得到了一個新的這樣的一個信息這個信息我們稱之為 F₁(Y) 這個 F₁(Y) 它就能夠提取出這張圖片的一些特征比如說什麼這個橫著的線條豎著的線條等等如果你把這個公式寫出來大概長這個樣子就是說 F₁(Y) 它等於 max 這是激活造成的 0 然後這個 W₁ 卷積 Y 然後再加上一個 B₁ 就這個公式比較復雜大家不理解也沒有關系反正意思就是你通過這樣的一個操作提取出了這個圖像的一些特征對吧好這是第一步圖像特征提取然後第二步就是我再利用一個卷積核和一個偏置我再做一次這個操作就變成了 F₂(Y) 這個操作跟第一個操作一樣相當於是深度學習的第二層網絡通過這種方法我可以進一步提取出我要的特征比如說一些輪廓等等如果具體寫出來這個 F₂(Y) 它等於取最大值 0 然後 W₂ 卷積 F₁(Y) 然後再加上 B₂ 這個看不懂也沒關系反正就是繼續提取特征第三步就是把它再變回一張圖把它再變回一張圖叫做 F(Y) 那在這過程中我們又需要第三個卷積核和第三個偏置同樣道理 F(Y) 它又等於 max 0 然後 W₃ 卷積 F₂(Y) 然後再加上一個 B₃ 是吧反正通過這三個步驟的操作我就把原來的這個比較低分辨率的圖變成了一個比較高分辨率的 512 的圖但是大家註意經過這麼一大堆操作這一張圖它不一定跟原來一樣除非 W₁ B₁ W₂ B₂ W₃ B₃ 這些個參數取得合適它才會一樣對不對於是下一個步驟幹什麼下一步我就把這兩個圖進行比較你把原來的這張圖和你後來猜出來的這個圖進行比較如果它們兩個是一模一樣的就說明這些個參數調得非常合適如果這兩個不一樣就得調整 W₁ B₁ W₂ B₂ 和 W₃ B₃ 讓這兩張圖比較接近是吧至於說具體怎麼比較還記得嗎我們在上次講人工智能的時候說過這事其實你就是算一個函數這個函數叫損失函數損失函數等於 (1/n)Σ[xᵢ-F(Yᵢ)]² 是吧這什麼亂七八糟的其實很簡單就意思是你用這個原圖 x 它的每一個像素點和我算出來的這個圖的每一個像素點做差把這個差值平方了取加和加和完了之後再除以這個圖片的個數因為你不是有很多張訓練圖片嗎然後讓這個損失函數怎麼著最小它如果不是最小呢你就通過這個 BP 算法去調整這些參數讓它最小這就訓練完成了對不對好訓練完成了之後你再給我一張低分辨率的圖我沒有上面這個沒有關系你給我一張低分辨率的圖相當於從這開始我就可以直接算出來一個高分辨率的圖然後我就認為這張高分辨率的圖應該最接近事實對不對這就是所謂的推理過程你給我一張低分辨率的我就可以變成一個高分辨率的超分辨率問題現在的手機能夠進行大範圍的變焦其實很大程度上是歸功於超分的因為你把鏡頭拉得非常遠了之後它這個有效的光信息會比較少抖動也好噪聲也好都會占得比例比較大所以你正是因為有這個超分辨率你可以修正這個噪聲和抖動你才讓圖片看起來非常清楚比如大家看這幾張圖這就是一個算法的廠商叫做慧鯉它實現的這個圖片的超分效果沒有超分的和超分的咱們比較一下效果還是非常的明顯對吧再比如我們有時候遠距離掃描二維碼如果要是沒有超分功能你很有可能會掃描失敗有同學在大學上課的時候坐在後排你想拍老師前面板書如果沒有超分的話可能板書也拍得不清楚而且現在隨著移動平臺 AI 算力的不斷提升許多的算法廠商也在不停地改進自己的超分算法可以支持規模更大處理能力更強的算法實時處理能力也變得更好典型處理時間是 300 到 400 毫秒用戶基本沒有感覺我們甚至都不知道點開相機的時候背後已經啟用了 AI 的超分算法而且許多廠商已經開始使用了 AI 視頻技術視頻超分也是其中一部分的基礎功能或者是 AR VR 等交互領域同時還得包含視頻和聲音的多路程處理這就對 AI 芯片的處理能力提出了更高的要求說完了超分咱們再來說說另外一個功能超級夜景在傳統拍攝夜景的時候其實面臨了很多的問題比如說因為在晚上的時候有效的光線不足所以這個噪聲就會非常的明顯因此我們經常會看到有很多的斑點如果你要是想讓進光量足一點就得長曝光而長曝光的時候抖動造成的模糊就會很明顯如果曝光時間不夠的話整個畫面就會非常昏暗而且如果這個場景中有燈的話你就會發現長曝光的時候這個燈就會過曝短曝光的時候那個暗的地方根本就看不清楚你很難把所有的地方都看清那麼這個問題在以前是怎麼解決的呢我們說一下傳統的解決方案就是這個專業的攝影師首先會用一個三腳架去固定這個相機對吧你不固定手拿著它就會晃固定了之後進行長時間的曝光比如說十幾秒的這種曝光長曝光同時還要同時拍攝一組短曝光的照片因為長曝光的時候那個特別亮的地方它就過曝是吧特別暗的地方能夠看清然後短曝光是亮的地方比較合適最後你還得進行後期處理就是把這些個圖片一張一張的全都導到 photoshop 裏邊去把那些特別亮的過曝的地方去掉把那些特別暗的地方也去掉然後把這多張照片合到一起變成一張照片整個這過程非常復雜是吧所以如果你要想搞出一張高質量的照片的話可能需要折騰好幾個小時可是現在一切都不一樣了在手機端 AI 的加持下手機攝像頭可以在第六代高通 AI 引擎的控製下自動的進行多次長短曝光並且進行如下的操作第一個就是在用人工智能的方法來進行什麼呢人工智能的方法來降噪首先我們把這個圖像上的噪聲可以進行去掉第二就是它可以自動的拍攝很多張的長曝光短曝光相結合的一些照片然後它還可以自動的拍攝很多組的長曝光短曝光的照片是吧那這個長曝光也遠遠沒有剛才傳統攝影師十幾秒那麼長一般就 2 到 3 秒把這些照片合到一塊是吧去掉那些過曝的部分特別暗的部分把它合到一起這就稱之為什麼稱之為高動態高動態在一張照片裏邊既能看到特別亮的部分也能夠看到比較暗的部分叫 HDR 是吧高動態整個過程兩三秒鐘就完事相比於傳統攝影可能需要幾個小時這個時間就大大的縮短了但是你怎麼知道哪些地方是噪點哪些地方是圖像哪些地方應該保留哪些地方應該去掉呢這就是要依靠人工智能的算法了下面我們再來聊一聊背景虛化剛才我們還演示了這個背景虛化的功能我們知道這個傳統的單反相機可以依靠大光圈來完成一個人像的背景虛化這樣一來看起來可以凸顯人像效果非常好那麼這個手機是如何實現背景虛化的呢這實際上是要區分前景和背景就是我們區分人站在前面以及他的背景然後對前景和背景進行不同的處理這樣就可以進行虛化了傳統的這個手機處理方法是利用雙目攝像頭手機上有好幾個攝像頭這個至少有兩個攝像頭就可以進行背景虛化了就好像人的兩只眼睛人的兩只眼睛看同一個物體的時候這個角度不太一樣所以咱們就能感受到誰在前誰在後了對不對這就是所謂的雙目攝像頭來判斷這個深度信息但是這種方法有兩個問題第一個問題就是如果這個距離特別遠的話遠距離的時候這種方法是行不通的咱們可以想象一下如果兩個人離我們都很遠的話你能判斷這兩個人誰在前誰在後嗎很困難的對不對第二個就是功率的問題開一個攝像頭電流就得幾百毫安你開兩個攝像頭功率就更大如果長時間開兩個攝像頭或者說你拍攝視頻想對視頻的背景進行虛化的話那這個功耗就非常高可能會造成手機的這個溫度超標手機溫度一旦超標了它就會自動降頻保護這個手機所以感覺就會很卡所以這個功率的問題也是雙目攝像頭這種方法的一個限製那麼為了解決這個問題這個極感科技等公司就設計了一種方法就是利用單目攝像頭再加上人工智能的方法去解決深度計算的問題來區分前景和背景那麼具體來講它的步驟是什麼呢它是這樣首先它先搭建用軟件搭建一個 3D 的場景搭建一個虛擬的 3D 場景這個虛擬的 3D 場景是不存在的是在計算機裏邊的搭建一個虛擬的 3D 的場景搭建好了之後我們再用計算機對這個虛擬的 3D 場景拍攝多角度的 2D 照片你在計算機裏邊完成這個過程拍攝 2D 的這個照片現在你就有了一大堆的素材了 3D 的場景是什麼樣的深度信息你知道 2D 的照片又是什麼樣的你把這些玩意把它統統送到什麼呢送到卷積神經網絡裏面去對這個卷積神經網絡進行計算你訓練好了之後你這個系統就具有了一種能力看一張 2D 的照片你就能區分這裏邊誰在前誰在後了而且通過這種方法你還可以實現人像和背景的一個精確分割可以把這個人的圖整個的摳出來同時還能對前景和背景做不同的處理比如說魔法幻天或者背景虛化

手机拍照为啥这么好看？都是 AI算出来的！ (2) mobile phone|taking photos|why|so|||||out| Why do cell phone photos look so good? It’s all calculated by AI! (2)

這個過程其實沒有太大意義 ||||||meaning 因為你只是把這個尺寸變大它就變模糊了對吧你得把細節補充上去讓這個 Y 跟 x 一樣才行怎麼做呢董超說你可以這樣你首先對它進行卷積操作大家還記得什麼叫卷積嗎我們在以前講人工智能的時候談到過這個事兒就這個圖在計算機看來它實際上是一個矩陣對吧它是 512x512 的一個矩陣這個矩陣上每一個像素點就是一個數字對吧對這個數字進行一大堆的加法和乘法運算我們稱之為卷積卷積有個卷積核叫 W₁ 對它進行卷積操作然後再加上一個偏置叫做 B₁ 進行了這些操作之後還要進行激活然後就得到了一個新的這樣的一個信息這個信息我們稱之為 F₁(Y) 這個 F₁(Y) 它就能夠提取出這張圖片的一些特征比如說什麼這個橫著的線條豎著的線條等等如果你把這個公式寫出來大概長這個樣子就是說 F₁(Y) 它等於 max 這是激活造成的 0 然後這個 W₁ 卷積 Y 然後再加上一個 B₁ 就這個公式比較復雜大家不理解也沒有關系反正意思就是你通過這樣的一個操作提取出了這個圖像的一些特征對吧好這是第一步圖像特征提取然後第二步就是我再利用一個卷積核和一個偏置我再做一次這個操作就變成了 F₂(Y) 這個操作跟第一個操作一樣相當於是深度學習的第二層網絡通過這種方法我可以進一步提取出我要的特征比如說一些輪廓等等如果具體寫出來這個 F₂(Y) 它等於取最大值 0 然後 W₂ 卷積 F₁(Y) 然後再加上 B₂ 這個看不懂也沒關系反正就是繼續提取特征第三步就是把它再變回一張圖把它再變回一張圖叫做 F(Y) 那在這過程中我們又需要第三個卷積核和第三個偏置同樣道理 F(Y) 它又等於 max 0 然後 W₃ 卷積 F₂(Y) 然後再加上一個 B₃ 是吧反正通過這三個步驟的操作我就把原來的這個比較低分辨率的圖變成了一個比較高分辨率的 512 的圖但是大家註意經過這麼一大堆操作這一張圖它不一定跟原來一樣除非 W₁ B₁ W₂ B₂ W₃ B₃ 這些個參數取得合適它才會一樣對不對於是下一個步驟幹什麼下一步我就把這兩個圖進行比較你把原來的這張圖和你後來猜出來的這個圖進行比較如果它們兩個是一模一樣的就說明這些個參數調得非常合適如果這兩個不一樣就得調整 W₁ B₁ W₂ B₂ 和 W₃ B₃ 讓這兩張圖比較接近是吧至於說具體怎麼比較還記得嗎我們在上次講人工智能的時候說過這事其實你就是算一個函數這個函數叫損失函數損失函數等於 (1/n)Σ[xᵢ-F(Yᵢ)]² 是吧這什麼亂七八糟的其實很簡單就意思是你用這個原圖 x 它的每一個像素點和我算出來的這個圖的每一個像素點做差把這個差值平方了取加和 ||Difference|||| 加和完了之後再除以這個圖片的個數因為你不是有很多張訓練圖片嗎然後讓這個損失函數怎麼著最小它如果不是最小呢你就通過這個 BP 算法去調整這些參數讓它最小這就訓練完成了對不對好訓練完成了之後你再給我一張低分辨率的圖我沒有上面這個沒有關系你給我一張低分辨率的圖相當於從這開始我就可以直接算出來一個高分辨率的圖然後我就認為這張高分辨率的圖應該最接近事實對不對這就是所謂的推理過程你給我一張低分辨率的我就可以變成一個高分辨率的超分辨率問題現在的手機能夠進行大範圍的變焦其實很大程度上是歸功於超分的因為你把鏡頭拉得非常遠了之後它這個有效的光信息會比較少抖動也好噪聲也好都會占得比例比較大所以你正是因為有這個超分辨率你可以修正這個噪聲和抖動你才讓圖片看起來非常清楚比如大家看這幾張圖這就是一個算法的廠商叫做慧鯉它實現的這個圖片的超分效果沒有超分的和超分的咱們比較一下效果還是非常的明顯對吧再比如我們有時候遠距離掃描二維碼如果要是沒有超分功能你很有可能會掃描失敗有同學在大學上課的時候坐在後排你想拍老師前面板書如果沒有超分的話可能板書也拍得不清楚而且現在隨著移動平臺 AI 算力的不斷提升許多的算法廠商也在不停地改進自己的超分算法可以支持規模更大處理能力更強的算法實時處理能力也變得更好典型處理時間是 300 到 400 毫秒用戶基本沒有感覺我們甚至都不知道點開相機的時候背後已經啟用了 AI 的超分算法而且許多廠商已經開始使用了 AI 視頻技術視頻超分也是其中一部分的基礎功能或者是 AR VR 等交互領域同時還得包含視頻和聲音的多路程處理這就對 AI 芯片的處理能力提出了更高的要求說完了超分咱們再來說說另外一個功能超級夜景在傳統拍攝夜景的時候其實面臨了很多的問題比如說因為在晚上的時候有效的光線不足所以這個噪聲就會非常的明顯因此我們經常會看到有很多的斑點如果你要是想讓進光量足一點就得長曝光而長曝光的時候抖動造成的模糊就會很明顯如果曝光時間不夠的話整個畫面就會非常昏暗而且如果這個場景中有燈的話你就會發現長曝光的時候這個燈就會過曝短曝光的時候那個暗的地方根本就看不清楚你很難把所有的地方都看清那麼這個問題在以前是怎麼解決的呢我們說一下傳統的解決方案就是這個專業的攝影師首先會用一個三腳架去固定這個相機對吧你不固定手拿著它就會晃固定了之後進行長時間的曝光比如說十幾秒的這種曝光長曝光同時還要同時拍攝一組短曝光的照片因為長曝光的時候那個特別亮的地方它就過曝是吧特別暗的地方能夠看清然後短曝光是亮的地方比較合適最後你還得進行後期處理就是把這些個圖片一張一張的全都導到 photoshop 裏邊去把那些特別亮的過曝的地方去掉把那些特別暗的地方也去掉然後把這多張照片合到一起變成一張照片整個這過程非常復雜是吧所以如果你要想搞出一張高質量的照片的話可能需要折騰好幾個小時可是現在一切都不一樣了在手機端 AI 的加持下手機攝像頭可以在第六代高通 AI 引擎的控製下自動的進行多次長短曝光並且進行如下的操作第一個就是在用人工智能的方法來進行什麼呢人工智能的方法來降噪首先我們把這個圖像上的噪聲可以進行去掉第二就是它可以自動的拍攝很多張的長曝光短曝光相結合的一些照片然後它還可以自動的拍攝很多組的長曝光短曝光的照片是吧那這個長曝光也遠遠沒有剛才傳統攝影師十幾秒那麼長一般就 2 到 3 秒把這些照片合到一塊是吧去掉那些過曝的部分特別暗的部分把它合到一起這就稱之為什麼稱之為高動態高動態在一張照片裏邊既能看到特別亮的部分也能夠看到比較暗的部分叫 HDR 是吧高動態整個過程兩三秒鐘就完事相比於傳統攝影可能需要幾個小時這個時間就大大的縮短了但是你怎麼知道哪些地方是噪點哪些地方是圖像哪些地方應該保留哪些地方應該去掉呢這就是要依靠人工智能的算法了下面我們再來聊一聊背景虛化剛才我們還演示了這個背景虛化的功能我們知道這個傳統的單反相機可以依靠大光圈來完成一個人像的背景虛化這樣一來看起來可以凸顯人像效果非常好那麼這個手機是如何實現背景虛化的呢這實際上是要區分前景和背景就是我們區分人站在前面以及他的背景然後對前景和背景進行不同的處理這樣就可以進行虛化了傳統的這個手機處理方法是利用雙目攝像頭手機上有好幾個攝像頭這個至少有兩個攝像頭就可以進行背景虛化了就好像人的兩只眼睛人的兩只眼睛看同一個物體的時候這個角度不太一樣所以咱們就能感受到誰在前誰在後了對不對這就是所謂的雙目攝像頭來判斷這個深度信息但是這種方法有兩個問題第一個問題就是如果這個距離特別遠的話遠距離的時候這種方法是行不通的咱們可以想象一下如果兩個人離我們都很遠的話你能判斷這兩個人誰在前誰在後嗎很困難的對不對第二個就是功率的問題開一個攝像頭電流就得幾百毫安 ||||milliampere (mA) 你開兩個攝像頭功率就更大如果長時間開兩個攝像頭或者說你拍攝視頻想對視頻的背景進行虛化的話那這個功耗就非常高可能會造成手機的這個溫度超標手機溫度一旦超標了它就會自動降頻保護這個手機所以感覺就會很卡所以這個功率的問題也是雙目攝像頭這種方法的一個限製那麼為了解決這個問題這個極感科技等公司就設計了一種方法就是利用單目攝像頭再加上人工智能的方法去解決深度計算的問題來區分前景和背景那麼具體來講它的步驟是什麼呢它是這樣首先它先搭建用軟件搭建一個 3D 的場景搭建一個虛擬的 3D 場景這個虛擬的 3D 場景是不存在的是在計算機裏邊的搭建一個虛擬的 3D 的場景搭建好了之後我們再用計算機對這個虛擬的 3D 場景拍攝多角度的 2D 照片你在計算機裏邊完成這個過程拍攝 2D 的這個照片現在你就有了一大堆的素材了 |||||||material| 3D 的場景是什麼樣的深度信息你知道 2D 的照片又是什麼樣的你把這些玩意把它統統送到什麼呢送到卷積神經網絡裏面去對這個卷積神經網絡進行計算你訓練好了之後你這個系統就具有了一種能力看一張 2D 的照片你就能區分這裏邊誰在前誰在後了 |||||who is where||||| 而且通過這種方法你還可以實現人像和背景的一個精確分割可以把這個人的圖整個的摳出來同時還能對前景和背景做不同的處理比如說魔法幻天或者背景虛化 |Magic|Illusory Sky|||

李永樂老師, 手机拍照为啥这么好看？都是AI算出来的！ (2)

手机 拍照 为啥 这么 好看 ？都 是 AI算 出来 的！ (2)

手机 拍照 为啥 这么 好看 ？都 是 AI算 出来 的！ (2) mobile phone|taking photos|why|so|||||out| Why do cell phone photos look so good? It’s all calculated by AI! (2)

手机拍照为啥这么好看？都是 AI算出来的！ (2)

手机拍照为啥这么好看？都是 AI算出来的！ (2) mobile phone|taking photos|why|so|||||out| Why do cell phone photos look so good? It’s all calculated by AI! (2)