小麥的 AI 學習之路: AI 入門：22.影像辨識 - 卷積神經網路（CNN）（人工智慧 28 堂基礎課程）

視力 (Sight) 和視覺 (Vision) 都很重要，這二者讓我們人類能夠與周圍的環境相互聯繫，保持安全並確保思維的清晰。儘管這兩者常常被混為一談，但它們實際上是完全不同的實體：視力 (Sight) 是一種感官體驗，眼睛聚焦在形狀和物體上反射的光線，並創造出信號傳送到大腦；視覺 (Vision) 則是大腦對這些信號進行解釋的過程。視力 (Sight) 可以讓人類目睹一個事件，但視覺 (Vision) 則協助人類理解這個事件的重要性並做出相對應的解讀。

與人類不同，電腦將靜止的照片、影像、圖形、圖畫或網路直播串流影像中的圖像“視為”一個由數值組成的陣列 (Array)。因此，影像識別 (Image Recognition) 是一個經常用來描述電腦技術的專業術語。透過尋找數值型態 (Numerical patterns) 來識別關鍵特徵，影像識別技術可在數位影像中辨識出物體或特定的圖案。這個術語與“電腦視覺 (Computer Vision)”和“影像處理 (Image Processing)”有直接關聯。前者是訓練電腦像人類一樣擁有“看”的能力，後者則是描述電腦對影像資料進行各種密集工作處理的總稱。

影像識別可以採用多種技術，但實務上最受歡迎的方法是使用卷積神經網路 (Convolutional Neural Network, CNN)，這個神經網路技術可以透過一系列人工神經元層 (Artificial Neuron Layers) 對影像資料進行篩選。作為一種深度學習演算法，CNN 能夠接收圖像資料並從多個角度賦予圖像不同的權重和偏差，進而對圖像進行區分。

CNN 的結構類似於人類大腦中神經元的連接模式，其靈感來自於大腦中處理視覺資訊的單元—視覺皮層組織 (Visual Cortex)。假設您看到一張以前從未見過的汽車照片，您可以透過觀察圖片中的物件（通常是組成一輛汽車的零部件）來辨認出它是一輛汽車，例如：擋風玻璃、車門、車前燈、車尾燈和車輪。透過識別每個小物件並將它們組合在一起，即使您以前從未學習如何將汽車零件組合成一輛汽車，您仍然可以知道出這是一張汽車的圖片。

CNN 的原理就像上述識別汽車照片的例子一樣，它先學習物體的個別部分，並儲存在各個神經元中，然後將這些個別部分相加以識別完整物體。這種方法非常有效，因為只需要少量的神經元就能夠捕捉到特定物體的多樣性特徵。例如，如果我們記住 10 種不同類型的車輪、10 種不同類型的車門和 10 種不同類型的擋風玻璃的範本 (Templates)，我們就可以用 30 個範本的成本來捕捉 10∗10∗10 = 1,000 種不同的汽車。這比保留 1,000 個獨立的範本更加經濟高效（順便一提，大量範本中可能包含大量重複資料）。此外，我們還可以在不同類型的物體之間重複使用這些較小的範本，例如自行車也有輪子，房屋也有門，飛機也有輪子、艙門和擋風玻璃。因此，我們可以透過使用較小的個別部分範本組合來構建更多種類的物體，並且能夠非常有效率地完成。

儘管 CNN 擁有自己的專屬名稱，但它與其他神經網路並無明顯的區別。事實上，CNN 繼承了神經網路的所有功能，並透過引入一種稱為卷積層 (Convolutional Layer) 概念的新隱藏層，以及其他創新技術來改進神經網路的效能，例如池化層 (Pooling Layer)、步伐 (Stride)（控制過濾器如何圍繞輸入資料進行卷積運算）和填充 (Padding)（一個可以被加入到影像邊界的額外層）。和其他神經網路一樣，CNN 由具備可學習權重和偏差的神經元所組成，每個神經元接收多個輸入節點，對這些節點進行加權彙總，並透過啟動函數 (Activation Function) 傳遞這個彙總值，最後則以輸出作為回應。整個 CNN 網路有一個損失函數 (Loss Function)，用於評估這個神經網路的適用性，也就是定義訓練樣本與真實資料之間的誤差。

影像識別技術已成為許多不同應用場景中的基礎技術，其應用範圍不僅限於掃描大量照片來尋找特定物件。舉例來說，手機中的攝影鏡頭可以透過影像識別技術辨識人臉，而 Facebook 則運用這項技術輕鬆地找出您的家人和朋友。像特斯拉 (Tesla) 這樣具備“輔助駕駛 (Self-driving)”技術的汽車也配備了攝影鏡頭，可以分析周圍環境，確保它不會與其他車輛、人或其他物體相撞。消費級無人機 (Consumer-level drones) 現在也配備了攝影鏡頭，不僅可以防止它們撞上建築物和樹木，同時在全球定位系統（GPS）信號較弱時也不至於迷航。醫療產業將影像識別技術應用於分析 X 光片、紫外線圖像、CT 掃描圖像等，以便更準確地診斷病人的病情。製造業則將這項技術使用在生產線流程檢測、產品品質及不良率監測等應用場景。

21.深度學習的主力 – 神經網路 《上一堂課 ∣ 下一堂課》 23.自然語言處理 - 循環神經網路（RNN）

人工智慧 28 堂基礎入門課程，完整目錄連結：

1.課程目的	15.分類（Classification）
2.資料就是新一代的能源	16.低度擬合與過度擬合
3.結構化資料	17.分群（Clustering）
4.非結構化資料	18.整合學習方法
5.半結構化資料	19.模型參數與超參數
6.為資料加上維度的概念	20.深度學習框架
7.人工智慧、機器學習、深度學習的定義	21.深度學習的主力 – 神經網路
8.構成 AI, ML 與 DL 的基本元素	22.影像辨識 - 卷積神經網路（CNN）
9.機器（深度）學習工作流程	23.自然語言處理 - 循環神經網路（RNN）
10.模型具體是什麼?	24.生成式對抗網路（GAN）
11.資料準備－維度縮減	25.移轉學習
12.資料準備－資料分割	26.衡量預測結果的品質
13.機器學習方法概述	27.實作 ML 與 DL 的挑戰
14.迴歸（Regression）	28.IBM AI 階梯方法論

人工智慧 28 堂基礎入門課程系列文章係依據 IBM 原廠英文教材進行適度翻譯與內容調整而成，每一門課程使用的主圖片其版權歸屬於 IBM 公司。文章內容未經授權，請勿進行任何形式的複製、修改或發佈本文內容，如需轉載或引用，請在使用時注明出處並取得授權。本文中提及的特定公司、產品、品牌名稱等僅為描述目的，其版權歸屬於相應的公司或擁有者。

小麥的 AI 學習之路

2023年5月18日星期四

AI 入門：22.影像辨識 - 卷積神經網路（CNN）（人工智慧 28 堂基礎課程）

沒有留言:

張貼留言

2023年5月18日 星期四

AI 入門：22.影像辨識 - 卷積神經網路（CNN）（人工智慧 28 堂基礎課程）

沒有留言:

張貼留言

2023年5月18日星期四