2023年5月18日 星期四

AI 入門:22.影像辨識 - 卷積神經網路(CNN)(人工智慧 28 堂基礎課程)

視力 (Sight) 和視覺 (Vision) 都很重要,這二者讓我們人類能夠與周圍的環境相互聯繫,保持安全並確保思維的清晰。儘管這兩者常常被混為一談,但它們實際上是完全不同的實體:視力 (Sight) 是一種感官體驗,眼睛聚焦在形狀和物體上反射的光線,並創造出信號傳送到大腦;視覺 (Vision) 則是大腦對這些信號進行解釋的過程。視力 (Sight) 可以讓人類目睹一個事件,但視覺 (Vision) 則協助人類理解這個事件的重要性並做出相對應的解讀。

.
與人類不同,電腦將靜止的照片、影像、圖形、圖畫或網路直播串流影像中的圖像“視為”一個由數值組成的陣列 (Array)。因此,影像識別 (Image Recognition) 是一個經常用來描述電腦技術的專業術語。透過尋找數值型態 (Numerical patterns) 來識別關鍵特徵,影像識別技術可在數位影像中辨識出物體或特定的圖案。這個術語與“電腦視覺 (Computer Vision)”和“影像處理 (Image Processing)”有直接關聯。前者是訓練電腦像人類一樣擁有“看”的能力,後者則是描述電腦對影像資料進行各種密集工作處理的總稱。

影像識別可以採用多種技術,但實務上最受歡迎的方法是使用卷積神經網路 (Convolutional Neural Network, CNN),這個神經網路技術可以透過一系列人工神經元層 (Artificial Neuron Layers) 對影像資料進行篩選。作為一種深度學習演算法,CNN 能夠接收圖像資料並從多個角度賦予圖像不同的權重和偏差,進而對圖像進行區分。

CNN 的結構類似於人類大腦中神經元的連接模式,其靈感來自於大腦中處理視覺資訊的單元—視覺皮層組織 (Visual Cortex)。假設您看到一張以前從未見過的汽車照片,您可以透過觀察圖片中的物件(通常是組成一輛汽車的零部件)來辨認出它是一輛汽車,例如:擋風玻璃、車門、車前燈、車尾燈和車輪。透過識別每個小物件並將它們組合在一起,即使您以前從未學習如何將汽車零件組合成一輛汽車,您仍然可以知道出這是一張汽車的圖片。

CNN 的原理就像上述識別汽車照片的例子一樣,它先學習物體的個別部分,並儲存在各個神經元中,然後將這些個別部分相加以識別完整物體。這種方法非常有效,因為只需要少量的神經元就能夠捕捉到特定物體的多樣性特徵。例如,如果我們記住 10 種不同類型的車輪、10 種不同類型的車門和 10 種不同類型的擋風玻璃的範本 (Templates),我們就可以用 30 個範本的成本來捕捉 10∗10∗10 = 1,000 種不同的汽車。這比保留 1,000 個獨立的範本更加經濟高效(順便一提,大量範本中可能包含大量重複資料)。此外,我們還可以在不同類型的物體之間重複使用這些較小的範本,例如自行車也有輪子,房屋也有門,飛機也有輪子、艙門和擋風玻璃。因此,我們可以透過使用較小的個別部分範本組合來構建更多種類的物體,並且能夠非常有效率地完成。

儘管 CNN 擁有自己的專屬名稱,但它與其他神經網路並無明顯的區別。事實上,CNN 繼承了神經網路的所有功能,並透過引入一種稱為卷積層 (Convolutional Layer) 概念的新隱藏層,以及其他創新技術來改進神經網路的效能,例如池化層 (Pooling Layer)、步伐 (Stride)(控制過濾器如何圍繞輸入資料進行卷積運算)和填充 (Padding)(一個可以被加入到影像邊界的額外層)。和其他神經網路一樣,CNN 由具備可學習權重和偏差的神經元所組成,每個神經元接收多個輸入節點,對這些節點進行加權彙總,並透過啟動函數 (Activation Function) 傳遞這個彙總值,最後則以輸出作為回應。整個 CNN 網路有一個損失函數 (Loss Function),用於評估這個神經網路的適用性,也就是定義訓練樣本與真實資料之間的誤差。

影像識別技術已成為許多不同應用場景中的基礎技術,其應用範圍不僅限於掃描大量照片來尋找特定物件。舉例來說,手機中的攝影鏡頭可以透過影像識別技術辨識人臉,而 Facebook 則運用這項技術輕鬆地找出您的家人和朋友。像特斯拉 (Tesla) 這樣具備“輔助駕駛 (Self-driving)”技術的汽車也配備了攝影鏡頭,可以分析周圍環境,確保它不會與其他車輛、人或其他物體相撞。消費級無人機 (Consumer-level drones) 現在也配備了攝影鏡頭,不僅可以防止它們撞上建築物和樹木,同時在全球定位系統(GPS)信號較弱時也不至於迷航。醫療產業將影像識別技術應用於分析 X 光片、紫外線圖像、CT 掃描圖像等,以便更準確地診斷病人的病情。製造業則將這項技術使用在生產線流程檢測、產品品質及不良率監測等應用場景。





人工智慧 28 堂基礎入門課程,完整目錄連結:
1.課程目的 15.分類(Classification)
2.資料就是新一代的能源 16.低度擬合與過度擬合
3.結構化資料 17.分群(Clustering)
4.非結構化資料 18.整合學習方法
5.半結構化資料 19.模型參數與超參數
6.為資料加上維度的概念 20.深度學習框架
7.人工智慧、機器學習、深度學習的定義 21.深度學習的主力 – 神經網路
8.構成 AI, ML 與 DL 的基本元素 22.影像辨識 - 卷積神經網路(CNN)
9.機器(深度)學習工作流程 23.自然語言處理 - 循環神經網路(RNN)
10.模型具體是什麼? 24.生成式對抗網路(GAN)
11.資料準備-維度縮減 25.移轉學習
12.資料準備-資料分割 26.衡量預測結果的品質
13.機器學習方法概述 27.實作 ML 與 DL 的挑戰
14.迴歸(Regression) 28.IBM AI 階梯方法論







版權聲明
人工智慧 28 堂基礎入門課程系列文章係依據 IBM 原廠英文教材進行適度翻譯與內容調整而成,每一門課程使用的主圖片其版權歸屬於 IBM 公司。文章內容未經授權,請勿進行任何形式的複製、修改或發佈本文內容,如需轉載或引用,請在使用時注明出處並取得授權。本文中提及的特定公司、產品、品牌名稱等僅為描述目的,其版權歸屬於相應的公司或擁有者。

沒有留言:

張貼留言