2023年5月18日 星期四

AI 入門:13.機器學習方法概述(人工智慧 28 堂基礎課程)

本堂課會將幾種不同類型的機器學習(ML)方法進行概括性歸類,同時也介紹每種方法較常使用的情境。機器學習方法可以簡單歸類為監督式學習 (Supervised Learning) 與非監督式學習 (Unsupervised Learning),兩者之間的主要差異在於原始資料集中是否包含已知的標準答案。監督式學習從一組既有資料開始,並從這些資料已知的分類方式開始訓練模型。換句話說,模型使用一個已標記 (Labeled) 的資料集進行訓練,這些已標記的資料集中,每個樣本都有標準答案。模型經過訓練後,應該能夠有辦法得出與標準答案相同的答案,並透過這樣的能力對未知的資料進行預測。監督式學習方法本質上可以被進一步歸類為分類 (Classification) 與迴歸 (Regression) 兩種模型。

.
分類模型 (Classification models) 可以將輸入資料識別為某一特定類別或群體的成員。例如,如果您有一個包含數百張花朵圖片的訓練資料集,以及對每張圖片中有關花朵的定義描述,經過訓練的分類模型應該能夠正確地將未見過的圖片中的花朵進行分類。而迴歸模型 (Regression models) 則經常被用來協助理解資料變數之間的相關性 (Correlation)。例如,一個天氣預報模型通常會使用某種形式的迴歸分析 (Regression Analysis),將已知的歷史天氣樣態套用於目前的天氣狀況,以便於進行天氣預測。

在非監督式學習 (Unsupervised Learning)中,模型被給予了一個未標記 (Unlabeled) 的資料集,同時也沒有任何明確的指示,告訴模型該如何處理這些資料。因此,模型必須依賴自身的能力來萃取資料的有用特徵和樣態。在實務應用中,非監督式學習模型通常可以透過以下三種方法來萃取資料樣態:
  • 分群 (Clustering)

  • 就算不是昆蟲專家,也可以根據顏色、大小和形狀等線索,觀察一組昆蟲並將它們大致按種類分開。這就是分群模型的工作原理:它們可以從資料中尋找相似資料的共通點,然後將這些資料進行分組。
  • 關聯 (Association)

  • 當您將洗髮精與護髮素放入線上購物車時,電子商務網站可能會建議您一起購買香皂或髮梳等商品。這是一個實務案例,關聯學習模型可以識別不同資料屬性之間的關聯,當觀察一個資料點的關鍵屬性時,模型可以推斷出其他經常與該屬性相關的其他屬性。
  • 異常偵測 (Anomaly Detection)

  • 異常偵測模型可以用來尋找資料集中的異常模式或異常值。例如,同一張信用卡在四小時內同時在台北市和美國紐約進行實體消費,這就值得懷疑了。如果信用卡持有人居住在台北市,發卡銀行可以使用異常偵測模型檢測此類交易,進行警示註記或拒絕信用卡持有人在美國紐約的交易,並將其視為欺詐交易行為 (Fraudulent transaction)。

介於監督式學習和非監督式學習方法之間,有一種稱為半監督式學習的方法 (Semi-supervised Learning)。半監督式學習通常使用少量有標記的資料與大量未標記的資料進行學習。這種學習方法對於從現有資料中萃取相關特徵較為困難,或標記所有可用資料的成本太高或時間太長的情況特別有幫助。半監督式學習方法較常被使用在語音辨識 (Speech Recognition) 和基因定序 (Genetic Sequencing) 等實務應用場景。

最後,還有一種機器學習方法稱為強化學習 (Reinforcement Learning)。這屬於一種行為學習 (Behavioral Learning) 的方法,與其他機器學習方法有很大的不同,因為它的模型不是透過一個樣本資料集來完成訓練。強化學習模型透過不斷給予樣本資料集進行錯誤嘗試 (Trial and error),並達成最終期望的學習目標。因此,當模型做出成功的決策時,這個訓練過程就會被“強化 (Reinforced)”。為了做出正確的選擇,強化學習模型會依賴先前學習過程中所獲得的回饋,以及對新策略的探索來強化自己。這是一個反覆的過程,模型獲得的回饋越多,就會變得更加精準。強化學習是一種讓電腦模擬人類學習行為的方法,對於解決現實世界發生的問題非常有幫助,目前這種方法已經被廣泛應用在電玩遊戲、自動駕駛以及機器人自動化等領域。


12.資料準備-資料分割 《 上一堂課    下一堂課 》 14.迴歸(Regression)



人工智慧 28 堂基礎入門課程,完整目錄連結:
1.課程目的 15.分類(Classification)
2.資料就是新一代的能源 16.低度擬合與過度擬合
3.結構化資料 17.分群(Clustering)
4.非結構化資料 18.整合學習方法
5.半結構化資料 19.模型參數與超參數
6.為資料加上維度的概念 20.深度學習框架
7.人工智慧、機器學習、深度學習的定義 21.深度學習的主力 – 神經網路
8.構成 AI, ML 與 DL 的基本元素 22.影像辨識 - 卷積神經網路(CNN)
9.機器(深度)學習工作流程 23.自然語言處理 - 循環神經網路(RNN)
10.模型具體是什麼? 24.生成式對抗網路(GAN)
11.資料準備-維度縮減 25.移轉學習
12.資料準備-資料分割 26.衡量預測結果的品質
13.機器學習方法概述 27.實作 ML 與 DL 的挑戰
14.迴歸(Regression) 28.IBM AI 階梯方法論







版權聲明
人工智慧 28 堂基礎入門課程系列文章係依據 IBM 原廠英文教材進行適度翻譯與內容調整而成,每一門課程使用的主圖片其版權歸屬於 IBM 公司。文章內容未經授權,請勿進行任何形式的複製、修改或發佈本文內容,如需轉載或引用,請在使用時注明出處並取得授權。本文中提及的特定公司、產品、品牌名稱等僅為描述目的,其版權歸屬於相應的公司或擁有者。

沒有留言:

張貼留言