2023年5月18日 星期四

AI 入門:26.衡量預測結果的品質(人工智慧 28 堂基礎課程)

模型準確度 (Model accuracy) 是評估機器學習(ML)或深度學習(DL)模型能否依據輸入的資料正確預測結果,或是可以有效識別資料集中各個特徵變數之間的關聯和樣式的一個重要衡量標準。當一個模型對未見過的資料具有強大的泛化能力 (Generalization),它能夠產生的預測和洞察力就越好。在正式營運環境系統中部署 ML 和 DL 模型的企業,就可以依靠這些模型做出更精準的商業決策。因此,優化模型的準確性對 AI 驅動型企業來說是一件至關重要的工作。

.
然而,一個重要的觀念必需放在心上,經濟學中的邊際效用遞減法則 (The Law of Diminishing Marginal Utility) 或稱為報酬遞減 (Diminishing Returns)。白話來說,開發一個準確的模型所能產生的實際價值到了某一個點後,就無法再帶來相對應的利潤成長。儘管如此,資料科學家仍然應該竭盡其所能建立更準確的預測模型,因為模型準確度是能否提升商業決策與組織績效的重要因素之一。

評估模型的準確度可以使用各種不同的評估指標 (Evaluation metrics),對於不同主題的建模任務,如分類 (Classification)、迴歸 (Regression)、分群 (Clustering)、關聯 (Association) 等,都有其較為常用的評估指標。例如,分類準確率 (Classification accuracy) 通常被用來衡量一個分類器模型是否滿足預期性能的指標。下面列出了一些常用的指標,這些指標用於評估分類和迴歸模型的準確度,這兩者是監督式學習常用的模型,在實務中也可以滿足大多數機器學習的應用情境。

  • 分類準確率 (Classification Accuracy)

  • 分類準確率是衡量一個分類模型做出正確預測的數量與輸入樣本總數的比率(準確率 = 正確預測的數量 / 預測的總數量)。然而,這個指標只有當每個分類的樣本數量均等時,才能較好地發揮其作用。舉個例子,假設訓練資料集中有 98% 的 A 類樣本和 2% 的 B 類樣本,如果模型把預測結果都歸類於 A,那麼它可以輕鬆獲得 98% 的分類準確率。然而,如果拿一個由 60% 的 A 類樣本和 40% 的 B 類樣本組成的資料集測試這個模型,那麼它的準確率便會下降到 60%。

    分類準確率經常會給人一種模型性能很好的錯誤感覺。例如當小樣本的錯誤分類成本(代價)很高時,過度相信這個指標就會產生嚴重的後果(在醫療產業中,未能診斷出一種罕見且致命疾病的成本要比送一個健康的人去做更多測試的成本高得多)。因此,我們還需要使用其他指標來綜合衡量分類模型的準確度,才能避免以偏概全的問題發生。
  • 對數損失 (Logarithmic Loss or Log-loss)

  • 計算對數損失時,分類模型必須為所有樣本的分類預測結果指派一個機率,透過懲罰錯誤分類的機制,將分類模型產生的錯誤成本用於評估模型準確度的一項重要依據。對數損失的範圍從 0 到無窮大,越接近 0 代表模型準確度越高,而遠離 0 則表示準確度較低。一般來說,將對數損失最小化可以為分類模型帶來更大的準確度。此外,這種方法不會受到分類比例不平衡的影響,以便於降低分類模型產生的錯誤成本。
  • 混淆矩陣 (Confusion Matrix)

  • 混淆矩陣是一個以矩陣型形式表達分類模型預測結果與實際結果的表格,透過對比分類結果的方式來衡量分類模型的整體性能。舉例來說,我們有一個二元分類問題,其中 300 個樣本的實際結果分為兩類:YES(100 個)和 NO(200 個),那麼這個二元分類模型的混淆矩陣會顯示四種可能預測結果和實際結果的不同組合,如下圖所示:

    混淆矩陣表中的四個不同結果分別代表:真陽性 (True Positives)、偽陽性 (False Positives)、偽陰性 (False Negatives) 與真陰性 (True Negatives) 等意義。分類模型的準確度可以透過在表格中取“主對角線”上的數值的平均值來計算。換句話說,準確度 = (真陽性 + 真陰性) / 樣本總數。這個指標能夠幫助我們判斷模型的預測能力和整體表現。
    • 真陽性 (TP):指模型預測為 YES 且實際結果為 YES 的案例數;
    • 真陰性 (TN):指模型預測為 NO 且實際結果為 NO 的案例數;
    • 偽陽性 (FP):指模型預測為 YES 且實際結果為 NO 的案例數;
    • 偽陰性 (FN):指模型預測為 NO 且實際結果為 YES 的案例數。

  • AUC (Area Under Curve)

  • AUC 主要用於評估二元分類模型的預測準確度,一個二元分類模型的 AUC 值等於該模型將隨機選擇的陽性案例 (Positive example) 排在比陰性案例 (Negative example) 較高位置的機率。AUC 值介於 0 與 1 之間,0.5 代表隨機猜測的準確度,因此 AUC 愈接近 1 代表模型預測的準確度愈高。

    AUC 照字面上翻譯是“曲線下的面積 (Area Under the Curve)”,這條曲線稱之為 ROC 曲線,它也是衡量二元分類模型性能的重要指標之一,用於表達模型對於 Positive example 和 Negative example 之間的區分能力。ROC 曲線透過繪製真陽性率 (True Positive Rate, TPR) 和偽陽性率 (False Positive Rate, FPR) 的關係,來衡量二元分類模型的預測準確度。

    ROC 曲線的橫軸是偽陽性率 (FPR),縱軸為真陽性率 (TPR)。如果模型性能優越,則 TPR 會增加,ROC 曲線越接近左上角,代表模型預測的準確度越高,AUC 越接近 1。如果模型只能做出隨機猜測(例如擲銅板,正面與反面出現的機率各一半),則 TPR 會隨者 FPR 線性增加,ROC 曲線會越接近 45 度角的對角線,代表模型的預測能力接近隨機猜測,AUC 接近 0.5。下圖是一個使用 SPSS Modeler 產生的 ROC 圖形範例。
    • 真陽性率(也稱為靈敏度):模型正確預測是陽性資料點的比例,TP Rate (Sensitivity) = TP / (TP + FN);
    • 偽陽性率(也稱為特異性):模型錯誤預測是陽性的陰性資料點在所有預測為陰性資料點中的比例,FP Rate (Specificity) = FP / (FP + TN)。

  • F1 Score

  • F1 分數是一個二元分類模型精確率 (Precision Rate) 與召回率 (Recall Rate) 之間的調和平均值 (Harmonic Mean),其中精確率是指模型在所有預測為陽性的結果中,正確預測為陽性的能力(也就是模型不會把真陰性分類為陽性的能力),因此精確率越高越好。召回率則是正確預測為陽性的結果 (TP) 佔所有應該被分類為陽性的實際樣本(包含被正確預測為陽性 (TP) 和預測為陰性但實際為陽性 (FN))的比例,簡單來說就是實際為陽性的樣本中有多少被模型正確預測為陽性,因此召回率也是越高越好。F1 Score = 2 / ( (1/ Precision) + (1/ Recall) ),其值介於 0 與 1 之間,F1 Score 越大代表模型性能越好。
  • 平均絕對誤差 (Mean Absolute Error, MAE)

  • MAE 是用來評估迴歸模型預測值與實際值之間差異的指標,它計算的是這些差異的絕對值後的平均值。由於 MAE 將預測誤差進行絕對值化,不會出現正負誤差互相抵消的情況,因此 MAE 能夠更好地反應預測值誤差的實際情況。MAE 只考慮了預測誤差的平均值,而不考慮方向,其範圍介於 0 和無窮大之間,數值越小代表預測效果越好。
  • 均方誤差 (Mean Squared Error, MSE)

  • MSE 和 MAE 的計算方法非常相似,不同之處在於 MSE 是將實際值與預測值之間的差異平方後再取平均值。MSE 的優點在於更容易計算梯度 (Gradient),相較之下,MAE 需要更複雜的線性程式設計工具才能計算梯度。MSE 透過將誤差進行平方化的方式,避免了正負誤差互相抵消的情況,但平方的特性也使得較大誤差造成的影響更加明顯,也就是說 MSE 對於異常值 (Outliers) 的敏感度較高。

在第 12 堂課中,我們為您說明了大多數資料科學家會將他們的資料(包含輸入特徵變數和已知輸出目標變數的歷史資料)分為三個不同的資料集:訓練資料集、驗證資料集和測試資料集。僅使用訓練集資料來衡量模型預測的準確度是一件不恰當的事,因為這會讓模型過度“學習”到訓練資料中的資料樣態,而無法測試模型對於新資料的泛化能力 (Generalization)。因此,為了有效衡量模型的準確性,應該使用測試資料集中已知輸出目標變數的標記資料,結合這堂課介紹的各種評估指標,將模型產出的預測值與已知的實際結果 (Ground truth) 進行比較,真正有效地衡量模型預測結果的品質。


25.移轉學習 《 上一堂課    下一堂課 》 27.實作 ML 與 DL 的挑戰



人工智慧 28 堂基礎入門課程,完整目錄連結:
1.課程目的 15.分類(Classification)
2.資料就是新一代的能源 16.低度擬合與過度擬合
3.結構化資料 17.分群(Clustering)
4.非結構化資料 18.整合學習方法
5.半結構化資料 19.模型參數與超參數
6.為資料加上維度的概念 20.深度學習框架
7.人工智慧、機器學習、深度學習的定義 21.深度學習的主力 – 神經網路
8.構成 AI, ML 與 DL 的基本元素 22.影像辨識 - 卷積神經網路(CNN)
9.機器(深度)學習工作流程 23.自然語言處理 - 循環神經網路(RNN)
10.模型具體是什麼? 24.生成式對抗網路(GAN)
11.資料準備-維度縮減 25.移轉學習
12.資料準備-資料分割 26.衡量預測結果的品質
13.機器學習方法概述 27.實作 ML 與 DL 的挑戰
14.迴歸(Regression) 28.IBM AI 階梯方法論







版權聲明
人工智慧 28 堂基礎入門課程系列文章係依據 IBM 原廠英文教材進行適度翻譯與內容調整而成,每一門課程使用的主圖片其版權歸屬於 IBM 公司。文章內容未經授權,請勿進行任何形式的複製、修改或發佈本文內容,如需轉載或引用,請在使用時注明出處並取得授權。本文中提及的特定公司、產品、品牌名稱等僅為描述目的,其版權歸屬於相應的公司或擁有者。

沒有留言:

張貼留言