2023年5月18日 星期四

AI 入門:12.資料準備-資料分割(人工智慧 28 堂基礎課程)

機器學習(ML)和深度學習(DL)的最終目標是創建出能夠做出資料驅動型決策或預測的模型,這些模型必須在使用時經過驗證,以確保其推論的準確性符合預期。模型的建立是透過一個稱為“訓練 (Training)”的過程所完成,這個訓練過程涉及教導演算法在“訓練資料 (Training data)”中尋找樣態,這些樣態可用於將輸入的變數屬性對應到輸出的目標 (Targets)。然後,透過使用各種指標對訓練過的模型進行評估,最後將“評估 (Evaluation)”資料集上的預測值與實際值(稱為 Ground truth data)進行比較。最終,選擇“最佳”的模型,用於對未知的資料進行預測。

.
然而,一個模型較不適合拿訓練它的資料來進行評估驗證,因為這樣做可能會導致模型過度依賴當初訓練它的資料,降低對未知資料的預測性能。因此,大多數資料科學家會將他們的資料(包含輸入的變數屬性和已知目標結果的歷史資料)分為三個不同的資料集:
  • 訓練資料集 (Training data set)

  • 用來訓練並產生適用的預測模型。通常來說,訓練資料集會佔整個資料集較大的比例。
  • 驗證資料集 (Validation data set)

  • 用來對已產生的預測模型進行不偏性評估 (Unbiased Evaluation),資料科學家使用這些資料來驗證模型預測能力的準確性和穩定性,甚至也可以用來微調模型使用的超參數 (Hyperparameters)。
  • 測試資料集 (Testing data set)

  • 用來對最終預測模型進行準確性和穩定性評估,通常在模型訓練和優化驗證完成後使用測試資料集,因此它也被視為評估最終模型的“黃金標準 (Gold Standard)”。

那麼,該如何將資料分割成這三個資料集呢?一般來說,訓練資料集的大小越大越好,但這取決於兩個因素:可用的完整資料集中樣本的總數(包含輸入的變數屬性和已知目標結果的歷史資料)以及這個模型要執行的預測任務。例如,如果您需要一個可以將資料區分為 10 種不同分類的模型,那麼您需要一個較大的訓練資料集,其中包含足夠的已知 10 種分類結果的樣本資料。另一方面,如果模型使用較少的超參數,相對來說這個模型會比較容易進行驗證和調整,此時驗證和測試資料集的比例可以相對較小。最後,如果模型不使用超參數或是不易透過參數調整進行優化,您甚至可能不需要驗證資料集。因此,在資料準備階段,應該依據特定的情況和需求來決定訓練、驗證和測試資料集的比例和大小。

在 ML 和 DL 專案中,訓練-驗證-測試資料集的分割比例需要根據實際專案的需求和條件來決定。隨著建立與訓練模型的經驗累積,做出正確的決定將變得相對容易。依據經驗法則,一個常見的策略是使用 70-80% 的比例進行訓練,20-30% 的比例進行驗證和測試,至於驗證與測試則可平均分配其比例。

學習補充資料:
  • 交叉驗證 (Cross Validation)

    很多時候,資料科學家會將他們的資料分割為訓練集和測試集,並以測試集作為最終模型評估驗證使用的資料。接著在訓練集中隨機選擇一定比例的資料(例如 80%)作為實際用來訓練模型的資料,其餘則作為驗證集(剩餘的 20%)。最後,模型在訓練階段會在這些不同的資料集上反覆進行訓練與驗證。這種方法通常被稱為交叉驗證 (Cross Validation),其主要的目的是避免模型過度擬合 (Overfitting)。在實務中,K-Fold Cross Validation 是一種資料科學家常使用的方法,整個資料集會被分成 K 個等份的子集 (Fold),依序選擇一個分割的字集作為驗證集,其餘則作為訓練集,然後將這個過程重複 K 次,直到每個子集都已被作為驗證集為止。參考資訊:《Scikit-learn - Cross-validation》。


11.資料準備-維度縮減 《 上一堂課    下一堂課 》 13.機器學習方法概述



人工智慧 28 堂基礎入門課程,完整目錄連結:
1.課程目的 15.分類(Classification)
2.資料就是新一代的能源 16.低度擬合與過度擬合
3.結構化資料 17.分群(Clustering)
4.非結構化資料 18.整合學習方法
5.半結構化資料 19.模型參數與超參數
6.為資料加上維度的概念 20.深度學習框架
7.人工智慧、機器學習、深度學習的定義 21.深度學習的主力 – 神經網路
8.構成 AI, ML 與 DL 的基本元素 22.影像辨識 - 卷積神經網路(CNN)
9.機器(深度)學習工作流程 23.自然語言處理 - 循環神經網路(RNN)
10.模型具體是什麼? 24.生成式對抗網路(GAN)
11.資料準備-維度縮減 25.移轉學習
12.資料準備-資料分割 26.衡量預測結果的品質
13.機器學習方法概述 27.實作 ML 與 DL 的挑戰
14.迴歸(Regression) 28.IBM AI 階梯方法論







版權聲明
人工智慧 28 堂基礎入門課程系列文章係依據 IBM 原廠英文教材進行適度翻譯與內容調整而成,每一門課程使用的主圖片其版權歸屬於 IBM 公司。文章內容未經授權,請勿進行任何形式的複製、修改或發佈本文內容,如需轉載或引用,請在使用時注明出處並取得授權。本文中提及的特定公司、產品、品牌名稱等僅為描述目的,其版權歸屬於相應的公司或擁有者。

沒有留言:

張貼留言