2024年9月17日 星期二

IBM SPSS Modeler 基礎操作:常用節點速查表

IBM SPSS Modeler 是一個功能強大的視覺化資料科學應用解決方案,它是由節點與串流所組合出的獨特圖形化介面,節點代表對資料進行的個別作業,將一系列節點鏈結在一起稱之為串流,代表資料經過每個作業的流程。依據資料處理的不同階段,節點可以被簡單劃分為來源節點、處理節點以及輸出節點。節點位於視窗介面下方的節點工具箱中,包含:來源、資料列處理、資料欄位處理、統計圖、建模、輸出、匯出、IBM SPSS Statistics、Python 以及 Spark 等 10 個工具箱。為了方便大家快速選擇並取用合適的節點完成所需工作,本篇文章將常用的節點整理成表格,包含節點的圖示、名稱、用法說明以及官方文件連結,另外我也加上網頁版介面的圖示與名稱,希望可協助 SPSS Modeler 的初學者可以更快地熟悉它的操作介面。




IBM SPSS Modeler 的所有節點會依據其功能性被收納在不同的節點工具箱中,以下是每個節點工具箱的簡單說明:
  • 來源(Sources):來源節點用於將建模所需的資料載入至 SPSS Modeler 串流中,除了我們常用的關聯式資料庫、CSV 與 Excel 等檔案之外,我們也可以載入 IBM SPSS Statistics 檔案、SAS 資料檔、IBM Cognos Analytics 以及 IBM Cognos TM1 等其他應用系統所產生的檔案。

  • 資料列處理(Record Ops):資料列處理節點用於在資料列層級(Record Level)對來源資料所進行的處理,這些工作在 CRISP-DM 的資料理解和資料準備階段非常重要,透過它們可以根據特定商業需求對資料進行裁剪。常用的節點包含:選取、排序、相異的、聚集、合併等。

  • 資料欄位作業(Field Ops):資料欄位作業用於在資料欄位層級(Field Level)對來源資料所進行的處理,這些工作對於資料清理、轉換與重構來說非常實用,通常在前置資料處理階段我們會搭配資料列處理與資料欄位作業的節點來完成所需的準備工作。常用的節點包含:自動資料準備、類型、過濾器、導出、填入器、分割區以及設成旗標等。

  • 統計圖(Graphs):在機器學習建模流程中,我們很常需要在不同的階段以圖表的方式來分析 SPSS Modeler 串流處理的成果,例如使用折線圖與散佈圖來分析數值型變數、使用次數直方圖來揭示資料中的不平衡度、使用分配圖來顯示二元或多元目標變數的樣本平衡度、使用網路圖來分析二個或多個類別型欄位值的關聯性與強度,因此統計圖節點是 SPSS Modeler 中用來進行資料視覺化分析的重要工具。

  • 建模(Modeling):建模節點是 SPSS Modeler 重中之重的功能,它提供了一系列機器學習、人工智慧以及統計分析演算法,協助我們因應特定商業問題快速找出解決方案的工具。目前 SPSS Modeler 提供以下四種類型的建模技術:監督式學習(迴歸與分類)、時間序列、關聯規則以及叢集(或稱為集群分析),由於建模節點數量相當多,因此我會另外再準備一篇專文來說明。

  • 輸出(Output):輸出節點用於檢視資料處理與模型訓練的成果,包含我們常用的資料審核、表格、分析等節點,另外還有敘述統計經常使用的矩陣、統計資料以及平均數等節點。

  • 匯出(Export):匯出節點用於將資料匯出為 CSV、EXCEL、XML、JSON 等格式檔案,或將資料匯出到資料庫、IBM SPSS Statistics 檔案、SAS 資料檔案、IBM Cognos Analytics 與 IBM Cognos TM1 等應用系統能接受的格式。

  • Python:SPSS Modeler 提供了使用原生的 Python 所開發的演算法節點,這些節點依據用途放置在其他的工具箱中,我們也可以直接在 Python 工具箱中直接取用這些節點,例如:SMOTE、XGBoost、t-SNE、隨機森林等。

  • Spark:SPSS Modeler 提供了使用原生自 Spark 平台實作的演算法節點,這些節點不支援以整數/雙欄作為旗標/名義等變數來建置模型,因此在使用這些 Spark 節點之前,必須先將欄位值轉換為 0/1 或 0,1,2,3,4... 等數值。


快速連結:




1.來源(Sources)

# 圖示 中文名稱 英文名稱 節點用途 網頁版圖示及名稱
1 Analytic Server Analytic Server 透過 IBM Analytic Server 連結至 Hadoop Distributed File System (HDFS) 中的文字檔、資料庫、HCatalog,並且在受支援的情況下在 HDFS 中執行串流。 需要先在平台連線中建立與 Hadoop 系統的連線,再從 "匯入" > "資料資產" 中取得該連線。
2 資料庫 Database 透過 ODBC 連結至資料庫,例如:Microsoft SQL Server、Db2、Oracle 等。 同上。
3 變數檔案 Var. File 具有欄位分隔符號的文字檔案,例如 CSV 格式檔案。 需要先將檔案上傳至平台的專案中,再從 "匯入" > "資料資產" 中取得該資料資產。
4 固定檔案 Fixed File 不具備欄位分隔符號,但具有開始位置相同且長度固定特性的文字檔案,例如大型主機產生的報表或資料檔。 尚未支援。
5 Statistics 檔案 Statistics File IBM SPSS Statistics 資料檔案(.sav 或 .zsav)。 需要先將檔案上傳至平台的專案中,再從 "匯入" > "資料資產" 中取得該資料資產。
6 SAS 檔案 SAS File SAS 資料檔案,包含:SAS for Windows/OS2(.sd2)、SAS for UNIX(.ssd)、SAS 傳輸檔案(.tpt)以及 SAS 第 7/8/9 版(.sas7bdat)。 需要先將檔案上傳至平台的專案中,再從 "匯入" > "資料資產" 中取得該資料資產。
7 Excel Excel Microsoft Excel 檔案(.xls 或 .xlsx)。 需要先將檔案上傳至平台的專案中,再從 "匯入" > "資料資產" 中取得該資料資產。

《 回到快速連結清單 》



2.資料列處理(Record Ops)

# 圖示 中文名稱 英文名稱 節點用途 網頁版圖示及名稱
1 選取 Select 依據指定條件(例如:性別 Sex = 男性 Male)選擇要包含(Include)或捨棄(Discard)符合該條件的資料記錄。 記錄作業選用區
2 樣本 Sample 使用包括分層抽樣、叢集抽樣以及非隨機(結構化)抽樣的方式建立子資料集。 記錄作業選用區
3 排序 Sort 依據一個或多個欄位的值,按照遞增或者遞減方式對資料記錄進行排序。 記錄作業選用區
4 平衡 Balance 用於修正資料集中的不平衡,它可以依據指定的條件設定平衡因子,平衡因子大於 1 為放大(Over-sampling),小於 1 則為縮小(Under-sampling)。 記錄作業選用區
5 相異的 Distinct 用於尋找或移除資料集中的重複資料記錄。 記錄作業選用區
6 聚集 Aggregate 依據一個或多個鍵值欄位將資料集進行分組彙整,彙整時可指定欄位進行摘要處理,例如:將客戶交易明細資料依據客戶編號進行分組,並且計算每個客戶的平均交易金額和總交易金額。 記錄作業選用區
7 RFM 聚集 RFM Aggregate 將存在客戶編號、交易日期、交易金額等欄位的資料集依據行銷 RFM 分析為每一個客戶產生最近一次消費(Recency)、消費頻率(Frequency)以及消費總金額(Monetary)等欄位的資料集。 記錄作業選用區
8 合併 Merge 依據指定方式(例如鍵值欄位)將多個資料來源合併為單一資料集。 記錄作業選用區
9 附加 Append 用於將相同或相似資料結構的不同資料來源結合為單一資料集,例如:我們可以將一月至三月個別的交易表結合為第一季交易表。資料結合時,若主資料來源較其他資料來源存在較多的欄位,則所有缺漏的欄位值將以系統無效字串($null$)取代。 記錄作業選用區
10 SMOTE SMOTE Synthetic Minority Over-sampling Technique(SMOTE)以進階的演算法(Regular SMOTE、Borderline)對不平衡的資料集進行放大處理(Over-sampling)。 記錄作業選用區

《 回到快速連結清單 》



3.資料欄位作業(Field Ops)

# 圖示 中文名稱 英文名稱 節點用途 網頁版圖示及名稱
1 自動資料準備 Auto Data Prep 以自動化方式分析來源資料集,進行識別修正、篩選出有問題或可能無效的欄位,並且在適當時衍生新的欄位以便於增進預測分析的效能。 欄位作業選用區
2 類型 Type 用於指定來源資料所有欄位的量測層級(進行實例化值域內容解析)、缺漏資料處理方式、值域範圍檢查與設定以及定義欄位於建模時扮演的角色。 欄位作業選用區
3 過濾器 Filter 用於對來源資料的欄位進行過濾與重新命名處理。 欄位作業選用區
4 導出 Derive 用於建立機器學習建模所需的衍生欄位,例如:透過每分鐘的溫度值衍生出每分鐘溫度變化率的變數欄位。 欄位作業選用區
5 填入器 Filler 用於取代欄位值或變更欄位儲存的類型,例如,透過 @GLOBAL_MEAN 表示式函數將數值型欄位中的空值填充為該欄位的平均數(缺漏值填補)。 欄位作業選用區
6 再分類 Reclassify 用於對類別型欄位值進行重新分組並衍生出一個新的欄位,例如,將原先超過 10 種以上的產品分類依據分析需求重新分類為 3 種產品分類。 欄位作業選用區
7 匿名化 Anonymize 依據指定的邏輯規則對欄位名稱和/或欄位值進行匿名化處理,主要用於掩飾原始資料的內容。 欄位作業選用區
8 分組 Binning 依據一個或多個連續數值型欄位值自動建立新的名義變數欄位,簡單來說就是為連續數值建立次數分配值方圖使用的分組,例如,對年齡欄位繪製次數分配圖時,通常可以用 10 歲作為組距進行分組。 欄位作業選用區
9 RFM 分析 RFM Analysis 主要用於接續 RFM 聚集節點產生的客戶最近一次消費(Recency)、消費頻率(Frequency)以及消費總金額(Monetary)等資料,依據商業需求定義的條件為客戶進行分組並計算出 RFM 三項指標的評分值。 欄位作業選用區
10 總體 Ensemble 用於整合二個或二個以上模型預測結果並產生出一個整體精確度更高的預測結果,避免因單一模型造成的預測局限性。 欄位作業選用區
11 分割區 Partition 用於將來源資料分割為個別的子集或樣本,以便於提供模型建置所需的訓練集、測試集和驗證集使用需求。 欄位作業選用區
12 設為旗標 Set to Flag 用於將類別型欄位的值衍生為代表該欄位值是否存在的旗標型欄位,例如:假設性別欄位包含男性 Male 與女性 Female 二個類別值,則透過設成旗標可以衍生出是否為男性和是否為女性的二個旗標型欄位。 欄位作業選用區
13 轉置 Transpose 用於交換列與欄中的資料,讓欄位變為資料記錄、資料記錄變為欄位。 欄位作業選用區
14 欄位重新排序 Field Reorder 定義用於顯示下游欄位的自然順序。 欄位作業選用區

《 回到快速連結清單 》



4.統計圖(Graphs)

# 圖示 中文名稱 英文名稱 節點用途 網頁版圖示及名稱
1 圖板 Graphboard 圖板是 SPSS Modeler 較新穎的視覺化圖形設計工具,可以從單一節點中依據想要探索的資料欄位產生不同的圖形(例如:長條圖、圓餅圖、直方圖、散佈圖和熱力圖等)。 圖形選用區
2 統計圖 Plot 用於顯示數值型欄位之間的關係,可以繪製單一數值欄位的折線圖或是二個數值欄位的散佈圖。 圖形選用區
3 多重繪圖 Multiplot 用於在單一 X 軸欄位上繪製多個 Y 軸欄位,例如使用時間序列欄位繪製多個觀測值隨時間變化的關係。 圖形選用區
4 時間繪圖 Time Plot 專用於繪製時間序列型資料的圖形,與多重繪圖用法相同,唯 X 軸欄位僅接受時間序列型資料。 圖形選用區
5 分配 Distribution 用於顯示類別型欄位值的分佈狀況,圖形顯示為橫向的次數統計長條圖。 圖形選用區
6 直方圖 Histogram 與分配圖類似,用於顯示數值型欄位值的分佈狀況,圖形顯示為垂直的次數統計長條圖。 圖形選用區
7 收集 Collection 收集圖與直方圖基本概念相同,唯一區別是收集圖顯示某個數值型欄位值的分佈(相對於另一個數值型欄位值),而非顯示單一欄位值的次數統計。 圖形選用區
8 Web Web 用於顯示兩個或兩個以上旗標型欄位值之間關係的緊密程度,圖形使用不同類型的線條顯示鏈結的強度。 圖形選用區
9 評估 Evaluation 用於評估並比較預測模型的結果,它的工作原理是:依據預測值與預測的信賴度排序資料、將資料分割為大小相等的群組(分位數)並按照由高至低的順序為每個分位數繪製模型預測性能評估圖形,包含:增益圖、提升圖、回應圖、利潤圖、投資報酬率圖、ROC 圖。 圖形選用區

《 回到快速連結清單 》



5.輸出(Output)

# 圖示 中文名稱 英文名稱 節點用途 網頁版圖示及名稱
1 表格 Table 用於建立能夠列出資料值的表格,該表格中包含了串流中的所有欄位值,從而可以方便檢查資料值或以易於讀取的格式進行匯出。此外,它還可以強調顯示符合特定條件的資料。 輸出選用區
2 矩陣 Matrix 用於建立顯示欄位間交叉關係的表格,它最常用於顯示兩個類別型欄位(旗標變數、名義變數或序數變數)之間的關係,但也可用於顯示連續型數值型範圍欄位之間的關係。 輸出選用區
3 分析 Analysis 用於對模型產生準確度預測性能的評估資訊,它可以對一個或多個模型的預測值和實際值(目標變數欄位)進行各種比較,也可用於將一些預測模型和其他預測模型進行比較。 輸出選用區
4 資料審核 Data Audit 此節點提供您對原始資料進行初步全面的理解,它包含二個頁籤功能:「審核」頁籤顯示包含彙總統計量、直方圖和分佈圖的報告,它們有助於讓您對資料有初步的瞭解;「品質」頁籤顯示有關離群值、極端值和遺漏值的資訊,並提供用於處理這些異常值的工具。 輸出選用區
5 轉換 Transform 用於將原始資料進行正規化轉換使其更接近於常態分配,正規化轉換是使用迴歸演算法(如簡單迴歸、羅吉斯迴歸和判別分析)建模之前的一個重要步驟,透過轉換節點可以提供對原始資料輸出的檢視器,讓您直觀地評估要使用的最佳轉換方法。 輸出選用區
6 統計資料 Statistics 用於提供與數值型欄位相關的統計基本彙總資訊,可以取得各個欄位的彙總統計量以及欄位之間的相關係數等數據。 輸出選用區
7 平均數 Means 用於比較獨立群組之間的平均值,或比較相關欄位分配之間的平均值,可以用來測試欄位間是否存在顯著性差異。 輸出選用區
8 報表 Report 用於建立包含固定文字與資料以及從該資料衍生的其他表示式的格式報告。透過使用文字範本定義固定文字和資料輸出,可以指定報告的格式。 輸出選用區

《 回到快速連結清單 》



6.匯出(Export)

# 圖示 中文名稱 英文名稱 節點用途 網頁版圖示及名稱
1 資料庫 Database 用於將資料寫入與 ODBC 相容的關聯式資料庫。 需透過匯出選用區中的「資料資產匯出」節點將資料透過已建立的平台連線進行匯出。
2 一般檔案 Flat File 用於將資料匯出為文字格式檔案。 需透過匯出選用區中的「資料資產匯出」節點進行匯出,支援匯出為 Avro、CSV、JSON、Parquet、XML 等格式檔案。
3 Statistics 匯出 Statistics Export 用於將資料匯出為 IBM SPSS Statistics .sav 格式的檔案。 需透過匯出選用區中的「資料資產匯出」節點匯出為 SAV 格式檔案。
4 Excel Excel 用於將資料匯出至 Microsoft Excel 檔案。 需透過匯出選用區中的「資料資產匯出」節點匯出為 Excel 檔案。
5 IBM Cognos Analytics 匯出 IBM Cognos Analytics Export 用於使用 UTF-8 格式將資料從 SPSS Modeler 串流匯出到 IBM Cognos Analytics。 需透過匯出選用區中的「資料資產匯出」節點將資料透過已建立的平台連線進行匯出。
6 TM1 匯出 TM1 Export 用於將資料從 SPSS Modeler 串流匯出到 IBM Cognos TM1。 需透過匯出選用區中的「資料資產匯出」節點將資料透過已建立的平台連線進行匯出。
7 SAS SAS 用於將資料匯出為 SAS 資料檔案,包含:SAS for Windows/OS2、SAS for UNIX 或 SAS 第 7/8 版。 尚未支援。

《 回到快速連結清單 》



版權聲明
文章內容未經授權,請勿進行任何形式的複製、修改或發佈本文內容,如需轉載或引用,請在使用時注明出處並取得授權。本文中提及的特定公司、產品、品牌名稱等僅為描述目的,其版權歸屬於相應的公司或擁有者。

沒有留言:

張貼留言