IBM SPSS Modeler 是一個全方位的視覺化資料科學解決方案,其目的在降低機器學習建模複雜度,提高資料科學家工作效率,讓企業更專注於應用場景的設計,並將 AI 技術落實於數位轉型計畫中。儘管 SPSS Modeler 的工具介面已經做得相當平易近人,但對於初次接觸的朋友來說還是有點進入障礙。為了讓更多朋友能夠加速感受到這個工具可以創造的效益,我準備了一系列的基礎操作文章,希望可以降低大家學習的時間,快速帶領大家進入 AI 預測分析的世界。
AI 機器學習是一種基於統計與數學演算法的建模技術,目的在找出隱藏在資料中的樣態或關聯,讓我們從中挖掘出具有價值的資訊。針對不同的業務問題,我們可以選擇不同的技術來回答這些問題,例如:客戶是否會違約、預估產品未來三個月的銷售額、客戶可以區分為幾個族群、客戶買了 A 商品之後還會買什麼。IBM SPSS Modeler 是一個以業務問題為導向的機器學習建模工具,目前產品提供以下四種建模技術,足以滿足大部分對於結構化資料的預測分析問題:
監督式學習(迴歸與分類):這種技術使用一個或多個輸入變數來預測一個或多個目標變數,例如,決策樹(C&RT 樹狀結構、QUEST、CHAID 以及 C5.0 演算法)、迴歸方法(線性、邏輯、廣義線性與 Cox 迴歸演算法)、神經網路、支援向量機器以及貝葉斯網路等。
時間序列:針對以規律的時間間隔所收集的資料,例如,每日的股票價格或每週的銷售資料。基於歷史總會重複發生的假設,這種技術可以分析過去資料中存在的型樣,並且加以預測其未來可能的變化範圍。SPSS Modeler 除了提供 ARIMA 模型之外,還提供多種指數平滑模型(週期性、相加性、相乘性、線性趨勢等等)。
關聯規則:這種技術通常被歸類在非監督式學習方法,透過尋找資料中一個或多個實體(如事件、購買或屬性)與一個或多個其他實體之間的關聯性,試圖建立這些關聯性的規則集。例如,我們可以透過 Apriori 和 Carma 演算法進行典型的購物籃分析應用,為顧客推薦合適的商品。
叢集(或稱為集群分析):同樣也經常被歸類在非監督式學習方法,這種技術著重於識別資料中相似的群組,它們無須事先瞭解群組資訊及特性即可完成對資料的分組。例如,我們可以透過 Kohonen 和 K-Means 等知名的叢集演算法從過去的商品交易資料中為不同的客戶消費族群進行分組。
IBM SPSS Modeler 的工作原理
SPSS Modeler 是由節點與串流所組合出的獨特圖形化介面,節點代表對資料進行的個別作業,將一系列節點鏈結在一起稱之為串流,代表資料經過每個作業的流程。依據資料處理的不同階段,節點可以被簡單劃分為來源節點、處理節點以及輸出節點。來源節點通常出現在串流的開頭,負責將資料導入到串流中。處理節點通常出現在串流的中間位置,包含對資料的前置處理與建模。輸出節點則為處理節點產生各種輸出結果,例如產生資料表格、視覺化圖形以及模型性能分析等。
IBM SPSS Modeler 的使用者介面
本系列文章係以 IBM SPSS Modeler 視窗型介面工具作為說明的對象,若您使用的是網頁型介面(例如:IBM Cloud 或 IBM watsonx.ai 平台上的 SPSS Modeler 服務)則節點的圖示、操作畫面以及功能選單會有所不同,但基本上使用者操作概念是一致的。在作業系統中開啟 SPSS Modeler 程式後,可以看到以下的視窗畫面。最上方是主功能選單與快捷工具列;中間是串流畫布(也就是我們編輯節點與串流的主要工作區域);下方是節點工具箱,我們可以切換不同的工具箱選擇我們所需的各種操作節點。畫面右上角是管理工具箱,用於檢視串流、輸出成果以及已產生的模型。畫面右下角則是專案工具箱,用於將整個建模專案中相關的不同檔案、串流、模型和輸出成果組織成自定義的資料夾進行管理。

主選單與工具列:SPSS Modeler 允許我們從一系列下拉式選單中選擇特定功能或使用工具列執行常用的功能,例如儲存或開啟 SPSS Modeler 串流、複製和貼上功能節點以及執行串流。下圖是 SPSS Modeler 工具列的按鈕圖示及其功能說明:
串流畫布:這個是 SPSS Modeler 介面的最大區域,也是建置和操作資料串流的位置。每個作業都用一個圖示或節點代表,這些節點在串流中被鏈結在一起,代表資料在各個作業中進行流動。SPSS Modeler 允許我們自行調整串流畫布顯示比例的大小,按下 CTRL 鍵 + 滑鼠滾軸向上可以放大顯示比例(向下則可以縮小顯示比例),或是在畫布中點擊滑鼠右鍵,於選單中點擊「縮放」並選擇我們想要的顯示比例。
節點工具箱:SPSS Modeler 將相同類型的功能操作以頁籤進行組織,例如,「來源」頁籤包含用於讀取資料庫或不同類型檔案文件的節點,「資料列處理」頁籤包含選取、排序、聚集、合併、附加等資料記錄層級的操作節點,「資料欄位作業」頁籤包含過濾、導出、填入、分組等資料欄位層級的操作節點,「建模」頁籤則包含了用於產生新模型的演算法節點。
管理工具箱:包含用於管理串流、輸出和模型的三個頁籤,「串流」頁籤用於管理在介面中開啟的 SPSS Modeler 串流;「輸出」頁籤用於管理我們在執行串流過程中所產生的任何輸出成果;「模型」頁籤則負責管理我們在 SPSS Modeler 中建立的任何模型。
專案工具箱:SPSS Modeler 允許我們將專案相關的不同檔案、串流、模型和輸出成果組織成自定義的資料夾。預設情況下,SPSS Modeler 依據 CRISP-DM 方法論建立了一個資料夾結構,我們也可以依據類型(串流、節點、模型、圖表、其他)為每個專案進行各種專案成果物件的管理。
IBM SPSS Modeler 的串流設計
使用 SPSS Modeler 解決商業問題的方法係透過一系列節點處理資料的過程來實現,我們將這個過程稱為串流。這一系列節點代表要對資料執行的作業,而節點之間的鏈結則表示資料流程的方向。下圖是一個選擇最佳療效藥品的多元分類建模串流,我們首先使用「變數檔案」節點載入訓練資料集(DRUG1n.csv),接著從「統計圖」節點工具箱中產生三種不同的分析圖形,再來分別使用「導出」、「過濾器」、「類型」等三個節點完成前置資料處理,最後使用「C5.0」決策樹節點建立多元分類模型。完成的模型會以一個金黃色的鑽石圖示顯示在建模節點的下方,我們可以使用「分析」節點評估這個多元分類模型的預測能力;也可以使用「表格」節點顯示所有的明細資料,包含模型對每一筆資料進行的預測結果與置信度。
SPSS Modeler 透過在串流中連接的節點執行工作,一個串流的結構是從來源節點讀取資料開始,經過某些資料處理後以產生某種輸出的節點結束。如果串流無法以建立模型或顯示輸出的節點結束,則 SPSS Modeler 會提示錯誤訊息,如下圖所示。
當我們完成串流設計可以將其儲存為檔案,SPSS Modeler 串流會以 “.str” 的副檔名儲存,但 SPSS Modeler 也允許單獨儲存節點、輸出和模型,每種物件類型都有自己的副檔名。
儲存狀態:包含目前顯示的串流圖形以及所有已建立的模型(在管理管理工具箱中「模型」頁籤列出的項目),串流狀態的副檔名為 “.cst”。
儲存節點:在串流圖形中的單個節點,其副檔名為 “.nod”。
儲存輸出:在管理管理工具箱中「輸出」頁籤列出的表格、圖形、分析與報表,其副檔名為 “.cou”。
儲存模型:在管理管理工具箱中「模型」頁籤列出的模型,其副檔名為 “.gm”。
串流備份檔:每次儲存串流時,SPSS Modeler 都會自動進行檔案的備份,其副檔名會附加一個連字號(例如 mystream.str-)。若要還原已備份的串流檔案,只需刪除連字號並重新開啟檔案即可。
SPSS Modeler 的串流設計方法係透過在串流畫布中放置節點並定義它們之間的邏輯鏈結順序,節點可以被編輯以確保它們以適當的方式運行,然後執行該串流,最終產生串流的輸出結果。從一個空的串流開始,我們可以使用以下兩種方式將節點放置在畫布中:
從下方的工具箱中拖拉所選節點到畫布中。
雙擊節點,它將自動出現在畫布中。
在節點之間建立鏈結有多種方法,要將一個節點鏈結到另一個節點,方向必須按照資料流動的順序(從來源到輸出)。此外,鏈結本身亦必須遵守 SPSS Modeler 的邏輯規範:例如,您不能將兩個產生輸出的節點相互鏈結。要建立有效的鏈結,請選擇以下其中一種方法:
按住滑鼠中間按鍵,並在兩個節點之間拖曳並繪製連接線。
點擊並選取欲鏈結的第一個節點,然後在節點工具箱中雙擊要接續鏈結的節點,SPSS Modeler 會自動將它們連接在一起。
點擊並選取欲鏈結的第一個節點,然後點擊滑鼠右鍵,從下拉選單中選擇「連接 (Connect)」,然後點擊接續連接的節點。
點擊並選取欲鏈結的第一個節點,在鍵盤上按下「F2」按鈕,然後點擊接續連接的節點。
要將節點插入到既有的串流鏈結中,我們有二種實作的方法:一是刪除節點之間的既有鏈結,然後使用上述方法之一將新節點鏈結到既有節點之間;或者只需使用滑鼠中間按鍵點擊既有連接線並將其拖動到中間的節點上,讓鏈結通過該節點即可,如下圖所示。
要從串流畫布中刪除節點,只需點擊並選取它,然後點擊「Delete」按鈕即可。要刪除節點之間的鏈結,我們可以選擇以下其中一種方法:
在滑鼠游標懸停在連接線上時,點擊滑鼠右鍵,從下拉選單中選擇「刪除連接 (Delete Connection)」。
點擊並選取已鏈結的其中一個節點,點擊滑鼠右鍵,從下拉選單中選擇「斷開連接 (Disconnect)」。
點擊並選取已鏈結的其中一個節點,在鍵盤上按下「F3」按鈕。
執行 SPSS Modeler 串流
要執行整個 SPSS Modeler 串流,我們可以選擇來源節點,點擊滑鼠右鍵叫出下拉式選單,點擇「從這裡執行」的選項,SPSS Modeler 就會從來源節點開始,執行所有下游的節點。直接點擊工具列上的綠色三角形的「執行目前串流」按鈕,也可以達到相同的效果。然而,如果我們只想執行串流中的一個分支,則可以點擊並選取所需執行串流分支的終端節點,然後點擊工具列上土黃色五邊形的「執行選項」按鈕。
版權聲明
文章內容未經授權,請勿進行任何形式的複製、修改或發佈本文內容,如需轉載或引用,請在使用時注明出處並取得授權。本文中提及的特定公司、產品、品牌名稱等僅為描述目的,其版權歸屬於相應的公司或擁有者。
沒有留言:
張貼留言