2025年2月23日 星期日

IBM Data Replication (CDC) 即時資料同步抄寫解決方案

隨著我們逐步邁向人工智慧的成熟時代,AI 對工作方式的影響將日益明顯。目前常見的智能客服、語音及影像辨識、內容生成、需求與風險預測等 AI 應用,未來將進一步發展為具備自主決策和學習能力的 AI Agent(人工智慧代理人)。這些 AI 代理人可以透過多任務協作,實現更高效且自動化的工作流程,滿足企業提升收入與降低成本的目標。

作為 AI 核心基石的重要元素:資料(Data),將是直接影響企業能否成功發展 AI 應用的一項關鍵能力。隨著資料量不斷增長,企業的資料整合基礎架構(Data Integration Infrastructure)必須與時俱進,如果前一天的營運資料已無法滿足經營管理高層即時的商業決策需求,企業就必須思考如何縮短資料搬移的時間。本篇文章將介紹基於 Change Data Capture (CDC) 技術的 IBM Data Replication 即時資料同步抄寫解決方案,它能夠以近乎即時(Near real-time)的方式可靠地將業務系統產生的營運資料傳遞給需要採取行動的人員和流程,進而推動數位轉型、提高運營效率並有效降低風險。



集中式資料倉儲系統架構

最近幾年,我們常聽見「資料孤島(Data Silos)」這個名詞,它通常指的是企業內各事業單位所使用的資訊系統之間的資料無法有效地共享或整合,導致經營管理高層無法更全面地理解企業經營現況的一種問題。就我自己的經驗,資料孤島的問題並非只是資料無法整合與共享,實際上它強調的是分散在各處的資料無法透過〝自動化〞的方式進行整合。畢竟,將資料從應用系統中匯出後再透過人工以 Excel 等工具進行彙整,這種作法仍然是許多企業習慣的作業方式。

由於人工資料彙整經常導致輸入錯誤並且耗費大量時間與人力,許多企業開始著手打造如下圖所示的集中式資料倉儲系統架構。這是一個以商業智慧分析應用為導向的資料倉儲系統架構,各種業務資訊系統的資料首先透過 ETL 流程集中到原始資料暫置區(通常稱為 ODS 系統)。接著,資料會經過清理、分類與彙整等處理,建立一個基於星狀模式(Star Schema)的資料倉儲系統(稱為 Data Warehouse 或 DW 系統)。此外,為了提升在不同使用場景下的資料查詢與分析效率,企業還可以根據不同業務主題發展個別的資料市集(Data Mart)。在這樣的架構下,企業分散的資料得以有效集中與管理,無論是經營管理高層還是企劃分析人員,都能快速獲取所需資料,充分發揮資料資產的價值。


從資料整合基礎架構(Data Integration Infrastructure)的角度分析這個典型的集中式資料倉儲系統架構,我們可以直觀地發現,資料流向的箭頭從左側的來源系統逐步推進到右側的 ODS、DW 以及 Data Mart 等系統,最後供應給不同應用場景的使用者。這種資料整合流程通常透過 ETL 技術(擷取 Extract、轉換 Transform、載入 Load)來實現,並以定期批次的方式將來源端的資料按固定邏輯處理後搬移到目的端資料庫系統。因此,這類流程通常會面臨資料延遲的問題,而可接受的延遲時間則取決於企業實際的資料分析需求。例如,企業可能選擇在當天所有業務結束後的晚上 10 點啟動 ETL 資料整合流程,並於凌晨 6 點前完成所有資料的集中作業,這樣隔天上午 9 點,使用者便可以查看截至前一日的經營分析報表。

隨著市場環境的快速變化,企業面臨的競爭壓力日益加劇。如同文章開頭所提到,若前一天的營運資料已無法滿足經營管理高層即時的商業決策需求,企業便需思考如何縮短資料搬移的時間。作為企業的資訊架構規劃者,我們必須善用各種技術,以最即時且具成本效益的方式來優化資料整合基礎架構。在不影響業務資訊系統日常運作的前提下,以最低延遲時間將資料準確地從來源端供應到目的端系統,讓資料需求者能夠利用更即時的資料做出明智的商業決策。



基於 CDC 技術的 IBM Data Replication

資訊技術的演進是為了解決現代社會中出現的各種新挑戰,技術與工具的選擇必須以滿足實際需求為主要目的。建構一個合適的企業資料整合基礎架構可供選擇的技術與工具很多,每一種技術皆有其擅長的應用場景,下圖是三種在資料整合與交付領域常見的技術,分別是:虛擬化資料整合(資料聯邦技術)、批量資料整合(ETL 技術)以及增量資料整合(CDC 技術),簡要說明如下。


  • 虛擬化資料整合(Virtual Data Delivery)

  • 在企業的資訊基礎架構中,若應用系統儲存在資料庫中的資料無法(或不適合)進行物理性搬移時,可以透過資料聯邦技術(Data Federation)將來自多個不同來源系統的資料進行虛擬整合,形成一個合併的資料視圖。這種技術類似於資料庫中的檢視表(View Table),檢視表本身並不儲存資料,而是一個抽象的資料結構。當使用者執行資料查詢時,實際上是執行檢視表背後的 SQL 查詢,並回傳查詢結果。

    資料聯邦技術的核心在於對來自不同來源系統的資料進行合併查詢,在實際應用中,必須考慮跨資料庫系統間資料表的關聯性,以及處理複雜查詢時的性能表現,確保查詢能夠滿足預期的性能需求。

  • 批量資料整合(Bulk Data Delivery)

  • 批量資料整合是一種將資料進行物理搬移的做法,通常透過 ETL 或 ELT 技術來實現。這三個英文單字分別代表「擷取(Extract)」、「轉換(Transform)」和「載入(Load)」。在 ETL 流程中,首先從來源系統擷取資料,接著進行資料清理、過濾、格式轉換、合併與計算等處理,最終將處理後的資料載入到目標資料庫系統中。至於 ETL 與 ELT 的主要區別,在於資料轉換和載入的順序,以及資料轉換的執行地點。ETL 是先進行資料轉換,再將資料載入目標系統,並由獨立工具處理轉換運算;而 ELT 則是直接將來源資料載入目標系統,並透過目標資料庫中的 SQL 指令執行資料轉換。

    批量資料整合的優勢在於能夠一次性處理大量資料,特別適用於需要大規模資料移動和整合的情境,同時能確保資料的一致性與正確性。然而,這種方法也存在一些挑戰,包括較長的批次處理時間、資料即時性差以及較高的運算資源消耗等問題。

  • 增量資料整合(Incremental Data Delivery)

  • 相較於批量資料整合一次性處理大量資料的方式,增量資料整合則是運用 Change Data Capture(CDC)技術,專門處理資料庫中發生的異動資料。CDC 技術透過捕捉並追蹤資料庫交易日誌中的變動行為,例如新增(Insert)、修改(Update)和刪除(Delete)等 SQL 操作,並將這些變動資料以增量的形式同步到目標系統。增量資料整合僅處理自上次同步以來發生變動的資料,這不僅能確保來源與目標系統之間的資料即時同步性,還能大幅減少批量資料整合所需的處理時間和資源耗用。

    IBM Data Replication 是一種運用 CDC 技術來實現資料庫間即時資料同步的軟體解決方案。最初,IBM Data Replication 主要應用於滿足應用系統不中斷需求,並為異地備援資料庫系統提供即時資料同步。近年來,隨著應用系統資料讀寫分離、異質系統即時資料同步更新、甚至現代化資料中台架構等多樣化需求的興起,IBM Data Replication 的應用場景也日益豐富,並已成為企業資料整合基礎架構中不可或缺的一部分。

基於 Change Data Capture(CDC)技術的 IBM Data Replication(以下簡稱 IDR)工作原理如下圖所示。首先,IDR 會透過一個常駐程式(Capture Engine)持續監控來源資料庫交易日誌中的變更。當資料表發生 INSERT、UPDATE、DELETE 等 SQL 操作時(即資料表內容發生變化),IDR 會根據 SQL 操作的順序,將已提交(COMMIT)的交易透過 TCP/IP 網路傳輸給目標資料庫中的另一個常駐程式(Apply Engine)。這個程式會使用內建的資料容錯追蹤機制,確保 IDR 能夠依照來源資料庫中 SQL 操作的順序,準確地將這些變更操作同步套用於目標資料庫中。


這是個典型的 CDC 資料同步抄寫流程。除了具備低影響性、低延遲性以及保證資料交付等優勢外,IDR 還提供多種資料同步模式、資料過濾與轉換、資料稽核與衝突偵測、以及直觀的 GUI 使用介面與即時監控等豐富功能。這些特點將在後續的文章中陸續分享。



IBM Data Replication (CDC) 使用場景

就技術角度而言,IDR 透過追蹤來源資料庫的交易日誌,擷取資料庫中的異動操作,並將這些異動資料按順序同步抄寫到目標資料庫。除了關聯式資料庫系統,目標系統還可以根據業務需求,將資料同步至資料倉儲系統(例如 Db2 Warehouse)、大數據平台(Apache Hadoop)、ETL 工具(IBM DataStage)、以及事件串流平台(Apache Kafka)。在資料同步的應用範疇上,IDR 通常普遍使用在下圖所示的四種技術場景,包含:單向資料同步抄寫、雙向資料同步抄寫、異質系統資料同步,以及同質資料庫系統資料鏡像(Data Mirroring)。


我們在文章開頭將即時資料同步抄寫定位在解決經營管理高層即時商業決策需求的關鍵手段。具體而言,透過 CDC 技術,我們能夠優化企業現行資料整合基礎架構,並提高對營運狀態的敏感度。除了支援商業智慧分析應用外,IDR 還能解決企業在特定情境下的需求與挑戰。接下來,我們將介紹四種常見的商業應用場景:

  • 主機系統報表查詢外移

  • 在資訊化過程中,企業透過建置資訊系統來提升工作效率。然而,隨著企業規模的擴大,系統的資源負載與性能開始面臨瓶頸。最常見的情況是,當系統在使用高峰期,大量使用者同時進行資料建檔與報表查詢,導致系統出現過載或查詢延遲的現象,進而影響業務正常運作。由於種種先天條件限制和成本因素,企業往往無法透過簡單擴充資源來根本解決這一問題。因此,將主機系統中的報表查詢功能外移至另一個獨立系統,並採用「資料庫讀寫分離」架構,成為一種切實可行的解決方案。

    以某企業為例,其核心營運系統使用較早期的軟體技術和資料庫系統,隨著系統效能瓶頸的問題漸漸浮現,該企業計劃對系統進行升級與優化。然而,經過評估後發現,系統升級無法在短期內解決使用者操作體驗上的問題。因此,他們選擇使用 IDR 方案,透過 CDC 技術將報表查詢所需的資料即時同步到另一個資料庫,將查詢操作分流至新系統。這樣的做法不僅能有效減輕核心營運系統的資源負擔,還能讓使用者查詢到相同且最新的資料,同時為資訊團隊爭取更多時間,從而更好地規劃系統升級的各項細節。

  • 數據中台資料共享架構

  • 數據中台是近十年來逐步發展並逐漸成為主流的一種架構,所謂的「中台(Middle Platform)」是一種基於業務領域為導向的系統架構設計(Domain-Driven Design)思維。數據中台則是以資料共享為出發點,目的在提升系統間水平整合能力的資料基礎架構。讓不同系統能夠共享彼此的資料,儘管概念看似簡單,但實際執行卻是既困難又複雜的任務。不同的程式語言、設計架構、資料庫系統,甚至由不同團隊開發,這都可能成為資料共享過程中的障礙。

    若想基於微服務架構(Microservices Architecture)讓應用系統之間透過 API 進行資料共享,又會面臨既有系統重構(Refactoring)所帶來的重大挑戰。因此,若以企業現有的集中式資料倉儲系統為基礎來發展數據中台,結合 IDR 技術解決資料即時性的問題,再透過資料服務平台(Data Services Hub)提供統一的資料存取入口,就能有效構建一個支援跨部門及不同系統資料共享需求的即時數據中台架構。

  • 混合雲資料庫即時同步

  • 對於跨國企業而言,將資訊系統上雲已成為提升業務靈活性、降低維運成本、確保資訊安全與法規遵循、增強災難恢復能力以及實現統一管理等多重效益的關鍵策略。根據世界銀行於 2005 年發表的《天然災害熱點:全球風險分析》報告,台灣被列為全球天然災害風險最高的地區之一。有鑒於此,越來越多的國際大型客戶要求台灣供應商建立跨境核心營運備援系統,避免因重大天災而導致資訊機房無法正常運作,進而影響企業的正常營運及商業信用。

    因此,在雲端環境中建立備援系統並確保與資訊機房的穩定連結,已成為企業必須考量的關鍵選項之一。同時兼顧本地與全球運營需求的混合雲架構,能夠有效作為企業部署備援系統的理想解決方案。透過混合雲,企業不僅能夠達成系統持續運作的目標,還能保留對部分敏感資料的控管。這種靈活的部署方式,不僅有效平衡了安全性與成本效益,還能保障企業對資料的主權和合規性要求。為了確保雲端備援系統能在第一時間無縫接手運作,企業可運用IDR 技術,以更安全、快速且準確的方式將資料從地端資料庫即時同步到雲端系統,確保企業在面對任何突發狀況時,仍能保持業務的連續性與穩定性。

  • 集中式主資料管理系統

  • 主資料(Master Data)是指企業日常營運中最為關鍵的實體資料,這些資料通常在不同業務部門和資訊系統中被重複使用或相互關聯,例如:客戶(帳戶)、產品、供應商以及員工資料等等。主資料具有更新頻率低、關聯度高且跨部門使用的特徵,因此對其進行有效管理顯得尤其重要。為避免資料重複、錯誤或不一致的情況,企業需要對主資料進行統一管理,以確保資料的一致性、準確性和完整性。

    過去,企業的主資料往往分散在 ERP、CRM、SCM、MES、HR & Finance 等不同的業務資訊系統中,這些資料存在著格式不一致、標準化差異以及重複的問題,導致資料整合流程變得極為複雜。隨著業務規模的擴大,越來越多的企業開始思考以專門的系統來管理及維護主資料。例如,客戶資料統一由 CRM 系統負責建檔、更新和維護,其餘的業務系統則透過參照 CRM 系統的方式取得客戶資料。部分金融機構則會透過建立 CIF(Customer Information File)系統來統一管理客戶基本資料,從而實現以客戶為中心的金融服務。

    無論選擇哪一種方式建立集中式主資料管理應用,企業都必須確保資料的即時性與一致性。為了實現這一目標,企業可以運用 IDR 技術,根據現有資訊基礎架構的運作需求,選擇雙向同步抄寫(Bidirectional Replication)或中心輻射式推送抄寫(Hub-and-Spoke Replication with Propagation)的方式來構建集中式主資料管理系統。這樣,企業便能夠藉由清晰的標準、流程和技術來管理主資料,從而提高業務決策的準確性,並有效提升運營效率。



版權聲明
文章內容未經授權,請勿進行任何形式的複製、修改或發佈本文內容,如需轉載或引用,請在使用時注明出處並取得授權。本文中提及的特定公司、產品、品牌名稱等僅為描述目的,其版權歸屬於相應的公司或擁有者。

沒有留言:

張貼留言