小麥的 AI 學習之路: AI 入門：3.結構化資料（人工智慧 28 堂基礎課程）

結構化資料是指具備明確定義大小和資料類型的資料，包括字元 (Characters)、數值 (Numbers)、日期 (Dates)、時間 (Times) 以及稱為字串 (Strings) 的字元組等。這些資料通常被組織成某種格式化的儲存庫，例如試算表 (Spreadsheet) 或資料庫 (Database)，以便於讓它的元素可以被有效地定址、處理和分析。大多數專家認為，結構化資料佔了已產生資料量的 20%。

以 Excel 試算表為例，您可以發現它由行 (Rows) 和列 (Columns) 組成，其中一列通常代表擁有明確資料類型的屬性 (Attributes)，而一行則代表具有多個列值（屬性）的單一筆記錄 (Record)。例如，一個包含銀行帳戶資訊的試算表，可能有一列表示帳戶號碼，另一列表示帳戶餘額，另一列表示帳戶最後一次借記或貸記交易的日期等等。以帳戶號碼為例，該列的資料類型可以被定義為僅接受包含字元和數字的字串，以帳戶餘額為例，該列的資料類型則可能只接受貨幣值，而以交易日期為例，該列可能只接受有效的日期資料。

從這個例子可以看出，結構化資料集中的每一行都具備明確的定義，也就是說，該行中的所有列值都有一定的關聯性。因此，我們可以說這個資料集中的每一行都具備“結構化”的特性，因為每一行儲存的都是一筆記錄，該記錄由一組定義明確的列值所組成，同時每一行都代表了一組相同性質的列值集合。

另一種常見的結構化資料儲存庫稱為關聯式資料庫管理系統 (Relational Database Management Systems, RDBMSs)，例如 IBM Db2、Oracle Database 和 Microsoft SQL Server 等。與試算表類似，關聯式資料庫也使用行-列格式來儲存資料，但能夠儲存的資料量更大。因此，它們常被當作企業結構化資料的主要儲存庫，並且經常被用作人工智慧（AI）、機器學習（ML）和深度學習（DL）專案的主要資料來源。在大部分情況下，這些專案主要透過尋找既有資料行的模式來預測特定列的值。

舉例來說，在關聯式資料庫中，一張資料表 (Table) 包含關於當地房地產市場的資訊，而每一筆記錄（針對一棟房子）可能會包含房產類型、地理位置、平方英尺（坪數）、臥室數量、浴室數量、房間大小、稅務評估價值、每坪成交價格等資訊。透過這些資料，可以開發出一個機器學習模型來預測房產的銷售價格。此外，也可開發一個應用程式，當提供所有相關資料時，這個程式能使用機器學習模型來預測即將上市的新成屋銷售價格。

2.資料就是新一代的能源 《上一堂課 ∣ 下一堂課》 4.非結構化資料

人工智慧 28 堂基礎入門課程，完整目錄連結：

1.課程目的	15.分類（Classification）
2.資料就是新一代的能源	16.低度擬合與過度擬合
3.結構化資料	17.分群（Clustering）
4.非結構化資料	18.整合學習方法
5.半結構化資料	19.模型參數與超參數
6.為資料加上維度的概念	20.深度學習框架
7.人工智慧、機器學習、深度學習的定義	21.深度學習的主力 – 神經網路
8.構成 AI, ML 與 DL 的基本元素	22.影像辨識 - 卷積神經網路（CNN）
9.機器（深度）學習工作流程	23.自然語言處理 - 循環神經網路（RNN）
10.模型具體是什麼?	24.生成式對抗網路（GAN）
11.資料準備－維度縮減	25.移轉學習
12.資料準備－資料分割	26.衡量預測結果的品質
13.機器學習方法概述	27.實作 ML 與 DL 的挑戰
14.迴歸（Regression）	28.IBM AI 階梯方法論

人工智慧 28 堂基礎入門課程系列文章係依據 IBM 原廠英文教材進行適度翻譯與內容調整而成，每一門課程使用的主圖片其版權歸屬於 IBM 公司。文章內容未經授權，請勿進行任何形式的複製、修改或發佈本文內容，如需轉載或引用，請在使用時注明出處並取得授權。本文中提及的特定公司、產品、品牌名稱等僅為描述目的，其版權歸屬於相應的公司或擁有者。

小麥的 AI 學習之路

2023年5月18日星期四

AI 入門：3.結構化資料（人工智慧 28 堂基礎課程）

沒有留言:

張貼留言

2023年5月18日 星期四

AI 入門：3.結構化資料（人工智慧 28 堂基礎課程）

沒有留言:

張貼留言

2023年5月18日星期四