2023年5月18日 星期四

AI 入門:3.結構化資料(人工智慧 28 堂基礎課程)

結構化資料是指具備明確定義大小和資料類型的資料,包括字元 (Characters)、數值 (Numbers)、日期 (Dates)、時間 (Times) 以及稱為字串 (Strings) 的字元組等。這些資料通常被組織成某種格式化的儲存庫,例如試算表 (Spreadsheet) 或資料庫 (Database),以便於讓它的元素可以被有效地定址、處理和分析。大多數專家認為,結構化資料佔了已產生資料量的 20%。

.
以 Excel 試算表為例,您可以發現它由行 (Rows) 和列 (Columns) 組成,其中一列通常代表擁有明確資料類型的屬性 (Attributes),而一行則代表具有多個列值(屬性)的單一筆記錄 (Record)。例如,一個包含銀行帳戶資訊的試算表,可能有一列表示帳戶號碼,另一列表示帳戶餘額,另一列表示帳戶最後一次借記或貸記交易的日期等等。以帳戶號碼為例,該列的資料類型可以被定義為僅接受包含字元和數字的字串,以帳戶餘額為例,該列的資料類型則可能只接受貨幣值,而以交易日期為例,該列可能只接受有效的日期資料。

從這個例子可以看出,結構化資料集中的每一行都具備明確的定義,也就是說,該行中的所有列值都有一定的關聯性。因此,我們可以說這個資料集中的每一行都具備“結構化”的特性,因為每一行儲存的都是一筆記錄,該記錄由一組定義明確的列值所組成,同時每一行都代表了一組相同性質的列值集合。

另一種常見的結構化資料儲存庫稱為關聯式資料庫管理系統 (Relational Database Management Systems, RDBMSs),例如 IBM Db2、Oracle Database 和 Microsoft SQL Server 等。與試算表類似,關聯式資料庫也使用行-列格式來儲存資料,但能夠儲存的資料量更大。因此,它們常被當作企業結構化資料的主要儲存庫,並且經常被用作人工智慧(AI)、機器學習(ML)和深度學習(DL)專案的主要資料來源。在大部分情況下,這些專案主要透過尋找既有資料行的模式來預測特定列的值。

舉例來說,在關聯式資料庫中,一張資料表 (Table) 包含關於當地房地產市場的資訊,而每一筆記錄(針對一棟房子)可能會包含房產類型、地理位置、平方英尺(坪數)、臥室數量、浴室數量、房間大小、稅務評估價值、每坪成交價格等資訊。透過這些資料,可以開發出一個機器學習模型來預測房產的銷售價格。此外,也可開發一個應用程式,當提供所有相關資料時,這個程式能使用機器學習模型來預測即將上市的新成屋銷售價格。


2.資料就是新一代的能源 《 上一堂課    下一堂課 》 4.非結構化資料



人工智慧 28 堂基礎入門課程,完整目錄連結:
1.課程目的 15.分類(Classification)
2.資料就是新一代的能源 16.低度擬合與過度擬合
3.結構化資料 17.分群(Clustering)
4.非結構化資料 18.整合學習方法
5.半結構化資料 19.模型參數與超參數
6.為資料加上維度的概念 20.深度學習框架
7.人工智慧、機器學習、深度學習的定義 21.深度學習的主力 – 神經網路
8.構成 AI, ML 與 DL 的基本元素 22.影像辨識 - 卷積神經網路(CNN)
9.機器(深度)學習工作流程 23.自然語言處理 - 循環神經網路(RNN)
10.模型具體是什麼? 24.生成式對抗網路(GAN)
11.資料準備-維度縮減 25.移轉學習
12.資料準備-資料分割 26.衡量預測結果的品質
13.機器學習方法概述 27.實作 ML 與 DL 的挑戰
14.迴歸(Regression) 28.IBM AI 階梯方法論







版權聲明
人工智慧 28 堂基礎入門課程系列文章係依據 IBM 原廠英文教材進行適度翻譯與內容調整而成,每一門課程使用的主圖片其版權歸屬於 IBM 公司。文章內容未經授權,請勿進行任何形式的複製、修改或發佈本文內容,如需轉載或引用,請在使用時注明出處並取得授權。本文中提及的特定公司、產品、品牌名稱等僅為描述目的,其版權歸屬於相應的公司或擁有者。

沒有留言:

張貼留言