2023年5月18日 星期四

AI 入門:5.半結構化資料(人工智慧 28 堂基礎課程)

半結構化資料是一種類似於結構化資料但沒有嚴格結構限制的資料形式,它並沒有像試算表和關聯式資料庫所使用的正式結構,但仍然具備一些組織化的結構特性,例如語意標籤 (Semantic Tags) 和層次結構 (Hierarchies)。相較於非結構化資料,半結構化資料更容易讀取和分析。

.
半結構化資料常見的一個例子是超文本標記語言(HTML)程式碼,它可以使用一定的結構方式來表達網頁內容。其他形式的半結構化資料包括:
  • 電子郵件訊息 (Email messages):是一種透過網際網路技術進行數位資訊傳遞與交換的方式,讓寄件人能夠將訊息發送給一個或多個收件人。基本的電子郵件訊息包含“寄件人”、“收件人”、“主題”與“訊息本文”等屬性,而現今的電子郵件訊息內容已經能夠包含各種多媒體格式的數位內容。

  • CSV 文檔 (Comma Separated Value files):是一種以純文字格式儲存表格資料的文件。類似於試算表,資料由代表“行 (Rows)”的記錄所組成,每一筆記錄則由“列 (Columns)”值組成,列值之間則以逗號作為分隔符號。這種資料格式非常簡單,易於產生和處理,因此廣泛用於不同軟體之間的資料交換與儲存。

  • XML 文檔 (Extensible Markup Language documents):是一種標記式語言 (Markup language),它依循 HTML 的發展經驗,定義了一套基於標記與層次結構等嚴謹規則的資料描述語言,主要用於將資料編碼為人類和機器均可以閱讀的資料格式。XML 與 HTML 有些相似之處,但 XML 更加通用,並且可以描述不同類型的資料。此外,XML 也具備易於建立與修改、易於解析和處理、以及易於擴展和客製等特點。

  • JSON 文檔 (JavaScript Object Notation objects):是一種基於 JavaScript 程式語言所發展出的格式,用於資料交換。其內容由屬性和值所組成,這種資料結構設計具有易於人類閱讀和機器處理的優勢。

  • NoSQL 資料庫:是一種不同於關聯式資料庫的資料建模結構,它提供了不同的資料儲存與檢索機制。一般而言,NoSQL 資料庫根據資料儲存的特性和用途可分為以下四種類型:
    • Key-Value 資料庫:是一種與關聯式資料表不同的資料儲存結構。相較於關聯式資料庫需要事先定義綱要 (Schema),Key-Value 資料庫以“鍵-值”對應的方式來儲存資料。常見的 Key-Value 資料庫包含 Google BigTable、Hadoop HBase 與 Apache Cassandra 等。

    • In-memory 資料庫:是一種 NoSQL 資料庫,主要特點在於將資料儲存在記憶體中,以提升資料的讀取效率和速度。常見的 In-memory 資料庫包括 Memcached 和 Redis 等。這些資料庫通常被應用於需要高效處理大量數據的場景,以便大幅提升系統的性能和效率。

    • Document 資料庫:是一種 NoSQL 資料庫,它以文檔的方式儲存資料。與傳統的關聯式資料庫不同,Document 資料庫並不需要固定的資料結構,因此能夠更靈活地應對資料的變化。常見的 Document 資料庫包括 CouchDB 和 MongoDB 等。

    • Graph 資料庫:是一種使用圖學結構來儲存資料的 NoSQL 資料庫,它能夠有效地描述資料結點 (Nodes) 和關聯 (Relationships) 之間的複雜網路圖架構。Graph 資料庫能夠充分利用資料之間的相關性,進行更為複雜的查詢和分析,最簡單的例子就是 Facebook 中用來描述使用者之間的交友關聯。常見的 Graph 資料庫包含 Neo4j 等。

值得一提的是,現今時代的資料很少是完全沒有結構定義的,或是沒有與之相關聯的中繼資料定義。也就是說,即使被歸類為非結構化的資料,在技術上也可以被認定為半結構化的資料。因此,有些人認為非結構化資料和半結構化資料之間的區別是沒有意義的。


4.非結構化資料 《 上一堂課    下一堂課 》 6.為資料加上維度的概念



人工智慧 28 堂基礎入門課程,完整目錄連結:
1.課程目的 15.分類(Classification)
2.資料就是新一代的能源 16.低度擬合與過度擬合
3.結構化資料 17.分群(Clustering)
4.非結構化資料 18.整合學習方法
5.半結構化資料 19.模型參數與超參數
6.為資料加上維度的概念 20.深度學習框架
7.人工智慧、機器學習、深度學習的定義 21.深度學習的主力 – 神經網路
8.構成 AI, ML 與 DL 的基本元素 22.影像辨識 - 卷積神經網路(CNN)
9.機器(深度)學習工作流程 23.自然語言處理 - 循環神經網路(RNN)
10.模型具體是什麼? 24.生成式對抗網路(GAN)
11.資料準備-維度縮減 25.移轉學習
12.資料準備-資料分割 26.衡量預測結果的品質
13.機器學習方法概述 27.實作 ML 與 DL 的挑戰
14.迴歸(Regression) 28.IBM AI 階梯方法論







版權聲明
人工智慧 28 堂基礎入門課程系列文章係依據 IBM 原廠英文教材進行適度翻譯與內容調整而成,每一門課程使用的主圖片其版權歸屬於 IBM 公司。文章內容未經授權,請勿進行任何形式的複製、修改或發佈本文內容,如需轉載或引用,請在使用時注明出處並取得授權。本文中提及的特定公司、產品、品牌名稱等僅為描述目的,其版權歸屬於相應的公司或擁有者。

沒有留言:

張貼留言