技術主題

什麼是 Data Mesh 和 Data Fabric?

以筆記型電腦為重點的 IT 專案插圖

概述

Data MeshData Fabric 是最新、最偉大的舉措,還是旨在銷售解決方案的新流行語?這很難說,但這些新興的新企業計劃有一個共同的目標,即處理不同的數據。如果您可以使用不同的數據進行分析,而不必過度和重複地複製數據,您通常可以從數據中獲得更多價值。Data Mesh 和 Data Fabric 採用不同的方法來解決不同的數據問題。

Data Mesh 和 Data Fabric

Data Mesh 和 Data Fabric 有什麼區別?

數據網格和結構都專注於元數據和語義層,以利用多個數據源進行分析。然而,主要區別似乎與上下文有關。

通俗地說,數據網格是關於向分析引擎提供各種數據源的能力。數據網格依賴於您瞭解源數據文件的結構以及數據的上下文是可靠的這一事實。使用數據網格假定您知道創建數據的人員、時間、地點、原因和方式。數據網格可能是您使用的策略,例如,如果要分析來自公司中多個數據倉庫的數據。這是一個原始元數據定義相當明確的用例。

Data Fabric 側重於編排、元數據管理和向數據添加其他上下文。在 Data Fabric 中,管理語義層是重點。使用語義層來表示關鍵公司數據,併為數據開發通用方言。Data Fabric 專案中的語義層可能會將複雜數據映射到熟悉的業務術語(如產品、客戶或收入)中,以在整個組織中提供統一、整合的數據視圖。藥物試驗是使用 Data Fabric 的一個很好的例子,因為試驗的數據來自機器、報告和其他研究的組合,在這些研究中,數據幾乎沒有準確的元數據可供依賴。此數據也可能是「稀疏」的,這意味著大量行和列為空或空。

 


數據網格/數據結構技術

實際上,沒有 data-mesh-in-a-box 或 data-fabric-in-a-box 解決方案。在撰寫本文時,還沒有一站式結構和數據網格商店。換句話說,數據網格和結構不是軟體產品。它們更常見的是需要多種解決方案的戰略計劃。

如今,公司可能會使用多種技術來創建數據網格或數據結構。以下是一些範例:

傳統資料庫

現代資料庫可以利用資料網格樣式的外部表。 Vertica例如,允許您無縫使用 PARQUET 檔案和其他檔案類型,而無需將它們載入到主儲存庫中。此外,如果您有 AVRO、JSON 或 TEXT 格式的半結構化數據,則有一種簡單的方法可以利用讀取功能上的架構來使用數據。如果您有不同的來源並且希望像使用資料庫中的資料一樣利用它們,那麼此功能對於建立資料網格非常有價值

查詢引擎

整整一代的查詢引擎(有時稱為查詢加速器)也使數據網格成為可能。Dremio、Starburst 和 Druid 等解決方案主要側重於分析外部表。它們有時缺乏 ACID 合規性和高併發分析的能力,但它們通常有助於數據網格任務。越來越多的傳統資料庫添加了查詢引擎,以實現資料庫和數據湖中的無縫查詢。

可視化工具

一些高級可視化工具具有語義層系統。例如,MicroStrategy 提供了一個抽象層,提供了一種一致的方式來解釋來自多個來源的數據。此外,它還將複雜的數據映射到熟悉的業務術語中。此功能不僅是簡化的數據結構,還可以利用資料庫的外部表功能。結合在一起,它可以強大而強大。

圖形資料庫

圖形資料庫擅長編排和上下文,是許多 Data Fabric 解決方案背後的引擎。使用圖形資料庫實現Data Fabric是一個重要的專案,但完成後您將獲得真正的Data Fabric。

數據虛擬化

AtScale 和 Denodo 提供的數據虛擬化工具為 BI 和數據科學團隊提供了一致的數據使用檢視。現代資料庫還具有數據虛擬化功能。

數據目錄

數據目錄是組織中數據資產的有組織清單。像 Collibra 這樣的公司通過收集、組織、訪問和豐富元數據來提供數據發現和治理目錄。

本地物件存儲

將所有文件存儲在一個中心位置會很有説明。物件存儲可讓您在一個地方集中管理資料庫、數據存儲庫和數據湖,並具有卓越的性能、安全性和災難恢復能力。出於這個原因,來自 Pure、Vast、Dell ECS 和許多其他物件存儲的物件存儲可以幫助處理數據網格。

 


數據網格還是數據結構?

資料網格 是一種訪問可能不同的數據的方式,在所有數據源都特別有效:

  1. 有結構
  2. 尺寸變化不大
  3. 沒有稀疏填充的數據

如果數據網格有一個弱點,那就是上下文。如果你的分析問的是“根據誰?”的問題,那麼數據結構可以更強大地理解這一點。數據工程師在將源集成在一起時經常會遇到相互衝突的資訊。例如,新系統可能報告客戶的年齡為32歲,而舊數據可能報告同一客戶為30歲。數據沿襲是 Data Fabric 的一項附加功能,可讓您決定在發生衝突時更信任哪些數據源。

Data Fabric 解決方案 傾向於結合更多工具來解決不同的數據問題。這些工具比數據網格更優雅,通常也更複雜。它們可能包括更強大的轉換功能、增強的細粒度安全性、用於治理和沿襲的圖形介面。但是,如果 Data Fabric 存在弱點,則可能需要花費大量精力來創建/管理語義層。

那些吹捧數據結構策略的供應商通常會推廣知識圖譜的功能。知識圖譜用結構化和非結構化數據的語義表示取代了數據網格數據集成策略,這種策略通常可以更好地支援多個模式和維度的變化。

 


數據網格的新資料庫功能

數據通常比以往任何時候都更多樣化地分佈在資料庫和數據湖中。雲資料庫在訪問外部數據方面差異很大。某些解決方案要求數據以特定格式存儲在數據倉庫中,並且不支持數據湖。還有一些支持數據湖,但需要多種工具才能做到這一點。尋找能夠處理常見格式(如 ORC、PARQUET、AVRO、JSON)的解決方案,並優雅而快速地利用這些來源進行日常分析。尋找可以訪問組織中其他資料庫的解決方案(數據虛擬化),以便沒有難以訪問的數據。

我們能提供什麼協助?

腳注