Tekniska ämnen

Vad är Data Mesh och Data Fabric?

Illustration av IT-artiklar med fokus på en bärbar dator

Översikt

Är data mesh och data fabric det senaste och bästa initiativet, eller nya modeord som syftar till att sälja lösningar? Det är svårt att säga, men dessa nya företagsinitiativ har ett gemensamt mål - nämligen att hantera olika data. Du kan ofta få ut mer värde av dina data om du kan använda olika data för dina analyser utan att behöva kopiera data alltför mycket och upprepade gånger. Data mesh och data fabric har olika tillvägagångssätt för att lösa problemet med disparata data.

Data Mesh och Data Fabric

Vad är skillnaden mellan data mesh och data fabric?

Både data mesh och fabric fokuserar på metadata och ett semantiskt lager för att utnyttja flera datakällor för analys. Den stora skillnaden verkar dock handla om sammanhang.

Enkelt uttryckt handlar data mesh om möjligheten att erbjuda olika datakällor till en analysmotor. Data mesh bygger på att du känner till strukturen i dina källdatafiler och att du vet i vilket sammanhang data finns. Att använda data mesh förutsätter att du vet vem, när, var, varför och hur data skapades. Data mesh kan vara den strategi du använder, till exempel om du vill analysera data från flera datalager i ditt företag. Det är ett användningsfall där de ursprungliga metadata är ganska väldefinierade.

Data fabric fokuserar på orkestrering, metadatahantering och att lägga till ytterligare sammanhang i data. I datafabriken är hanteringen av det semantiska lagret i fokus. Använd det semantiska lagret för att representera kritisk företagsdata och utveckla en gemensam dialekt för dina data. Ett semantiskt lager i ett datafabriksprojekt kan kartlägga komplexa data i bekanta affärstermer som produkt, kund eller intäkter för att erbjuda en enhetlig, konsoliderad vy av data i hela organisationen. Läkemedelsprövningar är ett bra exempel på var du kan använda data fabric, eftersom data från en prövning kommer från en kombination av maskiner, rapporter och andra studier där data har få exakta metadata att förlita sig på. Dessa data kan också vara "glesa", vilket innebär att ett betydande antal rader och kolumner är tomma eller noll.

 


Teknik för data mesh/data fabric

Det finns egentligen inga lösningar med data-mesh-in-a-box eller data-fabric-in-a-box. När den här artikeln skrevs fanns det ingen one-stop-shop för fabric och data mesh. Med andra ord är data mesh och fabric inte mjukvaruprodukter. De är snarare strategiska initiativ som kräver flera olika lösningar.

Idag kan företag använda flera olika tekniker för att skapa ett datanät eller en datafabrik. Här är några exempel:

Databaser för traditioner

Moderna databaser kan utnyttja externa tabeller i datanätstil. Vertica I PARQUET-databasen kan du till exempel använda PARQUET-filer och andra filtyper sömlöst utan att ladda dem i huvudlagret. Om du har semistrukturerade data i AVRO, JSON eller TEXT finns det dessutom ett enkelt sätt att utnyttja schema on read-funktioner för att använda data. Den här funktionen är värdefull för att skapa ett datanät om du har olika källor och vill utnyttja dem som du skulle göra med data i en databas.

Sökmotorer

En hel generation av frågemotorer (ibland kallade frågeacceleratorer) gör också data mesh möjligt. Lösningar som Dremio, Starburst och Druid fokuserar främst på att analysera externa tabeller. De saknar ibland ACID-överensstämmelse och förmågan att göra analyser med hög samtidighet, men de är ofta till hjälp i datanätuppdraget. Fler och fler traditionella databaser har lagt till frågemotorer för att möjliggöra sömlösa frågor i en databas och en datasjö.

Verktyg för visualisering

Vissa avancerade visualiseringsverktyg har ett system med semantiska lager. MicroStrategy, till exempel, erbjuder ett abstraktionslager som ger ett konsekvent sätt att tolka data från flera källor. Dessutom kartlägger det komplexa data till välkända affärstermer. Den här funktionen är inte bara en förenklad datastruktur utan kan också utnyttja databasens funktioner för externa tabeller. Kombinerat kan det vara mycket kraftfullt.

Grafdatabaser

Grafdatabaser är bra på orkestrering och kontext och är motorerna bakom många lösningar för datafabriker. Att implementera datafabrik med en grafdatabas är ett betydande projekt, men du kommer att få en riktig datafabrik när den är klar.

Virtualisering av data

Datavirtualiseringsverktyg som de som erbjuds av AtScale och Denodo ger BI- och Data Science-team en enhetlig vy för att konsumera data. Moderna databaser har också funktioner för datavirtualisering.

Datakatalog

En datakatalog är en organiserad inventering av datatillgångar i organisationen. Företag som Collibra tillhandahåller datakataloger för upptäckt och styrning av data genom att samla in, organisera, få tillgång till och berika metadata.

Lokal objektbutik

Det kan vara till hjälp att lagra alla filer på en central plats. Med objektbutiker kan du centralt hantera databaser, datalager och datasjöar på ett ställe med utmärkt prestanda, säkerhet och katastrofåterställning. Av den anledningen kan objektbutiker som de från Pure, Vast, Dell ECS och många andra hjälpa till med data mesh.

 


Data mesh eller data fabric?

Data mesh är ett sätt att få tillgång till data som kan vara olika och fungerar särskilt bra när alla datakällor:

  1. Ha struktur
  2. Har dimensioner som inte förändras särskilt mycket
  3. Har inte glesbefolkade data

Om data mesh har en svaghet så är det kontexten. Om din analys ställer frågan "enligt vem?" kan en datafabrik vara mer kraftfull för att förstå detta. Dataingenjörer stöter ofta på motstridig information när de integrerar källor med varandra. Ett nytt system kan till exempel rapportera en kunds ålder till 32 år, medan äldre data kan rapportera samma kund som 30 år gammal. Data lineage är en extra funktion i data fabric som låter dig bestämma vilka datakällor du ska lita mer på när det finns konflikter.

Data fabric-lösningar tenderar att kombinera fler verktyg för att lösa ditt problem med disparata data. Verktygen är både mer eleganta och vanligtvis mer komplexa än data mesh. Det kan handla om större transformationsmöjligheter, förbättrad finkornig säkerhet, grafiska gränssnitt för styrning och lineage. Men om det finns en svaghet i data fabric är det att du förmodligen måste lägga ner betydande arbete på att skapa/hantera ett semantiskt lager.

De leverantörer som förespråkar en "data fabric"-strategi lyfter ofta fram möjligheterna med en kunskapsgraf. En kunskapsgraf ersätter datanätets dataintegrationsstrategi med en semantisk representation av både strukturerad och ostrukturerad data - en som ofta bättre stöder flera scheman och dimensioner som förändras.

 


Nya databasfunktioner för datanät

Mer än någonsin finns data ofta på olika platser i databaser och datasjöar. Molndatabaser varierar kraftigt när det gäller åtkomst till externa data. Vissa lösningar kräver att data lagras i specifika format i datalager och erbjuder inget stöd för datasjöar. Ytterligare andra stöder datasjöar men kräver flera verktyg för att göra det. Leta efter en lösning som kan hantera vanliga format (t.ex. ORC, PARQUET, AVRO, JSON) och utnyttja dessa källor i den dagliga analysen på ett smidigt och snabbt sätt. Leta efter lösningar som kan nå andra databaser i din organisation (datavirtualisering) så att ingen data är svår att komma åt.

Hur kan vi hjälpa till?

Fotnoter