A malha de dados e a malha de dados são as iniciativas mais recentes e mais importantes ou são novos chavões para vender soluções? É difícil dizer, mas essas novas iniciativas corporativas emergentes têm um objetivo em comum: lidar com dados díspares. Muitas vezes, é possível obter mais valor de seus dados se for possível usar dados díspares para sua análise sem precisar copiar dados excessiva e repetidamente. O data mesh e o data fabric adotam abordagens diferentes para resolver o problema dos dados díspares.
Tanto o data mesh quanto o fabric se concentram em metadados e em uma camada semântica para aproveitar várias fontes de dados para análise. No entanto, a principal diferença parece estar no contexto.
Em termos leigos, a malha de dados é a capacidade de oferecer várias fontes de dados a um mecanismo analítico. A malha de dados conta com o fato de que você conhece a estrutura dos seus arquivos de dados de origem e que o contexto dos dados é sólido. O uso da malha de dados pressupõe que você saiba quem, quando, onde, por que e como os dados foram criados. A malha de dados pode ser a estratégia a ser usada, por exemplo, se você quiser analisar dados de vários data warehouses da sua empresa. Esse é um caso de uso em que os metadados originais são bastante bem definidos.
A estrutura de dados concentra-se na orquestração, no gerenciamento de metadados e no acréscimo de contexto adicional aos dados. Na estrutura de dados, o foco é o gerenciamento da camada semântica. Use a camada semântica para representar dados corporativos essenciais e desenvolver um dialeto comum para seus dados. Uma camada semântica em um projeto de estrutura de dados pode mapear dados complexos em termos comerciais conhecidos, como produto, cliente ou receita, para oferecer uma visão unificada e consolidada dos dados em toda a organização. Os estudos farmacêuticos são um bom exemplo de como usar o data fabric, pois os dados de um estudo são provenientes de uma combinação de máquinas, relatórios e outros estudos em que os dados têm poucos metadados precisos nos quais se pode confiar. Esses dados também podem ser "esparsos", o que significa que um número significativo de linhas e colunas está em branco ou é nulo.
Na verdade, não existem soluções do tipo data mesh-in-a-box ou data-fabric-in-a-box. Até o momento em que este artigo foi escrito, não havia um balcão único para fabric e data mesh. Em outras palavras, data mesh e fabric não são produtos de software. Eles são mais comumente iniciativas estratégicas que exigem várias soluções.
Atualmente, as empresas podem usar várias tecnologias para criar uma malha de dados ou um tecido de dados. Aqui estão alguns exemplos:
Bancos de dados tradicionais
Os bancos de dados modernos podem aproveitar tabelas externas no estilo de malha de dados. Vertica O banco de dados da Microsoft, por exemplo, permite que você use arquivos PARQUET e outros tipos de arquivo sem problemas, sem carregá-los no repositório principal. Além disso, se você tiver dados semiestruturados em AVRO, JSON ou TEXT, há uma maneira fácil de aproveitar o esquema em recursos de leitura para usar os dados. Essa funcionalidade é valiosa para criar uma malha de dados se você tiver fontes diferentes e quiser aproveitá-las como faria com os dados em um banco de dados.
Mecanismos de consulta
Uma geração inteira de mecanismos de consulta (às vezes chamados de aceleradores de consulta) também possibilita a malha de dados. Soluções como Dremio, Starburst e Druid concentram-se principalmente na análise de tabelas externas. Às vezes, elas não estão em conformidade com a ACID e não têm a capacidade de fazer análises com alta simultaneidade, mas geralmente são úteis na missão da malha de dados. Cada vez mais os bancos de dados tradicionais adicionaram mecanismos de consulta para permitir a consulta contínua em um banco de dados e em um data lake.
Ferramentas de visualização
Algumas ferramentas avançadas de visualização têm um sistema de camada semântica. A MicroStrategy, por exemplo, oferece uma camada de abstração que proporciona uma maneira consistente de interpretar dados de várias fontes. Além disso, ela mapeia dados complexos em termos comerciais familiares. Esse recurso não é apenas uma estrutura de dados simplificada, mas também pode aproveitar os recursos de tabelas externas de seu banco de dados. Combinados, eles podem ser muito poderosos.
Bancos de dados gráficos
Os bancos de dados gráficos são bons em orquestração e contexto e são os mecanismos por trás de muitas soluções de estrutura de dados. A implementação da malha de dados com um banco de dados gráfico é um projeto significativo, mas você terá uma verdadeira malha de dados quando concluída.
Virtualização de dados
As ferramentas de virtualização de dados, como as oferecidas pela AtScale e pela Denodo, apresentam uma visão consistente para as equipes de BI e de ciência de dados consumirem os dados. Os bancos de dados modernos também têm recursos de virtualização de dados.
Catálogo de dados
Um catálogo de dados é um inventário organizado de ativos de dados na organização. Empresas como a Collibra fornecem catálogos de descoberta e governança de dados coletando, organizando, acessando e enriquecendo metadados.
Armazenamento de objetos no local
Pode ser útil armazenar todos os seus arquivos em um local central. Os armazenamentos de objetos permitem gerenciar centralmente bancos de dados, repositórios de dados e lagos de dados em um único local com excelente desempenho, segurança e recuperação de desastres. Por esse motivo, os armazenamentos de objetos, como os da Pure, Vast, Dell ECS e muitos outros, podem ajudar com a malha de dados.
A malha de dados é uma forma de acessar dados que podem ser díspares e funciona particularmente bem quando todas as fontes de dados:
Se a malha de dados tem um ponto fraco, ele é o contexto. Se a sua análise está fazendo a pergunta "de acordo com quem?", então uma malha de dados pode ser mais poderosa para entender isso. Os engenheiros de dados geralmente se deparam com informações conflitantes ao integrar fontes. Por exemplo, um novo sistema pode estar informando a idade de um cliente como 32 anos, enquanto os dados legados podem estar informando que o mesmo cliente tem 30 anos. A linhagem de dados é um recurso adicional da estrutura de dados que permite que você decida em quais fontes de dados confiar mais quando houver conflitos.
As soluções de malha de dados tendem a combinar mais ferramentas para resolver seu problema de dados díspares. As ferramentas são mais elegantes e geralmente mais complexas do que a malha de dados. Elas podem incluir mais recursos de transformação, segurança aprimorada e refinada, interfaces gráficas para governança e linhagem. No entanto, se há um ponto fraco na malha de dados, é que você provavelmente terá que despender um esforço significativo para criar/gerenciar uma camada semântica.
Os fornecedores que divulgam uma estratégia de malha de dados geralmente promovem os recursos de um gráfico de conhecimento. Um gráfico de conhecimento substitui a estratégia de integração de dados de malha de dados por uma representação semântica de dados estruturados e não estruturados - uma representação que, em geral, suporta melhor vários esquemas e dimensões que mudam.
Mais do que nunca, os dados costumam estar localizados de forma diversificada em bancos de dados e data lakes. Os bancos de dados em nuvem variam muito em termos de acesso a dados externos. Algumas soluções exigem que os dados sejam armazenados em formatos específicos em data warehouses e não oferecem suporte para data lakes. Outras ainda oferecem suporte a data lakes, mas exigem várias ferramentas para isso. Procure uma solução que possa lidar com formatos comuns (como ORC, PARQUET, AVRO, JSON) e aproveitar essas fontes na análise diária com graça e rapidez. Procure soluções que possam alcançar outros bancos de dados em sua organização (virtualização de dados) para que nenhum dado seja difícil de acessar.
Analise grandes conjuntos de dados com o mínimo de computação e armazenamento