Temas técnicos

¿Qué son Data Mesh y Data Fabric?

Ilustración de artículos informáticos centrada en un ordenador portátil

Visión general

¿Son la malla de datos y el tejido de datos la última y mejor iniciativa, o nuevas palabras de moda destinadas a vender soluciones? Es difícil de decir, pero estas nuevas iniciativas corporativas emergentes tienen un objetivo en común: tratar con datos dispares. A menudo puede obtener más valor de sus datos si puede utilizar datos dispares para sus análisis sin tener que copiarlos excesiva y repetidamente. La malla de datos y el tejido de datos adoptan enfoques diferentes para resolver el problema de los datos dispares.

Malla de datos y tejido de datos

¿Cuál es la diferencia entre data mesh y data fabric?

Tanto el data mesh como el fabric se centran en los metadatos y en una capa semántica para aprovechar múltiples fuentes de datos para el análisis. Sin embargo, la principal diferencia parece estar en el contexto.

En términos sencillos, el mallado de datos consiste en la capacidad de ofrecer varias fuentes de datos a un motor analítico. La malla de datos cuenta con el hecho de que usted conoce la estructura de sus archivos de datos de origen y que el contexto de los datos es sólido. El uso de la malla de datos presupone que se sabe quién, cuándo, dónde, por qué y cómo se crearon los datos. La malla de datos puede ser la estrategia que utilice, por ejemplo, si desea analizar datos de varios almacenes de datos de su empresa. Es un caso de uso en el que los metadatos originales están bastante bien definidos.

El tejido de datos se centra en la orquestación, la gestión de metadatos y la adición de contexto adicional a los datos. En el tejido de datos, la gestión de la capa semántica es el centro de atención. Utilice la capa semántica para representar datos corporativos críticos y desarrollar un dialecto común para sus datos. Una capa semántica en un proyecto de tejido de datos podría mapear datos complejos en términos empresariales familiares como producto, cliente o ingresos para ofrecer una visión unificada y consolidada de los datos en toda la organización. Los ensayos farmacéuticos son un buen ejemplo de uso de data fabric, ya que los datos de un ensayo proceden de una combinación de máquinas, informes y otros estudios en los que los datos tienen pocos metadatos precisos en los que basarse. Estos datos también pueden ser "dispersos", lo que significa que un número significativo de filas y columnas están en blanco o son nulas.

 


Tecnologías de malla de datos/tejido de datos

En realidad, no existen soluciones de malla de datos en una caja ni de tejido de datos en una caja. En el momento de redactar este artículo, no existía una ventanilla única para el tejido y la malla de datos. En otras palabras, la malla y el tejido de datos no son productos de software. Se trata más bien de iniciativas estratégicas que requieren múltiples soluciones.

Hoy en día, las empresas pueden utilizar varias tecnologías para crear una malla de datos o un tejido de datos. He aquí algunos ejemplos:

Bases de datos tradicionales

Las bases de datos modernas pueden aprovechar tablas externas al estilo de las mallas de datos. Vertica, por ejemplo, permite utilizar archivos PARQUET y otros tipos de archivos sin necesidad de cargarlos en el repositorio principal. Además, si dispone de datos semiestructurados en AVRO, JSON o TEXTO, existe una forma sencilla de aprovechar las funciones de esquema en lectura para utilizar los datos. Esta funcionalidad es valiosa para crear una malla de datos si tienes fuentes dispares y quieres aprovecharlas como harías con los datos de una base de datos.

Motores de consulta

Toda una generación de motores de consulta (a veces denominados aceleradores de consultas) también hacen posible el mallado de datos. Soluciones como Dremio, Starburst y Druid se centran principalmente en el análisis de tablas externas. A veces carecen de la conformidad ACID y de la capacidad de realizar análisis con alta concurrencia, pero a menudo son útiles en la misión de malla de datos. Cada vez son más las bases de datos tradicionales que han incorporado motores de consulta para permitir la consulta sin fisuras en una base de datos y un lago de datos.

Herramientas de visualización

Algunas herramientas avanzadas de visualización disponen de un sistema de capas semánticas. MicroStrategy, por ejemplo, ofrece una capa de abstracción que proporciona una forma coherente de interpretar los datos procedentes de múltiples fuentes. Además, mapea datos complejos en términos empresariales familiares. Esta capacidad no es sólo un tejido de datos simplificado, sino que también puede aprovechar las capacidades de las tablas externas de su base de datos. Combinadas, pueden ser muy potentes.

Bases de datos gráficas

Las bases de datos de grafos son buenas en la orquestación y el contexto y son los motores detrás de muchas soluciones de tejido de datos. La implementación de una estructura de datos con una base de datos gráfica es un proyecto importante, pero una vez completado se obtendrá una verdadera estructura de datos.

Virtualización de datos

Las herramientas de virtualización de datos como las que ofrecen AtScale y Denodo presentan una visión coherente para que los equipos de BI y Data Science consuman los datos. Las bases de datos modernas también tienen capacidades de virtualización de datos.

Catálogo de datos

Un catálogo de datos es un inventario organizado de los activos de datos en la organización. Empresas como Collibra proporcionan catálogos de descubrimiento y gobernanza de datos mediante la recopilación, organización, acceso y enriquecimiento de metadatos.

Almacén de objetos local

Puede ser útil almacenar todos sus archivos en una ubicación central. Los almacenes de objetos le permiten gestionar de forma centralizada bases de datos, repositorios de datos y lagos de datos en un solo lugar con un rendimiento, una seguridad y una recuperación ante desastres excelentes. Por esa razón, los almacenes de objetos como los de Pure, Vast, Dell ECS y muchos otros pueden ayudar con la malla de datos.

 


¿Malla de datos o tejido de datos?

La malla de datos es una forma de acceder a datos que pueden ser dispares y funciona especialmente bien cuando todas las fuentes de datos:

  1. Tener estructura
  2. Tienen dimensiones que no cambian mucho
  3. No tenga datos poco poblados

Si la malla de datos tiene un punto débil, es el contexto. Si su análisis se plantea la pregunta "¿según quién?", entonces un tejido de datos puede ser más potente para comprenderlo. Los ingenieros de datos suelen encontrarse con información contradictoria al integrar fuentes. Por ejemplo, un sistema nuevo puede informar de que un cliente tiene 32 años, mientras que los datos heredados pueden informar de que el mismo cliente tiene 30 años. El linaje de datos es una función añadida de Data Fabric que permite decidir en qué fuentes de datos confiar más cuando hay conflictos.

Las soluciones de malla de datos tienden a combinar más herramientas para resolver el problema de los datos dispares. Las herramientas son a la vez más elegantes y normalmente más complejas que las mallas de datos. Pueden incluir mayores capacidades de transformación, seguridad mejorada de grano fino, interfaces gráficas para la gobernanza y el linaje. Sin embargo, si hay un punto débil en data fabric es que probablemente tendrás que dedicar un esfuerzo considerable a crear/gestionar una capa semántica.

Los proveedores que pregonan una estrategia de malla de datos suelen promocionar las capacidades de un grafo de conocimiento. Un grafo de conocimiento sustituye la estrategia de integración de datos de malla de datos por una representación semántica de los datos estructurados y no estructurados, que a menudo admite mejor múltiples esquemas y dimensiones que cambian.

 


Nuevas funciones de base de datos para la malla de datos

Más que nunca, los datos suelen estar ubicados de forma diversa en bases de datos y lagos de datos. Las bases de datos en la nube varían mucho en cuanto al acceso a datos externos. Algunas soluciones requieren que los datos se almacenen en formatos específicos en almacenes de datos y no ofrecen soporte para lagos de datos. Otras admiten lagos de datos, pero requieren varias herramientas para ello. Busque una solución que pueda manejar formatos comunes (como ORC, PARQUET, AVRO, JSON) y aprovechar esas fuentes en el análisis diario con gracia y rapidez. Busque soluciones que puedan llegar a otras bases de datos de su organización (virtualización de datos) para que no resulte difícil acceder a ningún dato.

Notas a pie de página