数据网格和数据结构是最新、最伟大的举措,还是旨在推销解决方案的新流行语?很难说,但这些新兴的企业新举措都有一个共同的目标,那就是处理不同的数据。如果您能使用不同的数据进行分析,而不必过度和重复复制数据,您往往能从数据中获得更多价值。数据网和数据结构采用不同的方法来解决不同数据的问题。
数据网格和结构都侧重于元数据和语义层,以利用多个数据源进行分析。不过,两者的主要区别似乎在于上下文。
通俗地说,数据网格就是为分析引擎提供各种数据源的能力。数据网格基于这样一个事实:你知道源数据文件的结构,数据的上下文是可靠的。使用数据网格的前提是你知道数据是由谁、何时、何地、为何以及如何创建的。例如,如果您想分析公司多个数据仓库中的数据,那么数据网格可能就是您使用的策略。在这种用例中,原始元数据的定义相当明确。
数据结构侧重于协调、元数据管理以及为数据添加额外的上下文。在数据结构中,语义层的管理是重点。使用语义层来表示关键的企业数据,并为数据开发通用的方言。数据结构项目中的语义层可以将复杂的数据映射为熟悉的业务术语,如产品、客户或收入,从而为整个组织提供统一、综合的数据视图。制药试验是使用数据结构的一个很好的例子,因为试验数据来自机器、报告和其他研究,而这些数据几乎没有准确的元数据可依赖。这些数据也可能是 "稀疏 "的,这意味着大量的行和列是空白或空值。
目前还没有真正意义上的 "盒装数据网格 "或 "盒装数据 Fabric "解决方案。在撰写本文时,还没有一站式的结构和数据网格商店。换句话说,数据网格和结构不是软件产品。它们通常是需要多种解决方案的战略举措。
如今,企业可能会使用多种技术来创建数据网或数据结构。下面是几个例子:
传统数据库
现代数据库可以利用数据网格样式的外部表。Vertica例如,您可以在不将 PARQUET 文件和其他文件类型加载到主存储库的情况下,无缝地使用《......数据库》。此外,如果您有 AVRO、JSON 或 TEXT 格式的半结构化数据,也有一种简单的方法可以利用读取模式功能来使用这些数据。如果您有不同的数据源,并希望像利用数据库中的数据一样利用它们,那么这种功能对于创建数据网格非常有价值。
查询引擎
整整一代查询引擎(有时称为查询加速器)也使数据网格成为可能。Dremio、Starburst 和 Druid 等解决方案主要侧重于分析外部表。它们有时缺乏 ACID 合规性,也不具备进行高并发分析的能力,但它们通常有助于完成数据网格任务。越来越多的传统数据库增加了查询引擎,以便在数据库和数据湖中进行无缝查询。
可视化工具
一些先进的可视化工具具有语义层系统。例如,MicroStrategy 提供了一个抽象层,以一致的方式解释来自多个来源的数据。此外,它还能将复杂的数据映射为熟悉的业务术语。这种功能不仅简化了数据结构,还可以利用数据库的外部表功能。综合起来,它可以发挥巨大的威力。
图形数据库
图形数据库擅长协调和上下文,是许多数据结构解决方案背后的引擎。使用图形数据库实施数据结构是一项重大工程,但完成后您将获得真正的数据结构。
数据虚拟化
数据虚拟化工具(如 AtScale 和Denodo提供的工具)为商业智能和数据科学团队消费数据提供了一致的视图。现代数据库也具有数据虚拟化功能。
数据目录
数据目录是组织内数据资产的有序清单。Collibra 等公司通过收集、组织、访问和丰富元数据来提供数据发现和治理目录。
内部对象存储
将所有文件存储在一个中央位置可能很有帮助。对象存储可让您在一个地方集中管理数据库、数据存储库和数据湖,并提供卓越的性能、安全性和灾难恢复能力。因此,Pure、Vast、Dell ECS 等公司的对象存储有助于实现数据网格化。
数据网格是一种访问可能不同的数据的方法,在所有数据源的情况下尤其有效:
如果说数据网格有弱点,那就是上下文。如果您的分析要问 "根据谁?"这样的问题,那么数据结构可以更有力地理解这一点。数据工程师在将数据源整合在一起时,经常会遇到相互矛盾的信息。例如,新系统可能将客户的年龄报告为 32 岁,而传统数据可能将同一客户的年龄报告为 30 岁。数据行系是数据结构的一项附加功能,它可以让您决定在出现冲突时更信任哪个数据源。
数据结构解决方案往往会结合更多工具来解决分散数据问题。与数据网格相比,这些工具更优雅,通常也更复杂。这些工具可能包括更强的转换能力、增强的细粒度安全性、用于治理的图形界面以及脉络。不过,如果说数据结构有什么弱点的话,那就是你可能需要花费大量精力来创建/管理语义层。
那些鼓吹数据结构战略的供应商通常会宣传知识图谱的功能。知识图谱以结构化数据和非结构化数据的语义表示取代了数据网格数据集成战略--它通常能更好地支持多种模式和变化的维度。
与以往任何时候相比,数据往往分散在数据库和数据湖中。云数据库在访问外部数据方面差异很大。有些解决方案要求数据以特定格式存储在数据仓库中,不支持数据湖。还有一些解决方案支持数据湖,但需要多种工具才能实现。要寻找能够处理常见格式(如 ORC、PARQUET、AVRO、JSON)的解决方案,并在日常分析中优雅、快速地利用这些数据源。寻找能够进入企业其他数据库(数据虚拟化)的解决方案,这样就不会出现难以访问数据的情况。