데이터 메시와 데이터 패브릭은 최신의 가장 위대한 이니셔티브일까요, 아니면 솔루션 판매를 위한 새로운 유행어일까요? 단언하기는 어렵지만, 이 새로운 기업 이니셔티브는 서로 다른 데이터를 처리한다는 공통된 목표를 가지고 있습니다. 데이터를 과도하게 반복적으로 복사할 필요 없이 서로 다른 데이터를 분석에 사용할 수 있다면 데이터에서 더 많은 가치를 얻을 수 있습니다. 데이터 메시와 데이터 패브릭은 이기종 데이터 문제를 해결하기 위해 서로 다른 접근 방식을 취합니다.
데이터 메시와 패브릭 모두 메타데이터와 시맨틱 계층에 초점을 맞춰 여러 데이터 소스를 분석에 활용합니다. 그러나 가장 큰 차이점은 컨텍스트에 관한 것입니다.
쉽게 말해, 데이터 메시는 분석 엔진에 다양한 데이터 소스를 제공하는 기능입니다. 데이터 메시는 원본 데이터 파일의 구조를 알고 있고 데이터의 컨텍스트가 견고하다는 사실에 의존합니다. 데이터 메시를 사용하려면 데이터가 누가, 언제, 어디서, 왜, 어떻게 생성되었는지를 알고 있다고 가정합니다. 예를 들어, 회사 내 여러 데이터 웨어하우스의 데이터를 분석하려는 경우 데이터 메시를 사용하는 전략이 될 수 있습니다. 원본 메타데이터가 상당히 잘 정의되어 있는 사용 사례입니다.
데이터 패브릭은 오케스트레이션, 메타데이터 관리, 데이터에 추가적인 컨텍스트 추가에 중점을 둡니다. 데이터 패브릭에서는 시맨틱 계층을 관리하는 것이 핵심입니다. 시맨틱 계층을 사용해 중요한 기업 데이터를 표현하고 데이터에 대한 공통 방언을 개발하세요. 데이터 패브릭 프로젝트의 시맨틱 계층은 복잡한 데이터를 제품, 고객 또는 매출과 같은 친숙한 비즈니스 용어로 매핑하여 조직 전체에 걸쳐 데이터에 대한 통합된 통합 보기를 제공할 수 있습니다. 제약 임상시험은 데이터 패브릭을 사용할 수 있는 좋은 예입니다. 임상시험의 데이터는 기계, 보고서 및 기타 연구의 조합에서 나오기 때문에 데이터에 의존할 수 있는 정확한 메타데이터가 거의 없습니다. 이 데이터는 '스파스' 데이터일 수도 있는데, 이는 상당수의 행과 열이 공백이거나 null인 것을 의미합니다.
실제로 데이터 메시 인 어 박스 또는 데이터 패브릭 인 어 박스 솔루션은 존재하지 않습니다. 이 글을 쓰는 현재, 패브릭과 데이터 메시를 위한 원스톱 샵은 존재하지 않습니다. 다시 말해, 데이터 메시와 패브릭은 소프트웨어 제품이 아닙니다. 일반적으로 여러 솔루션이 필요한 전략적 이니셔티브입니다.
오늘날 기업들은 데이터 메시 또는 데이터 패브릭을 생성하기 위해 여러 가지 기술을 사용할 수 있습니다. 다음은 몇 가지 예시입니다:
전통 데이터베이스
최신 데이터베이스는 데이터 메시 스타일의 외부 테이블을 활용할 수 있습니다. Vertica 예를 들어, PARQUET 파일 및 기타 파일 유형을 기본 리포지토리에 로드하지 않고도 원활하게 사용할 수 있습니다. 또한 AVRO, JSON 또는 TEXT로 된 반정형 데이터가 있는 경우, 읽기 기능의 스키마를 쉽게 활용하여 데이터를 사용할 수 있는 방법이 있습니다. 이 기능은 서로 다른 소스가 있고 이를 데이터베이스의 데이터처럼 활용하려는 경우 데이터 메시를 만드는 데 유용합니다.
쿼리 엔진
쿼리 엔진(쿼리 가속기라고도 함)도 데이터 메시를 가능하게 합니다. Dremio, Starburst, Druid와 같은 솔루션은 주로 외부 테이블 분석에 중점을 둡니다. 이러한 솔루션은 때때로 ACID 규정 준수와 높은 동시성으로 분석을 수행할 수 있는 기능이 부족하지만, 데이터 메시 임무에 도움이 되는 경우가 많습니다. 점점 더 많은 기존 데이터베이스에 쿼리 엔진이 추가되어 데이터베이스와 데이터 레이크에서 원활하게 쿼리할 수 있게 되었습니다.
시각화 도구
일부 고급 시각화 도구에는 시맨틱 계층 시스템이 있습니다. 예를 들어, MicroStrategy는 여러 원본의 데이터를 일관되게 해석하는 방법을 제공하는 추상화 계층을 제공합니다. 또한 복잡한 데이터를 친숙한 비즈니스 용어로 매핑합니다. 이 기능은 데이터 패브릭을 단순화할 뿐만 아니라 데이터베이스의 외부 테이블 기능도 활용할 수 있습니다. 이 두 가지를 결합하면 강력한 힘을 발휘할 수 있습니다.
그래프 데이터베이스
그래프 데이터베이스는 오케스트레이션과 컨텍스트에 능숙하며 많은 데이터 패브릭 솔루션의 엔진입니다. 그래프 DB로 데이터 패브릭을 구현하는 것은 중요한 프로젝트이지만, 완료되면 진정한 데이터 패브릭을 얻게 됩니다.
데이터 가상화
AtScale 및 Denodo에서 제공하는 것과 같은 데이터 가상화 도구는 BI 및 데이터 과학 팀이 데이터를 소비할 수 있는 일관된 뷰를 제공합니다. 최신 데이터베이스에는 데이터 가상화 기능도 있습니다.
데이터 카탈로그
데이터 카탈로그는 조직에 있는 데이터 자산의 체계적인 인벤토리입니다. Collibra와 같은 회사는 메타데이터를 수집, 정리, 액세스, 보강하여 데이터 검색 및 거버넌스 카탈로그를 제공합니다.
온프레미스 개체 저장소
모든 파일을 중앙 위치에 저장하는 것이 유용할 수 있습니다. 오브젝트 스토어를 사용하면 데이터베이스, 데이터 리포지토리, 데이터 레이크를 한 곳에서 뛰어난 성능, 보안, 재해 복구 기능으로 중앙에서 관리할 수 있습니다. 이러한 이유로 퓨어, Vast, Dell ECS 등의 오브젝트 스토어가 데이터 메시를 지원하는 데 도움이 될 수 있습니다.
데이터 메쉬는 서로 다른 데이터에 액세스하는 방법으로, 모든 데이터 소스가 서로 다른 경우에 특히 효과적입니다:
데이터 메시의 약점이 있다면 바로 컨텍스트입니다. 분석에서 "누구에 따라?"라는 질문을 하는 경우, 데이터 패브릭이 이를 이해하는 데 더 강력할 수 있습니다. 데이터 엔지니어는 소스를 통합할 때 종종 상충되는 정보에 직면하게 됩니다. 예를 들어, 새로운 시스템은 고객의 나이를 32세로 보고하는 반면, 레거시 데이터는 같은 고객을 30세로 보고할 수 있습니다. 데이터 계보란 데이터 패브릭의 추가 기능으로, 충돌이 있을 때 어떤 데이터 소스를 더 신뢰할지 결정할 수 있게 해줍니다.
데이터 패브릭 솔루션은 이질적인 데이터 문제를 해결하기 위해 더 많은 도구를 결합하는 경향이 있습니다. 이러한 도구는 데이터 메시보다 더 우아하고 일반적으로 더 복잡합니다. 여기에는 더 뛰어난 변환 기능, 향상된 세분화된 보안, 거버넌스 및 계보를 위한 그래픽 인터페이스가 포함될 수 있습니다. 그러나 데이터 패브릭의 약점이 있다면 시맨틱 계층을 생성/관리하는 데 상당한 노력을 기울여야 한다는 점입니다.
데이터 패브릭 전략을 선전하는 벤더들은 종종 지식 그래프의 기능을 홍보합니다. 지식 그래프는 데이터 메시 데이터 통합 전략을 정형 및 비정형 데이터의 의미론적 표현으로 대체하며, 종종 변화하는 여러 스키마와 차원을 더 잘 지원합니다.
그 어느 때보다 데이터가 데이터베이스와 데이터 레이크에 다양하게 위치하는 경우가 많습니다. 클라우드 데이터베이스는 외부 데이터에 액세스하는 방식이 매우 다양합니다. 일부 솔루션은 데이터를 데이터 웨어하우스에 특정 형식으로 저장해야 하며 데이터 레이크를 지원하지 않습니다. 또 다른 솔루션은 데이터 레이크를 지원하지만 이를 위해 여러 도구가 필요합니다. 일반적인 형식(예: ORC, PARQUET, AVRO, JSON)을 처리하고 이러한 소스를 일상적인 분석에 우아하고 신속하게 활용할 수 있는 솔루션을 찾으세요. 조직의 다른 데이터베이스에 접근할 수 있는 솔루션(데이터 가상화)을 찾아 어떤 데이터에도 액세스하기 어려운 일이 없도록 하세요.