무엇을 구축하지 말아야 하는 것에 대해 읽는 것에 가치가 없다고 생각할 수도 있지만, 데이터 및 분석 플랫폼 도구의 확산, 모던 데이터 스택(MDS)이 인기를 잃고, '데이터 플랫폼 구축'에 대한 많은 기사들이 이런 경고를 내놓게 만들었습니다.
이는 대기업에서 일하는 IT 전문가들에게 한 경고입니다. 모든 컨설턴트가 모든 질문에 대해 "상황에 따라 다르다"고 답하는 것처럼, 이 경고가 관련이 있는지는 여러분의 구체적 상황에 달려 있습니다. 어떤 배경 정보를 제공할 예정이니 스스로 판단해보세요.
데이터 플랫폼
이것이 "데이터 인프라를 플랫폼으로"라고 부른 자막 데하니의 영향이 있거나, 클라우드 공급업체가 "데이터 플랫폼 서비스(DPaaS - 데이터 보호 서비스와 혼동하면 안 됩니다)"를 판매하거나, 플랫폼을 구축하는 것이 간단히 트렌디하다고 생각되기 때문에, 우리는 이런 아이디어에 사로잡힌 것 같습니다.
하지만 데이터 플랫폼이 정확히 무엇인지 궁금하신가요?
클라우드 컴퓨팅 모델에서 플랫폼을 살펴보면 가치 제안을 더 잘 이해할 수 있습니다. 이는 개발자들에게 기반 시설을 다루지 않고 응용 프로그램을 구축, 배포 및 관리할 수 있는 플랫폼을 제공합니다. PaaS는 응용 프로그램 프레임워크, 데이터베이스 및 개발 환경과 같은 도구 및 서비스를 포함하며, 개발자들은 서버 및 네트워크를 관리하는 대신 코드 작성에 집중할 수 있습니다. PaaS는 응용 프로그램 개발 및 배포를 위한 플랫폼을 제공하는 데 집중하는 반면, DPaaS는 데이터 중심 작업 및 워크플로를 처리하는 데 특히 맞춰져 있습니다.
저의 글을 통해 데이터 웨어하우스 개념을 재정의하고 데이터 엔지니어링 학문에 대해 어떻게 정의하는지 확인해 보세요. 데이터 중심을 어떻게 정의하는지 볼 수 있을 거에요. 데이터 중심은 데이터 관련 문제에만 초점을 맞추어야 하며 비즈니스 로직 문제를 다루지 않아야 합니다. 그러나 현재 사용 가능한 데이터 플랫폼들은 모든 것에 대해 더 나은 종합적인 개발 플랫폼이 되려고 노력하고 있습니다.
아키텍처 설계
일반적으로 조직 전체를 위한 아키텍처를 설계하는 대신 특정 목적을 위한 플랫폼을 구축하는 아이디어에서 문제가 시작된다고 생각합니다. 기업 수준에서 가치 있는 것을 제공하려고 할 때, IT 업체들이 하는 것처럼 제품, 도구 및 플랫폼을 생각한다면 실패하게 될 것입니다. 클라우드 컴퓨팅 공급업체가 DPaaS와 같은 제품을 판매하는 것은 자연스러운 일이지만, 이러한 플랫폼 제품 사고 방식은 포괄적인 기업 아키텍처의 올바른 설계를 찾는 데 도움을 주지 않을 것입니다.
회사의 IT 아키텍처는 비즈니스 로직의 요구 사항을 비즈니스 데이터에 매끄럽게 연결해야 합니다. 로직과 데이터를 구분한다는 사실이 우리를 별도의 애플리케이션 플랫폼과 데이터 플랫폼이 있는 아키텍처 방향으로 이끌어서는 안 됩니다.
이러한 사고 방식은 다른 부정적인 결과와 함께 "데이터의 큰 분할"이라는 문제로 이어졌습니다.
업무용 데이터를 처리하는 애플리케이션에 특화된 분리된 플랫폼과 분석용 데이터를 처리하는 애플리케이션에 특화된 다른 플랫폼을 받아들였으며 이 두 영역을 연결하는 ETL 파이프라인이 설치되어 있습니다.
이 문제를 해결하기 위해 비행기에 대한 단일 플랫폼을 개발하면 된다고 주장할 수도 있지만, 대기업의 IT 관련 문제에 대한 단일 포괄적 플랫폼을 개발하는 것이 불가능하다는 것을 설득하려고 노력해 보겠습니다. 그리고 이는 응용 프로그램 및 데이터를 위한 플랫폼에도 적용됩니다.
기업에 적합한 데이터 아키텍처를 디자인하는 것은 플랫폼 구축에 대해 여러 기사에서 언급하는 것과는 매우 다릅니다. 간단히 회사에서 해결해야 할 모든 문제에 대해 도구를 선택하거나 심지어 완벽한 플랫폼을 선택하고 레고 블록처럼 함께 조립하는 것이 좋아 보일 수 있습니다. 이것은 IT 업체가 번들 제품을 판매하기 위한 전략일 수 있습니다. 그러나 대기업에서 무심코 적용하면 중복 및 중첩이 많은 아키텍처로 이어집니다.
주의, 추가 플랫폼이 다가옵니다
데이터 기술 부문의 발전으로 데이터 플랫폼뿐만 아니라 데이터 엔지니어링 분야도 형성되었습니다. 제공되는 도구의 범위와 복잡성을 고려할 때 피할 수 없는 분야로 보였습니다. 이 분야가 재정의되어야 하는 이유를 설명하고, 이미 가지고 있는 다른 플랫폼과 분야와의 중첩이 너무 많은 것으로 주로 이유를 설명했습니다.
사실 지금 우리가 인공 지능 (AI) 기술 및 기계 학습 (ML) 기술에 대해 비슷한 발전을 경험하고 있습니다. 그리고 이는 다시 한번 플랫폼이 등장하고 그에 따른 엔지니어링 분야가 나타나는 과정과 매우 닮은 것으로 보입니다. 이번에는 AI/ML을 위한 것입니다. 다시 한 번, 공급업체와 현재 시장 수요에 대한 포괄적인 솔루션을 제공하려는 당위적 욕구에 의해 주도됩니다.
그러나 시장 수요를 위해 고유하게 지향된 플랫폼만 설치한다면 데이터의 큰 격차가 벌어질 것입니다. AI/ML 애플리케이션은 보다 더 공급되는 범용 데이터에 더 많이 의존하며, 이에 대해 제 기사에서 반복적으로 언급하고 있습니다. 범용 데이터 공급은 각 애플리케이션에 모든 회사 관련 데이터를 제공하는 개념으로, 해당 애플리케이션의 목적에 관계없이(운영, 분석, AI/ML 등) 가능하게 합니다.
또 다른 플랫폼을 설치하여 시장 수요만 고려된 플랫폼을 만든다면 이러한 필요를 충족시킬 수 없을 것입니다. 더 나은, 모든 가능한 것들을 위한 통합 환경으로 다시 시도하려는 플랫폼을 만드는 것으로 성공할 수 있을 것입니다. 무엇보다도, 우리가 직면한 엔터프라이즈 수준의 도전에 대한 솔루션이 아닙니다. IT 및 클라우드 컴퓨팅 공급업체가 제품을 번들링하는 편리한 방법일 뿐입니다.
따라서, 효율적이지 못한 아키텍처에서 우리를 구원할 플랫폼 사고라도 없다면 무엇이 도와줄 수 있을까요?
데이터 인프라
우리는 플랫폼 사고에서 벗어나야 합니다. 대신 IT 인프라에 의해 연결된 애플리케이션 또는 서비스로 이동해야 합니다. 잠시만요, 이 접근 방식은 운영 수준에서 서비스지향 아키텍처(마이크로서비스 또는 모놀리식 애플리케이션/서비스)로 표준적이고 잘 알려져 있습니다.
이것이 사실임을 인정해야 합니다. 기업 수준의 비즈니스 로직 확장을 위한 올바른 접근 방식이며, 데이터 이슈에 대한 확장을 위해 이에 유사한 것이 절실하게 필요합니다. 그러나 데이터는 다르며, 애플리케이션처럼 다뤄서는 안됩니다. 우리는 데이터 중심 애플리케이션을 위한 또 다른 플랫폼이 아닌 데이터 인프라가 필요합니다.
하지만 먼저 플랫폼과 인프라스트럭처의 차이를 살펴봅시다. 다시 한 번 클라우드 컴퓨팅 모델이 차이를 명확하게 설명하는 데 도움이 될 수 있습니다. 인프라스트럭처 서비스(IaaS)는 가상 머신, 저장소 및 네트워킹 구성 요소와 같은 기본 컴퓨팅 리소스를 제공합니다. IaaS를 통해 우리는 운영 체제와 실행하는 응용 프로그램에 대해 더 많은 제어권을 갖지만, 기본 인프라스트럭처를 관리하고 유지 관리해야 합니다.
IaaS는 원시 컴퓨팅 리소스를 제공하는 반면, DPaaS는 이러한 리소스를 추상화하여 특화된 데이터 관리 및 분석 서비스를 제공하여 사용자가 설정하고 유지 관리해야 하는 데이터 중심 서비스를 해소합니다.
플랫폼 부분인 개발, 배포 및 분석 서비스를 제외하고 데이터 추상화 부분을 유지한다면, 데이터 인프라스트럭처 기능만 남습니다. 응용 프로그램에서 데이터 관련 문제를 추상화하는 인프라스트럭처.
이러한 인프라스트럭처를 사용하면 응용 프로그램이 업무 로직에 집중할 수 있으며, 응용 프로그램 개발자가 저장 및 공유 데이터를 저장하고 읽는 기술적인 부분을 해소하고 다른 응용 프로그램이 해당 데이터를 전체 비즈니스 컨텍스트와 함께 액세스할 수 있도록 합니다.
비즈니스 측면에서 이것을 바라보면, 비즈니스 인프라에서 비즈니스인들이 요구하는 것을 이해할 수 있습니다.
비즈니스 목표를 달성하기 위한 논리를 실현하고 옵션으로 비즈니스 데이터를 저장하는 비즈니스 프로세스가 있습니다. 비즈니스 데이터는 비즈니스 프로세스가 정보를 교환하고 마지막으로 협업할 수 있도록 허용하는 비즈니스 컨텍스트와 함께 번들로 제공되는 데이터로 정의할 수 있습니다.
각 프로세스는 회사의 모든 다른 프로세스와 필요한 비즈니스 데이터를 채널을 통해 교환할 수 있습니다. 총적으로 기업은 외부 세계와 상호 작용할 채널이 있습니다. 간단하지 않나요?
물론, 기업은 상호 양방향으로 정보를 교환하는 세 개의 프로세스가 아닙니다. 오히려, 외부 세계와 밀접하게 상호 작용하는 복잡한 적응형 시스템입니다. 내부 프로세스(어플리케이션의 일부로 디지털화된 것)는 수가 많고 절대 고정적이 아니지만 조직을 대표하여 행동하는 직원의 결정에 따라 지속적으로 발전하고 있습니다. 이로 인해 직원들은 적응형 시스템의 일부가 되어 모델을 크게 복잡하게 만듭니다.
하지만 이것을 변화시키지 않아도 이로부터 얻을 수 있는 주요 통찰이 변하지 않습니다. 그러니 간단하게 유지하고, 또 다른 비즈니스 프로세스를 추가하여 원하는 대로 성장할 수 있음을 보여주겠습니다. 이렇게 함으로써 상호 양방향 채널을 인프라로 대체할 수 있음을 보여줍시다.
우리는 조정된 데이터 메시가 모든 애플리케이션/서비스 간의 모든 상호 양방향 채널을 위한 구현으로 작용할 수 있는 데이터 인프라로 작용할 수 있다는 것을 알 수 있습니다.
사실, 데이터는 조직 전체에 분산되어 있습니다. 비즈니스 프로세스 내부와 외부에 데이터가 있는 것을 알 수 있습니다. 내부 데이터는 비공개로 처리되며 프로세스 내에서만 관리됩니다. 외부 데이터는 프로세스가 기업에 제공하는 데이터입니다. 이 외부 데이터는 다른 프로세스가 비즈니스 목표를 달성하는 데 필요한 모든 것을 포함합니다.
어플리케이션/서비스는 그들의 비즈니스 프로세스의 디지털 쌍방이라는 것을 분명히 인식합니다. 이것은 내가 본 시각에서 IT 산업에서 크게 과소평가되고 있다고 생각하는 명백한 유추입니다.
이 유추로부터 무엇을 배울 수 있을까요? 그리고 Gartner가 데이터 관리를 위한 하이프 사이클 2022에서 데이터 메쉬를 "플랫폼 이전에 오래 된 기술"로 선언했지 않았나요? 수정된 데이터 메쉬는 어떻게 기존 데이터 메쉬와 다를까요? 그리고 Gartner가 데이터 메쉬를 대체할 것으로 생각하는 데이터 패브릭은 무엇일까요?
저는 Gartner 분석가들이 미래를 예측하는 능력에 대해 논평하려는 의도는 없으며 업계에서 다양한 데이터 패브릭과 데이터 메쉬의 정의를 해석할 생각도 없습니다. 그러나 디지털 쌍둥이, 데이터 패브릭 및 수정된 데이터 메쉬에 대한 내 견해를 설명할 수 있습니다. 그러니 이 모든 질문에 단계적으로 답변해 봅시다.
데이터가 비즈니스를 움직입니다
비즈니스 프로세스의 디지털 트윈은 실시간으로 비즈니스 프로세스 기능을 반영하는 디지턈화된 로직입니다. 데이터, 시뮬레이션 및 AI를 활용하여 모니터링, 분석, 최적화를 할 수 있으며, 비즈니스 프로세스를 실시간 디지턈 표현할 수 있게 해줍니다. 이 기술은 일반적으로 제조업, 의료, 스마트 시티와 같은 산업에서 제품 제조 과정의 성능과 효율성을 개선하거나 실제 물리적인 것들의 시뮬레이션에 사용됩니다.
그러나 이 관점은 실제로 우리가 잘 알고 있는 (마이크로) 서비스나 애플리케이션에도 적용할 수 있습니다. 이들은 비즈니스 프로세스의 디지털 트윈으로 볼 수 있습니다.
비즈니스 프로세스는 특정 비즈니스 목표를 달성하기 위해 일련의 활동이나 작업을 효과적으로 조정하고 관리하는 것입니다. 회사의 기능은 모든 개별 비즈니스 프로세스의 상호작용으로 하나의 일관된 전체체를 형성한다고 볼 수 있습니다. 각 비즈니스 프로세스는 회사의 가치 제안을 실현하는데 작은 기여를 합니다. 일반적으로 제품과 서비스를 제공하는 것입니다.
기업은 모든 회사가 열심히 바꾸려고 하는 데이터 중심이 아닌 프로세스 중심입니다. 이것은 회사의 가치 제안을 실현하기 위해 무엇을 해야 하는지 알기 때문에 상당히 자연스럽습니다. 고객이 주문을 한 후 모든 노력은 시작됩니다. 주문을 한 후, 고객의 여정은 주문 처리 및 이행을 포함하며, 회사가 주문을 확인하고 제품을 준비하고 발송한 후 제품을 전달하고 고객 만족을 보장하기 위해 배송 후 지원을 제공합니다. 모든 것은 프로세스 중심입니다.
비즈니스 프로세스 모델링에 사용되는 것은 정확히 "비즈니스 프로세스 모델 및 표기법" (BPMN)이 "비즈니스 프로세스 실행 언어" (BPEL)와 함께 사용되어 비즈니스 프로세스의 형식화된 명세 및 실행 옵션으로 사용됩니다.
실제로 비즈니스 프로세스 모델링과 소프트웨어 엔지니어링은 큰 유사점을 가지고 있어 소프트웨어 개발 프로세스를 직접 비즈니스 프로세스의 모델링 및 구현에 적용하는 것이 합리적으로 보입니다. IT 프로세스를 구현하기 위한 소스 코드는 비즈니스 프로세스를 구현하기 위한 BPMN / BPEL 문서와 놀라울 정도로 유사합니다. 비즈니스 프로세스의 조정은 "워크플로우 관리 시스템" (WfMS)을 통해 이루어지며 이는 복잡한 IT 프로세스 및 응용 시스템의 자동화된 작업 부하 및 일정 관리에 밀접하게 대응합니다.
하지만 사실은 완전히 별개의 IT 전문 분야가 상호 호환되지 않는 언어와 도구로 발전했습니다. 사람들은 여전히 비즈니스 프로세스 모델링과 소프트웨어 엔지니어링 간의 격차, 조직적 장벽 및 장벽을 허물면서 비즈니스 프로세스 모델링과 소프트웨어 엔지니어링 사이에서 여전히 많은 시너지를 활용할 수 있다고 생각합니다.
따라서 응용 프로그램/서비스의 조정은 비즈니스 프로세스의 디지털 쌍둥이를 관리하는 것으로 볼 수 있습니다. 입력 데이터가 기업을 통해 흐르며 데이터 교환에 의해 유지되는 프로세스 체인이 유도됩니다. 이는 디지털 기업을 가능하게 하는 단일 데이터 공급을 통해 비즈니스를 강화합니다. 데이터를 보편적으로 사용 가능하게 만들어 회사가 데이터 중심이 아닌 데이터에 기반한 회사가 되는 데 필요한 기본 원칙입니다.
데이터 패브릭 또는 데이터 메시?
안타깝게도, 데이터 패브릭이라는 것에 대해 하나 이상의 정의가 존재합니다. 그러나 일단 Gartner에서 제시한 정의로 시작해 봅시다:
네, 내 동료 데이터 엔지니어와 아키텍트 여러분, 이것이 데이터 패브릭에 대한 분석가들의 견해입니다. 솔직히 말해서, 이렇게 복잡한 것을 한 문장으로 설명하는 것은 어렵습니다. 그러나 여기에서 이 주제에 대해 자세히 다룰 수 있습니다. 그래서 정의를 자세히 살펴보고 적응된 데이터 메시와 비교해 봅시다.
그런데, 원본과 적응된 데이터 메시 간의 차이에 대해 더 많은 정보를 얻고 싶다면, 세 가지 파트로 구성된 저의 시리즈를 읽어보기를 추천합니다. 한 문장으로 된 정의를 얻지는 못하지만, 계속되는 내용에 대해 훨씬 더 잘 준비될 것입니다.
데이터 패브릭은 유연하고 재사용 가능하며 증강된 데이터 통합 파이프라인을 달성하기 위한 데이터 관리 설계입니다.
그래서 데이터 통합 파이프라인이란 무엇인가요? 공식적인 정의가 없으니까, 제 의견을 들어보세요:
우리는 데이터 소스, 데이터 처리 또는 변환, 데이터 통합 및 대상 시스템을 갖고 있습니다. 이러한 파이프라인이 데이터 패브릭 자체의 일부인지 아니면 데이터 패브릭이 그냥 다른 곳에 위치한 유연하고 재사용 가능하며 증강된 파이프라인을 달성하는 데 도움이 되는지는 명확하지 않습니다. 하지만 정의에 따르면, 데이터 패브릭이 단일 도구나 기술이 아니라고 말하고 있기 때문에 후자인 것 같습니다.
적응된 데이터 메시는 모든 비즈니스 프로세스를 기엄한 응용프로그램/서비스(또는 디지털 트윈)로 간주하며 기업 내에서 데이터를 교환합니다. 하류 프로세스가 필요로 하는 데이터의 제공은 생산 응용프로그램들이 데이터 제품을 통해 적극적으로 대응해야 합니다.
따라서, 메시 안의 데이터 인프라는 애플리케이션 간에 데이터 제품(비즈니스 컨텍스트를 갖춘 데이터)를 교환하는 수단입니다. 더는 전형적인 데이터 파이프라인을 찾을 수 없을 것입니다. 왜냐하면 애플리케이션/서비스가 데이터 인프라 자체의 일부가 아니기 때문입니다. 대신, 비즈니스 로직을 구현하는 모든 구성 요소는 적응된 데이터 메시에 의해 연결된 전체 IT 응용 프로그램 아키텍처의 일부여야 합니다. 특히 통합 로직은 재정의된 데이터 웨어하우스 전문 지식에 의해 다루어져야 합니다.
이를 통해 애플리케이션/서비스와 데이터 관련성을 분리함으로써 유연하고 재사용 가능하며 보강된 데이터 통합 파이프라인을 확보할 수 있습니다.
데이터 패브릭은 지식 그래프, 의미론 및 활성 메타데이터 기반 자동화를 활용합니다
적응된 데이터 메시는 상향식 기업 데이터 모델인 Ontology를 정의하여 하향식 프로세스 주도 데이터 모델을 기업의 전체적인 관점과 일치시킵니다. 시리즈의 세 번째 부분에 개요된 지배 프로세스는 애플리케이션/서비스가 참여할 수 있는 프레임워크를 제공합니다.
이는 의미 체계와 지식 그래프 활용을 직접적으로 다룹니다. 데이터 제품(메타데이터)에서 제공되는 풍부한 비즈니스 컨텍스트는 자동화를 적극적으로 촉진하는 데 사용될 수 있습니다.
데이터 패브릭은 더 빠르고 때로는 자동화된 데이터 액세스 및 공유를 지원합니다
적응형 데이터 메시는 모든 참여 응용 프로그램/서비스에 걸쳐 글로벌 데이터 공유를 궁극적으로 촉진하기 위해 범용 데이터 공급을 구현합니다. 적응형 데이터 메시의 데이터 인프라는 스트리밍 및 일괄 처리에 대한 추상화를 수행하여 데이터 제품을 더 빠르고 매우 간소화된 방식으로 적응형 데이터 메시 상에서 공유할 수 있도록 합니다.
데이터 패브릭은 배치 옵션, 운영 또는 분석적 사용 사례 및/또는 아키텍처 접근 방식에 관계없이 이 모든 기능을 제공합니다
적응된 데이터 메시는 모든 종류의 애플리케이션을 위한 데이터 제품을 쉽고 투명하게 교환할 수 있는 데이터 추상화를 제공합니다. 참여하는 데이터 생성자와 소비자가 분리된 마이크로서비스든 모놀리식 애플리케이션이든 상관없이 모든 종류의 응용 프로그램에 대해 해당합니다.
기업의 모든 구성 요소는 적응된 데이터 메시가 제공하는 추상화를 활용하여 데이터 공유에 참여함으로써 보편적인 데이터 공급을 가능하게 합니다.
결론
대기업의 데이터 엔지니어 및 아키텍트로서, 비즈니스 프로세스의 디지털 트윈으로 정보 교환을 위한 비즈니스 요구 사항을 적절히 대응해야 합니다.
"Universal data supply" 개념이 핵심 비즈니스 요구 사항을 해결한다는 것을 설명했습니다. 이를 구현하는 방법은 적응된 데이터 메시의 원칙에 따라 가능하며, Gartner의 데이터 패브릭 정의를 완전히 준수하는 데이터 인프라를 제공합니다.
이 접근 방식은 현재 벤더들이 주도하는 현재 플랫폼 사고와 근본적으로 다릅니다. 미리 패키지로 제공되는 데이터 플랫폼이 기업에 큰 혜택을 줄 수 있지만, 이것을 기업 전체에 대한 청결한 데이터 아키텍처와 혼동하지 않도록 주의해야 합니다.
이 정보가 유용하다고 생각되면 박수를 부탁드립니다. 여러분의 의견과 질문으로 피드백을 받는 것을 기쁘게 생각하겠습니다.