클라우드 데이터 웨어하우스는 퍼블릭 클라우드에서 분석,확장 및 사용 편의성에 최적화된 관리 서비스로 제공되는 데이터베이스입니다.
80 년대 후반,나는 데이터가 테이블로 포맷 된”관계형”데이터베이스 인 오라클 6 을 처음 사용했던 것을 기억합니다. 데이터를 로드한 다음 표준 언어로 쿼리할 수 있는 데이터 서비스의 개념은 저를 위한 게임 체인저였습니다. 관계형 데이터베이스는 크기와 분석 워크로드의 복잡성과 투쟁하기 시작했을 때 90 년대에,우리는 테라 데이타,네테 자,그리고 나중에,버티 및 그린 플럼 등의 데이터웨어 하우스의 출현을 보았다. 2010 년 야후! 관계형 데이터베이스가 탄생 한 지 20 년이 지난 지금,나는 하둡이라는 오픈 소스 프로젝트를 통해 데이터 관리의 바다 변화를 목격 할만큼 운이 좋았습니다. 원시 비정형 데이터를 쿼리할 수 있는”데이터 레이크”라는 개념은 상당히 낮은 비용으로 더 많은 민첩성을 가진 더 많은 데이터를 캡처,저장 및 처리하는 능력에 있어 큰 도약이었습니다.
우리는 이제 클라우드 데이터 웨어하우스의 출현과 함께 데이터 웨어하우징 기술 혁신의 세 번째 물결을 목격하고 있습니다. 기업은 클라우드로 이동,그들은 이러한 새로운 클라우드 데이터 플랫폼,하둡을 포함한 온-프레미스 데이터웨어 하우징 기술을 자신의 유산을 포기하고 있습니다. 이러한 변화는 데이터 관리의 거대한 지각 변화이며 기업에 심오한 영향을 미칩니다.
클라우드 데이터 웨어하우스의 이점
클라우드 기반 데이터 웨어하우스는 기업이 서버로 가득 찬 공간을 운영하는 대신 비즈니스 운영에 집중할 수 있도록 해 주며,비즈니스 인텔리전스 팀은 향상된 액세스,확장성 및 성능으로 인해 더 빠르고 더 나은 통찰력을 제공할 수 있도록 합니다.
- 데이터 액세스:데이터를 클라우드에 배치하면 분석가에게 다양한 소스의 실시간 데이터에 대한 액세스 권한을 부여하여 더 나은 분석을 신속하게 실행할 수 있습니다.
- 확장성: 성능:클라우드 데이터 웨어하우스를 사용하면 기존 온-프레미스 데이터 웨어하우스에 비해 훨씬 빠르게 쿼리를 실행할 수 있으므로 비용을 절감할 수 있습니다.
클라우드 데이터 웨어하우스 기능
각 주요 퍼블릭 클라우드 공급업체는 자체 클라우드 데이터 웨어하우스 서비스를 제공합니다: 구글은 빅 쿼리를 제공하고,아마존은 적색 편이를 가지고 있으며,마이크로 소프트는 데이터웨어 하우스를 가지고있다. 퍼블릭 클라우드에서 실행되지만 독립적으로 관리되는 서비스를 통해 동일한 기능을 제공하는 눈송이 좋아하는의 클라우드 제공도 있습니다. 이러한 각 서비스에 대해 클라우드 공급업체 또는 데이터 웨어하우스 공급자는 다음과 같은 기능을”즉시 제공”합니다”:
- 데이터 저장 및 관리:데이터는 클라우드 기반 파일 시스템에 저장됩니다.
- 자동 업그레이드:”버전”또는 소프트웨어 업그레이드의 개념이 없습니다.
- 용량 관리:데이터 풋 프린트를 쉽게 확장(또는 축소)할 수 있습니다.
클라우드 데이터 웨어하우스를 선택할 때 고려해야 할 요소
이러한 클라우드 데이터 웨어하우스 공급업체가 이러한 기능을 제공하는 방법과 비용을 청구하는 방법은 상황이 좀 더 미묘한 차이를 만드는 방법입니다. 다양한 배포 구현 및 가격 모델에 대해 자세히 살펴 보겠습니다.
클라우드 아키텍처:클러스터 대 서버리스
클라우드 데이터 웨어하우스 아키텍처에는 두 가지 주요 캠프가 있습니다. 첫 번째 이전 배포 아키텍처는 클러스터 기반입니다: 데이터 웨어하우스는 이 범주에 속합니다. 일반적으로 클러스터된 클라우드 데이터 웨어하우스는 클라우드에서 서비스로 실행되도록 포팅된 포스트그레스 파생물만 클러스터된 것입니다. 다른 맛,서버리스,더 현대적이며,예를 들어 구글 빅 쿼리와 눈송이를 계산합니다. 기본적으로 서버리스 클라우드 데이터웨어 하우스는 데이터베이스 클러스터를”보이지 않게”만들거나 많은 클라이언트에서 공유 할 수 있습니다. 각 아키텍처에는 장단점이 있습니다(아래 참조).
클라우드 데이터 가격: 배포 아키텍처 외에도 클라우드 데이터 웨어하우스 옵션 간의 또 다른 주요 차이점은 가격 책정입니다. 모든 경우에,당신은 저장된 데이터의 양에 대한 몇 가지 소액의 수수료를 지불. 그러나 가격은 컴퓨팅에 따라 다릅니다.
예를 들어,구글 빅 쿼리와 눈송이는 스캔된 데이터 양 또는 사용된 컴퓨팅 시간에 따라 온디맨드 가격 옵션을 제공합니다. 클러스터의 노드 수 또는 유형에 따라 리소스 가격이 책정됩니다. 가격 책정 모델의 두 가지 유형에 장단점이 있습니다. 주문형 모델은 사용자 수와 실행될 쿼리의 수와 크기를 예측하기 어렵 기 때문에 예산 책정을 어렵게 만들 수 있는 사용량에 대해서만 비용을 청구합니다. 사용자가 실수로$1,000+쿼리를 실행 한 고객 예제를 알고 있습니다.
노드 기반 모델의 경우 서버 및/또는 서버 유형별로 비용을 지불합니다. 이 가격 책정 모델은 분명히 더 예측 가능하지만”항상 켜짐”이므로 사용에 관계없이 고정 가격을 지불하고 있습니다.
가격 책정은 주요 고려 사항이며 조직에 적합한 것을 찾기 위해 많은 사용 사례 및 워크로드 모델링이 필요합니다.클라우드 마이그레이션에 대한 과제 및 고려 사항(“고차스”)
많은 기업에서 온프레미스 데이터 레이크 및/또는 관계형 데이터 웨어하우스에서 클라우드로 마이그레이션을 시도하는 것을 보았습니다. 많은 사람들에게 다음과 같은 이유로 첫 번째 파일럿 프로젝트 후에 마이그레이션이”실속”됩니다:
- 중단: 다운스트림 사용자(비즈니스 분석가,데이터 과학자)는 습관을 바꾸고 보고서와 대시보드를 다시 만들어야 합니다.
- 성능:고도로 조정된 레거시 온프레미스 데이터 플랫폼의 성능과 일치하지 않습니다.
- 스티커 충격-예기치 않거나 계획되지 않은 운영 비용 및 비용 통제 부족.따라서 기존 양방향 도구,대시보드 및 보고서를 다시 코딩하거나 완전히 버리지 않고 계속 사용할 수 있도록 함으로써 플랫폼 마이그레이션으로 인한 비즈니스 중단을 최소화하거나 제거할 수 있습니다. 우리는 어떻게 이것을 할 수 있습니까? 이 계층은 레거시 플랫폼 스키마를 새 클라우드 데이터 웨어하우스에 가상으로 다시 매핑하여 활용하는 추상화를 제공합니다. 즉,기존 보고서 및 대시보드는 최소 또는 재코딩 없이 새로운 클라우드 데이터 플랫폼에서 작동합니다.
성능 향상
많은 기업들이 새로운 클라우드 데이터 플랫폼의 성능에 환멸을 느낍니다. 그들이 종종 고려하지 못하는 것은 기존의 온 프레미스 데이터웨어 하우스(즉,테라 데이타,오라클)가 수년 또는 수십 년 동안 조정되었다는 것입니다. 클라우드 데이터 웨어하우스를 통해 동일한 수준의 성능을”즉시”확보하는 것은 현실적이지 않습니다.
사용자 쿼리 패턴을 기반으로 클라우드 데이터 플랫폼에서 집계를 자동으로 생성하여 작동합니다. 비용이 많이 들고 시간이 많이 걸리는 테이블 스캔을 피함으로써,앗 스케일 플랫폼은”생각의 속도”로 빠르고 일관된 쿼리를 제공합니다. 우리는 많은 고객이 성능 문제를 극복하고 클라우드 마이그레이션을 차단 해제하도록 도왔습니다.
비용에 뚜껑을 유지
나는 심지어 사람들이 클라우드 비용이 예상보다 훨씬 높고 부팅 예측할 수 있다고 불평 들었어요 횟수를 셀 수 없습니다. 다시 말하지만,그것은 구조에 앗 스케일 적응 캐시. 불필요한 테이블 스캔을 줄임으로써 전반적인 성능,동시성 및 비용 예측 가능성을 개선하여 비용을 증가시키지 않고 데이터 플랫폼에서 더 많은 것을 얻을 수 있습니다. 시스템 생성 쿼리를 사용하면 비용을 예측하고 직접 작성한 쿼리와 관련된 위험을 없앨 수 있습니다.
클라우드 데이터 웨어하우스는 게임 체인저이자 데이터 웨어하우징의 다음 물결이라고 진심으로 믿습니다. 신중하게 사용하는 클라우드 데이터 웨어하우스는 운영 비용을 획기적으로 절감하는 동시에 비즈니스 요구에 부응할 수 있는 민첩성을 제공합니다.