een cloud data warehouse is een database die wordt geleverd in een publieke cloud als een managed service die is geoptimaliseerd voor analyse, schaal en gebruiksgemak.
eind jaren 80 herinner ik me mijn eerste keer dat ik werkte met Oracle 6, een “relationele” database waar gegevens werden geformatteerd in tabellen. Het concept van een Dataservice waar ik gegevens kon laden en vervolgens kon bevragen met een standaard taal (SQL) was een game changer voor mij. In de jaren 90, toen relationele databases begonnen te worstelen met de omvang en complexiteit van analytische workloads, zagen we de opkomst van de MPP datawarehouses zoals Teradata, Netezza en later, Vertica en Greenplum. In 2010 bij Yahoo!, meer dan 20 jaar na de geboorte van de relationele database, ik had het geluk om getuige te zijn van een grote verandering in data management met een open source project genaamd Hadoop. Het concept van een “data lake” waar ik ruwe ongestructureerde gegevens kon opvragen was een enorme sprong voorwaarts in mijn vermogen om meer gegevens vast te leggen, op te slaan en te verwerken met meer flexibiliteit tegen een aanzienlijk lagere kosten.
We zijn nu getuige van een derde golf van innovatie in data warehousing technologie met de komst van cloud data warehouses. Als bedrijven verhuizen naar de cloud, ze verlaten hun legacy on-premise data warehousing technologieën, waaronder Hadoop, voor deze nieuwe cloud data platforms. Deze transformatie is een enorme tektonische verschuiving in databeheer en heeft ingrijpende gevolgen voor ondernemingen.
de voordelen van een Clouddatawarehouse
cloudgebaseerde datawarehouses maken bedrijven vrij om zich te concentreren op het runnen van hun bedrijf, in plaats van het runnen van een ruimte vol servers, en ze stellen business intelligence teams in staat om sneller en betere inzichten te leveren dankzij verbeterde toegang, schaalbaarheid en prestaties.
- toegang tot gegevens: door hun gegevens in de cloud te plaatsen, kunnen bedrijven hun analisten toegang geven tot realtime gegevens uit talrijke bronnen, waardoor ze sneller betere analyses kunnen uitvoeren.
- schaalbaarheid: Het is veel sneller en minder duur op schaal van een cloud data warehouse dan een on-premise-systeem, omdat het vereist geen aankoop van nieuwe hardware (en eventueel over – of onder-provisioning) en de schalen kan automatisch gebeuren als nodig is
- Prestaties: Een cloud data warehouse zorgt voor query ‘ s worden uitgevoerd, veel sneller dan ze tegen een traditionele on-premise data warehouse, voor lagere kosten.
Clouddatawarehouse-mogelijkheden
elk van de grote publieke cloudleveranciers biedt zijn eigen smaak van een clouddatawarehouse-service: Google biedt BigQuery, Amazon heeft Redshift en Microsoft heeft Azure SQL Data Warehouse. Er zijn ook cloud-aanbod van de wil van Snowflake die dezelfde mogelijkheden bieden via een service die draait op de public cloud, maar onafhankelijk wordt beheerd. Voor elk van deze services levert de cloudleverancier of datawarehouse provider de volgende mogelijkheden “out of the box”:
- gegevensopslag en-beheer: gegevens worden opgeslagen in een cloudgebaseerd bestandssysteem (d.w.z. S3).
- automatische upgrades: er bestaat geen concept van een “versie” of software-upgrade.
- capaciteitsbeheer: het is eenvoudig om uw gegevensvoetafdruk uit te breiden (of te contracteren).
factoren waarmee rekening moet worden gehouden bij het kiezen van een Clouddatawarehouse
hoe deze clouddatawarehouse-leveranciers deze mogelijkheden leveren en hoe ze ervoor rekenen, worden de zaken genuanceerder. Laten we dieper ingaan op de verschillende implementaties en prijsmodellen.
cloudarchitectuur: Cluster versus Serverless
er zijn twee hoofdkampen van cloud data warehouse architecturen. De eerste, oudere implementatiearchitectuur is clustergebaseerd: Amazon Redshift en Azure SQL Data Warehouse vallen in deze categorie. Typisch, geclusterde cloud Data warehouses zijn eigenlijk gewoon geclusterde Postgres derivaten, geport om te draaien als een dienst in de cloud. De andere smaak, serverless, is moderner en telt Google BigQuery en Sneeuwvlok als voorbeelden. In wezen, serverless cloud Data warehouses maken de database cluster “onzichtbaar” of gedeeld over veel klanten. Elke architectuur heeft zijn voor-en nadelen (zie hieronder).
Cloud Data Pricing: Betalen met de drank of met de Server
naast de implementatiearchitectuur is een ander groot verschil tussen de opties voor clouddatawarehouse de prijsstelling. In alle gevallen betaalt u een nominale vergoeding voor de hoeveelheid opgeslagen gegevens. Maar de prijzen verschillen voor berekenen.
Google BigQuery en Snowflake bieden bijvoorbeeld prijsopties op aanvraag op basis van de hoeveelheid gescande gegevens of de gebruikte rekentijd. Amazon Redshift en Azure SQL Data Warehouse bieden resource pricing op basis van het aantal of de soorten knooppunten in het cluster. Er zijn voors en tegens aan beide soorten prijsmodellen. De on-demand modellen brengen u alleen in rekening voor wat u gebruikt, wat budgettering moeilijk kan maken omdat het moeilijk is om het aantal gebruikers en het aantal en de grootte van de query ‘ s die ze zullen draaien te voorspellen. Ik ken een klant voorbeeld waar een gebruiker per ongeluk liep een $ 1,000 + query.
voor de node gebaseerde modellen (dat wil zeggen Amazon Redshift en Azure SQL Data Warehouse), betaalt u per server en/of servertype. Dit prijsmodel is natuurlijk meer voorspelbaar, maar het is “altijd aan”, dus u betaalt een vaste prijs, ongeacht het gebruik.
prijsstelling is een belangrijke overweging en vereist veel use case en workload modellering om de juiste pasvorm voor uw organisatie te vinden.
uitdagingen en overwegingen voor cloudmigratie (de”Gotchas”)
op AtScale hebben we veel bedrijven gezien die een migratie van hun on-premise data lakes en/of relationele data warehouses naar de cloud proberen. Voor velen “stagneert” hun migratie na het eerste proefproject om de volgende redenen:
- verstoring: downstreamgebruikers (bedrijfsanalisten, datawetenschappers) moeten hun gewoonten veranderen en hun rapporten en dashboards aanpassen.
- Performance: de cloud DW komt niet overeen met de performance van zeer afgestemde, verouderde on-premise data platforms.
- stickerschok-onvoorziene of ongeplande exploitatiekosten en gebrek aan kostenbeheersing.
Dit is waar AtScale kan helpen
te behouden wat u hebt
AtScale A3 minimaliseert of elimineert bedrijfsstoringen als gevolg van platformmigratie door het bedrijf toe te staan hun bestaande BI-tools, dashboards en rapporten te blijven gebruiken zonder ze opnieuw te coderen of helemaal te verlaten. Hoe kunnen we dit doen? De Atscale Universal Semantic Layer™ biedt een abstractie die gebruik maakt van uw verouderde platformschema ‘ s door ze virtueel opnieuw in kaart te brengen naar uw nieuwe clouddatawarehouse. Dit betekent dat uw bestaande rapporten en dashboards werken op het nieuwe cloud data platform met minimale of geen hercodering.
Verhoog uw prestaties
ik zie dat veel bedrijven gedesillusioneerd raken over de prestaties van hun nieuwe cloud data platform. Wat ze vaak niet in overweging nemen is dat hun bestaande on-premise datawarehouse (dwz Teradata, Oracle) al jaren of zelfs decennia zijn afgestemd. Hetzelfde prestatieniveau “out of the box” krijgen met een cloud data warehouse is niet realistisch.
de AtScale Adaptive Cache™ werkt door automatisch aggregaten te genereren op uw cloud data platform op basis van gebruikersquery patronen. Door het vermijden van dure en tijdrovende tabel scans, de AtScale platform levert snelle, consistente queries op “snelheid van denken”. We hebben veel klanten geholpen hun prestatie-uitdagingen voorbij te komen en hun cloud migraties te deblokkeren.
Houd een deksel op de kosten
ik kan niet eens tellen het aantal keren dat ik heb gehoord mensen klagen dat hun cloud kosten zijn veel hoger dan ze verwacht en onvoorspelbaar om op te starten. Nogmaals, het de AtScale Adaptive Cache™ aan de redding. Door onnodige tabelscans te verminderen, kunnen we de algehele prestaties, concurrency en kostenvoorspelling verbeteren, zodat u meer uit uw Dataplatform kunt halen zonder de kosten te verhogen. Met atscale ‘ s machine gegenereerde queries, zullen we uw kosten voorspelbaar te maken en elimineren het risico in verband met handgeschreven SQL queries.
ik geloof oprecht dat cloud Data warehouses een game changer zijn en de volgende golf in data warehousing. Doordacht te gebruiken, kunnen clouddatawarehouses uw operationele kosten drastisch verlagen en u tegelijkertijd de flexibiliteit bieden om de eisen van het bedrijf bij te houden.