Wouter Hoeffnagel - 26 februari 2020

Databricks versnelt opzetten van data lakehouses met Databricks Ingest

Databricks versnelt opzetten van data lakehouses met Databricks Ingest image

Databricks, gespecialiseerd in unified data analytics, integreert Databricks Ingest in haar Unified Data Analytics Platform. In combinatie met het Databricks Ingestion partnernetwerk kunnen datateams hierdoor makkelijker databeheer, business intelligence (BI) en machine learning (ML) combineren in een data lakehouse, een nieuwe databeheermethode die aspecten van data lakes en data warehouses verenigt.

Bedrijven moesten hun beschikbare data oorspronkelijk opsplitsen in traditionele, gestructureerde data en big data. Deze datasets werden vervolgens los van elkaar gebruikt voor BI- en ML-cases. Hierdoor werden de data lakes en data warehouses van elkaar gescheiden. Dat leidde tot trage verwerkingsprocessen en gefragmenteerde resultaten, die ofwel te vertraagd ofwel te incompleet waren om ze effectief in te kunnen zetten. Dit verandert met Databricks Ingest, waarmee klanten gemakkelijk vanuit verschillende databronnen hun data direct toe kunnen voegen aan Delta Lake: open source technologie om betrouwbare en snelle data lakehouses op te zetten. Het bijbehorende partnernetwerk bestaat uit ingebouwde integraties met Fivetran, Qlik, Infoworks, Steamsets en Syncsort, die het mogelijk maken om geautomatiseerd data in te laden. Azure Databricks klanten konden overigens al gebruik maken van de ingebouwde integratie met Azure Data Factory om data vanuit verschillende bronnen in te laden.

Ieder type data eenvoudig inladen

“Data-silo’s, trage processen en gefragmenteerde resultaten zijn allemaal belangrijke drijfveren in het overschakelen naar lakehouses,” zegt Ali Ghodsi, medeoprichter en CEO van Databricks. “Data lakehouses combineren de betrouwbaarheid van data warehouses met de omvang van data lakes om elke gewenste use case te ondersteunen. Om deze data-architectuur goed te laten werken, moet het makkelijk zijn om ieder type data in te laden. Databricks Ingest is een belangrijke stap in die richting.”

“Databricks ondersteunt onze machine learning en business intelligence in uiteenlopende aspecten van onze bedrijfsvoering, van auto-inventarisbeheer tot prijsvoorspellingen en technische werkzaamheden, door gebruik te maken van honderden terabytes aan data,” zegt Greg Rokita, Executive Director Technology bij Edmunds. “Onze visie op het gebied van data is volledig afgestemd op de lakehouse-methode. Delta Lake is het beginpunt van al onze machine learning en rapportageprocessen. We zijn enthousiast over Databricks Ingest: het zal het zeker makkelijker maken om data in ons Delta Lake te laden.”

Integraties

Data uit applicaties als Salesforce, Marketo, Zendesk, SAP en Google Analystics, databases zoals Cassandra, Oracle, MySQL en MongoDB en bestandsopslagdiensten zoals Amazon S3, Azure Data Lake Storage en Google Cloud Storage kan eenvoudig gecombineerd worden in één data lakehouse voor alle BI- en ML-vraagstukken. Naast de vandaag aangekondigde netwerkpartners zullen binnenkort integraties met onder andere Informatica, Segment en Talend beschikbaar zijn.

Daarbij kunnen auto-laadmogelijkheden ingesteld worden waarmee data het lakehouse doorlopend binnenstroomt, zonder dat daarvoor onderhoud nodig is. Wanneer data uit verschillende cloudbronnen binnenkomt, slaat Databricks Ingest deze automatisch op in het lakehouse. Zo worden de verschillende data-silo’s doorbroken en kan data door verschillende teams binnen een bedrijf worden ingezet om datagedreven innovatie mogelijk te maken en toegevoegde waarde te leveren met data science, ML en BI.

Big data en business context samenbrengen

Ook de partners van Databricks zijn enthousiast over Ingest. “Fivetran en Databricks stellen klanten in staat om big data en business context samen te brengen in één omgeving. Door onze technologieën te combineren zijn gebruikers in staat de nieuwste machine learning mogelijkheden te combineren met traditionele business intelligence, en dat allemaal in één data lakehouse,” zegt George Fraser, CEO van Fivetran.

“Qlik is marktleider in geautomatiseerde data-integratie met cloud data warehouses en data lakes. We hebben data uit meer dan 200.000 databases verhuisd binnen ’s werelds grootste bedrijven, met onze unieke Change Data Capture (CDC) technologie. Dankzij deze integratie kunnen onze klanten hun datalevering richting Delta Lake optimaliseren,” zegt Mike Capone, CEO bij Qlik. “Databricks gebruikers hebben nu betere toegang tot de data uit al hun enterprise-oplossingen inclusief mainframes, SAP, databases en data warehouses, door open data lakehouses aan Delta Lake toe te voegen.”

Lees voor meer informatie het artikel “What is a Lakehouse?” van brancheveteranen Ben Lorica, Michael Armbrust, Ali Ghodsi, Reynold Xin en Matei Zaharia voor meer inzicht in hoe data lakehouses de opvolgers zijn van data warehouses en data lakes. Lees ook het partnerblog van Qlik: “Qlik & Databricks: Join Forces to Accelerate Your Speed to Insights”.