Databricks lanceert Delta Sharing protocol voor veilige datadeling

28-05-2021 | door: Wouter Hoeffnagel

Databricks lanceert Delta Sharing protocol voor veilige datadeling

Databricks lanceert het nieuwe open source-project Delta Sharing. Het gaat om een open protocol voor het veilig en in real-time delen van data met andere organisaties, ongeacht het platform waar de data is opgeslagen. Delta Sharing is opgenomen in het open source Delta Lake-project en wordt ondersteund door Databricks en een reeks dataproviders, waaronder NASDAQ, ICE, S&P, Precisely, Factset, Foursquare, SafeGraph en softwareleveranciers zoals AWS, Google Cloud en Tableau. Dit is het vijfde grote open source-project dat Databricks lanceert na Apache Spark, Delta Lake, MLflow en Koalas, en wordt gedoneerd aan de Linux Foundation.

Het uitwisselen van data is cruciaal voor de digitale economie. Bedrijven willen gemakkelijk en veilig data delen met hun klanten, partners en leveranciers. Denk aan een retailer die actuele voorraadgegevens deelt met de merken die hij verkoopt. Maar doorgaans zijn oplossingen voor data-uitwisseling beperkt tot één leverancier of één product, waardoor de toegang tot data afhankelijk is van fabrikantspecifieke systemen. Dit beperkt organisaties die verschillende platforms gebruiken in hun samenwerking.

Data op grote schaal bruikbaar maken

"De grootste uitdaging voor dataleveranciers is tegenwoordig om hun data gemakkelijk en op grote schaal bruikbaar te maken. Het beheer van tientallen verschillende oplossingen om data op alle gebruikte platforms te leveren is onhoudbaar. Een open standaard voor het real-time delen van data is een drastische verbetering van de gebruikservaring voor zowel data-aanbieders als data-gebruikers", zegt Pieter Senster, Engineering Director bij Databricks. "Delta Sharing standaardiseert hoe data veilig wordt uitgewisseld tussen ondernemingen, ongeacht welk opslag- of computerplatform ze gebruiken. We maken deze innovatie met plezier open source."

Delta Sharing voorkomt vendor lock-in en maakt daardoor meer use cases mogelijk dan ooit tevoren. Zo kunnen een academische instelling en ziekenhuis die samenwerken aan onderzoek naar vaccins bijvoorbeeld een eenvoudige standaardwijze implementeren om onderzoeksgegevens en hun bevindingen veilig te delen. Met Delta Sharing worden ze niet beperkt door systeemeigen dataformats of afwijkende applicaties en tools. Ook is de setup minder complex, omdat het bijvoorbeeld niet nodig is om dezelfde datawarehouse-software te implementeren binnen beide organisaties.

Een ander voorbeeld: een fabrikant van vliegtuigmotoren kan beschikken over een standaardmethode om toegang te krijgen tot prestatiedata van de vliegtuigmotoren van alle verschillende luchtvaartmaatschappijen die hij bedient, ook al gebruikt iedere luchtvaartmaatschappij andere systemen om deze data op te slaan en te beheren.

Lakehouse-architectuur

Organisaties voeren tegenwoordig in hoog tempo een lakehouse-architectuur in. Delta Sharing maakt deze architectuur breder toepasbaar omdat het een open, eenvoudige en op samenwerking geënte omgang met data en AI mogelijk maakt - niet alleen binnen maar ook tussen organisaties.

Delta Sharing is gebouwd op Delta Lake 1.0 en heeft een leveranciersonafhankelijk governance-model dat wordt ondersteund door de Linux Foundation. Delta Sharing zet een gemeenschappelijke standaard neer voor het delen van alle typen data met een open protocol dat kan worden gebruikt in SQL, visuele analysetools en programmeertalen zoals Python en R.

Delta Sharing stelt organisaties tevens in staat om bestaande grootschalige datasets in de Apache Parquet- en Delta Lake-formats in real-time te delen zonder ze te kopiëren. De oplossing kan eenvoudig worden geïmplementeerd in bestaande software die Parquet ondersteunt.

Delta Sharing is onderdeel van het streven van Databricks richting een open, gedemocratiseerd data- en AI-ecosysteem. Databricks stelt dat innovatie wordt bevorderd door samenwerking, niet door isolatie. Het bedrijf zet daarom al langer in op de open source-gemeenschap. Het project wordt toegevoegd aan het portfolio van de Linux Foundation, dat onder meer het veelgebruikte Delta Lake, Apache Spark, MLflow en Koalas omvat. Deze projecten worden ruim 15 miljoen keer per maand gedownload door datateams over de hele wereld.

Data gebruiken met tools naar keuze

Delta Sharing biedt ingebouwde beveiligingscontroles en machtigingsinstellingen waarmee aan privacy- en compliancy-eisen wordt voldaan wanneer data wordt gedeeld tussen organisaties. Met Delta Sharing kunnen organisaties veilig data delen met leveranciers en partners. Elk van de betrokken datateams heeft daarbij de flexibiliteit om deze gedeelde data op te vragen, te visualiseren en verrijken met de tools van hun keuze, inclusief Azure Purview, GCP Big Query, AtScale, Collibra, Dremio, Immuta, Looker, Privacera, Qlik, Power BI en Tableau.

"Eenvoudige toegang tot data en deze te analyseren en delen is cruciaal om innovatie te bevorderen en echt datagedreven organisaties te bouwen", zegt François Ajenstat, Chief Product Officer bij Tableau. "Een nieuwe, open standaard voor het delen van data sluit aan bij Tableau's missie om data te democratiseren en iedereen in staat te stellen om snellere, slimmere beslissingen te nemen. We kijken ernaar uit om de toekomst van Delta Sharing te ondersteunen en onze klanten te voorzien van de flexibiliteit van een open, collaboratief data-ecosysteem."

"Wij ondersteunen Delta Sharing en de visie van een open protocol dat het veilig delen van data en de samenwerking tussen organisaties vereenvoudigt. Delta Sharing zal de manier waarop we met onze partners samenwerken verbeteren en de operationele kosten verlagen. Bovendien geeft het meer gebruikers uitgebreide toegang tot Nasdaq's datasuite, zodat zij betere inzichten kunnen vergaren en financiële strategieën kunnen ontwikkelen," zegt Bill Dague, Head of Alternative Data bij Nasdaq.

'Data moet open deelbaar zijn'

“Onze investering in Azure Data Share sluit aan bij de visie die we met Databricks delen - dat data open te delen moet zijn. Delta Sharing past goed binnen die visie. We zijn blij dat we onze samenwerking met Databricks voortzetten om een open data ecosysteem te ondersteunen”, zegt Mike Flasko, Partner Director Program Management bij Microsoft.

“Google Cloud and Databricks delen een visie om data toegankelijk, bruikbaar en open te maken, zodat bedrijven geïnformeerde beslissingen kunnen maken in de snel veranderende wereld van vandaag”, zegt Sudhir Hasbe, Director Product Management bij Google Cloud. “We zijn verheugd Databricks beschikbaar te maken op Google Cloud, en dat we de toegankelijkheid en portabiliteit van gegevens kunnen ondersteunen met oplossingen zoals BigQuery, waarmee organisaties data veilig kunnen delen en nieuwe en unieke inzichten kunnen ontdekken.”

Terug naar nieuws overzicht

Tags

data, Security
Security