Wouter Hoeffnagel - 26 juni 2020

Databricks introduceert Delta Engine en neemt Redash over

Databricks introduceert Delta Engine en neemt Redash over image

Databricks lanceert Delta Engine en kondigt de overname van Redash aan. Delta Engine is een query engine voor data lakes in de cloud. Redash is een open source tool voor dashboarding en visualisatie voor datawetenschappers en analisten, om data mee te verkennen. De aankondigingen zijn gedaan op de Spark+AI Summit, die deze week virtueel plaatsvindt voor meer dan 50.000 deelnemers uit de data community, uit meer dan 100 landen.

Delta Engine is ingericht voor gebruik met Delta Lake, een open source transactielaag die de kwaliteit en betrouwbaarheid van data lakes verbetert. Organisaties kunnen nu gecureerde data lakes opzetten die zowel gestructureerde als semigestructureerd data bevatten en hun analyses vervolgens uitvoeren op data van hoge kwaliteit in de cloud. Delta Lake is in 2017 door Databricks gelanceerd en in 2019 gedoneerd aan de Linux Foundation. Sindsdien maken onder meer Comcast, Condé Nast, Nielsen, FINRA, Shell en nog duizenden andere gebruik van Delta Lake.

Redash

Databricks heeft Redash, het bedrijf achter het succesvolle Redash open source project, overgenomen om gebruiksvriendelijke mogelijkheden voor dashboarding en visualisatie aan deze data lakes toe te voegen. Dankzij Redash hoeven datawetenschappers en SQL-analisten hun data niet langer over te zetten naar andere systemen om analyses uit te kunnen voeren.

Redash zorgt ervoor dat data makkelijker kan worden verwerkt
Het open source project Redash is opgezet om datateams te helpen wegwijs te worden in hun data. Datawetenschappers en SQL-analisten kunnen verschillende databronnen, waaronder operationele databases, data lakes en Delta Lake, in thematische dashboards verwerken. De resultaten kunnen vervolgens op talloze manieren gevisualiseerd worden, in bijvoorbeeld grafieken of cohorten. Deze zijn eenvoudig te delen met andere gebruikers, binnen of buiten de organisatie.

Vereenvoudigde cloudarchitectuur

Met de twee aankondigingen wil Databricks bedrijven één vereenvoudigde cloudarchitectuur voor databeheer bieden, waardoor ze de kosten en complexiteit drastisch verlagen en de productiviteit van datateams verhogen. Bovendien sluiten de ontwikkelingen aan op het ‘lakehouse’ design dat steeds populairder wordt. Steeds meer enterprise organisaties adopteren het lakehouse model om gestructureerde transacties en verbeterde kwaliteit en performance voor hun cloud data lakes mogelijk te maken.

“De meeste organisaties die aan de slag willen met datawetenschap en dataopslag maken gebruik van verschillende architecturen. Data zit vast in organisatorische silo’s binnen gesloten systemen. Daardoor worden bedrijven afgeremd en wordt het lastiger om kwalitatieve besluiten te nemen omdat informatie gefragmenteerd of achterhaald is,” zegt Ali Ghodsi, medeoprichter en CEO van Databricks. “Gecureerde cloud data lakes bieden organisaties de mogelijkheid om willekeurig welke analyse uit te voeren, ook datawetenschap en machine learning, op alle beschikbare meest recente data. De introductie van Delta Engine en de overname van Redash zijn onmisbare volgende stappen om organisaties te helpen bij de bouw van deze hoogwaardige, gecureerde data lakes, die ook wel ‘lakehouses’ genoemd worden."

Snelle query’s op Delta Lake

Traditionele data analyse op gestructureerde en semigestructureerde data vraagt om zeer snelle prestaties, om het tempo van het bedrijf bij te kunnen benen. Oorspronkelijk dupliceerden organisaties data in hun data lakes om deze in verschillende data warehouses op te slaan, omdat de tools voor de analyse van deze data niet geschikt zijn voor snelle uitvoering van query’s. Het beheer van zo’n complexe architectuur brengt verschillende uitdagingen met zich mee, waaronder het ontstaan van gefragmenteerde en inconsistente data silo’s en hoge kosten.

De nieuwe Delta Engine voor Delta Lake maakt snelle uitvoering van query’s mogelijk, voor zowel data analyse als datawetenschap, zonder data uit het data lake gehaald hoeft te worden. De query engine is vanaf de basis opgebouwd om te kunnen profiteren van moderne cloud hardware, wat query prestaties verbetert.

Miljoenen gebruikers bij duizenden organisaties maken al gebruik van Redash om inzichten te verkrijgen en data bruikbaar te maken. Het open source project is opgericht door een toegewijde developers community en is gebouwd door meer dan 300 deelnemers van over de hele wereld, sinds de lancering in 2013. Het open source Redash project kan voortaan met een gratis connector gebruikt worden met Databricks en Redash wordt de komende maanden volledig geïntegreerd in het Unified Data Analytics Platform van Databricks en in de Databricks workspace.

Schneider Electric BN BW start week 27 tm week 29 Fujitsu BW DIL vierkant week 9 tm 12-2024
Schneider Electric BN start week 27 tm week 29