Databricks lanceert LakeFlow, een uniforme, intelligente oplossing voor data-engineering

Redactie WINMAG Pro

Data- en AI-bedrijf Databricks kondigt deze week de lancering aan van Databricks LakeFlow, een nieuwe oplossing die alle aspecten van data-engineering verenigt en vereenvoudigt, van datavergaring tot transformatie en orkestratie. Met LakeFlow kunnen datateams eenvoudig en efficiënt data op schaal opnemen uit databases als MySQL, Postgres en Oracle, en zakelijke applicaties als Salesforce, Dynamics, Sharepoint, Workday, NetSuite en Google Analytics. Databricks introduceert ook de Real Time Mode voor Apache Spark voor datastreaming met ultralage latency.

LakeFlow automatiseert de uitrol, werking en bewaking van pipelines op schaal in productieomgevingen, met ingebouwde ondersteuning voor CI/CD en geavanceerde workflows die triggering, branching en voorwaardelijke uitvoering ondersteunen. Monitoring van datakwaliteit en -gezondheid zijn geïntegreerd met waarschuwingssystemen zoals PagerDuty. LakeFlow maakt het bouwen en beheren van data-pipelines eenvoudig en efficiënt, terwijl de meest complexe use cases voor data-engineering worden aangepakt, zodat zelfs de drukst bezette datateams aan de groeiende vraag naar betrouwbare data en AI kunnen voldoen.

Uitdagingen aanpakken bij de bouw en het beheer van betrouwbare data-pipelines

Data-engineering is essentieel voor de democratisering van data en AI binnen bedrijven, maar blijft een uitdagend en complex vakgebied. Datateams moeten gegevens ophalen uit gescheiden en vaak bedrijfseigen systemen zoals databases en bedrijfsapplicaties. Daarvoor moeten vaak complexe en kwetsbare connectoren worden ontwikkeld. Bovendien moet bij de datavoorbereiding complexe logica worden onderhouden, terwijl storingen en latencypieken kunnen leiden tot operationele uitval en ontevreden klanten. Voor het implementeren van data-pipelines en de bewaking van de datakwaliteit zijn meestal dan ook aanvullende, ongelijksoortige tools nodig, wat het proces nog ingewikkelder maakt. 

LakeFlow pakt deze uitdagingen aan door alle aspecten van data-engineering te vereenvoudigen via één uniforme ervaring, gebouwd op het Databricks Data Intelligence Platform, met diepgaande integraties met Unity Catalog voor end-to-end governance en serverless computing voor efficiënte en schaalbare uitvoering. 

De 3 pijlers van LakeFlow

LakeFlow Connect: eenvoudige en schaalbare datavergaring vanuit elke bron. 

LakeFlow Connect biedt een breed scala aan native, schaalbare connectoren voor databases als MySQL, Postgres, SQL Server en Oracle, en bedrijfsapplicaties als Salesforce, Dynamics, Sharepoint, Workday en NetSuite. Deze connectoren zijn volledig geïntegreerd met Unity Catalog voor robuust databeheer. LakeFlow Connect bevat de efficiënte low-latency prestaties van Arcion, dat in november 2023 door Databricks werd overgenomen. Bovendien maakt het alle data beschikbaar voor batch- en realtime analyses, ongeacht grootte, formaat of locatie.

LakeFlow Pipelines: realtime data-pipelines vereenvoudigen en automatiseren. 

LakeFlow Pipelines is gebouwd op de schaalbare Delta Live Tables-technologie van Databricks. Hiermee kunnen datateams datatransformatie en ETL implementeren in SQL of Python. Klanten kunnen nu de Real Time-modus inschakelen voor low-latency streaming zonder codewijzigingen. LakeFlow maakt handmatige orkestratie overbodig en verenigt batch- en streamverwerking. Het biedt incrementele dataverwerking voor een optimale prijs/kwaliteitverhouding. Met LakeFlow Pipelines kunnen zelfs de meest complexe streaming- en batchdatatransformaties eenvoudig worden gebouwd en beheerd.

LakeFlow Jobs: workflow-orkestratie op het Data Intelligence Platform. 

LakeFlow Jobs biedt geautomatiseerde orkestratie, datagezondheid en datalevering, van het plannen van notebooks en SQL-query's tot ML-training en automatische dashboardupdates. Het biedt verbeterde control flow-mogelijkheden en volledige zichtbaarheid, waarmee dataproblemen kunnen worden opgespoord, gediagnosticeerd en beperkt voor een grotere betrouwbaarheid van de pipeline. LakeFlow Jobs automatiseert de implementatie, orkestratie en monitoring van data-pipelines op één plek, waardoor het voor datateams gemakkelijker wordt om beloofde dataleveringen na te komen. 

Beschikbaarheid 

LakeFlow is binnenkort beschikbaar in preview, te beginnen met LakeFlow Connect. Databricks-klanten kunnen zich hier aanmelden voor de wachtlijst.

Redactie WINMAG Pro
Door: Redactie WINMAG Pro
Redactie

Redactie WINMAG Pro

Redactie