RBI-Solutions blog

Van Inzicht naar Data gedreven: DE SPRONG van AWS Data Warehouse naar Data Lakehouse

Veel organisaties vertrouwen op hun data warehouse voor analyse en besluitvorming. Maar data is allang niet meer alleen gestructureerd: e-mails, Excel-bestanden, afbeeldingen en sensordata vormen inmiddels het grootste deel. En daar zijn traditionele warehouses niet op gebouwd. De oplossing? Een Data Lakehouse: schaalbaar, flexibel én kostenefficiënt – zonder de betrouwbaarheid van een warehouse te verliezen. Maar hoe zet je die stap als je huidige omgeving op AWS draait? En hoe voorkom je vendor lock-in?

afbeelding blogpost data platform engineer

WAAROM HET TRADITIONELE DATA WAREHOUSE NIET MEER VOLDOENDE IS

Het data warehouse vormt al jarenlang het hart van besluitvorming binnen veel organisaties. Data wordt netjes ontsloten, opgeslagen in tabellen en in dashboards weergegeven. Maar waarom vraagt uiteindelijk toch iedereen weer om een Excel-bestand met ruwe data? De realiteit is dat het grootste deel van bedrijfsdata ongestructureerd is. Sommige onderzoeken schatten dat dit wel 80–90% van alle data betreft. Die tientallen PowerPoint-rapportages en honderden Excel-bestanden op de netwerkschijf zijn slechts het topje van de ijsberg. Een Data Lakehouse biedt wél mogelijkheden om met deze vormen van data om te gaan. Bovendien introduceert het een reeks verbeteringen die essentieel zijn voor een moderne, toekomstbestendige data-architectuur.

VIJF VOORDELEN VAN EEN DATA LAKEHOUSE

Flexibiliteit in datatypes: Een Data Lakehouse verwerkt gestructureerde, semi-gestructureerde en ongestructureerde data binnen één platform. Denk aan JSON-bestanden, afbeeldingen, video’s en sensordata.

Kostenefficiënte opslag: Door gebruik te maken van goedkope cloudobjectopslag (zoals Amazon S3 of Azure Data Lake Storage) dalen de opslagkosten aanzienlijk. Ook voorkom je dat data dubbel wordt opgeslagen voor verschillende doeleinden.

Geavanceerde data governance en beveiliging: Lakehouses ondersteunen ACID-conforme transacties (voor betrouwbaarheid), schemahandhaving en versiebeheer. Dit maakt het makkelijker om governance en compliance te borgen, ook bij grote en diverse datasets.

Schaalbaarheid en prestaties: Doordat opslag en rekenkracht gescheiden zijn, kun je eenvoudig opschalen. Moderne query-engines zorgen bovendien voor snelle analyses, vergelijkbaar met traditionele warehouses.

Real-time en advanced analytics: Lakehouses ondersteunen zowel streaming data als batchverwerking. Zo kun je real-time dashboards, ML-modellen en historische rapportages draaien op één platform.

DE OVERGANG VANUIT AWS: WAT JE MOET WETEN

Bij een Delta Lakehouse wordt een extra metadata-laag aan het datalake toegevoegd, waardoor dit een “Delta Lake” vormt. Delta Lake is inmiddels de industriestandaard, onder andere via Databricks of Microsoft Fabric. Gebruik je AWS? Dan kom je bij een belangrijk punt: AWS ondersteunt Delta Lake niet native. Gelukkig is er een open-source alternatief: Apache Iceberg, dat wél goed integreert in de AWS-omgeving. Misschien is dit juist het moment om stil te staan bij je migratie en deze te zien als een kantelpunt.

DATAMIGRATIE ALS STRATEGISCH MOMENT

Bedrijven en hun data-architecturen groeien vaak organisch. Wat een paar jaar geleden logisch was, is dat vandaag misschien niet meer. Cloudleveranciers profiteren hier van: eenmaal gestart binnen één ecosysteem, is overstappen lastig. Dit noemen we vendor lock-in.

Een lakehouse-migratie is hét moment om je af te vragen: “Kun je met je nieuwe architectuur zeker 3 tot 5 jaar vooruit?”

Is het antwoord ja? Mooi. Dan kun je voortbouwen op je bestaande stack en de migratie efficiënt en gecontroleerd uitvoeren.
Is het antwoord nee? Ook goed! Dan kun je een nieuwe architectuur opzetten die écht aansluit bij je toekomstige behoeften. Dit vergt meer werk, maar betaalt zich vaak ruimschoots terug.

DRIE VOORBEELDOPLOSSINGEN VOOR EEN DATA LAKEHOUSE-IMPLEMENTATIE

1. Meest kostenefficiënt: AWS-native met Apache Iceberg

Binnen het AWS-ecosysteem kun je met services zoals S3, Glue, Lake Formation, Lambda, Step Functions en Redshift een serverless Data Lakehouse opzetten. Apache Iceberg zorgt voor ACID-conforme verwerking. Voeg je Sagemaker toe, dan kun je direct aan de slag met machine learning. Door maximaal gebruik te maken van native AWS-tools behaal je schaal- en kostenvoordelen.

2. Focus op machine learning: AWS + Databricks

Hier orkestreer je datastromen met AWS-tools (zoals Glue, Lambda en Step Functions), en gebruik je Databricks voor data-analyse en ML. Databricks is gebouwd op Delta Lake en Apache Spark en blinkt uit in het verwerken van grote datavolumes. Heb je veel ML- of AI-use-cases? Dan is Databricks een logische keuze, al brengt het hogere kosten en complexiteit met zich mee.

3. Focus op eenvoud: Microsoft Fabric

Microsoft Fabric is een volledig SaaS-platform waarin data-integratie, real-time analytics en ML samenkomen. Dankzij OneLake en ondersteuning van Delta Lake werk je met PySpark of SQL binnen één omgeving. Werk je veel met Office 365, Teams of het Power Platform? Dan biedt Fabric een laagdrempelige manier om data-engineering, governance en BI te combineren in één stack.

TOT SLOT: LAAT 80% VAN JE DATA NIET LIGGEN

Er zijn veel manieren om een Data Lakehouse op te zetten – binnen AWS, Azure of Google Cloud. Welke keuze je maakt, hangt af van je bestaande infrastructuur, de tools die je al gebruikt en je specifieke use-cases. Maar één ding staat vast: het negeren van 80–90% van je data is geen optie als je écht data gedreven wilt worden. Lakehouse-architecturen zijn niet alleen actueel; ze worden steeds relevanter.

KLAAR VOOR DE STAP?

Ben jij klaar om de overstap van data warehouse naar lakehouse te maken? Een migratie blijft altijd maatwerk en wij denken graag met je mee.

👉 Lees hier hoe we dat aanpakken of neem vrijblijvend contact met ons op!

Meer weten over wat wij met data kunnen?

Lees verder over data en de diensten van RBI-Solutions in deze blog's:

Hoe afhankelijk ben jij van je office software?

Stel je voor: je online kantooromgeving valt ineens uit. Geen toegang tot e‑mail. Teams kunnen niet samenwerken en online-vergaderen. Alle bestanden in online mappen zijn onbereikbaar. Voor veel organisaties is dat vandaag de dag een ondenkbaar scenario — maar wel één dat langzaam realistischer wordt.
Of het écht gaat gebeuren? Dat weten we niet. Maar elke maand wordt de kans op verstoringen een beetje groter. Voor wie volledig afhankelijk is van de cloud voor kantoorsoftware kan zo’n uitval enorme impact hebben op communicatie, samenwerking en bedrijfscontinuïteit.

Wat als jouw dataplatform ineens moet verhuizen? Wees voorbereid op het onverwachte.

De afgelopen maanden merken organisaties het steeds sterker: de wereld verandert sneller dan onze IT‑landschappen aankunnen. Nieuwe wetgeving, geopolitieke spanningen, dreigende afhankelijkheden en besluiten van grote cloudleveranciers — het komt allemaal dichterbij dan we ooit hadden verwacht.

Uiteraard hebben we ons deze vraag ook gesteld over onze eigen platformen – hoe doen we dat zelf? Wij hebben ons inmiddels voorbereid.

Maak kennis met Helene, onze Data Consultant

Met veel plezier stellen we Helene Fritzsche aan jullie voor. Beter laat dan nooit, moeten we zeggen. Helene is inmiddels alweer vijf maanden onderdeel van ons team bij RBI-Solutions, hoog tijd dus om haar ook hier officieel te introduceren.

Helene is gestart als Data Consultant met een sterk data-analistprofiel. Ze helpt organisaties om data te verzamelen, op te schonen, te analyseren en te vertalen naar heldere inzichten. Denk aan dashboarding en datavisualisatie, maar ook aan het doorgronden van datalandschappen en de processen rondom data.

Vanaf 1 februari groeien we verder. Bouw jij mee?

Terugkijkend op het afgelopen jaar hebben we mooie stappen gezet. We hebben veel van elkaar geleerd, verschillende opdrachten bij nieuwe klanten gestart en aan uitdagende projecten gewerkt. We hebben nieuwe collega’s aangenomen, samen gebouwd aan onze groei en natuurlijk ook veel plezier gemaakt.

We sluiten 2025 af met onze RBI kerstborrel. Maar we kijken ook vooruit. Vanaf 1 februari 2026 zijn we op zoek naar 2 medior data-analisten die zin hebben om mee te bouwen aan onze groei.

Fijne feestdagen!

Afgelopen vrijdag hebben we samen met het hele team kerst gevierd bij Brava, een café om de hoek van ons kantoor. We hebben heerlijk geborreld, het jaar met elkaar afgesloten en natuurlijk ook onze kerstcadeaus uitgepakt. Dit jaar was een RBI-kersttrui onderdeel van het kerstpakket.

Maak kennis met Sara, onze nieuwe Data Consultant!

Met veel plezier stellen we Sara Herrebout aan jullie voor, één van onze nieuwste collega’s bij RBI-Solutions.

Sara heeft een achtergrond in Econometrie en werkte eerder als data-analist bij een energieleverancier. Inmiddels draait ze vol mee op haar opdracht bij InShared, samen met Mark Kronenberg, die hier begin dit jaar via ons is gestart. Samen werken ze aan de Duitse autoverzekeringspropositie. Omdat deze tak nog relatief jong is, ligt er veel ruimte om processen slimmer, schaalbaarder en efficiënter te maken. Dat is precies het soort uitdaging waar Sara energie van krijgt.

Zonder businessdoelen geen duurzame data-architectuur

Vorige week gaf ik met veel enthousiasme een introductie over data-architecturen aan nieuwe collega’s. We bespraken de historie van architecturen, de plek van een Data Architectuur binnen een Enterprise Architectuur en hoe zo’n architectuur het werk van Data Engineers, Data Analisten en Data Scientists beïnvloedt. Data Architectuur wordt vaak gezien als een IT-feestje, maar een goede architectuur wordt altijd gedreven door heldere businessdoelen. Zonder die doelen is een data platform als een Ferrari bij een off-road rally: technisch en esthetisch indrukwekkend, maar totaal ongeschikt voor het terrein waarin het moet presteren. Zo verliest een architectuur zonder richting snel zijn waarde en wordt data engineering meer een technologisch experiment dan een strategisch fundament.

MCP: De nieuwe AI standaard

Een begrip dat je online steeds vaker tegenkomt binnen al de buzz rond AI is ‘MCP’; weer zo’n afkorting die voor heel veel mensen cryptisch klinkt. Binnen de AI wereld is het echter wel een heel belangrijke vooruitgang: standaardisatie. Het verbinden van AI met bestaande APIs biedt heel veel mogelijkheden. Echter bouwt elke organisatie hun oplossing net weer anders. De ene bot praat zo tegen een API, de andere weer anders, en voor je het weet heb je een kerkhof aan connectors. Het idee is goed, de uitvoering vaak rommelig. Dit is precies waar MCP om de hoek komt kijken.

AI Agents: meer dan een slimmere chatbot

De meeste mensen zien AI nog steeds als een soort papegaai die tekstjes en plaatjes maakt zodra je iets vraagt. Handig, maar ook best oppervlakkig. Sinds enige tijd is er echter ook iets nieuws in opkomst: ‘Agentic AI’. AI-agenten dus die autonoom te werk kunnen gaan.

In plaats van pure generatie, kunnen ze een probleem ontleden, stappen zetten richting een oplossing, hun eigen werk checken en zelf andere tools gebruiken. We stappen dus richting zelfstandig werkende oplossingen. Je kunt het bijna zien als een leger van volledig virtuele assistenten en stagiaires. Dit belooft veel maar, brengt zeker ook gevaren.

AutoML: Machine Learning op de automatische piloot?

Geautomatiseerd Machine Learning ook wel ‘AutoML’ is het automatiseren van de tijdrovende, iteratieve taken bij het ontwikkelen van machine learning-modellen. Je laat als het ware het bouwen van de modellen aan de machines zelf over.

Voor een paar tientjes een model dat kan voorspellen welke klanten over een paar maanden gaan vertrekken. Klinkt een beetje te goed om waar te zijn. Dan heb je natuurlijk ook geen Data Scientists meer nodig, toch? Nou, er zitten uiteraard wel wat haken en ogen aan. De specialisten op het gebied van Machine Learning verdwijnen ook zeker niet zo maar. Even een stap terug dus.

Data mesh: principes en praktische implementatie

Elk relatief groot bedrijf bestaat uit verschillende afdelingen, elk met zijn eigen vraagstukken. Op datagebied is dat niet anders: marketing wil weten hoe campagnes performen, operations wil de huidige voorraad kunnen inzien, finance bewaakt de cashflow en productontwikkeling volgt klantgedrag.

Datamigratie afgerond… en nu?

Binnen veel organisaties is een datamigratie een enorme mijlpaal. Maandenlang werk je toe naar dat ene moment waarop alle data succesvol is overgezet naar de nieuwe operationele applicatie. Tijdens dat migratietraject worden allerlei controles ingericht: validatieregels, datakwaliteitschecks en integriteitscontroles die ervoor zorgen dat iedere klant, transactie of productrecord correct wordt overgezet. In de praktijk zien we alleen dat die regels direct na de migratie verdwijnen uit beeld. Terwijl ze juist ook dan van grote waarde zijn.

« Older Entries