RBI-Solutions blog

Van Inzicht naar Data gedreven: DE SPRONG van AWS Data Warehouse naar Data Lakehouse

Veel organisaties vertrouwen op hun data warehouse voor analyse en besluitvorming. Maar data is allang niet meer alleen gestructureerd: e-mails, Excel-bestanden, afbeeldingen en sensordata vormen inmiddels het grootste deel. En daar zijn traditionele warehouses niet op gebouwd. De oplossing? Een Data Lakehouse: schaalbaar, flexibel én kostenefficiënt – zonder de betrouwbaarheid van een warehouse te verliezen. Maar hoe zet je die stap als je huidige omgeving op AWS draait? En hoe voorkom je vendor lock-in?

WAAROM HET TRADITIONELE DATA WAREHOUSE NIET MEER VOLDOENDE IS

Het data warehouse vormt al jarenlang het hart van besluitvorming binnen veel organisaties. Data wordt netjes ontsloten, opgeslagen in tabellen en in dashboards weergegeven. Maar waarom vraagt uiteindelijk toch iedereen weer om een Excel-bestand met ruwe data? De realiteit is dat het grootste deel van bedrijfsdata ongestructureerd is. Sommige onderzoeken schatten dat dit wel 80–90% van alle data betreft. Die tientallen PowerPoint-rapportages en honderden Excel-bestanden op de netwerkschijf zijn slechts het topje van de ijsberg. Een Data Lakehouse biedt wél mogelijkheden om met deze vormen van data om te gaan. Bovendien introduceert het een reeks verbeteringen die essentieel zijn voor een moderne, toekomstbestendige data-architectuur.

VIJF VOORDELEN VAN EEN DATA LAKEHOUSE

  • Flexibiliteit in datatypes: Een Data Lakehouse verwerkt gestructureerde, semi-gestructureerde en ongestructureerde data binnen één platform. Denk aan JSON-bestanden, afbeeldingen, video’s en sensordata.
  • Kostenefficiënte opslag: Door gebruik te maken van goedkope cloudobjectopslag (zoals Amazon S3 of Azure Data Lake Storage) dalen de opslagkosten aanzienlijk. Ook voorkom je dat data dubbel wordt opgeslagen voor verschillende doeleinden.
  • Geavanceerde data governance en beveiliging: Lakehouses ondersteunen ACID-conforme transacties (voor betrouwbaarheid), schemahandhaving en versiebeheer. Dit maakt het makkelijker om governance en compliance te borgen, ook bij grote en diverse datasets.
  • Schaalbaarheid en prestaties: Doordat opslag en rekenkracht gescheiden zijn, kun je eenvoudig opschalen. Moderne query-engines zorgen bovendien voor snelle analyses, vergelijkbaar met traditionele warehouses.
  • Real-time en advanced analytics: Lakehouses ondersteunen zowel streaming data als batchverwerking. Zo kun je real-time dashboards, ML-modellen en historische rapportages draaien op één platform.

DE OVERGANG VANUIT AWS: WAT JE MOET WETEN

Bij een Delta Lakehouse wordt een extra metadata-laag aan het datalake toegevoegd, waardoor dit een “Delta Lake” vormt. Delta Lake is inmiddels de industriestandaard, onder andere via Databricks of Microsoft Fabric. Gebruik je AWS? Dan kom je bij een belangrijk punt: AWS ondersteunt Delta Lake niet native. Gelukkig is er een open-source alternatief: Apache Iceberg, dat wél goed integreert in de AWS-omgeving. Misschien is dit juist het moment om stil te staan bij je migratie en deze te zien als een kantelpunt.

DATAMIGRATIE ALS STRATEGISCH MOMENT

Bedrijven en hun data-architecturen groeien vaak organisch. Wat een paar jaar geleden logisch was, is dat vandaag misschien niet meer. Cloudleveranciers profiteren hier van: eenmaal gestart binnen één ecosysteem, is overstappen lastig. Dit noemen we vendor lock-in.

Een lakehouse-migratie is hét moment om je af te vragen: “Kun je met je nieuwe architectuur zeker 3 tot 5 jaar vooruit?”

  • Is het antwoord ja? Mooi. Dan kun je voortbouwen op je bestaande stack en de migratie efficiënt en gecontroleerd uitvoeren.
  • Is het antwoord nee? Ook goed! Dan kun je een nieuwe architectuur opzetten die écht aansluit bij je toekomstige behoeften. Dit vergt meer werk, maar betaalt zich vaak ruimschoots terug.

DRIE VOORBEELDOPLOSSINGEN VOOR EEN DATA LAKEHOUSE-IMPLEMENTATIE

1.           Meest kostenefficiënt: AWS-native met Apache Iceberg

Binnen het AWS-ecosysteem kun je met services zoals S3, Glue, Lake Formation, Lambda, Step Functions en Redshift een serverless Data Lakehouse opzetten. Apache Iceberg zorgt voor ACID-conforme verwerking. Voeg je Sagemaker toe, dan kun je direct aan de slag met machine learning. Door maximaal gebruik te maken van native AWS-tools behaal je schaal- en kostenvoordelen.

2.           Focus op machine learning: AWS + Databricks

Hier orkestreer je datastromen met AWS-tools (zoals Glue, Lambda en Step Functions), en gebruik je Databricks voor data-analyse en ML. Databricks is gebouwd op Delta Lake en Apache Spark en blinkt uit in het verwerken van grote datavolumes. Heb je veel ML- of AI-use-cases? Dan is Databricks een logische keuze, al brengt het hogere kosten en complexiteit met zich mee.

3.           Focus op eenvoud: Microsoft Fabric

Microsoft Fabric is een volledig SaaS-platform waarin data-integratie, real-time analytics en ML samenkomen. Dankzij OneLake en ondersteuning van Delta Lake werk je met PySpark of SQL binnen één omgeving. Werk je veel met Office 365, Teams of het Power Platform? Dan biedt Fabric een laagdrempelige manier om data-engineering, governance en BI te combineren in één stack.

TOT SLOT: LAAT 80% VAN JE DATA NIET LIGGEN

Er zijn veel manieren om een Data Lakehouse op te zetten – binnen AWS, Azure of Google Cloud. Welke keuze je maakt, hangt af van je bestaande infrastructuur, de tools die je al gebruikt en je specifieke use-cases. Maar één ding staat vast: het negeren van 80–90% van je data is geen optie als je écht data gedreven wilt worden. Lakehouse-architecturen zijn niet alleen actueel; ze worden steeds relevanter.

KLAAR VOOR DE STAP?

Ben jij klaar om de overstap van data warehouse naar lakehouse te maken? Een migratie blijft altijd maatwerk en wij denken graag met je mee.

👉 Lees hier hoe we dat aanpakken of neem vrijblijvend contact met ons op!

Lees verder over data en de diensten van RBI-Solutions in deze blog's:

Van tijd naar trigger: De weg naar een event-driven data architectuur

Van tijd naar trigger: De weg naar een event-driven data architectuur

Sinds het begin van het gebruik van Business Intelligence hebben organisaties vertrouwd op periodieke dataverwerking, de zogenaamde ’batch jobs’ die elke nacht draaien. Sindsdien is de behoefte aan snelheid, flexibiliteit en realtime inzichten enorm toegenomen. Die behoefte zorgt dan ook voor een fundamentele verschuiving in hoe we data-architecturen ontwerpen: weg van batch processen, op weg naar een event-driven benadering.

Maar wat betekent dat eigenlijk: ’event-driven’? En waarom zou je hier als data engineer, analist, data scientist of business gebruiker wakker van moeten liggen? In deze blog duiken we in de wereld van event-driven data-architecturen, hun voordelen, uitdagingen, en de tools die deze transitie mogelijk maken.

DataOps, DevOps en MLOps: Oude wijn in nieuwe zakken of écht anders?

DataOps, DevOps en MLOps: Oude wijn in nieuwe zakken of écht anders?

In een data gedreven organisatie vliegen de samenwerkingstermen je om de oren: DevOps, DataOps, MLOps. Deze drie termen, die inderdaad erg hetzelfde klinken (en door sommige organisaties ingevuld worden door een beheerder in een ontwikkelteam te zetten), verschillen in de praktijk aanzienlijk in toepassing, focus en doel. Voor wie dagelijks werkt met data of systemen die op data drijven, is het essentieel om deze termen niet alleen te kennen, maar ook te begrijpen wat ze betekenen en hoe ze zich tot elkaar verhouden. Daar nemen we jullie in deze blog dan ook in mee.

INTERVIEW MET DATA ENGINEER/BI CONSULTANT Said Saoud

INTERVIEW MET DATA ENGINEER/BI CONSULTANT Said Saoud

Wat begon met een goed gesprek en een flinke dosis enthousiasme, groeide uit tot een veelzijdige carrière in data engineering bij RBI. In dit interview deelt Said Saoud zijn reis bij RBI: hoe hij begon, waar hij aan werkt en waarom hij zich thuis voelt in de wereld van data engineering en BI. Benieuwd naar zijn ervaringen, tools en visie op de toekomst van data? Lees het hele verhaal in deze blogpost.

Data Science: Een eenmalig model of integratie in de dagelijkse operatie?

Data Science: Een eenmalig model of integratie in de dagelijkse operatie?

In veel organisaties is data science inmiddels geen onbekende meer. Data scientists bouwen geavanceerde voorspellende modellen, werken met machine learning en experimenteren met AI om waarde te halen uit grote hoeveelheden data. Er zit echter vaak een kloof tussen het bouwen van een model en het daadwerkelijk creëren van impact in de dagelijkse operatie.

Wat betekent de overname van Informatica door Salesforce voor data en AI?

Wat betekent de overname van Informatica door Salesforce voor data en AI?

Salesforce heeft aangekondigd dat het Informatica overneemt voor zo’n $8 miljard. Wat lijkt op een strategische fusie tussen twee softwaregiganten, is in werkelijkheid veel meer dan dat.
Deze overname heeft directe impact op hoe organisaties omgaan met datakwaliteit, governance en AI-adoptie. Het is een duidelijk signaal: zonder betrouwbare, goed geïntegreerde data, geen succesvolle AI. In onze nieuwste blog geven wij een analyse van deze ontwikkeling en leggen wij uit wat dit betekent voor jouw datastrategie.

Big Bang of stapsgewijs? De kunst van datamigraties

Big Bang of stapsgewijs? De kunst van datamigraties

Datamigraties lijken op het eerste gezicht slechts een technische randvoorwaarde, maar zijn in werkelijkheid een strategisch en risicovol proces. Uiteraard willen bedrijven de data die ze al hebben weer terugzien in de nieuwe applicatie. Het klinkt misschien als een simpele verhuizing, maar bij een datamigratie komt een hoop kijken. Je hebt immers niet alleen te maken met de twee systemen waar de data uitkomt, maar ook met de kritische processen die erop draaien. Denk aan orderverwerking, voorraadbeheer of klantcommunicatie.

Een slechte aanpak kan zorgen voor kostbare downtime, verstoringen in processen of zelfs verlies van klantvertrouwen. Organisaties staan vaak voor de keuze tussen twee migratiestrategieën: de ‘big bang’-aanpak of een gefaseerde overgang.
Welke kies je en waarom? We nemen je mee in de afwegingen.

Zo begin je vandaag nog met Fabric

Zo begin je vandaag nog met Fabric

Microsoft Fabric is niet zo maar wéér een tool om iets te doen met je data. Het is een platformshift. Een alles-in-één oplossing die data-engineering toegankelijker en resultaatgerichter maakt. Je bent minder tijd kwijt aan de infrastructuur en hebt meer tijd om echt impact te maken. Het andere grote voordeel: Automatisering, data visualisatie en data governance zitten er vanaf dag één ingebakken.

Gebruik de gratis 60-dagen trial. Test het: één bron, één flow, één dashboard. Meer heb je niet nodig om te zien of het werkt voor jou.

Encryptie-by-Design, het veilig en verantwoord beheren van persoonsgegevens en gevoelige data

Encryptie-by-Design, het veilig en verantwoord beheren van persoonsgegevens en gevoelige data

Als data engineer of manager weet je hoe belangrijk het is om persoonsgegevens veilig te verwerken, vooral met de AVG op de achtergrond. Bij RBI hebben we Encryptie-by-Design als uitgangspunt toegepast tijdens verschillende projecten: alle persoonsgegevens worden standaard versleuteld bij het ontsluiten van data.
🔐 De sleutel? Alleen decryptie wanneer het echt noodzakelijk is. Dit minimaliseert risico’s en zorgt dat je dataplatform compliant blijft.

Praten met je data, toepassing van AI om inzichten te halen uit je eigen data

Praten met je data, toepassing van AI om inzichten te halen uit je eigen data

Data is er genoeg. Maar hoe zorg je ervoor dat de juiste mensen de juiste informatie to zich kunnen nemen?
Bij RBI onderzochten we hoe AI-selfserviceplatformen medewerkers kunnen helpen om zelf inzichten uit data te halen. Denk aan een chatbot of custom GPT waarmee je team direct met hun data kunnen ‘praten’. De vraag die wij onszelf stelden: hoe kun je een self-serviceplatform voor datavragen implementeren?

“Blijf nieuwsgierig, zoek je eigen pad en sta open om te blijven leren.”

“Blijf nieuwsgierig, zoek je eigen pad en sta open om te blijven leren.”

Dat is het advies van onze BI consultant Mark aan iedereen die de wereld van data in wil. Zelf begon hij drie jaar geleden bij RBI, waar hij via een traineeship uitgroeide tot Data engineer.

Zijn geheim? Vragen blijven stellen, goed om je heen kijken en gewoon beginnen.

Benieuwd naar zijn favoriete projecten, tools, en waarom hij zich bij RBI zo thuis voelt? Lees dan zijn verhaal hieronder.

Employee 360° – Hoe goed ken jij je medewerkers écht?

Employee 360° – Hoe goed ken jij je medewerkers écht?

In de war for talent is het niet genoeg om alleen te werven — je moet ook je huidige medewerkers goed begrijpen én behouden. Een Employee 360° view bundelt versnipperde data tot één compleet beeld van je mensen: hun skills, prestaties, ambities en betrokkenheid. Zo zie je sneller wie klaar is voor de volgende stap, waar risico’s liggen en hoe je gericht kunt ondersteunen. Ontdek wat een Employee 360° voor jouw organisatie kan betekenen in deze blogpost.

Van een dagelijkse batch naar streaming analytics, wanneer is dit relevant?

Van een dagelijkse batch naar streaming analytics, wanneer is dit relevant?

In sectoren waar elke seconde telt – zoals de farmaceutische industrie – maakt streaming analytics het verschil. Door inzichtelijke real-time data is er sprake van minder verspilling, snellere interventie én hogere klanttevredenheid. In deze blogpost lees je over de voordelen van streaming analytics.