RBI-Solutions blog

Data migratie test en validatiestrategieën: hoe je zeker weet dat je data klopt na een migratie

Data migraties zijn voor veel organisaties een uitdaging: je stapt over van een oud systeem naar een nieuw, je moderniseert je datawarehouse of je integreert een nieuw platform na een fusie. Ondanks dat het technisch ‘slechts’ het verplaatsen van data lijkt, komt er meer bij kijken om een goede datamigratie uit te voeren. Hoe weet je zeker dat de data na migratie nog klopt? Dat er niets verloren is gegaan, of erger nog: dat je geen subtiele fouten hebt geïntroduceerd die maanden later pas boven water komen? In deze blog staan we stil bij test- en validatiestrategieën bij data migraties. We bespreken waarom het testen van een datamigratie fundamenteel anders is dan het testen van een standaard applicatie, welke technieken je kunt gebruiken om betrouwbaarheid te garanderen, en hoe je omgaat met de praktische uitdagingen die je onderweg tegenkomt.

Waarom data migratie testen zo kritisch (en lastig) is
Een datamigratie is in principe een grote kopieeractie. Maar anders dan een simpele copy-paste in je bestandsbeheer, zijn de datasets vaak groot, complex en dynamisch. Denk aan historische datasets van miljoenen rijen, relationele structuren over tientallen tabellen, of transformatielogica die tussen systemen verschilt. Voeg daaraan toe dat bronsystemen soms nog in productie zijn tijdens de migratie (en dus blijven veranderen), of dat datatypes niet één-op-één overeenkomen. De kans op fouten ligt op de loer.

En dan is er nog iets: de verwachte uitkomst van een migratie is meestal “geen verschil”. Maar dat maakt het testen niet makkelijker. Je moet dus aantonen dat niets veranderd is, of alleen dat wat expliciet gewenst was. Dat vraagt om een andere manier van denken dan bij het testen van nieuwe functionaliteit.

Validatiestrategieën: van row counts tot checksums
Laten we eens kijken naar de tools in de gereedschapskist van een data engineer. Hoe test je dat de gemigreerde data klopt? Er zijn verschillende lagen waarop je kunt valideren, en het loont om die gelaagd aan te pakken.

Een veelgebruikte eerste stap is het vergelijken van row counts per tabel. Het is simpel en snel te automatiseren, en geeft een goede eerste sanity check: als je bron 80 miljoen rijen heeft en je doel ook, dan is dat alvast geruststellend. Maar het zegt natuurlijk niets over de inhoud. Daarom komt daarna vaak kolom-voor-kolom vergelijking in beeld. Tools als dbt, Great Expectations, Deequ of custom Python scripts kunnen rijen uit de bron en het doel vergelijken. Checksums per rij zijn hier handig: je maakt bijvoorbeeld een SHA-256 hash van alle relevante kolomwaarden, en vergelijkt die tussen bron en doel. Als de hash verschilt, is er ergens iets mis.

Een stap verder is het uitvoeren van inhoudelijke validaties: business rules die in de data moeten gelden. Denk aan: ‘het totaal van kolom A moet gelijk zijn aan het totaal van kolom B, of ‘er mogen geen negatieve bedragen voorkomen in kolom C’. Zulke regels zijn essentieel om ook semantische fouten op te sporen, bijvoorbeeld wanneer een valutaconversie verkeerd is gegaan.

Tot slot kun je ook steekproeven inzetten. Soms is het simpelweg niet haalbaar om alles te vergelijken. In dat geval kan een representatieve sample veel inzicht geven. Dit soort checks worden vaak handmatig gedaan door data analisten of business users, bijvoorbeeld via dashboards of gebruikersanalyses.

Typische valkuilen en hoe je ze omzeilt
Een veelvoorkomende fout is dat men pas na de migratie begint met testen. Je kunt echter veel eerder beginnen met het opzetten van teststrategieën, idealiter al tijdens de analysefase. Inventariseer welke datavelden complex zijn, welke tabellen kritisch zijn, en waar historische issues hebben gespeeld. Zet pilots of proefmigraties op en laat daar je testlogica op los. Zo voorkom je verrassingen op het eind.

Een andere valkuil is het overschatten van tools. Een tool als Great Expectations is krachtig, maar lost het probleem niet voor je op. Je moet zelf nog steeds goed nadenken over wat je wilt testen, waarom, en wat de acceptatiecriteria zijn. Technologie ondersteunt, maar de teststrategie komt uit je hoofd (en uit overleg met de business).

Ook belangrijk: vergeet de context van je data niet. Een veelgemaakte fout is het vergelijken van bijvoorbeeld datums of bedragen zonder rekening te houden met timezoneconversies, precisieverschillen of defaultwaarden die per systeem verschillen. Data kan er op het eerste gezicht hetzelfde uitzien, maar onder de motorkap net anders worden geïnterpreteerd.

Trends en ontwikkelingen: automatisering en data contracts
Steeds meer organisaties zetten in op geautomatiseerde data tests als onderdeel van hun CI/CD pipelines. Bij elke nieuwe batch of release draait er automatisch een test-suite die validatiechecks uitvoert op gemigreerde of vernieuwde datasets. Tools als dbt zijn hierin leidend, zeker in combinatie met moderne data stacks rond Airflow, Fivetran en Snowflake.

Een opkomende trend is het gebruik van data contracts: expliciete afspraken tussen producers en consumers van data over structuur, semantiek en validaties. Dit maakt het makkelijker om vooraf al duidelijke testcriteria vast te leggen, en fouten vroeg te detecteren. Denk bijvoorbeeld aan een JSON-schema dat beschrijft wat een dataset moet bevatten, inclusief toegestane waarden en datatypes. Zo’n contract kan vervolgens automatisch gevalideerd worden tijdens de migratie.

Tot slot: testen is geen sluitpost, maar fundament
Een succesvolle datamigratie hangt niet alleen af van een goede technische uitvoering, maar van grondige, doordachte validatie. En dat vraagt om meer dan alleen een paar queries achteraf. Het vraagt om een strategie: een combinatie van kwantitatieve checks, inhoudelijke validaties, samenwerking met de business én slimme automatisering.

Door je teststrategie op te bouwen vanaf het begin van het migratietraject, voorkom je dure hersteloperaties achteraf. En misschien nog wel belangrijker: je bouwt vertrouwen op. In je data, in het nieuwe systeem, en in de mensen die ermee werken.

Data migreren is mensenwerk, maar testen maakt het betrouwbaar!

Meer weten over wat wij met data kunnen?

Lees verder over data en de diensten van RBI-Solutions in deze blog's:

RBI en MAD-Quality – Data Quality scan

Een jaar geleden bezegelden RBI en MAD-Quality hun partnership. Om dit te vieren doen we nu iets extra’s.

Voor de eerste drie geïnteresseerden die zich aanmelden bieden wij een samen met MAD-Quality een no cure-no pay waardebepaling van je data met de MAD Validator!

Hoe afhankelijk ben jij van je office software?

Stel je voor: je online kantooromgeving valt ineens uit. Geen toegang tot e‑mail. Teams kunnen niet samenwerken en online-vergaderen. Alle bestanden in online mappen zijn onbereikbaar. Voor veel organisaties is dat vandaag de dag een ondenkbaar scenario — maar wel één dat langzaam realistischer wordt.
Of het écht gaat gebeuren? Dat weten we niet. Maar elke maand wordt de kans op verstoringen een beetje groter. Voor wie volledig afhankelijk is van de cloud voor kantoorsoftware kan zo’n uitval enorme impact hebben op communicatie, samenwerking en bedrijfscontinuïteit.

Wat als jouw dataplatform ineens moet verhuizen? Wees voorbereid op het onverwachte.

De afgelopen maanden merken organisaties het steeds sterker: de wereld verandert sneller dan onze IT‑landschappen aankunnen. Nieuwe wetgeving, geopolitieke spanningen, dreigende afhankelijkheden en besluiten van grote cloudleveranciers — het komt allemaal dichterbij dan we ooit hadden verwacht.

Uiteraard hebben we ons deze vraag ook gesteld over onze eigen platformen – hoe doen we dat zelf? Wij hebben ons inmiddels voorbereid.

Maak kennis met Helene, onze Data Consultant

Met veel plezier stellen we Helene Fritzsche aan jullie voor. Beter laat dan nooit, moeten we zeggen. Helene is inmiddels alweer vijf maanden onderdeel van ons team bij RBI-Solutions, hoog tijd dus om haar ook hier officieel te introduceren.

Helene is gestart als Data Consultant met een sterk data-analistprofiel. Ze helpt organisaties om data te verzamelen, op te schonen, te analyseren en te vertalen naar heldere inzichten. Denk aan dashboarding en datavisualisatie, maar ook aan het doorgronden van datalandschappen en de processen rondom data.

Vanaf 1 februari groeien we verder. Bouw jij mee?

Terugkijkend op het afgelopen jaar hebben we mooie stappen gezet. We hebben veel van elkaar geleerd, verschillende opdrachten bij nieuwe klanten gestart en aan uitdagende projecten gewerkt. We hebben nieuwe collega’s aangenomen, samen gebouwd aan onze groei en natuurlijk ook veel plezier gemaakt.

We sluiten 2025 af met onze RBI kerstborrel. Maar we kijken ook vooruit. Vanaf 1 februari 2026 zijn we op zoek naar 2 medior data-analisten die zin hebben om mee te bouwen aan onze groei.

Fijne feestdagen!

Afgelopen vrijdag hebben we samen met het hele team kerst gevierd bij Brava, een café om de hoek van ons kantoor. We hebben heerlijk geborreld, het jaar met elkaar afgesloten en natuurlijk ook onze kerstcadeaus uitgepakt. Dit jaar was een RBI-kersttrui onderdeel van het kerstpakket.

Maak kennis met Sara, onze nieuwe Data Consultant!

Met veel plezier stellen we Sara Herrebout aan jullie voor, één van onze nieuwste collega’s bij RBI-Solutions.

Sara heeft een achtergrond in Econometrie en werkte eerder als data-analist bij een energieleverancier. Inmiddels draait ze vol mee op haar opdracht bij InShared, samen met Mark Kronenberg, die hier begin dit jaar via ons is gestart. Samen werken ze aan de Duitse autoverzekeringspropositie. Omdat deze tak nog relatief jong is, ligt er veel ruimte om processen slimmer, schaalbaarder en efficiënter te maken. Dat is precies het soort uitdaging waar Sara energie van krijgt.

Zonder businessdoelen geen duurzame data-architectuur

Vorige week gaf ik met veel enthousiasme een introductie over data-architecturen aan nieuwe collega’s. We bespraken de historie van architecturen, de plek van een Data Architectuur binnen een Enterprise Architectuur en hoe zo’n architectuur het werk van Data Engineers, Data Analisten en Data Scientists beïnvloedt. Data Architectuur wordt vaak gezien als een IT-feestje, maar een goede architectuur wordt altijd gedreven door heldere businessdoelen. Zonder die doelen is een data platform als een Ferrari bij een off-road rally: technisch en esthetisch indrukwekkend, maar totaal ongeschikt voor het terrein waarin het moet presteren. Zo verliest een architectuur zonder richting snel zijn waarde en wordt data engineering meer een technologisch experiment dan een strategisch fundament.

MCP: De nieuwe AI standaard

Een begrip dat je online steeds vaker tegenkomt binnen al de buzz rond AI is ‘MCP’; weer zo’n afkorting die voor heel veel mensen cryptisch klinkt. Binnen de AI wereld is het echter wel een heel belangrijke vooruitgang: standaardisatie. Het verbinden van AI met bestaande APIs biedt heel veel mogelijkheden. Echter bouwt elke organisatie hun oplossing net weer anders. De ene bot praat zo tegen een API, de andere weer anders, en voor je het weet heb je een kerkhof aan connectors. Het idee is goed, de uitvoering vaak rommelig. Dit is precies waar MCP om de hoek komt kijken.

AI Agents: meer dan een slimmere chatbot

De meeste mensen zien AI nog steeds als een soort papegaai die tekstjes en plaatjes maakt zodra je iets vraagt. Handig, maar ook best oppervlakkig. Sinds enige tijd is er echter ook iets nieuws in opkomst: ‘Agentic AI’. AI-agenten dus die autonoom te werk kunnen gaan.

In plaats van pure generatie, kunnen ze een probleem ontleden, stappen zetten richting een oplossing, hun eigen werk checken en zelf andere tools gebruiken. We stappen dus richting zelfstandig werkende oplossingen. Je kunt het bijna zien als een leger van volledig virtuele assistenten en stagiaires. Dit belooft veel maar, brengt zeker ook gevaren.

AutoML: Machine Learning op de automatische piloot?

Geautomatiseerd Machine Learning ook wel ‘AutoML’ is het automatiseren van de tijdrovende, iteratieve taken bij het ontwikkelen van machine learning-modellen. Je laat als het ware het bouwen van de modellen aan de machines zelf over.

Voor een paar tientjes een model dat kan voorspellen welke klanten over een paar maanden gaan vertrekken. Klinkt een beetje te goed om waar te zijn. Dan heb je natuurlijk ook geen Data Scientists meer nodig, toch? Nou, er zitten uiteraard wel wat haken en ogen aan. De specialisten op het gebied van Machine Learning verdwijnen ook zeker niet zo maar. Even een stap terug dus.

Data mesh: principes en praktische implementatie

Elk relatief groot bedrijf bestaat uit verschillende afdelingen, elk met zijn eigen vraagstukken. Op datagebied is dat niet anders: marketing wil weten hoe campagnes performen, operations wil de huidige voorraad kunnen inzien, finance bewaakt de cashflow en productontwikkeling volgt klantgedrag.

« Older Entries