RBI-Solutions blog

Metadata: je geheime wapen voor observability & governance

Metadata voor observability en governance: verder dan information_schema Een aantal weken geleden, wijdden we een blog aan het gebruik van metadata voor het slimmer ontwikkelen en onderhouden van dataplatforms. Metadata wordt helaas nog vaak gezien als het saaie bijproduct van data: een paar kolomnamen, datatypes en misschien een timestamp, maar in moderne dataplatformen is dat nog maar het topje van de ijsberg. Metadata kan, mits goed benut, een krachtig fundament vormen voor zowel observability als governance. Het kan helpen bij het opsporen van problemen, het begrijpen van datastromen, het garanderen van compliance en zelfs het optimaliseren van prestaties.

Van structuur naar gedrag
Het begint bij het besef dat metadata niet alleen over structuur gaat, maar ook over gedrag. Naast beschrijvende metadata (schema’s, kolomnamen, constraints) hebben we ook operationele metadata, zoals query logs, latency- en throughput-metrics, lineage-informatie en toegangspatronen. Deze data is vaak verspreid over meerdere systemen: je vindt een deel in databases, een deel in logbestanden, en een deel bestaat in gespecialiseerde data catalog tools zoals Apache Atlas, Collibra of Alation. Waar information_schema vooral statische informatie geeft, bieden deze bronnen een dynamisch beeld van wat er daadwerkelijk gebeurt.

Metadata voor observability
Neem het voorbeeld van observability. Een data engineer die een vertraging in een dashboard onderzoekt, wil niet alleen weten uit welke tabellen de data komt, maar ook welke upstream-transformaties er zijn uitgevoerd, hoelang elke stap duurde en of er recente schemawijzigingen zijn geweest. Door metadata te verzamelen van zowel de query-engine (Snowflake, BigQuery, Redshift) als uit de ETL- of ELT-pijplijnen (dbt of Airflow), ontstaat een compleet beeld. Lineage-informatie maakt het mogelijk om te zien welke datasets geraakt worden door een falende job, waardoor gerichte actie mogelijk wordt.

Metadata voor governance
Voor governance speelt metadata een minstens zo belangrijke rol. Stel, je werkt in een organisatie die aan GDPR- of AVG-regelgeving moet voldoen. Je moet kunnen aantonen waar persoonlijke gegevens worden opgeslagen, wie er toegang toe heeft en hoe deze gegevens worden verwerkt. Met alleen information_schema weet je hooguit dat er een kolom ‘email’ bestaat, maar niet of deze kolom daadwerkelijk persoonsgegevens bevat, of hoe deze verderop in het proces wordt gebruikt. Door classificatie- en tagging-mechanismen toe te passen, bijvoorbeeld via open source tooling als Amundsen of via cloud-native oplossingen zoals in de AWS Glue Catalog, kun je datasets verrijken met semantische metadata. Zo wordt het mogelijk om automatisch rapportages te genereren over datagebruik en compliance.

Het combineren en standaardiseren van metadata
De uitdaging zit vaak niet in het verzamelen van metadata, maar in het combineren en standaardiseren ervan. Operationele metadata uit Airflow ziet er anders uit dan die uit Snowflake, en lineage-data uit dbt sluit niet altijd naadloos aan op wat in je data catalog staat. Hier komen standaarden zoals OpenLineage in beeld, die als doel hebben om metadata uit verschillende tools te harmoniseren. Zo kun je één centrale bron creëren voor zowel observability als governance, in plaats van gefragmenteerde eilandjes van informatie.

Metadata real-time inzetten
Een andere valkuil kan zijn dat metadata vaak pas wordt bijgehouden als er een probleem is. In de praktijk loont het om metadata real-time of near real-time te verzamelen en actief te monitoren. Denk aan een observability-dashboard dat niet alleen pieken in query-tijden laat zien, maar ook direct de relevante lineage en schemawijzigingen toont. Zo kan een analist sneller een root cause vinden zonder door tientallen logs te hoeven spitten.

Metadata en MLOps
Daarnaast kan een metadata-analyse ondersteuning bieden bij het proces van MLOps (ook hier schreven we eerder over: https://rbi-solutions.nl/dataops-devops-en-mlops-oude-wijn-in-nieuwe-zakken-of-echt-anders/ Machine learning-modellen kunnen bijvoorbeeld afwijkingen detecteren in datavolumes, kolomwaarden of toegangspatronen, en automatisch alerts sturen. Ook voor governance biedt dit kansen: automatische detectie van gevoelige data bij het binnenkomen van nieuwe datasets, gevolgd door automatische tagging en het instellen van toegangsrestricties.

De blauwdruk van je dataplatform
Uiteindelijk is de kern dat metadata een strategisch middel is, geen bijzaak. Door verder te kijken dan information_schema en metadata actief te verzamelen, te verrijken en te gebruiken, kunnen organisaties zowel hun datakwaliteit verbeteren als voldoen aan steeds strenger wordende regelgeving. Observability en governance komen daarbij samen in één verhaal: inzicht in wat er met je data gebeurt, en controle over hoe het gebeurt.

Conclusie: meer dan ‘data over data'Wie metadata ziet als slechts ‘data over data’, mist de helft van het potentieel. Metadata is in feite de blauwdruk van je dataplatform: het onthult wat er onder de oppervlakte speelt, maakt problemen zichtbaar voordat ze kritiek worden, en zorgt ervoor dat je op elk moment kunt verantwoorden wat er met je data gebeurt. Het is tijd dat we het minder als administratieve verplichting behandelen, en meer als strategische asset die ons helpt betere, betrouwbaardere en veiligere data-ecosystemen te bouwen.

Meer weten over wat wij met data kunnen?

Lees verder over data en de diensten van RBI-Solutions in deze blog's:

RBI en MAD-Quality – Data Quality scan

Een jaar geleden bezegelden RBI en MAD-Quality hun partnership. Om dit te vieren doen we nu iets extra’s.

Voor de eerste drie geïnteresseerden die zich aanmelden bieden wij een samen met MAD-Quality een no cure-no pay waardebepaling van je data met de MAD Validator!

Hoe afhankelijk ben jij van je office software?

Stel je voor: je online kantooromgeving valt ineens uit. Geen toegang tot e‑mail. Teams kunnen niet samenwerken en online-vergaderen. Alle bestanden in online mappen zijn onbereikbaar. Voor veel organisaties is dat vandaag de dag een ondenkbaar scenario — maar wel één dat langzaam realistischer wordt.
Of het écht gaat gebeuren? Dat weten we niet. Maar elke maand wordt de kans op verstoringen een beetje groter. Voor wie volledig afhankelijk is van de cloud voor kantoorsoftware kan zo’n uitval enorme impact hebben op communicatie, samenwerking en bedrijfscontinuïteit.

Wat als jouw dataplatform ineens moet verhuizen? Wees voorbereid op het onverwachte.

De afgelopen maanden merken organisaties het steeds sterker: de wereld verandert sneller dan onze IT‑landschappen aankunnen. Nieuwe wetgeving, geopolitieke spanningen, dreigende afhankelijkheden en besluiten van grote cloudleveranciers — het komt allemaal dichterbij dan we ooit hadden verwacht.

Uiteraard hebben we ons deze vraag ook gesteld over onze eigen platformen – hoe doen we dat zelf? Wij hebben ons inmiddels voorbereid.

Maak kennis met Helene, onze Data Consultant

Met veel plezier stellen we Helene Fritzsche aan jullie voor. Beter laat dan nooit, moeten we zeggen. Helene is inmiddels alweer vijf maanden onderdeel van ons team bij RBI-Solutions, hoog tijd dus om haar ook hier officieel te introduceren.

Helene is gestart als Data Consultant met een sterk data-analistprofiel. Ze helpt organisaties om data te verzamelen, op te schonen, te analyseren en te vertalen naar heldere inzichten. Denk aan dashboarding en datavisualisatie, maar ook aan het doorgronden van datalandschappen en de processen rondom data.

Vanaf 1 februari groeien we verder. Bouw jij mee?

Terugkijkend op het afgelopen jaar hebben we mooie stappen gezet. We hebben veel van elkaar geleerd, verschillende opdrachten bij nieuwe klanten gestart en aan uitdagende projecten gewerkt. We hebben nieuwe collega’s aangenomen, samen gebouwd aan onze groei en natuurlijk ook veel plezier gemaakt.

We sluiten 2025 af met onze RBI kerstborrel. Maar we kijken ook vooruit. Vanaf 1 februari 2026 zijn we op zoek naar 2 medior data-analisten die zin hebben om mee te bouwen aan onze groei.

Fijne feestdagen!

Afgelopen vrijdag hebben we samen met het hele team kerst gevierd bij Brava, een café om de hoek van ons kantoor. We hebben heerlijk geborreld, het jaar met elkaar afgesloten en natuurlijk ook onze kerstcadeaus uitgepakt. Dit jaar was een RBI-kersttrui onderdeel van het kerstpakket.

Maak kennis met Sara, onze nieuwe Data Consultant!

Met veel plezier stellen we Sara Herrebout aan jullie voor, één van onze nieuwste collega’s bij RBI-Solutions.

Sara heeft een achtergrond in Econometrie en werkte eerder als data-analist bij een energieleverancier. Inmiddels draait ze vol mee op haar opdracht bij InShared, samen met Mark Kronenberg, die hier begin dit jaar via ons is gestart. Samen werken ze aan de Duitse autoverzekeringspropositie. Omdat deze tak nog relatief jong is, ligt er veel ruimte om processen slimmer, schaalbaarder en efficiënter te maken. Dat is precies het soort uitdaging waar Sara energie van krijgt.

Zonder businessdoelen geen duurzame data-architectuur

Vorige week gaf ik met veel enthousiasme een introductie over data-architecturen aan nieuwe collega’s. We bespraken de historie van architecturen, de plek van een Data Architectuur binnen een Enterprise Architectuur en hoe zo’n architectuur het werk van Data Engineers, Data Analisten en Data Scientists beïnvloedt. Data Architectuur wordt vaak gezien als een IT-feestje, maar een goede architectuur wordt altijd gedreven door heldere businessdoelen. Zonder die doelen is een data platform als een Ferrari bij een off-road rally: technisch en esthetisch indrukwekkend, maar totaal ongeschikt voor het terrein waarin het moet presteren. Zo verliest een architectuur zonder richting snel zijn waarde en wordt data engineering meer een technologisch experiment dan een strategisch fundament.

MCP: De nieuwe AI standaard

Een begrip dat je online steeds vaker tegenkomt binnen al de buzz rond AI is ‘MCP’; weer zo’n afkorting die voor heel veel mensen cryptisch klinkt. Binnen de AI wereld is het echter wel een heel belangrijke vooruitgang: standaardisatie. Het verbinden van AI met bestaande APIs biedt heel veel mogelijkheden. Echter bouwt elke organisatie hun oplossing net weer anders. De ene bot praat zo tegen een API, de andere weer anders, en voor je het weet heb je een kerkhof aan connectors. Het idee is goed, de uitvoering vaak rommelig. Dit is precies waar MCP om de hoek komt kijken.

AI Agents: meer dan een slimmere chatbot

De meeste mensen zien AI nog steeds als een soort papegaai die tekstjes en plaatjes maakt zodra je iets vraagt. Handig, maar ook best oppervlakkig. Sinds enige tijd is er echter ook iets nieuws in opkomst: ‘Agentic AI’. AI-agenten dus die autonoom te werk kunnen gaan.

In plaats van pure generatie, kunnen ze een probleem ontleden, stappen zetten richting een oplossing, hun eigen werk checken en zelf andere tools gebruiken. We stappen dus richting zelfstandig werkende oplossingen. Je kunt het bijna zien als een leger van volledig virtuele assistenten en stagiaires. Dit belooft veel maar, brengt zeker ook gevaren.

AutoML: Machine Learning op de automatische piloot?

Geautomatiseerd Machine Learning ook wel ‘AutoML’ is het automatiseren van de tijdrovende, iteratieve taken bij het ontwikkelen van machine learning-modellen. Je laat als het ware het bouwen van de modellen aan de machines zelf over.

Voor een paar tientjes een model dat kan voorspellen welke klanten over een paar maanden gaan vertrekken. Klinkt een beetje te goed om waar te zijn. Dan heb je natuurlijk ook geen Data Scientists meer nodig, toch? Nou, er zitten uiteraard wel wat haken en ogen aan. De specialisten op het gebied van Machine Learning verdwijnen ook zeker niet zo maar. Even een stap terug dus.

Data mesh: principes en praktische implementatie

Elk relatief groot bedrijf bestaat uit verschillende afdelingen, elk met zijn eigen vraagstukken. Op datagebied is dat niet anders: marketing wil weten hoe campagnes performen, operations wil de huidige voorraad kunnen inzien, finance bewaakt de cashflow en productontwikkeling volgt klantgedrag.

« Older Entries