RBI-Solutions blog

Metagegevens als motor: hoe gebruik van information_schema je dataplatform slimmer kan maken

Hopelijk weet iedereen die met databases werkt van het bestaan van standaard metagegevens waarmee er gemakkelijk inzicht verkregen kan worden over de structuur, data en opzet van de database. Ook voor dataplatforms zijn deze objecten enorm waardevol. Toch wordt het potentieel van metagegevens nog vaak onderschat, terwijl vrijwel elke (moderne) relationele database, van PostgreSQL tot Snowflake, een krachtig en vaak onderbenut startpunt biedt in de vorm van information_schema. In deze blog duiken we dieper in hoe metagegevens via information_schema je dataplatform slimmer, transparanter en beheersbaarder maken. Voor zowel data engineers die pipelines bouwen, als analisten die vertrouwen op stabiele datasets, bieden deze metagegevens enorme voordelen. Van automatisch documenteren tot het voorkomen van incidenten: wie information_schema goed gebruikt, bouwt een robuuster platform.

Wat is information_schema precies?
Information_schema is een gestandaardiseerde set views die beschikbaar is in vrijwel elke relationele database. Denk aan tabellen als tables, columns, views, constraints, procedures en nog veel meer. Deze views bieden inzicht in de structuur van je database zonder dat je toegang nodig hebt tot de daadwerkelijke data. Je kunt ermee opvragen welke tabellen er zijn, welke kolommen in die tabellen zitten, welke constraints er gelden, welke views afhankelijk zijn van welke tabellen, enzovoorts.

Wat information_schema bijzonder maakt, is dat het dynamisch is: het verandert mee met je database. Voeg je een kolom toe? Dan zie je dat direct terug. Wordt een view aangepast? Ook die wijziging is inzichtelijk. Dit maakt het een ideaal fundament voor metadata-gedreven toepassingen, zowel over het dataplatform waar je aan werkt, als over de bronnen die je binnen je platform ontsluit.

Praktische toepassingen van information_schema
Laten we dit concreet maken met een veelvoorkomende situatie: je werkt aan een dataplatform waarin meerdere teams hun eigen datasets publiceren in een gedeelde warehouse-omgeving, bijvoorbeeld Snowflake of BigQuery. Op een dag besluit Team Marketing een kolom te hernoemen in hun tabellen. Als daar views of dashboards op gebaseerd zijn in andere teams, dan breekt er van alles, tenzij je proactief zicht hebt op deze afhankelijkheden. Met information_schema kun je dit soort afhankelijkheden in kaart brengen. Door te query’en op bijvoorbeeld view_table_usage of referential_constraints, zie je wie op wie bouwt. Dit stelt je in staat om impactanalyses te doen voordat wijzigingen live gaan. Het helpt je ook om automatisch waarschuwingen te genereren bij wijzigingen, of zelfs deployment pipelines te blokkeren als ze downstream impact hebben.

Een ander sterk voorbeeld is documentatie. Veel datateams worstelen met het actueel houden van technische documentatie. Waarom zou je dat handmatig doen, als je met één query uit information_schema.columns een volledig overzicht kunt genereren van alle kolommen, inclusief datatypes, nullable flags en default values? Combineer dit met tools als dbt of DataHub, en je hebt een dynamisch bijgewerkte catalogus.

Ook in de context van datakwaliteit is information_schema waardevol. Wil je monitoren of tabellen groeien zoals verwacht? Of weten welke tabellen al maanden niet meer worden aangeraakt, en dus misschien opgeruimd kunnen worden? Door information_schema.tables te combineren met usage logs, kun je grip krijgen op gedrag en gebruik van datasets.

Uitdagingen en kanttekeningen
Hoewel information_schema krachtig is, kent het ook beperkingen. De standaard views zijn niet altijd volledig consistent tussen systemen. Wat in PostgreSQL beschikbaar is, kan net anders heten of zelfs ontbreken in bijvoorbeeld Redshift of Databricks. Het is dus belangrijk om je platform-specifieke documentatie goed te kennen.

Dit kan ook van invloed zijn als je data uit verschillende bronnen ontsluit naar je dataplatform. Als je een overzicht wil hebben van alle bronnen en structuren, op kolom niveau, gebruik je voor SQL Server en PostgreSQL information_schema.columns, terwijl je uit Oracle de view all_tab_columns nodig hebt. Daarbij komt ook nog dat de verschillende databases andere data-types gebruiken, dus een integraal beeld krijgen soms lastig kan zijn.

Metadatagedreven ontsluiten van bronnen
Elke ETL-specialist of data engineer kent het wel, een bronsysteem past een kolomnaam aan en de volgende run loopt je ontsluiting vast. Ook al heb je een datacontract of een gegevensleveringsovereenkomst, de ontwikkelaars waren even vergeten dat hun data ook gebruikt wordt in het dataplatform, wat cruciaal kan zijn voor stuur- en verantwoordingsinformatie (of andere toepassingen).

Maar wat nou als je dit had kunnen zien aankomen? Of er automatisch op had kunnen reageren? Dat kan dus op basis van de metagegevens uit het bronsysteem! Wanneer er in de information_schema views een extra kolom meegegeven wordt, zou je deze ook automatisch in je dataplatform op kunnen nemen. Of bij een ‘all or nothing aanpak, kun je direct die nieuwe tabel meenemen in je volgende loads. Dan is de data ook in het dataplatform al beschikbaar voordat de business je kan vragen om die nieuwe tabel op te nemen. Dit kan daarmee zorgen voor een robuustere pipeline, die tegen een stootje kan wanneer structuur gewijzigd wordt.

Vraag dus bij je volgende te ontsluiten bronsysteem ook toegang tot deze views, op die manier ben je voorbereid op alle databasewijzigingen.

Conclusie
Het gebruik van information_schema is misschien niet het spannendste onderwerp binnen data engineering, maar wel een van de meest onderschatte krachten in het bouwen van een schaalbaar, onderhoudbaar en slim dataplatform. Juist doordat deze metagegevens standaard beschikbaar zijn in vrijwel elke relationele database, is het verbazingwekkend hoeveel grip je ermee kunt krijgen op structuur, afhankelijkheden en gebruik van data.

Door information_schema actief te benutten, kun je beter anticiperen op wijzigingen in bronnen, automatisch documentatie genereren, inzicht krijgen in lineage en datakwaliteit borgen. Of je nu werkt met Snowflake, PostgreSQL, SQL Server of BigQuery, overal ligt een schat aan metadata voor het oprapen. Voor data engineers betekent dit minder incidenten en stabielere pipelines. Voor analisten betekent het vertrouwen in de datasets waarmee ze werken.

Metagegevens vormen daarmee niet alleen de smeerolie van je dataplatform, maar ook het motorblok. Wie investeert in het goed ontsluiten en benutten van deze metadata, legt een fundament voor flexibiliteit, schaalbaarheid en toekomstbestendigheid. Dus de volgende keer dat je een bron ontsluit of een datamodel aanpast, vergeet dan niet: information_schema weet hoe alles in elkaar zit.

Meer weten over wat wij met data kunnen?

Lees verder over data en de diensten van RBI-Solutions in deze blog's:

RBI en MAD-Quality – Data Quality scan

Een jaar geleden bezegelden RBI en MAD-Quality hun partnership. Om dit te vieren doen we nu iets extra’s.

Voor de eerste drie geïnteresseerden die zich aanmelden bieden wij een samen met MAD-Quality een no cure-no pay waardebepaling van je data met de MAD Validator!

Hoe afhankelijk ben jij van je office software?

Stel je voor: je online kantooromgeving valt ineens uit. Geen toegang tot e‑mail. Teams kunnen niet samenwerken en online-vergaderen. Alle bestanden in online mappen zijn onbereikbaar. Voor veel organisaties is dat vandaag de dag een ondenkbaar scenario — maar wel één dat langzaam realistischer wordt.
Of het écht gaat gebeuren? Dat weten we niet. Maar elke maand wordt de kans op verstoringen een beetje groter. Voor wie volledig afhankelijk is van de cloud voor kantoorsoftware kan zo’n uitval enorme impact hebben op communicatie, samenwerking en bedrijfscontinuïteit.

Wat als jouw dataplatform ineens moet verhuizen? Wees voorbereid op het onverwachte.

De afgelopen maanden merken organisaties het steeds sterker: de wereld verandert sneller dan onze IT‑landschappen aankunnen. Nieuwe wetgeving, geopolitieke spanningen, dreigende afhankelijkheden en besluiten van grote cloudleveranciers — het komt allemaal dichterbij dan we ooit hadden verwacht.

Uiteraard hebben we ons deze vraag ook gesteld over onze eigen platformen – hoe doen we dat zelf? Wij hebben ons inmiddels voorbereid.

Maak kennis met Helene, onze Data Consultant

Met veel plezier stellen we Helene Fritzsche aan jullie voor. Beter laat dan nooit, moeten we zeggen. Helene is inmiddels alweer vijf maanden onderdeel van ons team bij RBI-Solutions, hoog tijd dus om haar ook hier officieel te introduceren.

Helene is gestart als Data Consultant met een sterk data-analistprofiel. Ze helpt organisaties om data te verzamelen, op te schonen, te analyseren en te vertalen naar heldere inzichten. Denk aan dashboarding en datavisualisatie, maar ook aan het doorgronden van datalandschappen en de processen rondom data.

Vanaf 1 februari groeien we verder. Bouw jij mee?

Terugkijkend op het afgelopen jaar hebben we mooie stappen gezet. We hebben veel van elkaar geleerd, verschillende opdrachten bij nieuwe klanten gestart en aan uitdagende projecten gewerkt. We hebben nieuwe collega’s aangenomen, samen gebouwd aan onze groei en natuurlijk ook veel plezier gemaakt.

We sluiten 2025 af met onze RBI kerstborrel. Maar we kijken ook vooruit. Vanaf 1 februari 2026 zijn we op zoek naar 2 medior data-analisten die zin hebben om mee te bouwen aan onze groei.

Fijne feestdagen!

Afgelopen vrijdag hebben we samen met het hele team kerst gevierd bij Brava, een café om de hoek van ons kantoor. We hebben heerlijk geborreld, het jaar met elkaar afgesloten en natuurlijk ook onze kerstcadeaus uitgepakt. Dit jaar was een RBI-kersttrui onderdeel van het kerstpakket.

Maak kennis met Sara, onze nieuwe Data Consultant!

Met veel plezier stellen we Sara Herrebout aan jullie voor, één van onze nieuwste collega’s bij RBI-Solutions.

Sara heeft een achtergrond in Econometrie en werkte eerder als data-analist bij een energieleverancier. Inmiddels draait ze vol mee op haar opdracht bij InShared, samen met Mark Kronenberg, die hier begin dit jaar via ons is gestart. Samen werken ze aan de Duitse autoverzekeringspropositie. Omdat deze tak nog relatief jong is, ligt er veel ruimte om processen slimmer, schaalbaarder en efficiënter te maken. Dat is precies het soort uitdaging waar Sara energie van krijgt.

Zonder businessdoelen geen duurzame data-architectuur

Vorige week gaf ik met veel enthousiasme een introductie over data-architecturen aan nieuwe collega’s. We bespraken de historie van architecturen, de plek van een Data Architectuur binnen een Enterprise Architectuur en hoe zo’n architectuur het werk van Data Engineers, Data Analisten en Data Scientists beïnvloedt. Data Architectuur wordt vaak gezien als een IT-feestje, maar een goede architectuur wordt altijd gedreven door heldere businessdoelen. Zonder die doelen is een data platform als een Ferrari bij een off-road rally: technisch en esthetisch indrukwekkend, maar totaal ongeschikt voor het terrein waarin het moet presteren. Zo verliest een architectuur zonder richting snel zijn waarde en wordt data engineering meer een technologisch experiment dan een strategisch fundament.

MCP: De nieuwe AI standaard

Een begrip dat je online steeds vaker tegenkomt binnen al de buzz rond AI is ‘MCP’; weer zo’n afkorting die voor heel veel mensen cryptisch klinkt. Binnen de AI wereld is het echter wel een heel belangrijke vooruitgang: standaardisatie. Het verbinden van AI met bestaande APIs biedt heel veel mogelijkheden. Echter bouwt elke organisatie hun oplossing net weer anders. De ene bot praat zo tegen een API, de andere weer anders, en voor je het weet heb je een kerkhof aan connectors. Het idee is goed, de uitvoering vaak rommelig. Dit is precies waar MCP om de hoek komt kijken.

AI Agents: meer dan een slimmere chatbot

De meeste mensen zien AI nog steeds als een soort papegaai die tekstjes en plaatjes maakt zodra je iets vraagt. Handig, maar ook best oppervlakkig. Sinds enige tijd is er echter ook iets nieuws in opkomst: ‘Agentic AI’. AI-agenten dus die autonoom te werk kunnen gaan.

In plaats van pure generatie, kunnen ze een probleem ontleden, stappen zetten richting een oplossing, hun eigen werk checken en zelf andere tools gebruiken. We stappen dus richting zelfstandig werkende oplossingen. Je kunt het bijna zien als een leger van volledig virtuele assistenten en stagiaires. Dit belooft veel maar, brengt zeker ook gevaren.

AutoML: Machine Learning op de automatische piloot?

Geautomatiseerd Machine Learning ook wel ‘AutoML’ is het automatiseren van de tijdrovende, iteratieve taken bij het ontwikkelen van machine learning-modellen. Je laat als het ware het bouwen van de modellen aan de machines zelf over.

Voor een paar tientjes een model dat kan voorspellen welke klanten over een paar maanden gaan vertrekken. Klinkt een beetje te goed om waar te zijn. Dan heb je natuurlijk ook geen Data Scientists meer nodig, toch? Nou, er zitten uiteraard wel wat haken en ogen aan. De specialisten op het gebied van Machine Learning verdwijnen ook zeker niet zo maar. Even een stap terug dus.

Data mesh: principes en praktische implementatie

Elk relatief groot bedrijf bestaat uit verschillende afdelingen, elk met zijn eigen vraagstukken. Op datagebied is dat niet anders: marketing wil weten hoe campagnes performen, operations wil de huidige voorraad kunnen inzien, finance bewaakt de cashflow en productontwikkeling volgt klantgedrag.

« Older Entries