RBI-Solutions blog

Metagegevens als motor: hoe gebruik van information_schema je dataplatform slimmer kan maken

Hopelijk weet iedereen die met databases werkt van het bestaan van standaard metagegevens waarmee er gemakkelijk inzicht verkregen kan worden over de structuur, data en opzet van de database. Ook voor dataplatforms zijn deze objecten enorm waardevol. Toch wordt het potentieel van metagegevens nog vaak onderschat, terwijl vrijwel elke (moderne) relationele database, van PostgreSQL tot Snowflake, een krachtig en vaak onderbenut startpunt biedt in de vorm van information_schema. In deze blog duiken we dieper in hoe metagegevens via information_schema je dataplatform slimmer, transparanter en beheersbaarder maken. Voor zowel data engineers die pipelines bouwen, als analisten die vertrouwen op stabiele datasets, bieden deze metagegevens enorme voordelen. Van automatisch documenteren tot het voorkomen van incidenten: wie information_schema goed gebruikt, bouwt een robuuster platform.

Wat is information_schema precies?
Information_schema is een gestandaardiseerde set views die beschikbaar is in vrijwel elke relationele database. Denk aan tabellen als tables, columns, views, constraints, procedures en nog veel meer. Deze views bieden inzicht in de structuur van je database zonder dat je toegang nodig hebt tot de daadwerkelijke data. Je kunt ermee opvragen welke tabellen er zijn, welke kolommen in die tabellen zitten, welke constraints er gelden, welke views afhankelijk zijn van welke tabellen, enzovoorts.

Wat information_schema bijzonder maakt, is dat het dynamisch is: het verandert mee met je database. Voeg je een kolom toe? Dan zie je dat direct terug. Wordt een view aangepast? Ook die wijziging is inzichtelijk. Dit maakt het een ideaal fundament voor metadata-gedreven toepassingen, zowel over het dataplatform waar je aan werkt, als over de bronnen die je binnen je platform ontsluit.

Praktische toepassingen van information_schema
Laten we dit concreet maken met een veelvoorkomende situatie: je werkt aan een dataplatform waarin meerdere teams hun eigen datasets publiceren in een gedeelde warehouse-omgeving, bijvoorbeeld Snowflake of BigQuery. Op een dag besluit Team Marketing een kolom te hernoemen in hun tabellen. Als daar views of dashboards op gebaseerd zijn in andere teams, dan breekt er van alles, tenzij je proactief zicht hebt op deze afhankelijkheden. Met information_schema kun je dit soort afhankelijkheden in kaart brengen. Door te query’en op bijvoorbeeld view_table_usage of referential_constraints, zie je wie op wie bouwt. Dit stelt je in staat om impactanalyses te doen voordat wijzigingen live gaan. Het helpt je ook om automatisch waarschuwingen te genereren bij wijzigingen, of zelfs deployment pipelines te blokkeren als ze downstream impact hebben.

Een ander sterk voorbeeld is documentatie. Veel datateams worstelen met het actueel houden van technische documentatie. Waarom zou je dat handmatig doen, als je met één query uit information_schema.columns een volledig overzicht kunt genereren van alle kolommen, inclusief datatypes, nullable flags en default values? Combineer dit met tools als dbt of DataHub, en je hebt een dynamisch bijgewerkte catalogus.

Ook in de context van datakwaliteit is information_schema waardevol. Wil je monitoren of tabellen groeien zoals verwacht? Of weten welke tabellen al maanden niet meer worden aangeraakt, en dus misschien opgeruimd kunnen worden? Door information_schema.tables te combineren met usage logs, kun je grip krijgen op gedrag en gebruik van datasets.

Uitdagingen en kanttekeningen
Hoewel information_schema krachtig is, kent het ook beperkingen. De standaard views zijn niet altijd volledig consistent tussen systemen. Wat in PostgreSQL beschikbaar is, kan net anders heten of zelfs ontbreken in bijvoorbeeld Redshift of Databricks. Het is dus belangrijk om je platform-specifieke documentatie goed te kennen.

Dit kan ook van invloed zijn als je data uit verschillende bronnen ontsluit naar je dataplatform. Als je een overzicht wil hebben van alle bronnen en structuren, op kolom niveau, gebruik je voor SQL Server en PostgreSQL information_schema.columns, terwijl je uit Oracle de view all_tab_columns nodig hebt. Daarbij komt ook nog dat de verschillende databases andere data-types gebruiken, dus een integraal beeld krijgen soms lastig kan zijn.

Metadatagedreven ontsluiten van bronnen
Elke ETL-specialist of data engineer kent het wel, een bronsysteem past een kolomnaam aan en de volgende run loopt je ontsluiting vast. Ook al heb je een datacontract of een gegevensleveringsovereenkomst, de ontwikkelaars waren even vergeten dat hun data ook gebruikt wordt in het dataplatform, wat cruciaal kan zijn voor stuur- en verantwoordingsinformatie (of andere toepassingen).

Maar wat nou als je dit had kunnen zien aankomen? Of er automatisch op had kunnen reageren? Dat kan dus op basis van de metagegevens uit het bronsysteem! Wanneer er in de information_schema views een extra kolom meegegeven wordt, zou je deze ook automatisch in je dataplatform op kunnen nemen. Of bij een ‘all or nothing aanpak, kun je direct die nieuwe tabel meenemen in je volgende loads. Dan is de data ook in het dataplatform al beschikbaar voordat de business je kan vragen om die nieuwe tabel op te nemen. Dit kan daarmee zorgen voor een robuustere pipeline, die tegen een stootje kan wanneer structuur gewijzigd wordt.

Vraag dus bij je volgende te ontsluiten bronsysteem ook toegang tot deze views, op die manier ben je voorbereid op alle databasewijzigingen.

Conclusie
Het gebruik van information_schema is misschien niet het spannendste onderwerp binnen data engineering, maar wel een van de meest onderschatte krachten in het bouwen van een schaalbaar, onderhoudbaar en slim dataplatform. Juist doordat deze metagegevens standaard beschikbaar zijn in vrijwel elke relationele database, is het verbazingwekkend hoeveel grip je ermee kunt krijgen op structuur, afhankelijkheden en gebruik van data.

Door information_schema actief te benutten, kun je beter anticiperen op wijzigingen in bronnen, automatisch documentatie genereren, inzicht krijgen in lineage en datakwaliteit borgen. Of je nu werkt met Snowflake, PostgreSQL, SQL Server of BigQuery, overal ligt een schat aan metadata voor het oprapen. Voor data engineers betekent dit minder incidenten en stabielere pipelines. Voor analisten betekent het vertrouwen in de datasets waarmee ze werken.

Metagegevens vormen daarmee niet alleen de smeerolie van je dataplatform, maar ook het motorblok. Wie investeert in het goed ontsluiten en benutten van deze metadata, legt een fundament voor flexibiliteit, schaalbaarheid en toekomstbestendigheid. Dus de volgende keer dat je een bron ontsluit of een datamodel aanpast, vergeet dan niet: information_schema weet hoe alles in elkaar zit.

Lees verder over data en de diensten van RBI-Solutions in deze blog's:

Van tijd naar trigger: De weg naar een event-driven data architectuur

Van tijd naar trigger: De weg naar een event-driven data architectuur

Sinds het begin van het gebruik van Business Intelligence hebben organisaties vertrouwd op periodieke dataverwerking, de zogenaamde ’batch jobs’ die elke nacht draaien. Sindsdien is de behoefte aan snelheid, flexibiliteit en realtime inzichten enorm toegenomen. Die behoefte zorgt dan ook voor een fundamentele verschuiving in hoe we data-architecturen ontwerpen: weg van batch processen, op weg naar een event-driven benadering.

Maar wat betekent dat eigenlijk: ’event-driven’? En waarom zou je hier als data engineer, analist, data scientist of business gebruiker wakker van moeten liggen? In deze blog duiken we in de wereld van event-driven data-architecturen, hun voordelen, uitdagingen, en de tools die deze transitie mogelijk maken.

DataOps, DevOps en MLOps: Oude wijn in nieuwe zakken of écht anders?

DataOps, DevOps en MLOps: Oude wijn in nieuwe zakken of écht anders?

In een data gedreven organisatie vliegen de samenwerkingstermen je om de oren: DevOps, DataOps, MLOps. Deze drie termen, die inderdaad erg hetzelfde klinken (en door sommige organisaties ingevuld worden door een beheerder in een ontwikkelteam te zetten), verschillen in de praktijk aanzienlijk in toepassing, focus en doel. Voor wie dagelijks werkt met data of systemen die op data drijven, is het essentieel om deze termen niet alleen te kennen, maar ook te begrijpen wat ze betekenen en hoe ze zich tot elkaar verhouden. Daar nemen we jullie in deze blog dan ook in mee.

INTERVIEW MET DATA ENGINEER/BI CONSULTANT Said Saoud

INTERVIEW MET DATA ENGINEER/BI CONSULTANT Said Saoud

Wat begon met een goed gesprek en een flinke dosis enthousiasme, groeide uit tot een veelzijdige carrière in data engineering bij RBI. In dit interview deelt Said Saoud zijn reis bij RBI: hoe hij begon, waar hij aan werkt en waarom hij zich thuis voelt in de wereld van data engineering en BI. Benieuwd naar zijn ervaringen, tools en visie op de toekomst van data? Lees het hele verhaal in deze blogpost.

Data Science: Een eenmalig model of integratie in de dagelijkse operatie?

Data Science: Een eenmalig model of integratie in de dagelijkse operatie?

In veel organisaties is data science inmiddels geen onbekende meer. Data scientists bouwen geavanceerde voorspellende modellen, werken met machine learning en experimenteren met AI om waarde te halen uit grote hoeveelheden data. Er zit echter vaak een kloof tussen het bouwen van een model en het daadwerkelijk creëren van impact in de dagelijkse operatie.

Wat betekent de overname van Informatica door Salesforce voor data en AI?

Wat betekent de overname van Informatica door Salesforce voor data en AI?

Salesforce heeft aangekondigd dat het Informatica overneemt voor zo’n $8 miljard. Wat lijkt op een strategische fusie tussen twee softwaregiganten, is in werkelijkheid veel meer dan dat.
Deze overname heeft directe impact op hoe organisaties omgaan met datakwaliteit, governance en AI-adoptie. Het is een duidelijk signaal: zonder betrouwbare, goed geïntegreerde data, geen succesvolle AI. In onze nieuwste blog geven wij een analyse van deze ontwikkeling en leggen wij uit wat dit betekent voor jouw datastrategie.

Big Bang of stapsgewijs? De kunst van datamigraties

Big Bang of stapsgewijs? De kunst van datamigraties

Datamigraties lijken op het eerste gezicht slechts een technische randvoorwaarde, maar zijn in werkelijkheid een strategisch en risicovol proces. Uiteraard willen bedrijven de data die ze al hebben weer terugzien in de nieuwe applicatie. Het klinkt misschien als een simpele verhuizing, maar bij een datamigratie komt een hoop kijken. Je hebt immers niet alleen te maken met de twee systemen waar de data uitkomt, maar ook met de kritische processen die erop draaien. Denk aan orderverwerking, voorraadbeheer of klantcommunicatie.

Een slechte aanpak kan zorgen voor kostbare downtime, verstoringen in processen of zelfs verlies van klantvertrouwen. Organisaties staan vaak voor de keuze tussen twee migratiestrategieën: de ‘big bang’-aanpak of een gefaseerde overgang.
Welke kies je en waarom? We nemen je mee in de afwegingen.

Van Inzicht naar Data gedreven: DE SPRONG van AWS Data Warehouse naar Data Lakehouse

Van Inzicht naar Data gedreven: DE SPRONG van AWS Data Warehouse naar Data Lakehouse

Veel organisaties vertrouwen op hun data warehouse voor analyse en besluitvorming. Maar data is allang niet meer alleen gestructureerd: e-mails, Excel-bestanden, afbeeldingen en sensordata vormen inmiddels het grootste deel. En daar zijn traditionele warehouses niet op gebouwd.
De oplossing? Een Data Lakehouse: schaalbaar, flexibel én kostenefficiënt – zonder de betrouwbaarheid van een warehouse te verliezen. Maar hoe zet je die stap als je huidige omgeving op AWS draait? En hoe voorkom je vendor lock-in?

Zo begin je vandaag nog met Fabric

Zo begin je vandaag nog met Fabric

Microsoft Fabric is niet zo maar wéér een tool om iets te doen met je data. Het is een platformshift. Een alles-in-één oplossing die data-engineering toegankelijker en resultaatgerichter maakt. Je bent minder tijd kwijt aan de infrastructuur en hebt meer tijd om echt impact te maken. Het andere grote voordeel: Automatisering, data visualisatie en data governance zitten er vanaf dag één ingebakken.

Gebruik de gratis 60-dagen trial. Test het: één bron, één flow, één dashboard. Meer heb je niet nodig om te zien of het werkt voor jou.

Encryptie-by-Design, het veilig en verantwoord beheren van persoonsgegevens en gevoelige data

Encryptie-by-Design, het veilig en verantwoord beheren van persoonsgegevens en gevoelige data

Als data engineer of manager weet je hoe belangrijk het is om persoonsgegevens veilig te verwerken, vooral met de AVG op de achtergrond. Bij RBI hebben we Encryptie-by-Design als uitgangspunt toegepast tijdens verschillende projecten: alle persoonsgegevens worden standaard versleuteld bij het ontsluiten van data.
🔐 De sleutel? Alleen decryptie wanneer het echt noodzakelijk is. Dit minimaliseert risico’s en zorgt dat je dataplatform compliant blijft.

Praten met je data, toepassing van AI om inzichten te halen uit je eigen data

Praten met je data, toepassing van AI om inzichten te halen uit je eigen data

Data is er genoeg. Maar hoe zorg je ervoor dat de juiste mensen de juiste informatie to zich kunnen nemen?
Bij RBI onderzochten we hoe AI-selfserviceplatformen medewerkers kunnen helpen om zelf inzichten uit data te halen. Denk aan een chatbot of custom GPT waarmee je team direct met hun data kunnen ‘praten’. De vraag die wij onszelf stelden: hoe kun je een self-serviceplatform voor datavragen implementeren?

“Blijf nieuwsgierig, zoek je eigen pad en sta open om te blijven leren.”

“Blijf nieuwsgierig, zoek je eigen pad en sta open om te blijven leren.”

Dat is het advies van onze BI consultant Mark aan iedereen die de wereld van data in wil. Zelf begon hij drie jaar geleden bij RBI, waar hij via een traineeship uitgroeide tot Data engineer.

Zijn geheim? Vragen blijven stellen, goed om je heen kijken en gewoon beginnen.

Benieuwd naar zijn favoriete projecten, tools, en waarom hij zich bij RBI zo thuis voelt? Lees dan zijn verhaal hieronder.

Employee 360° – Hoe goed ken jij je medewerkers écht?

Employee 360° – Hoe goed ken jij je medewerkers écht?

In de war for talent is het niet genoeg om alleen te werven — je moet ook je huidige medewerkers goed begrijpen én behouden. Een Employee 360° view bundelt versnipperde data tot één compleet beeld van je mensen: hun skills, prestaties, ambities en betrokkenheid. Zo zie je sneller wie klaar is voor de volgende stap, waar risico’s liggen en hoe je gericht kunt ondersteunen. Ontdek wat een Employee 360° voor jouw organisatie kan betekenen in deze blogpost.