Wat is een Data Catalog?
Data zonder context is geeft geen informatie. In het artikel "Hoe data informatie wordt" kunt u hier meer over lezen. Binnen bedrijven is vaak veel data beschikbaar in Business Intelligence omgevingen. Maar niet alle gebruikers beschikken over de kennis om deze data goed te kunnen interpreteren. Data Catalogs zouden dit probleem moeten oplossen. In een Data Catalog kan Meta Data verzameld worden over de databronnen die beschikbaar zijn in de Analytische omgevingen. Hierbij gaat het niet alleen om technische Meta Data, maar ook om Business Meta Data. Zo kunnen data elementen geclassificeerd worden op basis van herkomst, eigenaarschap en data definitie. Tevens kan er worden aangegeven of data elementen persoonlijke of gevoelige informatie bevat. Dat aspect kan weer bepalen wie uiteindelijk toegang krijgen tot deze data elementen. Sommige Data Catalogs bieden discussie functionaliteit waarmee gebruikers definities kunnen afstemmen. Data Catalogs kunnen ook auto discovery funtionaliteit bevatten, waarmee automatisch meta data herleid kan worden uit de data bronnen. Dat laatste kan veel tijd schelen om de Data Catalog up-to-date te krijgen. Data Lineage functionaliteit is ook vaak onderdeel van de Data Catalog.
Uitdagingen bij het inrichten van een Data Catalog
Eigenlijk is een Data Catalog niets anders dan de Meta Data Repository, die sinds het begin der tijden onderdeel is van een Data Warehouse architectuur overzicht. Hoewel de Meta Data Repository altijd benoemd wordt aan het begin van het Data Warehouse traject, sterft deze vaak een stille dood. Mogelijk is er wel een Meta Data repository aanwezig binnen de Business Inteligence toolset. Deze bevat slechts zelden complete meta data, inclusief lineage, data definities, en zo meer. De Meta Data repostitory wordt daarom zelfden beschikbaar gesteld aan de hele gebruikersgroep van de Business Intelligence omgeving. Hiervoor zijn twee redenen te bedenken:
1. Meta Data is geen sexy onderwerp, en heeft daarom met name aan het begin van het traject weinig aandacht van de gebruikersgroep.
2. Het kost redelijk veel tijd en dus geld om meda data volledig in te richten en up to date te houden.
De toekomst van data catalogs
Data wordt steeds belangrijker binnen bedrijven. Dit komt omdat steeds meer toepassingen gebruik maken van data uit één of meer systemen. Om dit mogelijk te maken wordt data steeds meer gerepliceerd en getransformeerd door allerlei processen. Voorbeelde van dergelijke toepssingen zijn: Business Intelligence, Advanced Analytics, Robotics, Data Science, AI en Machine Learning. Uiteindelijk is de kwaliteit van de data bepalend voor het success van alle genoemde toepassingen. Data Catalogs helpen de kwaliteit van data te verbeteren en inzichtelijk te maken. Het inrichten en actueel houden van een Data Catalog vraagt een lange adem. Maar als dit correct wordt aangepakt, zal dit uiteindelijk zijn vruchten afwerpen. Het feit dat er meer en meer gebruik gemaakt wordt van allerlei data brengt ook allerlei veiligheidsrisico's met zich mee. Tegelijkertijd wordt privacy wetgeving steeds strenger. Het inzichtelijk maken van wie welke data mag zien wordt daarmee essentieel om schade claims te voorkomen. Kortom, het ziet er naar uit dat Data Catalogs uiteindelijk het hart zouden moeten vormen binnen een Data Governance architectuur. Voordat het zover is moeten deze tools nog wel een technische ontwikkeling doormaken.