Datakwaliteit in Business Intelligence
Data Quality (DQ), ofwel datakwaliteit, is een veelgebruikte term in business intelligence trajecten. In elk project komen op een bepaald moment wel enige data-issues boven. Deze kunnen soms snel verholpen worden, maar het kan ook voorkomen dat deze issues langer blijven spelen. Indien dit laatste het geval is, vormt dit een ernstige bedreiging voor het succes van het systeem. Immers, een rapportagesysteem dat onduidelijke, incomplete, onbetrouwbare of foutieve informatie levert, is eigenlijk onbruikbaar.
Het algemene beeld van datakwaliteit
Iedereen die op een bepaalde manier betrokken is bij business intelligence projecten heeft wel een bepaalde voorstelling van het begrip data quality. Vaak is dit een vrij technische voorstelling: bronsystemen bevatten foute gegevens, welke moeten worden opgeschoond. Omdat het vaak om grote dataverzamelingen gaat, is het verbeteren van de fouten al snel een flinke klus, dus verwacht men hiervoor vanuit de business vaak een technische oplossing van de IT afdeling. Er zijn verschillende tools voorhanden die data issues kunnen detecteren, rapporteren en soms ook opschonen. Met z.g. Data Profiling tools is het mogelijk een dataprofiel te maken van een databron. Met dit profiel kan inzicht worden verkregen in de kwaliteit van een bron. Met Data Cleansing tools kan men data ontdoen van vervuiling. Verder zijn er de z.g. DQM tools, voor het ondersteunen van een Data Quality Management Proces. Hierover volgt later meer.
Wat is datakwaliteit echt?
Een betere definitie van datakwaliteit is de volgende: "datakwaliteit is de mate waarin data geschikt is voor het doel waarvoor ze gebruikt wordt". In het geval van business intelligence, betekent dit dus dat de data geschikt moet zijn als informatiebron voor het operationele, tactische en strategische beslissingsproces. Dit betekent meer dan: er mogen geen fouten in zitten. Theoretisch zou het zelfs kunnen betekenen dat de data wel fouten mag bevatten. Indien men weet dat een databron 95% correcte data bevat, kan men besluiten dat dit voldoende is om op basis van deze gegevens bepaalde conclusies te trekken.
Aspecten die de datakwaliteit bepalen
Zoals gezegd gaat het bij datakwaliteit om meer dan de aanwezigheid van fouten. Hier volgt een aantal aspecten, die de datakwaliteit (mate van geschiktheid voor een bepaald doel) kunnen bepalen:
Tijdigheid
Dit is de mate waarin data op tijd aanwezig is. Bijvoorbeeld: In een datawarehouse omgeving, waarin de gefactureerde omzet elke nacht wordt geladen, moet deze data elke morgen volledig beschikbaar zijn.
Volledigheid
Dit geeft aan dat de volledige verwachte dataset aanwezig moet zijn. Bij consolideren van data uit verschillende bronnen, kan dit wel eens een uitdaging zijn.
Accuraatheid
Dit geeft aan in hoeverre de data de werkelijkheid weergeeft.
Consistentheid
Consistentheid heeft ermee te maken dat door het hele systeem dezelfde coderingen en verwijzingen gebruikt worden.
Begrijpbaarheid
Dit is een veelvoorkomende vorm van slechte datakwaliteit, die vreemd genoeg slechts weinig aandacht krijgt. Soms zijn de gehanteerde definities, die in een rapportagesysteem gebruikt worden, zo omslachtig of ingewikkeld dat niemand echt begrijpt wat het getal precies inhoud. In zo'n geval zou het een goed idee kunnen zijn om deze definities eens te herzien, omdat het lastig is om beslissingen te nemen op basis van cijfers die men niet begrijpt. Het kan ook voorkomen dat de gehanteerde definities gewoon onbekend zijn, omdat er geen goede documentatie aanwezig is. Goede metadata is dan ook een vereiste voor goede datakwaliteit.
Uniekheid
Uniekheid wil zeggen dat elke entiteit uit de werkelijkheid ook slechts als één record voorkomt in de database. Het kan bijvoorbeeld in de praktijk wel voorkomen dat klanten meerdere malen in een bron database voorkomen. Dit kan diverse oorzaken hebben, zoals integratie van meerdere bronnen, het dubbel invoeren door bijvoorbeeld verkeerd gespelde namen, etc.
Verbetering van datakwaliteit
Voor het verbeteren van datakwaliteit is altijd een gedegen samenwerking tussen de business en de IT afdeling vereist. Het is zeker niet een puur technische aangelegenheid. Wel kunnen bepaalde tools helpen om fouten te detecteren, of om het proces te ondersteunen waarin de datakwaliteit wordt verbeterd. Commitment van de business is in ieder geval een vereiste voor het oplossen van dataproblemen. Om deze commitment te verkrijgen is het belangrijk dat men beseft wat datakwaliteit precies inhoudt.
Het proces waarmee datakwaliteitsproblemen structureel aangepakt worden, staat bekend onder de naam Data Quality Management