Build Back Better

Door datathatworks, 13 februari 2021

"Build Back Better" strategie voor het datawarehouse

Build Back Better! Diverse wereldleiders hebben de term bbb gebruikt om de strategie tijdens de post corona periode te beschijven. BBB is een strategie voor risico reductie tijdens het herstellen na rampen. Het idee achter BBB is dat de tekortkomingen van het systeem, welke tot de ramp geleid hebben of welke in ieder geval de ramp niet hebben kunnen voorkomen, worden verholpen of vermeden tijdens het opbouwproces. De term BBB wordt ook gebruikt voor een aanpak die een systeem tijdens de wederopbouw beter, eerlijker, schoner, diverser, inclusiever, kortom: volgens bepaalde normen "beter" maakt.

Het datawarehouse
Veel bedrijven hebben de afgelopen decennia een datawarehouse en business intelligence architectuur neergezet om het management of andere businessusers te voorzien van informatie en data analyse mogelijkheden. Vaak is dat met vallen en opstaan gebeurd, wellicht in meerdere pogingen. Soms staan er verschillende data mart omgevingen naast elkaar, mogelijk op basis van verschillende tools. Misschien hebben afdelingen eigen oplossingen gebouwd op allerlei creatieve wijzen, of misschien staat er een goed functionerend centraal datawarehouse dat volgens het boekje gebouwd is. Wat de sitatie ook is, de kans is groot dat de huidige omgeving niet volledig als optimaal gezien wordt. Misschien wordt het systeem of de systemen in de wandelgangen wel een ramp genoemd. Maar het kan ook zijn dat het systeem op zich doet waarvoor het ooit gebouwd was, maar door de jaren niet meer aan de huidige eisen voldoet. De technologische vooruitgang gaat immers razend snel. Technologie die 5 jaar geleden state of the art was, kan inmiddels alweer achterhaald zijn.

Datawarehousing vroeger en nu
Was het datawarehouse van oorsprong bedoeld voor rapportages en analyses voor het hogere management, de kans is groot dat het over de tijd een bredere inzet heeft gekregen. Met name datawarehouses die detailinformatie bevatten, worden al snel ontdekt voor de business voor allerlei andere toepassingen. Als bron voor master data of transactionele data voor allerlei systemen. Een export maken van miljoenen General Ledger records is voor een MPP database een fluitje van een cent, terwijl menig transactioneel bronsysteem daar grote moeite mee heeft. Ook data scientists worden al snel naar het datawarehouse verwezen als ze grote hoeveelheden transactionele data nodig hebben voor hun complexe analyses. De eisen die data scientists aan data stellen zijn echter anders dan de eisen die managers hier aan stellen. Het kan ook zijn dat zij behoefte hebben aan data die nog niet in het datawarehouse aanwezig is. In dat geval kan de tijd die nodig is om de data toe te laten voegen langer zijn dan vereist. Kortom, het komt voor dat zij uiteindelijk toch op zoek gaan naar andere databronnen, omdat de omgeving toch niet geheel aansluit op de eisen en wensen.

Technologische ontwikkelingen
Mobile De technologie heeft ook niet stilgestaan de afgelopen jaren. Een conceptueel overzicht van een datawarehouse architectuur zag er vroeger vaak redelijk eenvoudig uit. Het plaatje bevatte: data bronnen, een staging area, een datawarehouse, eventueel data marts, een semantische laag en tenslotte de rapportage- , query- en analysetools. Voor de implementatie was het een kwestie van de juiste tools te kiezen, te weten: de ETL tool, het type database en de front-end tools.Wie op dit moment zoekt naar een conceptueel overzicht van een datawarehouse, vindt diverse varianten. Het datawarehouse is hierin niet langer altijd het centrale middelpunt, maar vaak slechts een klein onderdeel in een groter geheel. Dat grotere geheel kan bestaan uit: Data Hubs, Data Lakes, Batch Layers, Speed Layers en Serving Layers. In plaats van ETL of ELT wordt gesproken over: Ingest, Store, Prep en Train. Een dergelijke complexe architectuur wordt vaak aangeprezen als 'Modern Data Warehouse Architecture'.

Het dilemma
Veel bedrijven beseffen dat hun huidige architectuur niet voldoet aan de eisen van de toekomst. Tegelijkertijd weet men ook dat het herbouwen van de volledige omgeving op een nieuw modern platform heel veel tijd en geld zal kosten. Daarbij is het nog maar de vraag of het uiteindelijke nieuwe platform wel volledig aan de eisen van de moderne tijd zal voldoen. Technische veranderingen gaan zo snel, en er zijn zoveel veschillende opties, dat de kans aanwezig is dat op het verkeerde paard gewed wordt. Deze bedrijven blijven daarom vaak hangen in een bepaalde gekozen architectuur. Deze bedrijven zitten gevangen in een soort vendor lock, methodology lock of technology lock situatie. Het kiezen voor verandering brengt risico's met zich mee, maar ook het blijven hangen in deze situatie is niet zonder risico. Als men te lang blijft hangen in een ouderwetse situatie, wordt men mogeljk ingehaald door concurrenten die wel in staat zijn om deze cirkel te doorbreken.

Build Back Better!
Als een datawarehouse architectuur over de tijd in enigszins in verval is geraakt, dan is dat vaak te wijten aan een te éénzijdige aanpak tijdens de uitgevoerde projecten. De prioriteit van stakeholders ligt vaak op het zo snel mogelijk behalen van de 'eigen' resultaten tegen zo laag mogelijk kosten. Het gevolg hiervan kan zijn dat projectmedewerkers ervoor kiezen om onder druk wat shortcuts te nemen. Zaken als testen en documenteren raken hierbij vaak op de achtergrond. Ook privacy eisen worden in het heetst van de strijd vergeten. Het leveren van de zichtbare deliverables worden het enige doel. Ontwikkelaars krijgen misschien iets te veel vrijheid om naar eigen inzicht oplossingen te bouwen 'zolang het maar werkt'. Ontwikkelaars komen en gaan en zij nemen de opgebouwde kennis met zich mee. Na verloop van tijd leidt dit tot een ondoorgrondelijk systeem.

Een BBB aanpak heeft als doel een derkelijk verloop te voorkomen. Het gaat te ver om in dit artikel een complete BBB strategie te beschrijven. Om een 'betere' data architectuur te bouwen, is het zaak om breder te kijken dan voorheen gedaan is. Dit vereist een multi stakeholder approach. Hierdoor kunnen andere zaken meer aandacht krijgen als voorheen het geval was, zoals:

  • GDPR compliancy
  • Standaardisatie
  • Documentatie
  • Datakwaliteit
  • Onderhoudbaarheid
  • Toekomstvastheid
  • Wendbaarheid

Uiteindelijk is het belangrijk om op meer te focussen dan de techniek. Techniek verandert continu en zal in de toekomst steeds sneller blijven veranderen. Een echt toekomstvast systeem zou daarom zoveel mogelijk technologie afhankelijk moeten zijn. Over het laatste aspect zullen op deze site meer artikelen volgen komende tijd.

Reacties