Data Virtualisatie

Wat is Data Virtualisatie?
Met Data Virtualisatie tools is het mogelijk om virtuele databases in te richten. In een virtuele database kunnen verwijzingen worden opgenomen naar tabellen die afkomstig zijn uit verschillende databases. De onderliggende databases kunen van allerlei verschillende typen zijn. Via de Data Virtualisatie tools kunnen vervolgens queries gebouwd worden over deze tabellen. Pas op het moment dat een query wordt uitgevoerd, wordt de onderliggende data realtime opgehaald. De queries worden doorgaans ingevoerd in de taal SQL. Data Virtualisatie tools zouden ervoor moeten zorgen dat queries zo efficient mogelijk worden uitgevoerd. Dat gebeurt bijvoorbeeld door statistieken te verzamelen van de onderliggende tabellen. Hierdoor kan de virtual engine bepalen waar bepaalde gedeelten van een query worden uitgevoerd: op een brondatabase of op de virtuele database. Bepaalde gedeelten van een query kunnen bijvoorbeeld in zijn geheel 'gepushed' worden naar een brondatabase. Er kan ook besloten worden om tabellen te cachen op de virtuele database.

Wat zijn de voordelen van Data Virtualisatie?
Het voordeel van Data Virtualisatie is dat de data realtime kan worden bevraagd. Het is dus niet nodig om deze periodiek (bijvoorbeeld elke nacht) te laten repliceren. Hierdoor krijgt de eindbegruiker altijd de laatste stand van zaken te zien. Middels Data Virtualisatie zou bijvoorbeeld een operationeel Dashboard gemaakt kunnen worden, wat elk moment de meest actuele situatie kan tonen.

Wat zijn de nadelen van Data Virtualisatie?
Data Virtualisatie is niet altijd de beste oplossing. Selecties van hele grote datasets die over verschillende databases moeten worden samengevoegd (gejoined), kunnen een zware belasing opleveren voor de brondatabases, het netwerk en de virtuele database. De performance zal in dat geval ook ronduit slecht zijn. Het periodiek repliceren van data, bijvoorbeeld naar een Data Warehouse, kan ook voordelen hebben. Hierdoor wordt het bronsysteem ontlast, zodat operationele queries optimaal kunnen draaien. Omdat het laden en transformeren van data meestal in grote hoeveelheden records tegelijk plaatsvind (batch gewijs), kunnen complexe transformaties zeer efficient worden uitgevoerd. Om dezelfde transformaties realtime uit te voeren, zou de complexiteit enorm verhogen en vereist ook veel beschikbare rekenkracht op elk moment van de dag.

Van fysiek datawarehouse naar logisch datawarehouse?
Het volledig inrichten van een Data Warehouse op basis van Data Virtualisatie, wordt ook wel Virtual Data Warehousing genoemd. Het eindproduct hiervan is een Virtueel Data Warehouse of Logisch Data Warehouse. Hoewel door sommigen wordt gezegd dat dit de standaard wordt, zijn er op dit moment nog vele technische en organisatorische uitdagingen om de volledige functionaliteit van het Corporate Data Warehouse te virtualiseren.

Conclusie
Data Virtualisatie een oplossing zijn voor specifieke data integratie vraagstukken, maar is niet de heilige graal.