8-12-2014

Datavirtualisatie - de silver bullet voor data-integratie?

Gegevens zijn de basis voor processen en het is dan ook belangrijk dat mensen kunnen beschikken over alle gegevens die relevant zijn om hun werk uit te voren. De kwaliteit van de gegevens dient daarbij aan te sluiten bij de eisen die worden gesteld vanuit het proces. In de praktijk blijkt de informatievoorziening van organisaties onvoldoende op orde om de noodzakelijke gegevens en/of gegevenskwaliteit te leveren. In dit blog item kijk ik naar een aantal oorzaken en positioneer ik datavirtualisatie als een mogelijke oplossingsrichting.

Een deel van de problematiek van het ontsluiten van gegevens wordt veroorzaakt doordat zij zitten opgesloten in applicaties. Zo heeft iedere applicatie zijn eigen gegevensmodel dat niet is afgestemd op het gegevensmodel van andere applicaties. Het betekenisvol integreren van gegevens uit deze verschillende applicaties is een grote uitdaging en gaat in veel gevallen ook niet zonder het verlies van een deel van de betekenis. Daarnaast is het zo dat veel applicaties het simpelweg ook niet mogelijk maken om alle gegevens te ontsluiten op een andere wijze dan via de gebruikersinterface van de applicatie zelf. Steeds meer applicaties bieden wel services waarmee gegevens kunnen worden ontsloten, maar dat gaat vaak slechts om een deel van de gegevens. Gebruikers willen gegevens op allerlei manieren kunnen ontsluiten uit applicaties en daar zijn services niet altijd het juiste middel voor. Denk bijvoorbeeld aan de behoefte van gebruikers om één zoekvraag te kunnen stellen die in één keer alle relevante gegevens in alle gegevensverzamelingen en applicaties ontsluit. Het ontbreekt daarvoor aan breed gedragen standaarden die dat soort zoekfunctionaliteit mogelijk maakt.

Een ander probleem waar organisaties tegenaan lopen is dat gegevens niet op één plaats worden beheerd. Iedere applicatie beheert zijn eigen verzameling gegevens en die verzameling overlapt wel eens deels met die van andere applicaties. Er ontstaat een reëel risico dat gegevens in verschillende applicaties hierdoor gaan verschillen en de gegevensverzamelingen inconsistent worden. Voor een deel zijn dit soort problemen op te lossen met organisatorische en technische maatregelen. Bijvoorbeeld door goede afspraken te maken over gegevensbeheer en de taken en verantwoordelijkheden van medewerkers hierin; we spreken dan over data governance. Vooral de eigenaar van de data diegene die de hele gegevensketen beheert – de data steward – spelen daarin een belangrijke rol. Het is belangrijk om keuzes te maken welke applicatie de bronhouder is van de gegevens en welke interfaces te gebruiken voor gegevensuitwisseling met andere applicaties. Dat kost organisaties veel tijd en energie en krijgt in de praktijk onvoldoende aandacht. Gegevensbeheer blijkt in de praktijk een complexe materie, waardoor het toewijzen van een eigenaar of bronapplicatie lang niet altijd eenvoudig is.

Een ander probleem doet zich voor wanneer gegevens, om wat voor reden dan ook, worden gekopieerd en op fysiek verschillende plaatsen worden opgeslagen. Zolang deze kopieën niet worden aangepast en de gegevens wel op één plaats worden beheerd dan vallen de problemen nog wel mee. Het kopiëren en meervoudig opslaan van gegevens kost echter wel tijd, geld, IT-middelen en inspanning. Vooral in het kader van managementinformatie speelt deze problematiek. In organisaties wordt veel geïnvesteerd in het creëren van datawarehouses waar alle belangrijke gegevens bij elkaar komen om de bron te vormen voor managementinformatie. De gewenste inspanning valt organisaties in de praktijk tegen en de verleiding is groot om rapportages direct op de bronapplicaties uit te voeren. Dat zorgt echter voor een relatief hoge belasting van de betreffende applicaties en maakt integratie van informatie over applicaties heen ook minder goed mogelijk.

De geschetste problemen vragen om een kritische overweging van de plaats van gegevens in relatie tot applicaties. Uiteindelijk zijn applicaties zelf niet direct eigenaar van gegevens, maar verschaffen alleen de noodzakelijke toegang; een manier om de gegevens te ontsluiten. Niet voor niets spreken we in meer algemene zin over informatievoorziening als het geheel van mensen, middelen en activiteiten die zijn gericht op de ondersteuning van bedrijfsprocessen met informatie, inclusief het beheer van de daarvoor benodigde gegevens. Gegevens zouden ook los van de applicatie beschikbaar moeten zijn en zich als een geïntegreerde gegevensverzameling moeten manifesteren. Er is behoefte aan een gegevensinfrastructuur die de bedrijfsgegevens breed beschikbaar stelt aan processen en applicaties. Een gestandaardiseerde gegevensinfrastructuur vergroot de flexibiliteit waar organisaties in toenemende mate behoefte aan hebben. Het creëren van grote geïntegreerde databases is echter ook niet zonder problemen en uitdagingen. Het risico bestaat dat ook hier onevenredig veel tijd in gaat zitten, en dat er een monolithisch geheel ontstaat dat niet meer beheersbaar is. Datavirtualisatie is een opkomende visie op data-integratie die mogelijk een uitweg kan bieden.

Datavirtualisatie zorgt ervoor dat gegevens die zich in allerlei verschillende gegevensverzamelingen bevinden en ook heel anders van aard zijn zich tot als één geïntegreerde (virtuele) gegevensverzameling manifesteren. Een gegevensverzameling die ook als één geheel doorzocht kan worden. Dit is op zich niet nieuw; technologie voor federatieve databases bestaat al jaren. De technologie is echter verder geëvolueerd en is tegenwoordig ook in staat om wijzigingen aan te brengen in virtuele gegevensverzamelingen en deze wijzigingen door te propageren naar de bronsystemen. Dat creëert allerlei nieuwe mogelijkheden voor het ontsluiten en beheren van gegevens. Denk bijvoorbeeld aan gegevensverzamelingen die overlappen door redundantie in het applicatielandschap, maar die wel als één geïntegreerde gegevensverzameling gebruikt zou moeten worden voor applicaties. Ook op het gebied van managementinformatie biedt deze technologie kansen, omdat het creëren van een specifiek datawarehouse (deels) kan worden voorkomen. Het belangrijkste aandachtspunt daarbij is dat de performance van het opvragen van rapportages en de bronsystemen niet onacceptabel wordt. Het tijdelijk bewaren – cachen – van gegevens in deze virtuele tussenlaag kan in een aantal gevallen een voldoende maatregel zijn. Over het algemeen is datavirtualisatie niet geoptimaliseerd op performance. Als snelheid van gegevensverwerking erg belangrijk is dan zijn andere oplossingsrichtingen noodzakelijk. Daarnaast biedt datavirtualisatie ook geen oplossing voor semantische integratie; dit blijft mensenwerk. Datavirtualisatie is daarmee een interessante oplossingsrichting, maar zeker niet een 'silver bullet'.

Danny Greefhorst (dgreefhorst@archixl.nl) is principal consultant en mede-directeur bij ArchiXL.