• It Architectuur Amersfoort

  

  • Home
  • Publicaties
  • Blog
  • Het toenemend belang van datamodellering voor goede data

Het toenemend belang van datamodellering voor goede data

27 augustus 2019

Met de toenemende aandacht voor data worden datamanagement, data governance, datakwaliteit en ook datamodellering steeds belangrijker. Datamodellering is wellicht de oudste ambacht in dit geheel. Het is in het verleden een belangrijke basis geweest bij de ontwikkeling van applicaties. Het is echter tevens een tijd minder onder de aandacht geweest. Dit komt mijns inziens onder meer doordat in de context van agile ontwikkeling het vastleggen van kennis in documenten als minder belangrijk is gepositioneerd. In deze blog beschrijf ik dat datamodellering toenemend belangrijk is en wat de waarde ervan is in de context van datakwaliteit. Datakwaliteit is ook het hoger liggende doel van datamanagement als geheel; het ervoor zorgen dat de kwaliteit van data aansluit bij het gebruik.

Een datamodel is een structuur van data, inclusief een definitie van de elementen in deze structuur. Naast dat deze structuur belangrijk is voor het vastleggen van data is het ook belangrijk voor data-uitwisseling. Uitwisseling van data over de grenzen van organisaties zal steeds meer toenemen. Daarmee overschrijdt data ook grenzen van taal en is het toenemend belangrijk dat duidelijk is wat de data betekent om misinterpretatie te voorkomen. Een belangrijk aspect van datakwaliteit is de mate waarin data overeenkomt met de werkelijkheid. Als je de werkelijkheid niet goed begrijpt en ook niet goed definieert wat de data betekent dan ontbreekt de basis om te kunnen spreken over kwaliteit. Betekenis van data, in de vorm van definities is daarom de belangrijkste onderbouwing waarom datamodellen zo belangrijk zijn voor datakwaliteit. Overigens start dat idealiter op een conceptueel taalniveau, waarbij het nog helemaal niet gaat over data, alleen maar over het beschrijven van de werkelijkheid.

Een ander belangrijke reden waarom datamodellen zo belangrijk zijn vanuit het perspectief van datakwaliteit is dat datamodellen ook regels beschrijven. Denk aan regels die aangeven welke data verplicht zijn, welke waarden ze kunnen aannemen of welke relaties er moeten bestaan tussen data-elementen. Deze regels worden ook wel constraints (beperkingsregels) of kwaliteitsregels benoemd, wat direct aangeeft waarom ze belangrijk zijn voor datakwaliteit. Overigens gaan deze regels verder dan wat je in een datamodel visueel kunt weergeven. Ze kunnen ook beperkingen stellen aan meer complexe relaties tussen data. Hiervoor zijn verschillende (formele) talen beschikbaar zoals OCL en SHACL. Deze regels maken eigenlijk een integraal deel uit van het datamodel. Ze zijn echter ook direct bruikbaar als datakwaliteitscontroles. Je kunt ze uitprogrammeren in SQL of configureren in een datakwaliteitstool. Het resultaat is een datakwaliteitsrapportage of dashboard waarin je alle records kunt zien die niet voldoen aan de regels zodat je kunt werken aan de continue verbetering van de kwaliteit van de data.

Als je vanuit datakwaliteit en kwaliteitsregels kijkt naar datamodellen dan wordt ineens duidelijk dat het uitgebreider vastleggen van een datamodel veel meerwaarde heeft, ook voor reeds bestaande applicaties en databases. Je kunt dan ook specifieke eigenschappen vastleggen die het creëren van kwaliteitsregels vereenvoudigen. Denk bijvoorbeeld aan het vastleggen van de domeinen; de waarden die de data kan aannemen. Dat betekent ondermeer het vastleggen van het datatype, veldlengtes, minimale en maximale waarden en formaat van velden. Bij die laatste zou je bijvoorbeeld ook kunnen denken aan het gebruik van reguliere expressies om het formaat in uit te drukken. Deze expressies zijn direct bruikbaar in kwaliteitsregels en/of queries die daaruit voortvloeien. Als je het logische datamodel ook netjes hebt verbonden aan het fysieke datamodel dan zou je in potentie de kwaliteitsregels of queries ook automatisch kunnen genereren. Dit leidt tot een belangrijke versnelling bij het opstellen van kwaliteitsregels. Deze regels zou je ook op meerdere plaatsen in het proces kunnen gebruiken. Bij voorkeur worden ze al gebruikt bij het inwinnen of anders bij het ontvangen van gegevens. Een belangrijke basis ontstaat echter al als je ze definieert op reeds opgeslagen data, bijvoorbeeld in je datawarehouse. Hierdoor ontstaat snel een eerste inzicht.

Als je verder kijkt naar datakwaliteit dan zou je ook meer geavanceerde aspecten van datakwaliteit in het datamodel kunnen vastleggen. Een belangrijk referentiekader in die context zijn de ISO/IEC 25012 en 25024 standaarden die standaard dimensies en indicatoren voor datakwaliteit beschrijven. Denk daarbij bijvoorbeeld aan nauwkeurigheid, compleetheid, actualiteit, consistentie, precisie en herleidbaarheid van data. Veel van dit soort kwaliteitsaspecten worden gedefinieerd op attribuutniveau. Je zou ze dan ook liefst als kwaliteitseis vastleggen in het datamodel. Bij een specifiek attribuut zou je dan bijvoorbeeld kunnen aangeven dat de precisie 2 cijfers achter de komma is of dat de positionele nauwkeurigheid een halve meter is. Een deel van dit soort regels kun je ook geautomatiseerd controleren. Genoemd voorbeeld over de precisie is heel eenvoudig om te zetten in een kwaliteitsregel.

Herleidbaarheid is ook een aspect van datakwaliteit en krijgt toenemend aandacht. Ik organiseerde laatste een workshop over datakwaliteit. Ik liet de deelnemers en aantal kaartbeelden zien en vroeg welke informatie er eigenlijk in de metadata had moeten staan over datakwaliteit om te bepalen of de data bruikbaar is. Met stip op nummer één gaven deelnemers aan dat ze graag wilden weten wie de data had gecreëerd, op welke wijze en wanneer. Ook bij financiële instellingen worden er toenemend eisen gesteld aan de herleidbaarheid van data. Data in formele rapportages moeten herleidbaar zijn door de gehele keten, inclusief de bewerkingen die zij in het proces hebben doorgaan. Deze herleidbaarheid moet in eerste instantie expliciet worden gemaakt op het niveau van het datamodel. Het fysieke datamodel moet zijn verbonden aan het logische datamodel en die moet zijn verbonden aan het conceptuele datamodel. Dit wordt ook wel linkage genoemd. Vervolgens moeten de verwerkingen in het proces worden uitgedrukt in termen van relaties tussen attributen in verschillende datamodellen. Dat wordt ook wel data lineage genoemd. Dit stelt hoge eisen aan de manier waarop datamodellen worden vastgelegd en beheerd.

Ik heb in deze blog duidelijk geprobeerd te maken dat datamodellering weer helemaal terug is en een belangrijke competentie voor de toekomst is. Tegelijkerheid is belangrijk om te onderkennen dat datamodellering ook een vak is en dat niet ieder willekeurig teamlid in staat is om tot een kwalitatief hoogwaardig datamodel te komen. We zullen dus moeten investeren in kennis over datamodellering en het weer opnieuw als een vak gaan beschouwen.

Danny Greefhorst (Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.) is directeur en principal consultant bij ArchiXL.

Social Bookmarks

Reacties (7)

  • max thin lipo là gì 11 oktober 2019 op 05:22 | #

    Nice post. I used to be checking constantly this blog and I am impressed!
    Very helpful info particularly the final part :)
    I take care of such information much. I was seeking this certain information for a very long time.

    Thanks and best of luck.

    antwoord

  • max thin lipo 11 oktober 2019 op 05:24 | #

    Thanks in support of sharing such a nice opinion, paragraph is
    pleasant, thats why i have read it fully

    antwoord

  • thẩm mỹ viện korea 11 oktober 2019 op 05:25 | #

    Thank you for any other informative blog. Where else may
    I get that type of info written in such an ideal method?
    I've a project that I am simply now running on, and
    I have been on the glance out for such information.

    antwoord

  • max thin nanomax giá bao nhiêu 12 oktober 2019 op 04:06 | #

    I am actually grateful to the holder of this site who has shared this impressive piece of writing at at this place.

    antwoord

  • Mejores Paginas Web Online 25 oktober 2019 op 04:02 | #

    Estaba buscando esta aclaracion hace mucho ciclo en internet
    y no la encontraba. Estoy de convenio con lo que indicas.
    Gracias es un gran aporte. Saludos.

    antwoord

  • bbq set 25 oktober 2019 op 08:26 | #

    Heya! I'm at work browsing your blog from my new iphone!
    Just wated to say I love reading your blog and look forward
    to all your posts! Keep upp the superrb work!

    antwoord

  • Kurtis 06 december 2019 op 20:22 | #

    Jadwal Bola dan Prediksi Jaman Noww hanya di: menang88.com

    antwoord

Plaats een reactie

U plaatst een reactie als gast

Contact

ArchiXL B.V.
Nijverheidsweg Noord 60-27
3812 PM Amersfoort

Telefoon: 033 258 5545

E-mail: info@archixl.nl

   

Nieuwsbrief

Wil je op de hoogte gehouden worden van nieuws en ontwikkelingen binnen ArchiXL?

Aanmelden voor de nieuwsbrief