Data kwaliteit refereert naar processen en componenten die ervoor zorgen dat de betrouwbaarheid van de data gegarandeerd is. Dit kan verwijzen naar :

  • Compleetheid van data : zijn de verplichte en optionele velden in de data structuren naar behoren ingevuld zodat een consistente interpretatie van de data mogelijk is.
  • Actualiteit van data : zijn de beschikbare waarden nog actueel ?
  • Consistentie van de data : welke processen kunnen ervoor zorgen dat er traceerbaarheid is van de data bij updates, vooral bij gelinkte, gedistribueerde datasets. Dit houdt ook in dat relevante meta data aanwezig dient te zijn om goede interpretatie van de data mogelijk te maken.
  • Zuiverheid van data : dit is typisch het gevolg van een aantal data verificatie stappen, waarin volgens bepaalde beslisregels bepaalde waarden worden geïdentificeerd als onbetrouwbaar en vervolgens alsdusdanig gevlagd of uit de datastroom verwijderd worden.
  • Het voldoen van data aan zekere data quality objectives die meestal worden uitgedrukt in de vorm van statistische indicatoren. Hierbij kan een vorm van calibratie aan referentiewaarden nodig zijn, zoals typisch bij IoT sensor data. In heel wat kennisdomeinen worden formele data quality objectives afgesproken, waarbij onderscheid kan gemaakt worden tussen verschillende doeleinden van de data (indicatief, informatief, quantitatief). Indien statistische indicatoren beschikbaar zijn die een quantificatie van de onzekerheid van sensor waarden weergeven, dan kan deze informatie gevoelig bijdragen aan de compleetheid van de data (zie hoger).