Datakwaliteit: het belang en de uitdagingen in de praktijk
De gebouwde omgeving bevindt zich in een transitie waarbij gebouwen snel efficiënter, gezonder en slimmer worden. Deze transitie wordt grotendeels mogelijk gemaakt doordat moderne gebouwen uitgerust worden met een uitgebreide set van sensoren. De verzamelde data vormt daarbij steeds vaker het fundament voor het certificeren, onderhouden en verbeteren van gebouwen, wat leidt tot een toenemende afhankelijkheid van de data. Het is daarom van groot belang om de data op kwaliteit te kunnen beoordelen. In deze blog bespreek ik zowel het belang van datakwaliteit, als de uitdaging die het met zich meebrengt.
Belang van datakwaliteit
Van meten alleen, worden gebouwen niet efficiënter, gezonder of slimmer. Dat gebeurt pas wanneer de data geanalyseerd wordt, en je de verkregen inzichten gebruikt om gebouwen te onderhouden en verbeteren. De kwaliteit van de data is daarom cruciaal voor ons advies over het onderhouden en verbeteren van gebouwen.
Niet geheel onverwachts, is de incompleetheid van data de meest voorkomende oorzaak van een verlaagde datakwaliteit. Tegelijkertijd is dit een van de makkelijkst te detecteren oorzaken, wanneer de data met een vaste frequentie verzonden wordt. Je ziet dan namelijk een gat in de data. Het wordt een stuk lastiger wanneer de data enkel verzonden wordt als de data veranderd is. In dat geval moet bepaald worden dat de data óf niet veranderd is óf onterecht niet verzonden is (en dus incompleet is). De detectie van incomplete data is niet alleen van belang voor bijvoorbeeld certificering, maar ook voor meer complexe vormen van data analyse.
Het real-time berekenen van het COVID-19 besmettingsrisico op basis van het CO2-niveau in een ruimte is zo’n vorm van complexe data-analyse. Het belang van de betrouwbaarheid van het berekende besmettingsrisico spreekt voor zich, maar die kan niet gegarandeerd worden op basis van datacompleetheid alleen. Zo moeten bijvoorbeeld CO2-sensoren regelmatig gekalibreerd worden en zijn de metingen gedurende de kalibratie niet betrouwbaar.
Naast incompleetheid en sensorkalibratie zijn er nog andere oorzaken van een verlaagde datakwaliteit, zoals een afgedekte of verkeerd geplaatste sensor. Bij DWA nemen we de detectie van verlaagde datakwaliteit serieus, want; om de kwaliteit van onze adviezen te kunnen waarborgen, moeten we de kwaliteit van onze data kunnen waarborgen.
De uitdaging van datakwaliteit
Je vraagt je nu misschien af wat ik dan precies met datakwaliteit bedoel, aangezien het op verschillende manieren geïnterpreteerd kan worden. Onder datakwaliteit versta ik de mate waarin gemeten waarden overeenkomen met de, beoogd gemeten, werkelijke waarden. Met deze definitie kun je drie typen oorzaken onderscheiden van een verlaagde datakwaliteit; (1) een fout in de dataverbinding, (2) een sensorfout en (3) de sensor meet niet de beoogde werkelijke waarde.
Het derde type is hierbij het meest subtiel en vaak het lastigst te detecteren. Een simpel voorbeeld hiervan is wanneer een sensor, die de gemiddelde ruimtetemperatuur moet meten, boven een radiator hangt. Zelfs wanneer er in dat geval niets mis is met de dataverbinding of de sensor zelf, wordt niet de beoogde werkelijke waarde gemeten. Dit kan gemakkelijk leiden tot een verkeerde aansturing van de radiator, een te lage ruimtetemperatuur en dus comfortklachten.
Uitdaging = complexiteit + diversiteit + schaalbaarheid
Met de eerder beschreven definitie van datakwaliteit, is complexe data-analyse nodig voor de beoordeling ervan. De uitdaging is niet alleen het resultaat van de complexiteit van de analyse, maar een combinatie van complexiteit, diversiteit en schaalbaarheid. Diversiteit draagt bij aan de uitdaging omdat de beoordeling van datakwaliteit verschillend is voor verschillende typen sensoren. Zo is een CO2-niveau in ppm van 500 vrij normaal in een ruimte, maar een vrij vreemde waarde voor een ruimtetemperatuur in °C. Daarnaast draagt schaalbaarheid natuurlijk bij aan de uitdaging, omdat de data-analyse hiervoor zo veel mogelijk geautomatiseerd dient te worden.
Om de diversiteit en schaalbaarheid tastbaarder te maken, neem ik het multi-sensor netwerk in het pand van DWA in Gouda als voorbeeld. Dit is een netwerk van 57 multi-sensoren die ieder temperatuur, CO2-niveau, relatieve vochtigheid, geluidsdruk, lichtsterkte en vluchtige organische stoffen meten in de ruimte waarin ze geplaatst zijn. Er worden hier dus (57 maal 6 is) 330 waarden gemeten, waarvoor zes verschillende analyses nodig zijn. Nu is het pand van DWA in Gouda nog van bescheiden grootte, en hebben we het hier alleen over de sensoren die ruimtecondities meten. Voor een enkel kantoorpand worden al snel tientallen typen waarden gemeten en het totaal aantal gemeten waarden kan oplopen tot in de duizenden.
Conclusie
Data vormt steeds vaker het fundament voor het certificeren, onderhouden en verbeteren van gebouwen, wat leidt tot een toenemende afhankelijkheid van die data. Een verlaagde datakwaliteit (zoals bij data incompleetheid of sensorkalibratie) kan daardoor leiden tot verkeerd of suboptimaal advies. Het beoordelen van datakwaliteit is echter een grote uitdaging vanwege de complexiteit, diversiteit en schaalbaarheid.
Deze uitdaging ga ik graag met mijn collega’s aan, zodat de gebouwde omgeving daadwerkelijk efficiënter, gezonder en slimmer wordt. Hoe het beoordelen van datakwaliteit precies in zijn werk gaat, daarover zal ik uitwijden in mijn volgende blog.