Time series/tijdreeksen deel 1: introductie

De tijdreeks is een vorm van data die ik steeds meer tegenkom. In dit tijdperk van Big Data, en specifiek het Internet-of-Things (IoT) zijn er steeds meer apparaten die dit soort data produceren. In deze post wil ik kort stilstaan bij wat een tijdreeks is, en wat je hier nu specifiek mee kan. In een aantal latere posts wil ik dieper ingaan op o.a. de opslagmechanismen en volumebepaling van tijdreeksen.

Allereerst: wat maakt een tijdreeks een tijdreeks? Flauw en logisch: een tijdreeks is een set aan datapunten (vaak metingen) die elk behoren bij een tijdstip. Meestal is het zo dat deze datapunten ook op een gelijke afstand in tijd van elkaar gemeten of verzameld zijn. De basis is dus een set aan punten in de vorm van [{tijdstip, meting}], waarbij achtereenvolgende tijdstippen telkens op een zelfde afstand van elkaar liggen.

Dagelijkse temperatuurmetingen van het KNMI vormen een tijdreeks bijvoorbeeld. Maar een temperatuur kan natuurlijk ook veel vaker gemeten worden, bijvoorbeeld ieder uur. Ook een dagelijkse telling van het aantal bezoekers op een website is een tijdreeks. Kortom: weinig spannends maar wel goed om te definiëren. Om een goede analyse te kunnen doen is het trouwens wel essentieel om een goed interval te kiezen. Je heb bijzonder weinig aan één meting per dag als je de productie van je zonnepanelen wilt volgen, maar 1000 metingen per seconde is wellicht weer wat erg veel.

Wat maakt een tijdreeks nuttig op gebied van data-analyse? Een tijdreeks geeft de mogelijkheid om – mits de reeks lang genoeg is – een aantal analyses uit te voeren zodat toekomstige metingen kunnen worden voorspeld. Uit een tijdreeks kunnen grofweg drie ‘componenten’ gedestilleerd worden met de juiste algoritmes:

  • Periodiciteit; zich herhalende patronen over vaste intervallen in de metingen, bijvoorbeeld een herhalend patroon binnen een week, jaar of dag van de gemeten waarde; denk aan de verkeersdrukte gemeten over een doordeweekse dag.
  • Trend; een bepaalde opgaande of neergaande richting van de waarden van de tijdreeks. Een voorbeeld hiervan is inflatie van een munt. Als er geen sprake van een opgaande of neergaande richting is van de waarden spreken we van een stationaire trend.
  • Overig; veelal ruis, vaak sterk afhankelijk van toeval.

Als we zowel een duidelijke trend kunnen vinden in de tijdreeks alsmede één of meerdere periodiciteiten kunnen we dit vervatten in een wiskundig model. Vaak is zo’n model een samenstel van een aantal sinusoïden en kunnen we deze achterhalen door een zogenaamde Fourierreeks. Er zijn talloze wiskundige technieken om een model te bepalen op basis van een tijdreeks, vaak vervat onder de term ‘regressie’.

Een voorbeeld van een verzamelde tijdreeks van metingen van productie van zonnepanelen, met een voorspelling op basis van de gevonden periodiciteit en trend.

Het is niet mijn doel om de daadwerkelijke analyse achter tijdreeksen te gaan behandelen in deze posts, maar ik wil in deze eerste post in elk geval aangeven wat we willen faciliteren vanuit een data lake. Ik zal in de komende posts veel dieper ingaan op de opslag en ontsluiting van tijdreeksen, en dan met name (extreem) grote hoeveelheden hiervan.

Leave a Reply

Your email address will not be published. Required fields are marked *

Copyright ICRIS BV