De kwaliteit van open geo data schiet (soms) tekort

dinsdag 25 september 2018
timer 4 min
Steeds vaker komen realtime open datasets beschikbaar. Een goede ontwikkeling, constateert Ruben Bino van verkeersonderzoekbureau Trajan, maar de kwaliteit laat nog wel eens te wensen over.

Veel openbare datasets houden zich bezig met transport. Alleen op de website data.overheid.nl gaan momenteel al 471 datasets over ruimte en infrastructuur en 766 over verkeer. Een deel hiervan is realtime data: gegevens die constant bijgewerkt worden, in plaats van eens in de zoveel tijd.


Een goede ontwikkeling, aangezien actuele gegevens steeds meer gebruikt worden door allerlei internettoepassingen zoals routeplanners, reisinformatie-apps of Mobility as a Service (MaaS-)toepassingen. Juist omdat het belang van realtime open datasets steeds groter wordt, is het essentieel dat de kwaliteit altijd zeer hoog is. Helaas zijn deze datasets vaak niet volledig, actueel of accuraat. Ik zal hieronder twee voorbeelden laten zien: parkeergarages in Amsterdam en OV-fietsen.

Parkeergarages Amsterdam

De gemeente Amsterdam laat als stad het goede voorbeeld zien door het aantal vrije plekken in de parkeergarages via internet weer te geven. Momenteel staan hier 39 parkeerterreinen bij. Trajan heeft deze live data enkele maanden opgeslagen in een eigen database. Hieronder is een willekeurig gekozen week te zien van deze data.

Op het eerste gezicht een zeer logische golfbeweging: overdag zijn er minder plaatsen vrij, ’s avonds loopt dit weer op tot een piek midden in de nacht. Ook zie je heel mooi het aantal vrije plekken dalen in de avonduren rond de wedstrijd Ajax – Standard Luik.

 

Toch komt er iets geks uit de data naar voren: voor een stad met notoir weinig parkeerplaatsen zijn er wel erg veel vrije plekken beschikbaar. Het laagste aantal is op woensdag om 14:05 uur, maar zelfs dan zijn er nog meer dan 6.000 plekken vrij. In onderstaande grafiek wordt ingezoomd op enkele mogelijke problemen.

  • De donkerblauwe lijn (Olympisch Stadion) laat een normale verdeling zien die mooi golft door de dagen heen. 
  • De gele lijn (terrein Amsterdam ArenA) laat zien dat er altijd precies 2.000 vrije plekken aanwezig zijn, behalve tijdens de thuiswedstrijd van Ajax en andere evenementen. Maar dit terrein is altijd afgesloten buiten deze momenten, dus dan is er helemaal geen capaciteit, terwijl de capaciteit wel altijd opgegeven wordt in de open dataset.
  • De overige vier lijnen laten geen enkele beweging zien: altijd is het aantal vrije plekken gelijk. Er zit dus geen live data in deze specifieke garages.

Kortom: Hoewel de meeste gegevens van de garages lijken te kloppen zitten er nog enkele fouten in wat betreft accuraatheid (onterechte beschikbaarheid op ArenA-terrein) en actualiteit (geen bewegingen in Bijenkorf, Villa ArenA P01, P04 en P05).

OV-fietsdata

De OV-fietsen van de NS zijn een grote hit. Zowel het aantal locaties als het aantal fietsen stijgt hard, en toch zijn er nog steeds regelmatig te weinig fietsen beschikbaar op stations. Gelukkig heeft de NS de beschikbaarheid van de OV-fietsen tot open data gemaakt, waarmee live gekeken kan worden hoeveel fietsen aanwezig zijn en op welke locatie (momenteel zijn dat 281 locaties). Ook hier is een willekeurige week gekozen uit deze data, waarbij drie locaties opvallen.

  • De donkerblauwe lijn (Station Amsterdam Centraal, fietsenstalling west) laat geen enkele variatie zien tussen 7 en 10 augustus.
  • De oranje lijn (Station Driebergen-Zeist) laat zien dat er altijd minstens 15 fietsen beschikbaar zijn, terwijl ik uit eigen ervaring weet dat dit niet klopt.
  • De grijze lijn (Station Tilburg) laat zien dat er altijd minstens 140 fietsen beschikbaar zijn op station Tilburg. Als dat al zou kloppen, dan is dat erg zonde: zet die fietsen in op een station waar ze nodig zijn.

Kortom

Hoewel dit vanzelfsprekend geen statistisch onderzoek is, wordt al in de eerste oogopslag duidelijk dat er nog haken en ogen zitten aan beide open datasets die bekeken zijn. Om tot betrouwbare volautomatische systemen te komen moeten gebruikers van open datasets volledig kunnen vertrouwen op de inhoud van de data. Hier zijn dus nog slagen in te winnen.

 

Dit hoeft niet volledig te liggen bij de beheerder van de data: vraag inhoudelijke experts om eens naar de data te kijken en feedback te geven. Alle personen en bedrijven die betrokken zijn met transport zien het belang van foutloze geografische data, en zullen snel bereid zijn een handje te helpen.