Stop de tiling-terreur!
Blog

Stop de tiling-terreur!

By Yashita Arora on

Slim omgaan met Big Geo Data

Sinds de komst van Google Maps en even later Google Earth, is iedereen gewend geraakt aan het altijd en overal beschikbaar hebben van kaartmateriaal, snel en op hoge resolutie. Ook de professionele geo-wereld heeft deze bron van informatie omarmd. Het gebruik van webservices voor geografische data heeft sindsdien dan ook een enorme vlucht gemaakt.

Het is een knap staaltje werk wat Google voor elkaar heeft gekregen om in zo’n korte tijd geo zo prominent op de kaart te zetten. Ze hebben dat feitelijk veel sneller voor elkaar gekregen dan wij, traditionele geo-bedrijven. De belangrijkste reden hiervoor is volgens mij gelegen in het feit dat Google snelle, wereldwijde dekking biedt via een zeer gebruiksvriendelijke interface.

Het stelt Google in staat om via het begrip ‘locatie’ advertentie-kanalen aan elkaar te verbinden en richting het grote publiek te sturen. De kaart is als het ware een middel om bij de reclame te komen. En dat werkt. Even snel kijken waar de dichtstbijzijnde snackbar of pin-automaat is, en direct ook instructies daarbij hoe ik daar moet komen. En die informatie is supersnel beschikbaar.

De ‘Google’-ervaring voor professionals

Zoals eerder gezegd, ook de professionele geo-wereld is gewend geraakt aan Google’s kaarten en heeft dit (bewust of onbewust) min of meer verheven tot de benchmark voor de serveersnelheid van kaartmateriaal. En daar wringt de schoen vaak een beetje.

De professionele geo-wereld stelt nl. naast snelheid nog een aantal andere eisen aan het kaartmateriaal wat men gebruikt. Het gaat om actualiteit, nauwkeurigheid, volledige eigen controle over de gegevens die beschikbaar worden gesteld, etc. Wat veel mensen niet weten, of waar ze in ieder geval niet bij stil staan als ze de Google services tot benchmark verheffen, is dat de snelheid die men ervaart door Google wordt verkregen middels een ‘brute force’ aanpak. Men stampt simpelweg complete loodsen vol met servers, zodat ieder van die servers een beperkte belasting heeft en daardoor snel de reeds aangemaakte beeldjes (tiles) kan versturen. Dat is wel even wat anders dan de gemiddelde ICT-infrastructuur bij een gemeente of provincie. Daar moet men het vaak doen met 1 of een paar servers, met een beperkte capaciteit. Dan wordt een evenaring van de performance van Google op z’n minst een flinke uitdaging.

Tiling als antwoord op snelheidsverwachting

De strategie van de enorme loods met servers is voor deze organisaties geen optie, het andere deel (tiling) wordt wel gekopieerd. En dat levert inderdaad vaak een enorme snelheidsverbetering op ten opzichte van het op afroep aanmaken van een kaartbeeld en dat versturen. Mooi, zou je zeggen. En dat is het ook, mits je hoeveelheid te serveren data redelijk beperkt is, niet of niet frequent verandert en je onbeperkte opslagcapaciteit tot je beschikking hebt. Met name dat laatste is iets wat veel mensen zich niet realiseren als ze full-force gaan voor de strategie van tiling.

Gemiddeld genomen kun je zeggen dat bij tiling de omvang van je originele data groeit met een factor 2 tot 2,5. Dus als je begint met een bestand van 1Tb, dan heb je voor deze set met tiles zo’n 2,5Tb nodig. Dat is nogal wat. Het is ook niet vreemd; in feite is tiling niets anders dan het kopiëren van de data in kleinere, en nog kleinere, en nog kleinere brokjes. De kosten van opslag zijn de laatste jaren wel iets lager geworden, maar het is zeker niet gratis. Vooral wanneer je gebruik maakt van hosted storage (het uitbesteden van opslag aan een derde) kunnen de kosten per Terabyte oplopen tot enkele duizenden euro’s per jaar.

Ontwikkelingen in de hoeveelheid geo-data die wordt ingewonnen

De wereld van sensoren is continue in ontwikkeling. Vonden we eind jaren 90 een luchtfoto met een resolutie van 50cm nog geweldig, tegenwoordig is 10cm de standaard en veel gemeenten zitten zelfs al op 7,5 of 5cm. Prachtig natuurlijk, dat detailniveau, en zeer bruikbaar voor processen als kartering, mutatiesignalering, etc. Ook steeds meer organisaties ontdekken de aanvullende mogelijkheden van extra banden, zoals de infrarood-band (die bijna altijd standaard wordt opgenomen met de moderne camera’s). De frequentie is in de loop der jaren ook omhoog gegaan, van eens in de 5 jaar , naar eens in de 2 jaar, naar tegenwoordig ieder jaar en soms zelfs 2x per jaar. Voor een bijhoudingsproces van BAG en BGT zeer waardevol.

Nu terug naar de opslag. Alle factoren hierboven hebben 1 gevolg: de hoeveelheid geodata die wij jaarlijks beschikbaar krijgen groeit exponentieel. Dat is op zich al een flinke uitdaging voor de IT-beheerders binnen een organisatie. Zet op dat exponent nog eens een tiling-factor van 2,5 en het is simpelweg onmogelijk om te beheren. En vooral ook: niet te betalen.

Big Data management : hoe dan wel?

Dit is waar een formaat als ECW in combinatie met APOLLO Essentials zijn kracht bewijst. Het levert dezelfde snelheid, volgens hetzelfde open WMTS-protocol aan dezelfde eindgebruikersapplicaties. Maar in plaats van een groei van 2,5x van de originele data, zorgt ECW gemiddeld voor een 94% reductie van de originele data, zonder visueel kwaliteitsverlies. Die 1 Tb wordt daarmee dus teruggebracht naar circa 60 Gigabyte, met dezelfde eindgebruikerservaring. Dat is dus ten opzichte van de tiling-oplossing een verschil van 4266%! Daar kunnen we nog wel een aantal datasets mee beheren de komende jaren.

Een bijkomend voordeel is de tijd die het kost om dit te bereiken. Als voorbeeld nemen we het rasterbestand van heel Duitsland. Dit bestand, met een resolutie van 38TB origineel (40cm resolutie), werd in een tijdsbestek van 152 dagen voorzien van een tiling tot level 19, waarmee het totale bestand was gegroeid tot zo’n 71 Terabyte. De ECW vanuit dit zelfde bestand kwam uit op 0,85Tb en werd aangemaakt in slechts 7 dagen. Dus ook hier is een enorme besparing te realiseren.

Gebruik een server waarvoor deze bedoeld is

Het serveren van een raster-dataset is voor een allround GIS-server een significante belasting. Hoe groter de datasets worden, hoe harder zo’n server moet werken en uiteindelijk leidt de overall performance eronder, ook die van de andere services die niets met die rasterdata te maken hebben.
ERDAS APOLLO Essentials is ontwikkeld als een serveroplossing met maar 1 doel: zo snel en efficiënt mogelijk rasterdata serveren. Door tot op het niveau van machine-taal de processen te optimaliseren, is APOLLO Essentials in staat om vanuit een enkele server met gemiddelde capaciteit moeiteloos honderden gebruikers te bedienen. Bij de doorontwikkeling van APOLLO Essentials staat ook snelheid absoluut bovenaan. Niet iedere nieuwe release zal daardoor uitgebreide nieuwe mogelijkheden laten zien, wel wordt continue gewerkt aan het nog sneller serveren van nog grotere hoeveelheden data. En dat is uiteindelijk waar de besparingen voor de eindgebruikers gehaald worden.

De optimale architectuur die hierbij past is er een van de ‘best of breed’ benadering. Laat APOLLO Essentials als dedicated raster-server de enorme hoeveelheden rasterdata beheren en serveren, en zet uw traditionele GIS server in voor de vector-kaartlagen. Dat klinkt wellicht zwaar, maar de kosten van uitbreiding van een allround GIS Server om dezelfde performance te halen liggen bijna altijd hoger.

Op naar slim beheer en ontsluiting van ‘Big Geo Data’

De tiling-strategie die door veel geo-bedrijven wordt geadviseerd, kan worden gezien als de ‘brute force’ aanpak die Google hanteert met zijn server-loodsen. De ontwikkelingen hierboven en de daarmee gepaard gaande kostenniveau’s mogen duidelijk maken dat dat geen haalbare strategie voor de lange termijn is. De combinatie van compressie en slimme serveertechnieken van APOLLO zorgt ervoor dat dezelfde eindgebruikerservaring wordt verkregen, tegen een fractie van de kosten. Daarmee kunnen we de toekomst van geodata met een gerust hart tegemoet treden, zonder bang te zijn dat de kosten en het beheer ons boven het hoofd groeien. Dat lijkt me een geruststellende gedachte!