Wie niet weg is, is gezien

Laurens
Le Jeune
  • Sven
    Baerten

“Al vijf ongevallen met everzwijnen in één week” stond een tijdje terug in Het Belang van Limburg. En niet alleen everzwijnen komen veel voor, maar ook wolven zijn terug van weggeweest. Voor biodiversiteitsonderzoek is het cruciaal om te weten hoeveel everzwijnen of wolven er leven in een bepaald gebied. Zo kunnen we bijvoorbeeld beter begrijpen wat de invloed van de mens op de natuur is. Het is echter niet evident om al die dieren te tellen. Daarom gebruiken onderzoekers tegenwoordig slimme camera’s. Die registreren wanneer er een dier in de buurt is en kunnen dat dan automatisch fotograferen. Helaas is dat nog maar het begin van de oplossing, want een bioloog moet daarna manueel al die foto’s afgaan om de dieren te tellen. Omdat er al snel duizenden foto’s verzameld worden met de camera’s, is dit absoluut niet praktisch of aangenaam.

image-20191006212209-2

In ons onderzoek proberen we deze tijdverslindende taak te vereenvoudigen, door met een programma automatisch te detecteren welke dieren op iedere foto staan. We maken daarbij gebruik van artificiële intelligentie, en meer bepaald van neurale convolutienetwerken. Hiermee proberen we dan om dieren op foto’s uit het Serengeti National Park in Tanzania te detecteren. Deze technologie wordt intelligent genoemd, omdat ze visuele eigenschappen zoals haartjes of hoorns kan verbinden met bepaalde diersoorten, zoals leeuwen of buffels. Er is daarvoor wel een grote hoeveelheid foto’s nodig, omdat het convolutienetwerk net zoals een jong kind eerst moet leren hoe dieren eruit zien. Omdat het in de wetenschap bovendien belangrijk is om je resultaten te vergelijken met andere onderzoeken, hebben we de foto’s uit Tanzania aangewend. Die waren namelijk al eens door andere onderzoekers gebruikt. Zo konden we verder bouwen op het werk dat die andere onderzoekers al geleverd hadden. Nadat de convolutienetwerken geleerd hebben om dieren te herkennen, behalen we een nauwkeurigheid die de menselijke benadert. De meeste fouten die ze maken, worden namelijk gemaakt op foto’s die gewone mensen ook moeilijk zouden vinden om te benoemen.

Rekenen

Moderne neurale convolutienetwerken zijn gigantisch groot. Concreet betekent dit dat er miljoenen optellingen en vermenigvuldigingen nodig zijn om van een foto naar een bepaalde detectie te gaan. Hiervoor is speciale apparatuur nodig, want met een gewone computer duurt het heel lang om al dat rekenwerk te doen. Vaak worden hiervoor videokaarten gebruikt, die ook gebruikt worden om te gamen of om aan grafisch ontwerp te doen. Zo’n videokaart is echter niet alleen duur, maar gebruikt ook nog eens heel veel energie. Op zoek naar goedkopere en milieuvriendelijkere alternatieven, hebben we een speciaal convolutienetwerk toegepast. Dit netwerk, MobileNetv2, is meer dan tien keer kleiner in vergelijking met de netwerken die normaal gebruikt worden. Het verbruikt dus niet alleen veel minder energie, maar is ook geschikt om op mobiele toestellen zoals een gsm gebruikt te worden. Natuurlijk moet het daarvoor aan nauwkeurigheid inboeten. Bij het toepassen van dit netwerkje op de foto’s uit Tanzania, blijkt echter dat het in nauwkeurigheid nauwelijks moet onderdoen voor de veel grotere alternatieven. Naar de toekomst toe opent dit de deur voor vele mogelijkheden. Denk bijvoorbeeld aan camera’s die zelfstandig dieren kunnen herkennen, of gsm’s die je allerlei weetjes vertellen over de dieren die op je foto’s staan.

Er zijn miljoenen optellingen en vermenigvuldigingen nodig om van een foto naar een detectie te gaan.

 

image-20191006212140-1

What’s in a picture

Als je als mens naar een foto kijkt, dan zie je meer dan louter een beeld. Je hebt bijvoorbeeld een indruk van hoe hard de zon schijnt, en misschien kan je zelfs inschatten hoe laat het op dat moment was. Dit zijn voorbeelden van metagegevens van een foto, gegevens die extra informatie over een foto voorzien. Een foto bevat dus niet enkel beeldende informatie. Iedere foto is bijvoorbeeld op een bepaald moment genomen, en met een bepaalde sluitertijd (de tijd die de camera nodig heeft om één foto te maken). Zo zal een heel snelle sluitertijd betekenen dat de zon hard scheen, terwijl een trage sluitertijd wijst op een donkere omgeving. Als mens kan je van zulke gegevens misschien een inschatting van maken, maar het is heel moeilijk om er zelf exacte waardes op te plakken.

Wij hebben geprobeerd die informatie te verkrijgen met een convolutienetwerk. Door te eraan sleutelen, kunnen deze netwerken namelijk ook voorspellen wat bijvoorbeeld de sluitertijd van een camera was. Als je genoeg foto’s waarvan je de sluitertijd kent geeft aan zo’n netwerk, kan het voor een foto leren berekenen wat de sluitertijd is. Hoewel het bijna onmogelijk is om een exacte voorspelling te maken, liggen de voorspelde waardes die we hiermee krijgen wel zeer dicht bij de eigenlijke waardes. Dat is overigens niet alleen het geval voor de sluitertijd, we zijn er ook in geslaagd om voor een foto te voorspellen hoe hard de zon scheen. Deze resultaten openen naar de toekomst toe veel mogelijkheden: Misschien wil je weten hoe warm het was op de plaats waar een foto genomen was, of hoe laat het op dat moment was.

Als we dus terug gaan kijken naar de everzwijnen of de wolven, bieden neurale convolutienetwerken interessante oplossingen. Met de juiste opstelling zouden slimme camera’s automatisch kunnen detecteren waar er wolven of everzwijnen (geweest) zijn. Bovendien zouden ze een goede inschatting kunnen maken van de omstandigheden waarin de foto genomen is. Niet alleen vermijden we zo ongevallen, maar bovendien kunnen we de natuur dan misschien beter leren begrijpen. En als je iets beter begrijpt, kan je er veel beter en voorzichtiger mee omgaan.

Download scriptie (27.87 MB)
Universiteit of Hogeschool
Universiteit Hasselt
Thesis jaar
2019
Promotor(en)
prof. dr. ir. Luc Claesen, prof. dr. Natalie Beenaerts