Wiskunde en bestuiving: de juiste bloem voor iedere bij

Sarah
Vanbesien

Zomer... Vlinders fladderen in de tuin, wespen gaan overal op zoek naar zoetigheid, bijen foerageren van bloem tot bloem...

Insecten zijn in de eerste plaats met zichzelf bezig: ze zoeken voedsel. Het grote voordeel echter voor de planten is dat hun stuifmeel intussen naar andere bloemen verspreid wordt. Dit proces tussen insecten en planten wordt bestuiving of pollinatie genoemd, en ligt aan de basis van talrijke voedselketens. Ook het voedingspatroon van de mens is, zowel rechtstreeks als onrechtstreeks, uitermate afhankelijk van bestuiving. Daarom is het belangrijk in kaart te brengen welke bestuiver van welke plantensoort houdt. Wetenschappers doen dit aan de hand van een netwerk. Net zoals Facebook een sociaal netwerk voorstelt tussen jou en je vrienden, houden biologen nauwgezet bij welke insectensoort welke bloem verkiest. Jarenlang hebben biologen veldonderzoek gedaan om dergelijke netwerken te verzamelen. Het grote probleem is echter dat deze datasets worden opgesteld op basis van positieve observaties (deze bij bezoekt deze bloem). Alle interacties die worden waargenomen worden geklasseerd als positief (1) in het netwerk, terwijl alle niet-waargenomen interacties beschouwd worden als negatief (0). Het knelpunt van deze strategie is dus dat men nooit met zekerheid kan stellen dat een niet-geobserveerde interactie ook effectief niet voorkomt in de natuur. Bepaalde bestuivingen kunnen gemist worden tijdens een veldonderzoek en staan hierdoor valselijk als negatief geklasseerd in de dataset.

Betrouwbare data zijn cruciaal om juiste beheersmaatregelen te treffen. Men kan nooit accurate berekeningen of voorspellingen voor de toekomst maken als de data waarvan wordt uitgegaan niet correct zijn. Door bijvoorbeeld de klimaatverandering en globalisatie komen er steeds meer nieuwe dier- en plantensoorten in de natuur. Aan de hand van wiskundige modellen kunnen ecologen voorspellen hoe deze zich zullen integreren en kunnen ze de meest optimale beheersmaatregelen kiezen.

 

Machine learning

Zelfs de meest ervaren bioloog heeft moeite om het complex netwerk van bestuiving te ontrafelen. In mijn thesis zijn 'slimme' algoritmes ontwikkeld om in zo'n bestuivingsnetwerk naar patronen te zoeken. Machine learning is een discipline in de computerwetenschappen die modellen zélf patronen in data laat herkennen. Het doel is dat het model zichzelf regels aanleert op basis van de data, in plaats van deze handmatig en expliciet te programmeren. Een voorbeeld kan dit verduidelijken. Stel dat men een model wil bouwen dat bij het importeren van een foto het label 'man' of 'vrouw' toekent. Hier een programma voor uitschrijven is quasi onmogelijk aangezien het niet evident is regels op te stellen die het ene label eenduidig onderscheiden van het andere. In de praktijk lost men dergelijke problemen op door een zelflerend model te maken, dat eerst 'getraind' wordt door duizenden foto's van mannen en vrouwen met hun correcte label te verwerken. Op die manier leert het model zichzelf aan wanneer het welk geslacht moet toekennen en kan het nadien gebruikt worden om nieuwe foto's te classificeren.

Ditzelfde concept kan gebruikt worden om interacties tussen insecten en planten te classificeren als positief en negatief. Ondanks er heel wat soorten bestuivers zijn, wordt in mijn scriptie enkel gefocust op bijen. De gebruikte dataset is degene van het FlorAbeilles project in Frankrijk die 306 bijensoorten bevat en 453 plantensoorten. Hierin wordt op zoek gegaan naar interacties die als negatief aangeduid staan in deze dataset, maar (mogelijks) wel voorkomen in de natuur en zodoende als positief dienen geklasseerd te worden. Hiervoor zijn twee verschillende modellen opgesteld.

image

 

Verschillende modellen

Het eerste model baseert zich op het feit dat interacties in ecologische netwerken niet willekeurig zijn. Ecologische netwerken (en dus ook bestuivingsnetwerken) streven altijd stabiliteit na en bezitten bepaalde structuren die steeds terugkomen. Zo kunnen generalisten (soorten die met heel wat andere soorten interageren) en specialisten (soorten die maar met één of een zeer beperkt aantal soorten interageren) van elkaar onderscheiden worden. In de natuur zullen specialisten altijd met generalisten interageren en omgekeerd, in plaats van specialisten onderling. Wanneer de abundantie van één soort door omstandigheden zeer laag zou worden, komen andere soorten niet in het gedrang voor voedsel of bestuiving. Dit kenmerk heet 'genest' zijn en voorkomt dat een soort direct uitsterft als zijn partner verdwijnt, minimaliseert de competitie en vergroot zo het aantal soorten (planten en insecten) dat kan samenleven.

Men kan dus stellen dat het veel aannemelijker is dat een negatief geclassificeerde interactie uit de dataset fout is als dit een interactie was met een zeer generalistisch species. Het model genereert dan ook een score voor iedere interactie uit de dataset, die aangeeft hoe aannemelijk het is dat de interactie in de natuur voorkomt.

Opnieuw een voorbeeld:

image

Als men in de tabel de interactie Plant2-Pollinator2 bekijkt, is deze negatieve interactie waarschijnlijk correct. Beide species interageren zeer specifiek; het model zal een lage score geven. De interactie Plant4-Pollinator3 daarentegen is veel waarschijnlijker wel in de natuur plaats te vinden. Het interactiegedrag van de species verhoogt de score sterk, waardoor deze interactie naar voor geschoven kan worden voor verder onderzoek. Het uitlichten van zulke interacties kan verder veldonderzoek veel efficiënter en dus tijdsbesparender maken.

Het tweede model heeft hetzelfde doel, maar maakt niet enkel gebruik van patronen in het netwerk, maar ook van de eigenschappen van de verschillende planten en insecten. Voor iedere plant werd een lijst samengesteld met info over hun onderlinge verwantschap. (d.m.v. DNA van specifieke genen), hun morfologie (planthoogte, kleur en symmetrie van de bloem, aantal stijlen en meeldraden, enz.) en hun levenscyclus. Ook voor iedere bij werd gelijkaardige informatie verzameld (DNA, grootte, levenscyclus, vliegperiode, enz.). Al deze informatie wordt omgezet tot bruikbare input voor het model, en zo kan het model starten met leren welke kenmerken combineren tot een succesvolle bestuiving en welke niet. Ook hier duidt een score aan hoe waarschijnlijk de interacties zijn.

 

Conclusie

Na een grondige validatie van beide modellen bleek dat we niet alleen ontbrekende interacties in het netwerk konden detecteren; er waren ook goede voorspellingen mogelijk voor planten en bijen waarover geen data beschikbaar waren! Via mijn thesis wil ik aantonen dat wiskundige modellen en grote datasets ecologen kunnen helpen bij datacollectie en bij het nemen van goede beslissingen.

 

Download scriptie (4.08 MB)
Winnaar Eosprijs
Universiteit of Hogeschool
Universiteit Gent
Thesis jaar
2018
Promotor(en)
Prof. Dr. Bernard De Baets, Prof. dr. ir. Guy Smagghe