Als je aan kunstmatige intelligentie denkt, is het veld van plantkunde waarschijnlijk niet het allerhoogste in je hoofd. Wanneer u instellingen voor geavanceerd computationeel onderzoek in beeld brengt, staan eeuwenoude musea misschien niet bovenaan de lijst. En toch laat een zojuist gepubliceerd artikel in het Biodiversity Data Journal zien dat enkele van de meest opwindende en overdreven innovatie in machine learning plaatsvindt bij niemand minder dan het National Herbarium van het National Museum of Natural History in Washington, DC
De paper, die aantoont dat digitale neurale netwerken in staat zijn om onderscheid te maken tussen twee vergelijkbare families van planten met een nauwkeurigheid van meer dan 90 procent, impliceert allerlei heerlijke mogelijkheden voor wetenschappers en academici. De studie is gebaseerd op software die is gebaseerd op "deep learning" -algoritmen, waarmee computerprogramma's ervaring kunnen opbouwen op dezelfde manier als menselijke experts dat doen, telkens wanneer ze hun spel uitvoeren. Al snel kon deze technologie vergelijkende analyses van miljoenen verschillende exemplaren uit alle hoeken van de wereld mogelijk maken - een voorstel dat voorheen een onhoudbare hoeveelheid menselijke arbeid zou hebben geëist.
"Deze richting van onderzoek toont veel belofte, " zegt Stanford professor Mark Algee-Hewitt, een prominente stem in de digitale geesteswetenschappen beweging en assistent faculteitsdirecteur aan het Universitair Centrum voor Ruimtelijke en Tekstuele Analyse. "Deze methoden hebben de mogelijkheid om ons enorme hoeveelheden informatie te geven over wat collecties bevatten", zegt hij, en "daarmee maken ze deze gegevens toegankelijk."
Deze nieuwe bevindingen bouwen voort op het jarenlange werk dat de Smithsonian Institution heeft ondernomen om zijn collecties systematisch te digitaliseren voor academische en openbare toegang online, en vertegenwoordigen een opmerkelijke interdisciplinaire bijeenkomst van geesten: botanici, digitaliseringsexperts en datawetenschappers hebben allemaal een rol te spelen resultaten aan het licht.
Het verhaal begint in oktober 2015, toen de installatie van een camera-en-transportbandapparaat onder het Natural History Museum de inspanningen voor het digitaliseren van de botanische collectie van het Smithsonian enorm vereenvoudigde. In plaats van elke geperste bloem en grasstronk in hun repository handmatig te moeten scannen, konden werknemers nu hele rijen monsters in de wachtrij zetten, de riem laten werken en haar aan het staarteinde ophalen en opnieuw catalogiseren. Een bemanning van drie personen heeft sinds het debuut toezicht gehouden op de riem en ze ondergaan elk jaar ongeveer 750.000 exemplaren. Binnenkort zal de Smithsonian's herbariuminventaris, vijf miljoen exemplaren sterk, volledig online zijn.
Elk exemplaar is gelabeld met een grondige identificatiekaart, die informatie geeft over de herkomst en essentiële statistische gegevens. De inhoud van deze kaarten is getranscribeerd en samen met de digitale afbeeldingen geüpload, waardoor een uitgebreid overzicht van elk item in de collectie beschikbaar is voor diegenen die geneigd zijn te gaan zoeken.

"Het maakt onze collectie toegankelijk voor iedereen die een computer en een internetverbinding heeft", zegt museumbaasstoel Laurence Dorr, "wat geweldig is voor het beantwoorden van bepaalde vragen." Toch vond Dorr dat hij een gevoel van onaangeboord potentieel niet kon afschudden . Natuurlijk waren er nu enorme hoeveelheden specimen-gegevens beschikbaar voor de online community, maar het analyseren ervan in het algemeen bleef fantasierijk. Het opzoeken van bepaalde specimens en kleine categorieën specimens was eenvoudig genoeg, maar Dorr vroeg zich af of er een manier bestond om de gegevens te gebruiken om conclusies te trekken over duizenden specimens. "Wat kunt u doen met deze gegevens?" Herinnert hij zich af. Een man genaamd Adam Metallo gaf al snel een overtuigend antwoord.
Metallo, een officier bij het Digitalization Program Office van het Smithsonian, had een conferentie bijgewoond waarop de technologiegigant NVIDIA - lieveling van pc-gamers overal - de volgende generatie grafische verwerkingseenheden of GPU's presenteerde. Metallo was daar op zoek naar manieren om de 3D digitale renderingmogelijkheden van het Smithsonian te verbeteren, maar het was een grotendeels niet-gerelateerde klompje informatie die zijn aandacht trok en bij hem bleef. Naast het genereren van dynamische, hifi 3D-beelden, werd hem verteld, waren NVIDIA's GPU's zeer geschikt voor big data-analyse. Met name versterkte GPU's waren precies wat nodig was voor intensieve digitale patroonherkenning; menig machine learning-algoritme was geoptimaliseerd voor het NVIDIA-platform.
Metallo was meteen geïntrigeerd. Deze 'deep learning'-technologie, al toegepast in nichesectoren zoals zelfrijdende auto-ontwikkeling en medische radiologie, bood een groot potentieel voor de wereld van musea - wat, zoals Metallo aangeeft, ' de grootste en oudste dataset is waartoe we nu toegang hebben naar."
“Wat betekent het voor de grote datasets die we via digitalisering bij het Smithsonian maken?” Wilde Metallo weten. Zijn vraag weerspiegelde perfect die van Laurence Dorr, en zodra de twee met elkaar verbonden, begonnen vonken te vliegen. "De plantkundecollectie was een van de grootste collecties waar we het meest recent aan hadden gewerkt", herinnert Metallo zich. Een samenwerking suggereerde zichzelf.
Terwijl veel vormen van machine learning vereisen dat onderzoekers belangrijke wiskundige markeringen markeren in de te analyseren beelden - een nauwgezet proces dat neerkomt op het vasthouden van de computer - kunnen moderne diepgaande leeralgoritmen zichzelf leren welke markeringen ze moeten zoeken op het werk, waardoor tijd en het openen van de deur naar grootschalige vragen. Desalniettemin was het een lastige zaak om een Smithsoniaans specifiek deep learning-programma te schrijven en het te kalibreren voor discrete botanische onderzoeksvragen. Dorr en Metallo hadden de hulp van datawetenschappers nodig om hun visie werkelijkheid te maken.

Een van de specialisten die ze aan boord brachten, was Smithsonian onderzoekswetenschapper Paul Frandsen, die onmiddellijk het potentieel zag in het creëren van een NVIDIA GPU-aangedreven neuraal netwerk om de verzameling planten in de praktijk te brengen. Voor Frandsen symboliseerde dit project een belangrijke eerste stap op een prachtig en onontgonnen pad. Al snel zegt hij: “we gaan op zoek naar morfologische patronen op wereldschaal, en we zullen in staat zijn om deze echt grote vragen te beantwoorden die traditioneel duizenden of miljoenen uren in de literatuur hadden gekost en dingen classificeren. We kunnen algoritmen gebruiken om ons te helpen die patronen te vinden en meer te leren over de wereld. "
De zojuist gepubliceerde bevindingen zijn een opvallend concept. Gegenereerd door een team van negen onder leiding van onderzoeksbestuinder Eric Schuettpelz en datawetenschappers Paul Frandsen en Rebecca Dikow, beoogt de studie twee grootschalige vragen over machine learning en het herbarium te beantwoorden. De eerste is hoe effectief een getraind neuraal netwerk kan zijn bij het sorteren van met kwik bevlekte specimens van onbezoedelde exemplaren. De tweede, het hoogtepunt van het artikel, is hoe effectief zo'n netwerk kan zijn bij het onderscheiden van leden van twee oppervlakkig vergelijkbare plantenfamilies - namelijk de varende bondgenotenfamilies Lycopodiaceae en Selaginellaceae .
De eerste proef vereiste dat het team van tevoren duizenden monsters zelf doornam en definitief noteerde welke zichtbaar zichtbaar waren besmet met kwik (een overblijfsel van verouderde botanische conserveringstechnieken). Ze wilden er zeker van zijn dat ze met 100 procent zekerheid wisten wat gekleurd was en wat niet - anders zou het beoordelen van de nauwkeurigheid van het programma niet mogelijk zijn. Het team koos bijna 8.000 beelden van schone monsters en 8.000 meer gekleurde monsters waarmee de computer kon worden getraind en getest. Tegen de tijd dat ze klaar waren met het aanpassen van de neurale netwerkparameters en alle menselijke assistentie terugtrok, categoriseerde het algoritme specimens die ze nog nooit eerder had gezien met een nauwkeurigheid van 90 procent. Als de meest dubbelzinnige exemplaren - bijvoorbeeld die waarbij de kleuring minimaal en / of zeer zwak was - werden weggegooid, steeg dat aantal tot 94 procent.
Dit resultaat impliceert dat deep learning-software binnenkort botanici en andere wetenschappers kan helpen voorkomen dat ze tijd verspillen aan vervelende sorteringstaken. "Het probleem is niet dat een mens niet kan bepalen of een specimen al dan niet is bevlekt met kwik, " verduidelijkt Metallo, maar eerder dat "het moeilijk is om handmatig uit te zoeken en uit te zoeken waar de verontreiniging bestaat", en niet verstandig om doe dit vanuit het oogpunt van tijdbeheer. Gelukkig kan machine learning van een grote tijdswinst maximaal een paar dagen van snelle geautomatiseerde analyse maken.

Het soortendiscriminatie-gedeelte van de studie is nog spannender. Onderzoekers hebben het neurale netwerk getraind en getest met ongeveer 9.300 clubmoss en 9.100 spikemoss-monsters. Net als bij het kleuringsexperiment werd ongeveer 70 procent van deze monsters gebruikt voor de initiële kalibratie, 20 procent werd gebruikt voor verfijning en de laatste 10 procent werd gebruikt om de nauwkeurigheid formeel te beoordelen. Nadat de code was geoptimaliseerd, was het succespercentage van de computer bij het onderscheid tussen de twee families 96 procent - en een bijna perfecte 99 procent als de moeilijkste voorbeelden werden weggelaten.
Op een dag, zo speculeert Frandsen, kunnen programma's als deze voorlopige specimen-categorisatie in musea over de hele wereld aan. "Ik denk geenszins dat deze algoritmen iets zullen doen om curatoren te vervangen, " merkt hij snel op, "maar in plaats daarvan denk ik dat ze curatoren en mensen die bij systematiek betrokken zijn kunnen helpen om productiever te zijn, zodat ze hun werk veel kunnen doen sneller."
Het succes van het neurale netwerk in deze studie maakt ook de weg vrij voor het snel testen van wetenschappelijke hypothesen in enorme collecties. Dorr ziet in de bevindingen van het team de mogelijkheid om uitgebreide morfologische vergelijkingen van gedigitaliseerde monsters uit te voeren - vergelijkingen die tot belangrijke wetenschappelijke doorbraken kunnen leiden.
Dit wil niet zeggen dat diep leren een zilveren kogel zal zijn in onderzoek over de hele linie. Stan Alford Mark Algee-Hewitt wijst erop dat "het bijna onmogelijk is om te reconstrueren waarom en hoe een neuraal netwerk zijn beslissingen neemt" als het eenmaal is geconditioneerd; Bepalingen die aan computerprogramma's worden overgelaten, moeten altijd ongecompliceerd en verifieerbaar van aard zijn om te kunnen worden vertrouwd.
"Het is duidelijk dat, " zegt Dorr, een autonoom computerprogramma "niet gaat testen op genetische relaties, dat soort dingen" - tenminste in de nabije toekomst. “Maar we kunnen beginnen met het leren van de verdeling van kenmerken per geografische regio of per taxonomische eenheid. En dat gaat heel krachtig zijn. "
Bovenal is dit onderzoek een startpunt. Het is nu duidelijk dat deep learning-technologie veelbelovend is voor wetenschappers en andere academici over de hele wereld, evenals voor het nieuwsgierige publiek waarvoor ze kennis produceren. Wat overblijft is rigoureus vervolgwerk.
"Dit is een kleine stap", zegt Frandsen, "maar het is een stap die ons echt vertelt dat deze technieken kunnen werken op gedigitaliseerde museumspecimens. We zijn enthousiast over het opzetten van nog een aantal projecten in de komende maanden, om te proberen de limieten een beetje meer te testen. "