BIG DATA IS GROTER GEWORDEN NAARMATE IBM'S WATSON DE ENCYCLOPEDIE VAN HET LEVEN ONTMOET BIJ DE SMITHSONIAN | SMITHSONIAN - ARTIKELEN, BIJ DE SMITHSONIAN, NIEUW ONDERZOEK BIJ SMITHSONIAN, INNOVATIE, TECHNOLOGIE, WETENSCHAP

Na 2.000 jaar staat de ultieme encyclopedie van het leven aan de vooravond van een nieuw datagestuurd tijdperk. Een subsidie van de National Science Foundation is toegekend aan The Encyclopedia of Life (EOL), IBM en Georgia Institute of Technology. Met de subsidie kunnen enorme hoeveelheden gegevens worden verwerkt en geïndexeerd op manieren die baanbrekend wetenschappelijk onderzoek mogelijk maken.

gerelateerde inhoud

Voorgesteld nieuw marien reservaatsysteem biedt rooskleurig vooruitzicht voor zowel de kreeft als de kreeftvisser

In het jaar 77 na Chr. Begon Plinius de Oude de eerste encyclopedie ter wereld te schrijven, Natural History. Het omvatte alles van astronomie tot plantkunde tot zoölogie tot antropologie en meer. Plinius probeerde alles wat hij persoonlijk over de natuurlijke wereld kon verzamelen in één enkel geschreven werk te stoppen. De afgelopen 2000 jaar hebben een lange reeks wetenschappers geïnspireerd door Plinius dezelfde visie gevolgd.

Plinius bevatte 20.000 onderwerpen in 36 delen, maar liep tegen de beperkingen aan van wat een persoon kan ontdekken, opnemen en verwerken in een menselijke levensduur. Hij stierf tijdens de uitbarsting van de Vesuvius voordat hij een laatste bewerking van zijn magnum opus kon voltooien. Zelfs in zijn eigen tijdperk was het niet mogelijk voor één persoon om alle boeken te lezen, alle dingen te leren en alles aan de wereld uit te leggen.

Zoals latere wetenschappers, redacteuren en bibliothecarissen ontdekten in een wereld die elk jaar meer geschreven kennis toevoegt, zelfs als je alle boeken en onderzoek van de wereld in één gebouw zou kunnen opslaan, is het een uitdaging om alle relevante informatie beschikbaar te stellen voor onderzoekers tijdens de beperkingen van hun korte mensenlevens.

EOL kan dat misschien veranderen door de modernste rekenkracht toe te passen op verschillende verzamelingen biologische gegevens. Het project is een gratis en open digitale verzameling van feiten, artikelen en multimedia over biodiversiteit, een van de grootste ter wereld. Het hoofdkantoor is gevestigd bij het Smithsonian Institution en met zijn 357 partners en contentproviders, waaronder Harvard University en de New Library of Alexandria in Egypte, is EOL gegroeid van 30.000 pagina's bij de lancering in 2008 tot meer dan 2 miljoen, met 1, 3 miljoen pagina's tekst, kaarten, video, audio en foto's en ondersteunt 20 talen.

"Ik kwam in Smithsonian in 2010 vanuit de software-industrie", zegt EOL-directeur Bob Corrigan. “Een van de ontdekkingen die ik hier heb gedaan, is dat hoewel IT overal is, het de museumwereld niet is binnengedrongen zoals het de commerciële wereld is binnengedrongen. Vooral in de biologie zijn de belangrijkste gegevens begraven in studieboeken en spreadsheets. "

Hoe kunnen biologische gegevens in verschillende vormen worden gecombineerd en gedolven voor nieuwe inzichten over het leven op aarde? Wat als gegevens over bijvoorbeeld de biodiversiteit van vlinders in Afrika gedurende tien jaar werden gecombineerd met gegevens over landbouwmethoden en regenval? Kan er iets nieuws worden geleerd? Hiervoor is iets groters nodig dan een menselijk brein. Zoiets als IBM's Watson-supercomputer.

"IBM levert inspanningen en toegang tot een versie [van Watson] die niet openbaar beschikbaar is", zegt Jennifer Hammock, programmadirecteur bij EOL. “Ze zullen er ook mensen aan laten werken. IBM doet dit als een bijdrage in natura. "

Watson is een supercomputer die niet alleen cijfers in grote volumes kraakt. Het maakt gebruik van kunstmatige intelligentie zodat gebruikers vragen kunnen stellen in duidelijke taal.

"Ik zou zeggen vanuit het oogpunt van de gebruiker, dit betekent dat de database iets is waar je naartoe kunt lopen en een vraag kunt stellen alsof je een mens zou willen, " zegt Hangmat. "Zoals, kun je me vertellen of deze paarse vlinder in Afrika voorkomt?"

"Het beantwoorden van een eenvoudige vraag in elke taal veronderstelt het bestaan van veel kennis achter de schermen, " zegt Corrigan. “Zelfs [het woord] paars, het veronderstelt dat we weten wat paars is. Of een vlinder, [de computer] moet het verschil begrijpen tussen een vlinder en een mot. Bovendien hebben de gegevenssets zelf verschillende manieren om over deze verschillende termen na te denken. Al deze gegevens zijn moeilijk te ontginnen zonder een steen van Rosetta. En dat is onderdeel van de magie van wat de EOL doet. "

Een wetenschappelijke vraag die het partnerschap tussen EOL, IBM en Georgia Tech hoopt op te lossen, is de paradox van het plankton.

Volgens Hammock proberen wetenschappers die werken met computersimulaties “te modelleren wat er in de oceaan gebeurt door te zeggen dat de zon schijnt en de algen groeien. . . het heeft een soort ruwe benadering, maar ze kunnen [het computermodel van het ecosysteem] niet stabiel krijgen. Ze gaan een tijdje en dan crashen ze. Omdat ze te simpel zijn. Ze hopen dat als ze wat meer diversiteit in hun gemodelleerde biosfeer kunnen tonen, ze stabieler worden. . . .de paradox: hoe bestaat de oceaanbiosfeer? Waarom crasht het niet? '

"Mensen zitten op gegevens", zegt Corrigan. “Er zijn ongelooflijke reservoirs van biodiversiteitsmetingen over de hele planeet. Ik krijg veel telefoontjes van mensen die op deze gegevens zitten en hulp willen hebben deze in een bredere context te plaatsen. Het is belangrijk omdat we in een race zijn om deze planeet te bestuderen en te leren hoe onze ontwikkeling onze zeer eindige hulpbronnen benadrukt. . . Het Smithsonian kan een rol spelen bij de toename van kennis uit al deze bronnen en een echte kracht zijn om het te verspreiden. "

Een kwart van de $ 1 miljoen subsidie wordt toegekend aan Smithsonian voor zijn aandeel in het werk, maar EOL omvat veel andere spelers. Sommige ontwikkelaars zijn in Egypte; een onderwijsteam is gevestigd vanuit Harvard; en de Spaanse taaleenheid bevindt zich in Mexico-stad.

Alle gegevens van EOL zullen zich in het publieke domein blijven of onder Creative Commons worden gelicentieerd. Het onderzoek en de gegevens zijn bedoeld om openbaar toegankelijk te zijn en niet verborgen achter een betaalmuur.

"Het is een heel oude droom", zegt Hangmat. “Eén mens kan waarschijnlijk niet alles leren. Het is moeilijk om alles op één plek te plaatsen waar het bewust tegen zichzelf kan worden gecontroleerd. Maar nu hebben we computers. '

Plinius zou zeer tevreden of jaloers zijn.

Big Data is net groter geworden terwijl IBM's Watson voldoet aan de Encyclopedia of Life

gerelateerde inhoud

Frosthead

Avonturier voltooit eerste solo, door mensen aangedreven trektocht over Antarctica

We kunnen onze cognitieve piek voor 24 bereiken

Met deze digitale prothese kunnen geamputeerden computers besturen

Coco Schumann, de Holocaust-overlevende die jazz speelde in Auschwitz, sterft op 93-jarige leeftijd

Dinosaur Cinema-explosie

Onaangeroerde, eeuwenoude fruitcake gevonden in Antarctica

De eerste beelden van de nieuwe wereld schetsen

Eenmaal in een blauwe maan en andere idioom die geen wetenschappelijke betekenis hebben

Terwijl bosbranden door Californië Wine Country razen, verandert een historische structuur in Ash

Parijse vrouwen mogen voor het eerst in 200 jaar legaal een broek dragen

Slechtgehumeurde huurders verdedigen koralen tegen plunderaars

Farmers Market Finds: Purple Long Beans

Galena, Illinois

Vijftig jaar na de dood van Sylvia Plath beginnen critici haar leven te begrijpen

Acht nieuwe dingen die de wetenschap zegt over vader zijn

De mogelijkheid om 'F' en 'V' uit te spreken, kan samen met het dieet zijn geëvolueerd