De opkomst van DNA-testen via diensten als 23andme toont aan dat er een grote markt bestaat voor familiegeschiedenis.
Nu hebben wetenschappers op die gegevens voortgebouwd door te publiceren wat volgens hen de grootste genealogiedatabase ter wereld is, met een stamboom die 13 miljoen mensen verbindt en meer dan vijf eeuwen teruggaat.
Zoals Jocelyn Kaiser voor Science magazine rapporteert, bedacht Yaniv Erlich, een computational geneticus aan de Columbia University, het project zeven jaar geleden nadat hij een e-mail ontving van een verre verwante neef via Geni.com, een van de vele sites waar naar familiebanden wordt gezocht.
Met de steun van Gemi.com's chief technology officer heeft Erlich de openbare profielen van de site gedownload - tientallen miljoenen. Hoewel het geen DNA-gegevens bood, bevatte de informatie de naam, het geslacht, de geboortedatum en -plaats, de sterfdatum en directe familieleden.
De natuur schreef over het project van Erlich in zijn vroege stadia in 2013, en vorig jaar rapporteerde Sarah Zhang van de Atlantische Oceaan dat de onderzoekers een preprint van de massieve boom hadden uitgegeven. Nu, schrijft Kaiser, heeft het team van Erlich een studie over hun werk gepubliceerd in het tijdschrift Science. Met behulp van de gegevens kwamen ze uit op 5, 3 miljoen bomen, waarvan de grootste ongeveer 13 miljoen familieleden met elkaar verbindt, meestal van Europese afkomst.
Sinds de start van het project is Erlich de chief science officer van MyHeritage, een genealogie- en DNA-testbedrijf dat eigenaar is van Geni.com. Hij deed afgelopen vrijdag een Reddit Ask Me Anything over zijn bevindingen, corrigeerde misvattingen en legde de methodologie achter het project uit. Hij merkte ook op dat het meest interessante deel van de ervaring voor hem was om uit te zoeken hoe alle beschikbare gegevens in iets persoonlijks konden worden vertaald.
In een interview met Nicole Wetsman van National Geographic zegt Erlich dat het uitdagen van het werken met die gegevens ook het meest uitdagende deel van het project was. “Genomische datasets hebben specifieke tools, datastructuren, methoden, maar daar hadden we niets voor. We waren het wiel aan het uitvinden terwijl we gingen, "zegt hij.
Uiteindelijk gebruikten de onderzoekers wiskundige grafentheorie om de informatie te organiseren en te verifiëren, meldt Laura Geggel voor Live Science . Ze vergeleken de profielen ook met ongeveer 80.000 openbaar beschikbare overlijdensattesten van Vermont over een periode van 25 jaar om ervoor te zorgen dat het niet alleen rijke profielen waren die werden geüpload naar Geni.com.
Het team besloot vervolgens naar welke informatie ze wilden zoeken om de database te testen, schrijft Wetsman.
Ze begonnen patronen te bekijken en vonden schommelingen in de levensduur, iets waarop ze hadden geanticipeerd. Ze zagen bijvoorbeeld een daling van jonge mannen tijdens de burgeroorlog en de wereldoorlogen I en II, en een toename van het overleven van hun jeugd in de jaren 1900. Ze waren ook in staat migratie te volgen, zoals de komst van de Mayflower in 1620 in wat nu Massachusetts is, gevolgd door een toename van geboorten in dat gebied.
Onderzoekers ontdekten ook dat een lang leven meer te maken heeft met omgeving en gedrag dan met genetica; in feite zijn de onthulde genen slechts 16 procent verantwoordelijk voor de levensduur. Paola Sebastiani, hoogleraar biostatistiek aan de Boston University School of Public Health, waarschuwt echter conclusies te trekken rond deze gegevens in een interview met Wetsman. "Er is veel verwarring over de definities van een lang leven", zegt ze.
Geneticus Peter Visscher van de Universiteit van Queensland in Brisbane, Australië, vertelt Kaiser dat de gegevens van het team van Erlich het potentieel hebben om inzicht te geven in de rol van genetica bij ziekten als de gegevens gekoppeld zijn aan gezondheidsinformatie.
Het onderzoeksteam is al begonnen met het combineren van de boom met informatie uit DNA.Land, die DNA-gegevens massaal verzamelt, wat zou kunnen betekenen dat er binnenkort een nog grotere boom komt. Onderzoekers voorspellen dat als de database 65 generaties terug zou kunnen gaan, ze de boom kunnen voltooien.