https://frosthead.com

Hoe Margaret Dayhoff moderne informatica naar de biologie bracht

In 1984 lanceerde de National Biomedical Research Foundation een gratis online database met meer dan 283.000 eiwitsequenties. Tegenwoordig kunnen wetenschappers over de hele wereld met een Protein Information Resource een onbekend eiwit nemen, vergelijken met de duizenden bekende eiwitten in de database en bepalen hoe het op elkaar en anders is. Uit die gegevens kunnen ze snel en nauwkeurig de evolutionaire geschiedenis van een eiwit en zijn relatie tot verschillende levensvormen afleiden.

De bescheiden oorsprong van deze enorme online database begint lang voordat het internet begint. Het begon allemaal met de Atlas of Protein Sequence and Structure, een gedrukt boek uit 1965 met de 65 toen bekende eiwitsequenties, samengesteld door een vrouw genaamd Margaret Dayhoff. Om haar Atlas te creëren, paste Dayhoff geavanceerde computertechnologieën toe om oplossingen te vinden voor biologische vragen, en zo een nieuw veld in te luiden dat we nu bio-informatica noemen. Oorspronkelijk een chemicus, gebruikte Dayhoff nieuwe en evoluerende technologieën van het computer-tijdperk na de Tweede Wereldoorlog om pioniersinstrumenten te gebruiken die chemici, biologen en astronomen konden gebruiken in de interdisciplinaire studie van de oorsprong van het leven op aarde.

Dayhoff (toen Margaret Oakley) werd op 11 maart 1925 geboren in Philadelphia aan Ruth Clark, een wiskundeleraar op de middelbare school, en Kenneth Oakley, een eigenaar van een klein bedrijf. Op tienjarige leeftijd verhuisde haar familie naar New York City. Daar ging ze naar openbare scholen en werd uiteindelijk de valedictorian van Bayside High in 1942. Ze ging naar Washington Square College van de New York University voor een studiebeurs en studeerde magna cum laude af in wiskunde, slechts drie jaar later in 1945.

In datzelfde jaar ging Dayhoff naar de Columbia University om te promoveren in de kwantumchemie onder het mentorschap van de prominente chemicus en operationeel onderzoeker George Kimball uit de Tweede Wereldoorlog. Haar acceptatie was voorlopig een zeldzaamheid. Na de Tweede Wereldoorlog kwamen meer mannen de wetenschappen binnen en werd de chemie zelfs nog meer door mannen gedomineerd dan in het vorige decennium, met slechts vijf procent van de promovendi in de chemie naar vrouwen, een daling van acht procent.

Gedurende de tijd van Dayhoff op de universiteit was Columbia een broeinest voor computertechnologie. Het pochte enkele van de eerste computerlaboratoria in de VS en werd in 1945 de thuisbasis van het IBM Watson Scientific Laboratory onder leiding van astronoom WJ Eckert. Het Watson-lab had in de laatste maanden van de Tweede Wereldoorlog voor het eerst gediend als een rekencentrum voor de geallieerden. Na de oorlog werd het een site voor het ontwikkelen van enkele van de eerste supercomputers, waaronder de Selective Sequence Electronic Calculator (SSEC), die Eckert later gebruikte om maanbanen voor de Apollo-missies te berekenen.

Met deze technologie binnen handbereik combineerde Dayhoff haar interesse in chemie met computergebruik door middel van ponskaartmachines - in wezen vroege digitale computers. Met de machines kon Dayhoff haar berekeningen automatiseren en een algoritme opslaan op een set kaarten en gegevens op een andere. Met behulp van de machine was ze in staat om berekeningen veel sneller en nauwkeuriger te verwerken dan met de hand.

Het bijzondere onderwerp van Dayhoff was polycyclische organische verbindingen, moleculen die bestaan ​​uit drie of meer atomen verbonden in een dichte ring. Ze gebruikte de ponskaartmachines om een ​​groot aantal berekeningen uit te voeren op de resonerende energieën van de moleculen (het verschil tussen de potentiële energie van een molecule van een specifieke toestand en de gemiddelde toestand) om de waarschijnlijkheid van moleculaire binding en bindingsafstanden te bepalen.

Dayhoff studeerde in slechts drie jaar af met haar doctoraat in kwantumchemie. Het onderzoek dat ze deed als afgestudeerde student werd gepubliceerd met Kimball als co-auteur in 1949 in het Journal of Chemical Physics onder de eenvoudige titel Punched Card Calculation of Resonance Energies.

In 1948 trouwde Dayhoff ook met Edward Dayhoff, een student in experimentele fysica die ze in Columbia had ontmoet. In 1952 verhuisde het paar naar Washington, DC, waar Edward een functie bekleedde bij het National Bureau of Standards en Dayhoff beviel van haar eerste van twee dochters, Ruth. Dayhoff stopte al snel met het onderzoek om een ​​thuis moeder te worden voor Ruth en haar jongere dochter Judith, behalve voor een postdoctorale positie van twee jaar aan de Universiteit van Maryland.

Toen ze terugkeerde naar onderzoek en in 1962 subsidies begon aan te vragen om haar werk te financieren, werd ze geschokt. De National Institutes of Health verwierpen een subsidieaanvraag die Dayhoff als hoofdonderzoeker noemde, met de uitleg dat "[Dayhoff] al geruime tijd geen intiem contact meer heeft ... met dit gecompliceerde en snel voortschrijdende gebied, " zoals historicus Bruno Strasser schrijft in zijn aanstaande boek Collecting Experiments: Making Big Data Biology . Dit soort bergopwaarts klimmen voor vrouwen die vrij hebben genomen om kinderen op te voeden, is slechts een van de manieren waarop wetenschappelijke instellingen de vooruitgang van vrouwen belemmerden - en blijven belemmeren.

Ondanks het gebrek aan ondersteuning van de NIH stond Dayhoff op het punt het meest consequente decennium van haar carrière in te gaan. In 1960 accepteerde ze een noodlottige uitnodiging van Robert Ledley, een baanbrekende biofysicus die ze via haar man ontmoette, om zich bij hem aan te sluiten bij de National Biomedical Research Foundation in Silver Spring, Maryland. Ledley wist dat de computervaardigheden van Dayhoff cruciaal zouden zijn voor het doel van de stichting om de gebieden informatica, biologie en geneeskunde te combineren. Ze zou 21 jaar als zijn geassocieerd directeur dienen.

Eenmaal in Maryland had Dayhoff de vrije loop om het gloednieuwe IBM 7090 mainframe van Georgetown University te gebruiken. Het IBM-systeem is ontworpen voor het verwerken van complexe applicaties, met computersnelheden die zes keer sneller zijn dan eerdere modellen. Deze snelheid was bereikt door langzamere, omvangrijkere vacuümbuistechnologie te vervangen door snellere, efficiëntere transistors (de componenten die de nullen en nullen van computers produceren). Met behulp van het mainframe gingen Dayhoff en Ledley op zoek naar en het vergelijken van peptidesequenties met FORTRAN-programma's die ze zelf hadden geschreven in een poging om gedeeltelijke sequenties samen te voegen tot een compleet eiwit.

IBM 7090 IBM 7090-bedieningsconsole in het NASA Ames Research Center in 1961, met twee banken met magnetische bandstations van IBM 729. (NASA)

De inzet van Dayhoff en Ledley om computeranalyse toe te passen op biologie en chemie was ongebruikelijk. "De cultuur van statistische analyse, laat staan ​​van digitaal computergebruik, was voor de meeste [biochemici] volledig vreemd", legt Strasser uit in een interview met Smithsonian.com . "Sommigen waren er zelfs trots op dat ze geen 'theoretici' waren, en dat is hoe ze data-analyse begrepen met behulp van wiskundige modellen."

Een wetenschappelijke discipline waar Dayhoff's computerkennis meer werd gewaardeerd, was astronomie. Deze interesse in informatica was mede te danken aan WJ Eckhart, die in 1940 ponskaartmachines van IBM had gebruikt om planetaire banen te voorspellen. En in de jaren zestig was de Amerikaanse belangstelling voor verkenning van de ruimte in volle gang, wat financiering voor NASA betekende. Aan de Universiteit van Maryland ontmoette Dayhoff spectroscopist Ellis Lippincott, die haar in 1961 in Harvard in een zesjarige samenwerking bracht. De drie ontwikkelden thermodynamische modellen van de chemische samenstelling van materie en Dayhoff bedacht een computerprogramma dat kon evenwichtsconcentraties van gassen in planetaire atmosferen berekenen.

Met Dayhoff's programma konden zij, Lippincott en Sagan een te analyseren element kiezen, waardoor ze veel verschillende atmosferische composities konden onderzoeken. Uiteindelijk ontwikkelden ze atmosferische modellen voor Venus, Jupiter, Mars en zelfs een oeratmosfeer.

Tijdens het verkennen van de hemel, nam Dayhoff ook een vraag op die onderzoekers al sinds de jaren vijftig hadden onderzocht: wat is de functie van eiwitten? Sequentiebepaling van eiwitten was een manier om tot het antwoord te komen, maar sequentiebepaling van afzonderlijke eiwitten was zeer inefficiënt. Dayhoff en Ledley kozen voor een andere aanpak. In plaats van eiwitten afzonderlijk te analyseren, vergeleken ze eiwitten afkomstig van verschillende planten- en diersoorten. "Door de sequenties van hetzelfde eiwit in verschillende soorten te vergelijken, kon men zien welke delen van de sequentie altijd identiek waren in alle soorten, een goede indicatie dat dit deel van de sequentie cruciaal was voor het goede van het eiwit, " zegt Strasser.

Dayhoff ging dieper in op de gedeelde geschiedenis van eiwitten. Ze analyseerde niet alleen de delen die over verschillende soorten hetzelfde waren, maar ook hun variaties. "Ze namen deze verschillen als een maat voor de evolutionaire afstanden tussen soorten, waardoor ze fylogenetische bomen konden reconstrueren, " legt Strasser uit.

Dayhoff, altijd klaar om de kracht van nieuwe technologie te benutten, ontwikkelde geautomatiseerde methoden om eiwitsequenties te bepalen. Ze voerde een computeranalyse uit van eiwitten in een grote verscheidenheid aan soorten, van de Candida-schimmel tot de walvis. Vervolgens gebruikte ze hun verschillen om hun voorouderlijke relaties te bepalen. In 1966 creëerde Dayhoff met behulp van Richard Eck de eerste reconstructie van een fylogenetische boom.

In een Amerikaans artikel uit 1969, "Computeranalyse van eiwitevolutie", presenteerde Dayhoff een van deze bomen aan het publiek, samen met haar onderzoek met behulp van computers voor het sequentiëren van eiwitten. "Elke eiwitsequentie die wordt vastgesteld, elk evolutionair mechanisme dat wordt verlicht, elke belangrijke innovatie in de fylogenetische geschiedenis die wordt onthuld, zal ons begrip van de geschiedenis van het leven verbeteren", schreef ze. Ze probeerde de life sciences community het potentieel van geautomatiseerde modellen te laten zien.

Haar volgende doel was om alle bekende eiwitten op één plek te verzamelen waar onderzoekers sequenties konden vinden en deze met anderen konden vergelijken. Anders dan vandaag, moest Dayhoff, wanneer het eenvoudig is om bronnen op te roepen in een elektronische database met alleen een trefwoord, fysieke tijdschriften doorzoeken om de eiwitten te vinden waarnaar ze op zoek was. In veel gevallen betekende dit dat het werk van collega-onderzoekers op fouten moest worden gecontroleerd. Zelfs met behulp van een computer kostte het verzamelen en catalogiseren van de sequenties veel tijd en een scherp wetenschappelijk inzicht.

Niet iedereen zag waarde in wat ze deed. Voor andere onderzoekers leek het werk van Dayhoff meer op het collectie- en catalogiseerwerk van de 19e-eeuwse natuurlijke geschiedenis dan op het experimentele werk van de 20e-eeuwse wetenschapper. "Het verzamelen, vergelijken en classificeren van dingen van de natuur leek voor veel experimentele biologen in de tweede helft van de 20e eeuw ouderwets, " zegt Stasser. Hij verwijst naar Dayhoff als een 'buitenstaander'. 'Ze droeg bij aan een veld dat niet bestond en dus geen professionele erkenning had', zegt hij.

In 1965 publiceerde Dayhoff voor het eerst haar verzameling van de 65 bekende eiwitten in de Atlas of Protein Sequence and Structure, een gedrukte versie van haar database. Uiteindelijk werden de gegevens verplaatst naar magnetische tape, en nu woont het online waar onderzoekers haar gegevens blijven gebruiken om duizenden meer eiwitten te vinden. Andere biomedische databases hebben zich bij de strijd gevoegd, waaronder de Protein Data Bank, een collaboratieve verzameling eiwitten en nucleïnezuren gelanceerd in 1971, en GenBank, de database met genetische sequenties gelanceerd in 1982. Dayhoff begon een wetenschappelijke revolutie.

"Tegenwoordig bevat elke afzonderlijke publicatie in de experimentele biologie een combinatie van nieuwe experimentele gegevens en gevolgtrekkingen op basis van vergelijkingen met andere gegevens die beschikbaar zijn in een openbare database, een benadering die Dayhoff een halve eeuw geleden is gestart", zegt Strasser.

Naarmate bio-informatica groeide, waren de taken van verzamelen en berekenen grotendeels voor vrouwen. Dayhoff's medewerkers op de Atlas waren allemaal vrouwen behalve Ledley. Net als de vrouwelijke 'computers' van NASA in de jaren zestig en de vrouwelijke codebreakers van de Tweede Wereldoorlog, werden deze vrouwen al snel naar de marge van de wetenschappelijke praktijk geduwd. Verwijzend naar de "ENIAC-meisjes" die de eerste digitale, universele computer programmeerden, schrijft historicus van de computer Jennifer Light dat "het binnen de grenzen van precies dergelijke beroepsclassificaties met een lage status was dat vrouwen bezig waren met ongekend werk."

In haar biografische schets van Dayhoff schreef Lois T. Hunt, die met haar aan de Atlas werkte, dat Dayhoff geloofde dat haar onderzoek naar de oeratmosfeer van de aarde haar 'de verbindingen kon geven die nodig zijn voor de vorming van leven'. Dit, misschien zelfs meer dan informatica, is wat de verschillende delen van het wetenschappelijk onderzoek van Dayhoff met elkaar verbindt. Van het kleine eiwit tot de enorme atmosfeer, Dayhoff was op zoek naar de geheimen van het ontstaan ​​van het leven op deze planeet. Hoewel ze ze niet allemaal ontgrendelde, gaf ze de moderne wetenschap de tools en methoden om verder te zoeken.

Hoe Margaret Dayhoff moderne informatica naar de biologie bracht