https://frosthead.com

Kunnen computers een 5.000 jaar oude taal ontcijferen?

De Indus-beschaving, die gedurende het grootste deel van het derde millennium v.Chr. Floreerde, was de meest uitgebreide samenleving van zijn tijd. Op zijn hoogtepunt omvatte het een oppervlakte van meer dan een half miljoen vierkante mijlen rond wat vandaag de grens tussen India en Pakistan is. Overblijfselen van de Indus zijn zo ver naar het noorden als de Himalaya en zo ver naar het zuiden als Mumbai gevonden. Het was de vroegst bekende stedelijke cultuur van het subcontinent en het had twee grote steden, een in Harappa en een in Mohenjo-daro. Maar ondanks zijn omvang en levensduur, en ondanks bijna een eeuw archeologisch onderzoek, blijft veel over de Indus gehuld in mysterie.

Het weinige dat we weten, is afkomstig van archeologische opgravingen die in de jaren 1920 zijn begonnen en vandaag nog steeds doorgaan. In de loop van de decennia hebben archeologen heel wat artefacten opgedoken, waaronder zegelzegels, amuletten en kleine tabletten. Veel van deze artefacten dragen wat lijken op schriftstukken - gegraveerde figuren die onder andere lijken op gevleugelde hoefijzers, spaakwielen en rechtopstaande vissen. Wat die symbolen precies kunnen betekenen, blijft echter een van de beroemdste onopgeloste raadsels in de wetenschap van oude beschavingen.

Er zijn nog andere moeilijke codes te kraken in de geschiedenis. Stump-egyptologen hebben geluk gehad met de ontdekking van de beroemde Rosetta-steen in 1799, die zowel in het Egyptisch als in het Grieks tekst bevatte. De studie van Maya-hiërogliefen liep weg totdat een Russische taalkundige, Yury Knorozov, slim gebruik maakte van de hedendaagse Maya-taal in de jaren vijftig. Maar er is geen Rosetta-steen van de Indus, en geleerden weten niet welke talen eventueel zijn afgeleid van die welke door het Indus-volk worden gesproken.

Ongeveer 22 jaar geleden, in Hyderabad, India, sloeg een student van de achtste klas genaamd Rajesh Rao de pagina van een geschiedenisboek om en hoorde voor het eerst over deze fascinerende beschaving en het mysterieuze schrift. In de jaren die volgden, leidde Rao's opleiding en beroep hem in een andere richting - hij eindigde met het volgen van informatica, die hij vandaag doceert aan de Universiteit van Washington in Seattle - maar hij volgde Indus-beurs zorgvuldig en hield de tientallen mislukte probeert het script te begrijpen. Terwijl hij kunstmatige intelligentie en robotica bestudeerde, verzamelde Rao een kleine bibliotheek met boeken en monografieën over het Indus-schrift, ongeveer 30 daarvan. Op een boekenplank in de buurt bewaarde hij ook het geliefde geschiedenisboek van de achtste klas dat hem bij de Indus introduceerde.

"Het was gewoon geweldig om het aantal verschillende ideeën te zien dat mensen voorstelden", zegt hij. Sommige geleerden beweerden dat het schrijven een soort Sumerisch schrift was; anderen situeerden het in de familie Dravidian; weer anderen dachten dat het verband hield met een taal van Paaseiland. Rao begon te waarderen dat dit "waarschijnlijk een van de meest uitdagende problemen was in termen van oude geschiedenis."

Omdat poging na poging mislukte om het script te ontcijferen, begonnen sommige experts de hoop te verliezen dat het kon worden gedecodeerd. In 2004 beweerden drie wetenschappers in een controversieel artikel dat de Indus-symbolen helemaal geen taalinhoud hadden. In plaats daarvan zijn de symbolen misschien weinig meer dan pictogrammen die politieke of religieuze figuren vertegenwoordigen. De auteurs gingen zelfs zo ver dat ze suggereerden dat de Indus helemaal geen geletterde beschaving was. Voor sommigen in het veld begon de hele zoektocht naar taal achter die Indus-etsen te lijken op een oefening in nutteloosheid.

Een paar jaar later kwam Rao in de strijd. Tot die tijd waren mensen die het script bestudeerden archeologen, historici, taalkundigen of cryptologen. Maar Rao besloot de geheimen van het Indus-script te overhalen met behulp van de tool die hij het beste kende - informatica.

Gefascineerd door de Indus-beschaving sinds de achtste klas, gebruikt Rajesh Rao informatica en een concept genaamd "voorwaardelijke entropie" om het Indus-script te helpen decoderen. (Hoffelijkheid van David Zax) In de loop van de decennia hebben archeologen een groot aantal artefacten uit de Indus-beschaving gevonden, waaronder postzegels, amuletten en kleine tablets. (Robert Harding / Robert Harding World Imagery / Corbis) Rao en zijn medewerkers publiceerden hun bevindingen in mei in het tijdschrift Science . Ze hebben de taal niet ontcijferd, maar hun bevindingen hebben het begrip ervan aangescherpt. (Robert Harding / Robert Harding World Imagery / Corbis) Rao en zijn collega's kijken nu naar langere reeksen personages dan ze in de Science- paper hebben geanalyseerd. Het vinden van patronen zou op zijn beurt helpen bepalen bij welke taalfamilies het script zou kunnen behoren. (Hoffelijkheid van David Zax)

Op een zomerdag in Seattle verwelkomde Rao me in zijn kantoor om me te laten zien hoe hij en zijn collega's het probleem hebben aangepakt. Hij legde een verzameling replica's van klei-zegelafdrukken neer die archeologen van Indus-sites zijn opgedoken. Ze zijn klein - zoals kleine vierkante chocolaatjes - en de meeste hebben een afbeelding van een dier onder een reeks Indus-symbolen. De meeste voorbeelden van het Indus-script zijn miniaturen zoals deze en bevatten slechts enkele tekens; er zijn geen grote monolieten ontdekt. Geleerden zijn onzeker over de functie van de kleine zeehonden, vertelde Rao me, maar een theorie is dat ze mogelijk zijn gebruikt om de kwaliteit van verhandelde goederen te certificeren. Een andere suggereert dat de zeehonden een manier kunnen zijn geweest om ervoor te zorgen dat handelaren belasting betaalden bij het binnenkomen of verlaten van een stad - er zijn veel zeehonden gevonden tussen de ruïnes van poortgebouwen, die mogelijk hebben gewerkt als oude tolhokjes.

Rao en zijn collega's wilden geen wonderen verrichten - ze wisten dat ze niet genoeg informatie hadden om het oude script te ontcijferen - maar ze stelden de hypothese op dat ze met behulp van computationele methoden op zijn minst konden beginnen vast te stellen wat voor soort Indus-schrift script was: codeerde het taal, of niet? Ze deden dit met behulp van een concept genaamd "voorwaardelijke entropie."

Ondanks de imposante naam is voorwaardelijke entropie een vrij eenvoudig concept: het is een maat voor de hoeveelheid willekeur in een reeks. Beschouw ons alfabet. Als je Scrabble-tegels zou nemen en ze in de lucht zou gooien, zou je elke oude brief na de andere kunnen tegenkomen. Maar in echte Engelse woorden komen bepaalde letters vaker voor dan andere. Een q in het Engels wordt bijna altijd gevolgd door een u . Een t kan gevolgd worden door een r of e, maar is minder waarschijnlijk gevolgd door een n of een b .

Rao en zijn medewerkers - een internationale groep waaronder computerwetenschappers, astrofysici en een wiskundige - gebruikten een computerprogramma om de voorwaardelijke entropie van het Indus-schrift te meten. Daarna maten ze de voorwaardelijke entropie van andere soorten systemen - natuurlijke talen (Sumerisch, Tamil, Sanskriet en Engels), een kunstmatige taal (de computerprogrammeertaal Fortran) en niet-linguïstische systemen (menselijke DNA-sequenties, bacteriële eiwitsequenties en twee kunstmatige datasets die hoge en lage uitersten van voorwaardelijke entropie vertegenwoordigen). Toen ze de hoeveelheid willekeur in het Indus-script vergeleken met die van de andere systemen, vonden ze dat het het meest leek op de snelheden die in de natuurlijke talen werden gevonden. Ze publiceerden hun bevindingen in mei in het tijdschrift Science .

Als het op een taal lijkt en het werkt als een taal, dan is het waarschijnlijk een taal, suggereert hun artikel. De bevindingen ontcijferen het script natuurlijk niet, maar ze scherpen ons begrip ervan aan en hebben geruststelling gegeven aan die archeologen die hadden gewerkt in de veronderstelling dat het Indus-schrift codeert voor taal.

Na het publiceren van de krant kreeg Rao een verrassing. De vraag tot welke taalfamilie het script behoort, blijkt een gevoelige vraag te zijn: vanwege de leeftijd en het belang van de Indus-beschaving zouden veel hedendaagse groepen in India het willen claimen als een directe voorouder. De Tamilsprekende indianen in het zuiden zouden bijvoorbeeld liever leren dat het Indus-schrift een soort proto-Dravidiaan was, omdat Tamil afstamt van proto-Dravidiaan. Hindi-sprekers in het noorden hebben liever dat het een oude vorm van Sanskriet is, een voorouder van Hindi. Rao's artikel concludeert niet tot welke taalfamilie het script behoort, hoewel het wel opmerkt dat de voorwaardelijke entropie vergelijkbaar is met de oude Tamil - waardoor sommige critici samenvattend "ons beschuldigen van Dravidian nationalisten", zegt Rao. "De wreedheid van de beschuldigingen en aanvallen was volledig onverwacht."

Rao ontlast soms de terugkeer naar de minder fel betwiste wereld van neurowetenschappen en robotica. Maar de roep van het Indus-script blijft aantrekkelijk, en "wat vroeger een hobby was, monopoliseert nu meer dan een derde van mijn tijd", zegt hij. Rao en zijn collega's kijken nu naar langere reeksen personages dan ze in de Science- paper hebben geanalyseerd. "Als er patronen zijn, " zegt Rao, "zouden we grammaticale regels kunnen bedenken. Dat zou op zijn beurt beperkingen geven aan het soort taalfamilies 'waar het script toe behoort.

Hij hoopt dat zijn toekomstige bevindingen voor zichzelf zullen spreken, waardoor minder wrok ontstaat van tegenstanders die voor de ene regio van India ten opzichte van de andere wortel schieten. Van zijn kant, wanneer Rao spreekt over wat het Indus-schrift voor hem betekent, spreekt hij meestal in termen van India als geheel. "Het erfgoed van India zou aanzienlijk worden verrijkt als we de Indus-beschaving zouden kunnen begrijpen, " zegt hij. Rao en zijn medewerkers werken eraan, één regel broncode tegelijk.

Kunnen computers een 5.000 jaar oude taal ontcijferen?