In de meeste literatuurcursussen op universiteitsniveau vind je studenten die kleine porties literaire klassiekers ontleden: de soliloquies van Shakespeare, de bewustzijnsstroom van Joyce en de staccato-zinnen van Hemingway. Er is ongetwijfeld zoveel te leren over een schrijver, zijn of haar vak en de betekenis van een verhaal door dit soort van dichtbij lezen.
Maar Ben Blatt pleit sterk voor een andere aanpak. Door zich te concentreren op bepaalde zinnen en paragrafen, stelt hij in zijn nieuwe boek, Nabokovs favoriete woord is Mauve, lezers verwaarlozen alle andere woorden, die in een gemiddelde lengte van tienduizenden datapunten.
De journalist en statisticus creëerden een database van de tekst van een paar klassiekers uit de 20e eeuw en bestsellers om een aantal interessante vragen kwantitatief te beantwoorden. Zijn analyse onthulde enkele eigenaardige patronen die anders onopgemerkt zouden blijven:
Door de cijfers zijn de beste openingszinnen voor romans meestal kort. Productieve auteur James Patterson gemiddeld 160 clichés per 100.000 woorden (dat is 115 meer dan de gerespecteerde Jane Austen), en Vladimir Nabokov gebruikte het woord mauve 44 keer vaker dan de gemiddelde schrijver in de afgelopen twee eeuwen.
Smithsonian.com sprak met Blatt over zijn methode, enkele van zijn belangrijkste bevindingen en waarom big data belangrijk is voor de studie van literatuur.
Je hebt een statistische benadering gevolgd om alles te bestuderen, van Where's Waldo tot Seinfeld, fastfoodketens tot popsongs. Kunt u uw methode toelichten en waarom u doet wat u doet?
Ik ben een datajournalist en kijk naar dingen in popcultuur en kunst. Ik hou er echt van om kwantitatief en onbevooroordeeld naar dingen te kijken die veel informatie bevatten waar mensen niet doorheen zijn gegaan. Als je wilt leren hoe de typische persoon uit de Verenigde Staten is, zou het nuttig zijn, maar je zou niet alleen met één persoon praten, alles over hen weten en dan aannemen dat alles over mensen in de Verenigde Staten de dezelfde. Ik denk dat een ding met schrijven dat zoiets verdwaalt, is dat je je kunt concentreren op één zin van een auteur, vooral in creatieve schrijflessen, of één passage, en je verliest het grotere geheel om deze algemene patronen en trends te zien die schrijvers gebruiken steeds opnieuw, honderden en misschien duizenden keren in hun eigen schrift.
Het favoriete woord van Nabokov is Mauve: wat de cijfers onthullen over de klassiekers, bestsellers en onze eigen teksten
KopenDus waarom ben je naar de literatuur gegaan?
Mijn achtergrond is wiskunde en informatica, maar ik ben altijd dol geweest op lezen en schrijven. Naarmate ik meer en meer aan het schrijven was, raakte ik erg geïnteresseerd in hoe verschillende schrijvers en mensen schrijfadvies geven. Er is veel dat zinvol is maar niet wordt ondersteund door informatie, en veel dat in conflict is met elkaar. Ik dacht gewoon dat er een manier moest zijn om deze onderwerpen schriftelijk op te nemen die mensen al goed wisten en waar ze over praatten en test ze op geweldige auteurs en populaire auteurs om te zien of dit advies echt is of dat het een prescriptief advies is dat niet het betekent echt niets in de echte boeken en de echte pagina's.
Wat was de eerste vraag die je wilde stellen over literaire klassiekers en bestsellers?
Het eerste hoofdstuk in het boek gaat over het advies of u al dan niet bijwoorden moet gebruiken. Dit is ook het eerste hoofdstuk dat ik chronologisch heb geschreven. Het is meestal op advies van Stephen King om geen bijwoorden te gebruiken in zijn boek On Writing, dat voor veel schrijvers het boek over schrijven is. Maar veel andere schrijvers - Toni Morrison, Chuck Palahniuk - en elke creatieve schrijfklasse adviseren om geen enkel bijwoord te gebruiken, omdat het een onnodig woord is en een teken dat u niet beknopt bent. In plaats van te zeggen: "Hij rende snel", kun je zeggen: "Hij sprintte."
Dus ik wilde weten, is dit echt waar? Als dit zo'n goed advies is, zou je verwachten dat de grote auteurs het eigenlijk minder gebruiken. Je zou verwachten dat amateurschrijvers het meer gebruiken dan gepubliceerde auteurs. Ik wilde gewoon, stilistisch, eerst weten of Stephen King zijn eigen advies opvolgde, en vervolgens of het van toepassing was op alle andere grote en gerespecteerde auteurs.
Wat heb je gevonden?
Er is zelfs een trend dat auteurs zoals Hemingway, Morrison en Steinbeck, hun beste boeken, die opgehouden worden en nu de meeste aandacht op hen hebben, de boeken zijn met de minste hoeveelheid bijwoorden. Als u amateur-fictie en online schrijven dat niet is bewerkt met bestsellers en Pulitzer-prijswinnaars van de afgelopen tijd vergelijkt, is er ook een discrepantie, waarbij minder gepubliceerde bijwoorden worden gebruikt door de gepubliceerde auteurs. Ik ben niet zo eenzijdig dat ik denk dat je alleen de bijwoorden uit een goed boek kunt verwijderen en het wordt een geweldig boek. Dat is duidelijk niet hoe het werkt. Maar er is iets aan het feit dat schrijvers die op een zeer directe manier schrijven, boeken produceren die over het algemeen het langst leven.
Hoe bent u begonnen met het maken van een database met literaire werken?
Voor veel van de vragen gebruikte ik dezelfde 50 auteurs die ik enigszins willekeurig had gekozen. In wezen was het gebaseerd op auteurs die bovenaan de bestsellerlijst stonden, auteurs die bovenaan de grootste auteurs aller tijden stonden en auteurs die slechts een aantal verschillende genres en tijden en lezers vertegenwoordigden. Op die manier kun je in het hele boek deze auteurs vergelijken en ze leren kennen.
Het was heel belangrijk voor me dat als ik iets zei als: "Toni Morrison gebruikt dit woord in dit tempo, " ik het had over elke roman die ze ooit heeft geschreven en niet alleen over de drie die ik toevallig al heb. In mijn boek zijn er 50 tot 100 auteurs waarnaar overal wordt verwezen. Ik vond hun bibliografieën en vond toen al hun romans die ze tot dan toe hadden geschreven als hun complete record. In sommige opzichten is het een beetje zoals het bijhouden van sportstatistieken, waarbij elk boek een soort seizoen is en dan al deze seizoenen of boeken samenkomen als een carrière. U kunt zien hoe auteurs in de loop van de tijd veranderen en hoe ze dingen in het algemeen doen. Als je eenmaal alle boeken hebt geregistreerd, is het beantwoorden van deze vragen die op sommige manieren erg ontmoedigend zijn, heel eenvoudig.
En hoe heb je al die tekst verwerkt?
Er is een programmeertaal met de naam Python, en daarbinnen is er een set tools die de Natural Language Toolkit wordt genoemd, vaak afgekort NLTK. De betrokken tools zijn voor iedereen vrij beschikbaar. U kunt het pakket online downloaden en gebruiken in Python of andere talen. Je kunt niet veel van de schrijfvragen krijgen, maar je kunt wel zeggen, hoe vaak verschijnt dit woord in de tekst? Het kan doorlopen en identificeren waar zinnen eindigen en waar zinnen beginnen, en delen van meningsuiting - bijvoeglijk naamwoord versus bijwoord versus werkwoord. Dus als je eenmaal die tools hebt, kun je de gegevens ophalen.
Welke statistieken heb je handmatig samengesteld? Wat was het meest saai?
Er is een sectie waar ik naar openingszinnen kijk. Elmore Leonard, die een zeer succesvolle romanschrijver was, had gezegd: "Open nooit een boek met weer." Dit is ook een advies dat in veel handleidingen wordt gevonden. Dus ging ik door honderden auteurs om te zien hoe vaak ze hun boek openen bij weer. Danielle Steel, ik geloof bijvoorbeeld dat 45 procent van haar eerste zinnen in boeken over het weer gaat. Vaak is het gewoon "Het was een prachtige dag" of "Het was zonnig en zonnig", dat soort dingen. Daarvoor was er geen manier om dat automatisch te doen zonder een fout te maken, dus ik zou gewoon alle boekbestanden doornemen en aangeven of er weer was. Je kunt zeggen dat het vervelend was, omdat er veel gegevens werden verzameld, maar het was best leuk om er honderden openingszinnen tegelijk door te lezen en te lezen. Er zijn andere patronen die na verloop van tijd duidelijk uit auteurs naar voren komen.
Zoals je zegt, vervelend voor sommigen, leuk voor anderen. Sommigen denken misschien dat deze analytische benadering saai is, maar u beweert dat het "grappig" en "vaak ronduit grappig" kan zijn. Wat was uw grappigste bevinding?
De titel van het boek, Nabokov's favoriete woord is Mauve, gaat over hoe, volgens de cijfers, het woord dat hij in het hoogste tempo gebruikt in vergelijking met het Engels mauve is. Dat is logisch als je naar zijn achtergrond kijkt, omdat hij synesthesie had. Hij sprak in zijn autobiografie over hoe zijn hersenen automatisch kleuren zouden toveren als hij verschillende letters en geluiden hoorde.
Ik herhaalde dat experiment met 100 andere auteurs om te zien wat hun favoriete woord is. Als gevolg hiervan krijgt u drie woorden die representatief zijn voor hun schrijven door de woorden die ze het meest gebruiken. Beschaafdheid, fantasie en onvoorzichtigheid. Dat is Jane Austen. Ik denk dat als je die woorden zag, Jane Austen misschien een van je eerste gissingen was. En dan heb je een auteur als John Updike, die wat grimmiger en reëler is en van een andere tijd is. Zijn favoriete woorden zijn omrand, prik en geneukt. Ik vind het heel interessant om de persoonlijkheid te zien doorkomen op basis van deze eenvoudige wiskundige vragen. Als je een favoriete auteur hebt, onthul je er iets van over hun persoonlijkheid dat je misschien nog niet eerder hebt opgemerkt.
Ray Bradbury had geschreven dat zijn favoriete woord kaneel was. Volgens de cijfers gebruikt hij dat vaak. Zijn verklaring waarom hij van kaneel hield, was dat het hem deed denken aan de pantry van zijn grootmoeder. Dus ging ik door en vond andere kruiden- en reukwoorden die in verband kunnen worden gebracht met de pantry van een grootmoeder, en Ray Bradbury gebruikt de meeste van die woorden in een zeer hoog tempo. In zekere zin kun je deze rare, freudiaanse kijk in iets over de kindertijd van auteurs krijgen. Als Ray Bradbury dat niet had gezegd, zou je het misschien wel kunnen bedenken.
U vergeleek Amerikaanse en Britse schrijvers en bevestigde een stereotype dat Amerikanen luid zijn. Kun je deze uitleggen?
Deze was eigenlijk oorspronkelijk gebaseerd op een studie van een afgestudeerde student aan Stanford. Hij had woorden geïdentificeerd die worden gebruikt om de dialoog in boeken te beschrijven, en beschreef ze als luid, neutraal of stil. "Fluisterend" en "murmelde" zou stil zijn. Neutraal zou zijn "hij zei" of "zij zei", en luid zou zijn "hij riep" of "schreeuwde". Ik ging door de 50 auteurs die ik bekeek, evenals grote voorbeelden van fanfictie, en vond, niet met een gekke marge maar een zinvolle marge, dat Amerikanen een hogere verhouding hebben tussen de luide woorden en de rustige woorden. Er zijn enkele verklaringen. Het kan zijn dat dat is hoe Amerikanen hun hele leven lang praten, dus dat is de manier waarop schrijvers beschrijven dat ze vaak praten. Je kunt het ook gewoon zien als Amerikaanse schrijvers die een voorkeur hebben voor meer actiegerichte, thriller-, hoog tempo-verhalen in vergelijking met de meer subtiele verhalen. Amerikanen zijn inderdaad luider door de cijfers.
Ben Blatt, auteur van het favoriete woord van Nabokov is Mauve (Sierra Katow)Waarom denk je dat het toepassen van wiskunde op het schrijven een goede manier is om literatuur te studeren?
Ik pleit er absoluut niet voor dat dit de eerste manier is om literatuur te bestuderen als je probeert je schrijfvaardigheid te verbeteren. Maar zelfs een roman van gemiddelde lengte is waarschijnlijk 50.000 woorden, en dat zijn 50.000 gegevenspunten. Je kunt dat gewoon niet allemaal in één keer onderdompelen, en er zullen een aantal vragen zijn die je gewoon niet zelf kunt beantwoorden. Het is goed om het grotere geheel te zien. Als je gaat zitten en een paragraaf bestudeert, zit je in je creatieve schrijfles met je professor te praten, als er een vaste manier is om daarnaar te kijken, zul je dat overal doorheen zien. Maar met de gegevens bevrijdt u dat soort dingen, en u kunt enkele vragen beantwoorden zonder deze vooroordelen en echt wat nieuwe informatie krijgen.
Je zegt dat je steeds terug bleef denken aan Roald Dahl's 'The Great Grammatizator'.
Er is een geweldig Roald Dahl-verhaal waarin een ingenieur in wezen een manier bedenkt om een verhaal te schrijven. In dit doemscenario kan iemand de machine een plot geven en een laatste roman spugen. De insinuatie daar is dat ze romans produceren die zo formeel en basic zijn. De hoofdrolspeler in dat verhaal kiest ervoor om zich niet bij de bediening van de machine aan te sluiten en vecht ertegen door zijn eigen geschriften en kunst te maken.
Ik denk zeker dat dit boek, als je van schrijven houdt, veel vragen voor je zal beantwoorden en absoluut de manier waarop je over sommige dingen denkt, zal veranderen, maar uiteindelijk is er echt geen vervanging voor ideeën die mensen aan het denken zetten en scènes die mensen aan het denken zetten angstig of maak contact met de personages. Dit boek kijkt naar het vak van schrijven en niet noodzakelijkerwijs hoe een memorabel verhaal te creëren. Dit boek probeert niet een perfecte roman te ontwikkelen, en ik denk niet dat we daar zo dicht bij staan als sommigen misschien vrezen.