Computerlinguistik: Was man im Kuckuckskindergarten lernt

Computerlinguistik Was man im Kuckuckskindergarten lernt

14.08.2013 - 14:42 Uhr

Harry-Potter-Autorin Joanne K. Rowling veröffentlichte unter dem Pseudonym Robert Galbraith den Krimi „Cuckoo’s Calling“. Von einem Linguistikcomputer wurde sie aber als Autorin enttarnt.

Martin Halter

14.08.2013 - 14:42 Uhr

Stuttgart - Für Joanne K. Rowling war ihr unter dem Pseudonym Robert Galbraith veröffentlichter Krimi „The Cuckoo’s Calling“ eine „wunderbare Erfahrung“ (und wohl auch für den Münchner Blanvalet-Verlag, der das Buch „blind“ für wenig Geld erworben hatte und jetzt in einer Auflage von 200 000 auf den Markt werfen kann). Aber auch für Peter Millican, der Philosoph und Computerphilologe am Oxforder Hertford College ist, war es ein wunderbare Erfahrung: Signature, die von ihm entwickelte Software für statistische Stilanalysen, half Rowlings Kuckuckskind zu entlarven. Signature und JPAAG, ein ähnliches Programm seines Pittsburgher Kollegen Patrick Juola, hatten unabhängig voneinander neun Bücher Rowlings und der englischen Krimiautorinnen Val McDermid, Ruth Rendell und P. D. James auf signifikante Muster wie Worthäufigkeiten, Satz- und Abschnittlänge überprüft und dabei Rowling mit einer Wahrscheinlichkeit von 16:1 als Autorin von „Cuckoo’s Calling“ identifiziert. Die Computerdetektive fanden zwar keine Beweise, aber „robuste Hinweise“.

Zwar hatte die Freundin eines Mitarbeiter von Rawlings Rechtsanwaltskanzlei auf Twitter das Geheimnis ausgeplaudert, ein Verrat, der die Autorin „sehr sauer“ machte und die Kanzlei eine hohe Entschädigungssumme kostete. Aber die Enttarnung war doch auch ein Erfolg der stilometrischen Analysen, und das ist Wasser auf die Mühlen der Digital Humanities, wie die computergestützten Geisteswissenschaften im akademischen Jargon heißen. Unter diesem Oberbegriff fasst man die Versuche von Literatur-, Kunst- und Kulturwissenschaftlern, mathematische Modelle und Algorithmen aus Natur- und Sozialwissenschaften auf kulturelle Produkte – Kunstwerke, Romane, historischen Quellen, archäologische Fundstücke – anzuwenden.

Zahlreiche Studiengänge, Lehrstühle und Zeitschriften

Die theoretischen Grundlagen dafür wurden schon im 19. Jahrhundert entwickelt, lange vor der Erfindung des Computers, und das Verfahren hat sich seither vielfach bewährt. Editionsphilologen analysieren mit digitalen Werkzeugen Überlieferungsvarianten, forensische Psychologen Drohbriefe, Sprachhistoriker lexikalische Veränderungen. 1996 wurde Joe Klein durch Computer-Stilanalysen als Autor des Romans „Primary Colors“ überführt.

Es gibt mittlerweile zahlreiche Studiengänge, Lehrstühle, Zeitschriften und seit letztem Jahr auch einen Verband „Digital Humanities im deutschsprachigen Raum“, aber noch immer stoßen Literaturinformatiker und Computerlinguisten auf Skepsis und Naserümpfen. Nicht nur, weil die Grenzen und das Selbstverständnis des neuen Forschungszweigs noch unscharf sind. Selbst die führenden Vertreter streiten noch darüber, ob sie so etwas wie das Technische Hilfswerk der Geisteswissenschaften sind oder Vorreiter eines revolutionären Paradigmenwechsels: Von der Intuition zum Algorithmus, von der einfühlsamen, aber vagen und subjektiven Hermeneutik zur mathematisch exakten Berechnung von Mustern, Modellen und Wahrscheinlichkeiten. Für Erez Aiden, der in Harvard eine (von Google gesponserte) „Sternwarte der Kultur“ unterhält, ist die Sache klar: Wer auf die fünfhundert Milliarden Wörter des Google-Kosmos zurückgreifen kann, darf den Literaturwissenschaftlern schon mal „ein paar interessante Brocken auf den Tisch legen“. Aiden betreibt „Culturomics“ nach dem Vorbild von Genetik, Biologie und Epidimologie: Mit Analysen von unvorstellbar großen Textkorpora bestimmt er Abstammungs- und Verwandtschaftsbeziehungen, Wanderungsbewegungen und Innovationsschübe der kulturellen Evolution.

Der Anspruch, Literatur durch schiere Rechenkraft wissenschaftlich zu erschließen, ist eine schwere Kränkung für Dichter und Denker. Wenn geistlose Rechenknechte und bildungsferne Nerds dem Schönen, Guten und Wahren mehr Erkenntnisse abringen können als der aufmerksame, solitäre Interpret in seiner Klause, kann die Literaturwissenschaft mit ihrem „close reading“ einpacken.

Digital Humanities sind demokratische Gleichmacher

Das dichte Lesen nahe am Text, die profane Version der theologischen Bibelexegese, ist die Existenzgrundlage jeder Philologie. Meisterdenker wie Jacques Derrida schreiben ganze Bücher über das Wort „Yes“ im „Ulysses“ oder die Funktion der Nähmaschine im Surrealismus. Aber selbst der fleißigste Literaturwissenschaftler kann nicht alles in allen Sprachen lesen oder gar verstehen. An diesem Punkt setzt die Computerphilologie an. Sie setzt auf distant reading: Je größer die untersuchte Datenmenge und der Abstand zum Stoff, je feiner die Filter beim Surfen und Schürfen, desto mehr Wissensnuggets bleiben im Sieb hängen. Erkenntnis, so die Milchmädchenrechnung, wächst proportional mit der Quantität der Daten. Leider hält die Qualität selten Schritt.

Digital Humanities sind demokratische Gleichmacher: Sie unterscheiden nicht zwischen einer Gebrauchsanleitung und Goethes „Faust“. Ihre Werkzeuge stehen prinzipiell jedem zur Verfügung. Sie scannen riesige Textmassen auf lexikalische, syntaktische und semantische Muster und spucken auf Knopfdruck Daten aus. Bisher richtete sich ihr Fokus meist auf tote Autoren und vergangene Epochen; bald schon werden sie Trends extrapolieren und Bestseller planen wollen.

Die Digital Humanities stecken noch in den Kinderschuhen

Literaturwissenschaft 2.0 liefert nützliche Erkenntnisse, aber man darf sie nicht überschätzen. Beim Digital-Humanities-Kongress 2012 in Hamburg wurde zweifelsfrei nachgewiesen, dass in Dickens’ Romanen auffällig viele Menschen mit Händen in den Hosentaschen vorkommen. Signature und JGAAP erkannten markante Unterschiede zwischen Val McDermid und Joanne K.Rowling, aber die gewählten Parameter waren eher trivial und exotisch: Kommasetzung, durchschnittliche Wortlänge, sinnlose Vier-Buchstaben-Kombinationen. Schon bei der Frage, was Plagiat, unbewusste Nachahmung oder souverän gestaltete Inspiration ist, gerät das Programm ins Schlingern. Ohne Menschen geht es noch nicht: Sie müssen die Computer anlernen, Algorithmen entwickeln und am Ende eine schlüssige Interpretation oder wenigstens eine windige Hypothese bieten.

Aber auch der Schachcomputer hat einmal klein angefangen und schlägt heute Weltmeister. Die Digital Humanities stecken noch in den Kinderschuhen, die Geisteswissenschaften schon seit Jahrzehnten in der Krise. Franco Moretti prophezeite der Literaturwissenschaft schon im Jahr 2000, sie werde immer mehr „eine Geschichte aus zweiter Hand werden, ein Patchwork aus der Forschung anderer ohne direkte, einzelne Textlektüre“. Der „Wired“-Chefredakteur Chris Anderson ging 2008 noch einen Schritt weiter: Algorithmen, Korrelationen und Symmetrien machten Thesen und Theorien bald gänzlich obsolet. Er hat vielleicht nicht einmal ganz Unrecht. Eine Literatur(wissenschaft), die nur noch kurzatmig googelt, bloggt und quasi automatisch Textbausteine verarbeitet, kann auch problemlos maschinell gelesen werden.

Barack Obama als Lügner überführen

Digital Humanities sind so faszinierend wie unheimlich. Sie stellen nicht nur unser Verständnis von Kultur in Frage, sondern liefern Literatur und Geist auch der totalen Überwachung und erkennungsdienstlichen Behandlung aus. Programme, die Texte maschinell auf verdächtige Triggerwörter abtasten und Autorenprofile daraus erstellen, gibt es ja nicht nur in Oxford, sondern auch bei Google, Facebook und den Geheimdiensten.

Der Große Bruder im Nacken aber bereitet Schriftstellern, Lesern und selbst Peter Millican eher Beklemmung: 2008 lehnte er das Ansinnen eines republikanischen US-Politikers ab, Barack Obama durch die Durchleuchtung seiner Autobiografie als Lügner zu überführen.

Was man im Kuckuckskindergarten lernt

Computerlinguistik Was man im Kuckuckskindergarten lernt

Lesen Sie auch