Digital Humanities Wie J. K. Rowling enttarnt wurde

Von Christian Wolf 

Auch in den Geisteswissenschaften setzen Forscher mittlerweile auf die Analysefertigkeiten von Algorithmen: Große Text- und Bildersammlungen lassen sich damit leichter auswerten. Wie funktioniert das?

Statt umfassende Archive von Hand zu durchforsten, nutzen viele Geisteswissenschaftler heute Künstliche Intelligenz. Foto: dpa
Statt umfassende Archive von Hand zu durchforsten, nutzen viele Geisteswissenschaftler heute Künstliche Intelligenz. Foto: dpa

Würzburg/Passau - Im April des Jahres 2013 erscheint der Roman „Der Ruf des Kuckucks“ von Robert Galbraith. Er verkauft sich nur schleppend. Einige Monate später wird dann allerdings bekannt, dass die wahre Autorin niemand geringere ist als die Schöpferin der Harry-Potter-Romane, J. K. Rowling. Eine Zeitung hatte nicht nur einen anonymen Tipp erhalten – sie hatte auch zwei Spezialisten für Autorenschaftszuschreibung auf das Werk angesetzt. Wie kamen die beiden Experten Rowling auf die Schliche? Nicht etwa, indem sie sich über die Romane gebeugt, sie akribisch studiert und verglichen haben, sondern mit der Hilfe eines Computerprogramms.

Das ist heute nichts Ungewöhnliches mehr. Befeuert von dem Fortschritt auf dem Gebiet der Künstlichen Intelligenz und selbst lernenden Algorithmen setzen die digitalen Geisteswissenschaften – oder Digital Humanities – auf automatisierte Datenanalyse. Sie durchforsten Datenberge von digitalisierten Texten und Bildern und suchen nach Zusammenhängen, die sie etwa historische Entwicklungen oder literarische Werke neu verstehen lassen.

Will der Literaturwissenschaftler und Computerphilologe Fotis Jannidis von der Uni Würzburg in Erfahrung bringen, welcher Stil einen bestimmten Autor auszeichnet, geht er ähnlich vor wie die Spezialisten, die J. K. Rowling enttarnt haben. Mit seinem Programm nimmt er sich eine Reihe von Texten vor und lässt zunächst beispielsweise die 2000 häufigsten Wörter zählen. Wie häufig tauchen sie durchschnittlich insgesamt in den Texten auf, und wie oft bei einem Autor? „Dabei sind die kleinen, häufigen Wörter wie ‚und’ oder ‚bis’ viel aussagekräftiger als die großen und selteneren Wörter“, sagt Jannidis. Das habe ihn zunächst selbst überrascht, aber im Grunde leuchte es ein. „Die kleinen Wörter sind nicht vom Kontext wie dem Thema abhängig, können also jederzeit verwendet werden.“ Zur Kennzeichnung des Autorenstils ist die Häufigkeitsverteilung dieser Worte entscheidend.

Mit den digitalen Methoden können Texte einem Autor zugeordnet werden

Das ergibt für jeden Autor eine Art Profil. „Diese Profile können wir vergleichen und zum Beispiel feststellen, dass ein Text, dessen Autor unbekannt ist, den Texten eines bestimmten Autors ähnlicher ist als denen anderer Autoren.“ Die Autorenzuweisungen funktionieren ziemlich gut. Bei Texten, von denen die Urheber bekannt sind, erzielten Jannidis und seine Kollegen Trefferraten zwischen 80 und 98 Prozent. Von einer echten Interpretation von Texten im literaturwissenschaftlichen Sinne sind die digitalen Methoden jedoch noch weit entfernt, sagt Jannidis.

Auch der Kunsthistoriker Maximilian Schich von der University of Texas at Dallas setzt auf große Algorithmen. Mit Kollegen hat er sich die Kulturgeschichte der letzten zweieinhalbtausend Jahre angeschaut und das Aufblühen und Verblühen kultureller Zentren nachgezeichnet. Zu diesem Zweck hat Schich aus verschiedenen Datenbanken die Geburts- und Sterbedaten von mehr als 150 000 bedeutenden Persönlichkeiten herangezogen, von Leonardo da Vinci bis zu Ernest Hemingway.

Anhand der Visualisierung dieser Daten hat das Team um Schich einen Clip erstellt, der 600 vor Christus einsetzt und im Jahre 2012 endet. Animierte Linien verbinden die Geburts- und Sterbeorte – sie erinnern an illustrierte Flugrouten, wie man sie von Bordmagazinen kennt. Eine Stadt, so die Logik, wird dabei kulturell umso wichtiger, je mehr bedeutende Menschen dort sterben. In dem Clip sieht man beispielsweise, wie die kulturelle Dominanz Roms ab ungefähr dem 12. Jahrhundert nachlässt und andere europäische Städte wie Paris und Berlin an seine Stelle treten. So zeigt sich auch: Im Laufe des 20. Jahrhunderts verlagerte sich das kulturelle Schwergewicht erst nach New York und dann nach Los Angeles. Außerdem legt die Studie die überraschende Erkenntnis nahe, dass die Intellektuellen über die Jahrhunderte hinweg kaum mobiler geworden sind. Im 14. Jahrhundert lag die Distanz zwischen Geburts- und Sterbeort demnach im Mittel bei 214 Kilometern. Im 21. Jahrhundert sind es 382 Kilometer – noch nicht einmal doppelt so viele.

Allein quantitative Ansätze bringen nicht unbedingt einen Mehrwehrt, sagen Kritiker

Doch der Ansatz von Schich muss sich auch Kritik gefallen lassen – etwa von dem Historiker und Digital-Humanities-Spezialisten Malte Rehbein von der Universität Passau. „Bei einem komplexen Phänomen wie Migration geht es um mehr als nur darum, zu schauen, ob Menschen am gleichen Ort geboren und gestorben sind“, sagt Rehbein. Nach dem Modell von Schich wäre Thomas Mann etwa von Lübeck (Geburtsort) nach Zürich (Sterbeort) migriert. Die letztendliche Wanderung nach Zürich ist damit zwar korrekt erfasst, aber seine Migrationen in die USA und wieder zurück in die Schweiz bleiben ebenso unberücksichtigt wie etwa sein Wirkungsort München.

Der Passauer Historiker glaubt derzeit eine ganz bestimmte Tendenz in den digi­talen Geisteswissenschaften ausmachen zu können: Datensätze würden möglichst schnell nach etwas Brauchbarem durchsucht. „Man kann alle Datensätze analysieren, – irgendetwas wird man immer finden.“ Was solche Ergebnisse aber letztlich bedeuten, sei eine ganz andere Frage. „Bei aller Euphorie für quantitative Analysemethoden dürfen wir die qualitativen Zugänge nicht vergessen“, sagt auch der Mainzer Archäologe Kai-Christian Bruhn. Die Geisteswissenschaften leisteten schließlich einen wichtigen Beitrag dazu, Informationen zu interpretieren und einzuordnen. „Es ist ein Irrglaube zu denken, mehr Daten brächten automatisch mehr Erkenntnisse.“

Dass sich qualitative und quantitative Methoden nicht ausschließen, zeigt das Beispiel von Fotis Jannidis, dem Würzburger Computerphilologen. Will er den unbekannten Autor eines Textes identifizieren, braucht er zunächst seinen philologischen Sachverstand. Er muss sich überlegen, welche Autoren sich überhaupt für die Analyse eignen. Erst dann digitalisiert und wertet er Texte aus. „Welche Autoren potenziell infrage kommen, kann uns keine quantitative Analyse sagen.“