Ein Forschungsprojekt an der Technischen Universität Wien arbeitet daran, die Glaubwürdigkeit von Informationen aus dem Netz zu bewerten.

Wien - Es gibt viele Ansätze, wie die Gesellschaft mit der wachsenden Zahl an Falschmeldungen im Netz umgehen soll. Nur in einem sind sich die meisten Experten einig: Wir brauchen dafür die Hilfe von Computern, da die anfallenden Mengen nicht allein händisch gesichtet werden können. Automatischen Verfahren allerdings fehlt ein tieferes Verständnis für Lüge und Wahrheit, für Ungenauigkeiten, für Missverständnisse. Während manche Forscher versuchen, Algorithmen genau das beizubringen, hat ein internationales Projekt unter der Leitung der Technischen Universität Wien an einem anderen Punkt angegriffen: der Glaubwürdigkeit der Quelle. „Wir haben versucht, ein Glaubwürdigkeitsmodell zu definieren“, sagt Projektleiter Allan Hanbury von der TU Wien. Aber auch das war nicht einfach: Schließlich ist das alles andere als ein wohldefiniertes Problem.

 

Rechtschreibfehler sind ein Indiz für Falschmeldungen

„Maschinelles Lernen wird in Zukunft sicherlich helfen, gegen Falschmeldungen vorzugehen, aber aktuell kämpfen wir mit der großen Variabilität des Problems“, so der Gruppenleiter für Information und Software Engineering. Algorithmen brauchen eine sehr genaue Definition dessen als Grundlage. Die Forscher aus Österreich und Rumänien nutzten deshalb zunächst die Fotoplattform Flickr und deren System, mit dem Nutzer Bilder markieren und beschreiben können – sogenannte Tags – , um auf diesen Daten ihre Rechenvorschriften zu entwickeln. „Das Ziel war, Tags zu finden, die für den Algorithmus geeignet sind, um zu lernen, was auf den Bildern ist.“ Auf Flickr komme es beispielsweise oft vor, dass Nutzer eine ganze Ladung Bilder hochladen und alle mit dem gleichen Tag versehen, beispielsweise „Ausflug“. Diese Beschriftung passt dann auf einige Bilder der Serie besser als auf andere.

Hanbury und sein Team arbeitete mit konkreteren Tags wie „Baum“ oder „Haus“. Sie gaben ihrem System einige Vorgaben: so basiert der Algorithmus auf der Annahme, dass Nutzer, die regelmäßig posten, eine glaubwürdigere Quelle sind oder dass Begleittexte mit Rechtschreibfehlern ein Indiz für eine geringere Glaubwürdigkeit sein könnten. Aus diesen Regeln lernte das System, glaubwürdige Tags zu identifizieren, und konnte tatsächlich schließlich den Bildmarkierungen mit hoher Wahrscheinlichkeit zuordnen, wie treffsicher diese das Bild beschreiben – ohne das Bild selbst zu analysieren. Menschen wiederum können die Qualität der Ausgabe einfach beurteilen. Sie sehen, ob Bild und Beschreibung zusammenpassen. So konnten die Forscher ihr System evaluieren und sind nun überzeugt: Solch ein Algorithmus kann die Basis sein, Glaubwürdigkeit im Netz zu beurteilen.

„Wir haben mit Flickr angefangen, weil wir ein definiertes Problem benötigten“, sagt Hanbury. Darauf aufbauend sei es aber beispielsweise auch denkbar, die Qualität von Suchmaschinen und deren Ergebnissen zu beurteilen. Denn diese umgehen das harte Problem, die Seriosität von Informationen zu definieren, indem sie dieses Kriterium ersetzen durch die Frage, wie populär eine Webseite ist. Das lässt sich viel leichter ermitteln. Beliebte Seiten landen in den Suchergebnissen weiter oben, weil sie für die Menschen offenbar in irgendeiner Form relevant sind – sie müssen aber noch lange nicht seriös sein. Solche Mechanismen lassen das Problem der Falschmeldungen wachsen, da sie deren Verbreitung noch erhöhen.

„Sie tragen außerdem dazu bei, dass Nutzer in einer Filterblase bleiben“, sagt Hanbury. Da sich die Suchergebnisse auch an den Nutzer anpassen, indem beispielsweise gemessen wird, welche Links er anklickt und welche Seiten im Netz er besucht, bekommt er schließlich immer mehr Suchergebnisse nach seinem Geschmack. Mit der Gefahr, dass er andere Meinungen nicht nur ignoriert, sondern sie überhaupt nicht mehr wahrnimmt. „Ein solcher Algorithmus könnte beurteilen, wie breit das Informationsangebot ist“, sagt Hanbury. Schlägt eine Suchmaschine nur Treffer einer bestimmten politischen Richtung vor? Lässt sie einen Aspekt eines Thema außen vor? Hanbury gibt zu, dass solche Fragen schwierig zu lösen sind. „Das Problem ist, dass viele Kriterien, die wir zugrunde legen können, schwierig zu quantifizieren sind.“ Welche Richtungen gehören zu einer Fragestellung? Um zu beurteilen, ob die Suchergebnisse die Bandbreite abdecken, muss man diese erst messen. Woher weiß man, ob sie vollständig sind? „Wir haben keine wirklich gute Lösung gefunden.“

Wettlauf zwischen den Betreibern von Webseiten und Suchmaschinen

Der Weg zu einem Internet als wirklich seriöse Informationsquelle ist also noch weit. Vorerst wenden sich die Forscher den dringlichsten Problemen zu: Inzwischen gibt es verschiedene Wettbewerbe, um die besten Algorithmen gegen Falschmeldungen zu programmieren. Hanbury ist überzeugt, dass sich in diesem Bereich in den nächsten Jahren viel tun wird. Allerdings werden die Verfasser von Falschmeldungen darauf ebenso reagieren: „Es wird wahrscheinlich ein Wettlauf entstehen ähnlich wie der zwischen Webseiten-Betreibern und Suchmaschinen.“ Während Suchmaschinen versuchen, ihren Algorithmus so anzupassen, dass stets die relevantesten Seiten an oberster Stelle der Suchergebnisse erscheinen, passen Webseiten-Betreiber ihre Seiten entsprechend an, um vom automatischen Verfahren höher gewertet zu werden. Darauf wiederum reagieren die Anbieter von Suchmaschinen, indem sie solche Aktionen „bestrafen“.

Solange Falschmeldungen im Netz ein lukratives Geschäft bleiben, werden die Verursacher keinen Aufwand scheuen, automatische Verfahren zu ihrer Erkennung zu torpedieren. Aber das ist Zukunftsmusik. Erst muss das Problem gelöst werden, Falschmeldungen automatisch zu erkennen – auf welchem Wege auch immer.