Es gibt gerade mal drei Höchstleistungsrechenzentren in Deutschland – und eines davon steht in Stuttgart. Dessen Rechenkapazitäten sind bei Wissenschaft, Forschung und in der Industrie sehr gefragt.

Leben: Ricarda Stiller (rst)

Stuttgart - Wenn Michael Resch, der Leiter des Höchstleistungsrechenzentrums Stuttgart (HLRS), auf das Phänomen Big Data angesprochen wird, bleibt er ganz ruhig und zurückgelehnt: „Big Data ist für uns ein Thema, das wir schon seit Jahren kennen. Denn riesige Datenmengen haben wir schon lange.“ Das was jetzt zum Teil unter dem Begriff Big Data daherkommt, sei so zu verstehen: „Wir haben viele Informationen, die wir angesammelt haben und wenn wir die jetzt richtig durchforsten, dann finden wir möglicherweise wichtige Zusammenhänge.“

 

Das Thema Big Data kommt ursprünglich aus dem biomedizinischen Bereich und hat mit der Genom-Sequenzierung begonnen. Als Ergebnis der Genom-Entschlüsselung bekommt man eine riesige Datenmenge mit vielen kleinen Datensätzen. Dann wird versucht, irgendwelche Zusammenhänge zu finden. Dafür benötigt man enorme Rechenkapazitäten, denn unendlich viele Daten müssen miteinander verglichen werden. Genau solche Berechnungen können im HLRS, einem der drei Bundeshöchstleistungsrechenzentren, vorgenommen werden. Neben Stuttgart gibt es noch in Jülich und München derartige Höchstleistungsrechenzentren.

In Stuttgart stehen Hochleistungsrechner wie der NEC SX-9 und weitere Supercomputer zur Verfügung, die die Leistung von vielen tausend normalen Computern noch bei weitem übersteigen. Die Rechenkapazitäten im HLRS in Stuttgart-Vaihingen sind sehr gefragt. Ob für die Wissenschaft und Forschung oder für die Industrie – zu den häufigsten Anwendungen gehört die dreidimensionale Computersimulation. Über mangelnde Auslastung kann sich der Institutsleiter Michael Resch jedenfalls nicht beklagen.

Die Daten kann man gut verwerten

Seit einigen Jahren nun spricht man im Zusammenhang mit großen Datenmengen also von Big Data, das sich einerseits aus den genetischen Untersuchungen entwickelt hat und zum anderen aus dem ganz normalen Internet und dessen Angeboten. Resch sagt: „Was wir jetzt über die NSA hören, das ist alles Big Data.“ Und wenn die NSA mit Google oder Facebook zusammengearbeitet habe, dann liege dies nicht daran, dass diese Firmen besonders böse seien. Sondern daran, dass diese Firmen zunächst einmal aus praktischen Gründen Daten gesammelt haben und in der Zwischenzeit auch aus kommerziellen Gründen. Diese Firmen haben festgestellt, dass man die Daten gut verwerten kann.

Die NSA hingegen hat andere Interessen und erstellt Profile von Menschen. Wenn jemand etwas bestimmtes kauft und dazu noch gewisse Dinge im Netz verbreitet, zieht die NSA möglicherweise den Schluss, dass es sich um einen potenziell gefährlichen Menschen handeln könnte. Das sind nach Auffassung von Michael Resch die beiden wesentlichen Entwicklungslinien, aus denen Big Data kam. „Für uns am HLRS bedeutet Big Data etwas anderes. Wir verstehen darunter riesige Datenmengen, die aber schon zusammenhängend sind.“ Und es ist sehr komplex, diese großen Datenpakete zu handhaben. Die Leute aber, die Big Data betreiben, haben ein ganz anderes Problem. Sie haben eine riesige Zahl von kleinen Datensätzen. Den Unterschied erklärt Resch so: „Stellen Sie sich vor, Sie sind in einem Kindergarten und müssen 30 Kinder handhaben – oder aber Sie haben einen Erwachsenen, der dafür sehr kompliziert ist.“ Was ist einem da lieber? Beides ist sehr komplex. Aber jedes auf seine Weise.

Was Resch und seine Kollegen kritisch sehen, ist die teilweise sehr naive Sichtweise, die im Zusammenhang mit Big Data herrsche. Big Data suggeriere Wissenschaftlichkeit. Wenn es aber keinen Zusammenhang zwischen gewissen Phänomenen gibt, dann sollte man es auch nicht so verkaufen. Für vieles von dem, was nun Big-Data-Analysen angeblich herausfinden, brauche man weder große Datenmengen noch große Rechenleistung, sagt Resch.

Eine Speichergeschwindigkeit wie vor fünf Jahren

Wohin die Entwicklung technisch geht, scheint klar. Die Datenspeicherkapazität steigt und steigt. Wo man früher ein Terabyte (1.000.000.000.000 Byte) ablegen konnte, kann man heute ein Petabyte (1.000.000.000.000.000 Byte) speichern. Auch die Festplatten zu Hause haben inzwischen eine deutlich größere Kapazität als noch vor fünf Jahren. Diese Entwicklung wird wohl auch noch so weitergehen. Was hingegen weitgehend stagniert, das ist die Datentransfergeschwindigkeit.

Die Größe der Festplatten oder Magnetbänder steigt also weiter, während die Geschwindigkeit, mit der man Daten speichern kann ungefähr die gleiche ist wie vor fünf Jahren. Und genau hier liegen auch die größten Probleme von großen Rechenzentren. Bis jetzt versucht man, sich mit Parallelität zu behelfen, indem man Daten zum Beispiel gleichzeitig auf tausend Festplatten schreibt. Dieser Vorgang ist jedoch sehr komplex und es funktioniert auch nur bis zu einem gewissen Bereich.

Wer soll das bezahlen

Eine Lösung für schnellere Übertragungsgeschwindigkeiten sieht Michael Resch mittelfristig nicht. Es gibt bis jetzt definitiv nur die Möglichkeit der Parallelität – mit genügend Verbindungslinien. Glasfaserleitungen machen es etwas besser. Denn damit kann man über eine einzelne Linie mehrere Kanäle gleichzeitig aufbauen. Die Grenze ist aber nach wie vor die Taktfrequenz – so wie bei einem Prozessor. Diese Grenze liegt heutzutage bei zwei bis vier Gigahertz, was bedeutet, dass zwei bis vier Milliarden Schaltoperationen pro Sekunde möglich sind. Mit dieser Frequenz können Datenpakete dann verschickt werden. Mit vielen verschiedenen Glasfaser-Kabeln kann man dann entsprechend noch mehr Parallelität erzielen.

Aber nun kommt die Frage auf, wer das alles bezahlen soll? Die Glasfaserkabel sind für viel Geld transatlantisch und transpazifisch gelegt worden. Dass man nun 100 mal so viele Kabel verlegt, ist nicht unmöglich, aber schlichtweg nicht zu bezahlen. Und dass jedem Privathaushalt permanent jede Kapazität zur Verfügung gestellt werden kann, das wird es künftig nicht mehr für eine günstige Flatrate geben. Es gibt Firmen, für die schnelle Leitungen lebensnotwendig sind. „Die werden bereit sein, dafür richtig viel Geld zu bezahlen.“ Aber privat kann man natürlich sagen, dass das Telefon immer funktionieren sollte, das Fernsehen auch. Aber ob eine Datei nun in einer oder eben in zehn Sekunden übertragen wird, das ist vielleicht egal. „Solche Modelle werden kommen“, davon ist Resch überzeugt.