Foto: ImmunoSensation

„Wir sind schon heute in vielen Bereichen der Alzheimerforschung auf Algorithmen und Computermodelle angewiesen”

Ein Interview mit Prof. Dr. Joachim Schultze

Bei der Erforschung von neurodegenerativen Erkrankungen wie Alzheimer werden inzwischen sehr große Datenmengen erhoben. Deshalb ist eine enge Zusammenarbeit zwischen Immunologie, Genomik und Bioinformatik ein wichtiger Baustein für die Zukunft der Alzheimerforschung. An dieser Schnittstelle setzt die „Platform for Single Cell Genomics and Epigenomics” an. Wir haben mit ihrem Direktor Prof. Dr. Joachim Schultze über die Kooperation zwischen dem Deutschen Zentrum für Neurodegenerative Erkrankungen (DZNE) und der Hewlett-Packard Enterprise (HPE) gesprochen.

„Ich bin sehr davon überzeugt, dass die Lebenswissenschaften und die Medizin vor einer Revolution stehen, bei der die Mathematik und die Computerwissenschaften eine wesentliche Rolle spielen werden.”

Welchen Beitrag kann die Bioinformatik für die Demenzforschung leisten?

Allgemein kann festgehalten werden, dass rechnergestützte Verfahren in der Medizin und den Lebenswissenschaften schon heute nicht mehr wegzudenken sind. Aber wir werden eine noch viel größere Revolution in den biomedizinischen Wissenschaften sehen, wenn wir unsere Analysen quantitativ durchführen können, denn das ist die Voraussetzung für die Anwendung sehr mächtiger mathematischer Verfahren. Und auf diesem Weg befindet sich die Biotechnologie im Augenblick. Die Demenzforschung ist hier keine Ausnahme.

Wir wissen heute natürlich noch nicht, ob wir in der Klinik in naher Zukunft mittels Algorithmen und Computermodellen Diagnostik und Therapie bei Alzheimerpatienten unterstützen werden, so wie das teilweise bei der Behandlung von Krebspatienten bereits erfolgt. Dennoch kann man sagen, dass wir schon heute in vielen Bereichen der Alzheimerforschung auf Algorithmen und Computermodelle angewiesen sind. Bei der Berechnung von MRT-Bildern, bei der Analyse von Transkriptom-Daten, bei der Bewertung epidemiologischer Daten oder genetischer Daten sind Algorithmen und Computermodelle schon heute unverzichtbar. Ich bin sehr davon überzeugt, dass die Lebenswissenschaften und die Medizin vor einer Revolution stehen, bei der die Mathematik und die Computerwissenschaften eine wesentliche Rolle spielen werden. Aber ich kann auch beruhigen, dies wird niemals den Arzt und Forscher ersetzen, sehr wohl aber in seiner Entscheidungsfindung unterstützen werden.

„Bei der Hardware stoßen wir inzwischen an Grenzen.”

Welche Daten werden denn im Rahmen der Kooperation analysiert?

Im Augenblick beschäftigen wir uns mit der Beschleunigung der Analyse von Genomdaten, exakter sogenannten Transkriptomdaten. Bei der Abschreibung von Genen im Genom für die Herstellung von Proteinen werden als Zwischenstufe sogenannte Transkripte, das sind RNA-Moleküle, erstellt. Die Gesamtheit aller Transkripte stellen das Transkriptom dar. Auch das Transkriptom einer Zelle oder eines Gewebes kann mit Hilfe von modernen Sequenziergeräten in einem einzigen Experiment gemessen werden. Dabei entstehen viele Millionen Datenpunkte, die mit Hilfe moderner Algorithmen wieder zu einem Gesamtbild zusammengesetzt werden müssen.

Hierfür verwenden wir Referenzdaten des Genoms, mit deren Hilfe wir einen Abgleich mit dem Genom erstellen und dann die Anzahl einzelner Transkripte bewerten können. Diese Prozesse dauern sehr lang, vor 10 Jahren benötigten wir für ca 140 Millionen Datenpunkte noch mehr als eine Woche an Rechenzeit auf großen Rechenclustern. Innerhalb der letzten 10 Jahre wurden die Algorithmen bereits stark verbessert, so dass wir bis vor kurzem dafür nur noch eine halbe Stunde benötigten. Mit dem Memory-Driven Computing von HPE haben wir diesen Prozess jetzt auf nur noch 13 Sekunden beschleunigen können. Die Analyse wird also deutlich beschleunigt, was natürlich ein echter Mehrwert für die Forschung ist.

Wieso war das vorher nicht möglich?

Das liegt vor allem an den sogenannten Cloud-Lösungen, die bisher für die Speicherung großer Datenmengen favorisiert werden. Dabei werden die Daten von der Quelle der Datengenerierung, also zum Beispiel einem Genomsequenzierer oder einem MRT-Gerät auf einen zentralen Speicher verlagert. Die Idee ist an und für sich nicht schlecht, denn so können Daten an einem einzigen Ort gelagert und auch wieder verarbeitet und analysiert werden. Leider ergeben sich daraus auch große Probleme: die Daten müssen über langsame Datenleitungen transportiert werden, es kommt in der Regel zur Verdoppelung der Daten, denn die Daten werden meist nicht lokal gelöscht, und es muss sichergestellt werden, dass der Cloud-Speicher deutschen Datenschutzregeln entspricht. Dies sind nur einige der Nachteile. Auch bei der Hardware stoßen wir inzwischen an Grenzen, da wir große Datenmengen in der Genomforschung am besten immer im Arbeitsspeicher vorhalten sollten. Das ist mit der augenblicklichen Hardware-Architektur nicht mehr gut skalierbar.

„Bezogen auf die Kooperation des DZNE mit HPE zur Erforschung des Einsatzes von Memory-Driven Computing in der medizinischen Forschung, sind wir in der Tat weltweit die ersten.”

Was kann man dagegen tun?

Es wäre sinnvoll, wenn die Rohdaten vor Ort verbleiben und nur die Analysen zentral gesteuert werden könnten. Man spricht hier vom Distributed Mesh Computing. Darüber hinaus wäre es gut, einen großen lokalen Speicher zu haben, auf dem die Daten abgelegt werden können und auf den viele Prozessoren direkt zugreifen könnten, ohne die Daten jeweils mühsam in den kleinen Arbeitsspeicher laden zu müssen. Diese Technologie nennt man Memory-Driven Computing. Auf beiden Gebieten ist HPE führend. Ziel unserer Kooperation ist es jetzt, die Möglichkeiten dieser beiden Verfahren für das DZNE nutzbar zu machen.

Wie weit sind Sie bisher und wie gut funktioniert das?

Wir stehen sicherlich noch ganz am Anfang. Zunächst wollen wir mit kleinen wohl-definierten Projekten aufzeigen, dass unsere Datenspeicherung, -verarbeitung und -analyse lokal am Standort Bonn mittels Memory-Driven Computing beschleunigt, einfacher und sicherer gemacht werden kann. In einem zweiten Schritt wollen wir dann die Technologie auch anderen Standorten des DZNE verfügbar machen und später dann mittels Distributed Mesh Computing zu einem einzigen DZNE-Datennetzwerk verknüpfen. Dies liegt aber noch ein wenig in der Zukunft.

Trotzdem haben wir bereits erste Erfolgserlebnisse zu verzeichnen. Einer meiner Mitarbeiter, Dr. Matthias Becker, hat gemeinsam mit Experten der Hewlett-Packard Labs in Palo Alto einen unserer wichtigsten Algorithmen zur Bestimmung von Transkriptomen mittels Memory-Driven Computing um das 100-fache beschleunigt, und das auch noch bei deutlich weniger Energieverbrauch. Das sind hervorragende Ergebnisse.

Gibt es andere Projekte die einen ähnlichen Ansatz verfolgen?

Bezogen auf die Kooperation des DZNE mit HPE zur Erforschung des Einsatzes von Memory-Driven Computing in der medizinischen Forschung, speziell in der Genomforschung, sind wir in der Tat weltweit die ersten. Darauf sind wir auch stolz. Das dies der richtige Weg ist, zeigt uns und HPE das große Interesse anderer Forschungseinrichtungen, ebenfalls Zugang zu dieser zukunftsweisenden Technologie zu bekommen.

Zur Person

Prof. Dr. Joachim Schultze forscht am Deutschen Zentrum für Neurodegenerative Erkrankungen (DZNE). Er ist Leiter der Abteilung für Genomik & Immunregulation am Life & Medical Science Institute (LIMES) der Universität Bonn.

Foto: ImmunoSensation

Mehr zu dem Thema