Technik

Technischer Ansatz des PROSurvival-Projekts

Der PROSurvival-Ansatz kombiniert föderiertes Lernen und prädiktive Mustererkennung, um effizientes Deep-Learning-Training an mehreren Standorten zu ermöglichen. Wir kombinieren das zentrale Mining von Whole-Slide-Imaging-Daten (WSI) mit einer datenschutzfreundlichen föderierten Korrelation zu assoziierten klinischen Daten, die ideale klinische Endpunkte mit hoher Relevanz für die Patientenbehandlung und -prognose bilden. Um WSIs und zugehörige Daten zu korrelieren, ohne die Privatsphäre der Patienten zu gefährden, wird PROSurvival eine datenschutzfreundliche föderierte Lerninfrastruktur auf der Grundlage bestehender Frameworks implementieren. Wir werden das Training der föderierten Lernpipeline in zwei Schritten durchführen:

  • Schritt 1: Extraktion prädiktiver Muster: Die aus Sicht des Datenschutzes weniger sensiblen WSI-Daten werden zentral analysiert und mit Hilfe von Ansätzen Neural Image Compression und dem Multi-Task-Lernen zu klinisch prädiktiven Musterinformationen verdichtet. Durch die Extraktion von Mustern aus mehreren Datensätzen wird eine neuartige abstrakte Darstellung erlernt, die weniger von den lokalen Besonderheiten (z. B. Färbung oder Präparationsverzerrung) eines einzelnen klinischen Zemtrums abhängig ist. Die Extraktion von prädiktiven Mustern reduziert die zu übertragende Datenmenge und erleichtert die Analyse auf handelsüblicher Hardware in den klinischen Zentren.
  • Schritt 2: Datenverknüpfung und föderiertes Training: An den klinischen Zentren werden die WSI-Daten und/oder die kondensierten prädiktiven Muster mit den zugehörigen Daten verknüpft. In einer föderierten Trainingsschleife wird ein gemeinsames Deep-Learning-Modell berechnet. Ein zentraler Server wird die Aktualisierungen und die Aggregation koordinieren. Methoden der differential Privacy werden eingesetzt, um die Datensicherheit während des Trainings zu gewährleisten.

Der Schwerpunkt liegt auf der Gewinnung von Ergebnissen aus klinischen Daten, wobei die Infrastruktur so schlank wie möglich gehalten werden soll, ohne die Integrität und den Datenschutz der klinischen Daten zu beeinträchtigen. Wir werden die Implementierung auf Open-Source-Federated-Learning-Methoden und auf Komponenten für das Daten- und KI-Modellmanagement aus dem Projekt EMPAIA stützen.

Das Hauptergebnis der Datenanalyse in PROSurvival wird ein an mehreren Standorten trainiertes Modell sein, das leicht auf zusätzliche Standorte erweitert werden kann.

Die Bilddaten werden in einem Format bereitgestellt, das den etablierten Standards wie DICOM und den Richtlinien der MI-I und der relevanten NFDI-Konsortien entspricht.