NEWSLETTER ABONNIEREN
Sie interessieren sich für die Projekte und Ergebnisse unserer Zukunftslabore? Unser Newsletter fasst die wichtigsten Ereignisse alle zwei Monate zusammen.
Jetzt anmeldenDie Wissenschaftler*innen des Zukunftslabors Gesundheit haben in den vergangenen Jahren eine Forschungsplattform für die Analyse und den Austausch medizinischer Daten aufgebaut. Mithilfe einer solchen Plattform ist es möglich, Daten verschiedener Akteure des Gesundheitswesens (ambulante, teilstationäre und stationäre Einrichtungen sowie Forschungseinrichtungen) zusammenzuführen und zu verknüpfen. Der Vorteil besteht darin, ein möglichst umfassendes medizinisches Bild von Patient*innen zu erhalten. Dies kann dazu beitragen, Krankheiten frühzeitig zu diagnostizieren und zielgerichtet zu therapieren sowie redundante Datenerhebungen zu verhindern und somit wichtige Ressourcen zu schonen. Dadurch kann die Gesundheitsversorgung effizienter gestaltet werden.
Die Wissenschaftler*innen stehen bei ihrer Arbeit vor der Aufgabe, eine Vielzahl an Daten unterschiedlicher Struktur, Qualität und Herkunft zu strukturieren, zusammenzuführen und zu vernetzen. Hierfür nutzen sie den Interoperabilitätsstandard openEHR (open Electronic Health Record). openEHR ermöglicht die Verwaltung und Speicherung sowie den Abruf und den Austausch von Gesundheitsdaten in elektronischen Patientenakten. Die Wissenschaftler*innen wählten diesen Standard aus, da er die gesamte Spezifikation zur Datenbank, den Datenmodellen und die Schnittstelle zum Datenzugriff umfasst. Außerdem ist openEHR frei verfügbar und kostenlos, sodass andere Forscher*innen oder Informatiker*innen den Standard ebenfalls nutzen können. Dadurch ist es möglich, die Erkenntnisse aus dem Zukunftslabor nachhaltig zu verwenden.
Dokumentation zur Datenplattform evaluieren und optimieren
Im vergangenen Jahr hatten die Wissenschaftler*innen des Zukunftslabors ihr Wissen und ihre Erfahrungen zum Aufbau der Datenplattform in einer Online-Dokumentation zusammengefasst, um ihre Erkenntnisse mit Interessent*innen zu teilen, die eine ähnliche Plattform aufbauen wollen. Im Forschungsjahr 2023 ließen die Wissenschaftler*innen diese Online-Dokumentation im Rahmen eines Studierendenprojektes evaluieren, um zu testen, ob die Anleitung verständlich ist und wo es Verbesserungspotenzial gibt. Die Studierenden erprobten den Einsatz der Plattform und die Nutzung der Online-Dokumentation im Rahmen eines fiktiven Szenarios. Sie sollten sich in die Rolle von Forschenden und Plattformbetreibern versetzen und die Plattform aus Sicht dieser beiden Nutzergruppen testen und bewerten. Die Ergebnisse der Evaluation nutzten die Wissenschaftler*innen, um die Plattform und die Dokumentation zu optimieren. Eine Empfehlung der Studierenden war z. B., Erklärungsvideos zu entwickeln und den Nutzer*innen zur Verfügung zu stellen.
Ausblick: Finalisierung der Online-Dokumentation
Die Wissenschaftler*innen werden die Dokumentation final überarbeiten, die Ergebnisse aus dem Plattformtest zusammenfassen und in eine Empfehlung zur Modellierung von Gesundheitsdaten einfließen lassen.
Modellierung von Gesundheitsdaten und interaktiver Online-Kurs
Die Wissenschaftler*innen des Zukunftslabors Gesundheit nutzen den Standard openEHR für die Modellierung medizinischer Daten. Neben openEHR gibt es weitere Standards, die für die systematische Sammlung, Zusammenführung und Integration von Gesundheitsdaten genutzt werden können. Welcher Standard sich eignet, lässt sich oft nur projektspezifisch bestimmen. Bislang gibt es kaum allgemeine Empfehlungen für die Wahl eines Standards. Daher wollen die Wissenschaftler*innen des Zukunftslabors solche Empfehlungen erarbeiten.
Hierzu interviewten sie fünf Expert*innen aus dem Fachgebiet der Datenmodellierung und werteten die Gespräche mittels der qualitativen Inhaltsanalyse aus. Daraus leiteten sie erste Hypothesen für Empfehlungen zur Gesundheitsdatenmodellierung ab. Auf Basis der Expert*inneninterviews entwickelten die Wissenschaftler*innen außerdem eine Online-Umfrage, um die Aussagen der Expert*innen zu validieren. An dieser Umfrage nahmen Personen teil, die Daten zumeist innerhalb wissenschaftlicher Forschungsprojekte modellieren. Dadurch versuchen die Wissenschaftler*innen Rahmenbedingungen zu identifizieren, die die Nutzer*innen und die Nutzung eines Standards beeinflussen. Die Auswertung dieser Ergebnisse hat bereits begonnen und soll ebenfalls in die Empfehlung einfließen.
Die Wissenschaftler*innen des Zukunftslabors halten ihre Erkenntnisse zur openEHR-basierten Datenplattform nicht nur in einer Online-Dokumentation fest. Sie entwickeln auch einen interaktiven Online-Kurs zur Einführung in openEHR. Zielgruppe sind dabei insbesondere neue Mitarbeiter*innen in medizinischen Datenintegrationszentren sowie Studierende der Medizininformatik und verwandter Studiengänge. Die Teilnehmer*innen des Online-Kurses sollen die Grundprinzipien des Standards kennenlernen und Datenmodelle auf Basis des Standards erstellen.
Ausblick: Modellierungsempfehlungen und Kursdurchführung
Im Forschungsjahr 2024 werden die Wissenschaftler*innen die Empfehlung zur Modellierung von Gesundheitsdaten ausarbeiten. Das Ziel besteht darin, verschiedene Modellierungsansätze zu adressieren, einzuordnen und – soweit es die Ergebnisse erlauben – hinsichtlich optimaler Verwendung zu bewerten. Darüber hinaus werden die Wissenschaftler*innen den Online-Kurs zu openEHR im Sommersemester 2024 durchführen.
Privatheitsbewahrende Datenanalyse
Die medizinischen Daten, die in der Plattform des Zukunftslabors verarbeitet werden, sind höchst sensibel. Daher müssen sie in besonderem Maße geschützt werden. Die Wissenschaftler*innen stehen vor einer zentralen Frage: Wie können medizinische Daten sicher ausgetauscht und ausgewertet werden, sodass die Privatsphäre der Patient*innen geschützt bleibt und trotzdem alle wichtigen Informationen übermittelt und genutzt werden können?
In diesem Zusammenhang beschäftigten sich die Wissenschaftler*innen insbesondere mit privatheitsbewahrenden Analysemethoden (Privacy Preserving Machine Learning Models). Verfahren des Maschinellen Lernens (ML) können Daten in großen Mengen auswerten und sind daher auch für die Auswertung von Gesundheitsdaten vielversprechend. Insbesondere im Kontext medizinischer Daten müssen diese Modelle vor Angriffen geschützt werden, da sie höchst sensible Daten verarbeiten.
Anhand eines Tests verglichen die Wissenschaftler*innen, ob medizinische Datenbanken, die mithilfe von ML-Modellen ausgewertet werden, anfälliger für Angriffe sind als Datenbanken, die ohne ML ausgewertet werden. Hierzu führten die Wissenschaftler*innen selbst Angriffe durch: Angriffe auf Attributinferenzen und Angriffe durch Schätzung fehlender Werte.
Bei einem Inferenzangriff wird das ML-Modell angegriffen, das zur Auswertung der Datenbank eingesetzt wird. Hierbei verwenden die Angreifer*innen Informationen über die Art und Weise, wie das Modell trainiert wurde, um daraus neue Informationen abzuleiten. Bezogen auf die medizinische Datenbank bedeutet dies, dass die Angreifer*innen Informationen erlangen, welche Attribute – also welche Merkmale von Patient*innen – das ML-Modell analysiert. Das können allgemeine Attribute sein (z. B. Hautfarbe) oder spezifische (z. B. Alter, Geschlecht). Indem die Angreifer*innen große Mengen dieser Daten analysieren, erhalten sie Wissen über die Datenbank oder deren Inhalt – ohne auf die Datenbank selbst zuzugreifen.
Die Schätzung fehlender Werte bezieht sich auf eine Datenbank, bei der kein Maschinelles Lernen angewendet wird. In manchen Datensätzen fehlen bestimmte Werte (z. B. zum Geschlecht der Patient*innen). In solchen Fällen versuchen die Angreifer*innen, die fehlenden Informationen auf Basis von Mittelwerten zu schätzen. Wenn z. B. alle Personen in einem bestimmten Datensatz durch das Attribut „männlich“ gekennzeichnet sind, dann wird der fehlenden Wert ebenfalls auf „männlich“ geschätzt.
Der Vergleich dieser beiden Techniken hat gezeigt, dass ein Inferenzangriff auf ein ML-Modell nicht schädlicher bzw. genauso schädlich ist wie die Technik zur Schätzung fehlender Werte. Das ML-Modell stellt demnach keine größere Schwachstelle dar als andere Techniken. Darüber hinaus fanden die Wissenschaftler*innen im Rahmen ihrer Inferenzangriffe heraus, dass diese erfolgreicher sind, je mehr die Angreifer*innen über das trainierte ML-Modell wissen. Bei sogenannten Black-Box-Modellen sind Angriffe weniger schädlich, da hier nicht klar ist, wie das Modell zu seiner Auswertung kommt. Bei sogenannten White-Box-Modellen ist bekannt, wie sie trainiert wurden, weshalb die Angriffe hier schädlicher sein können.
Daraus leitet sich eine weitere Herausforderung ab: ML-Modelle werden oftmals veröffentlicht, um sie weiterzuentwickeln und zu verbessern. In diesem Zusammenhang wird auch preisgegeben, wie sie funktionieren. Diese Information ist für Angreifer*innen sehr hilfreich. Daher müssen die Daten, die mithilfe des ML-Modells analysiert wurden, vor Angriffen besonders geschützt werden. Die Differenzielle Privatsphäre (Differential Privacy) ist eine Möglichkeit, ML-Modelle datenschutzkonform zu veröffentlichen. Dabei werden Datensätze bewusst mit ‚falschen‘ Informationen angereichert, um sie für Angreifer*innen unbrauchbar zu machen. Ein Beispiel: Ein Datensatz enthält nur Daten über männliche Patienten. Nun werden absichtlich Daten über weibliche Patientinnen hinzugefügt, die den Datensatz verändern. Die Angreifer*innen gehen dann von einem gemischt-geschlechtlichen Datensatz aus und ziehen falsche Schlüsse.
Ein weiterer Ansatz zur datenschutzkonformen Veröffentlichung von ML-Modellen ist Privacy by Design: Hierbei wird von Beginn an versucht, das ML-Modell so zu trainieren, dass es möglichst sicher ist. Schon während des Trainings werden also Maßnahmen getroffen, um das Modell zu schützen (z. B. die Anwendung von Techniken, die auf Differenzieller Privatsphäre basieren).
Ausblick: Föderiertes Lernen
Im Jahr Forschungsjahr 2024 werden sich die Wissenschaftler*innen mit föderierten Lerntechniken für medizinische Daten beschäftigten. Föderiertes Lernen ist Teil des Maschinellen Lernens. Dabei werden die Daten dezentral auf verschiedenen Datenplattformen analysiert und die Ergebnisse anschließend plattformübergreifend zusammengeführt. Demnach werden nicht die Rohdaten ausgetauscht, sodass die Dateneigentümer*innen keinen Missbrauch ihrer Daten fürchten müssen.
Medizinische Daten sind sensible interne Daten. Krankenhäuser sollten jedoch durch föderiertes Lernen von der Fülle des Wissens profitieren können, das in den Daten anderer Krankenhäuser enthalten ist. Daher planen die Wissenschaftler*innen, föderierte Lerntechniken zu nutzen und Empfehlungen zu geben, wie sie unter dem Gesichtspunkt des Datenschutzes in die Plattform integriert werden können.