Synthetische Daten – Künstliche Daten für die digitale Zukunft?

Ausschnitt des Demonstrators
Eine erfolgversprechende und in ersten Anwendungsgebieten bereits eingesetzte Methodik ist die Erzeugung von synthetischen Daten. Synthetische Daten sind »künstliche« Daten, die in Eigenschaften und Struktur (idealerweise) den Originaldaten stark ähnlich sind, selbst aber keine »echten« Datenpunkte enthalten. Synthetische Daten werden aus Originaldaten generiert, indem ein mathematisches Modell trainiert wird, das die Struktur der ursprünglichen Daten lernt und reproduzieren kann. Synthetische Daten und Originaldaten sollten daher bei einer statistischen Analyse sehr ähnliche Ergebnisse liefern.

Abbildung 1: Die realen Daten enthalten sensible Informationen und dürfen nicht zur weiteren Analyse herausgegeben werden. Um dennoch Daten bereitstellen zu können, werden mittels eines mathematischen Modelles synthetische Daten erzeugt. Diese sind datenschutz-unbedenklich und können daher frei verfügbar gemacht werden. Analysen auf den synthetischen Daten ergeben ähnliche Resultate, wie wenn Originaldaten verwendet worden wären.
Der Demonstrator Synthetische Daten ist dafür gedacht, Interessierten aus Politik wie Zivilgesellschaft einen einfachen Zugang zu dem komplexen Themenfeld synthetische Daten zu ermöglichen. Anhand von einem Beispieldatensatz (Stadtbäume Berlin) werden ausgewählte Methoden zur Generierung von Daten miteinander verglichen. Die interaktive Anwendung macht die Eigenschaften der (synthetischen) Daten greifbar und erlaubt eine konkrete Anschauung zu ihren Möglichkeiten und Limitationen. Wichtig ist, dass es nicht die eine »beste« Methode gibt. Stattdessen ist je nach Anwendungsfall die Methodik zur Generierung gegebenenfalls anzupassen, wobei insbesondere die Struktur der Daten, die statistischen Eigenschaften sowie der gewünschte Outcome berücksichtigt werden sollten.
Eine wichtige Frage bei der Handhabung von Daten ist die der Qualitätssicherung. Was bedeutet das im Kontext synthetischer Daten? Wenn es sich um visuelle Daten handelt (Bilder oder Geokoordinaten aus dem Demonstrator-Beispiel) hilft oft schon eine Darstellung der Daten, um offensichtliche Qualitätsmängel festzustellen. Bei den hier präsentierten Methoden finden sich Qualitätsunterschiede in der Genauigkeit, mit der die statistischen Eigenschaften der Ausgangsdaten in den erzeugten Daten repliziert wurden. Solche Erkenntnisse können bei der Wahl einer geeigneten Methode herangezogen werden.

Abbildung 2: Realdaten. Aggregierte Verteilung der gepflanzten Bäume der letzten 10 Jahre über Berliner Bezirke

Abbildung 3: Synthetische Daten

Abbildung 4: Tabellarischer Vergleich der Qualität verschiedener Generatormethoden
Für einen einfachen Einstieg in das komplexe Themenfeld und den Demonstrator steht ein Foliensatz zur Verfügung. In diesem sind die verwendeten Daten, Methoden und Zugänge zum Demonstrator auf verständliche Art aufbereitet:
[Link zu den Folien](SynthDatenDemo - 20230421.pdf)
Was zeigt der Demonstrator?
1. Synthetische Daten sind nicht gleich synthetische Daten.
Nützlich sind synthetische Daten dann, wenn sie gewisse statistische Eigenschaften abbilden, die auch in den Originaldaten zu finden sind. Das heißt, sie sollten insbesondere in Bezug auf im Mittelpunkt des Interesses stehende Eigenschaften möglichst »ähnlich« sein. Was das bedeutet, ist jedoch nicht unbedingt eindeutig zu bestimmen. Unterschiedliche Methoden zur Generierung der synthetischen Daten führen zu unterschiedlich guter Abbildung abhängig von der angewandten Vergleichsmetrik.
2. Synthetische Daten können unter Umständen Daten als Alternative zu herkömmlichen Anonymisierungsmethoden genutzt werden.
Anonymisiert werden müssen Daten dann, wenn sie sensible Informationen enthalten, die Rückschlüsse auf Individuen zulassen. Unter Umständen werden Daten aufgrund von Bedenken zu Daten- oder Geheimschutz gar nicht erst veröffentlicht. Offene Daten sind jedoch nicht nur für Forschung elementar wichtig. Eine Möglichkeit könnte sein, statt der Originaldaten entweder eine synthetische Datenbasis zu veröffentlichen, die »ausreichend genau« die statistischen Eigenschaften der Originaldaten abbilden oder direkt die Funktion zur Generierung solcher Daten.
3. Die »Qualität« synthetischer Daten ist nicht ohne Weiteres bestimmbar und Anwendung bleibt herausfordernd.
Was »Qualität« im Kontext synthetischer Daten bedeutet, ist nicht klar definiert. Existieren darüber hinaus Verzerrungen (Bias) in den Originaldaten, werden sich diese wahrscheinlich auch in den synthetischen Daten wiederfinden. Der Versuch, synthetische Daten zu nutzen, um Originaldaten zugunsten von Fairness-Aspekten zu manipulieren, führt ggf. zu inkorrekten Daten.
4. Die Potentiale synthetischer Daten sind groß.
Verstärkte Forschung und Entwicklung praktischer, leicht zugänglicher Anwendungen in dem Themenfeld kann ermöglichen, die derzeitigen Herausforderungen mit synthetischen Daten zu adressieren. Sollen synthetische Daten als Alternative zu dem herkömmlichen Anonymisieren dienen, müssen Methoden gefunden werden, die sicherstellen, dass keine sensiblen Informationen aus den synthetischen Daten extrahiert werden können (Information Leak).
Hier gehts zum interaktiven Synthetische Daten Demonstrator.
Weitere Erklärungen befinden sich in den ergänzenden Folien.