Expertise vom 19.02.24

Differential Privacy

Differential Privacy

Möchten auch Sie nachhaltig garantieren, dass Ihre datengetriebenen Anwendungen die Privatsphäre jeder Person schützen?

In unserem Zeitalter werden Daten vermehrt gesammelt und unter anderem mit Werbetreibenden, Forschern und Regierungsämtern geteilt. Dabei ist es besonders wichtig, die Privatsphäre der Personen und personenbezogenen Daten zu schützen. Die DSGVO, die die gesetzliche Grundlage zum Datenschutz bildet, definiert als personenbezogenen Daten «alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen» (https://dsgvo-gesetz.de/themen/personenbezogene-daten/).  Nun stellt sich folgende Frage: Welche Informationen machen nun eine Person identifizierbar?

Was sind identifizierbare Daten?

Jegliche Information, die Kunden, Patienten und Nutzer voneinander unterscheiden lässt, kann potenziell rückverfolgbar sein und macht somit eine Person identifizierbar. Dies wurde mehrfach in der Forschung belegt. Folgende Papers beschreiben, wie man mit Hintergrundwissen (welches oft öffentlich zugänglich ist), vermeintlich anonyme Datensätze de-anonymisieren kann. In beiden Fällen wurden als identifizierend geltende Informationen wie Name und Adresse entfernt:

  1. 1. Anonyme Netflix Nutzerbewertungen wurden mithilfe von öffentlichen IMDb Bewertungen deanonymisiert (https://www.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf). Genutzte Merkmale: Filmname, Bewertung und Zeitstempel der Bewertung
  2. 2. Patientendaten wurden mithilfe von öffentlichen Wählerregistrierungen deanonymisiert (https://epic.org/wp-content/uploads/privacy/reidentification/Sweeney_Article.pdf). Genutzte Merkmale: Postleitzahl, Geburtsdatum und Geschlecht

Diese Beispiele unterstreichen, dass die herkömmlichen Methoden des Aggregierens oder des Maskierens/Entfernens offensichtlicher Identifikatoren wie Namen und Adressen nicht ausreicht, um die Privatsphäre zu schützen. In beiden Fällen wurde mit nur 3 Merkmalen gearbeitet, die oft fälschlicherweise nicht als Daten gelten, die eine Person identifizierbar machen.

Was ist differential Privacy?

Mithilfe einer mathematisch robusten Definition von Privatsphäre kann Privatsphäre besser garantiert werden. Anhand der Definition kann dann bestimmt werden, welche Abfragemechanismen die Definition einhalten und welche nicht. Ein solcher Versuch, Privatsphäre mit mathematischen Formeln zu definieren ist die differential Privacy. Sie besagt, dass die Existenz oder Absenz einer Person in einem Datensatz einen vernachlässigbaren Unterschied auf ein Abfrageresultat haben soll. Der grundliegende Mechanismus ist das Hinzufügen einer korrekten Menge Rauschen auf das Abfrageresultat. Die Grundannahme dabei ist, dass bei jeder preisgegebenen Information auch «privacy Budget» konsumiert wird. Dieses «privacy Budget» wird dann eingeschränkt und, sobald aufgebraucht, liefern Abfragen keine Resultate mehr. Differential Privacy wird bereits in vielen Fällen angewandt:

  1. 1. Apple nutzt differential Privacy, um bei der Entwicklung ihrer datengetriebenen Auto Complete und Sprachassistenten die Privatsphäre zu schützen (https://www.apple.com/privacy/docs/Differential_Privacy_Overview.pdf)
  2. 2. Windows nutzt differential Privacy für das Sammeln von Telemetriedaten (https://www.microsoft.com/en-us/research/publication/collecting-telemetry-data-privately/)
  3. 3. Facebook hat ein Datensatz ihrer Nutzer mit differential Privacy geschützt und für Forschungszwecke veröffentlicht (https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/TDOAPG)
Anwendung von differential Privacy

Ein bekannter Use Case von differential Privacy entsteht, wenn Daten an dritte weitergegeben werden. Dies passiert beispielsweise, wenn ein Krankenhaus Aggregationsdaten an ein Forschungsinstitut weitergeben möchte. Wenn dieses Krankenhaus beispielsweise das durchschnittliche Alter aller Patienten einmal monatlich an das Forschungsinstitut liefert und das Forschungsinstitut aus einer weiteren Quelle weiss, dass ein Patient in einem neuen Monat hinzugekommen ist, dann weiss es durch die Differenz der Durchschnittsalter das genaue Alter des neuen Patienten.

Abbildung: Eine Veranschaulichung der monatlichen Datenlieferung des Krankenhauses

 

Um differential Privacy sicherzustellen, muss eine Schnittstelle zwischen Krankenhaus und Forschungsinstitut existieren, welches folgende Funktionen erfüllt:

  1. 1. Die Abfragemöglichkeiten einschränken. Gewisse Abfragen sind in der differential Privacy grundsätzlich verboten, z.B.: abfragen von Individuen
  2. 2. Rauschen zu Abfrageergebnissen hinzufügen. Um Situationen wie die obige zu vermeiden, muss Rauschen zu dem Ergebnis hinzugefügt werden.
  3. 3. Historie des konsumierten privacy Budget. Um den Zugang zu den Daten zu unterbinden, wenn das Budget aufgebraucht ist und um Angriffe zu vermeiden, bei denen ein Analyst beispielsweise öfters dieselbe Abfrage abschickt, um dann einen Durchschnitt zu errechnen, um eine genauere Antwort zu erhalten.

Es ist weiterhin wichtig, dass das Forschungsinstitut Informationen über die Daten nur über die Schnittstelle erhält und, dass die Datenbank gut geschützt ist.

Wollen Sie auch sicherstellen, dass Ihre datengetriebenen Anwendungen die Privatsphäre jeder Person respektieren und schützen? Durch den Einsatz fortschrittlicher Methoden können Sie nicht nur die Privatsphäre Ihrer Nutzer wahren, sondern auch das Vertrauen in eure Marke stärken. In einer Welt, in der Daten gleichzeitig eine wertvolle Ressource und ein Risikofaktor sind, ist es entscheidend, die richtigen Technologien und Strategien zu wählen. Lassen Sie uns gemeinsam einen Weg finden, datenbasierten Dienste zu optimieren, ohne Kompromisse beim Datenschutz einzugehen.

Autor: Justin MacPherson

Biel
Bahnhofstrasse 15
2502 Biel
+41 32 329 90 30

Zürich
Herostrasse 12
8048 Zürich
+41 32 329 90 30

Luzern
Platz 4
6039 Root D4
+41 32 329 90 30

Bern
Lindenpark
Lindenhofstrasse 1
3048 Worblaufen
+41 32 329 90 30

News Archive Jobs Archive Referenzen Archive Academy Archive Solution Brief Archive Scaled Agile Framework (SAFe®)