Möchten auch Sie nachhaltig garantieren, dass Ihre datengetriebenen Anwendungen die Privatsphäre jeder Person schützen?
In unserem Zeitalter werden Daten vermehrt gesammelt und unter anderem mit Werbetreibenden, Forschern und Regierungsämtern geteilt. Dabei ist es besonders wichtig, die Privatsphäre der Personen und personenbezogenen Daten zu schützen. Die DSGVO, die die gesetzliche Grundlage zum Datenschutz bildet, definiert als personenbezogenen Daten «alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen» (https://dsgvo-gesetz.de/themen/personenbezogene-daten/). Nun stellt sich folgende Frage: Welche Informationen machen nun eine Person identifizierbar?
Jegliche Information, die Kunden, Patienten und Nutzer voneinander unterscheiden lässt, kann potenziell rückverfolgbar sein und macht somit eine Person identifizierbar. Dies wurde mehrfach in der Forschung belegt. Folgende Papers beschreiben, wie man mit Hintergrundwissen (welches oft öffentlich zugänglich ist), vermeintlich anonyme Datensätze de-anonymisieren kann. In beiden Fällen wurden als identifizierend geltende Informationen wie Name und Adresse entfernt:
Diese Beispiele unterstreichen, dass die herkömmlichen Methoden des Aggregierens oder des Maskierens/Entfernens offensichtlicher Identifikatoren wie Namen und Adressen nicht ausreicht, um die Privatsphäre zu schützen. In beiden Fällen wurde mit nur 3 Merkmalen gearbeitet, die oft fälschlicherweise nicht als Daten gelten, die eine Person identifizierbar machen.
Mithilfe einer mathematisch robusten Definition von Privatsphäre kann Privatsphäre besser garantiert werden. Anhand der Definition kann dann bestimmt werden, welche Abfragemechanismen die Definition einhalten und welche nicht. Ein solcher Versuch, Privatsphäre mit mathematischen Formeln zu definieren ist die differential Privacy. Sie besagt, dass die Existenz oder Absenz einer Person in einem Datensatz einen vernachlässigbaren Unterschied auf ein Abfrageresultat haben soll. Der grundliegende Mechanismus ist das Hinzufügen einer korrekten Menge Rauschen auf das Abfrageresultat. Die Grundannahme dabei ist, dass bei jeder preisgegebenen Information auch «privacy Budget» konsumiert wird. Dieses «privacy Budget» wird dann eingeschränkt und, sobald aufgebraucht, liefern Abfragen keine Resultate mehr. Differential Privacy wird bereits in vielen Fällen angewandt:
Ein bekannter Use Case von differential Privacy entsteht, wenn Daten an dritte weitergegeben werden. Dies passiert beispielsweise, wenn ein Krankenhaus Aggregationsdaten an ein Forschungsinstitut weitergeben möchte. Wenn dieses Krankenhaus beispielsweise das durchschnittliche Alter aller Patienten einmal monatlich an das Forschungsinstitut liefert und das Forschungsinstitut aus einer weiteren Quelle weiss, dass ein Patient in einem neuen Monat hinzugekommen ist, dann weiss es durch die Differenz der Durchschnittsalter das genaue Alter des neuen Patienten.
Abbildung: Eine Veranschaulichung der monatlichen Datenlieferung des Krankenhauses
Um differential Privacy sicherzustellen, muss eine Schnittstelle zwischen Krankenhaus und Forschungsinstitut existieren, welches folgende Funktionen erfüllt:
Es ist weiterhin wichtig, dass das Forschungsinstitut Informationen über die Daten nur über die Schnittstelle erhält und, dass die Datenbank gut geschützt ist.
Wollen Sie auch sicherstellen, dass Ihre datengetriebenen Anwendungen die Privatsphäre jeder Person respektieren und schützen? Durch den Einsatz fortschrittlicher Methoden können Sie nicht nur die Privatsphäre Ihrer Nutzer wahren, sondern auch das Vertrauen in eure Marke stärken. In einer Welt, in der Daten gleichzeitig eine wertvolle Ressource und ein Risikofaktor sind, ist es entscheidend, die richtigen Technologien und Strategien zu wählen. Lassen Sie uns gemeinsam einen Weg finden, datenbasierten Dienste zu optimieren, ohne Kompromisse beim Datenschutz einzugehen.
Autor: Justin MacPherson