Mehr Transparenz mit Machine Learning
Hand aufs Herz: Wurde jemals eine Datenschutzbestimmung tatsächlich gelesen, bevor das Häkchen gesetzt wurde? Wir fragen uns, gibt es überhaupt eine einzige Datenschutzbestimmung in dieser Welt, die aufmerksam gelesen wurde?
Eher nicht – und das ist eigentlich paradox; schließlich weiß jeder, dass der Umgang mit personenbezogenen Daten durchaus relevant für uns Nutzer ist. Hinzu kommt, dass die Marktlage in Fragen der Datenschutzfreundlichkeit nicht sehr verbraucherfreundlich aussieht, wie die nachfolgende Grafik zeigt. Dennoch stimmen wir Datenschutzbestimmungen in der Regel ungelesen zu. Immer. Überall.
Wir behaupten, das fehlende Interesse liegt daran, dass das ganze Thema einfach viel zu komplex und unübersichtlich ist. Wer hat schon ausreichend juristische und technische Fachkenntnisse, um wichtige von unwichtigen Informationen in den Datenschutztextwüsten zu unterscheiden – geschweige denn die Zeit für so etwas?
Verständliche Datenschutzerklärungen auf einen Blick
Stellen wir uns eine Welt vor, in der man jede Datenschutzbestimmung mit einem Klick prüfen lassen und eine leicht verständliche inhaltliche Zusammenfassung der wichtigsten Punkte erhalten würde.
Genau an dieser Idee haben wir im BMBF-geförderten Projekt PANDIA gemeinsam mit unseren Partnern, dem Karlsruher Institut für Technologie (KIT), der Ascora GmbH, der elevait GmbH, dem OFFIS e.V. – Institut für Informatik, und dem Leibniz-Institut für Informationsinfrastruktur (FIZ Karlsruhe), gearbeitet. Das Projekt lief von März 2020 und ist im August 2024 erfolgreich abgeschlossen worden (FKZ: 16SV8394).
Unser Ziel, mehr Transparenz bei Datennutzungsbedingungen zu schaffen, konnten wir im Laufe der Projektzeit erfolgreich erzielen. Hierfür wurde eine KI-basierte automatisierte Überprüfung und Auswertung der Datennutzungsbedingungen mit interaktiven Assistenzsystemen entwickelt und getestet.
We ❤ Big Data
Denn damit PANDIA funktioniert, bedarf es einer Menge Daten – eine Menge Datennutzungsbedingungen, um genau zu sein. Mit Webcrawlern spüren wir deshalb in einem ersten Schritt des Forschungsprojektes Datennutzungsbedingungen im Netz auf und speichern sie. Anschließend lassen wir die Texte von einem lernenden Algorithmus analysieren. Das wird möglich durch Verfahren aus der Computerlinguistik.
Machine Learning & Natural Language Processing
Konkret arbeiten wir hierfür mit unseren Partnern an einer Kombination aus Machine Learning und Natural-Language-Processing-Verfahren, um den Inhalt von Zehntausenden gecrawlten Datenschutzbestimmungen maschinell auszuwerten.
Das Tolle daran: Im Laufe des Projekts und auch darüber hinaus steigt die Anzahl überprüfter und gespeicherter Datennutzungsbedingungen kontinuierlich an und führt, wie im Machine Learning üblich, zu einer immer besser werdenden Datenqualität und damit zu einem immer intelligenteren Algorithmus.
Erarbeitete Systeme im Zuge des Projektes
Im Projekt wurden unterschiedliche interaktiven Assistenzsysteme entwickelt. Zum einen wurde die Pandipedia, eine webbasierte Plattform für die Ausgabe der analysierten Datennutzungsbedingungen für Nutzer, entwickelt. Zum anderen wurde für Nutzer die PANDIA App für den Smartphone-Gebrauch erstellt, welche die Untersuchung von Apps anbietet, um mehr Transparenz auch auf den mobilen Endgeräten zu ermöglichen.
Anschließenden wurde die App in einer Nutzer-Studie intensiv getestet und untersucht, mit dem Ergebnis, dass die App durch das entwickelte Design und der benutzerfreundlichen Gestaltung gut bei den Testern ankommt. Obwohl die Tester nach der Nutzung besorgt um ihre Daten sind, konnte eine kurzfristige Verhaltensänderung nicht beobachtet werden. Eine mittelfristige Anpassung können sich die Nutzer jedoch vorstellen.
Schlussendlich wurde im Zuge des Projektes auch ein Plug-in für die Browser Chrome und Firefox entwickelt, welches auch nach Abschluss des Projektes Nutzern zur Verfügung steht.
Aufgaben von snoopmedia als Entwicklungspartner
snoopmedia war als Konsortialführer zum einen für die Gewinnung der Daten zuständig, indem hierfür ein Crawler entwickelt wurde. Zum anderen war snoopmedia für die Entwicklung des User Interface, der PANDIA App sowie dem Verbraucher-Portal Pandipedia zuständig.
Auf der Pandipedia werden die analysierten Daten für Nutzer verständlich aufbereitet und zur Verfügung gestellt. Die PANDIA App konzentriert sich vor allem auf die Analyse von Apps auf dem Smartphone.
Gesammelte Erfahrungen
Für uns bedeutete das Projekt vor allem ein Ausbau unserer Expertise in der Arbeit mit dem Framework ionic und vue.js. Darüber hinaus können wir viele Synergien auch für weitere Projekte nutzen. Wir freuen uns über den gelungenen Projektabschluss und bedanken uns bei allen Partnern für die erfolgreiche Zusammenarbeit!