Understanding and assessment of privacy risks in machine learning systems

Chen, Min

Please use this identifier to cite or link to this item: doi:10.22028/D291-42104

Title:	Understanding and assessment of privacy risks in machine learning systems
Author(s):	Chen, Min
Language:	English
Year of Publication:	2024
DDC notations:	004 Computer science, internet 620 Engineering and machine engineering
Publikation type:	Dissertation
Abstract:	Data privacy has emerged as a significant issue due to the growing concern about safeguarding personal information. Given the multifaceted nature of the data processing paradigm, a crucial area of research pertains to comprehending and mitigating privacy risks throughout the intricate data life cycle. An important milestone in understanding data privacy risks is the privacy regulations. Many countries and regions have enacted privacy regulations to protect users’ privacy, but they lack concrete implementation details of the rights in the machine learning (ML) practice. This dissertation presents a line of work that first understands the privacy of ML systems through the lens of privacy regulations and then assesses the privacy risks in two practical ML systems. We start with the “right to be forgotten” regulation and focus on its technical implementation in ML systems, referred to as machine unlearning. Concretely, we design GraphEraser for efficient and utility-preserving revoking nodes/edges and their impacts on graph neural networks. Second, we answer whether existing machine unlearning algorithms can leak extra information about the training data. We find that machine unlearning was initially designed to lower the privacy risks of revoked data but the deleting process exposes more risks. Third, we examine a common practice when sharing graph embedding with third parties that severely leaks information about the training graph. Lastly, we assess the privacy risks in the few-shot facial recognition system, and we propose an auditing tool called Face-Auditor to address the unconsent data misuse problems. Our results illustrate the unintended privacy risks in the existing machine unlearning algorithms, empirically reveal the privacy risks in ML systems, and can shed light on designing trustworthy, privacy-preserving ML systems. Datenschutz ist aufgrund wachsender Bedenken um den Schutz persönlicher Informationen zu einem bedeutenden Thema geworden. Angesichts der vielschichtigen Natur des Paradigmas der Datenverarbeitung ist ein entscheidender Forschungsbereich die Erfassung und Minderung von Datenschutzrisiken im komplexen Lebenszyklus der Daten. Ein wichtiger Meilenstein im Verständnis von Datenschutzrisiken bei Daten ist die Datenschutz Regulierung. Viele Länder und Regionen haben Datenschutzvorschriften erlassen, um die Privatsphäre der Nutzer zu schützen, aber ihnen fehlen konkrete Umsetzungs Details der Rechte in der Praxis des maschinellen Lernens (ML). Diese Dissertation präsentiert eine Arbeitslinie, die zunächst den Datenschutz von ML-Systemen im Licht der Datenschutzvorschriften versteht und dann die Datenschutzrisiken in zwei praktischen ML-Systemen bewertet. Wir beginnen mit der Datenschutzverordnung "Recht auf Vergessenwerden" und konzentrieren uns auf dessen technische Umsetzung in MLSystemen, die als "maschinelles Verlernen" bezeichnet wird. Konkret entwerfen wir GraphEraser für das effiziente und nutzen erhaltende Widerrufen von Knoten/Kanten und deren Auswirkungen auf Graph-Neuronale-Netzwerke. Zweitens beantworten wir die Frage, ob bestehende Algorithmen zum maschinellen Verlernen zusätzliche Informationen über die Trainingsdaten preisgeben können. Wir stellen fest, dass das maschinelle Verlernen ursprünglich dazu entworfen wurde, die Datenschutzrisiken von widerrufenen Daten zu verringern, aber der Löschprozess zusätzliche Risiken aufdeckt. Drittens untersuchen wir eine gängige Praxis beim Teilen von Graph-Einbettungen mit Dritten, die Informationen über den Trainingsgraphen stark preisgibt. Schließlich bewerten wir die Datenschutzrisiken im Few-Shot-Gesichtserkennungssystem, und wir schlagen ein Prüfungstool namens Face-Auditor vor, um Probleme bei der nicht genehmigten Datennutzung anzugehen. Unsere Ergebnisse veranschaulichen die unbeabsichtigten Datenschutzrisiken in den bestehenden Algorithmen zum maschinellen Verlernen, enthüllen empirisch die Datenschutzrisiken in ML-Systemen und können dazu beitragen, vertrauenswürdige, datenschutz orientierte ML-Systeme zu entwerfen.
Link to this record:	urn:nbn:de:bsz:291--ds-421043 hdl:20.500.11880/37830 http://dx.doi.org/10.22028/D291-42104
Advisor:	Backes, Michael
Date of oral examination:	22-May-2024
Date of registration:	7-Jun-2024
Third-party funds sponsorship:	Helmholtz Association within the project “Trustworthy Federated Data Analytics” (TFDA).
Sponsorship ID:	ZT-I-OO14
Faculty:	MI - Fakultät für Mathematik und Informatik
Department:	MI - Informatik
Professorship:	MI - Prof. Dr. Michael Backes
Collections:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:

File	Description	Size	Format
MinChen_thesis_final.pdf		6,85 MB	Adobe PDF	View/Open

Export: BibTex

This item is licensed under a Creative Commons License