AI model stealing under realistic threat models: Risks and countermeasures

Zhuang, Zhixiong

Please use this identifier to cite or link to this item: doi:10.22028/D291-47202

Title:	AI model stealing under realistic threat models: Risks and countermeasures
Author(s):	Zhuang, Zhixiong
Language:	English
Year of Publication:	2025
DDC notations:	600 Technology
Publikation type:	Dissertation
Abstract:	Artificial intelligence (AI) models are now widely deployed across domains such as control systems, healthcare, and conversational agents, where they drive significant improvements in automation and task performance. Models can be characterized at different levels, from high-level functionality to internal components like architectures, learned parameters, and, in the case of language models, system prompts. Designing and optimizing these elements requires substantial investment, including curated proprietary datasets, expert-tuned objectives, and significant computational resources, making them valuable intellectual property (IP). However, recent research shows that attackers can reproduce model functionality through repeated black-box queries, using the target models’ predictions to train a proxy model, even without access to their architecture or parameters. This attack, known as model functionality stealing, raises serious concerns for IP protection. These risks are amplified in real-world applications and by the growing use of generative artificial intelligence (GenAI). This dissertation investigates AI model stealing under realistic threat scenarios to advance the security of AI systems. Specifically, we focus on two central questions: (1) Can model functionality be extracted in specific, real-world applications? (2) How does the rise of GenAI reshape the model stealing landscape, both by enabling new attacks and by requiring defenses against theft of the GenAI models themselves? Firstly, we explore model stealing in real-world applications to reveal the vulnerabilities of AI models under constrained attacker knowledge. We specifically investigate model stealing in control systems and healthcare, two domains of high relevance for Bosch applications. The results presented in this thesis were developed in the industry PhD program of Bosch Research. We introduce a method for stealing reinforcement learning policies in control systems without access to the deployed environment. We also present a framework for stealing medical multimodal large language models (LLMs) by adversarially aligning natural images to the model’s domain, without requiring domain-specific data. These attacks show that model functionality can be replicated even under strict knowledge constraints in real-world applications, calling for the deployment of protection mechanisms. Secondly, we investigate the impact of generative AI on model stealing, highlighting both attack and defensive aspects. On the attack side, we show that pretrained generative models can be repurposed for scalable and automated extraction attacks through our proposed prompt evolution framework. Our method guides image generation to better approximate the victim’s training data. On the defense side, we study system prompt extraction in LLMs, a new threat to GenAI, and propose a defense against it. Since system prompts define model behavior, their leakage effectively enables functionality stealing. To address this, we replace the original prompt with an optimized proxy to preserve utility while preventing semantic recovery. In summary, this dissertation characterizes the risk landscape of AI model stealing under realistic threat models. It offers guidance for building more secure and resilient AI systems in practice. Artificial intelligence (AI)-Modelle sind heute in zahlreichen Bereichen wie Steuerungssystemen, Gesundheitswesen und dialogbasierten Agenten weit verbreitet im Einsatz und ermöglichen erhebliche Fortschritte in Automatisierung und Aufgabenbewältigung. Modelle lassen sich auf verschiedenen Ebenen charakterisieren, von der funktionalen Gesamtleistung bis hin zu internen Komponenten wie Architekturen, gelernten Parametern und im Fall von Sprachmodellen auch Systemprompts. Die Entwicklung und Optimierung dieser Elemente erfordert beträchtliche Investitionen, einschließlich kuratierter proprietärer Datensätze, durch Experten angepasster Ziele und erheblicher Rechenressourcen, wodurch sie wertvolles IP darstellen. Neuere Arbeiten zeigen jedoch, dass Angreifer die Funktionalität von Modellen durch wiederholte Black-Box-Abfragen reproduzieren können, indem sie die Vorhersagen des Zielmodells nutzen, um ein Proxy-Modell zu trainieren – selbst ohne Zugriff auf Architektur oder Parameter. Dieser Angriff, bekannt als Model Functionality Stealing, wirft schwerwiegende Fragen des IP-Schutzes auf. Diese Risiken werden in realen Anwendungen sowie durch die zunehmende Nutzung von generative artificial intelligence (GenAI) weiter verstärkt. Diese Dissertation untersucht das Stehlen von AI-Modellen unter realistischen Bedrohungsmodellen, um die Sicherheit von AI-Systemen zu verbessern. Im Mittelpunkt stehen zwei zentrale Fragen: (1) Lässt sich Modellfunktionalität in realistischen Anwendungen extrahieren? (2) Wie verändert der Aufstieg von GenAI die Landschaft des Model Stealing – sowohl durch neue Angriffsmöglichkeiten als auch durch den notwendigen Schutz der GenAI-Modelle selbst? Zunächst analysieren wir das Model Stealing in realistischen Anwendungen, um die Verwundbarkeit von AI-Modellen bei eingeschränktem Wissen des Angreifers aufzuzeigen. Wir untersuchen dies in den Bereichen Steuerungssysteme und Gesundheitswesen, die für Bosch – den Förderer dieser Dissertation – von hoher Relevanz sind. Wir stellen eine Methode vor, die Verstärkungslern-Policies in Steuerungssystemen stiehlt, ohne Zugang zur eingesetzten Umgebung zu haben. Darüber hinaus präsentieren wir ein Framework, das medizinische multimodale LLMs angreift, indem natürliche Bilder adversarial an den medizinischen Zielbereich angepasst werden, ohne dass domänenspezifische Daten erforderlich sind. Diese Angriffe belegen, dass Modellfunktionalität auch unter strikten Wissensbeschränkungen repliziert werden kann, was den Bedarf an Schutzmechanismen in realen Anwendungen unterstreicht. Anschließend untersuchen wir den Einfluss generativer AI auf Model Stealing und beleuchten sowohl Angriffs- als auch Verteidigungsaspekte. Auf der Angriffsseite zeigen wir, dass vortrainierte generative Modelle für skalierbare und automatisierte Extraktionsangriffe genutzt werden können. Unser Prompt-Evolution-Framework steuert die Bildgenerierung so, dass sie das Trainingsdatenverhalten des Opfers besser approximiert. Auf der Verteidigungsseite befassen wir uns mit der Extraktion von Systemprompts in LLMs, einer neuen Bedrohung für GenAI, und entwickeln eine Schutzmaßnahme dagegen. Da Systemprompts das Modellverhalten definieren, ermöglicht ihre Offenlegung im Wesentlichen ein Funktionalitätsdiebstahl. Zur Abwehr ersetzen wir das ursprüngliche Prompt durch ein Proxy, das so optimiert wird, dass die Nützlichkeit erhalten bleibt, während eine semantische Rekonstruktion verhindert wird. Zusammenfassend charakterisiert diese Dissertation das Risikofeld des Model Stealing unter realistischen Bedrohungsmodellen. Sie liefert Orientierung für den Aufbau sichererer und robusterer AI-Systeme in der Praxis.
Link to this record:	urn:nbn:de:bsz:291--ds-472025 hdl:20.500.11880/41984 http://dx.doi.org/10.22028/D291-47202
Advisor:	Fritz, Mario
Date of oral examination:	25-Feb-2026
Date of registration:	8-Jun-2026
Faculty:	MI - Fakultät für Mathematik und Informatik
Department:	MI - Informatik
Professorship:	MI - Prof. Dr. Mario Fritz
Collections:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:

File	Description	Size	Format
Dissertation_Zhixiong.pdf		22,31 MB	Adobe PDF	View/Open

Export: BibTex