Please use this identifier to cite or link to this item:
doi:10.22028/D291-46730 | Title: | Anomaly detection in longitudinal clinical profile |
| Author(s): | Rahman, Maxx Richard |
| Language: | English |
| Year of Publication: | 2025 |
| DDC notations: | 004 Computer science, internet 600 Technology |
| Publikation type: | Dissertation |
| Abstract: | This thesis investigates anomaly detection in longitudinal clinical data, with a particular focus on anti-doping applications where athlete monitoring requires identifying subtle, temporally embedded deviations in biological profiles. Unlike single-sample assessments, longitudinal data allows the analysis of intra-individual dynamics over time, supporting the detection of abnormal patterns that may otherwise remain hidden. A major challenge in anti-doping is the use of sophisticated manipulation strategies by some athletes to evade positive doping tests. An example is sample swapping, in which athletes’ biological samples may be deliberately substituted with those of another individual or with previously stored “clean” samples. Such practices undermine the reliability of conventional testing methods, which typically assume each sample to be authentic and unaltered. In contrast, longitudinal anomaly detection allows for the identification of inconsistencies within an athlete’s biological trajectory, thereby offering a means of uncovering irregularities suggestive of potential swapping events. Detecting such anomalies is difficult due to different challenges related to longitudinal data or the domain of anti-doping itself. To address these challenges, this thesis is categorized into three parts. The first part of the thesis introduces methods for longitudinal anomaly detection that address the key challenges of irregular sampling intervals, heterogeneous profile lengths, limited numbers of samples per athlete, and the scarcity of ground-truth labels. Two complementary architectures are proposed. The Self Attention-based Convolutional Neural Network (SACNN) addresses these issues by constructing structured subsequences from irregular profiles and applying attention-weighted convolutional layers to learn structural-temporal dependencies, thereby capturing subtle contextual anomalies such as sample swapping. In parallel, the Subsampling-based Convolutional Neural Network (SCNN) handles the challenges through a subsampling and aggregation strategy, where triplet-based segments are used to capture differential consistency, allowing reliable anomaly detection even in profiles with as few as two samples. Both models reduce reliance on explicit anomaly labels by learning individualized baselines. They are trained under high-specificity constraints, with evaluations performed on real-world anti-doping datasets including DNA-verified anomalies. The second part of the thesis incorporates metabolic pathway structures into model learning, ensuring that outputs are not only accurate but also biologically plausible. Two complementary approaches are proposed. Structural–Temporal Tokenization for Large Language Models (STT-LLM) introduces a novel tokenization strategy that encodes both the metabolic structure and temporal behaviour of clinical parameters from longitudinal profiles, enabling resource-efficient language models to process clinical data while preserving biological context. In parallel, Graph-based Modelling for Metabolism Pathways (GRAMP) embeds the steroid metabolic network into a graph attention architecture, allowing the model to detect pathway-consistent anomalies through information propagation across metabolically linked biomarkers. The third part of the thesis focuses on interpretable and domain-informed reasoning for decision support. Two complementary explanation tools are proposed. Metabolism Pathway-driven Prompting (MPP) uses structured graphs of the steroid metabolism pathway to guide language models in generating textual explanations for flagged anomalies, linking detected deviations to plausible biological mechanisms. Digital Athlete Passport (DAP) offers a visual analytics approach, projecting high-dimensional longitudinal clinical profiles into lower-dimensional spaces to visualize deviations and trajectory shifts, supported by PCA-based interpretation and centroid tracking. All models are integrated into CASPIAN, a software framework that allows domain experts to flexibly combine detection, structure-aware modelling, and interpretability methods. Together, these contributions provide a comprehensive approach to anomaly detection in longitudinal clinical profiles, allowing biologically grounded and explainable monitoring in high-stakes domains such as anti-doping and beyond. Diese Arbeit untersucht die Erkennung von Anomalien in longitudinalen klinischen Daten, mit besonderem Schwerpunkt auf Anti-Doping-Anwendungen, bei denen die Überwachung von Sportlern die Identifizierung subtiler, zeitlich eingebetteter Abweichungen in biologischen Profilen erfordert. Im Gegensatz zu Einzelprobenbewertungen ermöglichen Längsschnittdaten die Analyse der intraindividuellen Dynamik im Zeitverlauf und unterstützen so die Erkennung abnormaler Muster, die sonst möglicherweise verborgen bleiben würden. Eine große Herausforderung im Anti-Doping-Bereich ist der Einsatz ausgeklügelter Manipulationsstrategien durch einige Sportler, um positive Dopingtests zu umgehen. Ein Beispiel hierfür ist der Probenaustausch, bei dem die biologischen Proben von Athleten absichtlich durch die Proben einer anderen Person oder durch zuvor gelagerte „saubere” Proben ersetzt werden. Solche Praktiken untergraben die Zuverlässigkeit herkömmlicher Testmethoden, bei denen in der Regel davon ausgegangen wird, dass jede Probe authentisch und unverfälscht ist. Im Gegensatz dazu ermöglicht die longitudinale Anomalieerkennung die Identifizierung von Unstimmigkeiten innerhalb der biologischen Entwicklung eines Athleten und bietet somit eine Möglichkeit, Unregelmäßigkeiten aufzudecken, die auf einen möglichen Probenaustausch hindeuten. Die Erkennung solcher Anomalien ist aufgrund verschiedener Herausforderungen im Zusammenhang mit Längsschnittdaten oder dem Bereich der Dopingbekämpfung selbst schwierig. Um diesen Herausforderungen zu begegnen, ist diese Arbeit in drei Teile gegliedert. Der erste Teil der Arbeit stellt Methoden zur Längsschnitt-Anomalieerkennung vor, die sich mit den zentralen Herausforderungen unregelmäßiger Probenahmeintervalle, heterogener Profillängen, begrenzter Probenanzahlen pro Athlet und der Knappheit von Ground-Truth- Labels befassen. Es werden zwei sich ergänzende Architekturen vorgeschlagen. Das Self Attention-based Convolutional Neural Network (SACNN) geht diese Probleme an, indem es aus unregelmäßigen Profilen strukturierte Teilsequenzen konstruiert und aufmerksamkeitsgewichtete Faltungsschichten anwendet, um strukturelle und zeitliche Abhängigkeiten zu lernen und so subtile kontextuelle Anomalien wie Probenvertauschungen zu erfassen. Parallel dazu bewältigt das Subsampling-based Convolutional Neural Network (SCNN) die Herausforderungen durch eine Subsampling- und Aggregationsstrategie, bei der tripletbasierte Segmente verwendet werden, um unterschiedliche Konsistenzen zu erfassen, was eine zuverlässige Anomalieerkennung selbst bei Profilen mit nur zwei Proben ermöglicht. Beide Modelle reduzieren die Abhängigkeit von expliziten Anomalie-Labels, indem sie individualisierte Baselines lernen. Sie werden unter hochspezifischen Einschränkungen trainiert, wobei die Bewertungen anhand realer Anti-Doping-Datensätze einschließlich DNA-verifizierter Anomalien durchgeführt werden. Der zweite Teil der Arbeit bezieht Stoffwechselwegstrukturen in das Modelllernen ein und stellt so sicher, dass die Modellausgaben nicht nur genau, sondern auch biologisch plausibel sind. Es werden zwei sich ergänzende Ansätze vorgeschlagen. Structural-Temporal Tokenization for Large Language Models (STT-LLM) führt eine neuartige Tokenisierungsstrategie ein, die das metabolische strukturelle und zeitliche Verhalten klinischer Parameter aus Längsschnittprofilen codiert, sodass ressourceneffiziente Sprachmodelle klinische Daten unter Beibehaltung des biologischen Kontexts verarbeiten können. Parallel dazu bettet Graphbased Modelling for Metabolism Pathways (GRAMP) das Steroid-Stoffwechselnetzwerk in eine Graph-Attention-Architektur ein, wodurch das Modell durch Informationsverbreitung über metabolisch verknüpfte Biomarker wegkonsistente Anomalien erkennen kann. Der dritte Teil der Arbeit konzentriert sich auf interpretierbare und domäneninformierte Argumentation zur Entscheidungsunterstützung. Es werden zwei sich ergänzende Erklärungsinstrumente vorgeschlagen. Metabolism Pathway-driven Prompting (MPP) verwendet strukturierte Graphen des Steroidstoffwechselwegs, um Sprachmodelle bei der Generierung von textuellen Erklärungen für markierte Anomalien anzuleiten und erkannte Abweichungen mit plausiblen biologischen Mechanismen zu verknüpfen. Digital Athlete Passport (DAP) bietet einen visuellen Analyseansatz, bei dem hochdimensionale longitudinale klinische Profile in niedrigdimensionale Räume projiziert werden, um Abweichungen und Trajektorienverschiebungen zu visualisieren, unterstützt durch PCA-basierte Interpretation und Zentroid-Tracking. Alle Modelle sind in CASPIAN integriert, einem Software-Framework, das es Fachleuten ermöglicht, Erkennungs-, strukturbewusste Modellierungs- und Interpretierbarkeitsmethoden flexibel zu kombinieren. Zusammen bieten diese Beiträge einen umfassenden Ansatz zur Anomalieerkennung in longitudinalen klinischen Profilen und ermöglichen eine biologisch fundierte und erklärbare Überwachung in Bereichen mit hohem Risiko, wie z. B. Anti-Doping und darüber hinaus. |
| Link to this record: | urn:nbn:de:bsz:291--ds-467300 hdl:20.500.11880/40959 http://dx.doi.org/10.22028/D291-46730 |
| Advisor: | Maaß, Wolfgang Lenhof, Hans-Peter |
| Date of oral examination: | 18-Dec-2025 |
| Date of registration: | 13-Jan-2026 |
| Faculty: | MI - Fakultät für Mathematik und Informatik |
| Department: | MI - Informatik |
| Professorship: | MI - Keiner Professur zugeordnet |
| Collections: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Files for this record:
| File | Description | Size | Format | |
|---|---|---|---|---|
| thesis.pdf | 43,78 MB | Adobe PDF | View/Open |
Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.

