Please use this identifier to cite or link to this item:
doi:10.22028/D291-46640 | Title: | Understanding, combating, and leveraging imperfect data in natural language processing |
| Author(s): | Zhu, Dawei |
| Language: | English |
| Year of Publication: | 2025 |
| DDC notations: | 004 Computer science, internet 400 Language, linguistics |
| Publikation type: | Dissertation |
| Abstract: | Recent advances in deep neural networks (DNNs) have led to remarkable progress in natural language processing (NLP), largely driven by the increasing scale of both model parameters and training data. However, collecting large-scale data often introduces noise—particularly when relying on automated methods such as weak supervision to reduce annotation costs. This noise can cause DNNs to learn incorrect inductive biases and degrade their generalization ability. Therefore, a deep understanding of data noise and the development of robust learning strategies are essential for the effective deployment of DNNs in real-world NLP applications. In this thesis, we investigate how data noise affects model generalization and propose methods to address it in practical machine learning scenarios. Our main contributions are as follows: 1. We demonstrate that feature-independent noise has only a minimal impact on Pre-Trained Language Models (PLMs), such as RoBERTa, in classification tasks. At the start of fine-tuning, these models tend to ignore the noise and gradually improve their generalization ability. After reaching the point of best performance, the models begin to memorize noise, which leads to a decline in generalization. We apply an early-stopping mechanism guided by a noisy validation set to stop training before noise memorization occurs, and this yields a model with strong generalization. This simple strategy achieves performance comparable to that of more complex noise-handling methods. 2. In contrast, feature-dependent noise presents a greater challenge. In various token and sequence classification tasks, PLMs quickly overfit to this type of noise, and a noisy validation set is no longer reliable for model selection. We demonstrate the necessity of incorporating a small amount of clean validation data to realign the model. To this end, we propose two methods that leverage clean data to enhance performance in the presence of feature-dependent noise. 3. The emergence of large language models (LLMs) has led to a trend of unifying NLP tasks into generative tasks. We extend our research within this context, focusing on machine translation as a representative task. Our findings show that LLMs have inherent translation capabilities that can be elicited through supervised fine-tuning with a small amount of data. However, despite its small size, the quality of this data plays a crucial role: LLMs are highly sensitive to noise during fine-tuning. For example, fine-tuning with 32 high-quality parallel samples results in better generalization than using 1,024 medium-quality parallel samples. 4. Previous studies often regard noisy data as a byproduct of reducing annotation costs through automatic processes like weak supervision. We demonstrate that noisy data can be effectively integrated with gold annotations. In particular, by supplementing gold annotations with lower-quality ones, LLMs can be trained to differentiate between these annotations through preference learning. We show that this approach significantly enhances LLM performance in translation tasks. Aktuelle Fortschritte bei tiefen neuronalen Netzen (Deep Neural Networks, DNNs) haben zu bemerkenswerten Entwicklungen im Bereich der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) geführt, insbesondere durch die Vergrößerung von Modellgrößen und das Training auf umfangreichen Datensätzen. Allerdings führt die Erhebung großskaliger Daten häufig zu Rauscheffekten – insbesondere dann, wenn automatisierte Methoden wie schwache Supervision (Weak Supervision) zur Reduzierung der Annotationskosten eingesetzt werden. Dieses Rauschen kann dazu führen, dass DNNs fehlerhafte induktive Verzerrungen erlernen und ihre Generalisierungsfähigkeit beeinträchtigt wird. Daher sind ein tiefgehendes Verständnis von Datenrauschen und die Entwicklung robuster Lernstrategien essenziell für den erfolgreichen Einsatz von DNNs in realen NLP-Anwendungen. In dieser Dissertation untersuchen wir den Einfluss von Datenrauschen auf die Generalisierung von Modellen und entwickeln Methoden zur Bewältigung dieser Herausforderung in praktischen maschinellen Lernszenarien. Unsere Hauptbeiträge sind wie folgt: 1. Wir zeigen, dass merkmalsunabhängiges Rauschen nur einen minimalen Einfluss auf vortrainierte Sprachmodelle (Pretrained Language Models, PLMs) wie RoBERTa bei Klassifikationsaufgaben hat. Zu Beginn der Feinabstimmung ignorieren diese Modelle das Rauschen weitgehend, was zu einer verbesserten Generalisierung führt. Allerdings erreicht diese Verbesserung ein Maximum und nimmt anschließend wieder ab, was auf eine zunehmende Memorierung des Rauschens hinweist. Wir zeigen, dass ein frühzeitiger Stopp der Feinabstimmung, gesteuert durch ein verrauschtes Validierungsset, effektiv verhindern kann, dass das Modell Rauschen memoriert. Diese einfache Strategie erzielt eine vergleichbare Leistung wie wesentlich komplexere Methoden zur Rauschbewältigung. 2. Im Gegensatz dazu stellt merkmalabhängiges Rauschen eine größere Herausforderung dar. Bei Token- und Sequenzklassifizierungsaufgaben neigen PLMs dazu, schnell dieses Rauschen zu overfitten, und ein verrauschter Validierungsdatensatz ist für die Modellselektion unzuverlässig. Wir demonstrieren die Notwendigkeit, eine kleine Menge sauberer Validierungsdaten zu nutzen, um das Modell neu auszurichten. Dazu schlagen wir zwei Methoden vor, die saubere Daten integrieren, um die Leistung trotz merkmalabhängigen Rauschens zu steigern. 3. Mit dem Aufkommen großer Sprachmodelle (Large Language Models, LLMs) werden NLP-Aufgaben zunehmend in generative Aufgaben vereinheitlicht. Wir erweitern unsere Untersuchung in diesem Kontext, indem wir uns auf maschinelle Übersetzung als repräsentative Aufgabe konzentrieren. Unsere Ergebnisse zeigen, dass LLMs über inhärente Übersetzungsfähigkeiten verfügen, die mithilfe eines überwachten Fine-Tunings auf Basis einer geringen Datenmenge aktiviert werden können. Trotz des geringen Umfangs spielt die Qualität dieser Daten jedoch eine entscheidende Rolle: LLMs reagieren äußerst empfindlich auf Rauschen während des Fine-Tunings. Beispielsweise führt das Fine-Tuning mit 32 hochqualitativen parallelen Beispielen zu einer besseren Generalisierung als die Verwendung von 1024 parallelen Beispielen mittlerer Qualität. 4. Während frühere Studien verrauschte Daten meist als Nebenprodukt der Kostensenkung durch automatische Verfahren wie schwache Supervision betrachten, zeigen wir, dass sich solche Daten durchaus effektiv mit Gold-Annotationen kombinieren lassen. Durch die Ergänzung der Gold-Annotationen um solche geringerer Qualität kann in LLMs ein Präferenzlernen angestoßen werden, das sie in die Lage versetzt, zwischen verschiedenen Annotationstypen zu unterscheiden. Wir zeigen, dass dieser Ansatz die Leistung von LLMs insbesondere bei Übersetzungsaufgaben deutlich verbessert. |
| Link to this record: | urn:nbn:de:bsz:291--ds-466401 hdl:20.500.11880/40996 http://dx.doi.org/10.22028/D291-46640 |
| Advisor: | Klakow, Dietrich Roth, Benjamin Heumann, Christian |
| Date of oral examination: | 24-Oct-2025 |
| Date of registration: | 21-Jan-2026 |
| Faculty: | MI - Fakultät für Mathematik und Informatik |
| Department: | MI - Informatik |
| Professorship: | MI - Keiner Professur zugeordnet |
| Collections: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Files for this record:
| File | Description | Size | Format | |
|---|---|---|---|---|
| phd_thesis_zhu.pdf | 6,26 MB | Adobe PDF | View/Open |
Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.

