Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-46441
Titel: Analyzing and overcoming low-resource and domain specific problems in the air-traffic control speech processing pipeline
VerfasserIn: Blatt, Alexander
Sprache: Englisch
Erscheinungsjahr: 2025
DDC-Sachgruppe: 500 Naturwissenschaften
620 Ingenieurwissenschaften und Maschinenbau
Dokumenttyp: Dissertation
Abstract: Roughly a decade ago, machine learning-based (ML) assistance solutions for air-traffic control (ATC) became a research focus. Since then, many publications aim to reduce the workload of air-traffic controllers (ATCOs). Especially works targeting automatic speech recognition (ASR) and natural language processing have shown drastic improvement in recent years. However, most of the research is focused on the improvement on ATC benchmark datasets and not on key requirements for real-world ML ATC systems such as robustness, explainability and privacy. Addressing these mitigates the risks of incidents and ensures that models are aligned with data protection laws. This thesis therefore focuses on addressing these requirements within an ATC speech processing pipeline. Starting at the beginning of the pipeline, we investigate the influence of acoustic and lexical differences between ATC datasets on ATC-ASR models. Going further in the pipeline, we compare the robustness of combined ASR and speaker role detection architectures. At the end of the pipeline, we propose robust call-sign recognition methods and show how to train a read-back error detection system that generalizes well to unseen airspaces. Finally, we demonstrate at the example of ACTO stress detection that implementing privacy measures in the pipeline does not hurt its performance. The new insights, training procedures and architectures of this thesis bring ML based ATC support systems closer to operation.
Vor einem Jahrzehnt rückten maschinell lernende (ML) Assistenzlösungen für die Flugverkehrskontrolle (ATC) in den Forschungsfokus. Seitdem zielen Veröffentlichungen darauf ab, die Belastung von Fluglotsen (ATCOs) zu reduzieren. Besonders bei der automatischen Spracherkennung (ASR) und der Verarbeitung natürlicher Sprache gab es zuletzt drastische Verbesserungen. Jedoch liegt hier der Fokus auf der Verbesserung auf ATC-Benchmark-Datensätzen und nicht auf Schlüsseleigenschaften von ML-ATC-Systemen wie Robustheit, Erklärbarkeit und Datenschutz. Die Berücksichtigung dieser Aspekte vermindert Zwischenfällen und harmonisiert Modelle mit den Datenschutzgesetzen. Diese Arbeit adressiert diese Eigenschaften innerhalb einer ATC-Sprachverarbeitungspipeline. Am Anfang der Pipeline untersuchen wir den Einfluss akustischer und lexikalischer Unterschiede zwischen ATC-Datensätzen auf ATC-ASR-Modelle. Anschließend vergleichen wir die Robustheit kombinierter ASR- und Sprecherrollenerkennungsarchitekturen. Am Ende der Pipeline schlagen wir robuste Methoden zur Rufzeichenerkennung vor und zeigen, wie man ein Read-back- Fehlerdetektionssystem trainiert, das auf unbekannte Lufträume generalisiert. Schließlich demonstrieren wir am Beispiel der ACTO-Stresserkennung, dass Datenschutzmaßnahmen nicht die Leistung der Pipeline beeinträchtigen. Die neuen Erkenntnisse, Trainingsverfahren und Architekturen bringen ML-basierte ATC-Unterstützungssysteme näher an den operationellen Einsatz.
Link zu diesem Datensatz: urn:nbn:de:bsz:291--ds-464413
hdl:20.500.11880/40779
http://dx.doi.org/10.22028/D291-46441
Erstgutachter: Klakow, Dietrich
Frey, Georg
Tag der mündlichen Prüfung: 14-Okt-2025
Datum des Eintrags: 7-Nov-2025
Fakultät: NT - Naturwissenschaftlich- Technische Fakultät
P - Philosophische Fakultät
Fachrichtung: NT - Systems Engineering
P - Sprachwissenschaft und Sprachtechnologie
Professur: P - Prof. Dr. Dietrich Klakow
Sammlung:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:
Datei Beschreibung GrößeFormat 
PhD_thesis_Alexander_Blatt_after_colloquium.pdf7,61 MBAdobe PDFÖffnen/Anzeigen


Diese Ressource wurde unter folgender Copyright-Bestimmung veröffentlicht: Lizenz von Creative Commons Creative Commons