Please use this identifier to cite or link to this item:
doi:10.22028/D291-46441 | Title: | Analyzing and overcoming low-resource and domain specific problems in the air-traffic control speech processing pipeline |
| Author(s): | Blatt, Alexander |
| Language: | English |
| Year of Publication: | 2025 |
| DDC notations: | 500 Science 620 Engineering and machine engineering |
| Publikation type: | Dissertation |
| Abstract: | Roughly a decade ago, machine learning-based (ML) assistance solutions for air-traffic control (ATC) became a research focus. Since then, many publications aim to reduce the workload of air-traffic controllers (ATCOs). Especially works targeting automatic speech recognition (ASR) and natural language processing have shown drastic improvement in recent years. However, most of the research is focused on the improvement on ATC benchmark datasets and not on key requirements for real-world ML ATC systems such as robustness, explainability and privacy. Addressing these mitigates the risks of incidents and ensures that models are aligned with data protection laws. This thesis therefore focuses on addressing these requirements within an ATC speech processing pipeline. Starting at the beginning of the pipeline, we investigate the influence of acoustic and lexical differences between ATC datasets on ATC-ASR models. Going further in the pipeline, we compare the robustness of combined ASR and speaker role detection architectures. At the end of the pipeline, we propose robust call-sign recognition methods and show how to train a read-back error detection system that generalizes well to unseen airspaces. Finally, we demonstrate at the example of ACTO stress detection that implementing privacy measures in the pipeline does not hurt its performance. The new insights, training procedures and architectures of this thesis bring ML based ATC support systems closer to operation. Vor einem Jahrzehnt rückten maschinell lernende (ML) Assistenzlösungen für die Flugverkehrskontrolle (ATC) in den Forschungsfokus. Seitdem zielen Veröffentlichungen darauf ab, die Belastung von Fluglotsen (ATCOs) zu reduzieren. Besonders bei der automatischen Spracherkennung (ASR) und der Verarbeitung natürlicher Sprache gab es zuletzt drastische Verbesserungen. Jedoch liegt hier der Fokus auf der Verbesserung auf ATC-Benchmark-Datensätzen und nicht auf Schlüsseleigenschaften von ML-ATC-Systemen wie Robustheit, Erklärbarkeit und Datenschutz. Die Berücksichtigung dieser Aspekte vermindert Zwischenfällen und harmonisiert Modelle mit den Datenschutzgesetzen. Diese Arbeit adressiert diese Eigenschaften innerhalb einer ATC-Sprachverarbeitungspipeline. Am Anfang der Pipeline untersuchen wir den Einfluss akustischer und lexikalischer Unterschiede zwischen ATC-Datensätzen auf ATC-ASR-Modelle. Anschließend vergleichen wir die Robustheit kombinierter ASR- und Sprecherrollenerkennungsarchitekturen. Am Ende der Pipeline schlagen wir robuste Methoden zur Rufzeichenerkennung vor und zeigen, wie man ein Read-back- Fehlerdetektionssystem trainiert, das auf unbekannte Lufträume generalisiert. Schließlich demonstrieren wir am Beispiel der ACTO-Stresserkennung, dass Datenschutzmaßnahmen nicht die Leistung der Pipeline beeinträchtigen. Die neuen Erkenntnisse, Trainingsverfahren und Architekturen bringen ML-basierte ATC-Unterstützungssysteme näher an den operationellen Einsatz. |
| Link to this record: | urn:nbn:de:bsz:291--ds-464413 hdl:20.500.11880/40779 http://dx.doi.org/10.22028/D291-46441 |
| Advisor: | Klakow, Dietrich Frey, Georg |
| Date of oral examination: | 14-Oct-2025 |
| Date of registration: | 7-Nov-2025 |
| Faculty: | NT - Naturwissenschaftlich- Technische Fakultät P - Philosophische Fakultät |
| Department: | NT - Systems Engineering P - Sprachwissenschaft und Sprachtechnologie |
| Professorship: | P - Prof. Dr. Dietrich Klakow |
| Collections: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Files for this record:
| File | Description | Size | Format | |
|---|---|---|---|---|
| PhD_thesis_Alexander_Blatt_after_colloquium.pdf | 7,61 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License

