Please use this identifier to cite or link to this item: doi:10.22028/D291-47217
Title: Question answering over heterogeneous sources
Author(s): Christmann, Philipp
Language: English
Year of Publication: 2025
DDC notations: 600 Technology
620 Engineering and machine engineering
Publikation type: Dissertation
Abstract: Question answering (QA) systems provide crisp answers to questions posed by end users. Most existing QA systems cover solely one information source for answering: either a curated knowledge base (KB), or a text corpus, or a set of web tables. This inherently limits their answer coverage as individual sources are incomplete in capturing the wide variety of information targeted by users. Further, these prior systems are typically not designed for: (i) Traceable answers which help end users to investigate the answer correctness. (ii) Cost-efficient inference, instead relying on billion-scale generative language models. (iii) Complex information needs which can only be understood in an ongoing conversational context, require modeling of temporal constraints, or involve advanced operations such as aggregations, grouping and joins. This dissertation addresses these issues and makes the following salient contributions: (i) Proposing a general 3-stage architecture for answering questions over heterogeneous sources, including a question understanding stage to model the information need, a stage for evidence retrieval from a set of heterogeneous sources, and an answering stage that treats this evidence in a unified manner for deriving a traceable answer. (ii) Devising question understanding mechanisms for conversational questions with incomplete intent, temporal questions with implicit or explicit time constraints, and complex questions that involve aggregation, grouping and joining of information from different sources. (iii) Developing end-to-end QA systems for conversational QA (Convinse and Explaignn), temporal QA (Faith), complex QA (Quasar) and QA over personal data (ReQAP), that integrate heterogeneous sources for enhanced answer coverage. (iv) Constructing large-scale benchmarks for conversational QA (ConvMix), temporal QA (TIQ), complex QA (CompMix), and QA over personal data (PerQA), with realistic questions that target heterogeneous sources. Answers by our methodologies can be traced back to the underlying evidence by design. Also, computational efficiency is a primary design point -- our methods build upon small-scale models that are trained via smart use of distant supervision and in-context learning.
Frage-Antwort-Systeme adressieren Informationsbedürfnisse von Endnutzern durch kurze und prägnante Antworten. Die meisten Systeme verwenden hierzu lediglich Informationen aus einer Quelle: entweder aus einem Wissensgraphen oder einem Textkorpus oder einer Ansammlung an Tabellen. Dies schränkt die Antwort-Verfügbarkeit stark ein, da die individuellen Quellen nicht die komplette Breite an relevanten Informationen bereitstellen. Zusätzliche Einschränkungen existierender Systeme sind: (i) Der Prozess zur Beantwortung von Fragen ist oft nicht nachvollziehbar für Endnutzer. (ii) Die Verwendung von Sprachmodellen mit Milliarden Parametern führt zu hohen Inferenz-Kosten. (iii) Die Nicht-Berücksichtigung von Fragen, welche (a) die Einbindung des Kontextes einer Konversation, (b) das Modellieren temporaler Bedingungen, oder (c) die Verwendung von Operatoren zur Verknüpfung, Gruppierung oder Aggregierung von Informationen erfordern. Diese Dissertation befasst sich mit den zuvor genannten Schwachstellen und präsentiert die folgenden Forschungsbeiträge: (i) Wir stellen eine generelle System-Architektur zur Frage-Beantwortung unter Berücksichtigung von heterogenen Quellen vor, die drei Phasen beinhaltet: (a) eine Phase zum Frage-Verständnis, (b) eine Phase zum Abruf relevanter Informationen aus heterogenen Quellen, und (c) eine Phase zur Generierung einer nachvollziehbaren Antwort, welche Informationen aus unterschiedlichen Quellen vereinheitlicht. (ii) Wir präsentieren Mechanismen zum Frage-Verständnis von (a) unvollständig formulierten Informationsbedürfnissen innerhalb einer Konversation, (b) Fragen mit impliziten oder expliziten temporalen Bedingungen, sowie (c) komplexen Fragen unter Verwendung von Operatoren zur Verknüpfung, Gruppierung, oder Aggregierung von Informationen aus verschiedenen Quellen. (iii) Wir entwickeln vollständige Frage-Antwort-Systeme zur Beantwortung von Fragen innerhalb einer Konversation (Convinse und Explaignn), Fragen mit temporalen Bedingungen (Faith), komplexen Fragen (Quasar), und Fragen zu persönlichen Daten (ReQAP), basierend auf Informationen aus heterogenen Quellen. (iv) Wir erstellen umfangreiche Datensätze mit Fragen innerhalb von Konversationen (ConvMix), Fragen mit temporalen Bedingungen (TIQ), Fragen komplexer Natur (CompMix), und Fragen zu persönlichen Daten (PerQA), die Wissen aus heterogenen Quellen erfordern. Unsere Methoden sind so konzipiert, dass Antworten nachvollziehbar sind und zu den ursprünglichen Quellen zurückverfolgt werden können. Außerdem ist die Recheneffizienz ein wesentlicher Entwurfsaspekt -- unsere Methoden ermöglichen die Verwendung von kompakten neuronalen Modellen. Diese Modelle werden mithilfe von Techniken für distant supervision (automatische Annotation von Trainingsdaten) oder in-context learning (kontextbasiertes Lernen) trainiert.
Link to this record: urn:nbn:de:bsz:291--ds-472173
hdl:20.500.11880/41980
http://dx.doi.org/10.22028/D291-47217
Advisor: Weikum, Gerhard
Roy, Rishiraj Saha
Date of oral examination: 6-Feb-2026
Date of registration: 8-Jun-2026
Faculty: MI - Fakultät für Mathematik und Informatik
Department: MI - Informatik
Professorship: MI - Prof. Dr. Gerhard Weikum
Collections:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:
File Description SizeFormat 
2025_phd_thesis_final.pdfQuestion Answering over Heterogeneous Sources13,4 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons