SciDok

Eingang zum Volltext in SciDok

Lizenz

Dissertation zugänglich unter
URN: urn:nbn:de:bsz:291-scidok-47820
URL: http://scidok.sulb.uni-saarland.de/volltexte/2012/4782/


Cross-lingual question answering

Sprachübergreifende Fragebeantwortung

Sacaleanu, Bogdan Eugen

pdf-Format:
Dokument 1.pdf (1.034 KB)

Bookmark bei Connotea Bookmark bei del.icio.us
SWD-Schlagwörter: Frage-Antwort-System , Information-Retrieval-System , Sprachverarbeitung
Freie Schlagwörter (Englisch): question answering , cross-lingual
Institut: Fachrichtung 4.7 - Allgemeine Linguistik
Fakultät: Fakultät 4 - Philosophische Fakultät II
DDC-Sachgruppe: Sprachwissenschaft, Linguistik
Dokumentart: Dissertation
Hauptberichter: Uszkoreit, Hans (Prof. Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 07.09.2011
Erstellungsjahr: 2012
Publikationsdatum: 19.03.2012
Kurzfassung auf Englisch: Question Answering has become an intensively researched area in the last decade, being seen as the next step beyond Information Retrieval in the attempt to provide more concise and better access to large volumes of available information. Question Answering builds on Information Retrieval technology for a first touch of possible relevant data and uses further natural language processing techniques to search for candidate answers and to look for clues that accept or invalidate the candidates as right answers to the question. Though most of the research has been carried out in monolingual settings, where the question and the answer-bearing documents share the same natural language, current approaches concentrate on cross-language scenarios, where the question and the documents are in different languages. Known in this context and common with the Information Retrieval research are three methods of crossing the language barrier: by translating the question, by translating the documents or by aligning both the question and the documents to a common inter-lingual representation. We present a cross-lingual English to German Question Answering system, for both factoid and definition questions, using a German monolingual system and translating the questions from English to German. Two different techniques of translation are evaluated:
• direct translation of the English input question into German and
• transfer-based translation, by using an intermediate representation that captures the “meaning” of the original question and is translated into the target language.
For both translation techniques two types of translation tools are used: bilingual dictionaries and machine translation. The intermediate representation captures the semantic meaning of the question in terms of Question Type (QType), Expected Answer Type (EAType) and Focus, information that steers the workflow of the question answering process.
The German monolingual Question Answering system can answer both factoid and definition questions and is based on several premises:
• facts and definitions are usually expressed locally at the level of a sentence and its surroundings;
• proximity of concepts within a sentence can be related to their semantic dependency;
• for factoid questions, redundancy of candidate answers is a good indicator of their suitability;
• definitions of concepts are expressed using fixed linguistic structures such as appositions, modifiers, and abbreviation extensions.
Extensive evaluations of the monolingual system have shown that the above mentioned hypothesis holds true in most of the cases when dealing with a fairly large collection of documents, like the one used in the CLEF evaluation forum.
Kurzfassung auf Deutsch: Innerhalb der letzten zehn Jahre hat sich Question Answering zu einem intensiv erforschten Themengebiet gewandelt, es stellt den nächsten Schritt des Information Retrieval dar, mit dem Bestreben einen präziseren Zugang zu großen Datenbeständen von verfügbaren Informationen bereitzustellen. Das Question Answering setzt auf die Information Retrieval-Technologie, um mögliche relevante Daten zu suchen, kombiniert mit weiteren Techniken zur Verarbeitung von natürlicher Sprache, um mögliche Antwortkandidaten zu identifizieren und diese anhand von Hinweisen oder Anhaltspunkten entsprechend der Frage als richtige Antwort zu akzeptieren oder als unpassend zu erklären. Während ein Großteil der Forschung den einsprachigen Kontext voraussetzt, wobei Frage- und Antwortdokumente ein und dieselbe Sprache teilen, konzentrieren sich aktuellere Ansätze auf sprachübergreifende Szenarien, in denen die Frage- und Antwortdokumente in unterschiedlichen Sprachen vorliegen. Im Kontext des Information Retrieval existieren drei bekannte Ansätze, die versuchen auf unterschiedliche Art und Weise die Sprachbarriere zu überwinden: durch die Übersetzung der Frage, durch die Übersetzung der Dokumente oder durch eine Angleichung von sowohl der Frage als auch der Dokumente zu einer gemeinsamen interlingualen Darstellung. Wir präsentieren ein sprachübergreifendes Question Answering System vom Englischen ins Deutsche, das sowohl für Faktoid- als auch für Definitionsfragen funktioniert. Dazu verwenden wir ein einsprachiges deutsches System und übersetzen die Fragen vom Englischen ins Deutsche. Zwei unterschiedliche Techniken der Übersetzung werden untersucht:
• die direkte Übersetzung der englischen Fragestellung ins Deutsche und
• die Abbildungs-basierte Übersetzung, die eine Zwischendarstellung verwendet, um die „Semantik“ der ursprünglichen Frage zu erfassen und in die Zielsprache zu übersetzen.
Für beide aufgelisteten Übersetzungstechniken werden zwei Übersetzungsquellen verwendet: zweisprachige Wörterbücher und maschinelle Übersetzung. Die Zwischendarstellung erfasst die Semantik der Frage in Bezug auf die Art der Frage (QType), den erwarteten Antworttyp (EAType) und Fokus, sowie die Informationen, die den Ablauf des Frage-Antwort-Prozesses steuern.
Das deutschsprachige Question Answering System kann sowohl Faktoid- als auch Definitionsfragen beantworten und basiert auf mehreren Prämissen:
• Fakten und Definitionen werden in der Regel lokal auf Satzebene ausgedrückt;
• Die Nähe von Konzepten innerhalb eines Satzes kann auf eine semantische Verbindung hinweisen;
• Bei Faktoidfragen ist die Redundanz der Antwortkandidaten ein guter Indikator für deren Eignung;
• Definitionen von Begriffen werden mit festen sprachlichen Strukturen ausgedrückt, wie Appositionen, Modifikatoren, Abkürzungen und Erweiterungen.
Umfangreiche Auswertungen des einsprachigen Systems haben gezeigt, dass die oben genannten Hypothesen in den meisten Fällen wahr sind, wenn es um eine ziemlich große Sammlung von Dokumenten geht, wie bei der im CLEF Evaluationsforum verwendeten Version.
Lizenz: Veröffentlichungsvertrag für Dissertationen und Habilitationen

Home | Impressum | Über SciDok | Policy | Kontakt | Datenschutzerklärung | English