SciDok

Eingang zum Volltext in SciDok

Lizenz

Dissertation zugänglich unter
URN: urn:nbn:de:bsz:291-scidok-63703
URL: http://scidok.sulb.uni-saarland.de/volltexte/2016/6370/


U-AIDA : a customizable system for named entity recognition, classification, and disambiguation

U-AIDA : ein anpassbares System zur Erkennung, Klassifikation und Disambiguierung benannter Entitäten

Yosef, Mohamed Amir

pdf-Format:
Dokument 1.pdf (4.201 KB) (Dissertation)

Bookmark bei Connotea Bookmark bei del.icio.us
SWD-Schlagwörter: Multi-Lingual Scholar , Automatische Klassifikation , Information Retrieval
Freie Schlagwörter (Englisch): multi-lingual program , automatic classification , information retrieval
Institut: Max-Planck-Institut für Informatik
Fakultät: Fakultät 6 - Naturwissenschaftlich-Technische Fakultät I
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Hauptberichter: Weikum, Gerhard (Prof. Dr.-Ing.)
Sprache: Englisch
Tag der mündlichen Prüfung: 11.12.2015
Erstellungsjahr: 2015
Publikationsdatum: 19.02.2016
Kurzfassung auf Englisch: Recognizing and disambiguating entities such as people, organizations, events or places in natural language text are essential steps for many linguistic tasks such as information extraction and text categorization. A variety of named entity disambiguation methods have been proposed, but most of them focus on Wikipedia as a sole knowledge resource. This focus does not fit all application scenarios, and customization to the respective application domain is crucial. This dissertation addresses the problem of building an easily customizable system for named entity disambiguation. The first contribution is the development of a universal and flexible architecture that supports plugging in different knowledge resources. The second contribution is utilizing the flexible architecture to develop two domain-specific disambiguation systems. The third contribution is the design of a complete pipeline for building disambiguation systems for languages other than English that have poor annotated resources such as Arabic. The fourth contribution is a novel approach that performs fine-grained type classification of names in natural language text.
Kurzfassung auf Deutsch: Das Erkennen und die Disambiguierung von Entitäten wie etwa Personen, Organisationen oder Orte in natürlichsprachigem Text sind wertvolle Hilfsmittel für zahlreiche linguistische Aufgaben Biespielanwendungen sind Informationsextraktion oder die Kategorisierung von Texten. In diesem Kontext sind eine Vielzahl von Verfahren zur Disambiguierung erforscht worden. Allerdings basieren die meisten dieser Verfahren lediglich auf dem aus Wikipedia extrahierbaren “Wissen”. Diese Fokussierung eignet sich jedoch keines- wegs für alle Anwendungsszenarien, weshalb eine Anpassung an die jeweils vorliegende Anwendungsdomäne besonders wichtig ist. Diese Dissertation befasst sich daher mit dem Entwurf eines Universell einsetzbaren und individuell konfigurierbaren Systems zur Disambiguierung von Entitätsnamen. Der erste Beitrag dieser Arbeit ist die Entwicklung einer universell einsatzfähigen und anpassbaren Architektur, die das Einbinden unterschiedlicher Wissensquellen ermöglicht. Darauf aufbauend wird die Flexibilität der vorgestellten Architektur mittels zweier domänen-spezifischer Anwendungen belegt. Darüber hinaus wird die Vielseitigkeit des Verfahrens durch den Entwurf eines kompletten Verarbeitungsprozess für resourcenarme Sprachen am Beispiel der arabischen Sprache gezeigt. Abschließend wird ein neuartiger Ansatz zur feingranularen Typisierung von benannten Entitäten in natürlichsprachigem Text vorgestellt.
Lizenz: Veröffentlichungsvertrag für Dissertationen und Habilitationen

Home | Impressum | Über SciDok | Policy | Kontakt | Datenschutzerklärung | English