SciDok

Eingang zum Volltext in SciDok

Lizenz

Dissertation zugänglich unter
URN: urn:nbn:de:bsz:291-scidok-60226
URL: http://scidok.sulb.uni-saarland.de/volltexte/2015/6022/


Discovering and disambiguating named entities in text

Erkennung und Disambiguierung von Entitäten in Texten

Hoffart, Johannes

pdf-Format:
Dokument 1.pdf (11.752 KB)

Bookmark bei Connotea Bookmark bei del.icio.us
SWD-Schlagwörter: Wissensextraktion , Wissensbanksystem , Computerlinguistik , Sprachverarbeitung , Sprachverstehen , Informatik , Informationssystem , Informationsmana
Freie Schlagwörter (Deutsch): Entitätsdisambiguierung , Entitätsverknüpfung , Entitätssuche , Wissensbasis
Freie Schlagwörter (Englisch): knowledge base , entity disambiguation , entity linking , semantic search , entity search
CCS - Klassifikation: H.3.1 Cont , H.3.3 Info , I.2.7
Institut: Max-Planck-Institut für Informatik
Fakultät: Fakultät 6 - Naturwissenschaftlich-Technische Fakultät I
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Hauptberichter: Weikum, Gerhard (Prof. Dr.-Ing.)
Sprache: Englisch
Tag der mündlichen Prüfung: 12.02.2015
Erstellungsjahr: 2015
Publikationsdatum: 18.03.2015
Kurzfassung auf Englisch: Discovering entities such as people, organizations, songs, or places in natural language texts is a valuable asset for semantic search, machine translation, and information extraction. A key challenge is the ambiguity of entity names, requiring robust methods to disambiguate names to canonical entities registered in a knowledge base. Additionally, in this dynamic world, new entities are constantly emerging, and disambiguation methods need to cope with the resulting incompleteness of knowledge bases.
This dissertation develops methods to discover and disambiguate named entities, thus linking texts to knowledge bases. The first contribution is a robust disambiguation method using a graph algorithm that makes use of the coherence among entities in the input. The second contribution is a novel model to compute the coherence among entities that works especially well for lesser known entities and is applicable to newly emerging entities. The third contribution addresses the discovery of emerging entities by modeling the entities not present in the knowledge base in an explicit manner. Finally, two applications using the developed entity disambiguation methods are presented.
Kurzfassung auf Deutsch: Die Erkennung von Entitäten wie Personen, Organisation, Liedern oder Orten in Texten ist ein wichtiger Baustein für semantische Suche, maschinelle Übersetzung und Informationsextraktion. Ein Kernproblem der Erkennung ist die Mehrdeutigkeit aller Eigennamen. Diese erfordert robuste Methoden, um Eigennamen mit den passenden kanonischen Entitäten einer Wissensbasis zu verknüpfen. Zusätzlich müssen Verknüpfungsmethoden in dieser dynamischen, sich stetig wandelnden Welt von unvollständigen Wissensbasen ausgehen, da ständig neue Entitäten entstehen.
Diese Dissertation entwickelt Methoden, Eigennamen zu erkennen und mit kanonischen Entitäten zu verknüpfen, und verbindet somit Texte mit Wissensbasen. Der erste Beitrag ist eine robuste Methode zur Verknüpfung von Eigennamen mit Entitäten, die auf einem Graphalgorithmus basiert und sich die Koheränz zwischen Entitäten im Text zu Nutze macht. Der zweite Beitrag ist ein neues Modell, diese Kohärenz zu berechnen, das besonders gut für weniger bekannte und neu entstehende Entitäten funktioniert. Der dritte Beitrag adressiert spezifisch die Erkennung solcher neu entstehenden Entitäten, indem Entitäten, die nicht in der Wissensbasis vorhanden sind, explizit modelliert werden. Der letzte Beitrag besteht aus zwei Anwendungen, welche die in dieser Arbeit entwickelten Methoden zur Erkennung und Verknüpfung von Entitäten als Bestandteil verwenden.
Lizenz: Veröffentlichungsvertrag für Dissertationen und Habilitationen

Home | Impressum | Über SciDok | Policy | Kontakt | Datenschutzerklärung | English