Discovering and disambiguating named entities in text

Hoffart, Johannes

Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-25418

Titel:	Discovering and disambiguating named entities in text
Alternativtitel:	Erkennung und Disambiguierung von Entitäten in Texten
VerfasserIn:	Hoffart, Johannes
Sprache:	Englisch
Erscheinungsjahr:	2015
Kontrollierte Schlagwörter:	Wissensextraktion Wissensbanksystem Computerlinguistik Sprachverarbeitung Sprachverstehen Informatik Informationssystem Informationsmana
Freie Schlagwörter:	Entitätsdisambiguierung Entitätsverknüpfung Entitätssuche Wissensbasis knowledge base entity disambiguation entity linking semantic search entity search
DDC-Sachgruppe:	004 Informatik
Dokumenttyp:	Dissertation
Abstract:	Discovering entities such as people, organizations, songs, or places in natural language texts is a valuable asset for semantic search, machine translation, and information extraction. A key challenge is the ambiguity of entity names, requiring robust methods to disambiguate names to canonical entities registered in a knowledge base. Additionally, in this dynamic world, new entities are constantly emerging, and disambiguation methods need to cope with the resulting incompleteness of knowledge bases. This dissertation develops methods to discover and disambiguate named entities, thus linking texts to knowledge bases. The first contribution is a robust disambiguation method using a graph algorithm that makes use of the coherence among entities in the input. The second contribution is a novel model to compute the coherence among entities that works especially well for lesser known entities and is applicable to newly emerging entities. The third contribution addresses the discovery of emerging entities by modeling the entities not present in the knowledge base in an explicit manner. Finally, two applications using the developed entity disambiguation methods are presented. Die Erkennung von Entitäten wie Personen, Organisation, Liedern oder Orten in Texten ist ein wichtiger Baustein für semantische Suche, maschinelle Übersetzung und Informationsextraktion. Ein Kernproblem der Erkennung ist die Mehrdeutigkeit aller Eigennamen. Diese erfordert robuste Methoden, um Eigennamen mit den passenden kanonischen Entitäten einer Wissensbasis zu verknüpfen. Zusätzlich müssen Verknüpfungsmethoden in dieser dynamischen, sich stetig wandelnden Welt von unvollständigen Wissensbasen ausgehen, da ständig neue Entitäten entstehen. Diese Dissertation entwickelt Methoden, Eigennamen zu erkennen und mit kanonischen Entitäten zu verknüpfen, und verbindet somit Texte mit Wissensbasen. Der erste Beitrag ist eine robuste Methode zur Verknüpfung von Eigennamen mit Entitäten, die auf einem Graphalgorithmus basiert und sich die Koheränz zwischen Entitäten im Text zu Nutze macht. Der zweite Beitrag ist ein neues Modell, diese Kohärenz zu berechnen, das besonders gut für weniger bekannte und neu entstehende Entitäten funktioniert. Der dritte Beitrag adressiert spezifisch die Erkennung solcher neu entstehenden Entitäten, indem Entitäten, die nicht in der Wissensbasis vorhanden sind, explizit modelliert werden. Der letzte Beitrag besteht aus zwei Anwendungen, welche die in dieser Arbeit entwickelten Methoden zur Erkennung und Verknüpfung von Entitäten als Bestandteil verwenden.
Link zu diesem Datensatz:	urn:nbn:de:bsz:291-scidok-60226 hdl:20.500.11880/25474 http://dx.doi.org/10.22028/D291-25418
Erstgutachter:	Weikum, Gerhard
Tag der mündlichen Prüfung:	12-Feb-2015
Datum des Eintrags:	18-Mär-2015
Fakultät:	SE - Sonstige Einrichtungen
Fachrichtung:	SE - Max-Planck-Institut für Informatik
Sammlung:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:

Datei	Beschreibung	Größe	Format
Thesis_Johannes_Hoffart_final.pdf		11,75 MB	Adobe PDF	Öffnen/Anzeigen

Export: BibTex Statistik anzeigen

Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.