Efficient knowledge management for named entities from text

Dutta, Sourav

Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-26701

Titel:	Efficient knowledge management for named entities from text
Alternativtitel:	Effizientes Wissensmanagement von benannten Entitäten aus Text
VerfasserIn:	Dutta, Sourav
Sprache:	Englisch
Erscheinungsjahr:	2016
Kontrollierte Schlagwörter:	Entität Referenzidentität Dokumentverarbeitung Wissensmanagement Wissensbasis
Freie Schlagwörter:	Dokumentübergreifende Entitätskoreferenz-Auflösung Benannte Entitätsverlinkung Wissensbasen cross document co-reference resolution named entity linking knowledge base
DDC-Sachgruppe:	004 Informatik
Dokumenttyp:	Dissertation
Abstract:	The evolution of search from keywords to entities has necessitated the efficient harvesting and management of entity-centric information for constructing knowledge bases catering to various applications such as semantic search, question answering, and information retrieval. The vast amounts of natural language texts available across diverse domains on the Web provide rich sources for discovering facts about named entities such as people, places, and organizations. A key challenge, in this regard, entails the need for precise identification and disambiguation of entities across documents for extraction of attributes/relations and their proper representation in knowledge bases. Additionally, the applicability of such repositories not only involves the quality and accuracy of the stored information, but also storage management and query processing efficiency. This dissertation aims to tackle the above problems by presenting efficient approaches for entity-centric knowledge acquisition from texts and its representation in knowledge repositories. This dissertation presents a robust approach for identifying text phrases pertaining to the same named entity across huge corpora, and their disambiguation to canonical entities present in a knowledge base, by using enriched semantic contexts and link validation encapsulated in a hierarchical clustering framework. This work further presents language and consistency features for classification models to compute the credibility of obtained textual facts, ensuring quality of the extracted information. Finally, an encoding algorithm, using frequent term detection and improved data locality, to represent entities for enhanced knowledge base storage and query performance is presented. Die Weiterentwicklung der Schlagwortsuche hin zu Entitäten erfordert die effiziente Sammeln und Verwalten von Informationen zur Konstruktion von Wissensbasen. Diese Wissensbasen sind die Grundlage für verschiedene Anwendungen, wie etwa semantische Suche, maschinelle Beantwortung von Fragen oder Informationsrückgewinnung. Die großen Mengen von Texten in natürlicher Sprache, die über verschiedene Domänen hinweg im World Wide Web verfügbar sind, bietet dabei eine reiche InformationsQuelle zum Auffinden von Fakten über benannte Entitäten wie Personen, Orte, und Organisationen. Wesentliche Herausforderungen in dieser Hinsicht sind die genaue, dokumentübergreifende Identifikation und Disambiguierung verteilten Entitäten, die zur Extraktion von Attributen/Relationen benötigt werden sowie deren geeignete Repräsentation in Wissensbasen. Die Anwendbarkeit solcher Wissensbasen hängt dabei nicht nur von der Qualität und Genauigkeit der gespeicherten Informationen ab, sondern auch von der Speicherplatzverwaltung und der effizienten Bearbeitung von Anfragen. Ziel dieser Dissertation ist die Auseinandersetzung mit den zuvor beschriebenen Problemen. Dazu werden effiziente Verfahren zur entitätszentrischen Wissensaquise aus Texten und deren Repräsentation in Wissensbasen vorgestellt. Diese Dissertation stellt ein robustes Verfahren zur Identifikation von Textphrasen vor, die sich auf die gleiche Entität beziehen und über große Korpora verteilt sein können. Außerdem wird die Disambiguierung und Kanonisierung von Entitäten mittels eines hierarchischen Clusteranalyseverfahrens beschrieben, das auf angereichertem semantischem Kontext und Linkvalidierung beruht. Einen weiteren Teil dieser Arbeit stellen Sprach- und Konsistenzmerkmale dar, die in Klassifizerungsmodellen verwendet werden, um die Glaubwürdigkeit von Fakten zu bestimmen und somit die Qualität der extrahierten Informationen zu gewährleisten. Schlussendlich wird ein Kodierungsalgorithmus zur Repräsentation von Entitäten präsentiert, der auf der Erkennung von häufigen Termen und einer verbesserten Datenlokalität beruht, um dadurch eine bessere Speicherplatzverwaltung und Abfrageperformanz der Wissensbasis zu ermöglichen.
Link zu diesem Datensatz:	urn:nbn:de:bsz:291-scidok-67924 hdl:20.500.11880/26757 http://dx.doi.org/10.22028/D291-26701
Erstgutachter:	Weikum, Gerhard
Tag der mündlichen Prüfung:	9-Mär-2017
Datum des Eintrags:	10-Mär-2017
Fakultät:	MI - Fakultät für Mathematik und Informatik
Fachrichtung:	MI - Informatik
Sammlung:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:

Datei	Beschreibung	Größe	Format
my_thesis.pdf	Dissertation (English)	1,7 MB	Adobe PDF	Öffnen/Anzeigen

Export: BibTex Statistik anzeigen

Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.