Please use this identifier to cite or link to this item:
doi:10.22028/D291-45223
Title: | Large-Scale Acquisition of Refined Commonsense Knowledge |
Author(s): | Nguyen, Tuan-Phong |
Language: | English |
Year of Publication: | 2024 |
DDC notations: | 004 Computer science, internet 500 Science 600 Technology |
Publikation type: | Dissertation |
Abstract: | Structured knowledge is important for many artificial intelligence (AI) applications. Commonsense knowledge (CSK) about properties of concepts and human behaviors (e.g., elephants are big and eat plants, children love visiting zoos, tipping is not a common practice in Japan) is crucial for robust human-centric AI. However, this kind of knowledge is covered by a small number of structured knowledge projects. These prior CSK resources have significant shortcomings: 1. Expressiveness: They are restricted in their expressiveness to subject-predicate-object (SPO) triples with simple concepts for S and monolithic strings for P and O. 2. Lacking cultural contextualization: They lack knowledge about human traits and behaviors conditioned on cultural contexts, which is crucial for situative AI. 3. Assertion quality: They suffer from either low precision or limited coverage due to imperfect sources of knowledge extraction (noisy web crawls), or approaches with limited scalability (crowdsourcing). In addition, very few have paid attention to the saliency of assertions. In this dissertation, we develop methods for the automatic acquisition of semantically refined CSK at large scale and overcome these limitations. We tackle the CSK acquisition problem by collecting and organizing knowledge via the following entry points: (1) concepts (in the ASCENT++ project), (2) cultures (in the CANDLE project), and (3) both concepts and cultures (in the MANGO project). 1. Concept-centric extraction and organization: We introduce an expressive CSK model for everyday concepts, with: (i) refined subjects, including subgroups and aspects of primary subjects, (ii) semantic facets for assertions, and (iii) scores for typicality and saliency. Given a set of everyday concepts (e.g., elephant, bicycle), we propose ASCENT++, an automated method for extracting high-quality CSK assertions from large-scale web contents. ASCENT++ consists of various new techniques for aggregation and cleaning. The resulting CSK resource consists of 2M assertions for 10K important concepts, surpassing prior resources on both coverage and precision. 2. Culture-centric extraction and organization: Given a set of cultural groups (e.g., Japanese, Buddhist), we propose the CANDLE method for extracting culture-aware commonsense knowledge (CCSK) from a large web corpus. This method includes judicious techniques for classification-based filtering and scoring of interestingness, which results in a large-scale CCSK resource of 60K assertions covering 386 cultural groups, which has a significantly better quality compared to other resources of similar kind. 3. Combining concepts and cultures: We propose MANGO, a methodology for efficiently distilling CCSK assertions from large language models (LLMs). Our method includes (i) prompt construction for large sets of concepts and cultures, and (ii) clustering assertions into topically and culturally coherent groups. Running the MANGO method with GPT-3.5 as underlying LLM yields a CCSK resource of unprecedented coverage (167K assertions covering 30K concepts and 11K cultures) with even higher quality than CANDLE. In an extrinsic evaluation for intercultural dialogues, we show that the injection of MANGO assertions significantly improves the specificity and cultural sensitivity of LLM responses. Each of the constructed CSK collections is released for further research, with a web-based knowledge base browser, along with downloadable code and data. Strukturiertes Wissen ist wichtig für viele Anwendungen der Künstlichen Intelligenz (KI). Allgemeinwissen ("commonsense knowledge" -- CSK) über Eigenschaften von Konzepten und menschlichem Verhalten (z. B. Elefanten sind groß und fressen Pflanzen; Kinder lieben es, Zoos zu besuchen; Trinkgeldgeben ist in Japan unüblich) ist entscheidend für robuste, menschenzentrierte KI. Diese Art von Wissen wird jedoch nur von einer kleinen Anzahl von strukturierten Wissensprojekten abgedeckt. Diese bestehenden CSK-Ressourcen weisen erhebliche Mängel auf: 1. Ausdrucksstärke: Ihre Ausdrucksmöglichkeiten sind auf Subjekt-Prädikat-Objekt (SPO) Tripel mit einfachen Konzepten für S und monolithischen Strings für P und O beschränkt. 2. Fehlende kulturelle Kontextualisierung: Sie verfügen nicht über Wissen über menschliche Eigenschaften und Verhaltensweisen, die durch kulturelle Kontexte bedingt sind, was für situationale KI entscheidend ist. 3. Qualität der Aussagen: Sie leiden entweder unter niedriger Präzision oder begrenzter Abdeckung aufgrund imperfekter Quellen zur Wissensextraktion (fehlerbehafte Web-Crawls) oder Ansätzen mit begrenzter Skalierbarkeit (Crowdsourcing). Darüber hinaus haben nur wenige die Prägnanz von Aussagen berücksichtigt. In dieser Dissertation entwickeln wir Methoden zur automatischen Gewinnung von semantisch verfeinertem CSK in großem Maßstab und überwinden diese Einschränkungen. Wir gehen das Problem der CSK-Gewinnung an, indem wir Wissen über die folgenden Einstiegspunkte sammeln und organisieren: (1) Konzepte (im Projekt ASCENT++), (2) Kulturen (im Projekt CANDLE) und (3) sowohl Konzepte als auch Kulturen (im Projekt MANGO). 1. Konzept-zentrierte Extraktion und Organisation: Wir führen ein ausdrucksstarkes CSK-Modell für Alltagskonzepte ein, mit: (i) verfeinerten Subjekten, einschließlich Untergruppen und Aspekten von Hauptsubjekten, (ii) semantischen Facetten für Aussagen und (iii) numerischen Indikatoren für Typikalität und Prägnanz. Für eine Reihe von Alltagskonzepten (z. B. elephant, bicycle) schlagen wir ASCENT++ vor, eine automatisierte Methode zur Extraktion hochwertiger CSK-Aussagen aus groß angelegten Webinhalten. ASCENT++ besteht aus verschiedenen neuen Techniken zur Aggregation und Bereinigung. Die resultierende CSK-Ressource umfasst 2 Millionen Aussagen für 10.000 wichtige Konzepte und übertrifft frühere Ressourcen sowohl in Bezug auf Abdeckung als auch Präzision. 2. Kultur-zentrierte Extraktion und Organisation: Für eine Reihe kultureller Gruppen (z. B. Japanese, Buddhist) schlagen wir die CANDLE-Methode zur Extraktion von kulturbezogenem Allgemeinwissen ("culture-aware commonsense knowledge" -- CCSK) aus einem großen Web-Korpus vor. Diese Methode umfasst durchdachte Techniken zur klassifikationsbasierten Filterung und Bewertung der Interessantheit, was zu einer groß angelegten CCSK-Ressource mit 60.000 Aussagen für 386 kulturelle Gruppen führt, die eine signifikant bessere Qualität aufweist als andere ähnliche Ressourcen. 3. Kombination von Konzepten und Kulturen: Wir schlagen MANGO vor, eine Methodik zur effizienten Destillation von CCSK-Aussagen aus großen Sprachmodellen ("large language models" -- LLMs). Unsere Methode umfasst (i) die Konstruktion von Prompts für große Mengen an Konzepten und Kulturen und (ii) die Clusterung von Aussagen in thematisch und kulturell kohärente Gruppen. Die Ausführung der MANGO-Methode mit GPT-3.5 als zugrundeliegendem LLM ergibt eine CCSK-Ressource von beispielloser Abdeckung (167.000 Aussagen, die 30.000 Konzepte und 11.000 Kulturen abdecken) mit noch höherer Qualität als CANDLE. In einer extrinsischen Studie für interkulturelle Dialoge zeigen wir, dass die Einbeziehung von MANGO-Aussagen die Spezifität und kulturelle Sensibilität der LLM-Antworten signifikant verbessert. Jede der erstellten CSK-Sammlungen wird für weitere Forschungsarbeiten veröffentlicht, mit einem webbasierten Wissensdatenbank-Browser sowie herunterladbarem Code und Daten. |
Link to this record: | urn:nbn:de:bsz:291--ds-452237 hdl:20.500.11880/40027 http://dx.doi.org/10.22028/D291-45223 |
Advisor: | Weikum, Gerhard |
Date of oral examination: | 24-Apr-2025 |
Date of registration: | 23-May-2025 |
Faculty: | MI - Fakultät für Mathematik und Informatik |
Department: | MI - Informatik |
Professorship: | MI - Prof. Dr. Gerhard Weikum |
Collections: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Files for this record:
File | Description | Size | Format | |
---|---|---|---|---|
tuan-phong-nguyen-phd-thesis.pdf | PhD Dissertation in full | 2,64 MB | Adobe PDF | View/Open |
Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.