Towards a Broad Coverage Named Entity Resource: A Data-Efficient Approach for Many Diverse Languages

www.lmu.de | UB | Blättern | Hilfe

Zur erweiterten Suche

English

Zur erweiterten Suche

Severini, Silvia; Imani, Ayyoob; Dufter, Philipp und Schütze, Hinrich (Juni 2022): Towards a Broad Coverage Named Entity Resource: A Data-Efficient Approach for Many Diverse Languages. EACL 2022, Marseille, France, June 2022. [PDF, 590kB]

Vorschau

Creative Commons: Namensnennung-Nicht-kommerziell 4.0 (CC-BY-NC)

DOI: 10.5282/ubm/epub.107433

Abstract

Parallel corpora are ideal for extracting a multilingual named entity (MNE) resource, i.e., a dataset of names translated into multiple languages. Prior work on extracting MNE datasets from parallel corpora required resources such as large monolingual corpora or word aligners that are unavailable or perform poorly for underresourced languages. We present CLC-BN, a new method for creating an MNE resource, and apply it to the Parallel Bible Corpus, a corpus of more than 1000 languages. CLC-BN learns a neural transliteration model from parallel-corpus statistics, without requiring any other bilingual resources, word aligners, or seed data. Experimental results show that CLC-BN clearly outperforms prior work. We release an MNE resource for 1340 languages and demonstrate its effectiveness in two downstream tasks: knowledge graph augmentation and bilingual lexicon induction.

Dokumententyp:	Konferenzbeitrag (Paper)
EU Funded Grant Agreement Number:	740516
EU-Projekte:	Horizon 2020 > ERC Grants > ERC Advanced Grant > ERC Grant 740516: NonSequeToR - Non-sequence models for tokenization replacement
Fakultätsübergreifende Einrichtungen:	Centrum für Informations- und Sprachverarbeitung (CIS)
Themengebiete:	400 Sprache > 400 Sprache 400 Sprache > 410 Linguistik
URN:	urn:nbn:de:bvb:19-epub-107433-4
Sprache:	Englisch
Dokumenten ID:	107433
Datum der Veröffentlichung auf Open Access LMU:	20. Okt. 2023 05:37
Letzte Änderungen:	20. Okt. 2023 05:37

Dokument bearbeiten