Building and using comparable corpora for domain-specific bilingual lexicon extraction

Fišer, Darja; Ljubešić, Nikola; Vintar, Špela; Pollak, Senja

izvor podataka: crosbi !

Building and using comparable corpora for domain-specific bilingual lexicon extraction (CROSBI ID 581482)

Prilog sa skupa u zborniku | izvorni znanstveni rad | međunarodna recenzija

Fišer, Darja ; Ljubešić, Nikola ; Vintar, Špela ; Pollak, Senja Building and using comparable corpora for domain-specific bilingual lexicon extraction // 4th Workshop on Building and Using Comparable Corpora: Comparable Corpora and the Web. Portland (ME): Association for Computational Linguistics (ACL), 2011. str. 19-26

Podaci o odgovornosti

Autori

Fišer, Darja ; Ljubešić, Nikola ; Vintar, Špela ; Pollak, Senja

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

engleski

Naslov

Building and using comparable corpora for domain-specific bilingual lexicon extraction

Sažetak

This paper presents a series of experiments aimed at inducing and evaluating domain- specific bilingual lexica from comparable corpora. First, a small English-Slovene comparable corpus from health magazines was manually constructed and then used to compile a large comparable corpus on health-related topics from web corpora. Next, a bilingual lexicon for the domain was extracted from the corpus by comparing context vectors in the two languages. Evaluation of the results shows that a 2-way translation of context vectors significantly improves precision of the extracted translation equivalents. We also show that it is sufficient to increase the corpus for one language in order to obtain a higher recall, and that the increase of the number of new words is linear in the size of the corpus. Finally, we demonstrate that by lowering the frequency threshold for context vectors, the drop in precision is much slower than the increase of recall.

Ključne riječi

comparable corpora; bilingual lexicon extraction; domain lexicons

Napomena

nije evidentirano

Jezik

nije evidentirano

Naslov

nije evidentirano

Sažetak

nije evidentirano

Ključne riječi

nije evidentirano

Napomena

nije evidentirano

Podaci o prilogu

Stranice rada

19-26.

Godina izdavanja

2011.

Status objave rada

objavljeno

Podaci o matičnoj publikaciji

Naslov

4th Workshop on Building and Using Comparable Corpora: Comparable Corpora and the Web

Izdavač

Portland (ME): Association for Computational Linguistics (ACL)

Podaci o skupu

Skup

4th Workshop on Building and Using Comparable Corpora: Comparable Corpora and the Web

Vrsta sudjelovanja

predavanje

Datum održavanja skupa

24.07.2011-24.07.2011

Mjesto održavanja skupa

Portland (OR), Sjedinjene Američke Države

Povezanost rada

Povezane osobe

Nikola Ljubešić (CroRIS ID: 4119; MBZ: 272820) (autor)

Povezane ustanove

Filozofski fakultet u Zagrebu (130) (autorova ustanova)

Povezani projekti

Hrvatska rječnička baština i hrvatski europski identitet (rezultat rada na projektu)

Područje

Informacijske i komunikacijske znanosti

Poveznice

aclweb.org