Extracting Data from Comparable Corpora

Pinnis, Mārcis; Ljubešić, Nikola; Ştefănescu, Dan; Skadiņa, Inguna; Tadić, Marko; Gornostaja, Tatjana; Vintar, Špela; Fišer, Darja

izvor podataka: crosbi ✓

Extracting Data from Comparable Corpora (CROSBI ID 63155)

Prilog u knjizi | izvorni znanstveni rad | međunarodna recenzija

Pinnis, Mārcis ; Ljubešić, Nikola ; Ştefănescu, Dan ; Skadiņa, Inguna ; Tadić, Marko ; Gornostaja, Tatjana ; Vintar, Špela ; Fišer, Darja Extracting Data from Comparable Corpora // Using Comparable Corpora for Under-Resourced Areas of Machine Translation / Skadiņa, Inguna ; Gaizauskas, Robert ; Babych, Bogdan et al. (ur.). Berlin: Springer, 2019. str. 89-139 doi: 10.1007/978-3-319-99004-0_4

Podaci o odgovornosti

Autori

Pinnis, Mārcis ; Ljubešić, Nikola ; Ştefănescu, Dan ; Skadiņa, Inguna ; Tadić, Marko ; Gornostaja, Tatjana ; Vintar, Špela ; Fišer, Darja

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

engleski

Naslov

Extracting Data from Comparable Corpora

Sažetak

Comparable corpora may comprise different types of single-word and multi-word phrases that can be considered as reciprocal translations, which may be beneficial for many different natural language processing tasks. This chapter describes methods and tools developed within the ACCURAT project that allow utilising comparable corpora in order to (1) identify terms, named entities (NEs), and other lexical units in comparable corpora, and (2) to cross- lingually map the identified single-word and multi-word phrases in order to create automatically extracted bilingual dictionaries that can be further utilised in machine translation, question answering, indexing, and other areas where bilingual dictionaries can be useful.

Ključne riječi

comparable corpora ; data extraction ; machine translation

Napomena

nije evidentirano

Jezik

nije evidentirano

Naslov

nije evidentirano

Sažetak

nije evidentirano

Ključne riječi

nije evidentirano

Napomena

nije evidentirano

Podaci o prilogu

Stranice rada

89-139.

Status objave rada

objavljeno

DOI

10.1007/978-3-319-99004-0_4

Podaci o knjizi

Knjiga u kojoj je prilog objavljen

Using Comparable Corpora for Under-Resourced Areas of Machine Translation

Urednici

Skadiņa, Inguna ; Gaizauskas, Robert ; Babych, Bogdan ; Ljubešić, Nikola ; Tufiş, Dan ; Vasiļjevs, Andrejs

Izdavač

Berlin: Springer

Godina izdavanja

2019.

ISBN

978-3-319-99004-0

Povezanost rada

Povezane osobe

Nikola Ljubešić (autor/i)

Marko Tadić (autor/i)

Povezane ustanove

Filozofski fakultet u Zagrebu (130) (autorova ustanova)

Područje

Filologija, Informacijske i komunikacijske znanosti

Poveznice

doi.org

books.google.hr

springer.com