Oslo Multilingual Corpus - bakgrunn og bruk

Oslo Multilingual Corpus (OMC) er en samling av flerspråklige tekstkorpus som består av originaltekster og oversettelser.

En akademisk løpebane, jo takk som byr!

An academic career? No thanks!

Une carrière universitaire? Allons donc.

Eine akademische Laufbahn, du meine Güte.

De forskjellige delkorpusene skiller seg fra hverandre ved å inneholde et ulikt antall språk eller en ulik sammensetning av språk.

OMC er et unikt forskningsmateriale for bruk innen kontrastive studier, oversettelsesstudier og innen teoretisk og anvendt lingvistikk.

Samarbeid

Oslo Multilingual Corpus er et produkt av det tverrfaglige forskningsprosjektet Språk i kontrast (SPRIK), som er et samarbeid mellom forskere fra Det humanistiske fakultet ved UiO.

Mange delkorpus

OMC består av mange delkorpus som har ulik sammensetning både når det gjelder språk og antall tekster.

Det er i hovedsak språkene norsk, engelsk, fransk og tysk som er representert i de ulike delkorpusene, men det finnes også mindre korpus med nederlandske og portugisiske tekster. I tillegg finnes beslektede parallellkorpus for engelsk-svensk og engelsk-finsk, produsert i hhv Sverige og Finland, som er tilgjengelige gjennom samme søkesystem som OMC.

Delkorpuset Fransk-norsk parallellkorpus (FNPC/fiction) er samlet inn ved Universitetet i Bergen (UiB), og ferdigstilt ved Universitetet i Oslo (UiO). FNPC/non-fiction inneholder tekster samlet inn ved UiO og UiB. Det er benyttet ankerordliste og ordsplittingsregler utarbeidet ved UiB.

Mange av originaltekstene går igjen i de forskjellige delkorpusene, dvs. sammensetningen av ulike språk i korpusene gjør det mulig å bruke de samme tekstene i flere korpus. Dette gjelder særlig de som inneholder norske, engelske, eller tyske originaltekster. En oversikt over de ulike delkorpusene finnes her.

OMC bygger videre på Engelsk-norsk parallellkorpus (ENPC), som ble utviklet og ferdigstilt ved Institutt for britiske og amerikanske studier i 1996.

Tilgang for forskere og studenter ved UiO/UiB

Materialet i OMC er passordbeskyttet og kan utelukkende brukes til forskning. OMC er særlig forbeholdt mastergradsstudenter, PhD-studenter og forskere ved Universitetet i Oslo og Universitetet i Bergen.

En liste over publikasjoner i tilknytning til OMC og SPRIK finnes her.

Tekniske spesifikasjoner

Oslo Multilingual Corpus er bygd opp etter samme prinsipp som Engelsk-norsk parallellkorpus og kodingen av tekstene følger de samme retningslinjene som ENPC (dvs. TEI Guidelines for Electronic Text Encoding and Interchange (Sperberg-McQueen og Burnard, 1994).

Det vises derfor til manualen for ENPC for opplysninger om koding av tekstene i OMC. (Se lenker til høyre)

Når det gjelder oppbygningen av OMC, vises det til SPRIK-rapport nr. 1.

Hvordan referere til OMC

The Oslo Multilingual Corpus (1999-2008), the Faculty of Humanities, University of Oslo. The Oslo Multilingual Corpus is a product of the interdisciplinary research project Languages in Contrast (SPRIK), directed by Stig Johansson and Cathrine Fabricius-Hansen, and compiled by the OMC corpus team. http://www.hf.uio.no/ilos/english/services/omc/

Publisert 5. juli 2010 16:38 - Sist endret 8. des. 2014 11:12