English version of this page

Delkorpuser

Oslo Multilingual Corpus (OMC) består av mange delkorpuser som har ulik sammensetning både når det gjelder språk og antall tekster.

Språk i korpusene

Det er i hovedsak språkene norsk, engelsk, fransk og tysk som er representert i de ulike delkorpusene, men det finnes også mindre korpuser med nederlandske og portugisiske tekster.

I tillegg finnes beslektede parallellkorpuser for engelsk-svensk og engelsk-finsk, produsert i henholdsvis Sverige og Finland.

Korpusene bruker mange av de samme tekstene

Mange av originaltekstene går igjen i de forskjellige delkorpusene, det vil si sammensetningen av ulike språk i korpusene gjør det mulig å bruke de samme tekstene i flere korpuser. Dette gjelder særlig de som inneholder norske, engelske, eller tyske originaltekster.

Parallellkorpus og oversettelseskorpus

De forskjellige delkorpusene i OMC faller inn under to hovedtyper av flerspråklige korpuser: parallellkorpus og oversettelseskorpus.

Med parallellkorpus menes her tekstsamlinger som inneholder både originaltekster og oversettelser fra to eller flere språk. I den grad det har vært mulig, er det samsvar mellom antall originaltekster i de to (eller tre) språkene. 

Med oversettelseskorpus menes tekstsamlinger som inneholder originaltekst fra ett språk med oversettelser til ett eller flere språk, det vil si at kun et språk er representert med originaltekster.

Alle tekstene er klassifisert enten som sakprosa eller skjønnlitteratur.

Oversikt over delkorpusene

Engelsk-norsk parallellkorpus (ENPC)

Oslo Multilingual Corpus (OMC) bygger videre på Engelsk-norsk parallellkorpus (ENPC) (på engelsk), som ble utviklet og ferdigstilt ved Institutt for britiske og amerikanske studier i 1996.

Korpuset består av en skjønnlitterær del og en sakprosa-del. Korpuset inneholder 50 originaltekster og oversettelser fra hvert språk (engelsk-norsk og norsk-engelsk), 30 av disse er skjønnlitteratur, mens 20 er sakprosa.

Hvert tekstutdrag består av mellom 10 000-15 000 ord. Totalt inneholder ENPC ca. 2,6 millioner ord.

ENPC/Fiction

(Ordtelling i AntConc v. 3.5.9 (Anthony 2020))

  • Engelsk originaltekst: ca. 422 000 ord.
  • Norsk oversatt tekst: ca. 411 000 ord.
  • Norsk originaltekst: ca. 402 000 ord.
  • Engelsk oversatt tekst: ca. 443 000 ord.

ENPC/Non-fiction

  • Engelsk originaltekst: ca. 252 000 ord.
  • Norsk oversatt tekst: ca. 244 000 ord.
  • Norsk originaltekst: ca. 220 100 ord.
  • Engelsk oversatt tekst: ca. 252 700 ord.

Fransk-norsk parallellkorpus (FNPC)

Delkorpuset Fransk-norsk parallellkorpus (FNPC/fiction) er samlet inn ved Universitetet i Bergen (UiB), og ferdigstilt ved Universitetet i Oslo (UiO).

FNPC/non-fiction inneholder tekster samlet inn ved UiO og UiB. Det er benyttet ankerordliste og ordsplittingsregler utarbeidet ved UiB.

Korpuset inneholder franske og norske originaltekster med oversettelser til henholdsvis norsk og fransk. Korpuset består av en skjønnlitterær del (FNPC/Fiction) og en sakprosa-del (FNPC/Non-fiction).

I FNPC/Non-fiction er det 10 originaltekster fra hvert av språkene, mens det i FNPC/fiction er seks franske originaltekster med norske oversettelser og fem norske originaltekster med franske oversettelser.

Hvert tekstutdrag består av mellom 6 000–41 000 ord. Totalt inneholder FNPC ca. 864 600 ord. Disse fordeler seg som følger:

FNPC/Fiction

  • Norsk originaltekst: ca. 55 800.
  • Fransk oversatt tekst: ca. 63 300.
  • Fransk originaltekst: ca. 111 200.
  • Norsk oversatt tekst: ca. 109 300.

FNPC/Non-fiction

  • Norsk originaltekst: ca. 117 500.
  • Fransk oversatt tekst: ca. 134 000.
  • Fransk originaltekst: ca. 136 500.
  • Norsk oversatt tekst: ca. 137 000.

Tysk-norsk parallellkorpus (GNPC)

Korpuset inneholder tyske og norske originaltekster med oversettelser til henholdsvis norsk og tysk.

Korpuset består av en skjønnlitterær del (GNPC/Fiction) og en sakprosa-del (GNPC/Non-fiction). I GNPC/Non-fiction er det fem originaltekster fra hvert av språkene, mens det i GNPC/Fiction er 18 originaltekster fra hvert av språkene.

Totalt inneholder GNPC ca. 1 275 000 ord. Disse fordeler seg som følger:

GNPC/Fiction

  • Norsk originaltekst: ca. 240 600.
  • Tysk oversatt tekst: ca. 238 800.
  • Tysk originaltekst: ca. 269 500.
  • Norsk oversatt tekst: ca. 256 800.

GNPC/Non-fiction

  • Norsk originaltekst: ca. 63 200.
  • Tysk oversatt tekst: ca. 66 900.
  • Tysk originaltekst: ca. 67 600.
  • Norsk oversatt tekst: ca. 71 900.
     

Engelsk-tysk parallellkorpus (En-Ge-En)

Korpuset inneholder engelske og tyske originaltekster med oversettelser til henholdsvis tysk og engelsk. Korpuset består både av sakprosa og skjønnlitterære tekster.

En-Ge-En inneholder 33 engelske og 21 tyske originaltekster og i gjennomsnitt består hvert tekstutdrag av mellom 10 000-15 000 ord. Totalt inneholder korpuset ca. 1 500 000 ord.

Disse fordeler seg som følger:

  • Engelsk originaltekst: ca. 432 500.
  • Tysk oversatt tekst: ca. 442 200.
  • Tysk originaltekst: ca. 303 500.
  • Engelsk oversatt tekst: ca. 320 900.

Tysk-norsk parallellkorpus (ikke balansert) (Ge-No-Ge)

Korpuset inneholder tyske og norske originaltekster med oversettelser til henholdsvis norsk og tysk. Korpuset består både av sakprosa og skjønnlitterære tekster.

Ge-No-Ge inneholder 37 tyske og 28 norske originaltekster og i gjennomsnitt består hvert tekstutdrag av mellom 10 000–15 000 ord.

Totalt inneholder korpuset ca. 1 793 500 ord. Disse fordeler seg som følger:

  • Tysk originaltekst: ca. 517 800.
  • Norsk oversatt tekst: ca. 515 100.
  • Norsk originaltekst: ca. 378 000.
  • Tysk oversatt tekst: ca. 382 600.

Norsk-engelsk-tysk parallellkorpus

Korpuset inneholder originaltekster og oversettelser fra tre språk (norsk-engelsk-tysk, engelsk-tysk-norsk og tysk-engelsk-norsk). Korpuset er delt inn i tre forskjellige databaser.

Samlet utgjør disse tre delkorpusene et norsk-engelsk-tysk parallellkorpus.

  • No-En-Ge består av norske originaler med engelske og tyske oversettelser
  • En-Ge-No består av engelske originaler med tyske og norske oversettelser
  • Ge-En-No består av tyske originaler med engelske og norske oversettelser.

Norsk-engelsk-tysk parallellkorpus inneholder foreløpig et ujevnt antall originaltekster i de tre språkene.

Målet er å få 25–30 originaltekster fra hvert språk. I januar 2006 var det 22 norske, 33 engelske og 21 tyske originaltekster. Disse er stort sett skjønnlitterære tekster.


No-En-Ge:

Norsk originaltekst: ca. 289 230
Engelsk oversatt tekst (fra norsk): ca. 306 050
Tysk oversatt tekst (fra norsk): ca. 289 860


En-Ge-No:

Engelsk originaltekst: ca. 432 500
Tysk oversatt tekst (fra engelsk): ca. 442 200
Norsk oversatt tekst (fra engelsk): ca. 430 300


Ge-En-No:

Tysk originaltekst: ca. 298 600
Engelsk oversatt tekst (fra tysk): ca. 319 400
Norsk oversatt tekst (fra tysk): ca. 293 000

Engelsk-nederlandsk oversettelseskorpus (En-Du)

Korpuset inneholder 12 engelske originaltekster med oversettelser til nederlandsk. Alle tekstene er skjønnlitterære og alle er også å finne i ENPC.

Hvert tekstutdrag består av mellom 10 000–15 000 ord. Totalt inneholder korpuset ca. 326 300 ord. Disse fordeler seg som følger:

  • Engelsk originaltekst: ca. 158 000
  • Nederlandsk oversatt tekst: ca. 168 300

Engelsk-norsk-portugisisk oversettelseskorpus (En-No-Po)

Korpuset inneholder 15 engelske originaltekster med oversettelser til norsk og portugisisk.

Alle tekstene er skjønnlitterære og er også å finne i Engelsk-norsk parallellkorpus (ENPC). En av tekstene har oversettelse både til europeisk og brasiliansk portugisisk.

Hvert tekstutdrag består av mellom 10 000–15 000 ord. Totalt inneholder korpuset ca. 606 000 ord.

Disse fordeler seg som følger:

  • Engelsk originaltekst: ca. 197 000
  • Norsk oversatt tekst: ca. 197 000
  • Portugisisk oversatt tekst: ca. 212 000

Norsk-fransk-tysk oversettelseskorpus (No-Fr-Ge)

Korpuset inneholder norske originaltekster med oversettelser til fransk og tysk. Korpuset består av sju skjønnlitterære tekster.

Tekstutdragene utgjør ca. 80 prosent av hver bok. Totalt inneholder korpuset ca. 1 525 398 ord. Disse fordeler seg som følger:

  • Norsk originaltekst: ca. 498 724.
  • Fransk oversatt tekst: ca. 540 887.
  • Tysk oversatt tekst: ca. 485 787.

Norsk-engelsk-fransk-tysk oversettelseskorpus (No-En-Fr-Ge)

Korpuset inneholder norske originaltekster med oversettelser til engelsk, fransk og tysk.

Korpuset består av fem skjønnlitterære tekster. Alle disse er også å finne i En-Fr-Ge. Forskjellen er at dette delkorpuset inneholder engelske oversettelser i tillegg til fransk og tysk.

Tekstutdragene utgjør ca. 80 prosent av hver bok. Totalt inneholder korpuset ca. 1 666 964 ord.

Disse fordeler seg som følger:

  • Norsk originaltekst: ca. 408 558.
  • Engelsk oversatt tekst: ca. 425 949.
  • Fransk oversatt tekst: ca. 439 687.
  • Tysk oversatt tekst: ca. 392 770.

Søsterkorpuser (ikke en del av OMC)

Engelsk svensk parallellkorpus (ESPC)

Engelsk-svensk parallellkorpus (ESPC) (spraakbanken.gu.se) er det svenske søsterkorpuset til Engelsk-norsk parallellkorpus (ENPC).

Som ENPC inneholder det en skjønnlitterær del og en sakprosa-del. Korpuset inneholder originaltekster og oversettelser (engelsk-svensk og svensk-engelsk).

Siden de to korpusene ble utviklet innen et større nordisk nettverkssamarbeid er mange av de engelske originaltekstene de samme for ENPC og ESPC.

Engelsk-finsk oversettelseskorpus (En-Fi)

Korpuset inneholder engelske originaltekster med oversettelser til finsk.

En-Fi er også et produkt av et nordisk nettverkssamarbeid. Korpuset består av skjønnlitterære tekster og er opprinnelig del av English-Finnish Parallel Corpus som også har finske originaltekster. Også her er mange av de engelske tekstene de samme som for ENPC og ESPC.

En-Fi består av 21 tekster. Hvert tekstutdrag består av mellom 10 000–15 000 ord, dvs. ca. 295 000 ord i originaltekstene.

En-Fi er også et produkt av et nordisk nettverkssamarbeid. The Finnish-English Contrastive Corpus Studies Project (FECCS) er ansvarlig for tekstene i En-Fi.

Publisert 5. juli 2010 17:04 - Sist endret 9. mars 2023 13:35