Delkorpus

De forskjellige delkorpusene i OMC faller inn under to hovedtyper av flerspråklige korpus: parallellkorpus og oversettelseskorpus.

Med parallellkorpus menes her tekstsamlinger som inneholder både originaltekster og oversettelser fra to eller flere språk. I den grad det har vært mulig, er det samsvar mellom antall originaltekster i de to (eller tre) språkene. 

Med oversettelseskorpus menes tekstsamlinger som inneholder originaltekst fra ett språk med oversettelser til ett eller flere språk, dvs. kun et språk er representert med originaltekster.

Alle tekstene er klassifisert enten som sakprosa eller skjønnlitteratur.

Under følger en liste over delkorpusene i OMC.

(Husk at du må ha tilgang til OMC for å få se oversikten over tekster i de forskjellige delkorpusene.)

Engelsk-norsk parallellkorpus er moderkorpuset til OMC og består av en skjønnlitterær del og en sakprosa-del. Korpuset inneholder 50 originaltekster og oversettelser fra hvert språk (engelsk-norsk og norsk-engelsk), 30 av disse er skjønnlitteratur, mens 20 er sakprosa. Hvert tekstutdrag består av mellom 10 000-15 000 ord. Totalt inneholder ENPC ca. 2,6 millioner ord.
--------------------------------------------------------------------------------

ENPC/Fiction
Engelsk originaltekst: ca. 402 500 ord
Norsk oversatt tekst: ca. 398 000 ord
Norsk originaltekst: ca. 403 500 ord
Engelsk oversatt tekst: ca. 423 000 ord
--------------------------------------------------------------------------------

ENPC/Non-fiction
Engelsk originaltekst: ca. 252 000 ord
Norsk oversatt tekst: ca. 244 000 ord
Norsk originaltekst: ca. 220 100 ord
Engelsk oversatt tekst: ca. 252 700 ord
--------------------------------------------------------------------------------

Fransk-norsk parallellkorpus

inneholder franske og norske originaltekster med oversettelser til henholdsvis norsk og fransk. Korpuset består av en skjønnlitterær del (FNPC/Fiction) og en sakprosa-del (FNPC/Non-fiction). I FNPC/Non-fiction er det 10 originaltekster fra hvert av språkene, mens det i FNPC/fiction er 6 franske originaltekster med norske oversettelser og 5 norske originaltekster med franske oversettelser.

Hvert tekstutdrag består av mellom 6 000-41 000 ord. Totalt inneholder FNPC ca. 864 600 ord. Disse fordeler seg som følger:
--------------------------------------------------------------------------------

FNPC/Fiction
Norsk originaltekst: ca. 55 800
Fransk oversatt tekst: ca. 63 300
Fransk originaltekst: ca. 111 200
Norsk oversatt tekst: ca. 109 300
--------------------------------------------------------------------------------

FNPC/Non-fiction
Norsk originaltekst: ca. 117 500
Fransk oversatt tekst: ca. 134 000
Fransk originaltekst: ca. 136 500
Norsk oversatt tekst: ca. 137 000
---------------------------------------------------------------------------------

 

Tysk-norsk parallellkorpus (German-Norwegian Parallel Corpus) inneholder tyske og norske originaltekster med oversettelser til henholdsvis norsk og tysk. Korpuset består av en skjønnlitterær del (GNPC/Fiction) og en sakprosa-del (GNPC/Non-fiction). I GNPC/Non-fiction er det 5 originaltekster fra hvert av språkene, mens det i GNPC/Fiction er 18 originaltekster fra hvert av språkene.

Totalt inneholder GNPC ca. 1 275 000 ord. Disse fordeler seg som følger:
--------------------------------------------------------------------------------

GNPC/Fiction
Norsk originaltekst: ca. 240 600
Tysk oversatt tekst: ca. 238 800
Tysk originaltekst: ca. 269 500
Norsk oversatt tekst: ca. 256 800
--------------------------------------------------------------------------------

GNPC/Non-fiction
Norsk originaltekst: ca. 63 200
Tysk oversatt tekst: ca. 66 900
Tysk originaltekst: ca. 67 600
Norsk oversatt tekst: ca. 71 900
---------------------------------------------------------------------------------

 

En-Ge-En: Dette er et engelsk-tysk parallellkorpus som inneholder engelske og tyske originaltekster med oversettelser til henholdsvis tysk og engelsk. Korpuset består både av sakprosa og skjønnlitterære tekster.

En-Ge-En inneholder 33 engelske og 21 tyske originaltekster og i gjennomsnitt består hvert tekstutdrag av mellom 10 000-15 000 ord. Totalt inneholder korpuset ca. 1 500 000 ord. Disse fordeler seg som følger:
Engelsk originaltekst: ca. 432 500
Tysk oversatt tekst: ca. 442 200
Tysk originaltekst: ca. 303 500
Engelsk oversatt tekst: ca. 320 900

---------------------------------------------------------------------------------

 

Ge-No-Ge: Dette er et tysk-norsk parallellkorpus som inneholder tyske og norske originaltekster med oversettelser til henholdsvis norsk og tysk. Korpuset består både av sakprosa og skjønnlitterære tekster.

Ge-No-Ge inneholder 37 tyske og 28 norske originaltekster og i gjennomsnitt består hvert tekstutdrag av mellom 10 000-15 000 ord. Totalt inneholder korpuset ca. 1 793 500 ord. Disse fordeler seg som følger:
Tysk originaltekst: ca. 517 800
Norsk oversatt tekst: ca. 515 100
Norsk originaltekst: ca. 378 000
Tysk oversatt tekst: ca. 382 600

---------------------------------------------------------------------------------

 

Norsk-engelsk-tysk parallellkorpus inneholder originaltekster og oversettelser fra tre språk (norsk-engelsk-tysk, engelsk-tysk-norsk og tysk-engelsk-norsk). Korpuset er delt inn i tre forskjellige databaser.

Samlet utgjør disse tre delkorpusene et norsk-engelsk-tysk parallellkorpus. No-En-Ge består av norske originaler med engelske og tyske oversettelser; En-Ge-No består av engelske originaler med tyske og norske oversettelser; Ge-En-No består av tyske originaler med engelske og norske oversettelser.

Norsk-engelsk-tysk parallellkorpus inneholder foreløpig et ujevnt antall originaltekster i de tre språkene. Målet er å få 25-30 originaltekster fra hvert språk. Status for korpuset er pr. i dag (januar 2006) er 22 norske, 33 engelske og 21 tyske originaltekster. Disse er stort sett skjønnlitterære tekster.
No-En-Ge:
Norsk originaltekst: ca. 289 230
Engelsk oversatt tekst (fra norsk): ca. 306 050
Tysk oversatt tekst (fra norsk): ca. 289 860


En-Ge-No:
Engelsk originaltekst: ca. 432 500
Tysk oversatt tekst (fra engelsk): ca. 442 200
Norsk oversatt tekst (fra engelsk): ca. 430 300


Ge-En-No:
Tysk originaltekst: ca. 298 600
Engelsk oversatt tekst (fra tysk): ca. 319 400
Norsk oversatt tekst (fra tysk): ca. 293 000

----------------------------------------------------------------------------

En-Du: Dette er et engelsk-nederlandsk oversettelseskorpus som inneholder 12 engelske originaltekster med oversettelser til nederlandsk. Alle tekstene er skjønnlitterære og alle er også å finne i ENPC.

Hvert tekstutdrag består av mellom 10 000-15 000 ord. Totalt inneholder korpuset ca. 326 300 ord. Disse fordeler seg som følger:
Engelsk originaltekst: ca. 158 000
Nederlandsk oversatt tekst: ca. 168 300

----------------------------------------------------------------------------

 

En-No-Po: Dette er et engelsk-norsk-portugisisk oversettelseskorpus som inneholder 15 engelske originaltekster med oversettelser til norsk og portugisisk. Alle tekstene er skjønnlitterære og er også å finne i ENPC. En av tekstene har oversettelse både til europeisk og brasiliansk portugisisk.

Hvert tekstutdrag består av mellom 10 000-15 000 ord. Totalt inneholder korpuset ca. 606 000 ord. Disse fordeler seg som følger:
Engelsk originaltekst: ca. 197 000
Norsk oversatt tekst: ca. 197 000
Portugisisk oversatt tekst: ca. 212 000

----------------------------------------------------------------------------

 

No-Fr-Ge: Dette er et norsk-fransk-tysk oversettelseskorpus som inneholder norske originaltekster med oversettelser til fransk og tysk. Korpuset består av sju skjønnlitterære tekster.

Tekstutdragene utgjør ca. 80% av hver bok. Totalt inneholder korpuset ca. 1 525 398 ord. Disse fordeler seg som følger:
Norsk originaltekst: ca. 498 724
Fransk oversatt tekst: ca. 540 887
Tysk oversatt tekst: ca. 485 787

----------------------------------------------------------------------------

 

No-En-Fr-Ge: Dette er et norsk-engelsk-fransk-tysk oversettelseskorpus som inneholder norske originaltekster med oversettelser til engelsk, fransk og tysk. Korpuset består av fem skjønnlitterære tekster. Alle disse er også å finne i En-Fr-Ge. Forskjellen er at dette delkorpuset inneholder engelske oversettelser i tillegg til fransk og tysk.

Tekstutdragene utgjør ca. 80% av hver bok. Totalt inneholder korpuset ca. 1 666 964 ord. Disse fordeler seg som følger:
Norsk originaltekst: ca. 408 558
Engelsk oversatt tekst: ca. 425 949
Fransk oversatt tekst: ca. 439 687
Tysk oversatt tekst: ca. 392 770

----------------------------------------------------------------------------

 

ESPC: Engelsk-svensk parallellkorpus er det svenske søsterkorpuset til ENPC. Som ENPC inneholder det en skjønnlitterær del og en sakprosa-del. Korpuset inneholder originaltekster og oversettelser (engelsk-svensk og svensk-engelsk).

Siden de to korpusene ble utviklet innen et større nordisk nettverkssamarbeid er mange av de engelske originaltekstene de samme for ENPC og ESPC.

En oversikt over tekster i ESPC/Fiction finner du her.
En oversikt over tekster i ESPC/Non-fiction finner du her.
Tillatelse til å bruke ESPC gis av den svenske forskningsgruppen.

----------------------------------------------------------------------------

 

En-Fi: Dette er et engelsk-finsk oversettelseskorpus som inneholder engelske originaltekster med oversettelser til finsk. En-Fi er også et produkt av et nordisk nettverkssamarbeid. Korpuset består av skjønnlitterære tekster og er opprinnelig del av English-Finnish Parallel Corpus som også har finske originaltekster. Også her er mange av de engelske tekstene de samme som for ENPC og ESPC.

En-Fi består av 21 tekster. Hvert tekstutdrag består av mellom 10 000-15 000 ord, dvs. ca. 295 000 ord i originaltekstene.

The Finnish-English Contrastive Corpus Studies (FECCS) Project er ansvarlig for tekstene i En-Fi.

Publisert 5. juli 2010 17:04 - Sist endret 12. juli 2010 15:29