Oslo Multilingual CorpusDet nye korpuset som er under oppbygging, har vi gitt navnet Oslo Multilingual Corpus (OMC). OMC skal bygge på og utvide English-Norwegian Parallel Corpus (ENPC), som har følgende struktur:
Et bidireksjonalt korpus av denne typen kan brukes til ulike slags studier: Tverrspråklig sammenligning av originaltekster, tverrspråklig sammenligning av originaltekst og oversatt tekst, sammenligning av orginaltekst og oversatt tekst innenfor samme språk, tverrspråklig sammenligning av oversatte tekster. Korpuset blir nå utvidet, spesielt med hensyn til tysk, for å sikre en lik representasjon av tekster på engelsk, tysk og norsk, i den utstrekning dette er mulig. I det siste er prosjektet blitt utvidet til å omfatte fransk. Med tiden vil korpuset inneholde originaltekster på fire språk (engelsk, tysk, fransk, norsk) og oversettelsene av dem til så mange som mulig av de tre andre språkene. Den engelsk-tysk-norske delen av OMC inneholder nå (november 2005) 32 engelske, 37 tyske og 27 norske originaltekster med oversettelser til de andre språkene. Når det gjelder fransk, foreligger det foreløpig utdrag av 10 norske og 10 franske faglitterære tekster med de respektive oversettelsene. Dette korpuset utvides imidlertid etter hvert. Av opphavsrettslige grunner er ikke korpus tilgjengelig for andre enn forskere ved universitetene i Oslo og Bergen, samt hovedfagsstudenter tilknyttet prosjektet. Noen tekster er likevel tilgjengelige for alle, slik at en får muligheten til å se hvordan søk i slike tekster foregår. Søkeverktøyet som brukes er WebTCE, en tidligere versjon av PerlTCE. Lister over de OMC-tekstene som til enhver tid er tilgjengelige, kan fås ved å gå inn i korpuset.
|
||
