Oslo Parallel Corpus

Oppbygging av et nytt parallellkorpus ved Det humanistiske fakultet.

Et parallellkorpus er bygd opp av tekster med originaler og oversettelser som er lenket til hverandre på setnings- og/ eller ordnivå. Slike korpus er gode verktøy for å drive sammenlignende språkforskning på ulike lingvistiske nivå.

Vi håper de fleste fremmedspråkene ved Det humanistiske fakultet vil bli representert i det nye korpuset: arabisk, bosnisk, dansk, engelsk, fransk, gresk, islandsk, italiensk, japansk, keltisk, kinesisk, kroatisk, latin, nederlandsk, norsk, persisk, portugisisk, russisk, sanskrit, spansk, svensk, tibetansk, tyrkisk og tysk.

Parallellkorpuset skal bestå av både sakprosa og skjønnlitterære tekster, hovedsakelig moderne tekster fra 1990- og 2000-tallet, men også tekster av eldre dato. En originaltekst kan også være oversatt flere ganger og gjennom flere språk.

Oslo Parallell Corpus er et samarbeid mellom de ulike språklige fagmiljøene ved Institutt for lingvistiske og nordiske studier (ILN), Institutt for litteratur, områdestuder og språk (ILOS), og Institutt for kulturstudier og orientalske språk (IKOS). Prosjektet var økonomisk støttet av Det humanistiske fakultet gjennom infrastrukturmidler.

Arbeidet med korpuset startet i 2010 med å skaffe tekster til korpuset, samt innhente rettigheter fra forlag, forfattere og oversettere. Dette arbeidet er ressurskrevende og vanskelig og pågår fremdeles. Søkeverktøyet Glossa, som skal brukes til parallellkorpuset, er videreutviklet slik at det kan takle tekster på språk som arabisk, japansk og kinesisk. I 2012 begynte arbeidet med å parallellstille innsamlede tekster.

Ansatte på prosjektet i 2010 var André Lynum (språkingeniør ved Tekstlaboratoriet) og Ingebjørg Før Gjermundsen (vit.ass. på Tekstlaboratoriet). For tiden er det ikke bevilget spesielle midler til prosjektet, men arbeidet går likevel framover ved hjelp av ansatte ved Tekstlaboratoriet og noen midler bevilget av forskningskomiteen ved ILOS.

 

tekstlab-merke

Publisert 8. sep. 2010 09:47 - Sist endret 14. juni 2020 16:33