English version of this page

To nye, store webkorpus for nynorsk og bokmål

Vi tilbyr nå to store  webkorpus for norsk, ferdigstilt i 2017:

• HaBiT Norwegian Web Corpus 2015 (Bokmål) med 1,18 milliarder ord (3,4 millioner dokumenter).

• HaBiT Norwegian Web Corpus 2015 (Nynorsk) med drøye 55 millioner ord (214 000 dokumenter).

Det nynorske webkorpuset er det første i sitt slag.

Korpusene inneholder mye bloggtekst og annen tekst som er mindre normert og mer talemålsnært enn det man finner i korpus som bare er basert på strengt redigerte tekster, som aviser, rapporter og skjønnlitteratur utgitt på forlagene.

Begge korpusene er samlet inn i Februar 2015 ved å bruke SpiderLing. Tekstene er tagget med Oslo-Bergen-taggeren. Arbeidet er gjort ved Masarykova Univerzita, Brno, Tsjekkia, i samarbeid med Tekstlaboratoriet ved UiO og NTNU, i i regi av HaBiT prosjektet, finanisert av det tsjekkisk-norske forskningsprogrammet i EEA and Norway Grants.

Korpusene er søkkbare for alle i SketchEngine:

 

 

Publisert 9. aug. 2017 13:33 - Sist endret 6. okt. 2017 15:26