Korpus

Ved ILN er det utviklet en rekke korpus som er tilgjengelig for andre forskere.

Lege-pasient-korpuset er et unikt korpus med transkripsjoner av samtaler mellom leger og pasienter i forskjellige typer konsultasjoner på Akershus universitetssykehus (Ahus).

BigBrother-korpuset er et talespråkskorpus som består av ortografiske transkripsjoner knyttet til lyd og videoopptak fraTVNorges Big Brother-sendinger fra 2001.

Bosnisk-korpuset består av 1,5 millioner ord skrevet av forfattere fra Bosnia-Hercegovina.

CANS - amerikanordisk talespråkskorpus er et talespråkskorpus med opptak av norsk- og svenskamerikanere i Amerika.

ELENOR (Español Lengua Extranjera en Noruega) er et korpus som inneholder eksamensoppgaver skrevet på spansk av studenter i Norge.

Elevtekster fra avgangsprøven i norsk hovedmål.

Bokmålstekster fra 1985 til i dag.

LIA norsk inneheld opptak og transkripsjonar av eldre dialektopptak frå fire norske universitet. Korpuset har heile 1374 informanter frå 226  kommunar i Noreg, i alt ca 3,5 millionar ord.

LIA Sápmi - Sámegiela hállangiellakorpus inneheld opptak og transkripsjonar frå nordsamiske område. 

Mandarin Audio Idiolect Dictionary (MAID) er en ca. 2000 timer lang lydordbok på Manchu, en Peking-kinesisk dialekt.

Nordisk dialektkorpus er et talespråkskorpus med norske, svenske, danske, islandske og færøyske dialekter.

NORINT-korpuset inneholder muntlig materiale fra 51 og skriftlig materiale fra 116 voksne internasjonale studenter som gikk på norskkurs på høyere nivå ved Universitetet i Oslo sommeren 2014 og 2015.

NORINT-korpuset inneholder muntlig materiale fra 51 og skriftlig materiale fra 116 voksne internasjonale studenter som gikk på norskkurs på høyere nivå ved Universitetet i Oslo sommeren 2014 og 2015.

5000 elevtekster skrevet av elever på 3. og 4., 6. og 7. trinn i grunnskolen.

Norsk talespråkskorpus - Oslodelen

Norsk webkorpus med 700 millioner ord.

Oslo Multilingual Corpus (OMC) er en samling av flerspråklige tekstkorpus som består av originaltekster og oversettelser.

Tekster på bokmål og nynorsk fra aviser, ukeblad, romaner og offentlige dokument.

Ruija-korpuset er et korpus med talemål fra kvensk- og finskspråklige områder.

RuN-korpuset er et parallellkorpus med norske, russiske og engelske tekster.

Tekster skrevet av elever i videregående opplæring på yrkesfaglige utdanningsprogrammer.

Talespråkskorpus med finlandssvensk.

TAUS er et talespråkskorpus fra Oslo.

Nyhetstekster fra the Linguistic Data Consortium.