Lege-pasient-korpuset er et unikt korpus med transkripsjoner av samtaler mellom leger og pasienter i forskjellige typer konsultasjoner på Akershus universitetssykehus (Ahus).
Korpus
Ved ILN er det utviklet en rekke korpus som er tilgjengelig for andre forskere.
BigBrother-korpuset er et talespråkskorpus som består av ortografiske transkripsjoner knyttet til lyd og videoopptak fraTVNorges Big Brother-sendinger fra 2001.
Bosnisk-korpuset består av 1,5 millioner ord skrevet av forfattere fra Bosnia-Hercegovina.
CANS - amerikanordisk talespråkskorpus er et talespråkskorpus med opptak av norsk- og svenskamerikanere i Amerika.
ELENOR (Español Lengua Extranjera en Noruega) er et korpus som inneholder eksamensoppgaver skrevet på spansk av studenter i Norge.
Elevtekster fra avgangsprøven i norsk hovedmål.
Bokmålstekster fra 1985 til 2013.
LIA norsk inneheld opptak og transkripsjonar av eldre dialektopptak frå fire norske universitet. Korpuset har heile 1382 informanter frå 227 kommunar i Noreg, i alt ca 3,5 millionar ord.
LIA Sápmi - Sámegiela hállangiellakorpus inneheld opptak og transkripsjonar frå nordsamiske område.
Mandarin Audio Idiolect Dictionary (MAID) er en ca. 2000 timer lang lydordbok på Manchu, en Peking-kinesisk dialekt.
Nordisk dialektkorpus er et talespråkskorpus med norske, svenske, danske, islandske og færøyske dialekter.
NORINT-korpuset inneholder muntlig og skriftlig norsk innlærerspråk av voksne internasjonale studenter med norskferdigheter på eller over nivå B1.
NORINT-korpuset inneholder muntlig materiale fra 51 og skriftlig materiale fra 116 voksne internasjonale studenter som gikk på norskkurs på høyere nivå ved Universitetet i Oslo sommeren 2014 og 2015.
5000 elevtekster skrevet av elever på 3. og 4., 6. og 7. trinn i grunnskolen.
Norsk talespråkskorpus - Oslodelen
Norsk webkorpus med 700 millioner ord.
Oslo Multilingual Corpus (OMC) er en samling av flerspråklige tekstkorpus som består av originaltekster og oversettelser.
Ruija-korpuset er et korpus med talemål fra kvensk- og finskspråklige områder.
RuN-korpuset er et parallellkorpus med tekster på 10 språk, blant annet norsk, russisk og engelsk.
Tekster skrevet av elever i videregående opplæring på yrkesfaglige utdanningsprogrammer.
Talespråkskorpus med finlandssvensk.
TAUS er et talespråkskorpus fra Oslo.
Materialet til TAUS ble samlet inn ved Universitetet i Oslo tidlig på 1970-tallet, og siktemålet for prosjektet var å granske sosiale forskjeller i Oslo-målet.
Nyhetstekster fra the Linguistic Data Consortium.