BigBrother-korpuset er et talespråkskorpus som består av ortografiske transkripsjoner knyttet til lyd og videoopptak fraTVNorges Big Brother-sendinger fra 2001.
Språk
Akademisk ordliste – bokmål
Akademisk ordliste er ei liste på 750 ord med ord som er nyttige å kunne dersom man skal ha fullt utbytte av undervisning og lærebøker over videregående nivå og kanskje selv skal skrive oppgaver og andre akademiske tekster.
BigBrother-korpuset
Bokselskap-korpuset
Bokselskap-korpuset inneholder tekster fra nettstedet bokselskap.no. Korpuset inneholder mer enn 16 millioner ord, og vil bli oppdatert med nye tekster hvert år.
Bosnisk-korpuset
Bosnisk-korpuset består av 1,5 millioner ord skrevet av forfattere fra Bosnia-Hercegovina.
CANS - amerikanordisk talespråkskorpus
CANS - amerikanordisk talespråkskorpus er et talespråkskorpus med opptak av norsk- og svenskamerikanere i Amerika.
ELENOR
ELENOR (Español Lengua Extranjera en Noruega) er et korpus som inneholder eksamensoppgaver skrevet på spansk av studenter i Norge.
KAL-korpuset
Elevtekster fra avgangsprøven i norsk hovedmål.
Lege-pasient-korpuset fra Ahus
Lege-pasient-korpuset er et unikt korpus med transkripsjoner av samtaler mellom leger og pasienter i forskjellige typer konsultasjoner på Akershus universitetssykehus (Ahus).
Leksikografisk bokmålskorpus
Bokmålstekster fra 1985 til i dag.
LIA norsk - korpus av eldre dialektopptak
LIA norsk inneholder opptak og transkripsjoner av eldre dialektopptak fra fire norske universitet. Korpuset har hele 1374 informanter fra 226 kommuner i Norge, i alt cirka 3,5 millionar ord.
LIA Sápmi - Sámegiela hállangiellakorpus
LIA Sápmi - Sámegiela hállangiellakorpus inneholder opptak og transkripsjoner fra nordsamiske områder.
MAID
Mandarin Audio Idiolect Dictionary (MAID) er en cirka 2000 timer lang lydordbok på Manchu, en Peking-kinesisk dialekt.
Nordisk dialektkorpus
Nordisk dialektkorpus er et talespråkskorpus med norske, svenske, danske, islandske og færøyske dialekter.
NORINT-korpuset:
Korpuset inneholder muntlig materiale fra 51 og skriftlig materiale fra 116 voksne internasjonale studenter som gikk på norskkurs på høyere nivå ved Universitetet i Oslo sommeren 2014 og 2015.
- NORINT-korpuset Talespråk (tekstlab.uio.no). Krever innlogging.
- NORINT-korpuset: Tekst (tekstlab.uio.no). Krever innlogging.
Normkorpuset
5000 elevtekster skrevet av elever på 3. og 4., 6. og 7. trinn i grunnskolen.
NoTa-Oslo
Norsk talespråkskorpus - Oslodelen
NoWaC
Norsk webkorpus med 700 millioner ord.
Oslo Multilingual Corpus
Oslo Multilingual Corpus (OMC) er en samling av flerspråklige tekstkorpus som består av originaltekster og oversettelser.
Oslo-Bergen-taggeren
Oslo-Bergen-taggeren er en robust morfologisk og syntaktisk tagger som er utviklet ved Universitetet i Oslo og Uni Computing i Bergen.
Oslo-korpuset av taggede norske tekster
Tekster på bokmål og nynorsk fra aviser, ukeblad, romaner og offentlige dokument.
Ruija-korpuset
Ruija-korpuset er et korpus med talemål fra kvensk- og finskspråklige områder.
RuN-korpuset
RuN-korpuset er et parallellkorpus med tekster på 10 språk, blant annet norsk, russisk og engelsk.
SKRIV-korpuset
Tekster skrevet av elever i videregående opplæring på yrkesfaglige utdanningsprogrammer.
Språk gjennom livet
Informasjon om både typisk og atypisk språkutvikling. Du kan også lese om språkvansker hos barn og voksne.
TALKO
Talespråkskorpus med finlandssvensk.
TAUS
TAUS er et talespråkskorpus fra Oslo. Materialet til TAUS ble samlet inn ved Universitetet i Oslo tidlig på 1970-tallet, og siktemålet for prosjektet var å granske sosiale forskjeller i Oslo-målet.
The French Newspaper Corpus
Nyhetstekster fra the Linguistic Data Consortium.