English version of this page

Tekstlaboratoriets tjenester og verktøy

Skriftspråkskorpus

Bosnisk-korpuset 
1,5 millioner ord skrevet av forfattere fra Bosnia-Hercegovina.

The ELENOR Corpus
ELENOR (Español Lengua Extranjera en Noruega) er et korpus som inneholder eksamensoppgaver skrevet på spansk av studenter i Norge.

The French Newspaper Corpus
Nyhetstekster fra the Linguistic Data Consortium og the Association for Computational Linguistics.

KAL-korpuset
Elevtekster fra avgangsprøven i norsk hovedmål.

Korpus med musikkanmeldelser
To korpus med musikkanmeldelser. Det ene korpuset inneholder også transkripsjoner fra musikkterapi-sesjoner.

Leksikografisk bokmålskorpus
Bokmålstekster fra 1985 til i dag.

Makedonsk skriftspråkskorpus

NoWaC
Norsk webkorpus med 700 millioner ord.

Oslo-korpuset av taggede norske tekster
Tekster på bokmål og nynorsk fra aviser, ukeblad, romaner og offentlige dokument.

Sidaama-korpuset
150.000 ord, for det meste fra en oversettelse av Det nye testamentet skrevet av Kjell Magne Yri.

SKRIV-korpuset
Tekster skrevet av elever i videregående opplæring på yrkesfaglige utdanningsprogrammer. Korpuset er spesielt tilrettelagt for analyse av tekster skrevet av elever med norsk som sitt andrespråk.

Usenet-korpuset
140 millioner ord, hentet fra no*-hierarkiet av Usenet fra 1998 til 2002.

 

Talespråkskorpus

Amerikanorsk talespråkskorpus (CANS)
Talespråkskorpus med opptak av norskamerikanere i Amerika.

BigBrother-korpuset
Transkripsjoner knyttet til lyd og videoopptak fraTVNorges Big Brother-sendinger fra 2001.

Lege-pasient-korpuset fra Ahus
Transkripsjoner av samtaler mellom leger og pasienter i forskjellige typer konsultasjoner på Akershus universitetssykehus (Ahus). Fordi materialet er sensitivt, er ikke lydfilene tilgjengelige i korpuset.

MAID
Mandarin Audio Idiolect Dictionary (MAID) er en ca. 2000 timer lang lydordbok på Manchu, en Peking-kinesisk dialekt. Opptakene er gjort med kun en informant, Madame Tang Yunling.

Nordisk dialektkorpus
Talespråkskorpus med norske, svenske, danske, færøyske og älvdalske dialekter.

NoTa-Oslo
Norsk talespråkskorpus - Oslodelen

Ruija-korpuset
Talespråkskorpus fra kvensk- og finskspråklige områder.

Talko
Talespråkskorpus med finlandssvensk. Innspillinger og transkripsjoner fra Svenska litteratursällskapet i Finland.

TAUS
Talemålsundersøkelsen i Oslo

Flerspråklige korpus

Oslo Multilingual Corpus
En samling av flerspråklige tekstkorpus som består av originaltekster og oversettelser.

RuN-korpuset
Where Russian meets Norwegian — languages at the interfaces.

The Sofie Treebank
The Sofie Treebank inneholder analyserte setninger fra sju nord-europeiske språk: dansk, estisk, islandsk, færøysk, norsk, svensk og tysk. Setningene er hentet fra de første kapitlene av Jostein Gaarders roman Sofies verden.

Databaser

Nordisk syntaksdatabase
Database med setningsvurderinger fra et spørreskjema utviklet for å kartlegge grammatisk variasjon i nordiske dialekter. Databasen inneholder vurderinger fra 924 informanter fra 207 steder i Norden.

Ordforrådet
En søkbar leksikalsk database over ca 1650 norske substantiver, verb og adjektiver.

Repertory of Conjectures on Horace
En søkbar database der forskere kan finne informasjon om ca. 7500 konjekturer foreslått i trykte verk fra rundt 1500 frem til i dag.

Kelly (Keywords for Language Learning for Young and adults alike)
En søkbar database med ordpar fra 9 språk: arabisk, engelsk, gresk, italiensk, kinesisk, norsk, polsk, russisk og svensk. Søk i Kelly.

Språkteknologiske verktøy

Søkeverktøyet Glossa
Glossa er et verktøy for forskere som ønsker å søke i lingvistisk annoterte korpus.

Oslo-Bergen-taggeren
Oslo-Bergen-taggeren er en robust morfologisk og syntaktisk constraint grammar-tagger.

Grammatikkspill

GREI grammatikkspill
På GREI-siden finner du lenker til grammatikkspill og analyser for både bokmål og nynorsk.

Tekster uten søkegrensesnitt

Tekstlaboratoriet disponerer elektronisk tilgjengelige tekster på flere språk, for eksempel norsk, engelsk,  albansk, arabisk, fransk, gresk, hindi, italiensk, japansk, russisk, spansk, svensk, tamil og walisisk. Les mer om tekstene.

 

Publisert 21. mai 2010 17:15 - Sist endret 20. juni 2016 09:42