English version of this page

Tekstlaboratoriets tjenester og verktøy

Bildet kan inneholde: tekst, font, logo, linje.Frekvenslister
• Skriftspråkskorpus
Talespråkskorpus
Flerspråklige korpus
Databaser
Språkteknologiske verktøy
Eldre korpus med gammelt søkegrensesnitt
Grammatikkspill
Tekster uten søkegrensesnitt
Språklig materiale produsert på ILN

Skriftspråkskorpus

Bokselskap-korpuset
Bokselskap-korpuset inneholder tekster fra nettstedet bokselskap.no. Dette er i hovedsak eldre skjønnlitterære tekster som har "falt i det fri". Korpuset inneholder over 17,3 millioner ord, og vil bli oppdatert med nye tekster hvert år.

The ELENOR Corpus
ELENOR (Español Lengua Extranjera en Noruega) er et korpus som inneholder eksamensoppgaver skrevet på spansk av studenter i Norge.

The French Newspaper Corpus
Nyhetstekster fra the Linguistic Data Consortium og the Association for Computational Linguistics.

HaBiT Norwegian Web Corpus 2015
Webkorpus for bokmål og nynorsk med henholdsvis 1,18 milliarder bokmålsord og 55 millioner ord på nynorsk.

Leksikografisk bokmålskorpus
Vektet korpus med bokmålstekster fra 1985 til 2013.

NORINT tekst
Korpuset består av eksamensoppgaver skrevet av 116 studenter som gikk på norskkurs på høyere nivå ved Universitetet i Oslo sommeren 2014 og 2015. 

Normkorpuset
Normkorpuset består av over 5000 elevtekster fra mellomtrinnet i norsk skole samlet inn av Normprosjektet. Korpuset inneholder drøye 1,1 millioner ord.

NoWaC
Norsk webkorpus med 700 millioner ord.

SKRIV-korpuset
Tekster skrevet av elever i videregående opplæring på yrkesfaglige utdanningsprogrammer. Korpuset er spesielt tilrettelagt for analyse av tekster skrevet av elever med norsk som sitt andrespråk.

Fem etiopiske skriftspråkskorpus
I samarbeid med HaBiT prosjektet har prosjektet Linguistic Capacity Buliding – Tools for the inclusive development of Ethiopia utviklet fem webkorpus:

Talespråkskorpus

BigBrother-korpuset
Transkripsjoner knyttet til lyd og videoopptak fra TVNorges Big Brother-sendinger fra 2001.

CANS - amerikanordisk talespråkskorpus
Talespråkskorpus med opptak av norsk- og svenskamerikanere i Amerika.

Den estlandssvenska korpusen
ESV-korpuset består av transkripsjoner koplet til lydfiler med innleste dialoger og historier fra boka  En bok om Estlands svenskar 3 B. Korpuset inneholder 34 000 ord.

Lege-pasient-korpuset fra Ahus
Transkripsjoner av samtaler mellom leger og pasienter i forskjellige typer konsultasjoner på Akershus universitetssykehus (Ahus). Fordi materialet er sensitivt, er ikke lydfilene tilgjengelige i korpuset.

LIA norsk - korpus av eldre dialektopptak
LIA norsk er et talespråkskorpus med gamle opptak og transkripsjoner av norske dialekter.

LIA Sápmi - Sámegiela hállangiellakorpus
LIA Sápmi er et talespråkskorpus med eldre samiske dialektopptak. Korpuset er ordklassetagga av Giellatekno. Les mer om LIA-prosjektet

MAID
Mandarin Audio Idiolect Dictionary (MAID) er en ca. 2000 timer lang lydordbok på Manchu, en Peking-kinesisk dialekt. Opptakene er gjort med kun en informant, Madame Tang Yunling.

Nordisk dialektkorpus
Talespråkskorpus med norske, svenske, danske, færøyske og älvdalske dialekter.

NORINT tale og opplest
NORINT tale er et talespråkskorpus som består av intervjuer og samtaler med voksne internasjonale studenter som gikk på norskkurs på høyere nivå ved Universitetet i Oslo sommeren 2014 og 2015. I NORINT opplest leser de samme studentene 60 utvalgte setninger og en liten historie.

NoTa-Oslo
Norsk talespråkskorpus - Oslodelen

The Oslo Corpus of Pskov Dialects
Talespråkskorpus med opptak og transkripsjoner fra 1992-1994 fra den russiske regionen Pskov. Foreløpig er det bare mulig å søke i et lite demokorpus, men alle lydfilene er tilgjengelige.

Ruija-korpuset
Talespråkskorpus fra kvensk- og finskspråklige områder.

SILaNa
Korpuset SILaNa (Spoken Italian – Interviews about Language and Nation) inneholder nesten 240 000 tokens fra 32 intervjuer, 22 med italienere som bor i Norge og 10 med ikke-italienere som har bodd i Italia i mange år og snakker italiensk.

Talko
Talespråkskorpus med finlandssvensk. Innspillinger og transkripsjoner fra Svenska litteratursällskapet i Finland.

TAUS
Talemålsundersøkelsen i Oslo med opptak og transkripsjoner fra tidlig 1970-tall.

Åtte etiopiske talespråkskorpus
NORHED-prosjektet Linguistic Capacity Buliding – Tools for the inclusive development of Ethiopia har laget åtte små etiopiske talespråkskorpus:

 

Flerspråklige korpus

Oslo Multilingual Corpus
En samling av flerspråklige tekstkorpus som består av originaltekster og oversettelser.

RuN-korpuset
Where Russian meets Norwegian — languages at the interfaces.

 

Databaser

Kelly (Keywords for Language Learning for Young and adults alike)
En søkbar database med ordpar fra 9 språk: arabisk, engelsk, gresk, italiensk, kinesisk, norsk, polsk, russisk og svensk. Søk i Kelly.

Fildepot for LIA
Søkbart fildepot med alle dialektopptak fra LIA-prosjektet. Fildepotet inneholder mer enn 3000 filer med tilhørende metadata.

Nordisk syntaksdatabase
Database med setningsvurderinger fra et spørreskjema utviklet for å kartlegge grammatisk variasjon i nordiske dialekter. Databasen inneholder vurderinger fra 924 informanter fra 207 steder i Norden.

NWD - Nordic Word Order Database
NWD - Nordic Word Order Database - er en database som er tilgjengelig via Tekstlaboratoriets websider ved Universitetet i Oslo. Databasen inneholder elisiterte produksjonsdata fra talere som snakker skandinaviske språk, inkludert flere ulike dialekter.

Ordforrådet
En søkbar leksikalsk database over ca 1650 norske substantiver, verb og adjektiver.

Repertory of Conjectures on Horace
En søkbar database der forskere kan finne informasjon om ca. 7500 konjekturer foreslått i trykte verk fra rundt 1500 frem til i dag.

Småord-databasen
En søkbar database med etterstilte småord i norske talemål. Databasen viser hvor i landet småordene blir brukt, uttale og om småordene brukes av kvinner eller menn, unge eller gamle. Databasen bygger på en spørreundersøkelse utført av prosjektet "The meaning and function of Norwegian Tags" ved NTNU.

 

Språkteknologiske verktøy

Søkeverktøyet Glossa
Glossa er et verktøy for forskere som ønsker å søke i lingvistisk annoterte korpus.

Oslo-Bergen-taggeren
Oslo-Bergen-taggeren er en robust morfologisk og syntaktisk constraint grammar-tagger.

Oslo-translitteratoren
Oslo-translitteratoren er et halvautomatisk verktøy som translittererer fra en type transkripsjon til en annen - som regel fra talemålsnær transkripsjon til ortografisk.

Eldre korpus med gammelt søkegrensesnitt

Bosnisk-korpuset 
1,5 millioner ord skrevet av forfattere fra Bosnia-Hercegovina.

KAL-korpuset
Elevtekster fra avgangsprøven i norsk hovedmål.

Korpus med musikkanmeldelser
To korpus med musikkanmeldelser. Det ene korpuset inneholder også transkripsjoner fra musikkterapi-sesjoner.

Oslo-korpuset av taggede norske tekster
Tekster på bokmål og nynorsk fra aviser, ukeblad, romaner og offentlige dokument.

The Sofie Treebank
The Sofie Treebank inneholder analyserte setninger fra sju nord-europeiske språk: dansk, estisk, islandsk, færøysk, norsk, svensk og tysk. Setningene er hentet fra de første kapitlene av Jostein Gaarders roman Sofies verden.

Grammatikkspill

GREI grammatikkspill
På GREI-siden finner du lenker til grammatikkspill og analyser for både bokmål og nynorsk.

Tekster uten søkegrensesnitt

Tekstlaboratoriet disponerer elektronisk tilgjengelige tekster på flere språk, for eksempel norsk, engelsk,  albansk, arabisk, fransk, gresk, hindi, italiensk, japansk, russisk, spansk, svensk, tamil og walisisk. Les mer om tekstene.

 

Publisert 21. mai 2010 17:15 - Sist endret 2. des. 2022 09:25