Tekstlaboratoriets tjenester og verktøy
Skriftspråkskorpus
Bosnisk-korpuset
1,5 millioner ord skrevet av forfattere fra Bosnia-Hercegovina.
KAL-korpuset
Elevtekster fra avgangsprøven i norsk hovedmål.
Leksikografisk bokmålskorpus
Bokmålstekster fra 1985 til i dag.
NoWaC
Norsk webkorpus med 700 millioner ord.
Oslo-korpuset av taggede norske tekster
Tekster på bokmål og nynorsk fra aviser, ukeblad, romaner og offentlige dokument.
The French Newspaper Corpus
Nyhetstekster fra the Linguistic Data Consortium og the Association for Computational Linguistics.
Sidaama-korpuset
150.000 ord, for det meste fra en oversettelse av Det nye testamentet skrevet av Kjell Magne Yri.
Usenet-korpuset
140 millioner ord, hentet fra no*-hierarkiet av Usenet fra 1998 til 2002.
Talespråkskorpus
Norske talespråkskorpus
Oversiktsside over nåværende og planlagte norske talespråkskorpus.
BigBrother-korpuset
Transkripsjoner knyttet til lyd og videoopptak fraTVNorges Big Brother-sendinger fra 2001.
Nordisk dialektkorpus
Talespråkskorpus med norske, svenske, danske, færøyske og älvdalske dialekter.
Norsk i Amerika
Demokorpus med opptak av norskamerikanere i Amerika.
NoTa-Oslo
Norsk talespråkskorpus - Oslodelen
Ruija-korpuset
Talespråkskorpus fra kvensk- og finskspråklige områder.
TAUS
Talemålsundersøkelsen i Oslo
Flerspråklige korpus
Oslo Multilingual Corpus
En samling av flerspråklige tekstkorpus som består av originaltekster og oversettelser.
RuN-korpuset
Where Russian meets Norwegian — languages at the interfaces.
OPUS
OPUS inneholder foreløpig ca. 30,000,000 ord på 60 språk som er hentet fra websider.
LOGONs norsk-engelske turistkorpus
Korpuset består av om lag 175.000 ord. Tekstene er hentet fra turistinformasjon, og parallellstilt.
The Sofie Treebank
The Sofie Treebank inneholder analyserte setninger fra sju nord-europeiske språk: dansk, estisk, islandsk, færøysk, norsk, svensk og tysk. Setningene er hentet fra de første kapitlene av Jostein Gaarders roman Sofies verden.
Språkteknologiske verktøy
Søkeverktøyet Glossa
Glossa er et verktøy for forskere som ønsker å søke i lingvistisk annoterte korpus.
Oslo-Bergen-taggeren
Oslo-Bergen-taggeren er en robust morfologisk og syntaktisk constraint grammar-tagger.
Grammatikkspill
GREI grammatikkspill
På GREI-siden finner du lenker til grammatikkspill og analyser for både bokmål og nynorsk.
Tekster uten søkegrensesnitt
Tekstlaboratoriet disponerer elektronisk tilgjengelige tekster på flere språk, for eksempel norsk, engelsk, albansk, arabisk, fransk, gresk, hindi, italiensk, japansk, russisk, spansk, svensk, tamil og walisisk. Les mer om tekstene.
