Leksikografisk bokmålskorpus

Leksikografisk bokmålskorpus (LBK) er et representativt, vektet korpus laget for leksikalsk utforsking av moderne bokmål. LBK inneholder tekster fra perioden 1985 til i 2013 og inneholder omlag 100 millioner ord.

Korpuset er fritt tilgjengelig for forskning. Logg deg inn med Feide eller CLARIN eller ta kontakt med tekstlab-post@iln.uio.no.

Søk i Leksikografisk bokmålskorpus

Les brukerveiledningen

Leksikografisk bokmålskorpus er utviklet ved Avdeling for bokmålsleksikografi ved Institutt for lingvistiske og nordiske studier med professor Ruth Vatvedt Fjeld som prosjektleder. Ved bruk av korpuset ber vi deg referere til korpusets hjemmeside og til følgende publikasjon:

Fjeld, Ruth Vatvedt, Nøklestad, Anders & Kristin Hagen. 2020. Leksikografisk bokmålskorpus (LBK) – bakgrunn og bruk. I Johannessen, Janne Bondi & Kristin Hagen (red.) Leksikografi og korpus. En hyllest til Ruth Vatvedt Fjeld, Oslo Studies in Language 11(1), 47–59. ISSN 1890-9639 / ISBN 978-82-91398-12-9.

LBK er et balansert korpus. Det vil si at tekstsammensetningen i korpuset ikke er tilfeldig, men er gjort i henhold til en bestemt modell. Modellen for LBK er basert på undersøkelser av hvilke typer tekst og hvor mye av hver type en "gjennomsnittsleser" kommer borti. Balanseringen av korpuset forholder seg til følgende fordeling:

Sakprosa - 45%
Skjønnlitteratur - 35%
Aviser og periodika - 10%
TV-teksting - 5%
Upublisert materiale, småtrykk - 5%

LBK er et lingvistisk annotert korpus, og man kan søke på ord fra en bestemt ordklasse og med bestemte trekk. Korpustekstene er tagget med Oslo-Bergen taggeren, en morfologisk og syntaktisk tagger for bokmål og nynorsk. Korpustekstene er også merket med forskjellige typer metainformasjon som er beskrevet lenger nede i denne teksten. Disse opplysningene kan brukes til å begrense søk til et subkorpus, dvs. et utvalg av tekstene i LBK.

Søk i korpuset

For å søke i korpuset bruker man grensesnittet Glossa, som er utviklet på Tekstlaboratoriet ved ILN. Glossa er laget spesielt for søk i lingvistisk annoterte korpus og gjør det enkelt for brukeren å konstruere søkeuttrykk og håndtere søkeresultatet. I Glossa kan man lage søkeuttrykk med alle de opplysningene som korpuset er merket med. Grensesnittet brukes i en vanlig nettleser.

Nedenfor følger en oversikt over de ulike typene opplysninger som korpustekstene er merket med.

Lingvistiske opplysninger

Leksikografisk bokmålskorpus er lingvistisk annotert med Oslo-Bergen-taggeren, en grammatisk tagger som er utviklet av Tekstlaboratoriet m.fl. Korpustekstene er merket med opplysninger om:

ordenes lemmaform/grunnform
ordklasse
morfosyntaktiske trekk
tegnsetting

Faste uttrykk

Oslo-Bergen-taggeren behandler en rekke sammensatte/faste uttrykk som ett ord, og knytter dem som regel til et flerordslemma og én ordklasse. I Glossa fyller man vanligvis inn ett ord pr. søkefelt i et søk. For å få treff på et sammensatt uttrykk må man altså skrive inn hele uttrykket i ett søkefelt. En oversikt over hvilke uttrykk som har blitt tagget på denne måten i korpuset kan finnes her.

Teksttype og emne

Hver eneste tekst i LKB er merket med en kode som viser hvilken av de fem hovedkategoriene teksten hører til: Sakprosa, skjønnlitteratur, aviser og periodika, TV-teksting og upublisert materiale. I tillegg viser koden hva slags undertype teksten hører til. Sakprosatekstene er f.eks. kodet som avhandling, biografi, lærebok, eller lignende. Mange av korpustekstene er også merket med en eller flere emnekoder. Alle sakprosatekster, aviser og tidsskrifter er merket med en eller flere emnekoder. I tillegg har en del tekster i kategoriene TV-teksting og Upublisert fått emnekoder.

I korpusgrensesnittet Glossa kan man bruke menyene merket kategori og emne for å definere subkorpus som består av tekster fra en eller flere tekst- og emnekategorier.

To tabeller som viser de forskjellige tekst- og emnekategoriene, og kodene for hver av dem, finnes her.

Bibliografiske opplysninger

I tillegg til opplysninger om teksttype og emne er alle tekstene merket med bibliografisk informasjon. På samme måte som med kodene for teksttype og emne kan man bruke den bibliografiske informasjonen til å begrense et søk til et subkorpus. I Glossa finnes det egne menyer for hver opplysningstype.

Verksopplysninger

tittel på teksten
tekstens unike id (består av tekstkategorikoden pluss noen flere tegn)
navn på publikasjon, hvis teksten er del av et større verk
utgiver
utgivelsessted
utgivelsesår

Forfatteropplysninger

navn på forfatter
forfatters opprinnelsessted (gjelder ikke alle forfatterne)
forfatters kjønn
forfatters fødselsår (gjelder ikke alle forfatterne)

Man kan altså enkelt lage subkorpus/delkorpus avgrenset til en eller flere av de variablene korpuset er merket med.

Publisert 11. juni 2010 17:56 - Sist endret 26. jan. 2024 10:04