Leksikografisk bokmålskorpus

Leksikografisk bokmålskorpus (LBK) er et representativt, vektet korpus laget for leksikalsk utforsking av moderne bokmål. LBK inneholder tekster fra perioden 1985 til i 2013 og inneholder omlag 100 millioner ord.

Korpuset er fritt tilgjengelig for forskning. Logg deg inn med Feide, eduGAIN eller Clarin eller ta kontakt med tekstlab-post@iln.uio.no.

Søk i Leksikografisk bokmålskorpus

Leksikografisk bokmålskorpus er utviklet ved Avdeling for bokmålsleksikografi ved Institutt for lingvistiske og nordiske studier med professor Ruth Vatvedt Fjeld som prosjektleder. Ved bruk av korpuset ber vi deg referere til korpusets hjemmeside og til følgende publikasjon:

Rune Lain Knudsen & Ruth Vatvedt Fjeld: LBK2013: A balanced; annotated national corpus for Norwegian Bokmål. Proceedings of the workshop on lexical semantic resources for NLP at NODALIDA 2013; May 22-24; 2013; Oslo; Norway. NEALT Proceedings Series 19

LBK er et balansert korpus. Det vil si at tekstsammensetningen i korpuset ikke er tilfeldig, men er gjort i henhold til en bestemt modell. Modellen for LBK er basert på undersøkelser av hvilke typer tekst og hvor mye av hver type en "gjennomsnittsleser" kommer borti. Balanseringen av korpuset forholder seg til følgende fordeling:

  • Sakprosa - 45%
  • Skjønnlitteratur - 35%
  • Aviser og periodika - 10%
  • TV-teksting - 5%
  • Upublisert materiale, småtrykk - 5%

LBK er et lingvistisk annotert korpus, og man kan søke på ord fra en bestemt ordklasse og med bestemte trekk. Korpustekstene er tagget med  Oslo-Bergen taggeren, en morfologisk og syntaktisk tagger for bokmål og nynorsk. Korpustekstene er også merket med forskjellige typer metainformasjon som er beskrevet lenger nede i denne teksten. Disse opplysningene kan brukes til å begrense søk til et subkorpus, dvs. et utvalg av tekstene i LBK.

Søk i korpuset

For å søke i korpuset bruker man grensesnittet Glossa, som er utviklet på Tekstlaboratoriet ved ILN. Glossa er laget spesielt for søk i lingvistisk annoterte korpus og gjør det enkelt for brukeren å konstruere søkeuttrykk og håndtere søkeresultatet. I Glossa kan man lage søkeuttrykk med alle de opplysningene som korpuset er merket med. Grensesnittet brukes i en vanlig nettleser.

Nedenfor følger en oversikt over de ulike typene opplysninger som korpustekstene er merket med.

Lingvistiske opplysninger

Leksikografisk bokmålskorpus er lingvistisk annotert med Oslo-Bergen-taggeren, en grammatisk tagger som er utviklet av Tekstlaboratoriet m.fl. Korpustekstene er merket med opplysninger om:

  • ordenes lemmaform/grunnform
  • ordklasse
  • morfosyntaktiske trekk
  • tegnsetting

Faste uttrykk

Oslo-Bergen-taggeren behandler en rekke sammensatte/faste uttrykk som ett ord, og knytter dem som regel til et flerordslemma og én ordklasse. I Glossa fyller man vanligvis inn ett ord pr. søkefelt i et søk. For å få treff på et sammensatt uttrykk må man altså skrive inn hele uttrykket i ett søkefelt. En oversikt over hvilke uttrykk som har blitt tagget på denne måten i korpuset kan finnes her.

Teksttype og emne

Hver eneste tekst i LKB er merket med en kode som viser hvilken av de fem hovedkategoriene teksten hører til: Sakprosa, skjønnlitteratur, aviser og periodika, TV-teksting og upublisert materiale. I tillegg viser koden hva slags undertype teksten hører til. Sakprosatekstene er f.eks. kodet som avhandling, biografi, lærebok, eller lignende. Mange av korpustekstene er også merket med en eller flere emnekoder. Alle sakprosatekster, aviser og tidsskrifter er merket med en eller flere emnekoder. I tillegg har en del tekster i kategoriene TV-teksting og Upublisert fått emnekoder.

I korpusgrensesnittet Glossa kan man bruke menyene merket kategori og emne for å definere subkorpus som består av tekster fra en eller flere tekst- og emnekategorier.

To tabeller som viser de forskjellige tekst- og emnekategoriene, og kodene for hver av dem, finnes her.

 Bibliografiske opplysninger

I tillegg til opplysninger om teksttype og emne er alle tekstene merket med bibliografisk informasjon. På samme måte som med kodene for teksttype og emne kan man bruke den bibliografiske informasjonen til å begrense et søk til et subkorpus. I Glossa finnes det egne menyer for hver opplysningstype.

Verksopplysninger

  • tittel på teksten
  • tekstens unike id (består av tekstkategorikoden pluss noen flere tegn)
  • navn på publikasjon, hvis teksten er del av et større verk
  • utgiver
  • utgivelsessted
  • utgivelsesår

Forfatteropplysninger

  • navn på forfatter
  • forfatters opprinnelsessted (gjelder ikke alle forfatterne)
  • forfatters kjønn
  • forfatters fødselsår (gjelder ikke alle forfatterne)

Man kan altså enkelt lage subkorpus/delkorpus avgrenset til en eller flere av de variablene korpuset er merket med.


Bruk det gamle søkegrensesnittet

I 2018 ble Leksikografisk bokmålskorpus lagt inn i en ny versjon av Glossa, Det er denne versjonen det er lenket til ovenfor.

Du kan fortsatt bruke den gamle versjonen. (Få brukernavn og passord til den gamle versjonen her.)

Publisert 2. mai 2018 11:55 - Sist endret 2. mai 2018 16:54