Leksikografisk bokmålskorpus

Leksikografisk bokmålskorpus er utviklet ved Avdeling for bokmålsleksikografi ved Institutt for lingvistiske og nordiske studier med professor Ruth Vatvedt Fjeld som prosjektleder. Ved bruk av korpuset ber vi deg referere til korpusets hjemmeside og til følgende publikasjon:

Rune Lain Knudsen & Ruth Vatvedt Fjeld: LBK2013: A balanced; annotated national corpus for Norwegian Bokmål. Proceedings of the workshop on lexical semantic resources for NLP at NODALIDA 2013; May 22-24; 2013; Oslo; Norway. NEALT Proceedings Series 19

Leksikografisk bokmålskorpus (LBK) er et representativt, vektet korpus laget for leksikalsk utforsking av moderne bokmål. LBK inneholder tekster fra perioden 1985 til i 2013.

LBK skal bli et balansert korpus. Det vil si at tekstsammensetningen i korpuset ikke er tilfeldig, men er gjort i henhold til en bestemt modell. Modellen for LBK er basert på undersøkelser av hvilke typer tekst og hvor mye av hver type en "gjennomsnittsleser" kommer borti. Balanseringen av korpuset forholder seg til følgende fordeling:

  • Sakprosa - 45%
  • Skjønnlitteratur - 35%
  • Aviser og periodika - 10%
  • TV-teksting - 5%
  • Upublisert materiale, småtrykk - 5%

Totalt inneholder korpuset ca. 100 millioner ord og er nå godt som mulig balansert i henhold til denne modellen.

LBK er et lingvistisk annotert korpus, og man kan søke på ord fra en bestemt ordklasse og med bestemte trekk. Korpustekstene er tagget med  Oslo-Bergen taggeren, en morfologisk og syntaktisk tagger for bokmål og nynorsk. Korpustekstene er også merket med forskjellige typer metainformasjon som er beskrevet lenger nede i denne teksten. Disse opplysningene kan brukes til å begrense søk til et subkorpus, dvs. et utvalg av tekstene i LBK.

Søk i korpuset

For å søke i korpuset bruker man grensesnittet Glossa, som er utviklet på Tekstlaboratoriet ved ILN. Glossa er laget spesielt for søk i lingvistisk annoterte korpus og gjør det enkelt for brukeren å konstruere søkeuttrykk og håndtere søkeresultatet. I Glossa kan man lage søkeuttrykk med alle de opplysningene som korpuset er merket med. Grensesnittet brukes i en vanlig nettleser. Tekstlaboratoriet har laget en veiledning i bruk av Glossa (PDF, 47 sider), som beskriver grensesnittet og hvordan man konstruerer søkeuttrykk.

Nedenfor følger en oversikt over de ulike typene opplysninger som korpustekstene er merket med.

Lingvistiske opplysninger

Leksikografisk bokmålskorpus er lingvistisk annotert med Oslo-Bergen-taggeren, en grammatisk tagger som er utviklet av Tekstlaboratoriet m.fl. Korpustekstene er merket med opplysninger om:

  • ordenes lemmaform/grunnform
  • ordklasse
  • morfosyntaktiske trekk
  • tegnsetting

Faste uttrykk

Oslo-Bergen-taggeren behandler en rekke sammensatte/faste uttrykk som ett ord, og knytter dem som regel til et flerordslemma og én ordklasse. I Glossa fyller man vanligvis inn ett ord pr. søkefelt i et søk. For å få treff på et sammensatt uttrykk må man altså skrive inn hele uttrykket i ett søkefelt. En oversikt over hvilke uttrykk som har blitt tagget på denne måten i korpuset kan finnes her.

Teksttype og emne

Hver eneste tekst i LKB er merket med en kode som viser hvilken av de fem hovedkategoriene teksten hører til: Sakprosa, skjønnlitteratur, aviser og periodika, TV-teksting og upublisert materiale. I tillegg viser koden hva slags undertype teksten hører til. Sakprosatekstene er f.eks. kodet som avhandling, biografi, lærebok, eller lignende. Mange av korpustekstene er også merket med en eller flere emnekoder. Alle sakprosatekster, aviser og tidsskrifter er merket med en eller flere emnekoder. I tillegg har en del tekster i kategoriene TV-teksting og Upublisert fått emnekoder.

I korpusgrensesnittet Glossa kan man bruke menyene merket kategori og emne for å definere subkorpus som består av tekster fra en eller flere tekst- og emnekategorier.

To tabeller som viser de forskjellige tekst- og emnekategoriene, og kodene for hver av dem, finnes her.

 Bibliografiske opplysninger

I tillegg til opplysninger om teksttype og emne er alle tekstene merket med bibliografisk informasjon. På samme måte som med kodene for teksttype og emne kan man bruke den bibliografiske informasjonen til å begrense et søk til et subkorpus. I Glossa finnes det egne menyer for hver opplysningstype.

Verksopplysninger

  • tittel på teksten
  • tekstens unike id (består av tekstkategorikoden pluss noen flere tegn)
  • navn på samling, hvis teksten er del av et større verk
  • ISBN-/ISSN-nummer (gjelder ikke alle tekstene)
  • utgiver
  • utgivelsessted
  • utgivelsesår

Forfatteropplysninger

  • navn på forfatter
  • forfatters opprinnelsessted (gjelder ikke alle forfatterne)
  • forfatters kjønn
  • forfatters fødselsår (gjelder ikke alle forfatterne)

Man kan altså enkelt lage subkorpus/delkorpus avgrenset til en eller flere av de variablene korpuset er merket med.

Tilgang til korpuset

Leksikografisk bokmålskorpus er fritt tilgjengelig for språkforskning. For å søke i korpuset ved hjelp av Glossa trenger man brukernavn og passord.

Du kan lese om vilkår for tilgang til korpuset her.

Du kan søke om tilgang til LBK her.

Gå til leksikografisk bokmålskorpus (passordbeskyttet).

Publisert 11. juni 2010 17:56 - Sist endret 27. okt. 2017 13:17