CLARINO: Felles infrastruktur for europeiske språkdatabaser

Målet med prosjektet er å gjøre eksisterende og fremtidige språkressurser lettere tilgjengelig for forskere i hele Europa.

CLARINO (Common Language Resources and Technology Infrastructure in Norway) er den norske delen av ESFRI-prosjektet CLARIN.

Mange av databasene innenfor humaniora i dag, kan ikke kobles sammen i sin nåværende form.

Forskning som krever data fra ulike databaser og vitenskapelige samlinger, kan derfor være både tid- og ressurskrevende.

Å standardisere og koble ulike databaser sammen har lenge vært et mål for humanistiske forskningsmiljøer.

Visjonen for CLARIN er at en forsker gjennom sitt lokale brukernavn skal få tilgang til språkressurser som taleopptak, litterære og historiske arkiver, språkvitenskapelige tekstkorpus osv.

Når norske språkdatabaser kobles opp mot europeiske baser, åpner det seg store muligheter for interessante komparative studier. Man kan sammenligne språkbruk både historisk og over landegrensene.

Kobling av databaser

CLARINO, den norske noden i ESFRI-prosjektet CLARIN (Common Language Resources and Technology Infrastructure) har fått midler gjennom Nasjonal satsing på forskningsinfrastruktur.

Dette prosjektet har nettopp en slik kobling av databaser som formål, og vil ha betydning for språkvitenskapelig forskning og for store deler av den humanistiske forskningen.

En felles infrastruktur for norske språkdatabaser, som igjen vil knyttes opp mot utenlandske databaser, vil effektivisere forskingen.

Samtidig vil den danne grunnlag for nye forskningsspørsmål ved at metadata fra ulike baser kan sees i sammenheng på helt nye måter.

Tilpasset norsk marked

CLARINO vil ha betydning for forskningsmiljøer og bedrifter som lager språkteknologiske systemer for å organisere kunnskap og utvikle terminologi.

Slik kan man utvikle programvare beregnet på det norske markedet og sørge for at norske hjelpemidler og løsninger for universell utforming blir tilgjengelige.

Miljøer som utvikler flerspråklige teknologier, som f.eks. maskinoversettelse, vil også kunne dra nytte av infrastrukturen.

Felles kodespråk

Gjennom et felles kodespråk vil infrastrukturen kunne legge til rette for såkalt semantisk web.

Det betyr at store datamengder fra svært mange kilder kan knyttes sammen tematisk og bli allment søkbare på nettet.

Tidsplan

Universitetet i Bergen, ved prosjektleder Koenraad De Smedt, vil ha koordineringsansvar for CLARINO som inkluderer flere språkvitenskapelige forskningsmiljøer i Norge.

CLARINO skal etableres i løpet av fem år og stå ferdig i 2017.

Institutt for lingvistiske og nordiske studier

Ved ILN er det to miljøer, som skal bidra i arbeidet med språkdatabasetjenester og språkteknologitjenester:

Tekstlaboratoriets hovedoppgave i Clarino er å omarbeide det eksisterende korpussøkesystemet Glossa slik at det lettere kan fungere som en del av CLARIN-infrastrukturen.

Det innbebærer å legge til rette for at Glossa kan kommunisere med andre servere rundt omkring i Europa. Dermed kan Glossa-søk kombineres med søk i andre korpussøkesystemer, og Glossa kan brukes til å søke i tekstressurser som er tilgjengelige i hele den europeiske infrastrukturen.
 

EDDs hovedoppgave i Clarino er å utvikle en virtuell arbeidsplattform for forskere til bruk mot digitale tekstutgaver og tekstarkiv for litterære og historiske tekster.

Arbeidet foregår i samarbeid med Wittgensteinarkived ved UiB.

Plattformen skal gjøre det mulig å studere tekstene på ulike tolkningsnivåer som faksimiler, ulike utgaver, vitenskaplig noteaparat samt tekstkorpus og ordbøker.

Et hovedmoment vil være å tilby brukeren tilpasset filtrering og presentasjon av kildematerialet.

Første trinn er en generalisering avweb-grensesnittene en finner for Wittgensteins Nachlass (wab.uib.no),Henrik Ibsens skrifter (ibsen.uio.no) og Menota-arkivet (menota.org).

Platformen vili trinn to bli utvidet med bruke sentrale begrepsmodellersom CIDOC-CRM og FRBoo og bruke ’Linked Data’-mekanismene. 

Publisert 15. nov. 2012 12:03 - Sist endret 4. okt. 2013 17:10