Om prosjektet
I løpet av dei siste 60 åra er det samla inn mange talemålsopptak for ulike formål rundt omkring i Noreg. Nokre av dei er digitaliserte og katalogiserte på systematisk vis, andre ligg i arkivskåp og skuffar. Mange av dei står i fare for å bli øydelagde.
Mål
LIA-prosjektet samla inn flest mogleg opptak frå universiteta i Oslo, Bergen, Tromsø og Trondheim.
Opptaka ble digitalisert ved Nasjonalbiblioteket i Mo i Rana og kopiar ble langtidslagra der. Deretter høyrde prosjekttilsette på LIA igjennom opptaka, katalogiserte dei og utstyrte dei med mest mogleg metadata.
Dei mest interessante opptaka med god kvalitet ble transkribert. Opptaka ble transkribert på to måtar: ein talemålsnær variant og ein med nynorsk ortografi. Transkripsjonane ble kopla til kvarandre og til dei originale lydfilene Dei transkriberte opptaka ble til slutt lagt inn i Nye Glossa, eit brukarvennleg korpussøkegrensesnitt.
Opptak og transkripsjonar er også fritt tilgjengelege for andre via ei nedlastingsside.
Opptaka i LIA er av to typar:
- Diakrone data: dialektopptak frå heile Noreg, inkludert opptak med samisk språk
- Norsk i Amerika: Opptak frå feltarbeid i Amerika frå 1931 og fram til i dag
Eit mål i prosjektet var også å annotere dei transkriberte opptaka automatisk. Dette krevde nyutvikling av ein parser for talemål. Glossa må dessutan videreutviklast for å kunne søkje i hierarkiske strukturar.
Store delar av arbeidet ble gjort ved Tekstlaboratoriet, men dei tre andre universiteta tilsatte også eigne transkribører.
Finansiering
LIA-prosjektet var finansiert gjennom forskningsinfrastrukturprogrammet til Norges forskningsråd.
Varigheit
2014 - 2019.
Samarbeid
LIA (Language Infrastructure made Accessible) var eit nasjonalt samarbeidsprosjekt mellom:
- Universitetet i Oslo
- Universitetet i Bergen
- Universitetet i Tromsø
- Noregs teknisk-naturvitskaplege universitet
- Norsk Ordbok 2014
- Språkbanken ved Nasjonalbiblioteket.