English version of this page

NoWaC v 1.0

NoWaC (Norwegian Web as Corpus) er et norsk webkorpus med ca 700 millioner bokmålsord. 

Korpuset ble bygget ved å laste ned og prosessere dokumenter på .no-domenet i perioden november 2009 til og med januar 2010. Metoden som ble brukt, er basert på teknikker for å bygge internettkorpus beskrevet i  the WaCky initiative. Les mer om dette på engelsk her.

Arbeidet ble initiert og utført av Emiliano Raul Guevara med hjelp fra NOTURs avanserte brukersupport og assistanse fra  Research Computing Services group (Vitenskapelig Databehandling) ved USIT, UiO.

NoWaC er bygget med tillatelse fra Kulturdepartementet.

 

Les mer om Nowac:

Guevara, Emiliano Raul (2010). NoWaC: a large web-based corpus for Norwegian. In Proceedings of the NAACL HLT 2010 Sixth Web as Corpus Workshop, Association for Computational Linguistics page 1 - 7.

 

Søk i korpuset

 

Last ned

En skramblet utgave av korpuset og frekvenslister fra korpuset er distribuert med lisensen Creative Commons Attribution-NonCommercial-ShareAlike 2.0 Generic license.
 

Last ned korpuset

Last ned frekvenslister fra korpuset
 

For andre spørsmål:

Kontakt Emiliano Guevara (emiguevara at gmail.com) eller Tekstlaboratoriet: tekstlab-post ved iln.uio.no

 

tekstlab-merke

 

Publisert 31. mai 2010 08:57 - Sist endret 22. nov. 2023 11:05