Korpuset ble bygget ved å laste ned og prosessere dokumenter på .no-domenet i perioden november 2009 til og med januar 2010. Metoden som ble brukt, er basert på teknikker for å bygge internettkorpus beskrevet i the WaCky initiative. Les mer om dette på engelsk her.
Arbeidet ble initiert og utført av Emiliano Raul Guevara med hjelp fra NOTURs avanserte brukersupport og assistanse fra Research Computing Services group (Vitenskapelig Databehandling) ved USIT, UiO.
NoWaC er bygget med tillatelse fra Kulturdepartementet.
Les mer om Nowac:
Guevara, Emiliano Raul (2010). NoWaC: a large web-based corpus for Norwegian. In Proceedings of the NAACL HLT 2010 Sixth Web as Corpus Workshop, Association for Computational Linguistics page 1 - 7.
Last ned
En skramblet utgave av korpuset og frekvenslister fra korpuset er distribuert med lisensen Creative Commons Attribution-NonCommercial-ShareAlike 2.0 Generic license.
Last ned frekvenslister fra korpuset
For andre spørsmål:
Kontakt Emiliano Guevara (emiguevara at gmail.com) eller Tekstlaboratoriet: tekstlab-post ved iln.uio.no