Korpusene inneholder mye bloggtekst og annen tekst som er mindre normert og mer talemålsnært enn det man finner i korpus som bare er basert på strengt redigerte tekster, som aviser, rapporter og skjønnlitteratur utgitt på forlagene.
Begge korpusene er samlet inn i Februar 2015 ved å bruke SpiderLing. Tekstene er tagget med Oslo-Bergen-taggeren. Arbeidet er gjort ved Masarykova Univerzita, Brno, Tsjekkia, i samarbeid med Tekstlaboratoriet ved UiO og NTNU, i regi av HaBiT prosjektet, finanisert av det tsjekkisk-norske forskningsprogrammet i EEA and Norway Grants.
Korpusene er søkbare for alle i SketchEngine: