habit

Sist endret 9. aug. 2017 11:43 av Kristin Hagen
Sist endret 9. aug. 2017 11:33 av Kristin Hagen
Sist endret 9. aug. 2017 11:00 av Kristin Hagen
Sist endret 25. feb. 2021 12:49 av lenkeretter@localhost

HaBiT - Harvesting big text data for under-resourced languages - is a collaboration project from 2014 to 2017 with ​Masarykova univerzita in ​Brno and NTNU in ​Trondheim together with the Text Laboratory from University of Oslo, Addis Ababa University and Hawassa University.

Sist endret 9. aug. 2017 11:00 av Kristin Hagen
Sist endret 9. aug. 2017 11:00 av Kristin Hagen
Sist endret 9. aug. 2017 11:00 av Kristin Hagen
Sist endret 6. okt. 2017 15:26 av Kristin Hagen

Vi tilbyr nå to store  webkorpus for norsk, ferdigstilt i 2017:

• HaBiT Norwegian Web Corpus 2015 (Bokmål) med 1,18 milliarder ord (3,4 millioner dokumenter).

• HaBiT Norwegian Web Corpus 2015 (Nynorsk) med drøye 55 millioner ord (214 000 dokumenter).

Det nynorske webkorpuset er det første i sitt slag.