English version of this page

Database for hindi

Prosjektet er den første databasen for hindi, som er det tredje mest talte språket i verden. Den vil inneholde en stor mengde tekster på hindi for vitenskapelig forskning.

Om prosjektet

Databasen er en ressurs og et verktøy for forskning på hindi for ulike vitenskapelige tilnærminger, blant annet lingvistikk og litteraturvitenskap. Den kan også brukes til informasjonsgjenfinning. Tekstene er valgt fra forskjellige felter av skriftlige hindi, og databasen inneholder tekster fra begynnelsen av moderne hindi til vår egen tid.

Så langt har tekster blitt lastet opp manuelt på Hindi-kontoret i New Delhi. Men nå vil tekstene bli lastet opp ved hjelp av et Optical Character Recognition-verktøy. Dette akselererer  prosessen vesentlig. Videre vil nå også elektroniske tekster fra Internett bli lastet opp, med konsentrasjon om avistekster. Målet er å sette opp et arkiv for hindi-avisen Navbharat Times.

Mål

Når tilstrekkelig med tekster er lastet opp, og alle forskningsverktøy er etablert,  vil opprettelse av en internett-grammatikk for hindi være det første prosjektet. Dette vil skje i samarbeid med Jawahar Lal Nehru University i New Delhi og University of Texas i Austin.

The Hindi Corpus

Ta kontakt med Claus Peter Zoller for å få brukernavn og passord til databasen The Hindi Corpus.

Publisert 10. mai 2010 09:19 - Sist endret 27. okt. 2017 13:16