Stockholms universitet
Go to this page on our english site

Korpusbaserade metoder

Kursen behandlar det storskaliga studiet av skriven text och av transkriberade yttranden.

Kursen behandlar korpusbaserade metoder, det vill säga det storskaliga studiet av skriven text och av transkriberade (talade eller tecknade) yttranden. Kursen går igenom data, metod och evidens i olika lingvistiska traditioner liksom kvantitativa egenskaper i språket, frekvens och n-gram. Vidare behandlas datainsamling för olika typer av korpusar (traditionella korpusar, monitorkorpusar och webbkorpusar) och modaliteter (text, tal och tecken). Kursen ger också en översikt över datorlingvistiska metoder för automatisk segmentering och annotering av text, inklusive tokenisering, ordklasstaggning och syntaktisk analys. Relationen mellan korpusmaterial och forskningsfrågor liksom etik, upphovsrätt och licenser diskuteras också.