18 september 2006

Nova brezplačna zbirka korpusov

Zbirka korpusov, ki jih na spletu brezplačno ponuja Univerza v Leipzigu, obsega zbirke naključnih stavkov (ne besedil) iz časopisov in s spletnih strani v 17 jezikih. Med njimi so tudi tuji jeziki, ki jih učimo pri nas, t.j. angleščina, nemščina, italijanščina in francoščina, ni pa še španščine, ruščine, slovenščine,...

Spletna stran omogoča iskanje po korpusu s posebej napisanim iskalnikom, lahko pa korpus tudi snamemo kot tekstovni dokument (pri nekaterih lahko celo izbiramo velikost korpusa - največji je seveda korpus nemškega jezika) in ga uporabimo s svojim konkordančnikom (npr. z AntConcom, ki je brezplačen).

Spletni korpusni iskalnik je koristen, ker nam naniza nekaj primerov (lahko prosimo še za več), ponudi pa tudi informacijo o pogostosti, podatke o besedah, ki se najpogosteje nahajajo v bližini izbrane besede (nasploh, na levi, na desni) in celo diagrame, ki semantične (?) vezi ponazarjajo. Ker pa spletna stran ne ponuja urejanja konkordančniških nizov, je za pisanje gradiv precej bolj priročno, če si korpus snamemo (korpusi so obsežni, zato postopek lahko traja tudi celo uro) in ga raziskujemo z lastnim konkordančnikom.

In kje je to čudo? Najdete ga tu: http://corpora.uni-leipzig.de/, korpuse pa lahko snamete tu (izberite Plain Text Files): http://corpora.uni-leipzig.de/download.html

Na koncu velja vse bodoče uporabnike korpusa opozoriti na previdnost pri interpretaciji zadetkov. Ker natančne zgradbe korpusa ne poznamo, primere je priporočljivo uporabljati le kot ilustracije rabe neke besede ali besedne zveze, vendar ne smemo pozabiti, da bi verjetno rezultat bil čisto drugačen v nekem specifičnem žanru ali na nekem specifičnem strokovnem področju. Torej previdno z vsemi posploševanji!

Pa javite, kako so vam korpusi v pomoč.

3 komentarji:

Sarolta pravi ...

Joj, Mojca, spet stara pesem. Predlagam, da jim preprosto pišeš in prosiš za nasvet. Ne verjamem, da Francozi tega problema ne morejo rešiti. Verjetno gre razloge za to iskati v tem, da marsikatero rešitev razvijejo v lastnih orodjih. Ti pa so iz Leipziga. Ti pošljem email naslov.

Anonimni pravi ...

Super! Sedaj se bo še treba naučiti, kako ga 'sneti'. Še vedno pogrešam Collins Cobuilt Bank of English.

Dubravka

Sarolta pravi ...

Sneti korpus ne bo pretežko, Duba. Pojdi na http://corpora.uni-leipzig.de/download.html, izberi jezik korpusa in njegovo velikost v rubriki Plain text files ter klikni na zaželjeno velikost korpusa. Odpre se ti okno, s katerim shraniš korpus na svojem računalniku. To je vse. Poskusi. Če bi bile težave, pa pokliči.