18 september 2006

Nova brezplačna zbirka korpusov

Zbirka korpusov, ki jih na spletu brezplačno ponuja Univerza v Leipzigu, obsega zbirke naključnih stavkov (ne besedil) iz časopisov in s spletnih strani v 17 jezikih. Med njimi so tudi tuji jeziki, ki jih učimo pri nas, t.j. angleščina, nemščina, italijanščina in francoščina, ni pa še španščine, ruščine, slovenščine,...

Spletna stran omogoča iskanje po korpusu s posebej napisanim iskalnikom, lahko pa korpus tudi snamemo kot tekstovni dokument (pri nekaterih lahko celo izbiramo velikost korpusa - največji je seveda korpus nemškega jezika) in ga uporabimo s svojim konkordančnikom (npr. z AntConcom, ki je brezplačen).

Spletni korpusni iskalnik je koristen, ker nam naniza nekaj primerov (lahko prosimo še za več), ponudi pa tudi informacijo o pogostosti, podatke o besedah, ki se najpogosteje nahajajo v bližini izbrane besede (nasploh, na levi, na desni) in celo diagrame, ki semantične (?) vezi ponazarjajo. Ker pa spletna stran ne ponuja urejanja konkordančniških nizov, je za pisanje gradiv precej bolj priročno, če si korpus snamemo (korpusi so obsežni, zato postopek lahko traja tudi celo uro) in ga raziskujemo z lastnim konkordančnikom.

In kje je to čudo? Najdete ga tu: http://corpora.uni-leipzig.de/, korpuse pa lahko snamete tu (izberite Plain Text Files): http://corpora.uni-leipzig.de/download.html

Na koncu velja vse bodoče uporabnike korpusa opozoriti na previdnost pri interpretaciji zadetkov. Ker natančne zgradbe korpusa ne poznamo, primere je priporočljivo uporabljati le kot ilustracije rabe neke besede ali besedne zveze, vendar ne smemo pozabiti, da bi verjetno rezultat bil čisto drugačen v nekem specifičnem žanru ali na nekem specifičnem strokovnem področju. Torej previdno z vsemi posploševanji!

Pa javite, kako so vam korpusi v pomoč.

4 komentarji:

mojca pravi ...

Enkraten pripomoček, ne samo za pedagoške namene, ampak tudi za vse radovedneže, ki jih zanima, kako jezik deluje, saj je očitno mogoče v ta korpus uvoziti tudi svoja besedila!
Imam pa eno težavico. Ker mi Antconc zaradi narave francoskega jezika (akcenti se v njem ne ohranijo) ne ustreza, sem še posebej navdušena nad možnostjo, da: "At the time being there do not exist any conversion utilities
for converting corpora from other formats into the schema
described here. However, given a specific format, it is an
easy task to write such a conversion and import script and
subsequently let the underlying software perform the calculation
of the statistical data." Ima morda kdo kako idejo o tem, kako se naloge lotiti?

Sarolta pravi ...

Joj, Mojca, spet stara pesem. Predlagam, da jim preprosto pišeš in prosiš za nasvet. Ne verjamem, da Francozi tega problema ne morejo rešiti. Verjetno gre razloge za to iskati v tem, da marsikatero rešitev razvijejo v lastnih orodjih. Ti pa so iz Leipziga. Ti pošljem email naslov.

Anonimni pravi ...

Super! Sedaj se bo še treba naučiti, kako ga 'sneti'. Še vedno pogrešam Collins Cobuilt Bank of English.

Dubravka

Sarolta pravi ...

Sneti korpus ne bo pretežko, Duba. Pojdi na http://corpora.uni-leipzig.de/download.html, izberi jezik korpusa in njegovo velikost v rubriki Plain text files ter klikni na zaželjeno velikost korpusa. Odpre se ti okno, s katerim shraniš korpus na svojem računalniku. To je vse. Poskusi. Če bi bile težave, pa pokliči.