21 februar 2007

Korpus italijanskega jezika

Končno nekaj tudi za italijaniste, ki iščejo korpus govorjenih besedil! CLIPS je na voljo na spletni strani http://www.clips.unina.it/. Besedilo spodaj je iz njihovega obvestila.

E’ in rete il corpus di italiano parlato CLIPS al sito www.clips.unina.it. Il corpus (audio, etichettatura e documentazione) è pubblico, l’accesso e il download completo del materiale per finalità scientifiche sono gratuiti.

CLIPS consiste di circa 100 ore di parlato, equamente ripartito tra voci maschili e voci femminili, in parte trascritto ortograficamente e etichettato foneticamente. Le registrazioni sono state effettuate in 15 località italiane scelte in base a criteri di rappresentatività linguistica e socioeconomica: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia.

Per ogni località è stato raccolto a) parlato radiotelevisivo (notiziari, interviste, talk shows); b) parlato dialogico (240 dialoghi raccolti secondo le modalità del map task e del ‘gioco delle differenze’, dei quali 30 etichettati foneticamente, 90 trascritti ortograficamente, studenti universitari); c) parlato letto da parlanti non professionisti (20 frasi atte a garantire la copertura delle frequenze medio-alte del lessico italiano); d) parlato telefonico (conversazioni tra circa 300 parlatori e un portiere d’albergo simulato) e) parlato letto da 20 parlanti professionisti (160 frasi atte a garantire la copertura delle sequenza fonotattiche dell’italiano e delle frequenze medio-altedel lessico italiano) registrato in camera anecoica.

La documentazione, i protocolli di raccolta e di annotazione del materiale tengono conto delle direttive del progetto EAGLES.

Ni komentarjev: