E’ in rete il corpus di italiano parlato CLIPS al sito www.clips.unina.it. Il corpus (audio, etichettatura e documentazione) è pubblico, l’accesso e il download completo del materiale per finalità scientifiche sono gratuiti.
CLIPS consiste di circa 100 ore di parlato, equamente ripartito tra voci maschili e voci femminili, in parte trascritto ortograficamente e etichettato foneticamente. Le registrazioni sono state effettuate in 15 località italiane scelte in base a criteri di rappresentatività linguistica e socioeconomica: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia.
Per ogni località è stato raccolto a) parlato radiotelevisivo (notiziari, interviste, talk shows); b) parlato dialogico (240 dialoghi raccolti secondo le modalità del map task e del ‘gioco delle differenze’, dei quali 30 etichettati foneticamente, 90 trascritti ortograficamente, studenti universitari); c) parlato letto da parlanti non professionisti (20 frasi atte a garantire la copertura delle frequenze medio-alte del lessico italiano); d) parlato telefonico (conversazioni tra circa 300 parlatori e un portiere d’albergo simulato) e) parlato letto da 20 parlanti professionisti (160 frasi atte a garantire la copertura delle sequenza fonotattiche dell’italiano e delle frequenze medio-altedel lessico italiano) registrato in camera anecoica.
La documentazione, i protocolli di raccolta e di annotazione del materiale tengono conto delle direttive del progetto EAGLES.
21 februar 2007
Korpus italijanskega jezika
Končno nekaj tudi za italijaniste, ki iščejo korpus govorjenih besedil! CLIPS je na voljo na spletni strani http://www.clips.unina.it/. Besedilo spodaj je iz njihovega obvestila.
Naročite se na:
Objavi komentarje (Atom)
Ni komentarjev:
Objavite komentar