Linguistic documents synchronizing sound and text
2001; Elsevier BV; Volume: 33; Issue: 1-2 Linguagem: Inglês
10.1016/s0167-6393(00)00070-4
ISSN1872-7182
AutoresMichel Jacobson, Boyd Michailovsky, John B. Lowe,
Tópico(s)Handwritten Text Recognition Techniques
ResumoThe goal of the Langues et Civilisations à Tradition Orale (LACITO) Linguistic Archive project is to conserve and disseminate recorded and transcribed oral literature and other linguistic materials, mainly in unwritten languages, giving simultaneous access to sound recordings and text annotation. The project uses XML markup for the kinds of annotation traditionally used in field linguistics. Transcriptions are segmented into sentences (roughly) and words. Annotations are associated with different levels: metadata at the text level, free translation at the sentence level, interlinear glosses at the word level, etc. Time-alignment is at the sentence and optionally at the word level. The project makes maximum use of standard, generic software tools. Marked-up data are processed using freely available XML software and displayed using standard browsers. The project has developed (1) an authoring tool, SoundIndex, to facilitate time-alignment, (2) a Java applet, which enables browsers to access time-aligned speech, (3) XSL stylesheets, which specify “views” on the data, and (4) Common Gateway Interface (CGI) scripts, which allow the user to choose documents and views and to enter queries. Current objectives include development of the annotation and software to facilitate linguistic research beyond simple browsing. Over 100 texts in 20 languages have been processed at the time of writing; some of these are available on the Internet for browsing and simple querying. Le Programme Archivage du LACITO (Laboratoire de Langues et Civilisations à Tradition Orale du CNRS) a pour but la pérennisation, l'exploitation et la diffusion de documents linguistiques intégrant texte et son, en particulier les enregistrements faits et transcrits sur le terrain par les chercheurs du laboratoire. L'annotation (transcription, analyse, gloses interlinéaires, traductions) est balisée selon la norme XML et synchronisé phrase par phrase avec l'enregistrement numérisé, pour donner accès simultanément au texte et au son. Dans la mesure du possible des outils logiciels génériques et librement disponibles sont utilisés. Les documents produits sont consultés à l'aide des browsers les plus courants sur Internet. Le texte balisé est manipulé à l'aide d'outils génériques XML. Le programme a développé (1) un outil de création, SoundIndex, qui facilite la synchronisation du son avec le texte, (2) un applet Java qui permet aux browsers d'accéder au son, (3) des feuilles de style XSL qui définissent les “vues” sur les données, et (4) une interface (CGI) qui permet à l'utilisateur de choisir entre les documents et les vues disponibles ainsi que de formuler des requêtes, par exemple, pour chercher un mot particulier. Une centaine de documents dans une vingtaine de langues ont été préparés, dont certains sont disponibles sur Internet.
Referência(s)