Download Los corpus orales
Document related concepts
Transcript
Los corpus orales Joaquim Llisterri, Universitat Autònoma de Barcelona Escuela Nacional de Antropología e Historia, Ciudad de México, 20 de enero de 2005 Los corpus orales Joaquim Llisterri Departament de Filologia Espanyola Universitat Autònoma de Barcelona Joaquim.Llisterri@uab.es http://liceu.uab.es/~joaquim http://homepage.mac.com/joaquim_llisterri/home.html Materiales del curso http://liceu.uab.es/~joaquim/language_resources/ENAH_05/ ENAH_05.html http://homepage.mac.com/joaquim_llisterri/ language_resources/ENAH_05/ENAH_05.html 1. Los corpus de lengua hablada El concepto de corpus. Corpus escritos y corpus orales. Especificidad de los corpus de lengua hablada: corpus orales (speech corpora) y corpus de lengua oral (spoken language corpora). Etapas en la constitución de los corpus de lengua hablada. 2. Diseño de corpus de lengua hablada La selección de los materiales del corpus. La selección de los informantes. 2.1. CORPUS DE LENGUA ORAL Criterios de diseño derivados del análisis del discurso y del análisis de la conversación. Criterios de diseño derivados de la sociolingüística. Criterios de diseño derivados de la dialectología. 2.2. CORPUS ORALES Criterios de diseño de corpus para el estudio fonético segmental y suprasegmental: corpus semi-espontáneos y corpus ad-hoc. Criterios de diseño de corpus para el desarrollo de las tecnologías del habla. 3. Obtención de corpus de lengua hablada El entorno de la grabación. Instrumentos para la grabación. Formatos de los ficheros de sonido. Los problemas de la grabación en entornos naturales. La grabación en un entorno de laboratorio. 1 Los corpus orales Joaquim Llisterri, Universitat Autònoma de Barcelona Escuela Nacional de Antropología e Historia, Ciudad de México, 20 de enero de 2005 4. Transcripción y etiquetado de los corpus de lengua hablada 4.1. LA TRANSCRIPCIÓN ORTOGRÁFICA DE LA LENGUA ORAL Problemas de la representación ortográfica del habla espontánea: formas no normativas, variantes geográficas, números, siglas, acrónimos y abreviaturas, interjecciones y formas semi-léxicas, disfluencias, signos de puntuación. El concepto de transcripción ortográfica “enriquecida”. 4.2. LA TRANSCRIPCIÓN FONÉTICA DE LOS CORPUS ORALES 4.2.1. Transcripción fonética segmental Sistemas de representación fonética segmental: AFI (Alfabeto Fonético Internacional), SAMPA (SAM-Phonetic Alphabet) y WordlBet. 4.2.2. Transcripción de los elementos suprasegmentales Sistemas de representación de los elementos suprasegmentales: AFI (Alfabeto Fonético Internacional), SAMPROSA (SAM Prosodic Alphabet), INTSINT (International System for Intionation Transcription) y ToBI (Tones and Break Indices). 4.3. EL ETIQUETADO DE LOS CORPUS ORALES 4.3.1. Niveles de etiquetado en los corpus orales Etiquetado fonético segmental, fonológico segmental, fonético suprasegmental, fonológico suprasegmental. La relación entre los niveles de etiquetado. La alineación temporal. 4.3.2. Herramientas para el etiquetado de corpus orales Herramientas de etiquetado de dominio público y multiplataforma: Praat y WaveSurfer. 5. Codificación de los corpus de lengua oral 5.1. EL CONCEPTO DE CODIFICACIÓN Los lenguajes de marcación: separación entre el texto y las marcas de codificación. La TEI (Text Encoding Initiative) como estándar de codificación. 5.2. LA CODIFICACIÓN DEL DISCURSO ORAL Elementos codificados en los corpus de lengua oral: divisiones, enunciados, pausas, elementos vocalizados semi-léxicos y no léxicos, elementos no vocales, eventos, texto escrito, cambios, identidad de los hablantes, turnos de palabra, fenómenos propios de la lengua hablada. – elisiones y fragmentos de palabras, disfluencias y autocorrecciones -, fragmentos no inteligibles. 6. Las aplicaciones y la explotación de los corpus del lengua hablada Formatos de almacenamiento del corpus. Procedimientos de consulta. La documentación del corpus. 2 Los corpus orales Joaquim Llisterri, Universitat Autònoma de Barcelona Escuela Nacional de Antropología e Historia, Ciudad de México, 20 de enero de 2005 6.1. APLICACIONES Y EXPLOTACIÓN DE CORPUS DE LENGUA ORAL Herramientas para el análisis textual. Frecuencia de aparición de palabras o de marcas. Concordancias. Colocaciones. Uso de corpus de lengua oral en estudios lingüísticos. 6.2. APLICACIONES Y EXPLOTACIÓN DE CORPUS ORALES Herramientas para el análisis acústico de dominio público y multiplataforma: Praat y WaveSurfer. Uso de corpus orales en los estudios fonéticos y en el desarrollo de aplicaciones en el campo de las tecnologías del habla. Bibliografía HERRAMIENTAS Praat, Institute of Phonetics, University of Amsterdam: http://www.praat.org WaveSurfer, Centre for Speech Technology, KTH, Stockholm: http://www.speech.kth.se/wavesurfer/ LINGÜÍSTICA DE CORPUS BARNBROOK, G. (1996) Language and Computers. A Practical Introduction to the Computer Analysis of Language. Edinburgh: Edinburgh University Press (Edinburgh Textbooks in Empirical Linguistics). BIBER, D.- CONRAD, S.- REPPEN, R. (1998) Corpus Linguistics. Investigating Language Structure and Use. Cambridge: Cambridge University Press (Cambridge Approaches to Linguistics). KENNEDY, G. (1998) An Introduction to Corpus Linguistics. London: Longman (Studies in Language and Linguistics). McENERY, T.- WILSON, A. (1996) Corpus Linguistics. Edinburgh: Edinburgh University Press (Edinburgh Textbooks in Empirical Linguistics), 2nd edition, 2001. http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/contents.h tm STUBBS, M. (1996) Text and Corpus Analysis. Computer Assisted Studies of Language and Culture. Oxford: Basil Blackwell (Language in Society). WRAY, A.- TROTT, K.- BLOOMER, A. (1998) Projects in Linguistics. A Practical Guide to Researching Language. London - New York: Arnold - Oxford University Press. CORPUS ORALES LLISTERRI, J. (1999) “Transcripción, etiquetado y codificación de corpus orales", in GÓMEZ GUINOVART, J.- LORENZO SUÁREZ, A.- PÉREZ GUERRA, J.- ÁLVAREZ LUGRÍS, A. (Eds.) Panorama de la investigación en lingüística informática. RESLA, Revista Española de Lingüística Aplicada, Volumen monográfico. pp. 53-82. http://liceu.uab.es/~joaquim/publicacions/RESLA_99.pdf 3 Los corpus orales Joaquim Llisterri, Universitat Autònoma de Barcelona Escuela Nacional de Antropología e Historia, Ciudad de México, 20 de enero de 2005 SCHIEL, F.- DRAXLER, C. (2004) The Production of Speech Corpora. Munich: Bavarian Archive for Speech Signals. http://www.phonetik.unimuenchen.de/Forschung/BITS/TP1/Cookbook/ RECURSOS LINGÜÍSTICOS Y LENGUAS MINORIZADAS First Steps in Language Documentation for Minority Languages. Computational Linguistic Tools for Morphology, Lexicon and Corpus Compilation. Proceedings of the SALTMIL Workshop. LREC 2004. 4th International Conference on Language Resources and Evaluation. 26-28 May, 2004. Lisbon, Portugal. KRAUWER, S. (2003) “The Basic Language Resource Kit (BLARK) as the First Milestone for the Language Resources Roadmap”, in SPECOM 2003. International Workshop “Speech and Computer”,. 27-29 October 2003, Moscow, Russia. http://www.elsnet.org/dox/krauwer-specom2003.pdf Linguistic Exploration. New Methods for Creating, Exploring and Disseminating Linguistic Field Data. 6 January 2000, Palmer House Hilton, Chicago, US. http://www.ldc.upenn.edu/exploration/LSA/ Linguistic Exploration. Workshop on Web-Based Language Documentation and Description. 12 - 15 December 2000, Institute for Research in Cognitive Science, University of Pennsylvania, Philadelphia, Pennsylvania, US. http://www.ldc.upenn.edu/exploration/expl2000/ Ó CRÓINÍN, D. (Ed.) (2000) Proceedings of the Worlshop on Developing Language Resources for Minority Languages: Reusability and Strategic Priorities. LREC 2000, Second International Conference on Language Resources and Evaluation. Athens, Greece, 30 May 2000. European Language Resources Association. Proceedings of the International LREC Workshop on Resources and Tools in Field Linguistics. LREC 2002.Third International Conference on Language Resources and Evaluation. Las Palmas, 26-27 May 2002. 4