Download Frecuencia y distintividad en el uso lingüístico: casos tomados de la
Document related concepts
Transcript
Frecuencia y distintividad en el uso lingüístico: casos tomados de la lematización verbal de corpus de distintos registros Antonio Moreno Sandoval Universidad Autónoma de Madrid José María Guirao Miras Universidad de Granada ABSTRACT El objeto de esta comunicación es establecer una comparación entre el concepto de frecuencia de uso y el de distintividad. Para ello utilizaremos el caso de los lemas verbales del español en diferentes registros y variedades del español. La metodología consistirá en emplear tres corpus lematizados automáticamente en el Laboratorio de Lingüística Informática de la UAM. Los tres corpus representan el habla espontánea de la variedad peninsular (C-ORAL-ROM), el habla infantil espontánea (CHIEDE) y un corpus de noticias de la Agencia EFE. Para realizar la extracción de unidades distintivas, aplicamos el test de Dunning a cada corpus, confeccionando una lista de lemas verbales distintivos del registro. El resultado final son dos listas de verbos para cada registro. En el Apéndice se muestran los 100 primeros casos de cada tipo textual, propuesta que puede ser de interés para la enseñanza de segundas lenguas y la lexicografía. PALABRAS CLAVE: corpus orales y escritos; variedades del español; lematización; frecuencia de uso, I. FRECUENCIA DE USO Y DISTINTIVIDAD El concepto de frecuencia de uso es recurrente y básico en gran parte de la investigación en Lingüística de Corpus, así como en otras áreas como Análisis del Discurso, Sociolingüística, Fonología o Lingüística Histórica. Joan Bybee (2007) es un buen ejemplo de la argumentación a favor de la frecuencia de uso como factor esencial (funcional) en el análisis y explicación de la estructura de las lenguas naturales. Bybee, representante del funcionalismo, destaca alguna de las características más importantes de la frecuencia de uso: To the uninitiated, it does not seem unreasonable at all to suppose that highfrequency words and expressions might have one set of properties and lowfrequency words and expressions another. (Bybee 2007: 5) Precisamente lo que Bybee trata de demostrar en su libro es cómo la frecuencia y la repetición de formas y unidades lingüísticas influyen en fenómenos como la gramaticalización (cambio y creación de estructuras) o la marcación (la formas o unidades no marcadas son más frecuentes que las marcadas). La hipótesis básica de bastantes corrientes empiricistas y funcionalistas es que “specific instances of experiences give rise to generalizations, and they can do so without being swallowed up themselves by the general pattern.[ …] The reason frequency or repetition plays a role in 195 grammar formation is that the mind is sensitive to repetition” (Bybee 2007: 7-8). Como es bien sabido, en el recuento de frecuencias se puede distinguir entre ejemplos (tokens) y tipos (types). En nuestro caso de estudio, cada forma verbal de un verbo es un ejemplo de dicho verbo (tipo)1. Así, amo, amas, ama … son ejemplos de AMAR. De esta manera, el recuento de todas las formas que aparecen en un corpus y que pertenecen al mismo lema supone una abstracción de los ejemplos al concepto más abstracto, la unidad léxica verbal. En nuestro experimento vamos a utilizar la lematización y la frecuencia de tipo como elemento de discusión. Queremos analizar la posible influencia de la repetición de la unidad léxica verbal en la determinación de las características de una variedad o registro lingüísticos. En contraposición a la frecuencia oponemos el concepto de distintividad, entendido como unidad léxica que es característica y distintiva de una variedad porque aparece típicamente en dicho registro y no tanto en otros. Informativamente, una unidad distintiva destaca porque proporciona más información sobre el contenido y contexto. Igualmente, la probabilidad de que dicho lema aparezca en un determinado registro es más alta que en otros contextos. Esta idea ha sido expuesta por Dunning (1993): se observa que las palabras más representativas de un texto o de un registro tienen una frecuencia de aparición muy baja (dos o tres veces) con respecto a otras más generales en cualquier corpus. Sin embargo, dichas palabras identifican muy claramente el contenido o la tipología del texto. Por tanto, palabra más frecuente y palabra más significativa son dos conceptos que no deben confundirse y no necesariamente equivalentes. El objeto de este artículo es mostrar las correspondientes listas extraídas de diferentes corpus para ver hasta qué punto la distinción es productiva en aplicaciones de la Lingüística, como la enseñaza de lenguas o la terminología. II. METODOLOGÍA II.1. Los corpus empleados Para nuestro experimento emplearemos tres corpus que han sido anotados automáticamente por medio un analizador morfosintáctico, GRAMPAL (Moreno 1991, Moreno y Guirao 2006). En el caso de los dos corpus de habla espontánea, los resultados de la lematización han sido revisados a mano por lingüistas. En el caso del corpus escrito, dado el tamaño, no se ha procedido todavía a la revisión. II.1.1. C-ORAL-ROM El corpus C-ORAL-ROM está compuesto por cuatro subcorpus, comparables en tamaño y distribución, en cuatro lenguas romances (francés, italiano, portugués y español). Se trata de un corpus de habla espontánea, de carácter general. El subcorpus español contiene 180 grabaciones transcritas, anotadas y alineadas (cada utterance con su correspondiente señal acústica). El corpus se describe en detalle en Cresti y Moneglia (eds.) (2005) y se pueden consultar tanto las transcripciones como las anotaciones y el 1 El trabajar con lemas supone una abstracción con respecto a los recuentos de frecuencias de palabras. En este último caso, cada palabra es el tipo y las veces que aparece son los ejemplos. 196 audio, que acompañan al libro con un DVD. En Moreno y Urresti (2006) se da una exposición pormenorizada de los estudios que se han realizado sobre el subcorpus español. El corpus se divide en tres grandes secciones: el registro informal (alrededor de 150.000 palabras), el registro formal (unas 80.000 palabras) y la de los medios de comunicación (70.000 palabras). La temática es muy variada y el número de hablantes diferentes supera los 500, siguiendo una distribución equitativa de hombres y mujeres, aunque no se tuvo en cuenta su distribución en los registros. Mayoritariamente, los hablantes son de la variedad centro-peninsular, aunque hay locutores de muy variadas procedencias. Lo pertinente para este artículo es lo referente a la lematización. Efectivamente, cada uno de los subcorpus fue anotado morfosintácticamente y se crearon listas de frecuencias con las formas y los lemas de cada lengua. Nosotros tomaremos directamente la lista de los 100 lemas verbales más frecuentes en este corpus. II.1.2. CHIEDE CHIEDE (Garrote 2008) es un corpus de habla espontánea infantil. Toma como modelo la metodología empleada en C-ORAL-ROM, y lo aplica a la variedad infantil entre los 3 y los 5 años. Las grabaciones fueron realizadas en un colegio de Educación Infantil de Castilla-La Mancha. Está compuesto por dos tipos de grabaciones: las de asamblea, en las que todos los niños intervienen guiados por su profesora; y las de entrevista entre un niño y la investigadora. En total se recogen unas 60.000 palabras y varias horas de grabación, distribuidas proporcionalmente entre los tres años de la muestra. El corpus ha sido anotado morfosintácticamente con la misma herramienta (GRAMPAL) y luego su resultado ha sido revisado y corregido manualmente por la investigadora. La lista de los 100 lemas verbales más frecuentes ha sido tomada de la tesis de M. Garrote. II.1.3. Corpus de la Agencia EFE Este corpus ha sido recogido y anotado por María Cristina Tovar como trabajo de investigación para la obtención del DEA en el programa de doctorado “El lenguaje humano: su origen, uso y aplicaciones”, de la UAM. El corpus se va a utilizar en la tesis que ella está desarrollando en el LLI-UAM sobre las características del registro escrito periodístico en diferentes variedades geográficas del español. Como se trata de una investigación en marcha, no disponemos de publicaciones pero en estos momentos ha pasado la etapa de revisión y recategorización de los textos en función de su tipología y se ha comenzado la primera fase de anotación morfosintáctica. El corpus está compuesto por más de 15 millones de palabras y nos parece impracticable su revisión manual completa, como se ha hecho con los corpus orales. Por tanto, procederemos a una revisión de una muestra aleatoria, aunque de momento para el experimento se han utilizados los resultados de la lematización automática. Por lo tanto, la lista de los 100 verbos más frecuentes no es más que una primera aproximación, aunque creemos que será bastante parecida a la definitiva. 197 II.2. Lematización automática GRAMPAL es un analizador morfosintáctico del español que asigna la etiqueta más probable para cada palabra o unidad de palabras (multiwords). Esta etiqueta contiene información sobre la categoría sintáctica, su lema y rasgos morfosintácticos (persona, número, tiempo, aspecto y forma no personal en el caso de los verbos). GRAMPAL fue diseñado originalmente para analizar textos escritos y dar todos los análisis posibles para una forma dada. Así, por ejemplo, para la forma bajo debe proporcionar el análisis como preposición, verbo, adjetivo y nombre. Obviamente, hay muchas formas que no son ambiguas en el español, es decir, que sólo tienen un análisis morfosintáctico, pero también es cierto que formas muy frecuentes como que, la, las o los tienen dos análisis categoriales, al menos. Para dar una idea de la ambigüedad morfosintáctica del español, en Moreno y Guirao (2006) damos una evaluación con corpus escritos y orales. La distribución entre palabras no ambiguas y ambiguas en el corpus escrito es de 65% a 35%, respectivamente. Sin embargo, la relación de ambigüedad está prácticamente al 50% en el corpus oral. Como originariamente GRAMPAL no estaba diseñado para desambiguar, hubo que incorporar un módulo de desambiguación estadístico, basado en un corpus de entrenamiento formado por textos revisados a mano. Nuestra experiencia ha sido que en cada cambio de registro o variedad, se ha tenido que corregir entre un 5 y un 10 % los resultados, ya que la categorización morfosintáctica es sensible al tipo de texto. Otra innovación que hemos introducido ha sido el tratamiento de las unidades multipalabra, como por ejemplo o en lugar de. En el caso de los verbos, lo más relevante es que se ha incluido un módulo de reconocimiento de verbos que no están en el lexicón, de manera que si tiene forma analizada presenta una terminación propia de los verbos españoles, se le asigna provisionalmente la etiqueta de verbo. Para nuestro experimento, los casos de verbos que no estaban en el lexicón han sido eliminados del recuento, hasta que no se realice una verificación manual. El grado de precisión de nuestro programa está en torno al 95%, que es la cifra típica de los etiquetadores avanzados, en español y en otras lenguas. Mejorar dicha precisión es difícil, dada la ambigüedad inherente en las lenguas, que hace complicada tomar una decisión incluso a lingüistas expertos. II.4. El test de Dunning Para identificar los lemas distintivos de cada subcorpus de nuestro experimento hemos empleado el test de razón de verosimilitud (log-likelihood ratio test) propuesto por Dunning (1993). Este método no asume distribuciones estadísticas normales de las unidades de un corpus. Por el contrario, la ratio de probabilidad (logarítmica) asume una distribución binomial más apropiada para palabras poco comunes pero significativas. Una ventaja adicional de este test es que no que necesita que los subcorpus estén equilibrados para llevar a cabo la comparación. Este método se ha aplicado con éxito para hallar colocaciones (Dunning 1993) y términos (Daille 1994). Para probar el método con la intención de encontrar unidades distintivas en dominios específicos, podemos trabajar con dos hipótesis: i. Dos registros (o subcorpus) no muestran ninguna diferencia en unidades distintivas (Hipótesis nula). 198 ii. Para un subcorpus dado, podemos hallar unidades distintivas (Hipótesis alternativa). Para comprobar cuál de las dos hipótesis es la correcta aplicamos el test a dos subcorpus bien definidos: lenguaje adulto e infantil. La manera de comprobarlo es ver la distribución de las unidades que han obtenido mayor puntuación en la razón de verosimilitud. Por ejemplo, las palabras más significativas de los adultos en el corpus CHIEDE fueron: FORMAS ADULTOS (36.905) NIÑOS (21.080) TEST de DUNNING qué te 1.123 743 108 59 510.29 373.43 a ver bien ah claro tú 371 304 270 231 264 23 14 18 15 27 207.58 189.00 146.32 126.53 113.88 Tabla 1: La palabras más características de los adultos La fórmula estadística es: 2 log O 2 [log L (p1, k 1, n1) log L (p2, k 2, n2) log L (p , k 1, n1) log L (p , k 2, n2)] Las cifras de esta tabla de contingencias deben entenderse de la siguiente manera. Se forman dos conjuntos, el que se analiza para encontrar unidades distintivas y su conjunto complementario. En nuestro ejemplo, el conjunto principal es el formado por las palabras emitidas por los adultos y el conjunto complementario es el de los niños. Como se dijo anteriormente, este test no exige que el tamaño de los conjuntos sea equilibrado. El número de palabras emitidas por los adultos es de 36905 (n1), mientras que el de los niños es de 21080(n2), para dar un total de 57985 en el corpus. Para cada palabra se proporciona las ocurrencias en adultos (k1), niños (k2) y el valor que proporciona el test de Dunning (resultado final de la fórmula). Cuanto mayor es el valor de la razón de verosimilitud, más característica es la palabra para el conjunto principal. En nuestro ejemplo, el pronombre interrogativo qué aparece proporcionalmente muchas más veces (1123 entre 36905) en los adultos que en los niños (108 entre 21080). Eso le asigna una ratio de 510,292. En la tabla podemos comprobar que una frecuencia de aparición mayor no necesariamente proporciona mayor razón de verosimilitud. La palabra tú aparece más veces (264) que la palabra claro (231) y sin embargo la segunda obtiene una razón 2 La aplicación de la fórmula es como sigue: n1 y n2 son el número total de ejemplos de los conjuntos 1 y 2. k1 y k2 son el número de veces que aparece una determinada unidad (sea palabra, fonema, lema, categoría sintáctica, etc.). p1 es la probabilidad del primer conjunto y se calcula mediante p1 = k1 / n1. Análogamente, p2 = k2 / n2. La probabilidad del total, p, se calcula p = (k1 + k2) / (n1 + n2). Finalmente, se aplica una razón de logaritmos, en el numerador está el caso específico: log L( p1, k1, n1) + log L( p2, k2, n2); y en el denominador se calcula la del total: log L( p, k1, n1) + log L( p, k2, n2). Como se puede apreciar, lo crucial es la razón entre los ejemplos concretos de la unidad (k1) en relación con el tamaño del conjunto (n1) y la misma relación en el conjunto complementario. 199 mayor (126,53) frente a la primera (113,88). Esto es debido a que tú aparece proporcionalmente más veces en el corpus complementario, el infantil, que claro. El test de la razón de verosimilitud favorece los casos que son más frecuentes (en comparación con el número total de ejemplos) en el conjunto principal que en el conjunto complementario. En general, toda ratio que supera el valor de 8 es considerada como indicación de que la unidad es significativa para el conjunto en cuestión. Como se puede comprobar en la tabla, todas las palabras son relativas a la interacción del adulto con el niño, ya sea para preguntar (qué, a ver), como para asentir (bien, ah, claro) o para dirigirse a él o ella (te, tú). Las 5 palabras que salieron con mayor puntuación en el conjunto infantil fueron: mi 524.66 yo 300.54 sí 255.77 me 198.53 tengo 141.16 Todas ellas reflejan el uso característico de los pronombres y la primera persona, como habitualmente se describe en los estudios de lenguaje infantil. Garrote et al (2008) presentan más evidencias (entre ellas, fonemas y categorías) a favor de la fiabilidad de esta técnica estadística para encontrar unidades características de un conjunto frente a su complementario. En este artículo aplicaremos la misma técnica para extraer los lemas verbales más significativos de los distintos registros que analizamos en el siguiente apartado. III. COMPARACIÓN Y DISCUSIÓN DE LOS RESULTADOS Vamos a considerar tres registros: 1. Habla espontánea adulta 2. Habla espontánea infantil 3. Texto escrito periodístico Para realizar el cálculo de la razón de verosimilitud, enfrentaremos entre sí el habla espontánea adulta e infantil, y los textos periodísticos con el corpus de habla espontánea adulta. Para cada registro se proporcionan dos listas, ordenadas por mayor frecuencia y mayor valor de razón de verosimilitud. En este apartado solo discutiremos los resultados más relevantes. Los datos completos se presentan en el Apéndice. III. 1. Habla espontánea adulta Los 10 verbos más frecuentes (sobre un total de 50.122 formas verbales) en CORAL-ROM se muestran en la tabla siguiente: HABLA ADULTA Puesto Verbo Frecuencia Absoluta Frecuencia Relativa 1 SER 7404 14.77% 2 DECIR 2652 5.29% 200 3 ESTAR 2404 4.79% 4 TENER 2388 4.76% 5 HACER 2220 4.42% 6 HABER 1456 2.90% 7 IR 1392 2.77% 8 VER 964 1.92% 9 DAR 886 1.76% 865 1.72% 10 SABER Tabla 2: Los 10 verbos más frecuentes en C-ORAL-ROM Los 10 verbos más significativos de C-ORAL-ROM, con su valor del test de Dunning calculado en oposición al conjunto de lemas verbales del corpus de la Agencia EFE son: HABLA ADULTA verbo puesto Dunning 1 SER 4.806,5 2 IR 3.052,8 3 CREER 2.693,4 4 ESTAR 2.465,4 5 DECIR 2.087,0 6 VER 1.691,0 7 SABER 1.690,3 8 VENIR 1.557,6 9 PASAR 1.084,1 10 LLAMAR 1.080,0 Tabla 3: Los 10 verbos más significativos en C-ORAL-ROM De la comparación de los datos, se puede observar que un buen porcentaje de verbos coincide en ambas listas (SER, ESTAR, IR, DECIR, VER y SABER), lo que indicaría que frecuencia y distintividad en este caso irían bastante parejas. Destaca la presencia de verbos de movimiento (IR, VENIR) y los verbos de interacción conversacional como DECIR y LLAMAR. Ambos fenómenos se podrían asociar a las características propias de la oralidad, donde se describen eventos en una situación dialógica. III. 2. Habla espontánea infantil Los diez lemas verbales más frecuentes en CHIEDE son los que aparecen en la Tabla 4. Lo más llamativo es que coinciden con los del corpus de habla adulta salvo en el verbo JUGAR, que en los adultos es DAR. En cuanto al orden en la posición, en el léxico infantil TENER ocupa la segunda posición, en contraposición con DECIR, que es el segundo verbo en frecuencia de uso en los adultos (probablemente por su importancia como verbo dicendi en el registro oral). 201 HABLA INFANTIL Puesto Frecuencia Absoluta Verbo Frecuencia Relativa 1 SER 509 12.5 2 TENER 330 8.1 3 ESTAR 193 4.7 4 SABER 176 4.3 5 HACER 172 4.2 6 IR 129 3.1 7 DECIR 118 2.8 8 HABER 93 2.2 9 VER 89 2.1 10 LLAMAR 88 2.1 Tabla 4: Los 10 verbos más frecuentes en CHIEDE Los 10 verbos más significativos de CHIEDE, en contraposición con el corpus adulto de C-ORAL-ROM se muestran en la Tabla 5. puesto HABLA INFANTIL verbo Dunning 1 JUGAR 200,9 2 SABER 102,9 3 CAER(SE) 97,8 4 TENER 76,2 5 PORTAR(SE) 71,7 6 REGALAR 64,3 7 PICAR 53,1 8 PINTAR 46,7 9 COMPRAR 41,5 10 CANTAR 40,2 Tabla 5: Los 10 verbos más significativos en CHIEDE Al comparar las dos listas de léxico verbal de los niños, lo primero que llama la atención es que sólo coinciden tres verbos: JUGAR, SABER y TENER. Los otros siete verbos característicos se refieren o bien a actividades típicas de la infancia: CAER(SE), PORTAR(SE), PINTAR y CANTAR; o bien a actividades propias de los adultos en su interrelación con los niños: REGALAR y COMPRAR. El caso de PICAR es muy ilustrativo. Aparece sólo 18 veces (de un total de 4070 formas verbales empleadas por los niños). El uso más habitual de este verbo en CHIEDE es “me pica …” Este verbo ocupa la posición séptima, antes que verbos más frecuentes en el léxico infantil como PINTAR, porque PICAR aparece sólo 13 veces en el corpus C-ORAL-ROM (que tiene 50119 formas verbales). Es bien conocido en la lingüística de corpus que los resultados son muy dependientes del tamaño del corpus y los corpus empleados en nuestro estudio no tienen un número suficiente (especialmente el infantil) de palabras para extraer conclusiones. 202 Sin embargo, los datos ofrecidos por el test de Dunning son compatibles con la bibliografía en psicolingüística infantil y coherentes con nuestra experiencia. Hemos extraído la lista de verbos significativos para los adultos de C-ORALROM, en situación complementaria con los verbos empleados por los niños, y entre los primeros 20 verbos distintivos encontramos 11 que no aparecen ninguna vez en CHIEDE: UNIR, RECORDAR, SUPONER, SOBRAR, TRATAR, EXPLICAR, CONSIDERAR, MANTENER, PERMITIR, CONSEGUIR y REALIZAR. Esto es un indicio de que estos verbos, aunque muy generales y habituales en la actuación lingüística adulta, no forman parte del léxico activo de los niños de entre 2 y 5 años. Habría que confirmar esta conjetura con estudios experimentales psicolingüísticos. Esta forma de extraer diferencias léxicas entre adultos y niños puede ser no sólo de inspiración para nuevos estudios experimentales sino que también podría ser empleada para diseñar estrategias pedagógicas de enseñanza del léxico. III.3. Registro periodístico Las Tablas 6 y 7 muestran los primeros lemas verbales en este registro. En primer lugar, destaca la presencia de los verbos dicendi propios de un registro informativo: DECIR, SEÑALAR, ASEGURAR, INFORMAR. Sin embargo, mientras que en la frecuencia de uso nos seguimos encontrando con los verbos generales (SER, TENER, HACER, ESTAR, HABER), en la razón de verosimilitud todos los ejemplos son de verbos de comunicación o declarativos. Esto nos confirma la utilidad del test de Dunning para extraer elementos característicos en registros especializados. TEXTOS PERIODÍSTICOS Puesto Frecuencia Absoluta 98694 44153 33509 30579 23843 23038 14098 13927 12992 12275 verbo 1 SER 2 TENER 3 HACER 4 DECIR 5 HABER 6 ESTAR 7 SEÑALAR 8 DAR 9 ASEGURAR 10 INFORMAR Frecuencia Relativa 5,98% 2,67% 2,03% 1,85% 1,44% 1,40% 0,85% 0,84% 0,79% 0,74% Tabla 6: Los 10 verbos más frecuentes en el corpus EFE 203 TEXTOS PERIODÍSTICOS puesto verbo Dunning 1 SEÑALAR 691,2 2 ASEGURAR 610,0 3 AFIRMAR 594,2 4 INFORMAR 592,6 5 DESTACAR 450,9 6 INDICAR 438,8 7 PRESENTAR 400,6 8 AGREGAR 332,6 9 CONSIDERAR 317,9 10 CELEBRAR 300,4 Tabla 7: Los 10 verbos más significativos en el corpus EFE III.4. Conclusiones y trabajo futuro Como reflexión final, podemos sacar algunas conclusiones a partir de los datos. En primer lugar, hay que destacar que los conceptos de frecuencia de uso y distintividad son coincidentes en cierta medida en el habla espontánea adulta, como una prueba más del carácter básico de la oralidad en las lenguas humanas. En segundo lugar, los datos nos sugieren que los verbos más frecuentes en el habla espontánea son los mismos en adultos y niños, con cierta variación en el orden. Sin embargo, en cuanto a distintividad, la mayoría de los verbos significativos están relacionados con las actividades propias de unos y otros. Por otra parte, al analizar un registro especializado, como es el periodístico, comprobamos que los verbos característicos no coinciden con los más frecuentes, que suelen ser los generales de la lengua. Finalmente, si comparamos la frecuencia relativa en el uso de verbos (ver Apéndice 1) se observa una significativa desproporción en el uso del verbo SER en el habla espontánea (tanto adulta como infantil), donde la tasa está en el 12-14% frente al 6 % en el registro periodístico. Esta relación también se produce con otros verbos muy frecuentes. Dicho de otra manera, la diversidad de lemas es mucho mayor en el corpus escrito que en el oral, situación que es conocida y esperada, y que nuestro recuento ha cuantificado. Retomando las palabras iniciales de Bybee en este artículo, las propiedades de los lexemas verbales más frecuentes suelen ser muy relevantes para la oralidad. Los datos de nuestro análisis apoyan la hipótesis funcionalista de la importancia de la repetición en la conformación de estructuras lingüísticas básicas. Sin embargo, los dominios y registros especializados muestran la relevancia de las unidades distintivas, que no son muy frecuentes pero son muy informativas. En este caso, como afirmaba Dunning: “Unfortunately rare events do make up a large fraction of real text.” Las aplicaciones de la frecuencia de uso y de la distintividad en un registro dado son muy sugerentes para la lexicografía, terminología y didáctica de lenguas, ya que permiten diferenciar lo general y frecuente de lo particular y característico. En cualquier caso, nos parece que este tipo de listados como el que ofrecemos en los Apéndices sirven de base para el conocimiento general sobre las lenguas. 204 AGRADECIMIENTOS Esta investigación ha sido parcialmente financiada por el proyecto BRAVO-RL del MEC-CICYT (TIN2007-67407-C03-02) y por la Comunidad de Madrid en el marco del convenio MAVIR (S-0505/TIC/0267). REFERENCIAS BIBLIOGRÁFICAS Bybee, Joan (2007): Frequency of use and the organization of language. Oxford, Oxford University Press. Cresti y Moneglia (eds.) (2005) C-ORAL-ROM Integrated Reference Corpora for Spoken Romance Languages. Amsterdam, John Benjamins. Dunning, (1993): Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, 19 (1): 61-74. Garrote, M. (2008): CHIEDE: corpus de habla infantil espontánea del español. Tesis doctoral. Universidad Autónoma de Madrid. Garrote, M, Guirao, J.M. y Moreno, A. (2008): Extracción de unidades distintivas en adultos y niños de un corpus de lengua oral espontánea. En Actas del 8º Congreso de Lingüística General. Madrid, Universidad Autónoma de Madrid. Moreno, A. (1991): Un modelo basado en la unificación para el análisis y generación de la morfología en español. Tesis doctoral. Universidad Autónoma de Madrid Moreno y Guirao (2006): Morpho-syntactic Tagging of the Spanish C-ORAL-ROM Corpus: Methodology, Tools and Evaluation. In Spoken Language Corpus and Linguistic Informatics. Amsterdam, John Benjamins. Moreno y Urresti (2006): El proyecto C-ORAL-ROM y su aplicación a la enseñanza de español. Oralia, 8. 205 APÉNDICE 1: Los 100 verbos más frecuentes en los tres corpus HABLA ADULTA Puesto Verbo 1 SER 2 DECIR 3 ESTAR 4 TENER 5 HACER 6 HABER 7 IR 8 VER 9 DAR 10 SABER 11 PASAR 12 PONER 13 CREER 14 VENIR 15 LLAMAR 16 LLEVAR 17 HABLAR 18 QUEDAR 19 QUERER 20 LLEGAR 21 DEJAR 22 SALIR 23 PARECER 24 GUSTAR 25 PENSAR 26 COMER 27 TRABAJAR 28 CONTAR 29 COGER 30 UNIR 31 VALER 32 ENCONTRAR 33 METER 34 EMPEZAR 35 CONOCER 36 PODER 37 MIRAR 38 PEDIR 39 ENTENDER 40 VIVIR 41 ENTRAR 42 SEGUIR 43 BUSCAR 44 SACAR 45 VOLVER 46 COMPRAR HABLA INFANTIL Frecuencia Frecuencia Absoluta Relativa Puesto Verbo TEXTOS PERIODÍSTICOS Frecuencia Frecuencia Absoluta Relativa Puesto verbo Frecuencia Frecuencia Absoluta Relativa 7404 2652 2404 2388 2220 1456 1392 964 886 865 731 645 624 591 557 526 511 489 459 388 318 308 302 294 270 251 250 234 221 200 14.77% 5.29% 4.79% 4.76% 4.42% 2.90% 2.77% 1.92% 1.76% 1.72% 1.45% 1.28% 1.24% 1.17% 1.11% 1.04% 1.01% 0.97% 0.91% 0.77% 0.63% 0.61% 0.60% 0.58% 0.53% 0.50% 0.49% 0.46% 0.44% 0.39% 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 SER TENER ESTAR SABER HACER IR DECIR HABER VER LLAMAR PONER JUGAR PASAR DAR VENIR COMER CAER COMPRAR CONTAR LLEVAR METER GUSTAR COGER TRABAJAR SALIR MIRAR ECHAR TIRAR DEJAR REGALAR 509 330 193 176 172 129 118 93 89 88 86 77 65 56 53 49 48 42 42 39 37 37 36 32 31 30 30 29 26 26 12.5 8.1 4.7 4.3 4.2 3.1 2.8 2.2 2.1 2.1 2.1 1.8 1.5 1.3 1.3 1.2 1.1 1 1 0.9 0.9 0.9 0.8 0.7 0.7 0.7 0.7 0.7 0.6 0.6 1 SER 2 TENER 3 HACER 4 DECIR 5 HABER 6 ESTAR 7 SEÑALAR 8 DAR 9 ASEGURAR 10 INFORMAR 11 PRESENTAR 12 CONSIDERAR 13 EXPLICAR 14 AFIRMAR 15 LLEGAR 16 MANTENER 17 INDICAR 18 ENCONTRAR 19 REALIZAR 20 DESTACAR 21 PEDIR 22 LLEVAR 23 RECIBIR 24 CELEBRAR 25 PRODUCIR 26 JUGAR 27 ANUNCIAR 28 RECORDAR 29 PERMITIR 30 CONTAR 98694 44153 33509 30579 23843 23038 14098 13927 12992 12275 11993 11742 11400 11160 10341 10002 9859 9532 9530 9167 8574 8068 8008 7933 7573 7087 7015 6881 6865 6856 5,98% 2,67% 2,03% 1,85% 1,44% 1,40% 0,85% 0,84% 0,79% 0,74% 0,73% 0,71% 0,69% 0,68% 0,63% 0,61% 0,60% 0,58% 0,58% 0,56% 0,52% 0,49% 0,49% 0,48% 0,46% 0,43% 0,42% 0,42% 0,42% 0,42% 198 194 181 172 171 169 169 163 160 156 156 155 151 150 147 144 0.39% 0.38% 0.36% 0.34% 0.34% 0.33% 0.33% 0.32% 0.31% 0.31% 0.31% 0.30% 0.30% 0.29% 0.29% 0.28% 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 SUBIR QUEDAR QUERER PINTAR LEER TRAER TOCAR PORTAR CORRER PARECER DORMIR HABLAR CUMPLIR VIVIR ENSEÑAR PICAR 25 25 25 24 23 22 22 22 21 21 21 20 19 18 18 18 0.6 0.6 0.6 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.4 0.4 0.4 0.4 0.4 31 CONOCER 32 AÑADIR 33 PONER 34 ESPERAR 35 PARTICIPAR 36 CONSEGUIR 37 LOGRAR 38 TRATAR 39 GANAR 40 MOSTRAR 41 IR 42 DECLARAR 43 MANIFESTAR 44 PREVER 45 AGREGAR 46 ABRIR 6627 6617 6607 6589 6398 6373 6261 6143 6079 6019 5987 5946 5864 5811 5552 5518 0,40% 0,40% 0,40% 0,40% 0,39% 0,39% 0,38% 0,37% 0,37% 0,36% 0,36% 0,36% 0,36% 0,35% 0,34% 0,33% 206 47 PAGAR 48 PREGUNTAR 49 TOMAR 50 CAMBIAR 51 SUBIR 52 PERDER 53 ESPERAR 54 ECHAR 55 ACORDAR 56 GANAR 57 TRAER 58 ABRIR 59 MANDAR 60 RECORDAR 61 SUPONER 62 QUITAR 63 SOBRAR 64 ACABAR 65 LEER 66 IMAGINAR 67 TRATAR 68 ESTUDIAR 69 INTENTAR 70 OCURRIR 71 ESCUCHAR 72 SENTAR 73 TOCAR 74 CASAR 75 EXPLICAR 76 UTILIZAR 77 TIRAR 78 CONSIDERAR 79 JUGAR 80 DORMIR 81 MANTENER 82 LEVANTAR 83 MORIR 84 TERMINAR 144 144 142 137 133 125 125 124 123 122 121 117 112 111 109 108 101 100 100 99 94 93 92 91 91 87 84 82 82 81 77 77 75 75 74 74 74 74 0.28% 0.28% 0.28% 0.27% 0.26% 0.24% 0.24% 0.24% 0.24% 0.24% 0.24% 0.23% 0.22% 0.22% 0.21% 0.21% 0.20% 0.19% 0.19% 0.19% 0.18% 0.18% 0.18% 0.18% 0.18% 0.17% 0.16% 0.16% 0.16% 0.16% 0.15% 0.15% 0.14% 0.14% 0.14% 0.14% 0.14% 0.14% 47 QUITAR 48 LEVANTAR 49 PILLAR 50 ACORDAR 51 SENTAR 52 ROMPER 53 PERDER 54 CREER 55 SACAR 56 LLEGAR 57 MATAR 58 PEGAR 59 ACOSTAR 60 ESCRIBIR 61 CANTAR 62 EMPEZAR 63 MORIR 64 LAVAR 65 LLORAR 66 BAJAR 67 PARAR 68 OLVIDAR 69 MONTAR 70 GUARDAR 71 PODER 72 CORTAR 73 PLANCHAR 74 ENCONTRAR 75 ACABAR 76 CERRAR 77 ABRIR 78 BEBER 79 MORDER 80 FALTAR 81 SALTAR 82 GANAR 83 PINCHAR 84 OÍR 18 17 17 17 16 16 15 15 15 15 13 13 13 13 12 12 12 12 12 11 11 11 11 10 10 10 10 10 10 10 10 9 9 9 9 9 8 8 0.4 0.4 0.4 0.4 0.3 0.3 0.3 0.3 0.3 0.3 0.3 0.3 0.3 0.3 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.1 0.1 47 SEGUIR 48 VER 49 DEJAR 50 TRABAJAR 51 PARTIR 52 QUEDAR 53 PASAR 54 INCLUIR 55 TOMAR 56 OFRECER 57 DECIDIR 58 SUPONER 59 RECONOCER 60 FORMAR 61 DIRIGIR 62 APROBAR 63 EXISTIR 64 AFECTAR 65 ACUSAR 66 REUNIR 67 INICIAR 68 CUMPLIR 69 OBTENER 70 REGISTRAR 71 SABER 72 SUFRIR 73 HABLAR 74 ENTRAR 75 PERDER 76 COMENZAR 77 FIRMAR 78 SUBRAYAR 79 ESTABLECER 80 DISPUTAR 81 CONFIRMAR 82 PRECISAR 83 ALCANZAR 84 EXPRESAR 5515 5502 5435 5426 5341 5164 4997 4926 4911 4890 4886 4837 4814 4811 4670 4643 4640 4570 4550 4539 4446 4371 4351 4337 4324 4323 4272 4269 4267 4250 4159 4153 4143 4141 4096 4029 3991 3984 0,33% 0,33% 0,33% 0,33% 0,32% 0,31% 0,30% 0,30% 0,30% 0,30% 0,30% 0,29% 0,29% 0,29% 0,28% 0,28% 0,28% 0,28% 0,28% 0,27% 0,27% 0,26% 0,26% 0,26% 0,26% 0,26% 0,26% 0,26% 0,26% 0,26% 0,25% 0,25% 0,25% 0,25% 0,25% 0,24% 0,24% 0,24% 85 CAER 86 PERMITIR 87 MOVER 88 NECESITAR 89 SALAR 90 CONSEGUIR 91 FIJAR 92 SERVIR 93 APARECER 73 70 70 70 69 69 69 69 69 0.14% 0.13% 0.13% 0.13% 0.13% 0.13% 0.13% 0.13% 0.13% 85 86 87 88 89 90 91 92 93 VESTIR ESCUCHAR TOMAR ANDAR VOLAR SEGUIR CONOCER SOÑAR CONVERTIR 8 8 8 8 7 7 7 7 7 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 85 DETENER 86 SALIR 87 BUSCAR 88 SITUAR 89 INTENTAR 90 CERRAR 91 VIVIR 92 CREAR 93 CONVERTIR 3919 3888 3869 3843 3820 3704 3678 3658 3627 0,24% 0,24% 0,23% 0,23% 0,23% 0,22% 0,22% 0,22% 0,22% 94 BAJAR 95 REALIZAR 68 68 0.13% 0.13% 94 95 ESCONDER BUSCAR 7 7 0.1 0.1 94 UNIR 95 OCURRIR 3619 3567 0,22% 0,22% 96 COSTAR 97 REFERIR 67 66 0.13% 0.13% 96 97 ENCENDER TERMINAR 7 7 0.1 0.1 96 CONCLUIR 97 DENUNCIAR 3529 3472 0,21% 0,21% 207 98 INTERESAR 99 APRENDER 100 ANDAR 66 66 65 0.13% 0.13% 0.12% 98 99 100 PISAR BAÑAR ESPERAR 7 6 6 0.1 0.1 0.1 98 UTILIZAR 99 INSISTIR 100 AYUDAR 3429 3410 3404 APÉNDICE 2: Los 100 verbos más significativos en los tres corpus puesto 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 HABLA ADULTA verbo Dunning SER IR CREER ESTAR DECIR VER SABER VENIR PASAR LLAMAR HACER COGER QUERER TENER HABLAR GUSTAR PONER VALER HABER METER QUEDAR SOBRAR DAR MIRAR IMAGINAR MANDAR ECHAR PARECER EMPEZAR PENSAR LLEVAR LECHAR LIAR PILLAR QUITAR TRAER SALIR COMER ANDAR DORMIR COSER JODER ENSEÑAR 4.806,5 3.052,8 2.693,4 2.465,4 2.087,0 1.691,0 1.690,3 1.557,6 1.084,1 1.080,0 1.046,9 821,2 706,9 661,0 609,5 603,7 593,4 573,2 559,9 444,2 429,9 415,8 374,0 368,6 333,3 308,0 282,3 268,5 257,3 247,7 234,1 232,8 226,5 215,2 213,2 205,6 202,7 197,7 193,7 175,8 173,6 172,9 137,4 puesto HABLA INFANTIL verbo Dunning 1 JUGAR 2 SABER 3 CAER 4 TENER 5 PORTAR 6 REGALAR 7 PICAR 8 PINTAR 9 COMPRAR 10 CANTAR 11 CORRER 12 TIRAR 13 ROMPER 14 MORDER 15 LLAMAR 16 PINCHAR 17 CUMPLIR 18 PLANCHAR 19 COMER 20 RAPAR 21 LAVAR 22 LLORAR 23 ECHAR 24 SOÑAR 25 CAZAR 26 METER 27 PILLAR 28 COLUMPIAR 29 ACOSTAR 30 DORMIR 31 TOCAR 32 CONTAR 33 ENSEÑAR 34 ESCONDER 35 PONER 36 LEER 37 BORRAR 38 ENCENDER 39 PISAR 40 GATEAR 41 BOTAR 42 GUIÑAR 43 BAÑAR 208 200,9 102,9 97,8 76,2 71,7 64,3 53,1 46,7 41,5 40,2 39,4 37,9 33,7 33,6 29,1 29,0 28,7 28,3 26,0 25,9 25,5 23,7 22,9 22,5 22,4 21,4 21,3 20,7 20,5 19,6 18,8 18,7 16,9 16,8 16,7 16,2 15,8 15,7 15,7 15,5 15,5 15,5 15,4 TEXTOS PERIODÍSTICOS puesto verbo Dunning 1 SEÑALAR 2 ASEGURAR 3 AFIRMAR 4 INFORMAR 5 DESTACAR 6 INDICAR 7 PRESENTAR 8 AGREGAR 9 CONSIDERAR 10 CELEBRAR 11 EXPLICAR 12 ANUNCIAR 13 DECLARAR 14 MANIFESTAR 15 LOGRAR 16 PREVER 17 RECIBIR 18 AÑADIR 19 MANTENER 20 PARTICIPAR 21 REALIZAR 22 PRECISAR 23 DISPUTAR 24 MOSTRAR 25 ALCANZAR 26 ACUSAR 27 INICIAR 28 SUBRAYAR 29 REUNIR 30 DETENER 31 PRODUCIR 32 CALIFICAR 33 ASISTIR 34 REGISTRAR 35 CONCLUIR 36 CONDENAR 37 OBTENER 38 SOLICITAR 39 CONFIRMAR 40 COMENZAR 41 PARTIR 42 OFRECER 43 INCLUIR 691,2 610,0 594,2 592,6 450,9 438,8 400,6 332,6 317,9 300,4 287,4 286,8 284,8 274,3 269,8 260,3 250,6 247,7 246,2 244,7 241,6 241,2 227,5 220,5 203,9 190,5 184,8 183,7 176,1 170,7 167,6 166,2 159,1 157,0 154,2 154,1 149,9 141,3 140,6 137,3 135,5 135,3 133,9 0,21% 0,21% 0,21% 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 REÍR ACOSTAR SENTAR ENROLLAR SACAR TIRAR MOLAR ENTERAR CAGAR CENAR DEJAR LEER CASAR ENTENDER APRENDER CURRAR TOCAR APETECER OÍR ENCANTAR FLIPAR SALAR ESCUCHAR COMPRAR LEVANTAR PERDONAR PREGUNTAR SUBIR ENAMORAR MOVER VOLVER UNIR SOLAPAR AGOBIAR DESAYUNAR DOLER AMAR PINTAR 128,8 128,6 128,1 123,5 122,7 121,9 119,1 118,7 116,6 111,4 107,6 103,0 101,8 101,1 100,2 95,3 85,6 85,3 78,0 75,8 73,2 72,9 70,3 67,8 67,6 64,7 64,0 64,0 62,5 59,8 57,4 57,4 55,1 54,3 53,6 51,2 50,8 50,1 44 PEGAR 45 PARAR 46 VOLAR 47 HUNDIR 48 SALTAR 49 MIRAR 50 DESPERTAR 51 COGER 52 SUBIR 53 LEVANTAR 54 MATAR 55 NADAR 56 TIRITAR 57 CERRAR 58 MONTAR 59 OLVIDAR 60 VESTIR 61 FALTAR 62 RASCAR 63 COLOREAR 64 RULAR 65 BEBER 66 TRAER 67 GUARDAR 68 QUEMAR 69 MERENDAR 70 DISFRAZAR 71 PEINAR 72 SENTAR 73 ESCRIBIR 74 QUITAR 75 BARRER 76 CHILLAR 77 SALUDAR 78 EMPUJAR 79 INVENTAR 80 CASTIGAR 81 GUSTAR 14,9 14,4 13,9 13,4 13,2 13,0 12,8 12,8 12,3 12,0 11,9 11,7 11,2 11,1 11,1 11,1 11,1 10,8 10,3 10,3 10,3 10,3 10,1 9,6 9,4 9,1 8,2 8,2 7,5 7,2 6,7 6,7 6,7 6,7 6,6 5,7 5,7 5,7 82 83 84 85 86 87 88 89 90 ABURRIR EXPERIENCIAR CUIDAR PODER PEGAR ADELGAZAR MOSQUEAR CABREAR COSTAR 49,7 49,3 48,4 46,9 44,4 43,6 43,4 43,0 42,7 82 TRABAJAR 83 SUJETAR 84 ESCAPAR 85 CHOCAR 86 CORTAR 87 MANCHAR 88 MORIR 89 CANSAR 90 BAJAR 5,3 5,1 5,0 5,0 4,7 4,4 4,2 3,8 3,8 82 PUBLICAR 83 CRITICAR 84 MARCAR 85 PRENSAR 86 DECIDIR 87 CERRAR 88 PROVOCAR 89 VIAJAR 90 CUMPLIR 83,8 83,7 83,6 82,0 82,0 81,4 81,0 80,9 80,8 91 92 DIBUJAR PLANCHAR 41,9 39,4 91 ACORDAR 92 FREGAR 3,7 3,3 91 EFECTUAR 92 REGRESAR 79,4 79,2 93 94 REGAR CAMBIAR 39,3 39,2 93 ENTERRAR 94 ESTIRAR 3,3 3,3 93 IMPULSAR 94 VOTAR 78,5 77,4 209 44 AFECTAR 45 EXPRESAR 46 SUFRIR 47 DIRIGIR 48 PERMITIR 49 ADVERTIR 50 JUGAR 51 CONVOCAR 52 APROBAR 53 REITERAR 54 DESTINAR 55 RECHAZAR 56 FORMAR 57 GARANTIZAR 58 EVITAR 59 CONTINUAR 60 PRESIDIR 61 DEMOSTRAR 62 CONSEGUIR 63 DENUNCIAR 64 NEGOCIAR 65 TRASLADAR 66 CAUSAR 67 RECONOCER 68 SITUAR 69 RETIRAR 70 FIGURAR 71 REPRESENTAR 72 ACUDIR 73 AUMENTAR 74 EMITIR 75 INTEGRAR 76 INAUGURAR 77 FALLECER 78 ABANDONAR 79 CONCEDER 80 SOSTENER 81 PRETENDER 129,5 127,6 127,2 125,0 121,7 120,5 119,9 118,1 117,8 113,0 110,1 109,0 109,0 108,1 106,5 106,1 105,7 105,3 104,6 102,4 100,8 100,1 99,3 99,1 95,6 95,3 94,3 93,5 92,0 91,7 91,3 91,2 91,2 90,0 87,0 86,5 86,0 84,1 95 96 97 98 99 100 ACABAR MAMAR TRABAJAR OLER ENTRABAR CLOCAR 37,9 37,8 36,9 36,1 35,2 35,2 95 ALCANZAR 96 DESAYUNAR 97 GRITAR 98 CHUPAR 99 FELICITAR 100 DISPARAR 210 3,3 3,2 2,8 2,8 2,8 2,8 95 AFRONTAR 96 FIRMAR 97 ADMITIR 98 RECUPERAR 99 DEFENDER 100 PROPONER 76,9 76,7 75,1 74,4 74,4 74,2