Download Información sobre la LIFCACH · Information on the
Document related concepts
no text concepts found
Transcript
LIFCACH Lista de Frecuencias de Palabras del Castellano de Chile Word Frequency List of Chilean Spanish Copyright © 2006 Scott Sadowsky & Ricardo Martínez Gamboa Todos los derechos reservados. All Rights Reserved. Inscripción Nº 154.198 (Chile). La LIFCACH puede utilizarse libre y gratuitamente para fines académicos que no tengan fines de lucro, siempre que se cite la fuente. Se prohíbe expresamente todo uso o aplicación comercial de la LIFCACH que no cuente con el consentimiento escrito previo de los autores. The LIFCACH may be freely used for non-profit academic purposes if properly cited. All commercial use or application of the LIFCACH is expressly prohibited without express written consent from the authors. Contacto / Contact: ssadowsky@udec.cl ssadowsky@gmail.com ricardomartinezg@gmail.com CONTENIDOS DEL ARCHIVO ZIP / CONTENTS OF THE ZIP FILE 1. INFORMACIÓN SOBRE LA LIFCACH INFORMATION ABOUT THE LIFCACH README.rtf README.txt El presente archivo. This file. 2. LISTA DE FRECUENCIAS, POR FUENTE, EN FORMATO CSV FREQUENCY LIST, BY SOURCE, IN CSV FORMAT Sadowsky_&_Martinez_-_LIFCACH--04_No_Hapax_Logomena.csv.txt Este archivo contiene la lista no ponderada de las frecuencias totales (la columna Total Occurrences), además de las listas de frecuencias correspondientes a cada una de las 102 fuentes individuales utilizadas. This file contains a non-weighted list of total frequencies (the Total Occurrences column) plus individual frequency lists for each of the 102 sources used. ADVERTENCIA – WARNING ¡La lista de frecuencias NO DEBE ABRIRSE en Microsoft Excel! La LIFCACH contiene 477.293 filas, pero la última versión de Excel que hemos probado (Excel 2002) sólo puede procesar las primeras 65.000 filas (aproximadamente). Sugerimos utilizar Microsoft Access, Quattro Pro, o un software estadístico adecuado. DO NOT open the frequency list in Microsoft Excel! The LIFCACH contains 477,293 rows, while the latest tested version of Excel (Excel 2002) can only open the first 65,000 or so rows. We suggest using Microsoft Access, Quattro Pro, or a suitable statistics package. NOTAS / NOTES 1. Descripción La Lista de Frecuencias de Palabras del Castellano de Chile (LIFCACH) es un conjunto de 102 listas de frecuencias léxicas derivadas de los distintos subcorpora del Corpus Dinámico del Castellano de Chile (CODICACH), un corpus del español escrito1 contemporáneo de Chile desarrollado por Sadowsky entre 1997 y 2002; este corpus contenía aproximadamente 450 millones de palabras a la hora de elaborar la LIFCACH (actualmente contiene alrededor de 830 millones de palabras). La LIFCACH también contempla una lista no ponderada de frecuencias totales (la columna titulada Total Occurrences), la cual es simplemente la suma de las frecuencias de las 102 listas individuales (en otras palabras, es la lista de las frecuencias del CODICACH en su totalidad). Aunque podría existir la tentación de interpretar la lista Total Occurrences como una lista representativa del castellano de Chile en general, recomendamos encarecidamente no hacerlo. El CODICACH es un corpus oportunista que privilegia, entre otras cosas, los medios de prensa escritos; tal como está estructurado, no pretende ser una muestra representativa de la variante lingüística nacional, al estilo del BNC. Sin embargo, la naturaleza modular del CODICACH y de las 102 listas individuales de la LIFCACH permite a los investigadores utilizar una o más de estas listas de manera independiente; combinarlas según sus propias necesidades; o ponderar las listas individuales de la LIFCACH para así crear una nueva lista de frecuencias que sea representativa según los criterios del investigador. La LIFCACH contiene 477.293 lemas, derivados de aproximadamente 4,5 millones de types extraídos de los 450 millones de palabras de texto corrido que contemplaba el CODICACH al momento de elaborar la LIFCACH. Description The Word Frequency List of Chilean Spanish (LIFCACH) is a set of 102 frequency lists derived from the sub-corpora of the Corpus Dinámico del Castellano de Chile (Dynamic Corpus of Chilean Spanish, CODICACH), a corpus of contemporary written1 Chilean Spanish developed by Sadowsky between 1997 and 2002; this corpus contained approximately 450 million words 1 Although the CODICACH contains two sub-corpora of oral texts, ORAL_Entrevistas_Lgtcas and ORAL_TV, these are so small as to be of negligible impact on the overall corpus. when the LIFCACH was created (it currently contains some 830 million words). The LIFCACH also contains a non-weighted list of total frequencies (the Total Occurrences column), which is simply the sum of the frequencies of the 102 individual lists (in other words, the list of frequencies of the entire CODICACH corpus.) While it may be tempting to take the Total Occurrences list as being representative of Chilean Spanish as a whole, we strongly advise against this. The CODICACH is an opportunistic corpus with a bias toward press-based sources; it does not seek to be a BNC-style representative sampling of the language in general. The modular nature of the CODICACH and of the 102 individual LIFCACH lists, however, allows researchers to use one or more of these lists alone, to combine them as needed, or to create their own frequency lists for Chilean Spanish by weighting each of the LIFCACH’s individual lists as they see fit. The LIFCACH contains 477,293 lemmas derived from the approximately 4.5 million types found in the 450 million running words contained in the CODICACH at the time the lists were created. 2. Elaboración de la LIFCACH A continuación se presentan los pasos de la creación de la LIFCACH: i. Se generaron listas de frecuencias de types en base a las palabras de texto corrido de cada uno de los 102 subcorpora del CODICACH. ii. Se lematizó y etiquetó con categorías gramaticales (POS) cada una de las listas de frecuencias de types con el programa MS-Tools v2.0 de la Universitat Politecnica de Catalunya (para más información sobre MS-Tools, comuníquese con Lluís Padró <padro@lsi.upc.es>). iii. Se eliminaron los aproximadamente 300.000 lemas con una frecuencia de 1 (hápax legómenos). La eliminación de estos lemas representa un intento de establecer un equilibrio entre la completitud de las listas y el tamaño y procesabilidad de los archivos. iv. Las listas de frecuencias de lemas resultantes se incorporaron en un archivo CSV, y luego se calcularon las frecuencias totales. Es preciso hacer una advertencia respecto de esta metodología. La utilización de listas de frecuencias de types en vez de palabras de texto corrido en el proceso de lematización y etiquetado POS surgió de una necesidad práctica relacionada con la velocidad del software y los recursos computacionales disponibles en el momento de la elaboración de la LIFCACH. En consecuencia, el software debió analizar palabras como canto sin disponer de la información necesaria para determinar si una instancia dada de esta palabra correspondía al verbo cantar o al sustantivo canto. La eliminación del contexto redujo la precisión del etiquetado y lematización, aunque mucho menos de lo que sucedería en el caso del inglés, gracias a la compleja morfología del castellano. También debe notarse que el software de etiquetado POS y lematización que se utilizó está basado en el castellano de España, un dialecto nacional que es un tanto alejado del castellano de Chile. Los autores están preparando un nuevo conjunto de listas de frecuencia, LIFCACH II, para subsanar estas deficiencias. Creation of the LIFCACH The steps in creating the LIFCACH were as follows: i. Type frequency lists based on the running words of each of the 102 sub-corpora of the CODICACH were generated. ii. Each type frequency list was lemmatized and POS-tagged using the Universitat Politecnica de Catalunya’s MS-Tools v2.0 (For more information on MS-Tools, contact Lluís Padró <padro@lsi.upc.es>). iii. Lemmas with a frequency of 1 were removed (approximately 300,000). Eliminating these was considered an acceptable trade-off in exchange for a far more manageable file size. iv. The resulting lemma frequency lists were assembled in the attached CSV file and total occurrences were calculated. An important caveat regarding this methodology must be mentioned. The use of type frequency lists instead of running words in the POS tagging and lemmatizing process was a practical necessity, due to the speed of the software used and the computing resources available at the time the LIFCACH was created. As a result, the software had to analyze words such as canto without the information required to decide if a given instance of this word was a form of the verb cantar or the noun canto. This elimination of context reduced the accuracy of the lemmatization process, though far less so than would happen with English, thanks to Spanish's rich morphology. It should also be noted that the lemmatizing and tagging software that was used is based on European Spanish, a national dialect that is somewhat removed from Chilean Spanish. The authors plan to create a new set of frequency lists, LIFCACH II, which will address these issues. 3. Lista de categorías gramaticales / Part of Speech List A continuación se presentan los códigos de categoría gramatical que se utilizan en las listas de frecuencias. The following are the POS codes used in the frequency lists. CÓDIGO/CODE CATEGORÍA GRAMATICAL PART OF SPEECH AJ AV C D I N NG NP PN PP SG V Adjetivo Adverbio Conjunción Determinante Interjección Sustantivo Nombre geográfico Nombre propio Pronombre Preposición Sigla Verbo Adjective Adverb Conjunction Determiner Interjection Common noun Toponym Proper noun Pronoun Preposition Abbreviation Verb 4. Listado de fuentes / List of Sources Cada una de las listas de frecuencias de la LIFCACH se elaboró en base a un subcorpus distinto del CODICACH. A continuación se presentan los códigos que se utilizan para señalar estas listas y subcorpora. Each frequency list in the LIFCACH is derived from a different sub-corpus of the CODICACH. The codes used to indicate these lists and sub-corpora are as follows. CÓDIGO/CODE DESCRIPCIÓN/DESCRIPTION ACAD_CCAA ACAD_CCNN ACAD_CCSS ACAD_Hum DIAR_CEN_Estrella_Valpo DIAR_CEN_Gran_Valpo DIAR_CEN_Lider_San_Antonio DIAR_CEN_Mercurio_Valpo DIAR_NOR_Estrella_Arica DIAR_NOR_Estrella_Iquique DIAR_NOR_Estrella_Loa DIAR_NOR_Estrella_Norte_Antofagasta DIAR_NOR_Mercurio_Antofagasta DIAR_NOR_Mercurio_Calama DIAR_NOR_Nortino_Iquique DIAR_SAN_Cuarta DIAR_SAN_Estrategia DIAR_SAN_Firme DIAR_SAN_Mercurio DIAR_SAN_Metropolitano DIAR_SAN_Mostrador DIAR_SAN_Primera_Linea DIAR_SAN_Primera_Pagina-El_Area DIAR_SAN_Segunda DIAR_SAN_Tercera DIAR_SAN_Ultimas_Noticias DIAR_SUR_Austral_Osorno DIAR_SUR_Austral_Temuco DIAR_SUR_Austral_Valdivia DIAR_SUR_Cronica DIAR_SUR_El_Sur DIAR_SUR_Enc_BioBio DIAR_SUR_Llanquihue_Pto_Montt ESPER_CartasDirector ESPER_ForosInet ESPER_Clasificados ESPER_ForosMedios ESPER_Usenet LEX_Jurisprudencia LEX_Leyes LEX_Libros LEX_Misc LIBR_Ficcion LIBR_NoFiccion OBRC_CandiaCares_DicoCoa Academic Texts - Applied Sciences Academic Texts - Natural Sciences Academic Texts - Social Sciences Academic Texts - Humanities Newspaper – Central Chile – Estrella de Valparaíso Newspaper – Central Chile – Gran Valparaíso Newspaper – Central Chile – El Líder, San Antonio Newspaper – Central Chile – El Mercurio, Valparaíso Newspaper – North Chile – La Estrella, Arica Newspaper – North Chile – La Estrella, Iquique Newspaper – North Chile – La Estrella, Loa Newspaper – North Chile – La Estrella, Antofagasta Newspaper – North Chile – El Mercurio, Antofagasta Newspaper – North Chile – El Mercurio, Calama Newspaper – North Chile – El Nortino, Iquique Newspaper – Santiago – La Cuarta Newspaper – Santiago – Estrategia Newspaper – Santiago – La Firme Newspaper – Santiago – El Mercurio Newspaper – Santiago – El Metropolitano Newspaper – Santiago – El Mostrador Newspaper – Santiago – Primera Línea Newspaper – Santiago – Primera Página / El Área Newspaper – Santiago – La Segunda Newspaper – Santiago – La Tercera Newspaper – Santiago – Las Últimas Noticias Newspaper – South Chile – Austral, Osorno Newspaper – South Chile – Austral, Temuco Newspaper – South Chile – Austral, Valdivia Newspaper – South Chile – Crónica Newspaper – South Chile – El Sur Newspaper – South Chile – Enciclop. Bío-Bío Newspaper – South Chile – El Llanquihue, Pto. Montt Personal Writings – Letters to Editor Personal Writings – Internet Site Forums Personal Writings – Classified Ads Personal Writings – Media Forums Personal Writings – Usenet Legal – Jurisprudence Legal – Laws Legal – Law Books Legal – Miscellaneous Books – Fiction Books – Non-Fiction Reference Works – Dictionary of Coa OBRC_GonzalezParra_ManualProvrb ORAL_Entrevistas_Lgtcas ORAL_TV PUB_Misc PUB_Publicidad REV_CMP_ChileTech REV_CMP_CompuChile REV_CMP_ComputerWorld REV_CMP_Informatica REV_CMP_Infoweek REV_CMP_Internet21 REV_CMP_Mouse REV_DEP_All REV_ESP_Capital REV_ESP_CiudadArquitectura REV_ESP_Conicyt REV_ESP_CopropInmob REV_ESP_DiarioSocCivil REV_ESP_Educar REV_ESP_LemuChile REV_ESP_Lignum REV_ESP_Mensaje REV_ESP_Notas_CESAF REV_ESP_Publimark REV_ESP_Rev_Inf_Musical REV_ESP_Rev_Scielo REV_ESP_Rev_Social REV_ESP_Rev_Trabajo_Social REV_ESP_RevChil_Cirujia REV_ESP_Revistas_Industriales REV_ESP_Sidhartha REV_GEN_Asuntos_Publicos REV_GEN_Cosas REV_GEN_Cultura_Urbana REV_GEN_El_Siglo REV_GEN_Ercilla REV_GEN_Hacer_Familia REV_GEN_Man REV_GEN_Mujer_a_mujer REV_GEN_Nos REV_GEN_Puerto_Paralelo REV_GEN_Punto_Final REV_GEN_Que_Pasa REV_GEN_Revista_ED REV_GEN_Rocinante REV_INF_Dirigible REV_INF_Icarito REV_INF_Papas_Fritas REV_INF_Volare REV_JUV_All REV_LOC_All RVDI_ECN_Diario_PyME RVDI_ECN_El_Diario RVDI_ECN_Emprendedores Reference Works – Book of Chilean Proverbs Oral – Linguistic Interviews Oral – Television Advertising – General 1 Advertising – General 2 Magazine – Computers – ChileTech Magazine – Computers – CompuChile Magazine – Computers – ComputerWorld Magazine – Computers – Informática Magazine – Computers – Infoweek Magazine – Computers – Internet21 Magazine – Computers – Mouse Magazine – Sports Magazine – Specialty – Capital Magazine – Specialty – CiudadArquitectura Magazine – Specialty – Conicyt Scientific Magazine – Specialty – Copropiedad Inmobiliaria Magazine – Specialty – Diario de la Sociedad Civil Magazine – Specialty – Educar Magazine – Specialty – LemuChile Magazine – Specialty – Lignum Magazine – Specialty – Mensaje Magazine – Specialty – Notas CESAF Magazine – Specialty – Publimark Magazine – Specialty – Revista Musical Magazine – Specialty – Scielo Scientific Magazine – Specialty – Revista Social Magazine – Specialty – Revista de Trabajo Social Magazine – Specialty – Revista Chilena de Cirujía Magazine – Specialty – Industrial Magazines Magazine – Specialty – Siddhartha Magazine – General – Asuntos Públicos Magazine – General – Cosas Magazine – General – Cultura Urbana Magazine – General – El Siglo Magazine – General – Ercilla Magazine – General – Hacer Familia Magazine – General – Man Magazine – General – Mujer a mujer Magazine – General – Nos Magazine – General – Puerto Paralelo Magazine – General – Punto Final Magazine – General – Qué Pasa Magazine – General – Revista ED Magazine – General – Rocinante Magazine – Children’s – Dirigible Magazine – Children’s – Icarito Magazine – Children’s – Papas Fritas Magazine – Children’s – Volare Magazines – Youth Magazines – Local Financial Mags & Newspapers – Diario PyME Financial Mags & Newspapers – El Diario Financial Mags & Newspapers – Emprendedores RVDI_ECN_Negocios_Ambientales SIT_INS_All SIT_INS_Old SANTIAGO, 13 MAY 2008 Financial Mags & Newspapers – Negoc. Ambientales Government Sites 1 Government Sites 2