Download 4.3 Transformaciones lineales. Puntuaciones típicas
Document related concepts
Transcript
Tema 4: Medidas de posición individual. 1. Introducción. 2. Cuantiles: Rangos Percentiles, Percentiles, Deciles y Cuartiles. 3. Transformaciones lineales: Puntuaciones típicas-- Introducción, cálculo y principales características. 4. Escalas derivadas –basadas en transformaciones lineales (Inciso final: El caso de las transformaciones no lineales) 4.1 Introducción En este tema vamos a ver índices estadísticos que permiten conocer diversos puntos característicos de la distribución que no sean necesariamente valores centrales. En particular, veremos índices que nos proporcionarán información de unos datos dentro del conjunto de datos. Como veremos, una persona con una puntuación con un percentil muy alto en un test de inteligencia querrá indicar que dicha persona está muy por encima de la mayoría de personas en inteligencia. De la misma manera, si sabemos que una persona tienes una puntuación típica positiva elevada en un test de inteligencia proporciona información sobre la inteligencia de dicha persona (una alta inteligencia en relación al grupo). 4.2 Medidas de posición individual: centiles Los centiles dividen la distribución (ordenada) de datos en 100 partes. Cada parte contiene 1/100 de las puntuaciones. El Centil 60, por ejemplo, es aquella puntuación que deja por debajo de sí el 60% de los datos. El Centil 15 es aquella puntuación que deja por debajo de sí el 15% de los datos. Los centiles son cuantiles que dividen la distribución en 100 partes. Hay otros cuantiles. Uno de ellos es la mediana, que divide la distribución en dos partes (Mediana=Centil 50) Otros cuantiles son los deciles (Decil 1=Centil 10) y los cuartiles (Cuartil 1=Centil 25, Cuartil 2= Mediana, Cuartil 3=Centil 75) Medidas de posición individual: centiles Cálculo de centiles Centil k: Mediana (Centil 50): Posición de Orden = ( N 1) k 100 Posición de Orden = ( N 1) 50 100 NOTA: el cálculo lo veremos con datos individuales, y no con datos agrupados Rango percentil (RP) Se trata de una medida inversa del percentil. Se puede emplear, por ejemplo, para indicar la posición del resultado de una prueba de aptitud entre los resultados de la prueba. Pensemos que una puntuación tiene un rango percentil de 78. Eso significa que el 78% de las otras personas tienen una calificación inferior. Cálculo (datos sin agrupar): Para calcular el rango percentil de una medida cualquiera se cuentan los inferiores a él, se divide ese número entre el número total. (Y se multiplica por 100 y se redondea.) Ejemplo en Excel –página de Microsoft Función RANGO.PERCENTIL(matriz;x) Observad: Expresado en proporción, más que en porcentaje 4.3 Transformaciones lineales. Puntuaciones típicas Con la forma y=a+bx Que se emplea por ejemplo, para pasar de grados Celsius a grados Fahrenheit. Pero fijaros que esta transformación no cambia la forma de la distribución. (Puede cambiar la media y la desv.típica, pero no la forma de la distribución.) Puntuaciones típicas Indican el número de desviaciones típicas en que una observación se separa de la media del grupo de datos. zi Xi X sx La media de las puntuaciones típicas es 0 La varianza (y desv.típica) es 1 Observad que las puntuaciones z son abstractas (ello permite la comparación de variables con escalas diferentes). Puntuaciones típicas (ejemplo) Si tenemos dos estudiantes A y B que han hecho un examen, y sabemos que la puntuación típica de A para el grupo de estudiantes es de 1 y la puntuación típica de B es de 0, ¿quién tendrá mejor nota? Evidentemente es A; su puntuación está 1 desv.típica sobre la media del grupo; la de B corresponde a la de la media del grupo. Puntuaciones típicas y observaciones atípicas En muchos casos, se suele indicar que si z>3, tales valores se suelen considerar atípicos. (Que es un criterio que no tiene por qué coincidir con las puntuaciones atípicas en los diagramas de caja y bigotes.) 4.4 Escalas derivadas (sobre las puntuaciones típicas) Un pequeño inconveniente de las puntuaciones típicas es que conllevan el uso de valores muy pequeños (con decimales, habitualmente), así como valores negativos. Por ello, a veces se efectúan transformaciones lineales sobre las puntuaciones típicas. El ejemplo que vamos a ver son las puntuaciones T (con media 50 y desv.típica 10) y con las escalas de CI (con media 100 y desv.típica 15). Puntuaciones T De manera genérica Ti a zi b Observad que la nueva media viene dada por b, y que la desv.típica viene dada por el valor absoluto de a En el caso de las puntuaciones T, a=10 y b=50 Escala de CI En el caso de la escala de CI: CI 15 z 100 INCISO: Transformaciones no lineales ¿Porqué hacemos transformaciones (no lineales) en los datos? -Para hacer la distribución más simétrica -Para hacer lineal la relación entre variables (caso de tener más de una variable; estadística bi/multivariada) Una familia de transformaciones especialmente útiles es la “escalera de potencias” de Tukey Corrigen asimetría negativa Corrigen asimetría positiva Ejemplo. Datos de TR de un participante Histograma 300 Descriptivos TR_S6 Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Des v. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtos is 200 100 Límite inferior Límite s uperior Estadístico 445.0208 429.0520 460.9896 414.7789 386.0000 63565.691 252.12237 2.00 2001.00 1999.00 189.0000 2.875 12.113 Desv. típ. = 252.12 Media = 445.0 N = 960.00 .0 -8 .0 08 20 0 . 40 18 0 . 72 16 0 . 04 15 .0 36 13 0 . 68 11 0 . 00 10 0 2. 83 0 4. 66 0 6. 49 0 8. 32 0 0. 16 0 Error típ. 8.13721 TR_S6 Observad no sólo que hay algunas puntuaciones atípicas a ambos lados, sino que hay una clara asimetría positiva. .079 .158 Ejemplo. Datos (transformados; raiz cuadrad) de TR de un participante (cont.) Descriptivos Histograma RAIZ_S6 300 Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Des v. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtos is 200 Límite inferior Límite s uperior Estadístico 20.4522 20.1246 Error típ. .16695 20.7798 20.1056 19.6469 26.757 5.17273 1.41 44.73 43.32 4.7436 1.229 4.898 .079 .158 100 Desv. típ. = 5.17 Media = 20.5 N = 960.00 0 .0 42 .0 38 .0 34 .0 30 .0 26 .0 22 .0 18 .0 14 .0 10 0 6. 0 2. RAIZ_S6 HEMOS EFECTUADO LA RAIZ PARA HACER MÁS SIMETRICA LA DISTRIBUCIÓN. Observad no sólo que aún queda algo de asimetría positiva. Con el logaritmo, podremos reducir más la asimetría positiva, es lo que haremos ahora Ejemplo. Datos (transformados; logaritmo) de TR de un participante (cont.) Descriptivos Histograma LOGX_S6 300 Media Intervalo de confianza para la media al 95% Límite inferior Límite s uperior Estadís tico 2.5906 2.5742 Media recortada al 5% Mediana Varianza Des v. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis 200 Error típ. .00833 2.6069 2.5958 2.5866 .067 .25807 .30 3.30 3.00 .2078 -3.424 29.305 .079 .158 100 Desv. típ. = .26 Media = 2.59 N = 960.00 0 25 3. 00 3. 75 2. 50 2. 25 2. 00 2. 75 1. 50 1. 25 1. 00 1. 5 .7 0 .5 5 .2 Nota: Si algún valor fuera 0, emplear log(1+x) LOGX_S6 Observad no sólo que la asimetría positiva ha desaparecido (si acaso hay cierta asimetría negativa causada por unas pocas puntuaciones atípicas). Ejemplo. Datos (transformados; cuadrado) de TR de un participante (cont.) Nota: Emplear el cuadrado no lo debéis hacer para corregir la asimetría positiva...sólo la negativa! Lo que hemos hecho es aumentar la asimetría positiva y eso no es lo que queríamos...(y si empleamos el cubo, aún peor para nuestros fines). Histograma Descriptivos 700 CUADR_S6 600 Media Intervalo de confianza para la media al 95% Límite inferior Límite s uperior Estadís tico 261543.02 234015.68 Error típ. 14027.10 289070.36 500 Media recortada al 5% Mediana Varianza Des v. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Desv. típ. = 434613.6 Curtosis 400 300 200 100 N = 960.00 0 0. 00 16 .0 40 00 0 80 .0 36 00 0 44 .0 33 000 08 .0 30 00 0 72 .0 26 00 0 36 .0 23 00 0 00 .0 20 000 64 .0 16 00 0 28 13 0.0 0 20 99 0.0 0 60 0 65 00. 00 32 0.0 0 60 -1 0 Media = 261543.0 CUADR_S6 191389.16 148996.00 1.89E+11 434613.65 4.00 4004001 4003997 152145.00 5.818 42.074 .079 .158 Esta familia de transformaciones (“escalera de Tukey”) tiene importantes propiedades: 1. Preservan el orden de los valores; es decir, los valores mayores de la escala original seguirán siendo los valores mayores en la escala transformada. 2. Modifican la distancia entre los valores. Con potencias p<1 (raíz x o log x) se comprimen los datos en la parte superior de la distribución en relación a los valores menores; Con potencias p>1 (como el cuadrado de x) se tiene el efecto contrario. 3. El efecto sobre la forma de la distribución cambia sistemáticamente con p. Si raíz x hace menos pronunciada la asimetría positiva de una distribución, el log x provocará que la distribución resultante sea aún menos asimétrica positiva (en relación a raíz x). En definitiva, las transformaciones de potencia pueden hacer que la variable transformada tenga menos asimetría. ¿Por qué es eso importante? – Las distribuciones que muestran una clara asimetría son difíciles de estudiar. – Los valores originales aparentemente atípicos se encontrarán más cercanos al grueso de los datos. – Los métodos estadísticos suelen emplear la media aritmética; pero la media de una distribución asimétrica no es un buen índice del grueso de los datos.