Download Estadística II
Document related concepts
no text concepts found
Transcript
Universidad Panamericana Estadística II Prof. Andrés Sandoval H Estadística II 7. ANÁLISIS DE REGRESIÓN Y CORRELACIÓN 7.1. Análisis de correlación Empezaremos este tema estudiando el análisis de correlación, que está diseñado para conocer la magnitud de la relación entre dos variables. Una vez conociendo estos principios, desarrollaremos un modelos matemático que nos permitirá estimar el valor de una variable basándonos en el valor de otra. A esto se le llama regresión. Para saber lo que es una correlación, daremos un ejemplo. Ejercicio. Juan Manuel Huerta tiene una comercializadora de fotocopiadoras y quiere saber si existe alguna relación entre el número de llamadas hechas en un mes y el número de fotocopiadoras vendidas. Para ello, toma una muestra aleatoria de 10 representantes de ventas y determina el número de llamadas hechas por cada uno el mes pasado, así como el número de fotocopiadoras que vendió. Representante de Ventas Llamadas Copiadoras vendidas José López Juan Sánchez Pedro Flores Enrique Pieck Javier Mendoza Héctor Moreno Montserrat Luna Ma José Ibáñez Arturo Cázares Gerardo Luenga 20 40 20 30 10 10 20 20 20 30 30 60 40 60 30 40 40 50 30 70 A simple vista parece haber una relación entre el número de llamadas hechas y el número de copiadoras vendidas. Sin embargo, la relación no es perfecta; por ejemplo, Gerardo Luenga hizo menos llamadas que Juan Sánchez, pero vendió más unidades. 1 Universidad Panamericana Estadística II Prof. Andrés Sandoval H Los cálculos de correlación se utilizan para saber con exactitud cuál es la relación entre dos variables, en este caso, entre las llamadas hechas y el número de unidades vendidas. Una manera gráfica de representar la correlación entre dos variables es una gráfica de dispersión. Copiadoras vendidas Relación entre llamadas realizadas y copiadoras vendidas 80 60 40 20 0 0 10 20 30 40 50 Llamadas realizadas Como se aprecia en la gráfica, el número de copiadoras vendidas se relaciona con el número de llamadas hechas; es decir, conforme aumenta el número de llamadas, aumenta también el número de ventas. En este caso, al número de llamadas realizadas se le llama variable independiente y al número de copiadoras vendidas se le llama variable dependiente. Variable independiente. Es la variable que se va a medir o a estimar. Variable independiente. Es la variable que da la base para la predicción o estimación. Es la variable predictora. Ahora bien, para calcular la magnitud de la relación entre la variable dependiente y la independiente, se utiliza el coeficiente de correlación de Pearson. Es importante mencionar que para su utilización es necesario que se cuente con datos del nivel de razón o de intervalo. Este coeficiente puede tomar cualquier valor desde –1 hasta +1 inclusive. Un coeficiente de correlación de 1 (ya sea positivo o negativo) indica una correlación perfecta. Si no existe absolutamente ninguna correlación entre las variables entonces el coeficiente de correlación es cero. 2 Universidad Panamericana Estadística II Prof. Andrés Sandoval H Copiadoras vendidas Relación entre llamadas realizadas y copiadoras vendidas (Correlación positiva perfecta) 60 50 40 30 20 10 0 0 10 20 30 40 50 60 Llamadas realizadas Copiadoras vendidas Relación entre llamadas realizadas y copiadoras vendidas (Correlación negativa perfecta) 60 50 40 30 20 10 0 0 10 20 30 40 50 60 Llamadas realizadas Copiadoras vendidas Relación entre llamadas realizadas y copiadoras vendidas (Sin correlación) 60 50 40 30 20 10 0 0 5 10 15 20 25 30 Llamadas realizadas 3 Universidad Panamericana Estadística II Prof. Andrés Sandoval H En el siguiente diagrama se resume la magnitud y la dirección de la correlación, según el coeficiente de correlación de Pearson. Correlación negativa perfecta Correlación negativa fuerte - 1.00 Ninguna correlación Correlación negativa moderada Correlación negativa débil - 0.50 Correlación positiva perfecta Correlación positiva débil 0 Correlación negativa Correlación positiva moderada + 0.50 Correlación positiva fuerte + 1.00 Correlación positiva Para determinar el valor numérico del coeficiente de correlación de Pearson se utiliza la siguiente fórmula: Donde: n = número de pares de observaciones ΣX = suma de las variables X ΣY = suma de las variables Y ΣXY = suma de los productos de las variables X y Y 4 Universidad Panamericana Estadística II Prof. Andrés Sandoval H Luego entonces... Llamadas (X) Copiadoras vendidas (Y) X2 Y2 XY Javier Mendoza 10 30 100 900 300 Héctor Moreno 10 40 100 1,600 400 José López 20 30 400 900 600 Pedro Flores 20 40 400 1,600 800 Montserrat Luna 20 40 400 1,600 800 Ma José Ibáñez 20 50 400 2,500 1,000 Arturo Cázares 20 30 400 900 600 Enrique Pieck 30 60 900 3,600 1,800 Gerardo Luenga 30 70 900 4,900 2,100 Juan Sánchez 40 60 1,600 3,600 2,400 220 450 5,600 22,100 10,800 Representante de Ventas TOTAL r = 0.759 De acuerdo con el diagrama que se presenta anteriormente, esta correlación se puede interpretar como positiva y como fuerte. Esto quiere decir que hay una fuerte correlación entre el número de llamadas y el número de unidades vendidas. Sin embargo “fuerte” (o débil, o moderado) no tienen un significado preciso. Una medición que posibilita una mejor interpretación es el coeficiente de determinación. 5 Universidad Panamericana Estadística II Prof. Andrés Sandoval H Se calcula elevando al cuadrado el coeficiente de correlación. En este ejemplo, el coeficiente de determinación es r2 = 0.576, que es (0.759) 2. éste es una proporción o un porcentaje (si se multiplica por 100); podemos decir entonces que 57.6% de la variación en el número de copiadoras vendidas, se explica, o se debe a, la variación en el número de llamadas realizadas. Coeficiente de determinación. Es la proporción de la variación total de la variable dependiente (Y) que se explica por, o que se debe a, la variación en la variable dependiente (X). Prueba de la significancia del coeficiente de correlación Una vez que se ha determinado el coeficiente de correlación entre el número de llamadas realizadas y el número de copiadoras vendidas, dado que sólo se tomó una muestra de los vendedores de la compañía, queda una pregunta obvia: ¿podría ser que si se toman los datos de la población la correlación fuera cero?; es decir, ¿la correlación encontrada se puede generalizar para toda la población, para todos los vendedores de la compañía?, o ¿la correlación encontrada se debe a la casualidad? Para responder a estas interrogantes se puede aplicar una prueba basada en t. Los pasos a seguir serían los mismos que hemos estado realizando en otras pruebas de hipótesis. Paso 1 H0: ρ = 0 H1: ρ ≠ 0 Donde ρ (que se lee “ro”) representa la correlación de la población. Paso 2, inciso c) α = 0.05 Paso 3, inciso c) La estadística de prueba adecuada, como ya se dijo es t, y la fórmula es como sigue: 6 Universidad Panamericana Estadística II Prof. Andrés Sandoval H t = 3.297 Paso 4 El valor crítico se encuentra utilizando la tabla de la distribución de t. Para conocer los grados de libertad se utiliza la siguiente fórmula: gl = n –2 gl = 10 – 2 gl = 8 El nivel de significancia, como ya se determinó es α = 0.05. Luego entonces, buscando en las tablas de la distribución de t, se obtiene el valor crítico de 2.306 Como la prueba es de dos colas (por la forma en que están planteadas las hipótesis) La regla de decisión es entonces: No rechazar H0 si el valor que se encuentre para t es mayor que – 2.306 y menor que 2.306. Si el valor calculado no cae en este rango, se rechaza H0 y se acepta H1 Paso 5 Dado que el valor que se encontró para t fue de 3.297, se rechaza la hipótesis nula. 7 Universidad Panamericana Estadística II Prof. Andrés Sandoval H En otras palabras, con un nivel de significancia de 0.05 se puede asegurar que la correlación de la población no es cero. Lo que indica que sí hay correlación para el total de vendedores, o que es posible generalizar los resultados. Correlaciones espurias Es importante mencionar que, con base en los coeficientes de correlación, no se puede afirmar de manera categórica, que el crecimiento de una variable causa o determina el crecimiento o la disminución de otra. Por ejemplo, supongamos que obtenemos datos de la cantidad de refrescos enlatados que consumen los alumnos de la UP y que contrastamos esta información con sus calificaciones de Antropología; aún cuando al realizar los cálculos encontráramos que el coeficiente de Pearson es positivo y fuerte, no podríamos decir de ninguna manera que las calificaciones de Antropología están determinadas por el número de refrescos que consumen los alumnos. A este tipo de correlaciones se les llama espurias. 7.2. Análisis de regresión A continuación desarrollaremos un modelo matemático (ecuación de la línea) para expresar la relación entre dos variables y para estimar el valor de la variable dependiente Y basándonos en el valor de la variable independiente X. La técnica que se utiliza para desarrollar la ecuación de la línea y hacer estas predicciones, se le llama análisis de regresión. El principio matemático con base con el cual se traza la ecuación de la línea y se predicen los valores de Y, se conoce con el nombre de mínimos cuadrados. Este principio consiste en trazar una línea sobre la gráfica de dispersión de los valores de modo que la suma de los cuadrados de la distancia vertical entre el valor real de Y y su valor predictorio, sea la cantidad más pequeña posible. En la siguiente gráfica, los puntos azules representan los valores reales de Y dado un valor determinado de X. Los puntos rosas representan las estimaciones para Y dado un valor de X. Al unir los puntos rosas, se obtiene la línea de regresión. Esta línea se trazó en base al principio de los mínimos cuadrados, de modo que al elevar al cuadrado las diferencias entre los valores estimados de Y y sus valores reales, el resultado resultante es el número menor posible. Es decir, si se traza la línea de cualquier otro modo, el resultado de sumar las diferencias de los valores reales de Y y los estimados, será mayor. En este ejemplo, en el primer punto (X = 3, Y = 8) existe una diferencia de 2 respecto de la línea de regresión, que se obtiene de 10 – 8. el cuadrado de la 8 Universidad Panamericana Estadística II Prof. Andrés Sandoval H desviación es 4. Para el segundo punto (X = 4, Y = 18), el cuadrado de su desviación es 16. Para el tercer punto (X = 5, Y = 16), el cuadrado de la desviación es también 4. La suma del cuadrado de las desviaciones es 24, que se obtiene de 4 +16 + 4. 26 Eva lua ción de logros 24 22 20 18 2 4 16 14 12 10 2 8 6 2 3 4 5 6 A ñ o s d e se r v i c i o e n l a c o m p a ñ í a Explicado lo anterior, pasemos a las fórmulas. LA forma general de la ecuación de la regresión es: FORMA GENERAL DE LA ECUACIÓN DE LA REGRESIÓN LINEAL Y ’ = a + bX Donde: Y ‘ = Se lee Y prima, es el valor predictorio de la variable Y para un valor seleccionado de X. a= Es la intersección con el eje Y. Es el valor estimado de Y cuando X = 0. b= Es la pendiente de la línea, o el cambio promedio en Y’ por cada cambio en una unidad de la variable independiente X. X= Es el valor que se escoge para la variable independiente. A los valores a y b se les conoce como coeficientes de regresión y se calculan con las siguientes fórmulas: 9 Universidad Panamericana Estadística II Prof. Andrés Sandoval H PENDIENTE DE LA LÍNEA DE REGRESIÓN b= INTERSECCIÓN CON EL EJE Y a= n ( Σ XY ) – ( Σ X ) ( Σ Y ) n ( Σ X2 ) – ( Σ X ) 2 ΣY n –b ΣX n Donde: X= es un valor de la variable independiente Y= es un valor de la variable dependiente n= es el número de elementos en la muestra Ejercicio Retomaremos el problema de las llamadas realizadas por una muestra de 10 vendedores y las copiadoras vendidas por los mismos. A partir de la información obtenida, al gerente de ventas le gustaría obtener información precisa sobre la relación entre estas dos variables y, más allá de eso, le gustaría hacer algunas predicciones sobre el número de copiadoras que se pueden vender si se realiza un número específico de llamadas. Utilizando el método de los mínimos cuadrados, calcula, el número de copiadoras que se espera vender si un empleado realiza 20 llamadas. Representantes de ventas Llamadas (X) Copiadoras vendidas (Y) X2 Y2 XY Representante 1 Representante 2 Representante 3 Representante 4 Representante 5 Representante 6 Representante 7 Representante 8 Representante 9 Representante 10 TOTAL 20 40 20 30 10 10 20 20 20 30 220 30 60 40 60 30 40 40 50 30 70 450 400 1,600 400 900 100 100 400 400 400 900 5,600 900 3,600 1,600 3,600 900 1,600 1,600 2,500 900 4,900 22,100 600 2,400 800 1,800 300 400 800 1,000 600 2,100 10,800 10 Universidad Panamericana Estadística II Prof. Andrés Sandoval H Primero se sustituyen las fórmulas para calcular a y b. PENDIENTE DE LA LÍNEA DE REGRESIÓN b= 10 ( 10,800 ) – ( 220 ) ( 450 ) 10 ( 5,600 ) – ( 220 ) 2 b = 1.1842 INTERSECCIÓN CON EL EJE Y a = 450 10 – (1.1842) 220 10 a = 18.9476 La ecuación de regresión es entonces: FORMA GENERAL DE LA ECUACIÓN DE LA REGRESIÓN LINEAL Y ’ = (18.9476 + (1.1842) 20 Y’ = 42.6326 Esto quiere decir que un vendedor que realiza 20 llamadas puede esperar ventas de 43 copiadoras. El valor 1.1842 para b significa que por cada llamada adicional que realice, el vendedor puede esperar un aumento de 1.2 en el número de copiadoras vendidas. Dicho de otro modo, cinco llamadas adicionales realizadas en un mes, darán como resultado aproximadamente seis copiadoras más vendidas (1.1842 * 5 = 5.921) El valor de 18.9476 para a representa el punto en que se cruza el eje de las Y cuando X = 0. Dicho de otra forma, si un vendedor no hace ninguna llamada, puede esperar vender 19 copiadoras. Sin embargo, observa que X = 0 está fuera del rango de los valores que tenemos en la muestra, y por lo tanto, no se deberá usar para estimar el número de copiadoras que se venderán. Las llamadas de venta van de 10 a 40, por lo tanto, las estimaciones deberán hacerse dentro de ese rango. El dibujo de la línea de regresión Para dibujar la línea de regresión se debe calcular el número estimado de copiadoras vendidas según las llamadas que haya hecho cada vendedor. Esto queda representado en la siguiente tabla. 11 Universidad Panamericana Estadística II Prof. Andrés Sandoval H Representantes de ventas Llamadas (X) Representante 1 Representante 2 Representante 3 Representante 4 Representante 5 Representante 6 Representante 7 Representante 8 Representante 9 Representante 10 TOTAL 0 20 40 20 30 10 10 20 20 20 30 220 Copiadoras Ventas vendidas estimadas (Y) Y'=a+bX 30 60 40 60 30 40 40 50 30 70 450 18.9476 42.6316 66.3156 42.6316 54.4736 30.7896 30.7896 42.6316 42.6316 42.6316 54.4736 450 Relación entre llamadas realizadas y copiadoras vendidas (Ventas reales y estimadas) 80 Copiadoras 70 60 50 40 30 20 10 0 0 10 20 30 40 50 Llamadas La línea de regresión tiene algunas características particulares. Como ya hemos dicho, no hay otra línea a través de los datos para la que la suma de los cuadrados de las desviaciones sea menor. Además esta línea para por los puntos que representan la media de los valores X y la media de los valores Y. En este ejemplo, la media de los valores X es 22.0 y la media de los valores Y es 45.0. El punto en que la línea cruza estos valores está marcado con amarillo. 12