Download ESF 09-10 Sesión 5
Document related concepts
Transcript
¿PREGUNTAS? • Tomemos lista de asistencia • Espero que hayan leído el libro de Darrell Huff(Cap 2 5 6) • Lecturas para esta clase Cap 5, Libro guía. • RECORDEMOS: Parcial el 17 de Octubre. • Horario de atención definitivo: Miércoles 12:30 -14:00, Cafetería de FEM. • TIREMOS UNAS MONEDAS (DOS DE TRES)¿¿¿Quiz o Taller??? • Preparar unos datos para desviación estándar… ADMINISTRATIVO - MONITORES En este semestre tendremos al menos ocho horas de monitorias para las asignaturas: Probabilidad y Estadística Fundamental Bioestadística Fundamental Estadística Social Fundamental Los encargados y los horarios de las monitorias son: Martes y jueves de 11:00-13:00. Salón 404-206. Luisa Fernanda Parra Arboleda Miércoles y Viernes de 14:00-16:00. Salón 404-206. Luis Guillermo Leal Ayala Curva de distribución de frecuencias Rango Desviación estándar Varianza Estandarización Distribución normal Distribución sesgada Tasas Datos atípicos Algo de realidad Definición: La muestra no representa la población de estudio. Se tiene que tener en cuenta que es un error sistemático. Su presencia provoca falta de validez | exactitud. Nosotros ya habíamos definido la consecuencia: ERROR DE MUESTREO. BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 118 Curva de distribución de frecuencias: Es sustituto de un histograma o polígono de frecuencias donde reemplazamos estos gráficos con una curva suavizada. El área bajo la curva representa el número total de sujetos en la población y es igual a una proporción de 1.00 a un porcentaje de 100 por ciento. BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 118 Curva de distribución de frecuencias: Es sustituto de un histograma o polígono de frecuencias donde reemplazamos estos gráficos con una curva suavizada. El área bajo la curva representa el numero total de sujetos en la población y es igual a una proporción de 1.00 a un porcentaje de 100 por ciento. ¿CURVA SUAVIZADA? BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 118 Curva de distribución de frecuencias: Es sustituto de un histograma o polígono de frecuencias donde reemplazamos estos gráficos con una curva suavizada. El área bajo la curva representa el número total de sujetos en la población y es igual a una proporción de 1.00 a un porcentaje de 100 por ciento. ¿Qué nos quieren decir? BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 118 Curva de distribución de frecuencias: Es sustituto de un histograma o polígono de frecuencias donde reemplazamos estos gráficos con una curva suavizada. El área bajo la curva representa el numero total de sujetos en la población y es igual a una proporción de 1.00 a un porcentaje de 100 por ciento. Simplemente observamos que el área bajo de la curva es algo que se puede particionar muy intuitivamente por medio de los cuantiles, lo que nos permite identificar las diferentes partes de la muestra. BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 118-119 Distribución normal: Curva de distribución de frecuencias donde la media, la mediana y la moda de una variable son iguales entre sí y la distribución de las puntuaciones tiene forma de campana. BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 118-119 Distribución normal: Curva de distribución de frecuencias donde la media, la mediana y la moda de una variable son iguales entre sí y la distribución de las puntuaciones tiene forma de campana. NOMBRES: Campana de Gauss Segunda ley de Laplace Distribución normal bivariante ¿Por qué le llamamos “normal”? BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 118-119 Distribución normal: Curva de distribución de frecuencias donde la media, la mediana y la moda de una variable son iguales entre sí y la distribución de las puntuaciones tiene forma de campana. HISTORIA: Moivre : The doctrine of Chances (Aproximación binomial) Gauss : Theoria motus corporum coelestium in sectionibus conicis solem ambientium Laplace: Central limit theorem BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 118-119 Distribución normal: Curva de distribución de frecuencias donde la media, la mediana y la moda de una variable son iguales entre sí y la distribución de las puntuaciones tiene forma de campana. EJEMPLOS: La muerte de los humanos en un cierto país. El tiempo medio en realizar una misma tarea por parte de los empleados. El tiempo en el que los estudiantes llegan al salón.(Ustedes) BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 118-119 Distribución normal: Curva de distribución de frecuencias donde la media, la mediana y la moda de una variable son iguales entre sí y la distribución de las puntuaciones tiene forma de campana. FORMULA MATEMÁTICA: BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 119-120 Distribución sesgada: ??? BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 119-120 Distribución sesgada: Curva de distribución de frecuencias en la cual la media, la mediana y la moda de una variable son desiguales y algunos de los sujetos tienen puntuaciones sumamente altas o bajas. BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 119-120 Distribución sesgada: Curva de distribución de frecuencias en la cual la media, la mediana y la moda de una variable son desiguales y algunos de los sujetos tienen puntuaciones sumamente altas o bajas. Sesgo a la derecha (Positivo) Sesgo a la izquierda (Negativa) Tiene puntuaciones extremas en el extremo positivo de la distribución. Tiene puntuaciones extremas en el extremo negativo de la distribución. BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 119-120 Distribución sesgada: Curva de distribución de frecuencias en la cual la media, la mediana y la moda de una variable son desiguales y algunos de los sujetos tienen puntuaciones sumamente altas o bajas. Sesgo a la derecha (Positivo) Sesgo a la izquierda (Negativa) Tiene puntuaciones extremas en el extremo positivo de la distribución. Tiene puntuaciones extremas en el extremo negativo de la distribución. ¿Consecuencias? ¿Consecuencias? BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 119-120 Distribución sesgada: Curva de distribución de frecuencias en la cual la media, la mediana y la moda de una variable son desiguales y algunos de los sujetos tienen puntuaciones sumamente altas o bajas. Sesgo a la derecha (Positivo) Sesgo a la izquierda (Negativa) Tiene puntuaciones extremas en el extremo positivo de la distribución. Tiene puntuaciones extremas en el extremo negativo de la distribución. ¿Consecuencias? ¿Consecuencias? La media es más alta que la moda y La media es más baja que la moda la mediana y la mediana BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 119-120 Puntuación de CI . BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 119-120 Calificaciones de examen de estudiantes de último año. i.e. La mayoría de los estudiantes de último año obtiene altas puntuaciones, pero pocos se quedan en la dirección negativa. BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 119-120 El ingreso familiar en Estados Unidos i.e. La mayoría de las familias ganan bastante dinero, pero pocas son sumamente ricas. BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 119-120 Número de celulares por persona. La media es uno generalmente. Estatura entre los miembros de una sola familia con vínculo sanguíneo. BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 119-120 Puntuaciones en una escala de depresión. Promedio de los estudiantes en el colegio. BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 119-120 EJEMPLOS… Taller 2…(Puntos extras) BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 119-120 Distribución bimodal de pesos de hombres y mujeres de la misma edad. Distribución bimodal de las edades de las personas que entran al doctorado. TALLER 2…(Puntos extras) Encontrar una distribución trimodal. BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 137 Estadístico o parámetro de dispersión: Son estadísticos (parámetros) que describen cómo se dispersan las puntuaciones de una variable de intervalo/razón a lo largo de su distribución. BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 137 Estadístico o parámetro de dispersión: Son estadísticos (parámetros) que describen cómo se dispersan las puntuaciones de una variable de intervalo/razón a lo largo de su distribución. Dispersión: Forma en que se dispersan las puntuaciones de una variable de intervalo -razón de menor a mayor y la forma de la distribución entre éstas. BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 137 Estadístico o parámetro de dispersión: Son estadísticos (parámetros) que describen cómo se dispersan las puntuaciones de una variable de intervalo/razón a lo largo de su distribución. Dispersión: Forma en que se dispersan las puntuaciones de una variable de intervalo - razón de menor a mayor y la forma de la distribución entre éstas. Simétrica Leptocúritca Mono modal Asimétrica Mesocúritca Bimodal Platicúrtica Trimodal BIBLIOGRAFÍA: EL LIBRO COMPLICA ESTOS TERMINOS…NO REMITIRSE AL LIBRO. Rango (Estadística): Diferencia entre el valor mínimo y el valor máximo. Intervalo de la muestra: Intervalo cerrado o abierto que muestra en que valores se encuentra la muestra o población. BIBLIOGRAFÍA: EL LIBRO COMPLICA ESTOS TERMINOS…NO REMITIRSE AL LIBRO. Rango (Estadística): Diferencia entre el valor mínimo y el valor máximo. Intervalo de la muestra: Intervalo cerrado o abierto que muestra en que valores se encuentra la muestra o población. ¿DIFERENCIA ENTRE INTERVALO CERRADO O ABIERTO? BIBLIOGRAFÍA: EL LIBRO COMPLICA ESTOS TERMINOS…NO REMITIRSE AL LIBRO. Rango (Estadística): Diferencia entre el valor mínimo y el valor máximo. Intervalo de la muestra: Intervalo cerrado o abierto que muestra en qué valores se encuentra la muestra o población. Calculemos el rango e intervalo 1. Ordenar los datos de la distribución de menor a mayor. 2. Identificar las puntuaciones mínima y máxima. (Intervalo de la muestra) 3. Identificar el valor de la unidad de redondeo 4. Rango= (dato máximo – dato mínimo) + valor de redondeo. BIBLIOGRAFÍA: EL LIBRO COMPLICA ESTOS TERMINOS…NO REMITIRSE AL LIBRO. Rango (Estadística): Diferencia entre el valor mínimo y el valor máximo. Intervalo de la muestra: Intervalo cerrado o abierto que muestra en que valores se encuentra la muestra o población. ESTATURA DE LAS PERSONAS 1.75 1.84 1.62 1.68 1.75 1.74 1.78 1.65 1.64 1.73 BIBLIOGRAFÍA: EL LIBRO COMPLICA ESTOS TERMINOS…NO REMITIRSE AL LIBRO. Rango (Estadística): Diferencia entre el valor mínimo y el valor máximo. Intervalo de la muestra: Intervalo cerrado o abierto que muestra en que valores se encuentra la muestra o población. ESTATURA DE LAS PERSONAS 1.75 1.84 1.62 1.68 1.75 1.74 1.78 1.65 Dato máximo: 1.84 ; Dato mínimo: 1.62 ; Unidad de redondeo: 0.005 1.64 1.73 BIBLIOGRAFÍA: EL LIBRO COMPLICA ESTOS TERMINOS…NO REMITIRSE AL LIBRO. Rango (Estadística): Diferencia entre el valor mínimo y el valor máximo. Intervalo de la muestra: Intervalo cerrado o abierto que muestra en que valores se encuentra la muestra o población. ESTATURA DE LAS PERSONAS 1.75 1.84 1.62 1.68 1.75 1.74 1.78 1.65 1.64 Dato máximo: 1.84 ; Dato mínimo: 1.62 ; Unidad de redondeo: 0.005 OJO: Las unidades de redondeo tienen generalmente dos lados. 1.73 BIBLIOGRAFÍA: EL LIBRO COMPLICA ESTOS TERMINOS…NO REMITIRSE AL LIBRO. Rango (Estadística): Diferencia entre el valor mínimo y el valor máximo. Intervalo de la muestra: Intervalo cerrado o abierto que muestra en que valores se encuentra la muestra o población. ESTATURA DE LAS PERSONAS 1.75 1.84 1.62 1.68 1.75 1.74 1.78 1.65 1.64 1.73 Dato máximo: 1.84 ; Dato mínimo: 1.62 ; Unidad de redondeo: 0.01 (0.005 c/u lado) Intervalo : Cerrado [1.62, 1.84] ; Rango: (1.84 – 1.62) + 0.01 = 0.23 BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 140-148 Puntuación de desviación: Indica en cuánto es que una puntuación individual difiere o «se desvía» de la media. BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 140-148 Varianza: Es la variación promedio de las puntuaciones en una distribución. Básicamente esto nos ayuda a mirar si es leptocúritca, mesocúritca o platicúrtica. Desviación estándar: Describe la forma en que las puntuaciones de una variable de intervalo/razón se dispersan por la distribución en relación con la puntuación media. Es la raíz cuadrada de la varianza. NOTA: Entre más grande sea el valor de estos términos, la muestra o población esta más dispersa. CÓMO CALCULAR (VARIANZA): POBLACIONAL 𝑛 𝑖=1(𝑥𝑖 𝜎= − 𝑥)2 𝑛 MUESTRAL 𝜎= 𝑛 𝑖=1(𝑥𝑖 − 𝑥)2 𝑛−1 CÓMO CALCULAR (desviación estándar): POBLACIONAL 𝑆= 𝑛 𝑖=1(𝑥𝑖 𝑛 − 𝑥)2 MUESTRAL 𝑆= 𝑛 𝑖=1(𝑥𝑖 − 𝑥)2 𝑛−1 Desviación mayor que la media, ¿Sesgo? Valores extremos afectan la media Distribución sesgada 1. Sesgo de selección 2. Curva de distribución 3. Distribución normal 4. Distribución sesgada 5. Rango 6. Desviación estándar y varianza. Preparar datos de estandarización… BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 148-149, Haber, Audrey. Runyon, Richard. Estadística General105-115. Datos estandarizados: Nos permite mirar a cuantas desviaciones estándar se encuentra un dato de la media del grupo. Calcule de una puntuación estandarizada 𝑥−𝑥 𝑍𝑥 = 𝑆𝑥 𝑍𝑥 = Número de desviaciones estándar que se desvía de la media. 𝑥 = Una variable de intervalo/razón 𝑥 = La media de x 𝑆𝑥 = La desviación estándar de X BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda Edición. Página 148-149 , Haber, Audrey. Runyon, Richard. Estadística General105-115. Nota: Si podemos asumir que los datos se comportan normal tenemos resultados interesantes. Ley de los grandes números PROBLEMA: Ellickson y cols. (2003) examinaron la conducta de fumar en adolescentes y la subsiguiente conducta después de fumar. Supongamos que los siguientes datos don de una muestra de fumadores de 16 a 20 años de edad. 𝑌 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑖𝑔𝑎𝑟𝑟𝑖𝑙𝑙𝑜𝑠 𝑓𝑢𝑚𝑎𝑑𝑜𝑠 𝑝𝑜𝑟 𝑑í𝑎. 𝑌 = 15 𝑐𝑖𝑔𝑎𝑟𝑟𝑖𝑙𝑙𝑜𝑠 ; 𝑆𝑦 = 5 𝑐𝑖𝑔𝑎𝑟𝑟𝑖𝑙𝑙𝑜𝑠 ¿Quién destaca como fumador? TABLERO Bob= 17 ; Spencer=30 ; Sonya=4 ; Chuck=20 Generalmente nunca sabemos muchos sobre lo qué queremos estudiar Pero podemos utilizar sus mismo datos para saber qué es «normal» para ellos y qué no lo es. Objetivos neutralizados (muertes) Número de enfermedades (AIDS) Estatura de personas (Islas del pacífico) Salario (África) COMPUTADOR CONCLUSIONES 1. 2. 3. 4. 5. 6. Colombia tiene un dato estandarizado de 0.7 desviaciones. Tiene mayor población que el 50% de los países del mundo. Puede que tenga mayor ejercito que el 50% del mundo. Tal vez tenga más presupuesto que el resto del mundo? Tal vez posea más recursos naturales que el 50% del mundo? Etc… Tasa: Razón o proporción en la que se define un tiempo de ocurrencia. Tasa: Razón o proporción en la que se define un tiempo de ocurrencia. No de nacidos vivos periodo Número de nacidos en Colombia en el año 2013 Tasa de natalidad bruta para el año 2013 Tasa: Razón o proporción en la que se define un tiempo de ocurrencia. No. de nacidos vivos periodo Número de nacidos en Colombia en el año 2013 Tasa de natalidad bruta para el año 2013 Mujeres entre 15 y 50 años en el periodo Número de mujeres con posibilidad de dar a luz en Colombia en el año 2013 Tasa de fertilidad bruta para el año 2013 Datos atípicos: es una observación que es numéricamente distante del resto de los datos. Generalmente se la clasifica cuando está a 3 desviaciones típicas de la media. Datos atípicos: es una observación que es numéricamente distante del resto de los datos. Generalmente se la clasifica cuando está a 3 desviaciones típicas de la media. Rango intercuartílico: es una medida de variabilidad de la mediana. Se define como la diferencia entre el tercer cuartil (𝑄3 ) y el primer cuartil (𝑄1 ) . 𝑅𝑄 = 𝑄3 − 𝑄1 Datos atípicos: Un valor atípico leve será aquel que: < 𝑄1 − 1.5 ∗ 𝑄𝑅 Ó > 𝑄3 + 1.5 ∗ 𝑄𝑅 Un valor atípico extremo será aquel que: < 𝑄1 − 3 ∗ 𝑄𝑅 Ó > 𝑄3 + 3 ∗ 𝑄𝑅 Muestra aleatoria Se encuentra valores atípicos Con el método se eliminan los datos Se crean nuevos estadísticos Se encuentran valores atípicos 28 24 26 27 26 26 25 26 24 29 26 25 23 26 26 26 23 26 24 26 25 32 24 26 25 24 25 23 27 26 24 25 25 21 23 26 25 24 26 27 25 24 25 27 28 24 28 26 26 26 24 26 23 23 22 25 26 25 26 26 24 26 26 25 27 26 27 24 26 24 TALLER 2 (PUNTOS EXTRAS) Realizar el proceso de datos atípicos para los siguientes problemas: *Habitantes por departamento (A-M) Apellidos *Habitantes para los diferentes países del mundo (N-Z) Apellidos PRÓXIMA CLASE (SEMANA) Temas Gráficas y tablas de dos variables Correlación Mapas factoriales Lecturas (Fotocopiadora-FEM) Runyon, Richard. Haber, Audrey. Fundamentals of behavioral Statistics. Capitulo 9 (117-130) (Opcional)Ritchey, Ferris. Estadística para las ciencias sociales. Capitulo 509-522