Download A / B - IHMC Public Cmaps (2)
Document related concepts
Transcript
Universidad Privada “San Pedro” Cursos doctorales de Metodología de la Investigación Empleo de la Estadística Descriptiva e Inferencial, en el diseño, procesamiento y análisis de investigaciones científicas. Dr. René Suárez Martínez MsM PhD Profesor Titular Consultante ISCM-H Fac Calixto García, IPK, ENSAP, INSAT ESTADÍSTICA Nos instruye sobre la manera adecuada de: recoger, procesar, validar presentar y analizar datos de la realidad, teniendo presente la variabilidad inherente en ellos. DESCRIPTIVA INFERENCIAL LA ESTADÍSTICA: Contribuye a la formulación de leyes acerca del hombre, la sociedad o el ambiente, mediante el estudio y registro de hechos o fenómenos observados o experimentados en dicha realidad. Permitiendo confirmar o rechazar tales leyes. Se vale esencialmente de modelos científicos de tipo determinista o aleatorio (estocástico). Constituye una de las tecnologías más útiles cuando la variabilidad y la incertidumbre forman parte de los eventos o fenómenos que se investigan. Puede ser definida como: • Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de • deducir las leyes que rigen esos fenómenos, • y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones. Estadística Descriptiva: Trata la organización, presentación y síntesis de la información. Estadística Inferencial: Permite sacar conclusiones aplicables a una población más amplia que la muestra estudiada. Estadística Descriptiva: Su empleo permite resumir o caracterizar los elementos esenciales de un universo mediante el cálculo de determinadas medidas: VARIABLES Cualitativas, emplean tasas, razones, proporciones porcentajes Cuantitativas, emplean medidas de tendencia central, variabilidad y posición relativa LA ESTADÍSTICA INTERVIENE EN EL: Plantear hipótesis Diseñar experimento Obtener conclusiones Recoger datos y analizarlos Plantear hipótesis sobre una población Los trabajadores que fuman más ausencia al trabajo que los no fumadores ¿En qué sentido? ¿Mayor número? ¿Tiempo medio? Decidir qué datos recoger (diseño de experimentos) – Qué individuos pertenecerán al estudio (muestras) Fumadores y no fumadores en edad laboral. Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades crónicas? – Qué datos recoger de los mismos (variables) Número de bajas Tiempo de duración de cada baja ¿Sexo? ¿Sector laboral? ¿Otros factores? Recoger los datos (muestreo) – ¿Estratificado? ¿Sistemáticamente? Describir (resumir) los datos obtenidos tiempo medio de baja en fumadores y no (estadísticos) % de bajas por fumadores y sexo (frecuencias), gráficos,... Realizar una inferencia sobre la población Los fumadores están de baja al menos 10 días/año más de media que los no fumadores. – Cuantificar la confianza en la inferencia – Nivel de confianza del 95% – Significación del contraste: p=2% ASPECTOS A TOMAR EN CUENTA Descriptiva Inferencial • Formulación de las hipótesis • Variables imprescindibles a incluir • Control de errores y sesgos • Seguir el diseño • Procesar adecuadamente los datos • Analizarlos convenientemente El azar y la probabilidades Azar: Agregado de factores o causas complejas, parcialmente desconocidas. Probabilidad: Medida con variación desde 0 hasta 1, del grado de creencia de una hipótesis o afirmación. Media Media aritmética de los datos (suma de los valores observados dividido por el tamaño muestral). La media es como el centro de gravedad. La MEDIA es la medida de tendencia central más informativa, ya que tiene en cuenta el valor de todas las observaciones, sin embargo tiene unos INCONVENIENTES Inconvenientes Poco representativa cuando existen valores extremos. No se debería utilizar en variables cualitativas ordinales En estos casos usar la MEDIANA que da mejor información Mediana Valor que divide en dos partes iguales el número de observaciones (n). Para calcular una mediana se ordenan las observaciones de menor a mayor: Si n es impar, la mediana es la observación situada en el orden (n+1)/2, es decir, el dato central. Mediana Como hemos dicho, la mediana es más representativa que la media en distribuciones con valores extremos. Las variables ordinales pueden describirse a través de la mediana, ya que la mediana no tiene en cuenta el valor del dato, sino su orden. Moda Valor de la observación que ocurre con mayor frecuencia. Si todos los valores son distintos, no hay moda. También puede haber más de una moda. Escala Nominal Define un atributo en el que no hay un orden de gradación implícito. Ejemplo: Estado civil Ciudad de nacimiento •Atributos diferentes entre sí •Los atributos son nombres •A los nombres le podemos asignar número Escala Nominal Estado civil:Casado, Soltero, Viudo, Divorciado 1• Casado, 3• Viudo, 2• Soltero, 4• Divorciado Escala Binaria Caso especial de la escala ordinal en que el atributo puede tomar solo dos valores. Ejemplo: • Sexo • Curado y no curados • Fumador o no Sexo: Masculino 1•Femenino 2• Escala Ordinal Cuando al rasgo estudiado se le puede asignar una relación de orden. Ejemplo. • Nivel económico • Grado de escolaridad • Evolución de la enfermedad Evolución de la enfermedad Curado 1•Mejorado 2•Empeorado 3• Variable Toda característica medida en un estudio, se realice su medición en números (por ejemplo edad, altura) o en términos de categorías (por ejemplo sexo, presencia o ausencia de una enfermedad). Recoger tantas variables como sean necesarias y tan pocas como sea posible. Tipos de variables en el Protocolo Ejemplo de estudio de una vacuna antigripal: Variable principal o de respuesta: Diagnóstico de Neumonía. Variables de control: Hábito de fumar, enfermedad asociada, etc. Variables descriptoras: Sexo, edad, raza, estado civil Variables Variable explicativa o variable independiente: Describe la intervención realizada por el investigador y se la considera la causa del fenómeno observado. Variable dependiente: Describe el resultado de la intervención Variables Pueden expresarse en forma de: •Número •Proporción •Razón Número. Proporción. Razón. Número: 265 pacientes con HTA Proporción: 35 HTA renal de 265 HTA observados 35/265= 0.13 (Numerador incluido en el denominador) Razón: Razón de mujeres /hombres que ingresan por HTA es de 1:3. (El denominador no contiene al numerador). ACOPIO DE LA INFORMACIÓN PLANEAMIENTO Diseño Formulario EJECUCIÓN Trascripción y revisión PROCESAMIENTO Verificación confección Base datos. Edición Validación DISEÑO DEL FORMULARIO. PREGUNTAS Características Abiertas Cerradas Establecen categorías NO SI Posibilidad de expresión personal más amplia SI NO Advertencias para preguntas abiertas Procurar que el individuo llene intuitivamente Tipo de respuesta : Alfanumérica casillas abiertas Ejemplos SEXO (M mas F Fem : |__| Se puede emplear aun en aquellos casos que se trate de respuestas numéricas con decimales. No olvidar punto decimal y unidad de medida (sin decimales) Talla : |__|__|__| cm. (con decimales) Peso : |__|__|__|.|__| Kg. El Cuaderno de Recogida de Datos Tipo de respuesta : - Una sola elección - Múltiple elección Formato : Casillas cerradas ( ) Una sola elección De todas las categorías solo es posible escoger una Ejemplos: Sexo: Masculino 1 Femenino 2 Presencia de Eventos Adversos: Si 1 Curso para los investigadores clínicos No 2 PREGUNTAS CERRADAS Ejemplo: Variable que mide el tiempo de evolución de una enfermedad (no hay restricción en el protocolo) y tiene como respuesta: 1. - Entre 10 y 20 años 1 2. - Entre 20 y 30 años 2 Problemas: ¿ Qué sucede si un individuo tiene menos de 10 años o más de 30 ? ¿ Qué sucede si un individuo tiene 20 años ? Tipo de respuesta : - Una sola elección - Múltiple elección Formato : Casillas cerradas ( ) Múltiple elección De todas las categorías es posible elegir más de una Ejemplos Síntomas: Dolor 1 Prurito 2 Fiebre 3 Dolor Si 1 No 2 Prurito Si 1 No 2 Fiebre Si 1 No 2 No dejar preguntas en blanco Letra legible Respaldo del dato en la historia clínica Instrucciones para la corrección de datos Tachar el dato con una línea horizontal, Anotar el nuevo dato al lado, 33 Escribir fecha de la rectificación Edad : |3|5| Escribir iniciales del investigador No olvidar datos retrospectivos Verificar cada página del CRD Curso para los investigadores clínicos 12/3/01 GJR INSTRUCCIONES PARA: COMPLETAMIENTO DE LOS CRDs REVISION DE LOS CRDs CORRECCION DE LOS CRDs DIAGRAMA DE FLUJO CALENDARIO DE RECOGIDA DE DATOS Curso para los investigadores clínicos Errores aleatorios Realidad Conclusión del ensayo a es mejor que b a es mejor que b Correcto Error tipo II a no es mejor Falso negat. que b (riesgo ) a no es mejor que b Error tipo I Falso posit. (riesgo ) Correcto Errores aleatorios Riesgo (p) = Probabilidad de cometer error de tipo 1 Riesgo = Probabilidad de cometer error de tipo 2 1- = probabilidad de que si a es superior a b el estudio concluya correctamente que así es. Este valor es el poder estadístico del ensayo e indica la probabilidad que tenemos de detectar una diferencia si esta existe en realidad. Formulación de hipótesis •Comparación de eficacia clínica de 2 ttos. a y b ( Toda diferencia observable entre la eficacia de ambos tratamientos es debida simplemente al azar o a la variabilidad biológica, ya que el efecto de los tratamientos en estudio no difiere sustancialmente de uno a otro.) HO: tto a = tto b (Hipótesis Nula) Formulación de hipótesis Ha: tto a difiere del tto b (Aparte de la variabilidad, los dos grupos estudiados difieren además en otro factor o característica, que es el efecto del tratamiento en estudio.) Formulación de hipótesis Si la diferencia entre los ttos. es grande de habla de diferencia estadísticamente significativa. Se mide en términos de probabilidad, p. Nivel de significación (nivel ): Determina la evidencia que se que se aceptará en contra de HO para rechazarla. (entre 0.01 y 0.05) p<0.05 significa que la probabilidad de que la diferencia observada sea debida al azar es pequeña. Sesgos Es la presencia de ERROR SISTEMATICO en una investigación que resulta de una estimación incorrecta de los hechos analizados. Es una interferencia o un factor que tiende a producir resultados o interpretaciones que se apartan sistemáticamente de los verdaderos. Tipos de Sesgos Sesgo introducido por el investigador: Sesgo de medición (equipo de medición, cambio de método de medición, etc) Sesgo de selección (Ej. en diagnóstico, en la selección, de no respuesta) Sesgo de publicación (Ej. Publicación de resultados positivos, sesgo de referencia) Muestreo Abarca los distintos procedimientos para extraer muestras de poblaciones con el objeto de conocer sus características. Tipos de Muestreos Muestreo Probabilístico o Aleatorio No Probabilístico Muestreo Aleatorio Los elementos de la muestra se toman aleatoriamente de la población y con probabilidades conocidas. Con este tipo de muestras es que se posibilita llevar a cabo los objetivos de la inferencia estadística. Permite medir en términos de probabilidades el riesgo de efectuar inferencias erróneas. Tipos Muestreo Simple Aleatorio: Aquel en el que cada individuo de la poblacion tiene las mismas posibilidades de salir en la muestra. Muestreo Sistemático: En el que se elige un individuo al azar y a partir de él, a intervalos constantes, se eligen los demás hasta completar la muestra. Muestreo estratificado: En él se divide la población en clases o estratos y se escoge, aleatoriamente, un número de individuos de cada estrato proporcional al número de componentes de cada estrato. Muestreo por conglomerados: Se eligen al azar unidades más amplias (conglomerados) donde de clasifican los elementos de la población. Notaciones Parámetros Estadísticos Poblacional Muestrales es x p q=1-p p̂s q̂ Distribuciones Muestrales Consideremos todas las muestras de tamaño N que se pueden extraer aleatoriamente de una población. Si para cada muestra calculamos un estadístico, se puede obtener una distribución muestral para el mismo. En cada distribución muestral se puede calcular la media, desviación estándar, etc. La desviación estándar de la distribución muestral de un estadístico se conoce como error típico del estadístico. Distribución la Media Muestral (Varianza conocida) Si una variable aleatoria X sigue una distribución N( , ) donde y son conocidos entonces la media muestral de una muestra de tamaño n, sigue una distribución N ( , n ) . x ~ N ( , n) Por consiguiente la variable aleatoria Z definida por: x Z ~ N (0,1) n Ejemplo La altura de los estudiantes de una población se distribuye según una normal de media 167cm y desviación típica 3,2cm. Si se toma una muestra de 10 estudiantes. Calculemos la probabilidad de que la media muestral sea menor que 165 cm. Sea X altura en cm y x media de las alturas de 10 estudiante s, entonces : 3,2 x ~ N (165, ) N (165,1.01) 10 P( x 165) P( x 167 165 167 ) P( z 1.97) 0.024 1.01 1.01 Distribución la Media Muestral (Varianza desconocida) Sea una muestra aleatoria de una variable aleatoria X, de tamaño n, si X tiene distribución normal N( , ) entonces la variable aleatoria T definida: x ( x )2 T ~ t (n 1) donde s n 1 s n Distribución Muestral de la Varianza Si S2 es la varianza insesgada de una muestra aleatoria de tamaño n de la variable X y esta se distribuye N(, ) entonces: n21 n 1S 2 2 ~ 2 n 1. Distribución asintótica de la media muestral Las medias de las muestras de tamaño n extraídas de una población de parámetros y conocidos, siguen una distribución: x ~ N ( , siempre que n 30. n ) Distribución Muestral de Proporciones Las proporciones muestrales de todas las muestras de tamaño n extraídas de una población en la que la probabilidad de éxito de un suceso es p, se ajustan a una normal: pq pˆ ~ N ( p, ) n siempre que n 30. Ejemplo Una fábrica de pasteles fabrica, en su producción habitual, un 3% de pasteles defectuosos. Un cliente recibe un pedido de 500 pasteles de la fábrica. ¿Cuál es la probabilidad de que encuentre más del 4% de pasteles defectuosos? 3 97 Sea A Pastel defectuoso , entonces : p ,q y n 500. 100 100 Por tanto las proporcion es muestrales siguen una distribuci ón : 3 97 3 ˆp ~ N , 100 100 100 500 N (0.03,0.076) Ejemplo (continuación) La probabilidad pedida es que la proporción de pasteles defectuosos en la muestra sea mayor del 4%, es decir: 0.04 0.03 P( pˆ 0.04) P z P( z 1.32) 0.093 0.0076 Estimación de Parámetros La teoría muestral se utiliza para obtener información sobre las muestras extraídas aleatoriamente de una población. El problema que aborda la estimación de parámetros, es inferir información sobre una población a partir de una muestra extraída de la misma. Los parámetros poblacionales se estiman a partir de los correspodientes estadísticos muestrales. Tipo de Estimaciones Puntuales Estimación Insesgada: Si la media o valor esperado del estadístico coincide con el parámetro correspondiente de la población. Estimación Eficiente: Si las distribuciones muestrales de dos estadígrafos tienen la misma esperanza (o media), aquel que tenga menor error de estimación (varianza) será el más eficiente de ambos. Estimaciones Insesgadas Parámetr Estimacione o s x n p s (x x) i 1 i n 1 p̂ 2 Estimación por Intervalos La estimación puntual no provee información de la incertidumbre del resultado. La incertidumbre se produce por la dispersión de la distribución muestral del estimador. La incertidumbre se expresa cuantitativamente mediante un intervalo que tenga una probabilidad especificada de contener el valor verdadero del parámetro. Este intervalo recibe el nombre de intervalo de confianza. Intervalos de Probabilidad En una variable normal cualquiera con parámetros y se cumple: 1. En el intervalo ( - ; + ) está el 68,26 % de la población. 2. En el intervalo ( -2 ; +2 ) está el 95.44 % de la población. 3. En el intervalo ( -3 ; +3 ) está el 99.74 % de la población. Dado un porcentaje del N%, siempre es posible encontrar un intervalo simétrico respecto de la media de forma que dicho intervalo contenga al N% de población. Se denomina intervalo de probabilidad o confianza a aquel intervalo para el cual hay una seguridad del N% de que los parámetros muestrales se encuentren en dicho intervalo. Denominamos nivel de confianza al número: N 1 100 Donde es el nivel de significación. Ejemplo Si queremos que el 88 % de la población esté en el intervalo, el nivel de confianza sería: 1 88 0.88 100 Nivel de Confianza y el nivel de significac ión, 1 0.88 0.12 Nivel de Significación Intervalo de probabilidad para la media de una variable normal Si la población sigue una distribución normal con parámetros desconocido y conocida entonces si tomamos una muestra de tamaño n sabemos que : x z ~ N (0,1) n tenemos que z depende de , pero no su distribuci ón. A continuaci ón buscamos dos valores de z que cumplan : P( z 2 z z 2 ) 1 Para buscarz 2 P( z 2 z z 2 ) 1 P( z z 2 ) 1 2 y P( z z 2 ) 2 Se obtienen de las tablas de la distribución normal estándar. De la relación : x P( z 2 z z 2 ) 1 P z 2 z 2 1 n Se obtiene : P( x z 2 n x z 2 n ) 1 El intervalo indicado es el intervalo de confianza con un nivel de confianza del (1-) por ciento de la media. Ejemplo Supongamos que la media muestral de una muestra de 9 elementos es de 15.4 y su desviación estándar es 2.3 y queremos calcular el intervalo de confianza del 95% para la media poblacional: 0.05 z 2 z0.025 1.96 entonces : 2.3 LI 15.4 1.96 15.4 1.51 13.89 9 2.3 LS 15.4 1.96 15.4 1.51 16.91 9 Por tanto, hay un 95% de probabilid ad de que la media esté en el intervalo calculado. Intervalo de probabilidad para la media de una variable normal Sea X una variable aleatoria normal con parámetros y desconocidos. Si se obtiene una muestra de tamaño n, entonces el intervalo de confianza del (1-)% de la media muestral es: s s , x t 2, n 1 x t 2, n 1 n n donde t 2, n 1 el percentil 2 de la distribuci ón t de Student con n 1 grados de libertad. Ejemplo Supongamos que la media muestral de una muestra de 9 elementos es de 15.4 y su desviación estándar muestral es 2.1 y queremos calcular el intervalo de confianza del 95% para la media poblacional: 0.05 t 2, n 1 t0.025,8 2.31 entonces : 2.1 LI 15.4 2.31 15.4 1.62 13.78 9 2.1 LS 15.4 2.31 15.4 1.62 17.02 9 Intervalo de probabilidad para la varianza de una variable normal Sea X una variable aleatoria normal con parámetros y desconocidos. Si se obtiene una muestra de tamaño n, entonces el intervalo de confianza del (1-)% de la varianza muestral es: (n 1) s 2 (n 1) s 2 , 2 2 (n 1) ( n 1 ) 2 1 2 donde 2 2 (n 1) y 12 2 (n 1) son los percentile s 2 y 1 - 2 de la distribuci ón 2 (n 1). Ejemplo Un productor de fertilizantes, para controlar el buen embolsado de sus productos, pesa 15 bolsas del mismo, obteniendo una desviación típica de 0,50 kg. ¿Qué varianza puede inferirse con un 98% de confianza que tendrá la producción total? 0.02 2 2 (n 1) 02.01 (14) 29.1 12 2 (n 1) 02.99 (14) 4.66 entonces : 14 0.25 LI 0.12 29.1 14 0.25 LS 0.75 4.66 Por tanto, hay un 98% de probabilid ad de que la varianza esté en el intervalo calculado. Intervalo de probabilidad para p El intervalo de confianza con nivel de confianza 1- para la proporción poblacional desconocida p es: pˆ qˆ pˆ qˆ pˆ - z 2 ; pˆ z 2 n n Nota: Para aplicar este resultado, las muestras deben ser de tamaño n 30 . Se utiliza la distribución muestral de las proporciones. Ejemplo En 40 lanzamientos de una moneda se obtuvieron 24 caras. Hallar el intervalo de confianza del 95% para la proporción de caras que debe obtenerse en un número ilimitado de lanzamientos de una moneda. 0.05 z 2 z0.025 1.96 24 pˆ 0.6, qˆ 0.4 entonces : 40 LI 0.6 1.96 0.6 0.4 40 0.6 0.15 0.45 LS 0.6 1.96 0.6 0.4 40 0.6 0.15 0.75 Por tanto, hay un 95% de probabilid ad de que la proporción de caras esté en el intervalo calculado. Conclusiones Para hallar una estimación por intervalo de confianza de un parámetro poblacional se siguen los siguientes pasos: 1. Fijar el coeficiente de confianza que se desea en la estimación. 2. Calcular los estadísticos necesarios y determinar la distribución en el muestreo que tiene el estadístico empleado. 3. Buscar el percentil que se necesita. 4. Utilizar las fórmulas. Conceptos Básicos de Probabilidades Definiciones Experimento Aleatorio: Experimento cuyo resultado no se puede predecir con certeza. Ejemplo: Lanzar un dado. Espacio Muestral: El conjunto de todos los sucesos posibles. Ejemplo: {1, 2, 3, 4, 5, 6}. Se denota con la letra griega . Suceso Elemental: A cada elemento que forma parte del espacio muestral. Ejemplo: Que salga 2. Evento o suceso aleatorio: Un subconjunto del espacio muestral. Ejemplo: Que salga un número par. Suceso Imposible: Al que no tiene ningun elemento y lo representaremos por . Ejemplo: Que salga un 7. Suceso Seguro:Al formado por todos los posibles resultados. Ejemplo: Que salga un número entre 1 y 6. Operaciones con sucesos Igualdad de sucesos: Dos sucesos A y B son iguales si están compuestos por los mismos elementos. Lo expresaremos por A = B. Intersección de sucesos: Llamaremos suceso intersección de los sucesos A y B, y lo representaremos por AB, al suceso: ocurren A y B a la vez. Unión de sucesos:Llamaremos suceso unión de los sucesos A y B y se representa por AB al suceso: ocurre A o bien ocurre B o bien ocurren ambos a la vez. Suceso contrario de otro: Dado un suceso A, llamaremos suceso contrario de A y se representa por A , al suceso que tiene por elementos a todos aquellos que no pertenecen a A. Ejemplo Sea el experimento aleatorio lanzar un dado. A= {2,4,6}, suceso aleatorio “que salga un número par”. B={1,2,3}, suceso aleatorio “que salga un número menor o igual que 4”. Entonces: AB={2,4}. A {1,3,5}. AB={1,2,3,4,6}. B {4,5,6}. Definición clásica de Probabilidad Si realizamos un experimento aleatorio en el que hay n sucesos elementales, todos igualmente probables, entonces si A es un suceso, la probabilidad de que ocurra el suceso A es: número de casos favorables al suceso A P( A) número de casos posibles Ejemplo Si lanzamos un dado normal al aire y consideramos el suceso A = “sale par”, la probabilidad de ocurrencia de A calcularía: Casos posibles hay 6, pues ={1, 2, 3, 4, 5, 6}. Casos favorables al suceso A son 3 pues A={2, 4, 6}. Por tanto: 3 1 P( A) 0.5 6 2 se Limitaciones El inconveniente que plantea la definición de anterior es que necesariamente los sucesos elementales tienen que tener la misma probabilidad de ocurrir. Además, se define el término probabilidad en términos de igualmente probables. Definición Axiomática Sea un espacio muestral y A un evento cualquiera de . Se define como probabilidad P a una función definida sobre los subconjuntos de que cumple los siguientes axiomas: 1. 0 P( A) 1, A . 2. P() 1. 3. Si A1 ,, An son mutuamente excluyente s, P( Ai A j ) 0 n n i 1 i 1 entonces P( Ai ) P( Ai ), Ai . Propiedades 1. P( A ) 1 P( A), A . 2. P( ) 0. 3. Si A y B son dos sucesos entonces : P( A B) P( A) P( B) P( A B). Probabilidad Condicional Sean A, B dos sucesos tales que P(B) > 0. La probabilidad de A condicionada a la ocurrencia de B, se define como: P( A B) P( A / B) P( B) Regla de multiplicación : P(AB)= P(A / B)P(A)=P(B / A)P(A). Sucesos Independientes El suceso A es independiente de B, si la P(A) no depende de la aparición de B, es decir: P( A / B) P( A) Propiedades: Si A y B son independientes y P(A)>0, P(B)>0 entonces: 1. P(A B) = P(A)P(B). 2. P(A B) = P(A) + P(B) - P(A)P(B). Ejemplo Un grupo de estudiantes consta de 60 muchachas y 40 muchachos, de ellos 40 de ellos (24 muchachas y 16 muchachos) usan espejuelos. Si se elije al azar un estudiante, ¿cuál es la probabilidad de usar espejuelos y cuál es la probabilidad de usar espejuelos dado que salió un muchacho? A= Usar espejuelos, B= Ser un muchacho y A B= Ser un muchacho y usar espejuelos. 40 P( A) 0.4 100 P( A B) 16 100 P( A / B) 0.4 P( B) 40 100 Usar espejuelos no depende de que el sexo sea masculino; estos dos sucesos son independientes. Ley de la Probabillidad Total Sea un espacio muestral, A1, …, An subconjuntos de que cumplen las siguientes propiedades: 1. P( Ai ) 0, i 1,..., n. 2. Ai A j , i j. n 3. A . i i 1 entonces n P( A) P( Ai )P( A / Ai ) i 1 Ejemplo En un colegio se imparten solo los idiomas inglés y francés. El 80% de los alumnos estudian inglés y el resto francés. El 30% de los alumnos de ingles son socios del club musical del colegio y de los que estudian francés son socios de dicho club el 40 %. Se elige un alumno al azar. Calcular la probabilidad de que pertenezca al club musical. Sean : A1 " estudiar inglés ", A2 " estudiar francés " y B " pertenecer al club " tenemos que calcular P( B). Usando el teorema anterior : P( B) P( A1 ) P( B / A1 ) P( A2 ) P( B / A1 ) 80 30 20 40 8 0.32 100 100 100 100 25 Teorema de Bayes Tomando en cuenta las condiciones anteriores se cumple que: P Ak / A P( Ak ) P( A / Ak ) n P( A ) P( A / A ) i 1 i i Si las cosas que pueden ocurrir las tenemos clasificadas en los sucesos Ai de los cuales conocemos sus probabilidades P(Ai), y se observa un suceso A, la fórmula de Bayes nos da las probabilidades de los sucesos Ai , ajustadas o modificadas por A. Variables Aleatorias Variables que pueden tomar diferentes valores y el valor tomado es totalmente al azar. Tipos Discretas: Solo toman valores enteros y un número finito de ellos. Continuas: Pueden tomar tanto valores enteros como fraccionarios y un número infinito de ellos. Función de Probabilidad Es la ley que asocia a cada valor de la variable aleatoria X su probabilidad. Se define P( x) P( X x) Función de Distribución Es la ley que asocia a cada valor de la variable aleatoria X, la probabilidad acumulada de este valor . Se define: F ( x) P( X x) Propiedades: 1. 0 F ( x) 1. 2. F ( x) es una función creciente de x. Función de probabilidad discreta Características: 1. Es generada por una variable aleatoria discreta. 2. p( xi ) 0. 3. p( x ) 1. i Función de Distribución Discreta Siendo X una variable aleatoria discreta, se define: k k i 0 i 0 F ( xk ) P( X xk ) P( X xi ) p( xi ) Propiedad: b P(a X b) P( X xk ) k a Ejemplo En una bolsa hay bolas numeradas : 9 bolas con un 1 , 5 con un 2 y 6 con un 3 . Sacamos una bola y vemos que número tienen. xi Pi 1 9/20 2 5/20 3 6/20 xi Fi 1 9/20 2 14/20 3 20/20 Función de Probabilidad Función de Distribución Otras características Media de una variable aleatoria discreta: E( x) xi P( xi ) Varianza de una variable aleatoria discreta: 2 ( xi )2 P( xi ) Distribución Continua Función de densidad f(x): cuando en un histograma de frecuencias relativas de una variable continua aumentamos el nº de clases, vemos que el polígono de frecuencias relativas se acerca a una función f(x) que llamaremos función de densidad y cumple las siguientes propiedades : f x 0 f x dx 1 área encerrada bajo la curva de la función. b f x dx P(a x b) a área bajo la curva correspond iente al intervalo. Función de Distribución Continua Definición: x F ( x) P( X x) f ( y)dy b P(a X b) f ( x)dx F (b) F (a ) a Propiedades: 1. F () 0 y F () 1. 2. 0 F ( x) 1 x. 3. F es una función creciente. Otras características Media de una variable aleatoria continua: x f ( x)dx Varianza de una variable aleatoria continua: 2 ( x ) 2 f ( x)dx Análisis de Varianza Propósito Esta técnica permite la comparación de la media de varios grupos de una variable cuantitativa. Se trata de una generalización de la t de Student para dos muestras independientes. En general, se tendrá una variable nominal (independiente) que formará los grupos a comparar y una cuantitativa continua (dependiente) cuyo valor medio se comparará en los grupos. Estrategia de Solución Una forma de comparar las medias en cada grupo es comparar la variación de la media entre los grupos con la variación de las unidades dentro de los grupos. ¿Es la variación de la media entre los grupos mayor que la variabilidad detro de los grupos? Fuentes de Variación 1. La mayor parte de la variación es debida a las variaciones inherente que existe entre los individuos 2. Parte de la variación es del efecto de los tratamientos. Los pacientes que reciben el mismo tratamiento Los que reciben diferentes tratamientos Generan Variaciones dentro del grupo Variaciones entre los grupos Midiendo la Variación Variación dentro de los grupos La variación entre grupos = Variación de los sujetos (azar) = Variación de los sujetos (azar) + Variación por el efecto de los tratamientos Supuestos del modelo Independencia: Cada conjunto de datos son muestras aleatorias de poblaciones por tanto todas las variables y las observaciones son independientes entre sí. Normalidad: Cada una de las poblaciones de las cuales provienen las muestras deben estar normalmente distribuidas. Homocedasticidad: La varianza de las poblaciones de donde proceden las muestras deben ser homogéneas, iguales. Notaciones Estudiamos k grupos clasificados de acuerdo a los niveles 1,2... k del factor. En cada nivel tenemos n1, n2, ... nk observaciones independientes y obtenidas de forma aleatoria. Si designamos de forma general cada observación como yij, el subíndice i indica el grupo al que pertenece, j es el número de la observación dentro de ese grupo. Si juntamos todas las observaciones N=n1+n2+...+nk, calculamos la media global que vamos a denominar y . También podemos calcular la media dentro de cada uno de los k grupos. La media para el grupo i la designamos como y i . Estructura de los datos 1 2 Y11 Y21 Y12 Y22 … k … Yk1 … Yk 2 … Categorías Observaciones Y1n1 Yn2 2 … Y kn k Y1. Y2. … Yk . Total Y1. Y2. … Yk . Media Plantamiento de las hipótesis H 0 : 1 2 k H1 : i j (No todas las i son iguales.) Estimadores El ANOVA se define como un proceso mediante el cual la variación total se descompone en componentes atribuibles a diferentes fuentes Suma de cuadrado total : k k ni SCtotal ( yij y.. ) 2 donde y.. i 1 j 1 k ni 2 k ni y i 1 k SCtotal ( yij yi. ) ( yi. y.. ) i 1 j 1 Suma de Cuadrado dentro del grupo i. 2 i 1 j 1 Suma de Cuadrado entre los grupos Suma de cuadrado dentro de grupo: Es la desviación al cuadrado de cada observación del grupo con relación a su media. También se conoce con el nombre de cuadrado residual o error. Suma de cuadrado entre grupos: Es la suma de las desviaciones al cuadrado de la media particular de cada grupo con respecto a la media total. Suma de cuadrado total = Suma de + cuadrado dentro Suma de cuadrado entre Para estimar las varianzas, es necesarios dividir los términos entre sus grados de libertad, dando como resultado el cuadrado medio. k SCtotal N 1 ni ( y i 1 j 1 ij 2 k yi. ) N k ni ( y i 1 j 1 i. 2 y.. ) k 1 Cuadrado Medio Total Cuadrado Medio Entre Cuadrado Medio Entre CMtotal CMentre CMentre Test Estadístico Bajo H0 , el cuadrado medio entre y dentro deben ser prácticamente iguales. Si hubiese efecto de algún tratamiento, el cuadrado medio entre grupos sería mayor que el cuadrado medio dentro. Se construye entonces el estadístico: CMentre F CMdentro 1, bajo la hipótesis nula >1, si difieren las medias Distribución del test El estadígrafo de prueba es una razón de varianzas y, bajo la hipótesis nula sigue una distribución F de Fisher. CMentre F ~ F (k 1, N k ) CMdentro G.L de CMentre G.L de CMdentro La regla de desición en este caso es: Rechazar H0 si la F calculada > F tabulada. Tabla ANOVA Fuente Suma de de Cuadrados Variación Entre Grupos k ni ( y ij i 1 j 1 GL 2 yi. ) k-1 SCE k 1 N-k SCD N k N-1 SCT N 1 N k Dentro de Grupos Total k ni ( y i. i 1 j 1 2 y.. ) k 1 k ni ( y i 1 j 1 ij Cuadrado Razón de Medio Varianza s 2 y.. ) N 1 CME CMD Ejemplo En un experimento para comparar los efectos de tres tratamientos alimentarios en niños menores de un año, un grupo de 10 niños se alimentó con leche materna (LM), otro con fórmula basal (FB) y el siguiente con fórmula de leche con nucleótidos suplementarios (FNS). Después de 4 semanas se midieron los niveles de unidad de lipoproteínas en mg/dl. Los resultados fueron los siguientes: LM 56 63 45 41 71 60 78 50 68 62 FB 40 48 60 38 28 44 66 22 45 54 FNS 71 57 64 44 73 50 79 67 84 61 Tabla ANOVA Fuente Suma de de Cuadrados Variación Entre 2245.4 Grupos GL 2 Cuadrado Razón de Medio Varianza s 1122.7 Dentro de Grupos Total 4274.9 27 158.330 6520.4 29 224.84 7.091 Regla de Decisión Fijando un nivel de significac ión del 5%, tenemos que : Fcalculada 7.091 3.35 F (2,27) Por tanto, se rechaza la hipótesis de igualdad de medias. Conclusiones Lo que nos permite concluir de que existe diferencias entre los niveles de lipoproteínas que generan los tres regímenes alimentarios comparados. Gran parte de la variación total observada en los datos puede ser atribuida al efecto de los tratamientos con un nivel de confiabilidad del 95%.