Download analisis exploratorio de datos y probabilidad e
Document related concepts
no text concepts found
Transcript
ANÁLISIS EXPLORATORIO DE DATOS Y PROBABILIDAD E INFERENCIA ESTADISTICA Dr. José Nerys funes Torres Lic. René Armando Peña Aguilar Facultad de Ciencias Naturales y Matemática Escuela de Matemática Departamento de Estadística Universidad de El Salvador Septiembre de 2010. 1 Índice general. Introducción. ............................................................................................................................ 5 Capítulo 1. Conceptos Básicos de Estadística. ................................................... 6 1.1. La Estadística y sus aplicaciones ............................................................................................. 6 1.1.1. ¿Qué es la Estadística? ...................................................................................................... 6 1.1.2. Aplicaciones de la Estadística. .......................................................................................... 6 1.2. Población, Muestra y técnicas de muestreo. .......................................................................... 10 1.3. Unidad de estudio y unidad de muestreo ............................................................................... 13 1.4. Variables y datos .................................................................................................................... 14 1.5. Escalas de medición .............................................................................................................. 15 1.5.1. Escalas nominales ........................................................................................................... 15 1.5.2. Escalas ordinales ............................................................................................................. 16 1.5.3. Escalas de intervalos ....................................................................................................... 16 1.5.4. Escalas de razones o cocientes ........................................................................................ 17 1.6. Diseño de Experimentos estadísticos. .................................................................................... 18 1.7. Guía de ejercicios N° 1........................................................................................................... 18 Capítulo 2. Distribuciones de frecuencias y sus representaciones gráficas ..................................................................................................................................... 20 2.1. Estadística Descriptiva con una variable ............................................................................... 20 2.1.1. Distribución de frecuencias ............................................................................................. 20 2.1.2. Descripción de Variables Cualitativas ............................................................................ 21 2.1.3. Variables cuantitativas discretas. .................................................................................... 29 2.2. Distribución de frecuencias agrupadas. .................................................................................. 30 2.2.1 Representación gráfica de variables continuas ................................................................ 32 2.3. Guía de ejercicios N° 2........................................................................................................... 33 Capítulo 3. Medidas Características de una Distribución Cuantitativa Empírica.................................................................................................................................... 35 3.1 Medidas de posición ........................................................................................................... 35 3.2 Medidas de Dispersión ....................................................................................................... 42 3.3 Medidas de forma ............................................................................................................... 43 3.4. Guía de Ejercicios N° 3. ......................................................................................................... 44 Capítulo 4. Distribuciones Bivariadas ...................................................................... 73 4.1. Distribuciones bidimensionales............................................................................................. 73 4.2. Distribuciones marginales y condicionales. ........................................................................... 74 4.3. Coeficiente de correlación lineal ............................................................................................ 77 4.4. Introducción al modelos de regresión lineal .......................................................................... 77 4.5. Modelo de regresión simple. ................................................................................................. 82 4.5.1. Estimación de los parámetros por mínimos cuadrados ................................................... 82 4.5.2. Propiedades de los estimadores por mínimos cuadrados y el modelo ajustado de regresión. ................................................................................................................................... 84 4.5.3. Intervalos de confianza................................................................................................... 86 2 4.5.4. Prueba de hipótesis de la pendiente y de la ordenada al origen. ..................................... 88 4.6. Predicción de nuevas observaciones ...................................................................................... 89 4.7. Ejercicios. ............................................................................................................................... 98 Capítulo 5. Los Valores Relativos ............................................................................ 101 5.1. Razones, Proporciones, Porcentajes y Tasas. ....................................................................... 101 5.2. Diferencia Relativa ............................................................................................................... 103 5.3. Los números índices ............................................................................................................. 104 5.3.1. Relación entre índices de base fija y variable. .............................................................. 106 5.3.2. Índices agregativos simples ........................................................................................... 107 5.3.3. Índices de precios .......................................................................................................... 108 5.3.4. Índices de cantidad. ....................................................................................................... 109 5.3.5. Cálculo del salario e ingreso real. ................................................................................. 111 5.4. Guía de ejercicios Nº 5. ........................................................................................................ 112 Capítulo 6. Métodos de Conteo. ............................................................................... 114 6.1 Introducción .......................................................................................................................... 114 6.2 Muestras ordenadas. .............................................................................................................. 114 6.3 Variaciones, combinaciones y permutaciones. ..................................................................... 116 6.3.1. Variaciones de N elementos tomados de n en n. ........................................................... 116 6.3.2. Variaciones con repetición de N elementos tomados de n en n. ................................... 116 6.3.3. Permutaciones. ............................................................................................................. 116 6.3.4. Combinaciones. ............................................................................................................. 118 6.4. Teorema del Binomio. .......................................................................................................... 122 6.5. Guía de Ejercicios N° 1. ...................................................................................................... 125 6.6. Soluciónes. ........................................................................................................................... 126 Capítulo 7. Conceptos Básicos de Probabilidad ............................................. 132 7.1 Introducción. ......................................................................................................................... 132 7.2. Experimento aleatorio. ......................................................................................................... 132 7.3. Espacio Muestral. ................................................................................................................ 133 7.4. Sucesos o Eventos ................................................................................................................ 133 7.4.1. Estructuras con subconjunto.......................................................................................... 134 7.5. Axiomas de Probabilidad ..................................................................................................... 136 7.5.1. Probabilidad (Axiomática). ........................................................................................... 136 7.6. Resultado Igualmente Probables o Modelo Uniforme de Probabilidad ............................... 138 7.7. Probabilidad condicional. .................................................................................................... 138 7.8. Independencia de sucesos.................................................................................................... 142 7.9. Ejercicios de cálculo de probabilidad................................................................................... 142 7.9.1. Problemas variados de probabilidad ............................................................................. 147 7.9.2. Hoja 4. Ejercicios de probabilidad (Repaso, Capítulo 6 y 7) ........................................ 153 Capítulo 8. Variables aleatorias y distribuciones de probabilidad ......... 155 8.1. Nociones básicas .................................................................................................................. 155 8.2. Distribución de probabilidad binomial ................................................................................. 159 8.3. Distribución de Poisson ........................................................................................................ 161 3 8.4. Distribución geométrica ....................................................................................................... 165 8.5. Distribución hipergeométrica ............................................................................................... 166 8.6. Densidad uniforme ............................................................................................................... 169 8.7. Densidad normal o de Gauss ................................................................................................ 172 8.8. Aproximación de la binomial por medio de la normal......................................................... 175 8.9. Ejercicios. ............................................................................................................................. 175 Capítulo 9. Estimación de Parámetros. ................................................................. 178 9.1. Distribución de la medida de la muestra. ............................................................................. 178 9.2. Distribución de la diferencia entre las medias de dos muestras. .......................................... 180 9.3. Distribución de la proporción de la muestra. ....................................................................... 184 9.4. Distribución de la diferencia entre las proporciones de dos muestras. ................................ 186 9.5. Intervalos de confianza......................................................................................................... 188 9.5.1. Selección del tamaño de la muestra .............................................................................. 192 Capítulo 10. Contraste de hipótesis. ...................................................................... 198 10.1.- Introducción ...................................................................................................................... 198 10.2. Nociones básicas ................................................................................................................ 198 10.3. Procedimiento sistemático para una prueba de hipótesis de una muestra. ......................... 199 10.4. Procedimiento sistemático para una prueba de hipótesis de dos muestras independientes.202 10.5. Prueba de hipótesis para una y dos proporción independientes ........................................ 202 Bibliografía ............................................................................................................................ 206 4 Introducción. La estadística como herramienta para el análisis de los datos es esencial en los profesionales que con frecuencia tienen la necesidad de realizar análisis de datos para la toma de decisiones. Este libro, recoge en 10 capítulos conocimientos estadísticos básicos que van desde el análisis descriptivo de datos, probabilidad e inferencia estadística. Debemos aclarar que los métodos descriptivos aquí propuestos son elementales univariantes y en el enfoque de la probabilidad sólo hemos considerado espacios probabilísticos discretos incluyendo dos continuas la uniforme y la normal. Este libro, es recomendables para principiantes en el área de estadística. Los conocimientos aquí planteados son base para ir enfrentando otros de estadística de mayor dificultad. 5 Capítulo 1. Conceptos Básicos de Estadística. 1.1. La Estadística y sus aplicaciones 1.1.1. ¿Qué es la Estadística? La Estadística es una ciencia que estudia las características de un conjunto de casos para hallar en ellos regularidades en el comportamiento, que sirven para describir el conjunto y para efectuar predicciones. La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un conjunto de objetos, personas, procesos, etc. A través de la cuantificación y el ordenamiento de los datos intenta explicar los fenómenos observados, por lo que resulta una herramienta de suma utilidad para la toma de decisiones. Bajo este contexto, la Estadística se divide en dos áreas: Estadística Descriptiva y Estadística Inferencial. ESTADÍSTICA DESCRIPTIVA: permite organizar y presentar un conjunto de datos de manera que describan en forma precisa las variables analizadas haciendo rápida su lectura e interpretación. Obviamente, la materia prima de la Estadística Descriptiva la constituyen los datos, que son el resultado de las observaciones y/o experimentos. Ejemplos: 1. Durante los últimos dos días se ha informado de un total de trece homicidios diarios. 2. La encuesta Gallup informa una ventaja de 25% para el candidato de izquierda. ESTADÍSTICA INFERENCIAL: Generaliza los resultados de una muestra a los de una población total, es cuando de los datos estadísticos obtenidos de una muestra se infiere o se deduce una observación la cual se generaliza sobre la población en total. Para determinar la confiabilidad de la inferencia de los datos estadísticos de una muestra, se hace necesario comprobar la misma para poder asegurar que lo que se observa en una muestra se observará también en la población. Generalmente el análisis estadístico inferencial se lleva a cabo para mostrar relaciones de causa y efecto, así como para probar hipótesis y teorías científicas. 1.1.2. Aplicaciones de la Estadística. Mucha gente piensa que la Estadística no tiene nada que ver con otras disciplinas que no sean las ingenierías y economía. Otros nunca le encuentran aplicaciones útiles, y por eso tampoco les gusta. Pero, en realidad tiene infinitas aplicaciones en todo el conocimiento adquirido por la humanidad, partiendo ante todo, lo relacionado con las ingenierías, economía, las ciencias biológicas, ciencias sociales e incluso en algunas ramas del área Jurídica. Y, en definitiva, casi todos los campos de las ciencias emplean instrumentos estadísticos de importancia fundamental para el desarrollo de sus modelos de trabajo. 6 En nuestros días, la estadística se ha convertido en un método efectivo para describir con exactitud los valores de los datos económicos, políticos, sociales, psicológicos, biológicos y físicos, entre otros, y sirven como herramienta para relacionar y analizar dichos datos. El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino el proceso de interpretación de esa información a través de modelos estadísticos-matemáticos, aumentando el alcance de las aplicaciones de la estadística, esto se ha logrado, gracias al desarrollo de la teoría de probabilidad. Dentro de las Aplicaciones de la Estadística se destacan las siguientes: 1. La Estadística en el Periodismo En general, los periodistas además de dedicarse al ámbito de la noticia, realizan crónicas y estudios de investigación, que nos entregan preguntas y respuestas frente a determinados sucesos o situaciones de interés público. Algunos de los estudios más frecuentes realizados por los periodistas son sobre alcoholismo, enfermedades, sexualidad, delincuencia, política, etc. Para ello, hacen uso de las encuestas u otros instrumentos técnicos de medición propios de la estadística, a través de dichos estudios es posible conocer la opinión de la gente y con ello informar a la opinión pública, a través de los medios de comunicación, desde donde las autoridades pertinentes e interesadas en estos estudios pueden adoptar las medidas correctivas, si es el caso. Tal es así, que la estadística forma parte importante del periodismo investigativo. 1. La Estadística en la Política Conocidas son las famosas encuestas de tipo político, que entregan una orientación de la intención de voto, de la aceptación de un candidato, del impacto de un programa o proyecto de estado, etc. de una muestra estadística representativa, sobre la opinión de las personas en un tiempo determinado, teniendo esta herramienta una gran confiabilidad. Así es que el uso de la estadística es imprescindible para determinar caminos a seguir para los candidatos de elección popular. 2. La Estadística en la Publicidad Cuando las grandes marcas trasnacionales y/o nacionales como Coca-cola, Pepsi, Nice, Adidas, Laboratorios López, etc. nos llenan de slogans, música y colores en sus comerciales, lo único que buscan es que la gente adquiera los productos y/o servicios que ofrecen. Se dedican, entonces, a realizar las llamadas “campañas publicitarias”, y, antes de lanzar una campaña, hacen un estudio de mercado para encontrar las mejores alternativas posibles a fin de lograr el éxito de ventas deseado. Estos estudios son de carácter estadístico, es decir, hacen un diseño muestral y seleccionan una muestra para inferir las características de la población. 3. La Estadística en la economía y las finanzas. En la administración es una herramienta del control, como parte del proceso administrativo (o lo que es lo mismo: planeación, organización, dirección y control) ya que la estadística ayuda a 7 recolectar, estudiar y al final interpretar los datos que obtienen al terminar el proceso administrativo, retroalimenta con esta información y al final se observa en que pueden mejorar y que se está haciendo bien. En la mercadotecnia es una herramienta muy importante cuando tienes la necesidad de trabajar con datos de muestreo para conocer los gustos y preferencias de las personas. Igualmente en la auditoria administrativa cuando recabas datos para conocer en que puede mejorar una organización. En pocas palabras te puede servir en cualquier área de una organización debido a que muestra los resultados de las actividades que bienes realizando. En la economía se utiliza como una herramienta de predicción para pronosticar el comportamiento futuro, por ejemplo, de los precios de los metales (oro, plata, cobre) tomando como base el comportamiento pasado de los precios de los mismos. También puede servir para estudiar el comportamiento de la bolsa de valores, de ciertos productos básicos, los economistas por lo regular se sienten magos que creen predecir cosas. En general, la Estadística suministra los valores que ayudan a descubrir interrelaciones entre múltiples parámetros macro y microeconómicos, a través de la evaluación de modelos econométricos para el establecimiento de políticas económicas; análisis del costo de la canasta básica, el poder adquisitivo de la población, etc. 5. La estadística en la Banca y Seguros El profesional del seguro de vida ha de ser capaz de asignar primas suficientes para cubrir las cantidades que habrá de pagar la compañía en el caso de muerte del asegurado. En consecuencia, la predicción adecuada de las probabilidades de muerte constituye uno de los ejes centrales de la reducción del riesgo que se asume. Por ello, el objetivo de la Estadística de Seguros es una presentación exhaustiva de los métodos disponibles para ajustar tablas de mortalidad y tablas de seguros no vida, ejemplo, aseguramiento de vehículos, viviendas, etc. Por otra parte, algunas de las aplicaciones concretas de la Estadística en el sistema bancario son las siguientes: Sistemas de concesión de tarjetas de crédito y fijación de su límite. Sistemas de estimación del potencial económico de los clientes. Definición de tipologías comerciales de clientes. Determinación del público objetivo en campañas comerciales. Modelización del riesgo según las características de los clientes. Aplicación de la teoría de colas para brindar un servicio de calidad. Finalmente, es de mucha utilidad la técnica de minería de datos para el análisis de bases de datos del sistema bancario. 6. La estadística en ciencias humanas y sociales La investigación en Psicología, Sociología y Educación, al igual que ocurre en otras ciencias, en buena medida se basa en el manejo de recursos estadísticos como elementos indispensables para 8 llegar a conclusiones aceptables por el resto de la comunidad científica. Dada la peculiaridad de su objeto de estudio, inabordable en la mayoría de los casos sino es a través de perspectivas complejas de relación entre variables, la atención de los investigadores en las ciencias humanas y sociales se concentra cada vez más en la llamada Estadística Multivariante (Análisis Cluster, Factorial, Discriminante, etc.). Las ciencias sociales se han visto apabulladas en los últimos años por avances vertiginosos en informática y aplicaciones estadísticas, por ejemplo, en El Salvador, se ha elaborado el Mapa de Pobreza, donde se ha interrelacionado una gran variedad de variables de diferentes áreas: Educativas, Económicas, Salud, entre otras. También, se ha hecho investigación sobre los factores que están asociados al rendimiento académico de los estudiantes, finalmente, se han utilizado diferentes técnicas para el análisis de los resultados académicos de los estudiantes. Las ciencias sociales: es un pilar básico del desarrollo de la demografía y la sociología aplicada, lo que conlleva a: Definición de indicadores de fenómenos sociales. Medición de constructos o variables no directamente observables (la satisfacción, la inteligencia, ...) Medición de los efectos entre constructos no observables para establecer políticas sociales. Estudio de la evolución de la demografía. Estudios sociales sobre la integración de la población inmigrada. Fenómenos sociales como las pandillas, criminalidad, delincuencia, contaminación, entre otros. 7. La estadística en las ciencias químicas. En Química, la estadística se aplica en varias áreas: En el diseño de experimentos se usan métodos estadísticos, en el control de procesos y control de calidad (o gerenciamiento de calidad) de procesos y productos. En EEUU está muy de moda el sistema seis sigma, creado por general electric, que utiliza algunos conceptos estadísticos para lograr el aseguramiento de la calidad. Por otra parte la producción química tiene su costo económico y financiero que también requiere mucho uso de estadística, por ejemplo, si no se elabora un buen diseño experimental, se necesitarán muchas réplicas para validar una formulación química. Algunas de las aplicaciones concretas que podemos mencionar: Utilización de diseños experimentales para optimizar la composición de productos alimenticios. Evaluación de la superficie de respuesta de una reacción química según determinados factores. Predicción del comportamiento de un componente no sintetizado a partir de las propiedades moleculares de sus descriptores. Control de procesos de producción para detectar problemas evitando a su vez falsas alarmas. 9 8. La estadística en Ciencias biológicas. En el área de las ciencias biológicas, interesa estudiar el comportamiento de ciertas plantas y sus cruces a fin de determinar cómo se relacionan genéticamente los padres con los hijos, hablando de Genotipo y Fenotipo. En esta categoría es también donde se realizan los mayores avances de la humanidad, en descubrimientos. Cada año se descubren miles de fórmulas científicas que relacionan fenómenos de la naturaleza con modelos matemáticos. Los científicos se dedican a realizar estudios estadísticos, recogiendo datos y muestras, investigando el tiempo de reproducción de un virus, el comportamiento migratorio de algunas aves o insectos, además de factores de tamaño y volumen del crecimiento de ciertas especies de animales o vegetales. Todo esto funciona con la idea de recopilar información, muestrear ciertas áreas para ver cómo se han comportado algunas aves, por ejemplo, se pueden dibujar o simular curvas que se supone que son relativamente parecidas al comportamiento migratorio de aves. Con esta herramienta se podrían determinar también las épocas de mayor probabilidad de contagio, diseminación de algún virus o bien enfermedades transmitidas por insectos. Algunas aplicaciones concretas en esta área son: Determinación del tamaño de poblaciones naturales en una región; efectividad de la utilización de barreras naturales (filas de árboles plantados en los límites del terreno) como medio de prevenir las plagas de insectos o aves sobre las plantaciones y así disminuir la utilización de pesticidas: y, determinación de los niveles óptimos de utilización de los fertilizantes. Obviamente, en esta área es donde más se hace usos de la teoría de Diseños de Experimentos. 9. La estadística en las ciencias médicas. Permite establecer pautas sobre la evolución de las enfermedades y los enfermos, los índices de mortalidad asociados a procesos morbosos, el grado de eficacia de un medicamento, etcétera. Bajo este conjunto de ideas, se ha presentado un panorama de la utilidad de la estadística, haciendo un recorrido por diversas áreas del conocimiento humano, con el fin, de conocer cómo se relacionan con las diversas ciencias, formando una sola verdad. Evidentemente, existen, muchas disciplinas donde se aplica la estadística, que no han sido consideradas en este apartado, por ejemplo, las ingenierías, la pintura, la música, etc. Finalmente, es de resaltar que en todos los temas donde se analice información está presente la estadística. 1.2. Población, Muestra y técnicas de muestreo. Las estadísticas de por sí no tienen sentido si no se considera o se relaciona dentro del contexto con que se trabajan. Por lo tanto es necesario entender los conceptos de población y de muestra para lograr comprender mejor su significado en la investigación educativa o social que se lleva a cabo. POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas características comunes observables en un lugar y en un momento determinado. Cuando se vaya a llevar a cabo alguna investigación debe de tenerse en cuenta algunas características esenciales al seleccionarse la población bajo estudio. Entre éstas tenemos: 10 Homogeneidad - que todos los miembros de la población tengan las mismas características según las variables que se vayan a considerar en el estudio o investigación. Por ejemplo, si se fuera a investigar la incidencia de la drogadicción entre jóvenes mujeres adolescentes, entonces hay que definir claramente las edades que comprenden la adolescencia y cuando se seleccione la población asegurarse de que todas las personas entrevistadas sean de la edad determinada y del sexo femenino. (La adolescencia se define operacionalmente como el periodo comprendido de edad que fluctúa entre 12 y 21 años.) Tiempo - se refiere al período de tiempo donde se ubicaría la población de interés. Determinar si el estudio es del momento presente o si se va a estudiar a una población de cinco años atrás o si se van a entrevistar personas de diferentes generaciones. Espacio - se refiere al lugar donde se ubica la población de interés. Un estudio no puede ser muy abarcador y por falta de tiempo y recursos hay que limitarlo a un área o comunidad en específico. Cantidad - se refiere al tamaño de la población. El tamaño de la población es sumamente importante porque ello determina o afecta al tamaño de la muestra que se vaya a seleccionar, además que la falta de recursos y tiempo también nos limita la extensión de la población que se vaya a investigar. MUESTRA - la muestra es un subconjunto fielmente representativo de la población. Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione dependerá de la calidad y cuán representativo se quiera que sea el estudio de la población, en este sentido, la muestra puede ser: ALEATORIA - cuando se selecciona al azar y cada miembro tiene igual oportunidad de ser incluido. Un procedimiento de extraer una muestra aleatoria de una población finita es: enumerar todos los elementos que conforman la población, escribir esos números en papelitos y echarlos en una urna o bolsa mezclarlos bien removiéndolos y sacar uno a uno tantos como lo indique el tamaño de la muestra. En este caso los elementos de la muestra lo constituirán los elementos de la población cuyos números coincidan con los extraídos de la bolsa o urna. El tamaño de la muestra (MAS): Al realizar un muestreo probabilística nos debemos preguntar ¿Cuál es el número mínimo de unidades de análisis (personas, organizaciones, capítulo de telenovelas, etc), que se necesitan para conformar una muestra n que me asegure un error estándar menor que 0.01 ( fijado por el muestrista o investigador), dado que la población es aproximadamente de N elementos. En el tamaño de una muestra de una población se debe tener presente la varianza poblacional, error máximo permisible prefijado (diferencia del parámetro y estimador), con un nivel de confianza de 1 . Simbólicamente se refiere a lo siguiente: P X d 1 , bajo este contexto podemos utilizar la fórmula: 11 Ejemplo. Se desea estimar la estatura promedio de los estudiantes de la asignatura de Tratamiento de la Información Estadística. Se sabe que la estatura de un estudiante es una variable aleatoria con distribución normal. Determine el tamaño de muestra aleatoria necesaria para garantizar una probabilidad igual a 0.95 de que el estimador y el parámetro se diferencien en menos de 10cm. Solución. Datos conocidos. d= 10cm Calcular: , Z 1 =1.96 2 : Para calcular la desviación estándar hay que solicitar la estatura de cada estudiante y luego 2 1 n xi x , posteriormente se n i 1 obtiene la raíz cuadrada y ese es el valor que se debe utilizar en esta ecuación. Supongamos que =12cm, entonces: calcular la varianza utilizando la siguiente fórmula: S X2 Determinar: Z 1 2 n d 2 2 n 12(1.96) 5.53 n 6 , se requiere una muestra de 6 10 estudiantes para cumplir las hipótesis del problema. ESTRATIFICADA - cuando se subdivide en estratos o subgrupos según las variables o características que se pretenden investigar. Cada estrato debe corresponder proporcionalmente a la población. k El número determinado de elementos muestrales es: n ni , donde ni es el número de i 1 elementos en el estrato i=1, 2, …, k . No se entrará en detalle del cálculo del tamaño muestral, ya que supera el alcance de esta asignatura. 12 SISTEMÁTICA - cuando se establece un patrón o criterio al seleccionar la muestra. Ejemplo: se entrevistará una familia por cada diez que se detecten. El muestreo es indispensable para el investigador ya que es imposible entrevistar a todos los miembros de una población debido a problemas de tiempo, recursos y esfuerzo. Al seleccionar una muestra lo que se hace es estudiar una parte o un subconjunto de la población, pero que la misma sea lo suficientemente representativa de ésta para que luego pueda generalizarse con seguridad de ellas a la población. El tamaño de la muestra depende de la precisión con que el investigador desea llevar a cabo su estudio, pero por regla general se debe usar una muestra tan grande como sea posible de acuerdo a los recursos que haya disponibles. Es de especificar que para cada método de muestreo existen fórmulas para determinar el tamaño de muestra. 1.3. Unidad de estudio y unidad de muestreo La unidad de análisis o estudio corresponde a la entidad mayor, primaria o representativa de lo que va a ser objeto específico de estudio en una medición y se refiere al qué o quién es objeto de interés en una investigación. Por ejemplo: Condiciones de hacinamiento de las familias del Municipio de Soyapango, San Salvador. Unidad de Análisis: Familias del Municipio de Soyapango. Debe estar claramente definida en un protocolo de investigación y el investigador debe obtener la información a partir de la unidad que haya sido definida como tal, aun cuando, para acceder a ella, haya debido recorrer pasos intermedios. Las unidades de análisis pueden corresponder a las siguientes categorías o entidades: Personas Grupos humanos Poblaciones completas Unidades geográficas determinadas Eventos o interacciones sociales (enfermedades, accidentes, casos de infecciones intrahospitalarias, etc) Entidades intangibles, susceptibles de medir (exámenes, días, camas) El tipo de análisis al que se someterá la información es determinante para elegir la unidad de análisis. Por ejemplo, si el objetivo es dar cuenta de la satisfacción del usuario de un servicio médico, la unidad de análisis natural es el paciente atendido, o la persona que se atiende en ese servicio médico. Si el objetivo es dar cuenta de la satisfacción del alumno sobre el desempeño docente, la unidad de análisis es el alumno que recibe clases con el docente evaluado. 13 La unidad de muestreo corresponde a la entidad básica mediante la cual se accederá a la unidad de análisis. En algunos casos, ambas se corresponden. Por ejemplo, si se desea estimar la prevalencia de daño auditivo en relación con niveles de ruido ambiental en una muestra de trabajadores de una fábrica, la unidad de muestreo puede corresponder a la entidad "sujeto", si se dispone de un registro detallado de cada sujeto. La unidad de análisis es por cierto el trabajador de la fábrica. 1.4. Variables y datos VARIABLES Las variables son las características observables de un objeto, problema o evento que se puede describir según un esquema de medición bien definido. Cada rasgo o aspecto de una población constituye una variable. La edad de unas personas, su sexo, color de su piel, nacionalidad, su nivel de motivación, niveles de ansiedad, el número de nacimientos, número de matrimonios, frecuencia de suicidios, estatura, peso, niveles de inteligencia, actitudes, entre muchas otras. Las variables pueden adquirir diferentes valores o clasificarse en diferentes categorías según la naturaleza o tipo de estudio que se lleve a cabo. Entre éstas tenemos las siguientes clasificaciones: VARIABLES CUALITATIVAS - son aquellas que se expresan en forma verbal como categorías o atributos. Por ejemplo, el sexo, color, afiliación política, nacionalidad, motivación, área académica o profesión de una persona. VARIABLES CUANTITATIVAS - son las que varían en términos de cantidad y se registran o expresan en forma numérica. Por ejemplo, edad, promedio académico, puntuaciones de exámenes, frecuencia de delitos, temperatura, ingresos anuales o salarios por hora. Hay algunas características que pueden clasificarse o expresarse como variable cuantitativa y transformarla a cualitativa o viceversa. Por ejemplo, nivel de aprovechamiento académico estudiantes de 4:00 puntos, o estudiantes de 3:00 puntos y así sucesivamente. El investigador puede expresar mediante una escala numérica el aprovechamiento académico al clasificar a los estudiantes, como también puede clasificarlos como variable cualitativa en las categorías de excelentes, buenos, regulares y deficientes. VARIABLES DISCRETAS - son aquellas que sólo adquieren un valor absoluto o específico que nunca cambian. Pueden ser cualitativas. Ejemplo: el sexo, nacionalidad, grupo étnico, entre otras. VARIABLES CONTINUAS - que siempre son cuantitativas, son las que pueden asumir cualquier valor. Por ejemplo, la edad, altura, peso, índice académico. En el campo de la investigación, que se suele examinar las relaciones entre dos o más variables al investigar un asunto o problema, se clasifican las variables como: VARIABLES INDEPENDIENTES - son las características controladas por el investigador y que se supone tendrán efectos sobre otras variables. 14 VARIABLES DEPENDIENTES - son las características o aspectos que se alteran por consecuencia del control que ejerce el investigador sobre otras variables. Estos dos últimos tipos de variables suelen darse más en estudios o investigaciones experimentales, pero también podemos considerarlas en estudios descriptivos. Por ejemplo, en un estudio experimental se investiga si un nuevo medicamento mejora las condiciones del sida. A tales efectos se seleccionaron 30 pacientes, de los cuáles 15 recibían el nuevo medicamento (grupo experimental) y otros 15 continuaban con su tratamiento tradicional (grupo control). El nuevo medicamento viene a ser la variable independiente porque es la que los investigadores controlan y que luego examinarán sus efectos en la condición del sida, la cual viene a ser la variable dependiente, porque es la condición que se va alterar o quedar afectada por el nuevo medicamento. En un estudio descriptivo donde interesa saber si la clase social es factor determinante en el aprovechamiento académico en las escuelas, entonces la clase social es la variable independiente y el aprovechamiento académico la dependiente. Una variable puede ser independiente en una investigación y dependiente en otra, todo dependerá de la finalidad de la investigación. Por ejemplo, si se lleva a cabo un estudio para determinar cómo las condiciones socio-económicas influyen a la drogadicción, en este caso, status socioeconómico es una variable independiente. Por el contrario, si se lleva a cabo una investigación para saber cómo la drogadicción afecta las condiciones sociales y económicas, entonces, el status socio-económico resultaría ser la variable independiente. DATOS: son los hechos que describen sucesos y entidades. 1.5. Escalas de medición Una escala es un esquema específico para asignar números o símbolos con el objeto de designar características de una variable. Las escalas de medición comúnmente conocidas son: nominales, ordinales, de intervalos y de razón. A continuación veamos los cuatro tipos de escalas de medición. 1.5.1. Escalas nominales Las escalas nominales son aquellas donde se clasifican los objetos, personas o variables en categorías cualitativamente distintas. Consiste simplemente en agrupar objetos en clases o asignar las personas de acuerdo a alguna cualidad una vez que los objetos o personas posean características comunes que lo hagan pertenecer a una categoría. Por ejemplo, todos los estudiantes que obtuvieron sobre 9 puntos fueron clasificados como excelentes, los que obtuvieron menos de 8.9 pero más de 8.0 como muy buenos y de 7.0 a 7.9 como buenos. En una redada de drogas se arrestaron 22 mareros, cuatro acusados de homicidios, ocho acusados de violación y diez por extorciones. Se pueden utilizar números en las escalas nominales, pero éstos no representan magnitudes absolutas. Los números sólo se utilizan con el propósito de clasificarlos a determinada categoría. 15 Por ejemplo, si vas a comprar pintura azul en la ferretería te presentan una escala con diferentes tonalidades del color azul y cada tonalidad posee un número, pero este número sólo es para facilitar al vendedor identificar el color solicitado entre cientos de colores. De igual modo en muchas solicitudes se le asigna el número 1 al sexo masculino y número dos al femenino y esta clasificación sólo es para facilitar los cómputos y manejos de información estadística, pero no quiere decir que los masculinos tengan más o menor valor que las del sexo femenino. Los números que se utilizan para efectos de identificación en una escala nominal nunca se utilizarán para llevar a cabo los procedimientos matemáticos de suma, resta, multiplicación y división. 1.5.2. Escalas ordinales Las escalas ordinales son las que clasifican a las personas, eventos u objetos en una posición con relación a cierto atributo, pero sin indicar la distancia que hay entre las posiciones. Cuando se asignan números es sólo para indicar el orden de las posiciones de lo que se está clasificando. Por ejemplo, en un determinado grupo escolar se decidió seleccionar los cinco estudiantes con el promedio más alto para premiarlos con un viaje al Lago de Coatepeque y resultó que Esteban quedó tercero con un promedio de 8.90, seguido de Jorge con 8.88 y, luego Leticia con 8.75. Esteban como tercero se le asigna el número tres, pero ésta designación numérica sólo indica su posición con relación a los otros cuatro alumnos. Sabemos que Esteban tiene un mejor promedio que Jorge y que su promedio es superior que el de Leticia. Sin embargo, no podremos saber hasta qué punto es mejor su promedio comparado con los otros. Con las escalas ordinales tampoco se pueden llevar a cabo las operaciones aritméticas de suma, resta, multiplicación y división. La diferencia que puede haber entre unas personas u objetos en este tipo de escala no necesariamente constituye unidades iguales o absolutas que puedan utilizarse para determinar si el que tiene un segundo lugar posee el doble valor que el que queda en cuarta posición. Por ejemplo, en un evento atlético de una carrera que no haya sido cronometrada, podemos saber quién llegó primero, segundo y tercer lugar, pero no podemos saber con precisión la velocidad entre un corredor y otro. La diferencia que hay entre el primero y el segundo no necesariamente es igual a la que hubo entre el segundo y el tercero. 1.5.3. Escalas de intervalos Las escalas de intervalos son aquellas que ordenan los objetos o eventos según la magnitud del atributo que representan y proveen intervalos iguales entre las unidades de medida. Además, no poseen un punto cero absoluto o verdadero ya que el mismo es establecido por convención de forma arbitraria por los expertos en el área o materia de estudio y no implica la ausencia del atributo o la propiedad en cuestión. Por ejemplo, la escala de inteligencia posee un punto cero, pero administrando cualquier tipo de prueba que intente medir la inteligencia, nunca va a encontrar un ser humano con cero inteligencia. De igual modo si el agua está en 0 grado °C, esto no quiere decir que carezca de temperatura, ya que en una escala de intervalos, como se ha indicado, es una designación arbitraria y convencional. Una diferencia de cierta magnitud en una escala de intervalos significa lo mismo en todos los puntos de la escala. Así por ejemplo, en los termómetros de grados Fahrenheit y centígrados que 16 utilizan este tipo de escalas, están divididos en unidades iguales, la diferencia en la temperatura entre 100 grados y 101 grados es equivalente a la diferencia entre 110 grados y 111 grados. La numeración de los años en nuestro calendario utiliza también una escala de intervalos. Las autoridades eclesiásticas y gubernamentales de la época decidieron arbitrariamente fijar como el año 1 el del nacimiento de Cristo y como unidad de medida un lapso de 365 días. Por lo tanto, el lapso de tiempo que estuvo Bill Clinton como presidente de los Estados Unidos desde 1993 – 2001 es igual al que transcurrió George Bush desde 2001 – 2009. 1.5.4. Escalas de razones o cocientes Las escalas de razones o cocientes se diferencian de las de intervalos solamente en que la de razones el punto cero no es arbitrario y corresponde a una total ausencia del asunto o propiedad estudiada. La escala de una simple regla de 12 pulgadas posee una escala de razones la cual está dividida en 12 unidades cada una de igual magnitud y parte de un punto cero absoluto y verdadero. La mayoría de las variables con las cuales se utiliza este tipo de escalas se refieren más a la ejecución de tareas motoras, a las medidas de objetos y de aspectos fisiológicos. Dos ejemplos de las escalas de razones y cocientes son: las medidas de la estatura y el peso. Si una columna mide seis metros es el doble de alto de otra columna que mide tres metros. Si Enrique pesa 180 libras, entonces pesa el doble que María quién pesa 90 libras. Las razones de los números en estas escalas tienen un determinado sentido, lo que hace posible que se interpreten los valores numéricos entre las cantidades obtenidas de los objetos. Además pueden llevarse a cabo las diferentes operaciones matemáticas. RESUMEN: CARACTERÍSTICAS, EJEMPLOS Y LIMITACIONES DE LAS ESCALAS DE MEDICIÓN ESCALA CARACTERÍSTICAS USOS/EJEMPLOS LIMITACIONES Nominal Se clasifican las personas, eventos u objetos en categorías. No se pueden precisar diferencias cuantitativas entre las categorías. Ordinal Se clasifican u ordenan las personas, objetos y eventos en determinada posición. Intervalo Escala que posee unidades de igual magnitud. El punto cero de la escala es arbitrario y no refleja la ausencia del atributo. Escala que posee un punto cero absoluto e intervalos de igual magnitud. Denominaciones religiosas, afiliación político partidista, codificaciones en la clasificación de objetos, pinturas, movimientos literarios. Orden de llegada de atletas en una carrera, puntuaciones de una prueba, rangos militares, nivel de popularidad de estudiantes en una escuela. Temperaturas (Celsius y Fahrenheit), fechas del calendario, escala de inteligencia. Distancia, peso, estatura, tiempo requerido para realizar una tarea escolar. Ninguna, excepto que su uso se supedita mayormente a medir cualidades físicas más que para la medición de aspectos psicológicos. Razones Restringida para Identificar diferencias relativas, pero no precisa diferencias en cantidad absoluta entre personas u objetos. Razones no tienen sentido ya que el punto cero es establecido convencionalmente. 17 1.6. Diseño de Experimentos estadísticos. El diseño de un experimento es la secuencia completa de los pasos que se deben tomar de antemano, para planear y asegurar la obtención de toda la información relevante y adecuada al problema bajo investigación, la cual será analizada estadísticamente para obtener conclusiones válidas y objetivas con respecto a los objetivos planteados. Un Diseño Experimental es una prueba o serie de pruebas en las cuales existen cambios deliberados en las variables de entrada de un proceso o sistema, de tal manera que sea posible observar e identificar las causas de los cambios que se producen en la respuesta de salida. El propósito de cualquier Diseño Experimental, es proporcionar una cantidad máxima de información pertinente al problema que se está investigando. Y ajustar el diseño que sea lo más simple y efectivo; para ahorrar dinero, tiempo, personal y material experimental que se va a utilizar. Es de acotar, que la mayoría de los diseños estadísticos simples, no sólo son fáciles de analizar, sino también son eficientes en el sentido económico y en el estadístico. De lo anterior, se deduce que el diseño de un experimento es un proceso que explica tanto la metodología estadística como el análisis económico. DISEÑO: Consiste en planificar la forma de hacer el experimento, materiales y métodos a usar, etc. EXPERIMENTO: Conjunto de pruebas o ensayos cuyo información, que permita mejorar el producto o el proceso en estudio. objetivo es obtener 1.7. Guía de ejercicios N° 1. 1. Contestar verdadero o falso y comentar su respuestas según sea el caso: a) La Estadística es una ciencia que estudia y describe las características de un conjunto de casos. b) La estadística inferencial generaliza los resultados de una muestra a los de la población total. c) Durante los últimos dos días se ha informado de un total de cinco homicidios diarios en San Salvador, este es un ejemplo de estadística inferencial. d) A las medidas que se obtienen de una muestra se les da el nombre de parámetro. e) En una muestra aleatoria ciertos elementos tienen mayor probabilidad que otros de ser seleccionados. 2. Mediante ejemplos, explicar la diferencia entre la estadística descriptiva y estadística inferencial. 18 3. POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas características comunes observables en un lugar y en un momento determinado. A partir de esta definición enumere las características de una población. 4. Describir dos ejemplos de población. 5. Describir dos ejemplos de muestra de una población. 6. Definir al menos dos tipos de muestreo y dar ejemplos de aplicación de cada uno. 7. Se desea estimar la edad promedio de los estudiantes de la asignatura de Tratamiento de la Información Estadística. Se sabe que la edad de un estudiante es una variable aleatoria con distribución normal con desviación estándar de 6años. Determine el tamaño de muestra aleatoria necesaria para garantizar una probabilidad igual a 0.95 de que el estimador y el parámetro se diferencien en menos de 5años. 8. Establecer las diferencias entre la unidad de análisis y la unidad muestral. 9. Establecer las diferencias entre variables cualitativas y cuantitativas. 10. Definir al menos dos ejemplos de variables cualitativas y de variables cuantitativas. 11. Establecer las diferencias entre variables discretas y continuas. 12. Definir al menos dos ejemplos de variables discretas y de variables continuas. 13. Definir las siguientes escalas de Medición y presentar dos ejemplos de cada una de ellas: Escala nominal Escala ordinal Escala de intervalo. Escala de razón 19 Capítulo 2. Distribuciones de frecuencias y sus representaciones gráficas. 2.1. Estadística Descriptiva con una variable La estadística descriptiva permite organizar y presentar un conjunto de datos de manera que describan en forma precisa las variables analizadas haciendo rápida su lectura e interpretación. Obviamente, la materia prima de la Estadística Descriptiva la constituyen los datos, que son el resultado de las observaciones y/o experimentos. Se denomina variable al carácter o fenómeno de la realidad objeto de estudio. Las variables pueden ser de diferentes tipos, dependiendo de los datos que la forman. Cualitativas o atributos Variables Cuantitativas : Discretas o Continuas Las variables cualitativas o atributos son aquellas que no toman valores numéricos. Describen diferentes cualidades denominadas modalidades. Ejemplo: Sexo, estado civil, color de los ojos, etc. Las variables cualitativas están formadas por datos que toman valores numéricos y pueden ser discretas, si sólo toman un número entero de valores, y continuas, si pueden tomar cualquier valor real dentro de un intervalo. Entre los sistemas para ordenar los datos se encuentran principalmente dos: a) la distribución de frecuencias y b) la representación gráfica. 2.1.1. Distribución de frecuencias Supongamos que hemos recogido un conjunto de n datos englobados en una variable X. La tabla que recoge de modo sistemático estos datos se denomina distribución de frecuencias. La Distribución de Frecuencias (Simples o agrupadas en intervalos). Comúnmente llamada tabla de frecuencias, se utiliza para hacer la presentación de datos provenientes de las observaciones realizadas en el estudio, estableciendo un orden mediante la división en clases y registro de la cantidad de observaciones correspondientes a cada clase. Lo anterior facilita la realización de un mejor análisis e interpretación de las características que describen y que no son evidentes en el conjunto de datos brutos o sin procesar. 20 La siguiente tabla recoge las principales características de una distribución de frecuencias simple o no agrupada. Datos x1 Frecuencias Absolutas Simples Acumuladas N1 n1 n1 Frecuencias Relativas Simples Acumuladas f1 n1 / n F1 N1 / n x2 n2 N 2 n1 n2 f 2 n2 / n F2 N 2 / n . . . . . . . . . . . . . . . f k nk / n Fk N k / n xk nk k N k ni i 1 Total k ni n i 1 k f i 1 i 1 La primera columna representa los distintos valores de esos datos y la segunda la frecuencia simple, es decir, el número de veces que se ha observado el correspondiente valor; la tercera columna recoge la frecuencia acumulada (número de veces que se han observado valores menores o iguales que el que corresponde a dicha fila). Las frecuencias relativas se obtienen a partir de las frecuencias absolutas, dividiendo por el tamaño de la muestra. 2.1.2. Descripción de Variables Cualitativas DISTRIBUCIÓN DE FRECUENCIAS ● Supongamos que tenemos N observaciones de una variable cualitativa. ● Supongamos que la variable puede tomar valores pertenecientes a k clases o categorías: Verde Azul Color de ojos k 4 Marron Negro ● Representamos mediante n1, n2, …, nk el número de datos que aparecen en cada una de las k categorías. ● Frecuencia absoluta de la clase i-ésima (ni): número de observaciones en la clase i. 21 ● Frecuencia relativa de la clase i-ésima (fi): es la proporción de datos en la clase i-ésima, es decir, f ni . i N - La suma de las k frecuencias relativas es igual a la unidad: f1 + f2 +…+ fk=1 - Nos permiten comparar las frecuencias de las categorías en conjuntos de datos con distinto número de observaciones ● Distribución de frecuencias: es la tabla que presenta las categorías de una variable y sus respectivas frecuencias. - Nos indica cómo se distribuye la frecuencia total entre las categorías Es el resumen más importante de la información contenida en una variable cualitativa Ejemplo 1: nivel educativo Se ha clasificado a 20 individuos según su nivel de estudios que puede tomar valores: 1 2 Nivel educativo 3 4 sin estudios primarios medios sup eriores y se han obtenido los siguientes datos: 1 1 4 3 3 3 2 2 4 2 2 1 4 2 3 2 3 4 2 3; N=20; k=4 Frecuencias absolutas: n1=3; n2=7; n3=6; n4=4 N n1 n2 n3 n4 3 7 6 4 20 Frecuencias relativas: f1 3 0,15; 20 f2 7 0,35; 20 f3 6 4 0,3; f 4 0,2 20 20 f1 f 2 f 3 f 4 0,15 0,35 0,3 0,2 1 22 Distribución de frecuencias: Categorías ni fi 1. Sin estudios 3 0,15 2. Primaria 7 0,35 3. Media 6 0,3 4. Superior 4 0,2 N=20 1 La categoría más frecuente es la de estudios primarios y la menos frecuente la de sin estudios REPRESENTACIÓN GRÁFICA DE LA DISTRIBUCIÓN DE FRECUENCIAS A) Diagrama de barras: Permite visualizar de forma sencilla la distribución de una variable cualitativa. Se dibuja sobre cada categoría una barra (o rectángulo) cuya altura coincida con la frecuencia absoluta o relativa de dicha clase. Ejemplo: Nivel de estudios (Continuación ejemplo 1) Frecuencias relativas fi 0.40 0.35 0.30 0.25 0.20 0.15 0.10 1 B) 2 3 4 Diagrama de Pareto: Es como un diagrama de barras en el que se ordenan las clases de mayor a menor frecuencia (absoluta o relativa). En la parte superior de la figura suele trazarse una línea que representa la suma de la frecuencia de cada clase y las que la preceden, esto se usa para identificar la minoría de las características que representan la mayoría de casos. 23 A principios del Siglo XX, Vilfredo Pareto (1848-1943), un economista italiano, realizó un estudio sobre la riqueza y la pobreza. Descubrió que el 20% de las personas controlaba el 80% de la riqueza en Italia. La gráfica de Pareto es una herramienta sencilla pero poderosa al permitir identificar visualmente en una sola revisión las minorías de características vitales a las que es importante prestar atención. Algunos ejemplos de tales minorías vitales son: La minoría de clientes que representan la mayoría de las ventas. La minoría de productos, procesos, o características de la calidad causantes del grueso de desperdicio de los costos de retrabajos. Ejemplo: Nivel educativo (Continuación ejemplo 1) Frecuencias relativas fi (Gráfico de Pareto) 0.40 0.35 0.30 0.25 0.20 0.15 0.10 2 3 4 1 f2=0,35 f2+ f3=0,35+0,3=0,65 f2+ f3+ f4=0,35+0,3+0,2=0,85 f2+ f3+ f4+f1=0,35+0,3+0,2+0,15=1 Un 35 por ciento de la población llega hasta la educación primaria y el 65 por ciento de la población tiene un nivel educativo primario o media. 24 Diagrama de Pareto 1.0 0.8 0.6 0.4 0.2 0.0 2 3 4 1 En el diagrama anterior se observa que el 65 por ciento de la población, tiene un nivel educativo primaria o media. C) Pictograma: Es una forma de representar las cantidades estadísticas por medio de dibujos, utilizando para ello objetos y figuras. Las figuras empleadas deben explicarse por sí mismas. Ejemplo: Nivel de educativo (Continuación). a) Distribución de frecuencias: 1. 2. 3. 4. Categorías Sin estudios Primario Medio Superior ni 3 7 6 4 N=20 fi 0,15 0,35 0,3 0,2 1 b) Elaboración del Pictograma (Ejercicio para el estudiante) 25 Ejemplo: Variable socioeconómica (SOC): La variable SOC describe la categoría socioeconómica: 1 trabajadores agrarios 2 empresarios agrarios 3 obreros SOC 4 autonomos 5 clase media 6 clase alta 7 retirados Los datos de 75 hogares (o unidades de gasto) son: 373535157553351132231 375333555775142 173433353 36 6 727133253722 752276153533343 (a) (b) Obtener las frecuencias absolutas de cada una de las categorías. n1=8 n2=9 n6=3 n7=11 n3=25 n4=3 n5=16 Calcular las frecuencias relativas y mostrar la distribución de frecuencias f1 n1 8 0,11 N 75 f2 n2 9 0,12 N 75 f3 n3 25 0,33 N 75 f4 n4 3 0,04 N 75 f n 16 0,21 N 75 f6 n6 3 0,04 N 75 f7 n7 11 0,15 N 75 5 5 Nótese que: f1 f 2 f 3 f 4 f 5 f 6 f 7 7 f i 1 i1 26 Distribución de frecuencias: 1. 2. 3. 4. 5. 6. 7. Categoría Trabajadores agrarios Empresarios agrarios Obreros Autónomos Clase media Clase alta Retirados (c) ni 8 9 25 3 16 3 11 N=75 fi 0,11 0,12 0,33 0,04 0,21 0,04 0,15 1 Construir el diagrama de Pareto 1.0 0.8 0.6 0.4 0.2 0.0 3 f3=0,33; 5 7 2 1 4 6 f3+f5=0,33+0,21=0,54 f3+f5+f7=0,33+0,21+0,15=0,69 f3+f5+f7+f2=0,33+0,21+0,15+0,12=0,81 f3+f5+f7+f2+f1=0,33+0,21+0,15+0,12+0,11=0,92 f3+f5+f7+f2+f1+f4=0,33+0,21+…+0,11+0,04=0,9 F3+F5+F7+F2+F1+F4+F6=0,33+0,21+…+0,04+0,04=1 El 33 por ciento de la población son obreros y el 54 por ciento de la población son obreros o clase media, y así sucesivamente. 27 Gráfico de sectores: En el caso de variables cualitativas el diagrama circular se utiliza con mucha frecuencia. Consiste en representar sobre un círculo los diferentes atributos, mediante un sector circular de ángulo proporcional a la correspondiente frecuencia. El ángulo de cada sector circular se calcula multiplicando por 360º la frecuencia relativa. Los gráficos de sectores, también conocidos como diagramas de "tartas o pastel", se divide un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Si el número de categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de cuatro categorías. En este caso se pueden apreciar con claridad dichos subgrupos. Ejemplo. La población según nivel de estudio del Municipio de Ayutuxtepeque se presenta en el siguiente cuadro: Primaria o Educación Superior no Técnico Superior Parvularia básica media universitaria universitario universitaria Maestría Doctorado Total 1168 15895 6842 499 363 4556 70 7 29400 Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007. Elaborar un gráfico de sectores. Se tienen 8 categorías, por lo tanto debe aparecer el círculo dividido en 8 porciones. La tabla anterior presenta las frecuencias absolutas, habrá que dividir cada dato por el total (29,400) a fin de obtener la frecuencia relativa y luego multiplicar esta última por 100. Por ejemplo, para la categoría de educción básica: (15,895/ 29,400)*100 = 54,06%. Observe que no se ha multiplicado por 360°, ya que es más ilustrativo el porcentaje (Así trabaja Excel). Figura 2. Nivel educativo de la población de Ayutuxtepeque, por ciento. Es evidente que la mayoría de la población tiene un nivel educativo básico o media con el 54.06% y 23.27% respectivamente. En general la población de Ayutuxtepeque tiene un nivel educativo relativamente bajo, son muy pocos los que llegan a hacer estudios universitarios. 28 2.1.3. Variables cuantitativas discretas. Diagrama de Barras: Para el caso de distribuciones de frecuencias no agrupadas en intervalos, el diagrama de barras es el gráfico más empleado. Que se usa cuando se pretende resaltar la representación de porcentajes o frecuencias de datos que componen un total. Una gráfica de barras contiene barras verticales que representan valores numéricos. Las frecuencias están asociadas con categorías. Una gráfica de barras se presenta de dos maneras: horizontal o vertical. El objetivo es poner una barra de largo (alto si es horizontal) igual a la frecuencia. La gráfica de barras sirve para comparar y tener una representación gráfica de la diferencia de frecuencias o de intensidad de la característica numérica de interés. Si en vez de frecuencias simples utilizamos frecuencias acumuladas, tenemos el llamado diagrama de escalera. Ejemplo. Con la información del VI Censo de Población y V de Vivienda, El Salvador, 2007, se han clasificado las mujeres de El Salvador de 12 años y más, según el número de hijos varones, resultando los siguientes datos. N° Hijos Varones 0 1 2 3 4 5 6 7 8 9+ Madres 278290 509469 339180 177050 92233 50916 27791 15004 7328 7366 Construir un gráfico de barras para el número de hijos varones de las mujeres salvadoreñas. Ejemplo. La población según condición de ocupación del Municipio de Ayutuxtepeque se presenta en el siguiente cuadro: ÁREA URBANA EL ZAPOTE LOS LLANITOS Total OCUPADOS DESOCUPADOS INACTIVOS Total 10966 2832 8531 22329 329 42 477 848 2410 227 2550 5187 13705 3101 11558 28364 Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007. Elaborar un gráfico de barras para la población total de Ayutuxtepeque según su condición de ocupación. 29 2.2. Distribución de frecuencias agrupadas. Cuando en la muestra existen muchos valores diferentes y mucha variabilidad se recomienda, aún a costa de perder información, agrupar los datos en clases, en lo que se denomina distribución de frecuencias agrupada en intervalos. Clase L1 L2 Marca Frecuencias Absolutas Clase Simples Acumuladas N1 n1 x1 n1 N 2 n1 n2 x2 n2 . . . . . . . L0 L1 Lk 1 Lk xk Frecuencias Relativas Simples Acumuladas f1 n1 / n F1 N1 / n f 2 n2 / n F2 N 2 / n . . . . . . . . . . . f k nk / n Fk N k / n nk k N k ni i 1 Total k ni n i 1 k f i 1 i 1 A cada uno de los intervalos se les denomina clase y al punto medio marca de clase. A efectos de cálculo la marca de clase se elige como representante del intervalo. El número de clases en que se dividen los datos no debe ser excesivo. A modo orientativo, el número de clases se puede obtener mediante la siguiente fórmula empírica, llamada de Sturges: 3 log(n) número de clases (Tomar la parte entera) 2 log(2) 30 Ejemplo. Población de El Salvador, por sexo y edad, año 2007.. Edad Hombre Mujer Total Edad Hombre Mujer Total Edad Hombre Mujer Total < 1 51787 50097 101884 36 31398 40111 71509 72 8591 10717 19308 1 53230 51477 104707 37 31414 38801 70215 73 7461 9522 16983 2 55845 54261 110106 38 29639 37419 67058 74 8011 10030 18041 3 59752 57127 116879 39 29435 37454 66889 75 8067 9886 17953 4 62658 59659 122317 40 31769 39411 71180 76 7535 9745 17280 5 62274 59738 122012 41 24732 32964 57696 77 6897 8872 15769 6 69088 66249 135337 42 26840 34653 61493 78 5825 7123 12948 7 75310 72672 147982 43 24578 32639 57217 79 5334 6700 12034 8 71525 68511 140036 44 24299 31746 56045 80 5717 7089 12806 9 70953 68407 139360 45 24451 31422 55873 81 4124 5274 9398 10 74244 70664 144908 46 21989 29308 51297 82 3841 5220 9061 11 71744 69499 141243 47 22251 28713 50964 83 3438 4508 7946 12 74093 72835 146928 48 20682 26481 47163 84 3281 4378 7659 13 68251 66194 134445 49 20584 26241 46825 85 3263 4413 7676 14 71191 67632 138823 50 22897 28057 50954 86 3096 4286 7382 15 64523 63752 128275 51 17664 22874 40538 87 2750 3758 6508 16 61880 61630 123510 52 19081 24360 43441 88 1767 2358 4125 17 61255 61624 122879 53 17671 22344 40015 89 1595 2219 3814 18 57590 58584 116174 54 17962 22824 40786 90 1405 2091 3496 19 53136 56591 109727 55 17848 22561 40409 91 786 1143 1929 20 50243 55085 105328 56 17114 21361 38475 92 826 1206 2032 21 45994 51623 97617 57 16816 20974 37790 93 673 990 1663 22 46006 51429 97435 58 14462 17853 32315 94 559 869 1428 23 42864 49278 92142 59 15478 18608 34086 95 482 816 1298 24 42894 51126 94020 60 17461 19979 37440 96 416 674 1090 25 42616 50552 93168 61 12470 15424 27894 97 356 588 944 26 41993 50707 92700 62 13590 17093 30683 98 + 526 948 1474 27 43473 52214 95687 63 12274 15528 27802 28 39209 48076 87285 64 12412 15633 28045 29 39672 49378 89050 65 12802 15513 28315 30 41911 50744 92655 66 11774 14915 26689 31 33494 42933 76427 67 11864 14597 26461 32 35940 45312 81252 68 9694 12291 21985 33 33124 41990 75114 69 9647 12060 21707 34 33931 42870 76801 70 10861 13101 23962 35 34628 42848 77476 71 8525 10638 19163 Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007. Elabore una tabla de frecuencias agrupadas por edad. 31 2.2.1 Representación gráfica de variables continuas Histogramas y polígono de frecuencias. El histograma y el polígono de frecuencias son las representaciones gráficas usadas para distribuciones de frecuencias agrupadas en intervalos. El histograma se construye dibujando en cada clase un rectángulo de base la amplitud del intervalo y de altura se representan las frecuencias. Si desde el extremo superior de cada una de las barras que representan los intervalos de clase se hace una marca en el punto medio y luego se unen los puntos por línea recta se obtiene el polígono de frecuencias. El polígono de frecuencias se lleva hasta el eje horizontal en los extremos hasta los puntos que serían los puntos medios si hubiera una clase adicional en cada extremo del histograma correspondiente. Esto permite que el área total quede incluida. Es decir, el área total bajo el polígono de frecuencias equivale al área bajo el histograma. Ejemplo: Estatura de los estudiantes de clase (ejercicio práctico) Ejemplo: El siguiente cuadro presenta el número de homicidios para los años 2004, 2005, 2006, 2007 y 2008, para los municipios de Soyapango, Ilopango y San Martín. Grupos SOYAPANGO ILOPANGO SAN MARTÍN de edades Femenino Masculino Total Femenino Masculino Total Femenino Masculino Total AÑO 2004 182 53 Total 15 167 12 78 90 11 42 AÑO 2005 242 86 Total 14 228 5 74 79 11 75 AÑO 2006 262 54 Total 16 246 15 69 84 6 48 AÑO 2007 199 79 Total 20 179 10 67 77 8 71 AÑO 2008 138 61 Total 10 128 9 66 75 7 54 Fuente: Fuente estadísticas de homicidios de Instituto de Medicina Legal. Los cadáveres que no se pudo identificar el sexo, no aparecen registrados en el cuadro anterior. Utilizar la mejor representación gráfica para la información anterior (Diagrama de barras e histogramas) 32 2.3. Guía de ejercicios N° 2. Distribución de frecuencias y sus representaciones gráficas. 1. Las calificaciones de 50 alumnos en Matemáticas han sido las siguientes: 5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7. Construir la tabla de distribución de frecuencias y dibuja el diagrama de barras. 2. Los pesos de los 65 empleados de una fábrica vienen dados por la siguiente tabla: Peso [50, 60) [60, 70) [70, 80) [80,90) [90, 100) [100, 110) [110, 120) fi 8 10 16 14 10 5 2 a) Construir la tabla de frecuencias. b) Representar el histograma y el polígono de frecuencias. 3. Los 40 alumnos de una clase han obtenido las siguientes puntuaciones, sobre 50, en un examen de Física. 3, 15, 24, 28, 33, 35, 38, 42, 23, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13. a) Construir la tabla de frecuencias agrupadas en intervalos de amplitud 5 unidades. b) Dibujar el histograma y el polígono de frecuencias. 4. Se ha realizado una encuesta en 30 hogares en la que se les pregunta el nº de individuos que conviven en el domicilio habitualmente. Las respuestas obtenidas han sido las siguientes: 4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5, 5, 6, 2, 3, 3, 2, 2, 1, 8, 3, 5, 3, 4, 7, 2, 3. a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus correspondientes acumuladas. b) ¿Qué proporción de hogares está compuesto por tres o menos personas? ¿Qué proporción de individuos vive en hogares con tres o menos miembros? c) Dibuje el diagrama de barras de frecuencias y el diagrama en escalera. 5. Una entidad bancaria dispone de 50 sucursales en el territorio nacional y ha observado el número de empleados que hay en cada una de ellas para un estudio posterior. Las observaciones obtenidas han sido: 12, 10, 9, 11, 15, 16, 9, 10, 10, 11, 12, 13,14,15, 11, 11, 12, 16, 17, 17,16,16, 15, 14, 12, 11, 11, 11, 12, 12, 12, 15, 13, 14, 16, 15, 18, 19, 18, 10, 11, 12, 12, 11, 13, 13, 15, 13, 11, 12. a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus correspondientes acumuladas. b) ¿Qué proporción de sucursales tiene más de 15 empleados? 33 c) Dibuje el diagrama de barras y el diagrama en escalera correspondientes. d) Agrupe en intervalos de amplitud 3 los valores de la variable, calcule su distribución de frecuencias y represente su histograma y su polígono de frecuencias. 6. Los siguientes valores son los ayunas: 56 61 57 60 57 61 65 72 65 66 61 69 69 64 66 68 71 72 65 60 65 72 73 73 73 74 68 67 56 67 niveles de glucosa en sangre extraída a 100 niños en 77 57 61 76 65 58 80 75 59 62 62 67 68 72 65 73 66 75 69 65 75 62 73 57 76 55 80 74 55 75 63 69 65 75 65 73 68 66 67 62 55 67 62 68 58 79 55 68 65 63 64 68 75 81 65 81 66 73 67 63 60 59 80 64 64 56 71 65 63 59 a. Elabore una distribución de frecuencias b. Un histograma y un polígono de frecuencias. 7. Los siguientes datos representan las ventas de tabaco en España durante el año 1992, en millones de cajetillas, según marcas: Marcas Ducados Fortuna Marlboro Winston (1) Lucky Strike (1) Chesterfiel Otros marcas Ventas 1,107 1,041 535 333 164 110 725 a. Calcular el porcentaje de ventas de cada marca sobre el total. b. Representar los datos anteriores mediante un diagrama circular 8. Las edades de los empleados de una determinada empresa son las que aparecen en la siguiente tabla: Edad N° de empleados Menos de 25 22 Menos de 35 70 Menos de 45 121 Menos de 55 157 Menos de 65 184 Sabiendo que el empleado más joven tiene 18 años, escríbase la distribución de frecuencias para datos agrupados (amplitud del intervalo definida según su conveniencia). 34 Capítulo 3. Medidas Características de una Distribución Cuantitativa Empírica. 3.1 Medidas de posición Los promedios o medidas de posición proporcionan valores típicos o representativos de la variable en estudio. Podemos hablar de medidas de posición centrales, como la media (aritmética, geométrica y armónica), la mediana y la moda y medidas de posiciones no centrales, como los cuartiles, quintiles, deciles y percentiles. La media aritmética es la medida de posición más utilizada (esta muy influenciada por los valores extremos de la variable). Viene definida como la suma de los datos divido por el número de ellos. Dependiendo de la naturaleza de los datos que pretendemos promediar, será conveniente el uso de otro tipo de medidas, como son la media geométrica (Todos los datos son positivos y hay mucha dispersión; ejemplo: porcentajes, tasas de crecimiento, razones, números índices, interés anual, inflación, etc.) y la media armónica (resulta poco influida por la existencia de determinados valores muy grandes que el conjunto de los otros, siendo en cambio sensible a valores muy pequeños), cuyas fórmulas se presentan en la siguiente tabla. Si a cada observación se le asigna un valor diferente, dado en forma de peso, y a continuación se calcula la media, nos encontramos con una media ponderada. La moda de un conjunto de valores es aquel valor que ocurre con más frecuencia. Si todos los valores son distintos, no hay moda, por otra parte, un conjunto de datos puede tener más de una moda. Medidas de tendencia central Media aritmética Media geométrica Media armónica x 1 x1n1 x2 n2 . . . xk nk n G x1n1 x2 n2 . . . xk nk H 1/ n n n1 n2 nk . . . xk x1 x2 3.1.1. Media aritmética. Es la medida más conocida, la más fácil de calcular y con la que siempre estamos más familiarizados, ya que siempre hemos calculado el promedio de calificaciones obtenidas en cada periodo escolar (Ciclo, año, etc.) A veces se le denomina simplemente media o promedio, y es utilizada con tanta frecuencia, que en algunas ocasiones nos conduce a resultados que no revelan 35 lo que se pretende presentar, ya que la distribución de los datos puede requerir de la aplicación de un promedio diferente a la media, ya sea, media geométrica o media armónica. Le media es altamente sensible a cualquier cambio en los valores de la distribución. No es recomendable su uso cuando la variable está dada en forma de tasas o porcentajes. La media es representativa del conjunto de datos si se quiere promediar cantidades semejantes, que presentan variaciones dentro de un margen razonable. Media Aritmética simple. Se define como el cociente que se obtiene al dividir la suma de los valores de la variable por el número total de observaciones. Su fórmula está dada por: n x x i i 1 n Ejemplo. Supongamos que en un almacén tienen empleados a 12 vendedores, y sus ingresos mensuales son: $ 585, $ 521, $ 656, $ 465, $ 536, $ 487, $ 564, $ 490, $ 563, $ 1234, $ 469 y $ 547. Se pide determinar la media de los ingresos de los 12 vendedores. Solución. Ejemplo. Consideremos las utilidades y pérdidas de un almacén por departamentos, como se muestra en la siguiente tabla. Departamentos 2008 2009 OBSERVACIÓN. El promedio por departamento se Calzado -10 20 mantiene de un año a otro, pero nos oculta los cambios que Electrodomésticos 153 58 se han producido por departamentos donde ha habido un Juguetería -40 -20 desplazamiento de los beneficios. Para superar estas Ropa 130 152 deficiencias se requiere trabajar con la media ponderada. Misceláneos -13 10 Promedio 44 44 Media aritmética ponderada Cuando el número de observaciones es grande, las operaciones para calcular la media se simplifican si agrupamos los datos en una tabla de frecuencias. La fórmula matemática está dada por: k x x i 1 i fi n Si los datos están agrupados en clase, no se conoce el valor de x, por lo tanto se toma el punto medio de cada clase en vez de x (marca de clase). Propiedades de la media. Dada la importancia de la media y su uso frecuente, conviene considerar algunas de sus propiedades: 1. La suma de las desviaciones respecto a la media es cero, esto es: 36 n Para datos no agrupados: ( xi x) 0 i 1 n Para datos agrupados: ( x x)n i 1 i i 0 . La verificación de esta propiedad es inmediata. 2. La media aritmética de una constante es igual a la constante. 3. La media del producto de una constante por una variable, es igual a multiplicar a la constante por la media de la variable. 4. La media de una variable más (o menos) una constante será igual a la media de la k variable, más (o menos) la constante, es decir, ( x c)n i 1 i n i xc 5. La media aritmética de una muestra dividida en submuestras, es igual, a la media ponderada de las submuestras, tomando como ponderación los tamaños de las m submuestras. Esto es, x x n i i i 1 n donde n n1 n2 ... nm Ejemplo: Un inversionista tiene 1,200 acciones de un precio inferior a $3,490 dólares siendo su valor promedio de $ 2,905; además, 800 acciones cuyo valor unitario es superior a $ 3,490 y su valor promedio de $ 4,275. Calcular el valor promedio de las 2,000 acciones. Solución. x1n1 x 2 n2 2905(1200) 4275(800) x 3, 453 n1 n2 1200 800 En promedio el inversionista gasta $ 3,453 dólares en las 2000 acciones. 3.1.2. La media geométrica (Mg) La media geométrica se define como la raíz n-ésima de la multiplicación de los n valores de la variable. Se utiliza cuando se quiere dar importancia a valores pequeños de la variable o cuando se desea obtener el promedio de valores que están dados en progresión geométrica. En el campo industrial y comercial se utiliza para obtener promedios sobre el crecimiento o decrecimiento de una variable. Por ejemplo, un capital ahorrado a una tasa de interés compuesto, durante un periodo de tiempo. La media geométrica se calcula utilizando la siguiente fórmula: Mg x1 x2 . . . xk donde los ni es el número de veces que se repite cada dato, en caso que los datos no se repitan los ni=1.La fórmula de la media geométrica tal como se ha presentado tiene el inconveniente de que n n1 n2 nk 37 tanto el producto de los xi como su raíz n-ésima, pueden ser un valor demasiado alto que dificulte las operaciones. Para obviar esta dificultad se transforma la ecuación anterior en: k ni ln xi . Es obvio que las dos ecuaciones son equivalentes, esta última Mg exp i 1 n ecuación es la más utilizada en el cálculo de la media geométrica. Ejemplo (Media geométrica) Las tasas de interés de tres bonos son 5%, 7% y 4%. La media geométrica es: G 3 7 x5x4 5.192 La Mg da una cifra de ganancia más conservadora porque no tiene una ponderación alta para la tasa de 7%. 3.1.3. La media armónica (Ma) Iniciamos diciendo que el inverso de la media armónica es igual a la media aritmética del inverso de los valores de la variable, esto es: k 1 Ma ni x i 1 n i Ma n ni i 1 xi k Ejemplo: Se sabe que dos obreros A y B, se tardan 50 y 40 minutos respectivamente en reparar un par de zapatos. ¿Cuál es el tiempo requerido para reparar un par de zapatos? Solución. Ma n 1 1 x1 x2 par de zapatos. Ma 2 1 1 50 40 44.44 , es el tiempo requerido para reparar un El mayor uso de la media armónica es para calcular la velocidad promedio. Recordemos que: 38 dista n cia , supongamos que se han recorrido k trayectos (distancias) a cierta tiempo velocidad cada trayecto, entonces la velocidad media vendrá dada por: Velocidad Vm dis tan cia total k di i 1 Vi d di i 1 Vi k Ejemplo. Supongamos que la distancia entre dos ciudades, A y B, es de 80 kilómetros y entre B y C de 120 kilómetros. Si un automovilista recorre de A a B a una velocidad de 100Km/h y de B a C a una velocidad de 80Km/h. ¿Cuál es la velocidad promedio? Solución. Vm d 200 86.956 k 80 120 di 100 80 i 1 Vi 3.1.4. La moda La moda es una medida de posición, menos importante que los promedios y su uso es bastante limitado. Se utiliza en distribuciones cuando la variable o el atributo presentan una frecuencia demasiado grande con respecto a las demás. La moda se define aquel valor de la variable o del atributo que presenta la mayor densidad, es decir, la mayor frecuencia. Si se tiene un atributo o una variable con máxima frecuencia, la distribución es unimodal. Si hay dos valores en la variable con la misma frecuencia máxima, la distribución es bimodal. Si hay más de dos, la distribución es multimodal. Cuando ninguno de los valores que toma la variable se repite, no existe moda. Datos agrupados. Cuando la moda se aplica a una variable continua, se requiere que la amplitud de los intervalos sea constante. A se presenta una fórmula para obtener una aproximación del valor modal: ni 1 Moda Li 1 C ni 1 ni 1 39 3.1.5. La mediana. La mediana de una distribución de frecuencia corresponde al valor, supuesto los datos ordenados de menor a mayor, que deja a ambos lados el mismo número de observaciones. Cuando calculamos la mediana en datos no agrupados, ordenamos las observaciones de menor a mayor o viceversa. En su cálculo se presentan dos casos: a) Cuando el número de datos es impar: En este caso la mediana coincide con el dato central. Ejemplo: Consideremos los salarios en dólares para 11 vendedores; 243, 320, 311, 254, 234, 261, 239, 310, 218, 267, 287. Calcular la mediana. Solución: Primero ordenar los datos de menor a mayor: 218, 234, 239, 243, 254, 261, 267, 287, 310, 311, 320 La posición donde se encuentra la mediana: (11+1)/2=6, la mediana se encuentra en la sexta posición y corresponde al valor de: Md=261. b) Cuando los datos son pares: La mediana será el término medio de los dos valores centrales. Ejemplo. Consideremos los salarios en dólares para 12 vendedores; los cuales se han presentado ordenados anteriormente 218, 234, 239, 243, 254, 261, 267, 287, 310, 311, 320 y 322:. Calcular la mediana. Solución: n 1 12 1 6.5 , entonces Para obtener la posición central se aplica la siguiente fórmula: 2 2 la mediana corresponde al promedio de los dos valores sombreados de amarillo, esto es: Md=(261+267)/2=264. Para el caso de distribuciones agrupadas en intervalos se utiliza una fórmula aproximada. Se comienza calculando el intervalo donde se encuentra la mediana, para lo cual se calculan las frecuencias acumuladas, y se escoge el primer intervalo cuya frecuencia acumulada sea igual o superior a n/2. A continuación se aplica la fórmula: n / 2 Ni 1 Mediana Li 1 Ci ni 3.1.5. Cuartiles, Deciles y Percentiles Dados una serie de valores X1,X2,X3...Xn ordenados en forma creciente, los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales. Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos. 40 Para Datos No Agrupados Si se tiene una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas: El primer cuartil: La posición del primer cuartil: 1*(n+1)/4 Para el tercer cuartil La posición del primer cuartil : 3*(n+1)/4 Quintiles Se representan con la letra K. Su fórmula aproximada es i*n/5. El primer quintil. Separa a la muestra dejando al 20 % de los datos a su izquierda. El segundo quintil. Es el valor que indica que el 40 % de los datos son menores. El tercer quintil. Indica que el 60 % de los datos son menores que él. El cuarto quintil. Separa al 80 % de los datos inferiores del otro 20 %. Deciles Se representan con la letra D. Son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados. Su fórmula aproximada es i*n/10. Es el decil i-ésimo, donde la i toma valores del 1 al 9. El (i*10) % de la muestra son valores menores que él y el 100-(i*10) % restante son mayores. Percentiles Se representan con la letra C. Su fórmula aproximada es i*n/100. Es el percentil i-ésimo, donde la i toma valores del 1 al 99. El i % de la muestra son valores menores que él y el 100-i % restante son mayores. Para Datos Agrupados Cuando los datos no están agrupados en intervalos los cuartiles, así como el resto de las medidas de posición, tienen un valor claro, tal como se ha descrito anteriormente. Sin embargo, cuando tenemos una agrupación de los datos ya no es tan sencillo realizar el cálculo. Sí que resulta claro ver en cuál de los intervalos está el cuartil (quintil, decil o percentil) buscado, pero para calcular su valor aproximado necesitaremos usar una fórmula. El cálculo es similar al de la mediana, hay que empezar calculando el intervalo cuya frecuencia acumulada sea igual o mayor que el valor jn/k, para a continuación aplicar la fórmula: 41 Q j ;k Li 1 jn / k N i 1 Ci ni donde k = 4 (j = 1, 2, 3) para los cuartiles, k = 10 (j = 1, 2, . . . , 9) para los deciles, k=100 (j= 1, 2, . . . , 99) para los percentiles. 3.2 Medidas de Dispersión Las medidas de dispersión estudian la separación existente entre los diversos valores que toma la variable. Se dividen en medidas de dispersión absoluta y relativa. Las absolutas suelen hacer referencia a un promedio, y permiten estudiar su representatividad. Este tipo de medidas depende de las unidades, lo que es un inconveniente para realizar comparaciones entre poblaciones. En este sentido, las medidas de dispersión relativas no dependen de las unidades y permiten comparar variabilidad entre poblaciones. El rango estadístico, también llamado amplitud o recorrido, es la diferencia entre el valor máximo y el valor mínimo en un grupo de números. Para averiguar el rango de un grupo de números: Ordenamos los números según su tamaño. Restamos el valor mínimo del valor máximo. Con el objeto de que no exista dependencia de los valores extremos, se introduce el recorrido intercuartílico, que es la semidiferencia entre el tercer y el primer cuartil: R1 Q3 Q1 2 Se define también la desviación absoluta media como la media de los valores absolutos de las diferencias de los datos a la media, es decir: AM 1 k xi x ni n i 1 Varianza, desviación típica y coeficiente de variación La varianza es una medida de dispersión que sirve para estudiar la representatividad de la media. Viene definida como la media de las diferencias cuadráticas de las puntuaciones respecto a su media aritmética: 2 1 k S X2 xi x ni n i 1 Una varianza “grande” es indicativa de que la media no es representativa, mientras que una varianza “pequeña” indica que la media es un buen representante de los datos. Con el objeto de tener una medida de dispersión similar a la varianza, pero que venga medida en las mismas unidades de la variable, se define la desviación típica como la raíz cuadrada positiva de la varianza: 42 S X Varianza La relación entre la varianza de una variable X y la de una nueva variable definida como a+bX es: S a2bX b 2 S X2 Por lo tanto, si a los datos de la distribución les sumamos una cantidad constante la varianza no se modifica y si multiplicamos por una constante, la varianza queda multiplicada por el cuadrado de esa constante. En ocasiones puede interesar comparar la dispersión de dos muestras y la desviación típica no ser válida, si las dos muestras tienen unidades diferentes. Para obviar este inconveniente se define el coeficiente de variación: S Desviación Típica CV X Media x Que no depende de cambios de escala en la variable. 3.3 Medidas de forma Este tipo de medidas permite conocer la forma de la distribución sin necesidad de recurrir a su representación gráfica. Existen dos tipos de medidas de forma: Asimetría y curtosis. Para clasificar la distribución según estas medidas, se establece en ambos casos una tipología de distribuciones. Una variable se dice que es simétrica si al “doblar” la distribución respecto a un eje (centro de simetría), las frecuencias coinciden. Caso contrario se dice que la distribución es asimétrica positiva o negativa, dependiendo que la rama larga de la distribución se encuentra en el sentido positivo o negativo del eje de las x. La medida más popular de asimetría es el coeficiente de asimetría de Fisher, que viene dado por: 3 1 k xi x ni m n i 1 g1 33 3/ 2 S 2 1 k n xi x ni i 1 Este coeficiente es invariante frente a cambios de origen y de escala. Cuya interpretación es: Si g1 = 0, la distribución es simétrica. Si g1 > 0, la distribución es asimétrica positiva Si g1 < 0, la distribución es asimétrica negativa. El coeficiente de curtosis trata de estudiar la concentración de frecuencias en la zona central de la variable, de modo que variables con curtosis alta (leptocúrticas) tienen forma alargada y variables 43 con curtosis baja tienen forma aplanada (platicúrticas). La comparación se realiza respecto a una distribución “moderada” como es la distribución normal (mesocúrtica). El coeficiente de curtosis viene dado por: 1 k xi x n i 1 m g 2 44 3 S 1 k n xi x i 1 4 2 ni ni 2 3 Que se interpreta del siguiente modo: Si g2 = 0, la distribución es mesocúrtica o normal. Si g2 > 0, la distribución es leptocúrtica o por encima de lo normal. Si g2 < 0, la distribución es platicúrtica o por debajo de la normal. Al igual que el coeficiente de asimetría de Fisher, el coeficiente de curtosis es invariante frente a cambios de origen y de escala. 3.4. Guía de Ejercicios N° 3. Medidas características de una distribución cuantitativa empírica 1) ¿Por qué no se aplica la media geométrica cuando uno de los valores es cero? Si la fórmula es G x1n1 x2 n2 . . . xk nk 1/ n . 2) De un grupo de 100 obreros en una fábrica, 40 trabajan en el día y 60 en la noche. Se sabe que el salario promedio anual de los 100 obreros es de $8,700 dólares y que los del turno de día reciben en promedio $800 dólares menos que los trabajadores nocturnos. ¿Cuál es el salario promedio anual en cada grupo? 3) En un supermercado trabajan 35 mujeres, con un salario promedio mensual de $650 dólares y 15 hombres, en promedio ganan un 12% más que las mujeres ¿Cuál es el salario promedio de los empleados del supermercado? 4) Durante un mes se construyeron 134 Km de carretera en la siguiente forma: 3.6% del total en la primera semana; 15.3% del total en la segunda semana; 7.6% en la tercera semana; 24.5% en la cuarta semana y en la última semana el 49%. La construcción promedio por día en cada semana fue de: 0.9Km/d, 3.4Km/d, 1.7Km/d, 5Km/d y 10Km/d, respectivamente. Hallar la medida de tendencia central que mejor represente el promedio de esta distribución. 5) La media aritmética de tres números es 7, su mediana es 6 y su media geométrica es Con los tres números calcular la media armónica. 3 216 . 44 6) Se sabe que la media aritmética de dos números es 5 y la media geométrica es 4. ¿Cuál es la media armónica? 7) Una persona viaja 4 días. Diariamente recorre 200 Km, pero maneja el primero y el último día a 50Km/h, el segundo a 55Km/h y el tercer día a 70Km/h. ¿Cuál es la velocidad media durante el viaje? 8) Las ciudades A, B y C son equidistantes entre sí. Un automovilista viaja de A a B a 30 Km/h de B a C a 40 Km/h y de C a A a 50 Km/h. Determine el promedio de velocidad para el viaje completo. 9) Un fabricante dispone $600,000 anuales para la compra de materia prima. Durante tres años invierte la misma cantidad de dinero. Si el precio promedio por Kg ha aumentado en los últimos tres años sucesivos de $2,200 a $2,800 y luego a $4,600, ¿Cuál es el precio promedio que ha pagado el fabricante en los tres años? 10) El 1 de mayo de 2002 se ahorraron $ 50,000 en un banco al 7.6% de interés anual, capitalizados semestralmente. Obtener la cantidad media depositada en la cuenta, entre el 1 de mayo de 2002 y el 31 de octubre de 2006, suponga que no se hicieron retiros durante el periodo. 11) Tres amas de casa fueron a comprar a tres mercados diferentes. Cada una gastó $ 10 dólares en la compra de naranjas. La ama de casa A compró 4 docenas de naranjas; B compró 6 docenas y C compró 3 docenas. ¿Cuál es el precio promedio por docena? 12) El siguiente cuadro muestra la distribución de la renta anual (en miles de dólares) en que incurren 50 viviendas: Marca de Clase N° de Viviendas 18.85 21.55 24.25 26.95 29.65 32.35 35.05 3 2 7 7 11 11 9 a) Halle e interprete según el enunciado i) Media, mediana y moda. ii) Desviación estándar y coeficiente de variabilidad. b) Estime el porcentaje de viviendas con rentas superiores o iguales a 26,000 dólares pero menores que 32, dólares. c) Si las rentas menores que 28,300 dólares se incrementaron en 2,500 dólares y las rentas mayores o iguales que 28,300 dólares se redujeron en un 30%. Calcule la nueva renta promedio. 13) Una compañía requiere los servicios de un técnico especializado. De los expedientes presentados, se han seleccionado 2 candidatos: A y B, los cuales reúnen los requisitos mínimos requeridos. Para decidir cuál de los 2 se va a contratar, los miembros del Jurado deciden tomar 7 pruebas a cada uno de ellos. Los resultados se dan a continuación: 45 Pruebas 1 2 3 4 5 6 7 Puntaje obtenido por A 57 55 54 52 62 55 59 Puntaje obtenido por B 80 40 62 72 46 80 40 a) Halle e interprete la media, mediana y moda de los dos candidatos. b) Estadísticamente ¿Cuál de los candidatos debe ser contratado? Fundamente su respuesta. 14) Se toman las medidas de 80 personas las que tienen estatura media de 1.70 m y desviación estándar de 3.4 cm. Posteriormente se verificó que la media usada tenía 4 cm de menos. Rectifique los estadígrafos (estadísticos) mencionados. 15) Una asistencia social desea saber cuál es el índice de natalidad en 2 municipios de San Salvador para ello encuestó a 10 familias de cada municipio obteniendo los siguientes resultados A 0 6 1 2 3 1 4 3 6 4 B 3 4 1 4 2 3 1 5 4 3 a) Calcule la media, mediana y moda para cada municipio e interprételos. b) Considera Ud. que en el distrito B, el número de hijos por familia es más homogéneo que en el distrito A. 16) El salario promedio anual en una ciudad es de 8,000 dólares con una variancia de 1,000 dólares ¿Cuales serán la nueva media y la nueva variancia si se efectúan los siguientes cambios: a) Se aumenta 810 dólares a todos b) Se aumenta el 15 % de su salario a cada trabajador c) Si se duplican los sueldos 17) En un examen 20 alumnos del curso A obtienen una media de 60 puntos y desviación estándar de 20 puntos. En el curso B los alumnos obtienen una media de 80 y desviación estándar de 16. Ante un reclamo se decide subir en 5% más 5 puntos adicionales a todos los alumnos del curso A, en cambio como hubo muchas copias en el curso B se decidió disminuir la quinta parte de la calificación. Después de los mencionados ajustes ¿Cuál es el puntaje medio de los 50 alumnos? 18) Se ha realizado un estudio entre 100 mujeres mayores de 15 años y el número de hijos de las mismas. El resultado ha sido: Xi: Nº hijos ni: Nº mujeres 0 13 1 20 2 25 3 20 4 11 5 7 6 4 46 Se pide: a) Calcular el número medio de hijos, la mediana y la moda. b) Calcular los cuartiles y el decil 7. c) Analizar la dispersión de la distribución, interpretando los resultados. d) Analizar la forma de la distribución calculando los coeficientes correspondientes. Comente los resultados. 19) La siguiente distribución expresa el número de vehículos vendidos durante un mes por cada uno de las 50 sucursales que una determinada firma tiene en El Salvador: xi: número de vehículos vendidos 1 3 4 6 10 ni: número Sucursales 5 12 20 8 5 Se pide: a) Media aritmética, mediana y moda. ¿Qué puede decir de la asimetría de la distribución con estos datos? b) Desviación típica, Coeficientes de asimetría de Fisher y curtosis. Comente los resultados. 20) La siguiente tabla recoge la cifra de ventas (en miles de millones) y el número de empleados (en miles) de las diez mayores empresas del sector de automóvil durante el año 1989: Empresa SEAT Fasa Renault General Motors Ford Citroen Peugeot Nissan Mercedes Benz ENASA Ventas 457.3 449.7 372.7 356.1 224.6 198.0 161.1 110.7 97.3 Plantilla 23.8 19.2 9.4 9.5 7.6 6.7 6.6 3.4 5.5 a) Calcular las ventas medias y el número medio de empleados. b) ¿Dónde existe mayor homogeneidad, en las ventas o en la plantilla? c) Calcular las ventas medias por empleado. 21) Una empresa dedicada al cultivo y explotación de naranjos posee 5 fincas. La producción de naranjas y el rendimiento medio por hectárea para cada una de las fincas están dados en la siguiente tabla. Calcular el rendimiento medio por hectárea para el total de las 5 fincas. Producción (Tm) Rendimiento (Tm/Ha) 47 Finca 1 Finca 2 Finca 3 Finca 4 Finca 5 15 5 20 8 30 9 2 10 4 20 Solución. El rendimiento medio por hectárea en el total de la fincas vendrá dado por el cociente entre el total de la producción y el total de hectáreas. Esta última cantidad la podemos calcular como cociente producción/rendimiento en cada finca: Total producción 15 5 20 8 30 = 8.07 Tm/hectárea. Total hectárea 15 / 9 5 / 2 20 /10 8 / 4 30 / 20 Observe que la fórmula aplicada coincide con la media armónica de los rendimientos ponderados por la producción de cada fila. RM 22) La primera etapa de un rally consta de 4 tramos cronometrados. En cada uno de los 4 tramos, un determinado piloto ha alcanzado las siguientes velocidades medias: Tramo 1 Tramo 2 Tramo 3 Tramo 4 Distancia (km) 20 10 15 30 Velocidad media (km/h) 120 70 80 90 Calcular la velocidad media total alcanzada por el piloto en la primera etapa del rally. Solución. La velocidad media total vendrá dada por el cociente entre el total de la distancia y el tota del tiempo: VM Total dis tan cia 20 10 15 30 = 90.32 Km/hora. Total tiempo 20 /120 10 / 70 15 / 80 30 / 90 Observe que la fórmula aplicada vuelve a ser la media armónica, de las velocidades ponderadas por la distancia de cada tramo. 23) Se tienen tres ciudades A, B y C. La distancia que hay de B a C es el triple de la distancia de A a B; y la distancia de C a A es el doble de la distancia de B a C. Un automovilista viaja de A a B a 70 Km/h de B a C a 75 Km/h y de C a A 85 Km/h. Determine el promedio de velocidad para el viaje completo. 24) En la asignatura de Matemática Básica se obtuvo una nota media de 4 puntos y desviación estándar 1.8. Se añaden 20 nuevos datos, todos iguales a 4 puntos. a) Calcular la media total 48 n1 S X21 b) Verificar que la varianza total está dada por: 20 n1 , donde n1 es el número de S2 alumnos del primer grupo y X1 representa la varianza del primer grupo de alumnos. 25) Supongamos que se tienen dos variables aleatorias X, Y de las que se conocen los siguientes datos muestrales: X , Sx , g1X , yi kxi b y n tamaño de la muestra (k y b son constantes positivas). Calcular: a) La media y la desviación estándar de Y b) Comparar el coeficiente de asimetría de ambas variables SOLUCIÓN: GUIA DE EJERCICIOS N° 3 Medidas características de una distribución cuantitativa empírica. 1. ¿Por qué no se aplica la media geométrica cuando uno de los valores es cero? Si la fórmula es G = ( Respuesta: porque si uno de los valores es cero, la multiplicación de todos ellos dará cero y la media geométrica será cero, que no representa el valor de la media geométrica, entonces no tiene sentido aplicar la fórmula de la media geométrica. 2. De un grupo de 100 obreros en una fábrica, 40 trabajan en el día y 60 en la noche. Se sabe que el salario promedio anual de los 100 obreros es de $ 8700 y que los del turno del día reciben en promedio $800 menos que los trabajadores nocturnos. ¿Cuál es el salario promedio anual en cada grupo? Solución Datos: n= 100= =60, trabajadores de noche. = 8,700 Como tenemos que los trabajadores del turno de día reciben en promedio $800 dólares menos que los de la noche 49 Entonces …Ecu. 1 = Luego utilizando la fórmula de la media ponderada , luego sustituyendo tenemos 870,000= 100 - 32,000 902,000=100 = 9,020= , salario promedio en el grupo dos Sustituyendo en Ecu.1 tenemos = = 8220, salario promedio en el grupo uno. 3. En un supermercado trabajan 35 mujeres, con un salario promedio mensual de $ 650 dólares y 15 hombres en promedio ganan un 12% más que las mujeres ¿cuál es el salario promedio de los empleados del supermercado? Solución Datos = 35 =15 Ahora como tenemos dos grupos utilizamos la media ponderada , sustituyendo Salario promedio de los empleados del supermercado. 4. Durante un mes se construyeron 134 Km de carretera en la siguiente forma: 3.6% del total en la primera semana; 15.3% del total en la segunda semana; 7.6% en la tercera 50 semana; 24.5% en la cuarta semana y en la última semana el 49%. La construcción promedio por día en cada semana fue de: 0.9Km/d, 3.4Km/d, 1.7Km/d, 5Km/d y 10Km/d, respectivamente. Hallar la medida de tendencia central que mejor represente el promedio de esta distribución. Solución La medida de tendencia central que mejor representa el promedio de esta distribución es la media armónica. Construimos la siguiente tabla. semanas Construcción(km) Construcción promedio(km/d) 1ª 4.82 0.9 2ª 20.50 3.4 3ª 10.18 1.7 4ª 32.83 5 5ª 65.66 10 Ma= Ma= = 4.39km/d 5. La media aritmética de tres números es 7, su mediana es 6, y su media geométrica es . Con los tres números calcular la media armónica. Solución Sean: los tres números. Datos: =7 Md=6 51 Mg= n=3 Como la mediana es el valor central entonces Md= 6= Entonces los números son x1= 3, X2=6 y X3=12 Luego encontrar la media armónica de los tres números = 9.25 6. Se sabe que la media aritmética de dos números es 5 y la geométrica es 4. ¿cuál es la media armónica? Solución los dos números. Sean: Datos: = 5 Mg=4 n=2 La media aritmética , Ecu. 1 Ahora utilicemos la media geométrica 4= , sustituyendo 16= 52 +16=0 ( Sustituyendo en Ecu 1 Sustituyendo en Ecu 1 Los números son 8 y 2 Luego encontrar la media armónica de los dos números = 3.2 7. Una persona viaja 4 días. Diariamente recorre 200km, pero maneja el primero y el ultimo día a 50km/h. ¿cuál es la velocidad media durante el viaje? Solución Construimos la siguiente tabla días Distancia(km) Velocidad media (km/h) 1 200 50 2 200 55 3 200 70 4 200 50 Para calcular la velocidad media utilizamos la media armónica 53 Ma= = 55.19 8. Las ciudades A, B y C son equidistantes entre sí. Un automovilista viaja de A a B a 30km/h, de B a C a 40km/h y de C a A a 50km/h. Determinar el promedio de velocidad para el viaje completo. Solución Utilizamos la media armónica, porque con ella encontramos la velocidad media, y como nos dice que las ciudades son equidistantes, entonces tenemos Ma= = = = 38.29 9. Un fabricante dispone $600,000 anuales para la compra de materia prima. Durante tres años invierte la misma cantidad de dinero. Si el precio promedio por kg ha aumentado en los últimos tres años sucesivamente de $2,200 a $2,280 y luego a $4,600. ¿Cuál es el precio promedio que ha pagado el fabricante en los tres años? Solución Utilizar la media geométrica Mg= Sustituyendo los valores tenemos Mg= =3,048.69 10. El primero de mayo de 2002 se ahorraron $50,00 en un banco al 7.6% del interés anual, capitalizado semestralmente. Obtener la cantidad media depositada en la cuenta, entre el primero de mayo de 2002 y el 31 de octubre de 2006, suponga que no se hicieron retiros durante el periodo. Solución Como el problema se refiere a interés se utiliza la media geométrica 54 Mg= Construir la siguiente tabla Semestres año capital Ln 1/05-31/10 2,002 50,000 10.82 1/11-31/05 2,002 51,900 10.85 1/05-31/10 2,003 53,872.2 10.89 1/11-31/05 2,003 55,919.34 10.93 1/05-31/10 2,004 58,044.27 10.97 1/11-31/05 2,004 60,249.95 11.01 1/05-31/10 2,005 62,539.44 11.04 1/11-31/05 2,005 64,915.94 11.08 1/05-31/10 2,005 67,382.74 11.12 Total 98.71 Luego sustituir los datos en Mg= Mg= , tenemos =29.81 11. Tres amas de casa fueron a comprar a tres mercados diferentes. Cada una gasto $10 dólares en la compra de naranjas. La ama de casa A compro 4 docenas de naranjas, la ama de casa B compro 6 docenas de naranjas y la ama de casa C, compro 3 docenas de naranjas. ¿Cuál es el precio promedio por docena? Solución A= B= C= =3.3 55 Luego utilizamos la media armónica , sustituyendo los datos tenemos =2.27, precio promedio por docena 12. el siguiente cuadro muestra la distribución de renta anual (en miles de dólares) en que incurren 50 viviendas. Marca de clase 18.85 21.55 24.25 26.95 29.65 32.35 35.05 N° de viviendas 3 2 7 7 11 11 9 A) Halle e intérprete según el enunciado i) media, mediana y moda Para encontrarlas necesito construir la tabla de frecuencias. Para encontrar la clase utilizo = 21.55-18.85=2.7 Entonces tenemos que las amplitudes de las clases son 2.7 Luego construimos la tabla de frecuencias agrupadas Clases 17.5-<20.2 18.85 3 3 20.2-<22.9 21.55 2 5 22.9-<25.6 24.25 7 12 25.6-<28.3 26.95 7 19 28.3-<31 29.65 11 30 31-<33.7 32.35 11 41 33.7-<36.4 35.05 9 50 Total n=50 -hallar la media 56 Sustituyendo los datos tenemos -hallar la mediana Md= Buscar la clase = =25, en las frecuencias acumuladas Sustituyendo los datos tenemos Md= -hallar la moda. Como la moda en los datos agrupados en clases es el valor que más se repite pero en las frecuencias simples entonces tenemos dos clases modales (las que tiene color rosado) Para encontrarlas utilizamos Md= Md= Md= =29.95 Md= =32.21 ii) desviación estándar y coeficiente de variabilidad -desviación estándar Para encontrarla debó primero conocer la varianza y esta viene dada por la siguiente formula , Sustituyendo los datos en la formula tenemos 57 Entonces la desviación estándar es S=4.62 -coeficiente de variabilidad Sustituyendo los datos tenemos La media es representativa porque el coeficiente es muy bajo b) estime el porcentaje de viviendas con rentas superiores o iguales a 26,000 dólares pero menores que 32,000 dólares Es la clase que esta coloreada de amarillo , es el porcentaje 13) una compañía requiere los servicios de un tecnico especializado. De los expedientes presentados, se han seleccionado dos candidatos: A y B los cuales reúnen los requisitos mínimos requeridos. Para decidir cuál de los dos se va a contratar, los miembros del jurado deciden tomar siete pruebas a cada uno de ellos. Los resultados se dan a continuación. Pruebas 1 2 3 4 5 6 7 Puntaje obtenido por A 57 55 54 52 62 55 59 Puntaje obtenido por B 80 40 62 72 46 80 40 a) Halle media, mediana y moda de los candidatos 58 = , media del candidato A , media del candidato B - Mediana Ordenar los datos A B Para encontrar la mediana se busca la posición Entonces 55 62 -hallar moda Como la moda es el valor que más se repite entonces tenemos 55 40 80 Estadísticamente. ¿cuál de los dos candidatos debe ser contratado? Fundamente su respuesta. Para saber si las medias de los candidatos A y B son representativas como para elegir un candidato debo encontrar el coeficiente de variabilidad de ambos. Encontrar desviación estándar del candidato A =9.63, varianza del candidato A Desviación estándar del candidato A El coeficiente de variación de A 59 , coeficiente de variación de del candidato A Encontrar desviación estándar del candidato B = varianza del candidato B , desviación estándar del candidato B Encontrar el coeficiente de variación , Entonces estadísticamente el candidato que debe de ser contratado es el A, ya que el coeficiente de variabilidad de este es más pequeño que el del candidato B, es decir que la media de A es más representativa. 14. se toman las medidas de 80 personas las que tiene estatura media de 1.70m y desviación estándar de 3.4cm. Posteriormente se verifico que la media usada tenía 4 cm de menos. Rectifique los estadísticos mencionados. Solución Tenemos que =1.70 y como tiene un error de 4cm entonces la nueva media es =1.64. Ahora encontrar la varianza, Por propiedad de la varianza sabemos que si a todos los datos que tenemos le sumamos o le restamos algo esta no cambia entonces la varianza será la misma =3.4 15) una asistencia social desea saber cuál es el índice de natalidad en 2 municipios de san salvador para ello encuesto a 10 familias de cada municipio obteniendo los siguientes resultados. 60 A 0 6 1 2 3 1 4 3 6 4 B 3 4 1 4 2 3 1 5 4 3 a) Calcule la media, mediana y moda para cada municipio e interprételos. -media = 3, media del municipio A , media del municipio B -mediana Ordenar los datos de los municipios A B Buscar la posición =5.5, entonces tenemos que =3 La moda es el valor que más se repite entonces tenemos que 1 3 3 4 4 6 b) Considera Ud. que el distrito B, el número de hijos por familia es más homogéneo que en el distrito A. Para saber cual distrito es más homogéneo encuentro su respectivo coeficiente de variación Encontrar desviación estándar del municipio A 61 =3.8, varianza del municipio A Desviacion estándar del municipio A El coeficiente de variación de A , coeficiente de variacion del municipio A Encontrar desviación estándar del municipio B = varianza del municipio B , desviación estándar del municipio B Encontrar el coeficiente de variación , Entonces el municipio más homogéneo es el B. 16) El salario promedio anual en una ciudad es de 8,000 dólares, con una varianza de 1,000 dólares. ¿Cuáles serán la nueva media y la nueva varianza si se efectúan los siguientes cambios? a) se aumenta 810 dólares a todos =8000, pero como a cada uno de los trabajadores se les aumenta 810 dólares mas por propiedad de la media se sabe que si a cada dato se le suma o se le resta una constante entonces esta constante se le suma o se le resta a la media, entonces tendremos =8000+810=8,810, esta es la nueva media 62 Ahora para encontrar la varianza lo hacemos por la propiedad que dice que si a cada uno de los valores se le suma o resta una constante la varianza no cambia entonces =1,000, b) Se aumenta el 15% de su salario a cada trabajador En lo anterior realizado se puede observar que a cada salario se está multiplicando por una constante, y por propiedad de la media tenemos que si la media de multiplicar cada uno de los valores de una variable por una constante es igual a multiplicar la constante por la media. Entonces la nueva media será =8000x1.15=9,200 La nueva varianza la encontramos utilizando la propiedad que dice que si todos los datos son multiplicados por una constante entonces se multiplica la constante al cuadrado por la varianza entonces tendremos =1,000x c) =1322.5 Se duplican los sueldos Utilizando las propiedades del literal c) tendremos que =8000x2=16,000, esta será la nueva media =1,000x =4,000, esta será la nueva varianza 17) En un examen 20 alumnos del curso A obtienen una media de 60 puntos y desviación estándar de 20 puntos. En el curso B los alumnos obtienen una media de 80 y desviación estándar de 16. Ante unos reclamos se decide subir en 5% mas 5 puntos adicionales a todos los alumnos del curso A, en cambio como hubo muchas copias en el curso B se decidió 63 disminuir la quinta parte de la calificación. Después de los mencionados ajustes ¿cuál es el puntaje promedio de los 50 alumnos? Solución Datos A B =20 =30 60 80 20 16 -encontrar la nueva media y desviación estándar de los cursos A y B Para el curso A tenemos Entonces la nueva media utilizando la propiedad correspondiente será 60x 1.05+ 5 =68 Y la nueva varianza utilizando la propiedad correspondiente será 20x = 22.05, Ahora para el curso B tenemos Por propiedad de la median tendremos 80x = 64 64 Por propiedad de la varianza tendremos 16x = 10.24, Ahora encontrar el puntaje promedio de los 50 alumnos Para ello utilizamos la median pondera. , luego sustituyendo tenemos =65.6. Puntaje promedio de los alumnos. 18) se ha realizado un estudio entre 100 mujeres mayores de 15 años y el número de hijos de las mismas. El resultado ha sido: 0 13 1 20 2 25 3 20 4 11 5 7 6 4 N=100 .se pide: a) Calcular el número medio de hijos, la mediana y la moda. b) La media =2.33 65 -mediana Buscar la posición Entonces Md=2 -moda Como en esta caso el valor que más se repite es 2, entonces Mo=2 c) Calcular los cuartiles y el decil 7 -cuartil 1 Buscar la posición Entonces =1 -cuartil 2 Buscar la posición Entonces =2 -cuartil 3 Buscar la posición Entonces 75 =3 -calcular el decil 7 Buscar la posición =3 d) Analizar la dispersión de la distribución, interpretando los resultados. Para ello debó calcular el coeficiente de variación, para encontrarla debó primero conocer la varianza y esta viene dada por la siguiente formula 66 Entonces la desviación estándar es S=1.59 -coeficiente de variabilidad Sustituyendo los datos tenemos d) analizar la forma de la distribución calculando los coeficientes correspondientes, comente su respuesta. -calcular el coeficiente de asimetría y este viene dado por -calcular el coeficiente de curtosis =2.39 Comente su respuesta Que es una distribución platicurtica y asimétrica a la derecha 19) la siguiente distribución expresa el número de vehículos vendidos durante un mes por cada uno de las 50 sucursales que una determinada firma tiene en El Salvador. 67 1 5 3 12 4 20 6 8 10 5 N=50 .se pide a) Media aritmética, mediana y moda. -media aritmética =4.38 -mediana Buscar la posición Entonces Md=4 -moda Como en esta caso el valor que más se repite es 4, entonces Mo=4 Se espera una distribución aproximadamente simétrica b) Desviación típica, coeficiente de asimetría de Fisher y curtosis. Comente resultados. -desviación típica Entonces la desviación estándar es S=2.28 -coeficiente de Fisher 68 =1.17 -calcular el coeficiente de curtosis =1 Tiene una distribución asimétrica a la derecha y platicurtica 20. la siguiente tabal recoge la cifra de ventas (en miles de millones de dólares) de las diez mayores empresas del sector de automóvil durante el año 1989. empresa ventas Plantilla Sea 457.3 23.8 Fasa Renault 449.7 19.2 General Motors 372.7 9.4 Ford 356.1 9.5 Citroen 224.6 7.6 Peugeot 198.0 6.7 Nissan 161.1 6.6 Mercedes Benz 110.7 3.4 Enasa 97.3 5.5 a) Calcular las ventas medias y el número medio de empleados. -ventas medias 69 -número medio de empleados b) donde existe mayor homogeneidad, en las ventas o en la planilla. Para saberlo debó calcular el coeficiente de variación Encontrar desviación estándar de las ventas =17,737.70, varianza de las ventas Desviación estándar de las ventas El coeficiente de variación de las ventas , coeficiente de variación de las ventas Encontrar desviación estándar de los empleados = varianza de los empleados , desviación estándar de los empleados Encontrar el coeficiente de variación , Entonces existe más homogeneidad en las ventas. c) Calcular las ventas media por empleados 70 Luego lo dividimos entre mil para obtener las ventas medias por empleado 21) una empresa dedicada al cultivo y explotación de naranjas posee 5 fincas. La producción de naranjas y el rendimiento medio por hectárea para cada una de las fincas están dados en la siguiente tabla. Calcular el rendimiento medio por hectárea par el total de las 5 fincas. Fincas Producción( Tm) Rendimiento(Tm/Ha) 1 15 9 2 5 2 3 20 10 4 8 4 5 30 20 El rendimiento medio por hectárea lo encontramos con la media armónica. , rendimiento medio por hectárea. 22. la primera etapa de un rally consta de 4 tramos cronometrados. En cada uno de los 4 tramos, un determinado piloto ha alcanzado las siguientes velocidades. Tramos Distancia(km) Velocidad media(km/h) 1 20 120 2 10 70 3 15 80 4 30 90 .calcular la velocidad media total alcanzada por el piloto en la primera etapa del rally. 71 72 Capítulo 4. Distribuciones Bivariadas 4.1. Distribuciones bidimensionales Supongamos que en una población, y para un conjunto de n individuos, se miden dos caracteres X e Y: ( x1 , y1 ), ( x2 , y2 ),. . ., ( xn , yn ) En este caso tenemos una variable estadística bidimensional o distribución bidimensional de frecuencias, la cual representaremos por (X, Y). Cuando se cuenta con una gran cantidad de datos, un modo de presentar la distribución bidimensional es a través de una tabla de doble entrada de la forma: Tabla de doble entrada X/Y y1 y2 ... yj ... yk Total x1 x2 . . . xi . . . xl n11 n12 . . . n1 j ... n1k n21 n22 . . . n2 j ... n2 k . . . ni 1 . . . nl 1 . . . ni 2 . . . nl 2 . . . . . . nij . . . . . . nlj n2 . . . n j Total n1 ... nik ... . . . nlk n1 n2 . . . ni . . . nl ... n k n . . . Donde los valores de X e Y pueden venir dados en intervalos, al igual que en el caso de una dimensión. En el caso de que las dos variables sean atributos, la tabla anterior recibe el nombre de tabla de contingencia. La representación gráfica más utilizada en el caso bidimensional es la nube de puntos o diagrama de dispersión. Consiste en representar cada pareja de datos como un punto sobre unos ejes cartesianos. 73 4.2. Distribuciones marginales y condicionales. Dada una variable estadística bidimensional, las distribuciones marginales permiten estudiar de un modo aislado cada una de las componentes. A partir de una tabla de doble entrada, las distribuciones de frecuencias marginales se obtienen sumando las frecuencias de la tabla por filas y por columnas. Distribuciones marginales de X e Y. X Y ni x1 x2 . . . xl n1 n2 . . . nl y1 y2 . . . yk n j n1 n2 . . . n k Las distribuciones condicionadas permiten estudiar el comportamiento de una de las variables cuando la otra permanece constante. Vienen dadas por: X/Y= y j x1 x2 . . . xl Distribuciones condicionadas de X e Y. ni / j nj /i Y/X= xi n1 j n2 j . . . n lj y1 y2 . . . yk ni1 ni 2 . . . nik Ejemplo: Se desea investigar el ganado caprino (cabras) y el ganado ovino (ovejas) de un país. En la tabla de doble entrada adjunta se presentan los resultados de un estudio de 100 explotaciones ganaderas, seleccionadas aleatoriamente del censo agropecuario. Se proporcionan las frecuencias conjuntas del número de cabezas (en miles) de cabras (X) y ovejas (Y) que poseen las explotaciones. X\Y 0 1 2 3 4 0 4 6 9 4 1 1 5 10 7 4 2 2 7 8 5 3 1 3 5 5 3 2 1 4 2 3 2 1 0 a) Hallar las medias, varianzas y desviaciones típicas marginales. b) Hallar el número medio de cabras condicionado a que en la explotación hay 2,000 ovejas. c) Hallar el número medio de ovejas que tienen aquellas explotaciones que sabemos que no tienen cabras. 74 Solución: Primero completar la tabla anterior con las distribuciones de frecuencias de X e Y. X\Y 0 1 2 3 4 0 1 2 3 4 n j 4 5 7 5 2 23 6 10 8 5 3 32 9 7 5 3 2 26 4 4 3 2 1 14 1 2 1 1 0 5 ni 24 28 24 16 8 100 a) La media de X es: X 0* 24 1* 28 2* 24 3*16 4*8 = 156/100= 1.56 100 La varianza de X es: S 2X (0 1.56)2 *24 (1 1.56) 2 *28 (2 1.56) 2 *24 (3 1.56) 2 *16 (4 1.56)2 *8 = 1.5264 100 La desviación típica (Estándar) es la raíz cuadrada positiva de la varianza, es decir: S X S X 2 =1.2355 Observe que la media muestral es un buen representante de los datos, ya que la desviación estándar no es demasiado alta. Para completar el literal a) debe obtenerse la media, varianza y desviación estándar para la variable Y. b) El número medio de ovejas condicionado a que en la explotación hay 2,000 cabras, se obtiene manteniendo fija la columna donde la variable Y es igual a 2. Esto es: 3*3 4* 2 X / Y 2 0*9 1*7 2*5 26 = 1.3077 75 c) De forma análoga al literal b) (la media de Y es 1.46) Ejemplo. Dada la siguiente distribución de frecuencias conjunta: Xi Yi nij 1 1 2 3 3 4 4 4 2 6 2 2 4 2 4 6 1 1 2 1 1 1 2 1 Construir una tabla de correlación (doble entrada) y obtener: Distribuciones marginales de X e Y. Distribución de Y condicionado a X=3 Covarianza Solución. La tabla de correlación pedida y sus distribuciones marginales están dadas en la siguiente tabla: Y/X 1 2 3 4 n. j La distribución de Y/X=3 2 1 2 1 1 5 Y/X=3 2 4 6 4 0 0 1 2 3 1 1 0 n j / i 3 6 1 0 0 1 2 ni. 2 2 2 4 10=N Hay que introducir el concepto de covarianza: Cuando se observa el comportamiento conjunto de dos variables, el objetivo principal es determinar si existe o no algún tipo de variación conjunta o covariación entre ellas. La covarianza, ayuda a cuantificar la covariación entre dos variables; así: Si la Cov(X,Y)>0, existe una tendencia a que mayores observaciones de una de las variables se correspondan con mayores observaciones de la otra variable. Si Cov(X,Y)<0, existirá una tendencia a que mayores observaciones de una variable se correspondan con menores observaciones de la otra variable. Si Cov(X,Y)=0, no se puede concluir que no exista relación entra ambas variables. Pero se puede decir que no existe relación lineal entre las variables. Matemáticamente la covarianza se define como: Cov( X , Y ) S XY x l k i 1 j i X y j Y nij N 76 4.3. Coeficiente de correlación lineal Consideremos una variable estadística bidimensional (X, Y) donde X e Y son de tipo continuo y suponemos que existe entre ellas algún tipo de relación, constatable mediante la correspondiente representación gráfica. Pregunta: ¿Cómo de grande es la relación entre X e Y y cómo cuantificarla? El coeficiente de correlación lineal es un valor que permite estudiar el grado de dependencia lineal existente entre X e Y. Viene definido por: S XY r S X SY 1 n ( xi x )( y i y ) n i 1 2 1 n 1 n ( xi x ) ( y i y )2 n i 1 n i 1 El término SXY se denomina covarianza. Una propiedad importante del coeficiente de correlación es que no depende de cambios de origen y escala, y su valor siempre está comprendido entre -1 y 1: 1 r 1 De modo que valores de r cercanos a 1 indican una dependencia lineal y positiva entre las dos variables, y valores de r cercanos a -1 indican dependencia lineal negativa. Cuando el valor de r está cercano a cero, no existe dependencia lineal entre X e Y. Esto último puede ser, bien porque X e Y son variables independientes, o bien porque la dependencia existente entre ambas variables es de otro tipo diferente al lineal. 4.4. Introducción al modelos de regresión lineal Los modelos de regresión lineal constituyen una poderosa herramienta para analizar la relación existente entre la pauta de variabilidad de una variable aleatoria y los valores de una o más variables (aleatorias o no) de las que la primera depende o puede depender. El modelo fundamental se esquematiza en la siguiente tabla. Tabla 1 Datos del problema Variables a explicar (aleatoria) Y1 Variables o factores explicativos (aleatorios o no) X11 …Xi1….XIn ---Observaciones Yj X1i …Xii….Xin ---Yn X1n …Xin….Xnn 77 Se trata en general de estudiar las posibles relaciones existentes entre la distribución de Y j y los valores de las X ij . A la Y se le denomina generalmente la variable dependiente, mientras que frecuentemente a X i se les llama variables independientes o exógenos del modelo, aunque se prefiere denominarlas variables explicativas. Los gráficos de dispersión son útiles debido a que proporcionan información sobre la relación existente entre las variables, permiten sugerir modelos posibles, pueden señalar la existencia de observaciones atípicas, etc. EJEMPLO 1. Analicemos la relación que existe entre el peso y la estatura según el sexo en el siguiente diagrama de dispersión. 1: Hombres, 2: Mujeres. ESTAPESO.xls Figura1 Diagrama de dispersión ESTATURA-PESO. El diagrama presenta claramente, una relación positiva entre las dos variables estudiadas, que se refleja en una nube de puntos cuyo eje principal tiene un sentido creciente, como consecuencia del hecho de que, en términos generales, los individuos más altos pesan más que los más bajos. El diagrama también pone de manifiesto que las mujeres tienen en general valores menores de ambas variables que los hombres, pero que la relación entre PESO Y ESTATURA es bastante similar en ambos sexos. Covarianza. Coeficiente de Correlación Con el objetivo de dar una idea intuitiva del concepto de covarianza, razonemos el siguiente diagrama de dispersión, correspondiente a las variables: TEMPERATURA-COSTO, en la que las rectas horizontal y vertical sobre el conjunto de puntos corresponden a los valores medios (42.83, 79.25). 78 En este caso, existe claramente una fuerte relación negativa, la mayor parte de los puntos caen en los cuadrantes II Y IV. Cuando la relación existente sea positiva la mayoría de los puntos caerán en los cuadrantes I y III Si consideramos para cada punto xi , yi del diagrama el signo que tiene el producto x xy y vemos que éste resulta positivo en los cuadrantes I y III y negativo en los cuadrantes II Y IV. Por lo tanto el producto anterior será en promedio positivo si existe una relación creciente entre las dos variables (es decir, si la Y tiende a crecer cuando lo hace la X) y negativo si la relación existente es decreciente. i i Por definición la covarianza entre dos variables no es más que el promedio de los productos de las desviaciones de ambas variables respecto a sus medias respectivas. De forma similar a como se procedió a definir la varianza, el promedio se calcula dividiendo por n-1 en vez de n. x n Cov xy i 1 i x yi y n 1 . La covarianza presenta el inconveniente de que depende de las dimensiones en que se expresan las variables. Así la covarianza entre TEMPERATURA y COSTO será mayor si se mide la temperatura en grados kelvin que si se mide en Fahrenheit. Para obviar este problema se utiliza universalmente en Estadística, como grado de relación lineal entre dos variables, el coeficiente de correlación lineal que no es más que la covarianza dividida por el producto de las Cov xy desviaciones típicas de las dos variables. rxy . Se puede demostrar que el coeficiente de SxSy correlación lineal está siempre comprendido entre -1 y 1. Los valores extremos sólo los toma en el caso de que los puntos del diagrama de dispersión estén alineados exactamente en línea recta. Cuanto más estrecho es el grado de relación lineal existente entre dos variables más cercano a 1 es el valor de r (o a -1 si la relación es decreciente). Por el contrario un valor de r nulo o cercano a cero indicará una relación lineal inexistente o nula. 79 OBSERVACIONES En general cuanto más estrechamente se agrupen los puntos del diagrama de dispersión alrededor de una recta más fuerte es el grado de relación lineal existente entre las dos variables consideradas. Es importante resaltar que tanto la covarianza como el coeficiente de correlación miden sólo el grado de relación lineal existente entre dos variables. Dos variables pueden tener una relación estrecha y sin embargo resultar r cercano a cero por ser dicha relación no lineal. Es importante del conocimiento no estadístico del problema al momento de hacer predicciones. EJERCICIO 1. Dada una alta inflación, el señor Chávez ha cuidado mucho de su presupuesto. Como su casa tiene calefacción eléctrica, llevó un registro de la cuenta del consumo mensual de energía eléctrica durante el año pasado y del promedio mensual de la temperatura exterior. Los datos aparecen en la siguiente tabla. La temperatura está dada en grados Celsius y el costo de la energía está en dólares. TEMPERACOSTO.xls. Tabla2. Registro mensual: TEMPERATURA-COSTO. Enero Temperatura Promedio 10 costo de energía 120 Febrero 18 90 Marzo 35 118 Abril 39 60 Mayo 50 81 Junio 65 64 Julio 75 26 Agosto 84 38 Septiembre 52 50 Octubre 40 80 Noviembre 25 100 Diciembre 21 124 Mes Identificar las variables, dependiente y explicativa. Hacer sus conjeturas de la relación entre las variables a partir del siguiente gráfico y calcular la Cov xy y rxy . 80 Figura 2. Diagrama de dispersión TEMPERATURA- COSTO. Descriptive Statistics Mean Std. Deviation N TEMPERATURA 42.83 23.218 12 COSTO 32.628 12 79.25 Correlations TEMPERATURA COSTO TEMPERATURA Pearson Correlation 1 Sig. (2-tailed) Sum of Squares and Cross-products Covariance N COSTO Pearson Correlation Sig. (2-tailed) Sum of Squares and Cross-products Covariance N -.863** .000 5929.667 -7188.500 539.061 -653.500 12 12 -.863** 1 .000 -7188.500 11710.250 -653.500 1064.568 12 12 **. Correlation is significant at the 0.01 level (2-tailed). RUTA:Analyze>Correlate>Bivariate (En variables trasladar TEMPERATURA, COSTO)>Opciones (Seleccionar los estadísticos, Exclude cases pairwise)>Continue>Ok 81 4.5. Modelo de regresión simple. En este tipo de regresión se desea caracterizar el efecto lineal de una única variable explicativa sobre la variable respuesta. Los pasos para efectuar un análisis son los siguientes (JURAN y GRYNA, 1997, cap. 23): 1. Representación gráfica de datos 2. Planteamiento del modelo 3. Estimación de la ecuación de predicción 4. Examen de la adecuación del modelo lineal 5. Intervalos de confianza para la estimación En este apartado se explica el modelo de regresión lineal simple, un modelo con un solo regresor x que tiene una relación con una respuesta y, donde la relación es una línea recta. Este modelo de regresión lineal simple es: y o 1x (Modelo poblacional de regresión) Donde la ordenada al origen o y la pendiente 1 son constantes desconocidas, y es una componente aleatorio del error. Se supone que los errores tienen promedio cero y varianza 2 desconocida. Además se suele suponer que los errores no están correlacionados. Esto quiere decir que el valor de un error no depende del valor de cualquier otro error. 4.5.1. Estimación de los parámetros por mínimos cuadrados Los parámetros o y 1 son desconocidos, y se debe estimar con los datos de la muestra. Supongamos que hay n pares de datos: x1 , y1 , x2 , y2 ,, xn , yn . Estos datos pueden obtenerse en un experimento controlado, diseñado en forma especifica para recolectarlos, o en un estudio observacional, o a partir de registros históricos existentes (lo que se llama un estudio retrospectivo). Estimación de Para estimar o y 1 o y 1 se utiliza el método de mínimos cuadrados. Esto es, se estima o y 1 tales que la suma de los cuadrados de las diferencias entre las observaciones yi y la línea 82 recta sea mínima. La ecuación se puede yi o 1 xi i escribir i 1, 2,..., n (Modelo muestral de regresión), escritos en términos de los n pares de datos yi , xi , i 1, 2,..., n . Así el criterio de mínimos cuadrados es: n S 0 , 1 yi 0 1 xi . Los estimadores por mínimos cuadrados de o y 1 , 2 i 1 n S 2 yi 0 , i 1 0 1 0 1 , deben satisfacer que se designarán por y x 0 1 i n S yi 2 1 , i 1 0 1 y 0 0 1 x x i i 0 Simplificando estas dos ecuaciones se obtiene: n 0 1 x y n i 1 n i i 1 i n n i 1 i 1 0 x 1 xi2 xi yi ; n i i 1 Que son las llamadas ecuaciones normales de mínimos cuadrados. Su solución es la siguiente: y x ; 0 1 n n yi xi i 1 i 1 yi xi n i 1 n 1 n xi 2 i 1 xi n i 1 , en donde y 2 1 n yi n i 1 x 1 n xi son n i 1 n los promedios de yi y xi respectivamente. Por consiguiente, mínimos cuadrados. y 0 1 x .Esta El 0 y 1 , son los estimadores por modelo ajustado de regresión lineal simple es entonces: ecuación produce un estimado puntual, de la media de y para una determinada x. Otra forma más compacta de escribir 1 S xy , donde: S xx 2 S xx n xi n 2 xi i 1 n i 1 x n i 1 i 2 x ; La diferencia entre el valor observado yi S xy n n y xi i n yi xi i 1 i 1 n i 1 y x n i 1 i i x y el valor ajustado correspondiente yi se llama residual, matemáticamente el e y y y 0 1 xi i 1,2,....n . i-ésimo residual es: i i i i ei Tiene un papel importante para investigar la adecuación del modelo de regresión ajustado. 83 4.5.2. Propiedades de los estimadores por mínimos cuadrados y el modelo ajustado de regresión. Tenemos que: 0 y 1 x y x n 1 S xy i 1 i i x Son combinaciones lineales de y , entonces se puede escribir, i S xx S xx E yi E 1 1 E 0 0 ; 0 1 xi Var 1 sxx 2 1 x2 Var 0 2 n sxx Propiedades útiles n 1. y i y i ei 0 i 1 i 1 n n n i 1 i 1 2. y i y i 3. La línea de regresión de mínimos cuadrados siempre pasa por el centroide de los datos que es el punto n 4. xe i 1 n 5. i i y, x 0 yi ei 0 i 1 84 Estimación de 2 2 Además de estimar 0 y 1 , se requiere estimar . Se obtiene de la suma de cuadrados residuales, o suma de cuadrados del error. n SC Re s ei 2 i 1 yi yi i 1 n 2 y i 0 1 xi i 1 n 2 y i y 1 x 1 xi i 1 n n n 2 2 y i y 2 1 y i y xi x 1 i 1 n 2 i 1 n x n i 1 i x 2 n n n 2 yi 2 yi y y 2 1 xi yi 2 1 yi x 2 1 xi y 2 1 x y 1 s xx i 1 2 2 n n yi 2n 2 y y 2 1 n i i 1 i 1 n i 1 i 1 i 1 i 1 i 1 n n i n n y 2 1 xi y i 2 1 2 i 1 s 1 1 1 n xx y x 2 n x y .s xx i i 1 i i 1. n i 1 i 1 n i 1 n i 1 s xx n n 1 n x i yi n i 1 i 1 n n n y i 2 n y n y 2 1 xi y i 2 1 2 2 2 i 1 i 1 n 1 n x y i i 1 S xy n i 1 i 1 n n n 2 1 n 2 yi n y 2 1 xi yi xi yi 1 S xy n i 1 i 1 i 1 i 1 n yi n y 2 1 S xy 1 S xy 2 2 i 1 n SC Re s yi n y 1 S xy 2 2 i 1 y y y n Pero i 1 2 i n i 1 i 2 2 n y SCT 85 SCRe s SCT 1 S xy E SCRe s n 2 2 La suma de cuadrados residuales tiene n-2 grados de libertad, porque 2 grados de libertas se asocial con los estimados 0 y 1 que se usan para obtener yi . El estimador insesgado de 2 es: 2 2 SCRe s CM Re s (Cuadrado Medio Residual) n2 : Error estándar de regresión. 2 Es un estimado de 2 dependiente del modelo. 4.5.3. Intervalos de confianza Intervalos de confianza de 0 y 1 . Si los errores se distribuyen en forma normal e independiente, entonces la distribución de muestreo tanto de grados de libertad. Un intervalo de confianza de 1001 % para 1 1 Se 1 y 0 0 Se 0 es t con n-2 1 es: 1 t 2,n2 Se 1 1 1 t 2,n2 Se 1 Un intervalo de confianza de 1001 % para 0 es: 0 t 2,n2 Se 0 0 0 t 2,n2 Se 0 Estimación de intervalos de la respuesta media. Una aplicación importante de un modelo de regresión es estimar la respuesta media, E y , para determinado valor de la variable regresora x. 86 Sea x 0 el valor o nivel de la variable regresora para el que se desea estimar la respuesta media, es decir, E y . Se supone que x 0 es cualquier valor de la variable regresora dentro del intervalo x0 de los datos originales de x que se usaron para ajustar el modelo. Un estimador insesgado de E y se determina a partir del modelo ajustado como sigue: x0 E y y x0 0 1 x0 x0 Para obtener un intervalo de confianza de 1001 % para E y , se debe notar primero que x0 y x es una variable aleatoria normalmente distribuida, porque es una combinación lineal de las 0 observaciones yi . La varianza de y Var y x0 x0 x 2 1 n S xx 2 x0 es: La distribución de muestreo de: y / x E y / x0 0 x0 x 1 CM Re s n S xx 2 es una distribución t, con n-2 grados de libertad. Un intervalo de confianza de 1001 % para la respuesta media en el punto x x 0 es: 1 x x y x0 t ,n 2 . CM Re s 0 n 2 S xx 2 1 x x E y t 0 . CM Re s y x0 ,n 2 x n 2 0 S xx 2 Nótese que el ancho del intervalo de confianza para E y es una función de x 0 . El ancho del x0 intervalo es mínimo para x0 x , y crece a medida que aumenta x0 x . Las mejores estimaciones de y se hacen con valores de x cerca del centro de los datos. 87 4.5.4. Prueba de hipótesis de la pendiente y de la ordenada al origen. Uso de la prueba t Supongamos que deseamos probar que la pendiente es igual a una constante. H 0 : 1 10 H1 : 1 10 ei son NID 0, 2 1 Es una combinación lineal de las observaciones, y está distribuida normalmente. 2 E 1 1 (Promedio de 1 ); Var 1 (Varianza de 1 ) S xx Estadístico t (Definición) CM Re s Denótese a Se 1 : Como el error estándar estimado o error estándar de la S xx pendiente, entonces t0 1 10 Se 1 . Se rechaza la hipótesis nula si t0 t 2 ,n2 . Hipótesis para la ordenada al origen. H 0 : 0 00 H1 : 0 00 ; t0 0 00 1 x2 CM Re s n S xx 0 00 Se 0 1 x2 Error estándar de la ordenada al origen. Se 0 CM Re s n S xx Se rechaza la hipótesis nula sí t0 t 2 ,n2 . Nota: El que una variable no sea significativa no quiere decir que en realidad no lo es, es necesario el conocimiento no estadístico del problema para determinar por ejemplo si los intervalos de los datos fue el adecuado. 88 Prueba de significancia de la regresión (Caso particular del test anterior: la conste es igual a cero). H 0 : 1 0 H1 : 1 0 El no rechazar H 0 : 1 0 implica que no hay relación lineal entre x e y. “X tiene muy poco valor para explicar la variación de Y, por lo tanto el mejor estimador para cualquier x es y y “La verdadera relación entre x e y no es lineal” Si se rechaza H 0 : 1 0 , explica que x tiene valor para explicar la variabilidad de y. Rechazar H 0 : 1 0 podría equivaler a que: “El modelo de línea recta es adecuado” “Aunque hay un efecto lineal en x se podrían obtener mejores resultados agregando términos polinomiales en x”. El procedimiento de prueba para H 0 : 1 0 se puede establecer con dos métodos. 4.6. Predicción de nuevas observaciones Una aplicación importante del modelo de regresión es predecir nuevas observaciones y que correspondan a un nivel especificado de la variable regresora x. Si x 0 es el valor de interés de la variable regresora, entonces: y 0 0 1 x0 es un estimador puntual del nuevo valor de la respuesta y 0 . Una aplicación importante del modelo de regresión es predecir nuevas observaciones y que correspondan a un nivel especificado de la variable regresora x. Si x 0 es el valor de interés de la variable regresora, entonces: y 0 0 1 x0 es un estimador puntual del nuevo valor de la respuesta y 0 . A continuación se obtendrá un estimado del intervalo para esta observación futura y 0 . 89 Sea y 0 y 0 , con distribución normal con media cero y varianza. Var Var y 0 y 0 Var y 0 Var y 0 2Cov y 0 , y 0 Var y 0 Var 0 1 x0 1 x x Var 1 0 S xx n 2 1 x x 0 S xx n 2 2 2 2 El resultado de predicción de 1001 % de confianza para una observación futura en x 0 es: 1 x x y 0 t ,n 2 . CM Re s1 0 n 2 S xx 2 Lo anteriormente expuesto se puede observar en el siguiente gráfico que muestra las bandas de confianza y de predicción para un conjunto de datos. El intervalo de predicción en x 0 siempre es más ancho que el intervalo de confianza en x 0 , porque el intervalo de predicción depende tanto del error del modelo ajustado como el error asociado con observaciones futuras. Coeficiente de determinación. La cantidad R 2 SCR SC Re s 1 . Se llama coeficiente de determinación. SCT SCT 90 Y su valor esperado: E R 2 1 2 S xx 1 2 S xx 2 n 2 SCT yi y : es una medida de variabilidad de y sin considerar el efecto de la variable i 1 regresora x. 2 SC Re s yi y i : es una medida de variabilidad de y que queda después de haber i 1 n tenido en consideración a x. R 2 : Proporción de la variación explicada por el regresor x. Ya que 0 SCR SCT : 0 SCR 1; 0 R 2 1 . SCT Regresión por el origen EL modelo sin ordenada al origen es: y 1 x . Dadas las n observaciones xi , yi , n 2 S 1 y i 1 x i i 1,2,...n , la función de mínimos cuadrados es: i 1 n Siguiendo el proceso por mínimos cuadrados: 1 yi xi i 1 n x i2 i 1 EL modelo de regresión ajustado es: y 1 x . 2 y y i i 2 El estimador de 2 es: CM Re s i 1 n 1 n n y i 1 2 i n 1 y i xi i 1 n 1 Los intervalos de confianza son: 1 : 1 t , n 1 2 CM Re s n x i2 i 1 x02 .CM Re s y E : y x t , n 1 n 0 2 x0 xi2 i 1 91 2 x y 0 t , n 1 CM Re s1 n 0 2 2 xi i 1 Para una observación futura: n yi y Modelo con ordenada al origen R2 i 1 n 2 y i y 2 i 1 Modelo sin ordenada al origen: R 2 n 2 yi i 1 n y i2 i 1 A veces, el diagrama de dispersión proporciona una guía para decidir si se ajusta o no el modelo sin ordenada al origen. También, se pueden ajustar ambos modelos y escoger entre ellos de acuerdo con la calidad del ajuste obtenido. Si no se puede rechazar la hipótesis 0 0 en el modelo sin ordenada al origen, quiere decir que se puede mejorar el ajuste si se usa es modelo. El cuadrado medio de residuales es una forma útil de comparar la calidad del ajuste. El modelo que tenga el cuadrado medio residual menor, es el mejor ajuste. En general, R 2 no es un buen estadístico para comparar los dos modelos. El resultado de predicción de 1001 % de confianza para una observación futura en x 0 es: 1 x x y 0 t ,n 2 . CM Re s1 0 n 2 S xx 2 El intervalo de predicción en x 0 siempre es más ancho que el intervalo de confianza en x 0 , porque el intervalo de predicción depende tanto del error del modelo ajustado como el error asociado con observaciones futuras. Coeficiente de determinación. La cantidad R 2 SCR SC Re s 1 . Se llama coeficiente de determinación. SCT SCT Y su valor esperado: E R 2 1 2 S xx 1 2 S xx 2 92 n 2 SCT yi y : es una medida de variabilidad de y sin considerar el efecto de la variable i 1 regresora x. 2 SC Re s yi y i : es una medida de variabilidad de y que queda después de haber tenido i 1 n en consideración a x. R 2 : Proporción de la variación explicada por el regresor x. Ya que 0 SCR SCT : 0 SCR 1; 0 R 2 1 . SCT 4.7. Transformaciones para linealizar un modelo. A partir de un diagrama de dispersión o de la teoría sobre ciertas funciones, podemos conocer que la relación entre las dos variables puede representarse adecuadamente solo por cierta función matemática curvilínea (no lineal), por ejemplo la tendencia general del crecimiento poblacional sigue un modelo exponencial positivo, el decaimiento radioactivo sigue un modelo exponencial negativo, etc. En algunos casos una función no lineal se puede lineal izar con una transformación adecuada. Función linealizable Transformación Forma lineal y 0 x 1 y log y, x log x y log 0 1 x y 0 e 1x y ln y y ln 0 1 x y 0 1 log x x log x y 0 1 x y x 0 x 1 y 1 1 , x y x y 0 1 x EJEMPLO. Los datos siguientes se obtuvieron de observaciones periódicas hechas durante el crecimiento de una población de células de levadura. Se efectuaron recuentos cada dos horas. n Horas Número (X) de células(Y) 1 2 19 2 4 37 3 6 72 4 8 142 5 10 295 6 12 584 7 14 995 93 El gráfico de dispersión muestra que los datos provienen de una función exponencial y 0 e 1x Con el fin de transformar la curva en recta conviene hacer la transformación, y ln y tomamos los logaritmos (LOGNATURAL)> n Horas (X) 1 2 2 4 3 6 4 8 5 10 6 12 7 14 de las células.: RUTA: Transform>Compute Variable Número células (Y) 19 37 72 142 295 584 995 de Ln (Y) 2.944439 3.610918 4.276666 4.955827 5.686975 6.369901 6.902743 Seguidamente se verifica por medio de un gráfico de dispersión si la transformación es adecuada RUTA:Graphs>Legacy Dialogs>Simple Scatter>Define (Y: LOGNATURAL;X: Horas> Como se esperaba, hoy los datos se ajustan a una línea recta. El proceso manual para obtener la ecuación de predicción es el mismo que el de regresión simple. En SPSS se obtiene siguiendo la RUTA: Analyze>Regression> Linear (Dependent: LOGNATURAL, Independent: Horas>Ok ANOVAb Sum of Squares Model 1 Regression Residual Total Df Mean Square 12.627 1 .013 5 12.640 6 F 12.627 4936.297 Sig. .000a .003 94 ANOVAb Sum of Squares Model 1 Regression Residual Total Df Mean Square 12.627 1 .013 5 12.640 6 F Sig. 12.627 4936.297 .000a .003 a. Predictors: (Constant), Horas b. Dependent Variable: LOGNATURAL Coefficientsa Unstandardized Coefficients Model 1 (Consta nt) Horas B Standardized Coefficients Std. Error 2.278 .043 .336 .005 Beta 95% Confidence Interval for B t Sig Lower Upper . Bound Bound 53.28 .00 7 .999 0 70.25 .00 9 0 2.168 2.388 .323 .348 a. Dependent Variable: LOGNATURAL El modelo lineal encontrado es entonces: y 2.278 0.336.Horas . Para determinar el modelo ajustado a los datos originales, se debe considerar la transformación y ln y y su modelo lineal: y ln 0 1 x . Resolviendo: Finalmente, el modelo ajustado es: ln 0 2.278 , entonces 0 9.757 . y 9.757e 0.336.Horas . 95 Las pruebas de idoneidad para el modelo se discutirán posteriormente. En el análisis, éste caso se conoce el orden en que fueron recolectados los datos, y debe hacerse para determinar si hay dependencia de los residuos con la secuencia del tiempo de recolección Para realizar una regresión no lineal mediante SPSS tenemos que elegir los menús Analize>Regression>Curve Estimation. Este menú nos da la opción de calcular los siguientes modelos de regresión. Lineal, Y 0 1 X 0 1 ln X 1 Inversa Y 0 X 2 Cuadrático Y 0 1 X 2 X 2 3 Cubico. Y 0 1 X 2 X 3 X Logarítmica, Y Potencia. Y 0 X o ln Y ln 0 1 ln X 1 Compuesto Y 0 1 o ln Y ln 0 X ln 1 X 96 Curva S Y e 0 Crecimiento Y e Exponencial Y 1 o ln Y t 0 1 X 0 1 t o ln Y 0 1 X 0 e X o ln Y ln 0 1 X 1 Para el caso anterior, elegimos exponencial, y los resultados son los siguientes: Model Summary R R Square Adjusted R Square Std. Error of the Estimate .999 .999 .999 The independent variable is Horas. .051 ANOVA Sum of Squares df Mean Square Regression 12.627 1 Residual .013 5 Total 12.640 6 The independent variable is Horas. F 12.627 4936.297 .003 Sig. .000 Coefficients Unstandardized Coefficients B Std. Error Horas .336 .005 (Constant) 9.755 .417 The dependent variable is ln(células). Standardized Coefficients Beta t .999 70.259 23.394 Sig. .000 .000 97 4.7. Ejercicios. 1. Determine una ecuación que describa la relación entre la frecuencia de accidentes y el nivel de educación preventiva X 150 200 300 450 500 600 800 900 3900 Y 8.00 7.00 6.50 5.20 6.40 4.40 4.00 3.10 44.60 XY 1200 1400 1950 2340 3200 2640 3200 2790 18720 X2 22500 40000 90000 202500 250000 360000 640000 810000 2415000 2. Una compañía que tiene 15 tiendas ha recopilado datos en relación con los metros cuadrados de área de ventas respecto a los ingresos mensuales. Trace una gráfica de los datos, y si parece apropiado un modelo lineal determine la ecuación de regresión. Tienda a o j e k d n g c l b i h f m 15 Metros 2 X 55 80 85 90 90 110 130 140 180 180 200 200 215 260 300 2315 Ingreso Y 45 60 75 75 80 95 95 110 120 105 115 130 140 170 200 1615 XY 2475 4800 6375 6750 7200 10450 12350 15400 21600 18900 23000 26000 30100 44200 60000 289600 X2 3025 6400 7225 8100 8100 12100 16900 19600 32400 32400 40000 40000 46225 67600 90000 430075 3. Determine una ecuación predictiva para calcular el monto del seguro, en función del ingreso anual para los siguientes datos: 98 Ingreso Prima X Y XY 13 5 65 16 15 240 17 20 340 18 10 180 20 10 200 25 12 300 26 15 390 32 30 960 38 40 1520 40 50 2000 42 40 1680 287 247 7875 X2 169 256 289 324 400 625 676 1024 1444 1600 1764 8571 4. De una distribución de dos variables se conocen los siguientes datos: r = 0.9; Sx = 1.2; Sy = 2.1; X 5; Y 10 . A partir de los mismos, obténganse las rectas de regresión mínimo cuadráticas de X sobre Y y de Y sobre X. (30%) 5. Para un mismo grupo de observaciones de las variables X e Y, se han obtenido las dos rectas de regresión siguientes: 3x + 2y = 26 6x + 2y = 32 a) Obtener las medias de X e Y. b) Obtener el coeficiente de correlación lineal. 6. En una distribución bidimensional ( xi , yi ) se sabe que: Los valores de la variable X son (1, 2, 3, 4 y 5); la recta de regresión de Y sobre X ( x 3 y 8 0) y el coeficiente de correlación lineal (r=0.8). Hallar: a) La media y la varianza de X b) Los valores estimados de 0 y 1 de la recta de regresión de Y sobre X. c) La covarianza d) La media y la varianza de Y. 7. En un estudio donde se investigó la relación que existe entre la temperatura de la superficie de una carretera (X, medida en grados Fahrenheit) y la deformación del pavimento (Y). El 99 20 resumen de cantidades es la siguiente: n=20, y i 1 20 y i 1 2 i 8, 20 x i 1 i 1470; 20 x i 1 2 i 143215 20 y x y i 1 i i i 12 , 1083 . a) Calcular las estimaciones de mínimos cuadrados de la pendiente y la ordenada al origen. b) ¿Qué cambio se espera en la deformación del pavimento cuando la temperatura de la superficie cambia 1°F? c) Suponga que la temperatura se mide en grados centígrados (°C), en lugar de °F. Escriba el nuevo modelo de regresión. (Recuerde que °F= (9/5) °C+32). 8. A partir de un conjunto de valores de las variables X e Y, se ha determinado la regresión de Y sobre X, obteniéndose la siguiente recta: y 10 0.45x , r=0.95; x 20 Se pide que, a partir de la definición de la anterior recta, determine los parámetros de la recta de regresión de X sobre Y. 100 Capítulo 5. Los Valores Relativos 5.1. Razones, Proporciones, Porcentajes y Tasas. Razón: Es una fracción donde el valor considerado en el numerador no debe estar incluida en el denominador, en consecuencia la razón puede ser un número superior o inferior a la unidad. Ejemplo: Supongamos que el número de personas que visitan un centro comercial, en un día cualquiera es 7,000, de las cuales 4,200 son mujeres y 2,800 son hombres. Obtener la razón de mujeres respecto a los hombres. Solución: La razón o relación = 4200/2800 = 1.5, indica que las mujeres frecuentan ese centro comercial en un 50% más que los hombres. Proporciones: Las proporciones se hacen para dar cuenta de la fracción que representa cada uno de los subconjuntos que componen el conjunto total. Por ejemplo, los subconjuntos formados por niños, jóvenes, adultos, y ancianos si, respectivamente, los comparamos con la totalidad del conjunto daremos cuenta de la proporción respectiva de cada uno de los subconjuntos. Si en una localidad viven 2,000 niños, 3,000 jóvenes, 1,000 adultos y 300 ancianos, la totalidad de la población sumarían 6,300 habitantes, y las proporciones de niños sería 0.31, de jóvenes 0.47, de adultos 0.15 y de ancianos 0.04. Ejemplo: La población del municipio de Soyapango distribuida por rango de edades se presenta en el siguiente cuadro. Rango de edades Sexo Total Hombre Mujer Edad de 0 a 10 años 25,097 23,858 48,955 Edad de 11 a 15 años 12,849 12,490 25,339 Edad de 16 a 20 años 11,384 11,810 23,194 Edad de 21 a 30 años 19,587 23,372 42,959 Edad de 31 a 45 años 21,264 28,725 49,989 Edad de 46 a 65 años 16,219 21,645 37,864 Edad de 66 años ó más 4,834 8,269 13,103 111,234 130,169 241,403 Total Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007. Obtener la proporción que representa cada grupo de edades. NOTA: Cuando el valor del numerador está incluido en el denominador establece una proporción. se 101 Porcentajes: Los porcentajes se hacen para expresar las proporciones en base 100. En el ejemplo anterior, los niños representan el 31%, los jóvenes el 47%, los adultos el 15% y los ancianos 4%. Ejemplo: En el censo de población de El Salvador, 2007, se encuentra que en el Municipio de Mejicanos, tiene los siguientes sobre la condición laboral, para la población mayor de 10 años. CONDICION LABORAL NOMBRE DEL LUGAR Zona Urbana CANTÓN CHANCALA CANTÓN SAN MIGUEL CANTÓN SAN ROQUE Total Población ocupada Población que busca trabajo Inactivos Total 54295 5894 46288 106477 286 52 335 673 467 32 478 977 3739 494 3991 8224 58787 6472 51092 116351 Obtener la proporción de la población según condición de laboral por cantón y municipio. Tasas: Las tasas se hacen cuando el conjunto se fracciona en dos subconjuntos y se quiere dar cuenta de la parte que representa uno de los subconjuntos sobre el total del conjunto. Esta representación se suele expresar en base 100, pero se pude hacer en base 10, 1000, etc. Por ejemplo, si el conjunto de la población activa se divide en dos subconjuntos denominados desempleados y ocupados, la tasa de desempleo sería el resultado de multiplicar por cien el número resultante de dividir el número de desempleados por el total de activos (ocupados y desocupados). Si de las 4,000 personas activas que hay en una localidad, 3,600 están ocupadas y 400 están desempleadas, la tasa de desempleo sería (400/ 4,000) X 100= 10%. Ejemplo: En el censo de población de El Salvador, 2007, se encuentra que en el Municipio de Mejicanos, tiene los siguientes datos de analfabetismo, para la población mayor de 5 años. Sabe leer y escribir LUGARES Zona Urbana Si 109205 No 8872 Total 118077 CANTÓN CHANCALA CANTÓN SAN MIGUEL CANTÓN SAN ROQUE Total 672 916 8027 118820 123 221 1343 10559 795 1137 9370 129379 Obtener la tasa de analfabetismo por cantón y municipio. 102 Ejercicio. La población de 15 años o más según su condición de analfabetismo se presenta en el siguiente cuadro. Sexo Sabe leer y escribir Total Si No Soyapango 161,155 10,801 171,956 Ilopango 66,240 5,420 71,660 San Martín 43,033 5,376 48,409 Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007 Obtener las tasas de analfabetismo de cada municipio y hacer un análisis comparativo de los resultados. 5.2. Diferencia Relativa La diferencia relativa se calcula como el cociente entre la diferencia de dos cantidades, precio absoluto y la cantidad, precio o valor del periodo de referencia. Supongamos que X i es una magnitud simple, representamos por X i 0 el valor de la magnitud en el periodo base y por X it el valor de la magnitud en el periodo que queremos estudiar entonces: La diferencia relativa está dada por: DFt (i ) 0 X it X i 0 *100 X i0 Ejemplo: El siguiente cuadro presenta el número de homicidios para los años 2004, 2005, 2006, 2007 y 2008, para los municipios de Soyapango, Ilopango y San Martín. Grupos SOYAPANGO ILOPANGO SAN MARTÍN de edades Femenino Masculino Total Femenino Masculino Total Femenino Masculino Total AÑO 2004 182 53 Total 15 167 12 78 90 11 42 AÑO 2005 242 86 Total 14 228 5 74 79 11 75 AÑO 2006 262 54 Total 16 246 15 69 84 6 48 AÑO 2007 199 79 Total 20 179 10 67 77 8 71 AÑO 2008 138 61 Total 10 128 9 66 75 7 54 Fuente: Fuente estadísticas de homicidios de Instituto de Medicina Legal. Los cadáveres que no se pudo identificar el sexo, no aparecen registrados en el cuadro anterior. Obtener la diferencia relativa del número de homicidios por año, sexo y municipio. 103 5.3. Los números índices El número índice es una cifra relativa, expresada en términos porcentuales o al tanto por uno, que sirve para indicar las variaciones que sufre una variable con respecto a un valor de la misma, la cual es tomada como punto de referencia, denominada base. Es evidente que los índices no miden, tan solo sirven para indicar las variaciones en los precios, cantidades y valores de un periodo con respecto a otro. Definición: Un índice es una medida estadística que tiene la propiedad de informar de los cambios de valor que experimenta una variable o magnitud en dos situaciones, una de las cuales se toma como referencia. La comparación suele hacerse por cociente. A la situación inicial se le llama periodo base y a la situación que queremos comparar periodo actual o corriente. Índices simples: Se denomina así a los referidos a una única magnitud y se obtienen dividiendo cada precio, cantidad o valor de un periodo (anual, mensual, semanal, etc.), por un precio, cantidad o valor de un periodo fijo, considerado base, multiplicado luego por 100. Si X i es una magnitud simple, representamos por X i 0 el valor de la magnitud en el periodo base y por X it el valor de la magnitud en el periodo que queremos estudiar entonces: X El número índice simple es: I t0 (i ) it *100 X i0 Mide la variación en tanto por uno o tanto por cien que ha sufrido la magnitud X entre los dos periodos considerados y pueden ser: X it *100 X i0 P 0 b. Precio: I t (i ) it *100 Pi 0 q 0 c. Cantidad: I t (i ) it *100 qi 0 a. Valor: I t (i ) 0 Se puede calcular manteniendo fijo o constante el periodo base, permaneciendo inalterado durante el periodo que es objeto de análisis. También se puede calcular con base variable, en este caso, la base es el periodo inmediatamente anterior, partiendo de un índice iguala a 100, bajo el supuesto del desconocimiento de información anterior a ese periodo. 104 Ejemplo 1. Con los datos de la serie 2001-2006, calcular los índices de base fija 2001 y 2004; luego el índice de base variable para esa misma serie. años 2001 2002 2003 2004 2005 2006 yi 20 28 24 40 48 70 Base fija 2001, 2004. Base Variable Índice % de Índice % de Índice % de 2001=100 Variación 2004=100 Variación Variable Variación 100 0 50 -50 100 0 140 40 70 -30 140 40 120 20 60 -40 85.71 -14.29 200 100 100 0 166.66 66.66 240 140 120 20 120 20 350 250 175 75 145.83 45.83 Observe que tomando de base el año 2001, en el 2004 se tuvo un aumento del 100% y en el 2006 se tuvo un aumento de precios del 250% con respecto al año 2001; si tomamos de base el año 2004, en el 2006 se tuvo un aumento del 75%. Finalmente, si tomamos Base Variable en el año 2006 hubo un aumento del 45.83% con respecto al año 2005. EJERCICIO DE APLICACIÓN. En enero de 2006 una fábrica pagó un total de $ 99,200,000.00 a 120 empleados en nómina. En julio del mismo año, la fábrica tuvo 30 empleados más en nómina y pagó $ 30,000,000 más que en enero. Tomando el mes de enero como base, hallar e interpretar: a) El índice de empleo (NIE) b) El índice del costo de mano de obra (ICMD) c) Precio relativo Solución. a) NIE= Nº de empleados en julio / Nº de empleados en enero 150 NIE *100 125 . Durante los 6 meses hubo un incremento de empleados del 25% 120 b) ICMD = Salarios pagados en Julio / Salarios pagados en enero 129, 200, 000 ICMD *100 130.24 . Durante los 6 meses considerados en este estudio 99, 2000, 000 hubo un aumento de costo de mano de obra en la empresa de 30.24%, observe que no se ha considerado en aumento de empleados. c) El precio relativo (PR) es equivalente al riesgo relativo utilizado en medicina (RR), es decir, 129, 200, 000 150 1.04193 . El índice de costo medio por empleado aumentó en un PR 99, 200, 000 120 4.10% para el mes de julio en relación con el mes de enero. 105 5.3.1. Relación entre índices de base fija y variable. El índice de base variable puede transformarse en índice de base fija, utilizando la siguiente relación: X I t0 I 00 * R01 * R12 *...* Rtt1 donde Rhh1 es el índice relativo, es decir, Rhh1 h X h 1 Ejemplo: Se tiene la información del precio de un producto. Se desea indicar la variación del precio en el 2006 Base fija 2002 respecto al precio de 2003. años Yi Índice Solución: 2002 2,000 100 X 4800 2003 2,800 140 I 0306 06 *100 *100 171.43 2004 2,400 120 X 03 2800 2005 4,000 200 2006 4,800 240 Ahora, imaginemos que se tiene el índice de precios 2007 6,000 300 con base fija para 2003 y 2006 y se requiere la variación del precio en el 2006 respecto al precio de 2003. Solución: I 06 240 I 0306 0203 *100 *100 171.43 . Observe que se tiene el mismo resultado si se I 02 140 dispone de los precios o de los índices de base fija. Ahora, suponer que se tienen únicamente los índices de base variable y se requiere la variación del precio en el 2006 respecto al precio de 2003. Solución: 06 03 04 05 06 I 03 I 03 * R03 * R04 * R05 100*0.8571*1.6666*1.2 171.43 . Ejercicio. Un índice para 2006 revela un aumento del 20% respecto al año anterior. En el 2007 alcanzó a 174, es decir, presenta un incremento anual del 18%. Calcular los índices de base fija de los años 2005 y 2006. Solución: Se requiere encontrar: I 005 , I 006 ? Información disponible: I 0506 120, I 0607 118 . La base o periodo de inicio no se conoce, por lo tanto puede ser cualquier año, así: 07 I 007 174 además sabemos que I 007 I 006 * R06 , reemplazando 174 en la última expresión se obtiene: 174 I 006 147.45 . 1.18 Para obtener I 005 , se realiza un procedimiento análogo al anterior. I 006 I 005 * R0506 , reemplazando 147.45 se tiene: 147.45 I 005 122.87 . 1.2 106 Ejercicio. Se tienen tres índices de base variable, cuyas cifras son: Para 2005=107, para 2006=108, para 2007=104, es decir, que entre 2004 y 2007, hubo un aumento del 19%. Decir si la afirmación anterior es cierta o falsa. Solución: Recordemos que I 0407 I 0404 * R0405 * R0506 * R0607 100*1.07 *1.08*1.04 120.18 , por lo tanto la afirmación es falsa. 5.3.2. Índices agregativos simples Cuando se dispone de una serie de precios de un grupo de artículos, dados en unidades diferentes, los índices simples ya no son utilizables, en esta situación se requiere utilizar los índices agregativos simples. Estos índices se calculan teniendo en cuenta la suma de los precios, cantidades o valores de un grupo de artículos para un periodo, divida por la suma de los precios cantidades o valores para ese grupo de artículos en otro periodo, considerado como base. Matemáticamente se expresan como: n I t 0 n X (i) i 1 n X i 1 t *100 0 (i ) I t 0 n P (i) i 1 n t P (i) i 1 I t 0 *100 0 q (i) i 1 n t q (i) i 1 *100 0 Las expresiones anteriores son muy útiles cuando no existen variaciones significativas entre productos, ya estos índices no se ven afectados por las variaciones en algún producto. Para recoger las variaciones entre productos se recomienda calcular primeramente los índices simples y luego sumarlos y finalmente dividirlos por el número de productos. Esto es, n I 0t I (i) i 1 t 0 n *100 Ejemplo: Con los datos de la siguiente tabla, calcular el índice agregativo de las cantidades que resultaron en mal estado de conservación, en un grupo de artículos, comparados en el mes de junio de 2009, respecto a las cantidades comparadas, en mal estado de conservación, en el mes de mayo del mismo año. Artículos medida Defectuosas mayo Junio A Kg 12 18 B Lt 8 15 C Docena 20 8 D Libras 14 20 E Unidad 50 70 Total 104 131 107 Solución: Primer método. n I t 0 q (i) i 1 n q (i) i 1 t *100 131 *100 125.96 . Este método es poco usual, ya que no es afectado 104 0 por las variaciones grandes que puede presenta uno varios artículos. Segundo método. n I (i) t 0 150 187.5 40 142.8 140 132.06 n 5 Este resultado es un poco mayor al obtenido por el primer método. Este aumento se debe, a la variación que presenta el artículo B, durante ese periodo. I 0t i 1 *100 5.3.3. Índices de precios Existen gran cantidad de fórmulas para calcular índices de precios, cuyo empleo dependerá de la naturaleza misma del problema. Generalmente, las ponderaciones en los índices de precios son las cantidades y en el cálculo de los índices de cantidad las ponderaciones son los precios. 5.3.3.1 Índice de Laspeyres de precios. Este índice puede interpretarse, como la relación existente, al comparar los precios actuales de un grupo de artículos, con los precios de esos mismos artículos considerados en el periodo base, manteniéndose constante como ponderación las cantidades del periodo base. La expresión es la siguiente: n I 0t L P (i)q (i) i 1 n t 0 P (i)q (i) i 1 0 *100 0 5.3.3.2 Índice de Paasche de precios. Se interpreta como la relación existente entre los precios actuales de un grupo de artículos, con los precios de esos mismos artículos en el periodo base, manteniéndose constante las ponderaciones correspondientes a las cantidades de dichos artículos, dadas por el periodo que se investiga, esto es: n I 0t P P (i)q (i) i 1 n t t P (i)q (i) i 1 0 *100 t La diferencia entre las dos fórmulas anteriores, radica únicamente en la base tomada para las ponderaciones, en la primera se refiere a las cantidades del periodo base y en la segunda, las cantidades corresponden al periodo que se investiga. 108 5.3.3.3. Índice de Fisher de precios. Este índice es un promedio geométrico, que se define como la raíz cuadrada del producto del índice de Laspeyres por el de Paasche, así: n F I 0t I 0t L P I 0t n Pt (i)q0 (i) i 1 n P (i)q (i) * i 1 n t t P (i)q (i) P (i)q (i) 0 i 1 0 i 1 0 *100 t 5.3.4. Índices de cantidad. Los índices de cantidad de Laspeyres, Paasche y Fisher son muy parecidos a los índices de precios, con la diferencia de que las ponderaciones son los precios. Las fórmulas son las siguientes: n I 0t L n P (i)q (i) i 1 n 0 t P (i)q (i) i 1 0 P (i)q (i) I 0t P *100 0 i 1 n t t P (i)q (i) i 1 t 0 n I 0t I 0t I 0t F L P n P0 (i)qt (i) i 1 n *100 P (i)q (i) * i 1 n t t P (i)q (i) P (i)q (i) i 1 0 0 i 1 t *100 0 Ejemplo: Con los siguientes datos referentes a los precios y cantidades para un grupo de artículos dados para dos periodos. Artículos Unidad 2006 2007 Precio Cantidad Precio Cantidad A Kg 26 10 38 8 B Lt 6 5 10 7 C Lbs 1 2 4 5 D Docena 6 1 15 2 E Unidad 3.6 2 2 1 Calcular los índices de precios y de cantidad de las Laspeyres, Paasche y Fisher. Solución: Ordenando los datos de la tabla anterior: Articulos P06 q06 P07 q07 P06 q06 P07q07 P07q06 P06q07 A 26 10 38 8 260 304 380 208 B 6 5 10 7 30 70 50 42 C 1 2 4 5 2 20 8 5 D 6 1 15 2 6 30 15 12 E 3.6 2 2 1 7.2 2 4 3.6 305.2 426 457 270.6 Cálculo de los índices de precios 109 n I 0t Laspeyres: L P (i)q (i) t i 1 n 0 P (i)q (i) 0 i 1 *100 =(457/305.2)*100 = 149.34 0 n t Paasche: P I0 P (i)q (i) i 1 n t P (i)q (i) i 1 t t t 0 *100 = (426/270.6)*100= 157.43 t t Fisher: F I0 LI0 P I0 149.34*157.43 153.54 Los índices de cantidad se calculan de forma análoga. Laspeyres: (270.6/305.2)*100=88.66 Paasche: (426/457)*100= 93.22 Fisher: 90.91 Ejercicio. El índice de cantidad de un grupo de artículos es igual a 200, sí se usa la fórmula de Fisher, y a 160 si se emplea la de Laspeyres. ¿Cuál es el índice de cantidad usando la fórmula de Paasche? Solución. t t t t t F I0 LI0 P I0 2002 160* P I0 P I0 40, 000 250 160 Ejercicio. Una empresa espera aumentar sus ventas en el año próximo en un 50%. ¿En qué porcentaje debería incrementar los precios para que el ingreso total se convierta en un 250%? Solución. Se sabe que el índice de ingreso total es igual al índice de cantidad vendida por el índice de precios. 250=150*ind. Precios, entonces Ind. Precios = (250/150)=166.66 Se debe aumentar los precios en un 66.67%. Ejercicio. El índice de precios de Laspeyres es de 2/3 del de Paasche y éste asciende a 130. ¿Cuál es el índice de Fisher? Solución. t t t LI0 (2 / 3)* PI0 (2 / 3)(130) 86.66 F I0 86.66*130 106.14 110 5.3.5. Cálculo del salario e ingreso real. Los números índices tienen numerosas aplicaciones, especialmente en el área económica, por ejemplo, para estimar el salario real o ingreso real, los cuales se obtienen a través de las siguientes fórmulas: Salario real: (salario nominal/ índice de precios al consumidor)*100 Ingreso real: (Ingreso nominal/índice de precios al consumidor)*100 Este proceso de convertir el salario o el ingreso nominal en real se conoce como deflación o sea la transformación de valores expresados a precios corrientes en valores o precios constantes, con respecto a un periodo. Ejemplo: Un profesor Universitario III de la Universidad de El Salvador en junio de 2009 ganaba $ 1,400.00 dólares US y en el mes de enero de 2010, su salario fue reajustado con un aumento de $ 200.00 dólares. Se sabe además que el precio de la canasta básica para esos mismos meses y años fue de $550 y $675 respectivamente. Se quiere saber si con el reajuste en el salario mejoró la situación económica de los profesores universitarios. Solución. El índice de precios de la canasta básica es: 675 I 010 *100 122.73 550 Los artículos de primera necesidad aumentaron de junio de 2009 a enero de 2010 en un 22.73%, por lo tanto, tuvo que haber un incremento igual a este porcentaje o mayor, para que las condiciones económicas sean iguales o mejores en el año 2010. 1600 *100 1,303.67 , esto indica que el aumento fue demasiado bajo, es decir, 122.73 que a pesar de estar recibiendo más dinero que antes, este salario a penas equivale a 1,303.67, el aumento esperado debió ser de $ 318.22 = 1400*0.2273, o sea que su nuevo salario debería de ser de $1,718.22 en vez de $ 1,600. Salario real= 111 5.4. Guía de ejercicios Nº 5. 1. Las cifras de ventas en millones de $ (dólares) de unos granos básicos almacenados desde 2002 hasta 2010 son los siguientes: Años 2002 2003 2004 2005 2006 2007 2008 2009 2010 Ventas 18 18 19 15 12 16 20 24 35 a) Hallar los índices de ventas, tomando como base primero 2002 y luego 2005. b) Hallar los índices de ventas con base variable 2. Un empleado ganaba $ 772 dólares mensuales en 2009 en el 2010 gana $ 912 mensuales, con lo cual mejora su ingreso real en 16%. Si el actual índice de precios es de $ 560 ¿Cuál era el índice de precios del 2009? 3. La producción de tomates (en toneladas) en la provincia de Valparaíso fue durante los últimos 10 años: AÑO 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 PRODUCCION (ton) 1300 1280 1189 1234 1100 1250 1310 1270 1140 1240 Se Pide: a) Establezca una serie de números índice, que permita estudiar la evolución de dichas producciones, considerando como base el año 1997. b) Determine el porcentaje de variación de la producción entre los años 1997 y 2006. c) Determine la tasa de crecimiento promedio (tcp) entre los años 1997 y 2007. 4. La entrada de turistas Alemanes a nuestro País durante los últimos 7 años según SERNATUR viene dada por la tabla siguiente: AÑO 2000 2001 2002 2003 2004 2005 2006 Número de Turistas 12565 13124 11897 14578 16243 14890 15321 Se Pide: a) Establezca una serie de números índice, que permita estudiar todos los datos, considerando como base el año 2000. b) Con respecto al año 2003. Qué porcentaje de aumento o disminución se dio en los años 2004 y 2005. 112 5. La Municipalidad de San Antonio, ubicada en la V Región ha estudiado el consumo de anual de agua por habitante durante los últimos 5 años, obteniendo: AÑO Consumo agua por habitante (lt) 2002 2003 2004 2005 2006 345 367 354 389 325 Se Pide: a) Establezca una serie de números índice, que permita estudiar todos los consumos, considerando como base el año 2002. b) Determine el porcentaje de variación del consumo entre los años 2002 y 2006. c) Determine la tasa de crecimiento promedio (tcp) entre los años 2002 y 2006. 6. Una fábrica de automóviles chinos produce cuatro modelos distintos, todos en versión económica, cuyos precios expresados en millones de pesos y número de unidades producidas en 1998 y 2000 son respectivamente: Modelo 1 2 3 4 Precio (M$) 0.9 1.3 1.9 3.8 Año 1998 Nº de unidades 3200 3200 3200 3200 Precio (M$) 1.2 1.5 2.1 4.3 Año 2000 Nº de unidades 5600 4300 2000 1200 Se Pide: a) Hallar el índice de precios y de cantidad de LASPEYRE, con base el año 1998. b) Hallar el índice de precios y de cantidad de PAASCHE, con base el año 1998. c) Hallar el índice de FISHER para precio y cantidad, considerando el mismo año base. 7. Si, por ejemplo, el consumo final de un país, expresado en miles de dólares corrientes de cada año, y el I.P.C. de los mismos años son los siguientes, expresar en dólares. Constantes el consumo final de ese país: Años 2000 2001 2002 2003 2004 Consumo final 17 20 22 25 30 IPC 100 105 110 115 118 113 Capítulo 6. Métodos de Conteo. 6.1 Introducción Antes de entrar al estudio del análisis combinatorio, se considera que dentro del muestreo aleatorio se distingue que la selección sea sin remplazamiento o con remplazamiento: a. Sin remplazamiento: Se seleccionan n elementos de la población, mediante n extracciones sucesivas sin remplazamiento, asignando en cada una de ellas probabilidades iguales a los elementos no seleccionados en las anteriores. b. Con remplazamiento: Se seleccionan n elementos de la población, mediante n extracciones sucesivas con remplazamiento, asignando en cada una de ellas probabilidades iguales a todos los elementos de la población. En estos dos procedimientos podemos considerar a los objetos o elementos de la población extraídos, ordenados o sin ningún orden, originando así las muestras ordenadas, y las muestras sin ordenar. Tenemos, pues, cuatro procedimientos básicos de muestreo aleatorio en el modelo uniforme: 1. Muestreo con remplazamiento y los objetos ordenados 2. Muestreo sin remplazamiento y los objetos ordenados 3. Muestreo con remplazamiento y los objetos sin ordenar 4. Muestreo sin remplazamiento y los objetos sin ordenar. Los dos primeros originan las muestras ordenadas. 6.2 Muestras ordenadas. El símbolo (N)n se utilizará para representar productos del tipo siguiente: (N)n = N.(N-1) . . . (N-n+1), con n entero positivo y n N, definiéndolo como (N)n =0 para los enteros n > N. Si tenemos un conjunto A a1, a2, . . ., an con n elementos, y un conjunto B b1, b2, . . ., bm con m es posible formar n.m pares de la forma (ai , bi ) en donde el primer elemento del par pertenece a A y el segundo a B. Este resultado se puede generalizar. Proposición Si tenemos k conjuntos A1, . . ., Ak con elementos n1, . . ., nk , respectivamente, el número de ordenaciones de la forma ( x1, . . ., xk ) , en donde x1 es un elemento de A1 y xk es un elemento de Ak, es n1 . . . nk . Demostración. Este resultado se sigue por inducción. Como consecuencia del resultado anterior, se tiene que si se realizan k selecciones sucesivas con exactamente ni opciones posibles en el i-ésimo paso o etapa, produce un total de n1 . . . nk resultados diferentes posibles. 114 Teorema Dada una población de N elementos se pueden seleccionar N n muestras diferentes con remplazamiento de tamaño n, y (N)n muestras diferentes sin remplazamiento de tamaño n. Demostración. Al realizar n selecciones sucesivas con exactamente N opciones posibles, en cada una de las n selecciones, que son las correspondientes a los N elementos de la población. Así, pues, según el resultado anterior N.N . . . N N n , muestras diferente de tamaño n, en un muestreo con remplazamiento, tomando n1 n2 . . . nn N . Si efectuamos un muestreo sin remplazamiento, tendremos N opciones posibles en la primera selección, pero tan sólo (N-1) en la segunda, pues los elementos de la población no son devueltos a la misma; de la misma manera, en la tercera sólo se tendrán (N-3+1) opciones, y así sucesivamente hasta la n-ésima, en la cual se tendrán (N-n+1) posible opciones. Por tanto, existirán (N)n = N.(N-1) . . . (N-n+1) muestras diferentes de tamaño n, en el muestreo sin remplazamiento. Ejemplo. Supongamos una urna que contiene 9 bolas numeradas del 1 al 9. Si realizamos un muestreo aleatorio con remplazamiento de tamaño 6, el espacio muestral , estará compuesto por 96 531,441 elementos. Ejemplo. Si lanzamos un dado 5 veces, entonces el espacio muestral estará formado por 65 7,776 elementos, ya que este experimento es equivalente a muestrear con remplazamiento, donde el número de veces que lanzamos el dado es equivalente al tamaño n de la muestra aleatoria y N al número de caras del dado. Ejemplo. Supongamos una urna que contiene 11 bolas numeradas del 1 al 11. Si realizamos un muestreo aleatorio sin remplazamiento de tamaño n=3, el espacio muestral estará formado por (11)3 990 elementos. Teorema. El número de ordenaciones diferentes de N elementos es N ! N.(N 1). . .3.2.1 Observación: El número de ordenaciones coincide con el número de muestras en un muestreo sin remplazamiento. Ejemplo. Si se realiza un muestreo aleatorio con remplazamiento de tamaño n de una población de N elementos, el número de muestras en las que no aparece ningún elemento dos veces es (N )n N.(N 1). . .(N n 1) 115 6.3 Variaciones, combinaciones y permutaciones. 6.3.1. Variaciones de N elementos tomados de n en n. Se llaman variaciones de N elementos tomados de n en n, a los diferentes grupos que pueden formarse con los N elementos dados, tomados de n en n, de modo que cada dos grupos difieran entre sí, ya por la naturaleza de un elemento, ya por el orden de sucesión de los mismos. Se represente por VN ,n . El muestreo que se considera es sin remplazamiento, pues las variaciones en las que no se especifica nada se entenderá que son sin repetición. Así pues, VN ,n N .(N 1). . .(N n 1) 6.3.2. Variaciones con repetición de N elementos tomados de n en n. Se llaman variaciones con repetición de N elementos tomados de n en n a los diferentes grupos que pueden formarse con los N elementos dados, tomados de n en n, en los que eventualmente pueden aparecer elementos repetidos y con la condición de que dos grupos sean distintos entre sí, si tienen distintos elementos, o están situados en distintos lugares. Se representa por RVN ,n . Observe, que aquí también se tiene en cuenta el orden de los elementos de cada grupo y de hecho de lo único que se diferencian de las variaciones antes definidas es que eventualmente algún elemento puede aparecer repetido en un mismo grupo. Es decir, el muestreo se hace con remplazamiento. Así RVN,n N n 6.3.3. Permutaciones. Las permutaciones o, también llamadas, ordenaciones son aquellas formas de agrupar los elementos de un conjunto teniendo en cuenta que: Influye el orden en que se colocan. Tomamos todos los elementos de que se disponen o una parte de ellos. Serán Permutaciones SIN repetición cuando todos los elementos de que disponemos son distintos. Serán Permutaciones CON repetición si disponemos de elementos repetidos. (Ese es el nº de veces que se repite el elemento en cuestión). 116 Permutaciones sin repetición: Una permutación es una combinación en donde el orden es importante. La notación para permutaciones es P(n,r) que es la cantidad de permutaciones de “n” elementos si solamente se seleccionan “r”. Así P (n, r ) n! (n r )! Ejemplo: Si nueve estudiantes toman un examen y todos obtienen diferente calificación, cualquier alumno podría alcanzar la calificación más alta. La segunda calificación más alta podría ser obtenida por uno de los 8 restantes. La tercera calificación podría ser obtenida por uno de los 7 restantes. Cuántas permutaciones de tres estudiantes pueden formarse. Solución: Observe que interesa el orden, es decir, que en una permutación donde un estudiante aparezca con la calificación más alta y otro estudiante con la segunda calificación más alta, si intercambiamos los estudiantes obtenemos otra permutación totalmente diferente a la primera permutación. Así, la respuesta es: 9*8*7 = 504 o equivalentemente, 9! / (9-3)! = P(9,3). Permutaciones de n elementos: Permutaciones de n elementos diferentes son los distintos grupos que pueden formarse entrando en cada uno de ellos los n elementos dados, difiriendo únicamente en el orden de sucesión de sus elementos. Se representa por n! Permutaciones con repetición: Llamaremos permutaciones con repetición de r elementos distintos tal que el primero aparece n1 veces; el segundo n2 veces; . . . ; el r-ésimo nr veces, con n1 + n2 + … + nr = N, a las distintas disposiciones que pueden formarse con los r elementos distintos, de tal forma que en cada disposición cada elemento aparezca n1, n2, … , nr veces y esto en un orden determinado. Se representa por: RPN n1...nr Así: RPN n1...nr N! n1 !.n2 !...nr ! Para tener una idea de la deducción de la ecuación anterior, observe que una población de tamaño n puede dar lugar a n! muestras ordenada de tamaño n. Además, el número de muestra ordenadas de tamaño n, en un muestreo sin remplazamiento, efectuado en una población de 117 tamaño N, es (N)n , con lo que si llamamos A al número de subpoblaciones distintas de tamaño n de una población de N elementos, será: N N! A. n! = (N)n; entonces A = (N)n / n! = n n !(N n )! Ahora, tenemos r grupos distintos, n1, n2, … , nr, y los elementos del primer grupo pueden ser N seleccionados de maneras, de los N- n1 elementos restantes, podemos seleccionar los n2 del n1 N n1 segundo grupo de maneras, etc. Después de formar el (r-1)-ésimo grupo quedarán N n2 n1 - n2 -… - nr-1 = nr elementos, que constituirán el grupo r-ésimo, que podremos seleccionar de nr N n1 n2 . . . nr 1 =1 manera. Por tanto, el número de permutaciones con nr nr repetición de r elementos distintos será el producto de esos números combinatorios, es decir: N n1 n2 . . . nr 1 N N n1 . . . después de desarrollar estos productos se llega a : nr n1 n2 N n1 n2 . . . nr 1 N N n1 N! . . . = nr n1 n2 n1 !.n2 !...nr ! 6.3.4. Combinaciones. Llamaremos combinaciones de N elementos tomados de n en n, a los diferentes grupos que se pueden formar figurando n elementos en cada uno, de modo que cada dos grupos difieran en la naturaleza de, por lo menos, un elemento. Puede observarse, que no se tiene en cuenta el orden de los elementos en la disposición. Se denota por CN ,n y el número de grupos que podemos formar de tamaño n, será: N N! CN ,n n n !(N n )! Observe que una combinación, es un arreglo de elementos en donde no nos interesa el lugar o posición que ocupan los mismos dentro del arreglo. Ejemplo 1. a) Si se cuenta con 14 alumnos que desean colaborar en una campaña pro limpieza, cuantos grupos de limpieza podrán formarse si se desea que consten de 5 alumnos cada uno de ellos, 118 b) Si entre los 14 alumnos hay 8 mujeres, ¿cuántos de los grupos de limpieza tendrán a 3 mujeres?, c) ¿Cuántos de los grupos de limpieza contarán con 4 hombres por lo menos? Solución: NO INTERESA EL ORDEN. a) n = 14, r = 5 14C5 = 14! / (14 – 5 )!5! = 14! / 9!5! = 14 x 13 x 12 x 11 x 10 x 9!/ 9!5! = 2,002 grupos Entre los 2002 grupos de limpieza hay grupos que contienen solo hombres, grupos que contienen solo mujeres y grupos mixtos, con hombres y mujeres. b) n = 14 (8 mujeres y 6 hombres), r=5 En este caso nos interesan aquellos grupos que contengan 3 mujeres y 2 hombres 8C3*6C2 = (8! / (8 –3)!3!)*(6! / (6 – 2)!2!) = (8! / 5!3!)*(6! / 4!2!) = 8 x7 x 6 x 5 /2! = 840 grupos con 3 mujeres y 2 hombres, puesto que cada grupo debe constar de 5 personas c) En este caso nos interesan grupos en donde haya 4 hombres o más Los grupos de interés son iguales a: grupos con 4 hombres + grupos con 5 hombres, así: + 6C5*8C0 = 15 x 8 + 6 x 1 = 120 + 6 = 126 grupos. 6C4*8C1 Ejemplo 2. Para aprobar un examen un alumno debe contestar 9 de 12 preguntas, a) b) c) d) ¿Cuántas maneras tiene el alumno de seleccionar las 9 preguntas?, ¿Cuántas maneras tiene si forzosamente debe contestar las 2 primeras preguntas?, ¿Cuántas maneras tiene si debe contestar una de las 3 primeras preguntas?, ¿Cuántas maneras tiene si debe contestar como máximo una de las 3 primeras preguntas? Solución: NO INTERESA EL ORDEN. 119 a) n = 12, r=9 = 12! / (12 – 9)!9! 12C9 = 12! / 3!9! = 12 x 11 x 10 / 3! = 220 maneras de seleccionar las nueve preguntas o dicho de otra manera, el alumno puede seleccionar cualquiera de 220 grupos de 9 preguntas para aprobar el examen. b) = 1 x 120 = 120 maneras de seleccionar las 9 preguntas entre las que están las dos primeras preguntas. c) 3C1*9C8 = 3 x 9 = 27 maneras de seleccionar las 9 preguntas entre las que está una de las tres primeras preguntas. 2C2*10C7 d) En este caso debe seleccionar 0 ó 1 de las tres primeras preguntas 3C0*9C9 + 3C1*9C8 = (1 x 1) + (3 x 9) = 1 + 27 = 28 maneras de seleccionar las preguntas a contestar. Ejemplo 3. Una señora desea invitar a cenar a 5 de 11 amigos que tiene, a) ¿Cuántas maneras tiene de invitarlos?, b) ¿Cuántas maneras tiene si entre ellos está una pareja de recién casados y no asisten el uno sin el otro?, c) ¿Cuántas maneras tiene de invitarlos si Rafael y Arturo no se llevan bien y no van juntos? Solución: a) n = 11, r = 5 11C5 = 11! / (11 – 5 )!5! = 11! / 6!5! = 11 x 10 x 9 x 8 x 7 x 6! / 6!5! = 462 maneras de invitarlos. Es decir, que se pueden formar 462 grupos de cinco personas para ser invitadas a cenar. b) Esta señora tiene dos alternativas para hacer la invitación, la primera es no invitar a la pareja y la segunda es invitar a la pareja. 2C0*9C5 + 2C2*9C3 = (1 x 126) + (1 x 84) = 210 maneras de invitarlos En este caso separamos a la pareja de los demás invitados para que efectivamente se cumpla el que no asistan o que asistan a la cena. 120 c) La señora tiene dos alternativas para hacer la invitación, una de ellas es no invitar a Rafael y a Arturo o que asista solo uno de ellos. 2C0*9C5 + 2C1*9C4 = (1 x 126) + (2 x 126) = 126 + 252 = 378 maneras de hacer la invitación. 6.3.4.1. Combinaciones con repetición. Llamamos combinaciones con repetición de N elementos distintos tomados de n en n a todos los conjuntos de n elementos tomados entre los N dados permitiendo repetir elementos. La fórmula para calcular el número de posibles combinaciones con repetición de N elementos distintos tomados de n en n es N n 1 N n 1! CRN ,m CN n 1, n n n !(N 1)! Ilustración Suponemos que cada elemento del conjunto de los N distintos se representa por el espacio entre dos líneas verticales del siguiente dibujo formado por N+1 líneas verticales: 1 2 3 ..... N-1 N N + 1 │ │ │ │ │ │ Elegir una combinación con repetición de N elementos distintos tomados de n en n es equivalente a colocar n estrellas dentro de los N espacios pudiendo meter varias en un mismo espacio 1 2 3 ..... N-1 N N + 1 │* │*** │ │* │ │ 1 2 3 4 .... n La posición de la primera y la última de las barras es fija y elegir una ubicación para las n estrellas es equivalente a elegir un orden entre N-1 barras y n estrellas. El número de esas posibles elecciones es el número de combinaciones sin repetición de N + n – 1 elementos tomados de n en n. ¿Cómo se forman?. Para construir las combinaciones con repetición, partimos del conjunto A={1,2,3,4} y vamos a construir todas las combinaciones con repetición posibles. a) De un elemento. Si tenemos un conjunto de cuatro elementos y queremos hacer grupos de uno, únicamente podremos hacer cuatro grupos: 1 , 2 , 3 , 4. (C4,1) b) De dos elementos. La forma de construirlas será similar a las combinaciones sin repetición aunque con la diferencia de que al permitirse repetir los elementos tendremos que añadir a cada una de las de orden uno, el mismo elemento y todos los siguientes. Así se obtienen: 11, 12, 13, 14, 22, 23, 24, 33, 34, 44. (C4+1,2) 121 c) De tres elementos. Se pueden construir a partir de las anteriores añadiendo a cada combinación de orden dos el último elemento y todos los elementos siguientes. Se obtienen: 111 , 112 , 113 , 114 , 122 , 123 , 124 , 133 , 134 , 144 , 222 , 223 , 224 , 233 , 234 , 244 , 333 , 334 , 344 , 444. (C4+2,3) d) De cuatro elementos. Se pueden obtener a partir de las de orden tres, añadiendo a cada una de ellas el último elemento y los elementos siguientes. (C4+3,4) e) De cinco o más elementos. Como estamos construyendo combinaciones con repetición y los elementos se pueden repetir, podríamos continuar construyendo combinaciones de orden cinco o más elementos. (C4+4,5) 6.4. Teorema del Binomio. Se podría decir a primera vista, la expresión a b no parece tener mucho que ver con las combinaciones, pero como veremos a continuación, podemos obtener una fórmula para n desarrollar a b utilizando la fórmula para el número de r-combinaciones de n objetos. Con frecuencia, podemos relacionar una expresión algebraica con algún proceso de conteo. Varias técnicas avanzadas de conteo utilizan estos métodos. n Los números C(n, r) se llaman Coeficientes Binomiales, pues aparecen en el desarrollo del binomio (a+b) elevado a una potencia. El Teorema del Binomio proporciona una fórmula para los coeficientes en el desarrollo de n n a b . Como a b (a b)(a b) (a b) el desarrollo surge al elegir a o b en n factores cada uno de los n factores, multiplicando las selecciones entre ellas, y luego sumando todos los 3 productos obtenidos de esta manera. Por ejemplo, en el desarrollo de a b , se elige a o b en el primer factor (a + b); a o b en el segundo factor (a + b), y a o b en el tercer factor (a + b); se multiplican las selecciones entre ellas y luego se suman los productos obtenidos. Si elegimos a en todos los factores y multiplicamos, obtenemos el término aaa. Si elegimos a en el primer factor, b en el segundo factor y a en el tercer factor y multiplicamos, obtenemos el término aba. La tabla 1 muestra todas las posibilidades. Si sumamos los productos de todas las selecciones, obtenemos 122 Selección del primer factor (a+b) Selección del segundo factor (a+b) Selección del tercer factor (a+b) a a a a b b b b a a b b a a b b a b a b a b a b Producto de selecciones aaa= a 3 aab= a 2 b aba= a 2 b Abb= ab 2 baa= ba 2 bab= ab 2 bba= ab 2 bbb= b 3 Tabla 1. Cálculo de a b 3 Un término de la forma a n k b k surge de elegir b en k factores y a de los otros n-k factores. Pero esto puede realizarse de C(n, k) formas, pues C(n, k) cuenta el número de formas de elegir k cosas de n elementos. Así, a n k b k aparece C(n, k) veces. Esto implica que Este resultado se conoce como el teorema del binomio. TEOREMA: Teorema del Binomio. Si a y b son números reales y n es un entero positivo, entonces DEMOSTRACION. La demostración aparece antes del enunciado del teorema. EJEMPLO Tomando n = 3 se obtiene si se toma a = b = 1, da como resultado la siguiente identidad 123 EJEMPLO Desarrollar utilizando el teorema del binomio. Si hacemos a = 3x , b= -2y n = 4, obtenemos EJEMPLO Determine el coeficiente de en el desarrollo de El término relacionado con aparece en el teorema del binomio considerando n = 9 y k = 4. Así el coeficiente de es 126. EJEMPLO Determine el coeficiente de en el desarrollo de Como (Nueve términos) Obtenemos cada vez que multiplicamos dos x elegidas de los nueve términos, tres y elegidas de los nueve términos para las x de C(9,2) formas. Una vez realizada esta selección, podemos elegir así tres términos para las y de C(7,3) formas. Esto deja los cuatro términos restantes para las z. Así el coeficiente de en el desarrollo es 124 cuenta el número de subconjuntos con k Dado un conjunto de X con n elementos, elementos. Por consiguiente, el término correspondiente al lado derecho del teorema del binomio cuenta el número de subconjuntos de X. Exprésense los coeficientes binomiales en una disposición triangular conocida como triángulo de Pascal (véase la figura 1.). Los dos lados superiores están formados por números 1 y cualquier valor interior es la suma de los dos números que están por encima y a los lados de él. 1 1 1 1 1 1 2 3 4 5 1 1 3 6 10 1 4 10 1 5 1 Figura 1. Triángulo de Pascal Una identidad que surge de algún proceso de conteo es una identidad combinatoria y el argumento que conduce a su formulación es un argumento combinatorio. 6.5. Guía de Ejercicios N° 1. 1. Una ciudad cuenta con 7 candidatos para elegir al Alcalde y al Síndico. De cuantas maneras puede asignar estos cargos. 2. ¿De cuántas formas diferentes se pueden cubrir los puestos de presidente, vicepresidente y tesorero de un club de fútbol sabiendo que hay 12 posibles candidatos? 3. Con las letras de la palabra libro, ¿cuántas ordenaciones distintas se pueden hacer que empiecen por vocal? 4. De cuántas formas pueden mezclarse los siete colores del arcoíris tomándolos de tres en tres? 5. ¿Cuántos números de cinco cifras distintas se pueden formar con las cifras impares? ¿Cuántos de ellos son mayores de 70,000? 6. ¿De cuántos partidos consta una liguilla formada por cuatro equipos? 7. A una reunión asisten 10 personas y se intercambian saludos entre todos. ¿Cuántos saludos se han intercambiado? 8. Con las cifras 1, 2 y 3, ¿cuántos números de cinco cifras pueden formarse? ¿Cuántos son pares? 9. ¿De cuántas formas pueden colocarse los 11 jugadores de un equipo de fútbol teniendo en cuenta que el portero no puede ocupar otra posición distinta de la portería? 125 10. Una mesa presidencial está formada por ocho personas, ¿de cuántas formas distintas se pueden sentar, si el presidente y el secretario siempre van juntos? 11. ¿Cuántas diagonales tiene un pentágono y cuántos triángulos se puede informar con sus vértices? 12. Un grupo, compuesto por cinco hombres y siete mujeres, forma un comité de 2 hombres y 3 mujeres. De cuántas formas puede formarse, si: a) Puede pertenecer a él cualquier hombre o mujer. b) Una mujer determinada debe pertenecer al comité. c) Dos hombres determinados no pueden estar en el comité. 13. ¿De cuántas formas distintas pueden sentarse ocho personas en una fila de butacas? 14. En una clase de 35 alumnos se quiere elegir un comité formado por tres alumnos. ¿Cuántos comités diferentes se pueden formar? 15. ¿De cuántas formas distintas pueden sentarse ocho personas alrededor de una mesa redonda? 16. En una bodega hay cinco tipos diferentes de botellas. ¿De cuántas formas se pueden elegir cuatro botellas? 17. En el palo de señales de un barco se pueden izar tres banderas rojas, dos azules y cuatro verdes. ¿Cuántas señales distintas pueden indicarse con la colocación de las nueve banderas? 18. Se ordenan en una fila 5 bolas rojas, 2 bolas blancas y 3 bolas azules. Si las bolas de igual color no se distinguen entre sí, ¿de cuántas formas posibles pueden ordenarse? 19. Cuatro libros distintos de matemáticas, seis diferentes de física y dos diferentes de química se colocan en un estante. De cuántas formas distintas es posible ordenarlos si: 1. Los libros de cada asignatura deben estar todos juntos. 2. Solamente los libros de matemáticas deben estar juntos. 20. Una persona tiene cinco monedas de distintos valores. ¿Cuántas sumas diferentes de dinero puede formar con las cinco monedas? 6.6. Soluciónes. 1. ¿De cuántas formas diferentes se pueden cubrir los puestos de presidente, vicepresidente y tesorero de un club de fútbol sabiendo que hay 12 posibles candidatos? No entran todos los elementos. Sí importa el orden. No se repiten los elementos. 2. Con las letras de la palabra libro, ¿cuántas ordenaciones distintas se pueden hacer que empiecen por vocal? 126 La palabra empieza por i u o seguida de las 4 letras restantes tomadas de 4 en 4. Sí entran todos los elementos. Sí importa el orden. No se repiten los elementos. 3. ¿De cuántas formas pueden mezclarse los siete colores del arco iris tomándolos de tres en tres? No entran todos los elementos. No importa el orden. No se repiten los elementos. 4. ¿Cuántos números de cinco cifras distintas se pueden formar con las cifras impares? ¿Cuántos de ellos son mayores de 70.000? Sí entran todos los elementos. Sí importa el orden. No se repiten los elementos. Si es impar sólo puede empezar por 7 u 9. 5. ¿De cuántos partidos consta una liguilla formada por cuatro equipos? No entran todos los elementos. Sí importa el orden. No se repiten los elementos. 127 6. A una reunión asisten 10 personas y se intercambian saludos entre todos. ¿Cuántos saludos se han intercambiado? No entran todos los elementos. No importa el orden. No se repiten los elementos. 7. Con las cifras 1, 2 y 3, ¿cuántos números de cinco cifras pueden formarse? ¿Cuántos son pares? Sí entran todos los elementos: 3 < 5 Sí importa el orden. Sí se repiten los elementos. Si el número es par tan sólo puede terminar en 2. 8. ¿De cuántas formas pueden colocarse los 11 jugadores de un equipo de fútbol teniendo en cuenta que el portero no puede ocupar otra posición distinta de la portería? Disponemos de 10 jugadores que pueden ocupar 10 posiciones distintas. Sí entran todos los elementos. Sí importa el orden. No se repiten los elementos. 9. Una mesa presidencial está formada por ocho personas, ¿de cuántas formas distintas se pueden sentar, si el presidente y el secretario siempre van juntos? 128 Se forman dos grupos el primero de 2 personas y el segundo de 7 personas, en los dos se cumple que: Sí entran todos los elementos. Sí importa el orden. No se repiten los elementos. 10. ¿Cuántas diagonales tiene un pentágono y cuántos triángulos se puede informar con sus vértices? Vamos a determinar en primer lugar las rectas que se pueden trazar entre 2 vértices. No entran todos los elementos. No importa el orden. No se repiten los elementos. Son , a las que tenemos que restar los lados que determinan 5 rectas que no son diagonales. 11. Un grupo, compuesto por cinco hombres y siete mujeres, forma un comité de 2 hombres y 3 mujeres. De cuántas formas puede formarse, si: 1. Puede pertenecer a él cualquier hombre o mujer. 2. Una mujer determinada debe pertenecer al comité. 3. Dos hombres determinados no pueden estar en el comité. 129 12. ¿De cuántas formas distintas pueden sentarse ocho personas en una fila de butacas? Sí entran todos los elementos. Tienen que sentarse las 8 personas. Sí importa el orden. No se repiten los elementos. Una persona no se puede repetir. 13. En una clase de 35 alumnos se quiere elegir un comité formado por tres alumnos. ¿Cuántos comités diferentes se pueden formar? No entran todos los elementos. Noimporta el orden: Juan, Ana. Nose repiten los elementos. 14. ¿De cuántas formas distintas pueden sentarse ocho personas alrededor de una mesa redonda? 15. En una bodega hay cinco tipos diferentes de botellas. ¿De cuántas formas se pueden elegir cuatro botellas? No entran todos los elementos. Sólo elije 4. No importa el orden. Da igual que elija 2 botellas de anís y 2 de ron, que 2 de ron y 2 de anís. Sí se repiten los elementos. Puede elegir más de una botella del mismo tipo. 130 16. En el palo de señales de un barco se pueden izar tres banderas rojas, dos azules y cuatro verdes. ¿Cuántas señales distintas pueden indicarse con la colocación de las nueve banderas? Sí entran todos los elementos. Sí importa el orden. Sí se repiten los elementos. 17. Se ordenan en una fila 5 bolas rojas, 2 bolas blancas y 3 bolas azules. Si las bolas de igual color no se distinguen entre sí, ¿de cuántas formas posibles pueden ordenarse? 18. Cuatro libros distintos de matemáticas, seis diferentes de física y dos diferentes de química se colocan en un estante. De cuántas formas distintas es posible ordenarlos si: 1. Los libros de cada asignatura deben estar todos juntos. 2.Solamente los libros de matemáticas deben estar juntos. 19. Una persona tiene cinco monedas de distintos valores. ¿Cuántas sumas diferentes de dinero puede formar con las cinco monedas? 131 Capítulo 7. Conceptos Básicos de Probabilidad 7.1 Introducción. La palabra probabilidad aparece en nuestro lenguaje ordinario en multitud de ocasiones. Así, afirmaciones del tipo de que la probabilidad de obtener dos seis al lanzar dos dados no cargados es uno entre 36, de que hay una probabilidad ligeramente inferior a un medio de que un bebé recién nacido sea varón y de que en los próximos dos años se pueda curar el SIDA es pequeña. El primero se refiere a un juicio de probabilidad que podemos llamar clásico, en el que los posibles resultados son equiprobables. El segundo es una afirmación de tipo frecuentista y se refiere a la frecuencia relativa con la que cierta probabilidad aparece entre los miembros de una clase determinada y el tercero constituye un ejemplo de lo que podríamos llamar un juicio de credibilidad y es una medida del grado de confianza que tenemos en la verdad de una cierta proposición. 7.2. Experimento aleatorio. La finalidad de todo experimento científico es la obtención de información de interés acerca de cualquier fenómeno de la Naturaleza. Dentro de los experimentos científicos hay algunos cuyo desarrollo es previsible con certidumbre, y sus resultados están perfectamente determinados una vez fijada las condiciones del mismo: se conocen con el nombre de “experimentos determinísticos”. Frente a estos experimentos que pueden realizarse en contexto de certidumbre, aparecen los que pueden realizarse en un contexto de incertidumbre. A estos se les llama “experimentos o fenómenos aleatorios”; estos fenómenos dependen del “azar”. El objeto de estudio del Cálculo de Probabilidades lo constituyen los fenómenos o experimentos aleatorios. Algunas propiedades que caracterizan los fenómenos aleatorios son: 1. En las mismas condiciones iniciales pueden dar lugar a diferentes resultados finales. 2. Todos los resultados posibles se conocen por anticipado. 3. No se puede predecir el resultado en cada experimento particular. 4. En general, puede repetirse en las mismas condiciones indefinidamente. Ejemplo. Para fijar los elementos fundamentales que intervienen en la teoría de probabilidades, elegimos uno de los ejemplos más habituales como es el de lanzamiento de un dado. Claramente es un fenómeno aleatorio. Los resultados posibles son: Ω = {1, 2, 3, 4, 5, 6} Los aspectos que presentan incertidumbre en este experimento son: los posibles subconjuntos de Ω, así presenta incertidumbre el subconjunto {2, 4, 6} al que podemos denominar “par” o su complementario “impar”. Un segundo elemento a considerar son todos los subconjuntos de Ω, es decir, el conjunto de partes de Ω, P(Ω,) el cual obtendrá todos los elementos de interés en nuestro experimento. 132 Por último, parece razonable tener una medida de dicha incertidumbre: es decir, su probabilidad P. Así pues, en todo experimento aleatorio se deben considerar los siguientes tres elementos (Ω, P(Ω), P). 7.3. Espacio Muestral. Dado un experimento aleatorio, llamaremos espacio muestral Ω al conjunto de todos los resultados posibles distintos de dicho experimento aleatorio. Los elementos de Ω se denominan sucesos elementales. Ejemplos de espacios muestrales hay muchos. Consideremos el experimento aleatorio de lanzar dos monedas al aire, el espacio muestral asociado será el Ω = {(C, C), (C, F), (F, C), (F, F)} en el caso que se distinguiesen las dos monedas. Tipos de espacios muestrales asociados a un experimento aleatorio. a) Espacio muestral finito: Se da cuando Ω está formado por un número finito de elementos. Ejemplos, lanzamiento de un dado o de una moneda. b) Espacio muestral infinito numerable: A priori un experimento de este tipo puede dar lugar a un conjunto infinito de eventualidades. Ejemplo, Lanzar una moneda hasta obtener cara por primera vez: C, FC, FFC, FFFC, . . . , FFFFF… FC, … El espacio muestral Ω deberá contener como elementos todas aquellas sucesiones finitas de la forma FF…FC. c) Especio muestral continuo: Cuando los elementos del experimento aleatorio pueden ser cualquier valor dentro de un intervalo o región. Ejemplo, el desplazamiento de una partícula en un plano y supongamos que estamos interesados en la posición que ocupa dicha partícula en el plano, en este caso Ω es todo el plano y por tanto continuo. 7.4. Sucesos o Eventos Sea A una colección no vacía de subconjuntos del espacio muestral Ω, en principio, cualquier elemento de A, es decir, cualquier subconjunto de Ω contendrá una cierta incertidumbre: llamaremos a dicho conjunto suceso, siendo la medida de la incertidumbre, su probabilidad. Así, suceso es un conjunto A de A. Diremos que se ha presentado un suceso A al realizar el experimento, si el resultado de dicho experimento es algún punto (es decir, un suceso elemental de Ω contenido en A). Obviamente, los sucesos son conjuntos, por lo tanto, al hablar de uniones, intersecciones, diferencia, complementario, etc. de sucesos no es más que hablar de uniones, intersecciones, diferencias, complementarios, etc. de conjuntos. El suceso correspondiente al conjunto vacío es denominado suceso imposible y representado por y definido como el conjunto de Ω que no contiene ningún suceso elemental. 133 Desde el punto de vista matemático A no es más que una colección especificada de subconjunto de Ω. En algunos casos (cuando Ω sea finito o numerable será A=P(Ω) y contendrá 2 n elementos, pero otras deberá ser A ≠ P(Ω)). En cálculo de probabilidades la exigencia habitual que haremos a la clase A es que sea á lg ebra . 7.4.1. Estructuras con subconjunto Definición 1. (Estructuras de Semiálgebra) Dado el espacio total , una clase S P() tiene estructura de semiálgebra si y sólo si: a) S b) A, B S es A B S c) A S , existe una sucesión finita A1 , A2 , ..., An S con Ai Aj i j tal que Ac n Ai i 1 Ejemplo. (Intervalos finitos o infinitos de Sea ) S , ,(, a], (b, c], (d , ) / a, b, c, d semiálgebra verificar que S tiene estructura de (, ) . 1) S por definición 2) Para todo par de intervalos de la clase, su intersección está en la clase ya que cualquier intervalo intersecado con será el mismo intervalo, y cualquier intervalo intersecado con , será , que por definición ha sido incluido en S. Por otro lado, (, a] (b, c] (b, a] S , si b a c, ó (, a] (b, c] S , si a b c, ó (, a] (b, c] (b, c] S , si b c a, Además, (, a] (d , ] ( d , a] S , si d a , ó (, a] (d , ] S , si a d , 134 Y por último, (b, c] (d , ) S , si b c d , ó (b, c] (d , ) ( d , c] S , si b d c , ó (b, c] (d , ) (b, c] S , si d b c , 3) Dado un intervalo, el complementario se puede poner como unión finita de elementos de la clase: Dado , c y dado , c , así pues, sólo debemos estudiar el resto de los intervalos: a , (, a]c (a, ) S. b, c ,(b, c]c (, b] (c, ), perteneciendo ambos intervalos a S. Por último, d , (d , ]c (, d ] S. Ejemplo. Sea (0,1] verificar que la clase de intervalos (a, b] con 0 a b 1 forman una semiálgebra. Definición 2. (Estructura de Álgebra) Dado el espacio total , una clase Q P() tiene estructura de álgebra si y sólo si: a) Q b) A, B Q es A B Q c) A Q, existe una sucesión finita A1 , A2 , ..., An Q con Ai Aj i j tal que Ac n Ai i 1 d ) A, B Q se tiene A B Q Nota: Toda álgebra es semiálgebra y además es cerrada bajo complemento ( A Q Ac Q ). Definición 3. (Estructura de -Álgebra) Dado el espacio total , una clase A P () tiene estructura de -álgebra si y sólo si: a) A b) A A Ac A c) Para toda sucesión An n A se tiene An A n 1 Nota: El conjunto vacío se encuentra en la clase y es cerrado bajo intersecciones c numerables An Anc . n 1 n 1 135 Ejemplo: y la clase C (a, b]: a, b entonces la -álgebra engendrada por C es muy importante en Cálculo de Probabilidades y se denomina -álgebra de Borel. Se representa por B( ) . Sea La -álgebra de Borel no sólo está engendrada por C , sino que está engendrada por cualquiera de las siguientes clases de intervalos: C1 (a, b); C5 [a, b) ; C2 (, b) ; C3 (a, ); C4 (, b]; C6 [a, b); C7 [a, b]; Ejercicio Sea el conjunto de casos posibles que resulta de la tirada de un dado. Decir cuáles de las siguientes clases de conjuntos son álgebras. a ) M 1 , b) M 2 , 1, 3, 5 , 2, 4, 6 , , I , P, c) M 3 P , conjunto de las partes de d ) M 4 , 1 , 1, 5 , 2, 4, 6 , 7.5. Axiomas de Probabilidad Definición (Espacio Probabilizable) Al par (, A) , donde A P () es una -álgebra de conjuntos de se le denomina espacio medible o espacio probabilizable. A los elementos de A se les denomina conjuntos medibles. 7.5.1. Probabilidad (Axiomática). El tercero de los elementos a considerar en relación con un experimento aleatorio es, la probabilidad de los sucesos de la -álgebra de subconjuntos del espacio muestral . Axiomas de Kolmogorov. Sea (, A) un espacio probabilizable. Definimos una función de conjunto P, de A en que cumple los siguientes axiomas: Axioma 1. A A es P(A) 0 . Axioma 2. P() 1 . Axioma 3. sucesión An n A tal que Ai Aj i j es P An P( An ) n 1 n 1 136 Consecuencias de los Axiomas de Kolmogorov. P() 0 . 1. En efecto, sea la sucesión A, , ... con A A ; evidentemente An A ... A con lo que por el axioma 3 n 1 P An P An P A P An P A P 0 n 1 n2 n 1 Se cumple la aditividad finita. Sea la sucesión A1 , A2 ,..., An , , ,... Donde Ai A , i 1, 2,..., n y Ai Aj , i j con i, j n. En efecto. Directamente del axioma 3 y 1. 1. Para todo A A ; es P Ac =1 – P(A). En efecto, escribir el espacio total como la unión de A 2 2. y su complemento, luego aplicar la función de probabilidad y el axioma 2. Si A, B A y A B, entonces P(A) ≤ P(B). En efecto, B = A (B-A); P(B)= P(A) + P(B-A), entonces P(B) ≥ P(A), ya que P(B-A) ≥0. 3. Para todo A A , P(A) ≤ 1. Observe que A , entonces P(A) ≤ P( )=1. 4. Para todo A, B A , P(A B) = P(A) + P(B) - P(A B). Verificación: A = (A B ) (A B*) B* = B complemento. B= (A B ) (A* B) Ahora, P(A)= P(A B ) + P (A B*) y P(B) = P(A B ) + P (A* B) por otra parte, A B = (A B ) (A B*) (A* B) P(A B) = P(A B ) + P (A B*) + P(A* B) = P(A B ) + P(A) - P(A B ) + P(B) - P(A B ) = P(A) + P(B) - P(A B ) 5. Como generalización de la propiedad anterior, podemos expresar la probabilidad de la unión de n elementos no disjuntos de la -álgebra A de la forma n n n n n P Ai P( Ai ) P( Ai1 Ai2 ) P( Ai1 Ai2 Ai3 ) ... (1) n 1 P Ai i1 ,i2 1 i1 ,i2 ,i2 1 i 1 i 1 i 1 i1 i2 i1 i2 i3 La demostración se hace por inducción. 137 Definición 7. (Espacio probabilístico) Al trío ( , A , P) donde es el espacio muestral, A -álgebra de sucesos sobre y P una medida de probabilidad sobre A recibe el nombre de espacio probabilístico, o espacio de probabilidades. A los elemento de A se les llama sucesos. 7.6. Resultado Igualmente Probables o Modelo Uniforme de Probabilidad En muchas ocasiones, como en el estudio de algunos jugos de azar, de ciertos procedimientos de muestreo, etc., se trabaja con espacios muestrales finitos, en los cuales los sucesos elementales son equiprobables. El modelo matemático asociado suele recibir el nombre de modelo uniforme y se expresa como sigue: Sea ( , A , P) un espacio probabilístico tal que el conjunto de sucesos elementales asociado, a1 , a2 , . . . , an es finito. En esta situación el espacio muestral se podrá poner como a1 a2 . . . an y por ser los sucesos elementales incompatibles dos a dos, será: P (a1 ) P (a2 ) . . . P (an ) 1 1 Además, P (ai ) , i 1, . . . , n con lo que todo A A unión de k sucesos elementales será: n P ( A) P (a1 ) P (a2 ) . . . P (ak ) k n Hemos obtenido así la clásica regla de Laplace: “Cociente entre casos favorables y casos posibles” considerados éstos como equiprobables. En este caso, necesitamos determinar qué número de situaciones son consideradas como favorables y qué número de situaciones son posibles al realizar nuestro experimento aleatorio. Para ello, es de mucha utilidad el análisis combinatorio y al de su base probabilística asociada. Ejercicio. Se elige un número al azar del 1 al 6,000, todos igualmente probables. Hallar la probabilidad de que sea múltiplo de 2 ó de 3 ó de 4 ó de 5. 7.7. Probabilidad condicional. El problema que vamos a tratar en este apartado va a ser el de formalizar la idea intuitiva de que la “información” aportada por el hecho de que haya ocurrido un suceso B, ha de ser recogida cambiando el espacio de partida. Consideremos el siguiente experimento aleatorio: Un encuestador elige al azar una persona en una población de N individuos. Si suponemos que todas las elecciones son equiprobables, la situación aleatoria es fácilmente descrita por el espacio probabilístico ( , A , P), en donde es el conjunto constituido por la propia población en cuestión, A =P( ) : conjunto potencia, y P 138 está definida por las masas 1/N situadas en cada punto de . Entre los sucesos de A consideremos el suceso A = “Se elige una persona rubia” y el suceso B=”se elige una persona de altura superior a 1.7m”. Estos sucesos son parte de , ya que después de realizar el experimento tienen respuesta las preguntas: ¿es rubia la persona encuestada? ¿es de altura superior a 1.7m? Supongamos que estamos en la situación que una persona rubia (sin saber cuál) es elegida, o dicho de otra manera ha ocurrido el suceso A. A priori, B ha podido tener lugar o no; para que hubiese ocurrido, habría sido necesario y suficiente que se hubiera elegido una persona del subconjunto A B de , y para que no hubiese ocurrido, habría sido necesario y suficiente el que se hubiese elegido una persona del subconjunto A B* de . Supongamos, que ha ocurrido A y se ha revisado “el que B tenga lugar”; A ya es un suceso seguro y B no se realizará a menos que se realizase A B. La probabilidad de realización de B, sabiendo que ha ocurrido A, es el caso de sucesos favorables A B con respecto al número de casos posibles que N A B realizan A; es decir, , de donde dividiendo por N las dos cantidades será: NA N A B N P( A B) NA P ( A) N En resumen, sabiendo que A se ha realizado, una nueva evaluación de las probabilidades de los sucesos, conducen a una nueva ley de probabilidades sobre ( ,P( )), denotada por PA , dando al suceso A una probabilidad igual a uno, y dando una probabilidad nula a los sucesos disjuntos con A, viniendo definida por: PA B P( A B) P( A) Definición. (Probabilidad condicional) Sea ( , A , P) un espacio probabilístico y sea A A un suceso tal que P(A) > 0. Llamaremos probabilidad condicionada del suceso B respecto al A, y lo escribiremos P(B/A) a P( A B) P B / A , P( A) > 0 P( A) Proposición. Sea ( , A , P) un espacio probabilístico y sea A A con P(A) > 0. Entonces, ( , A , P(·/A)) es un espacio de probabilidad, donde P(B/A) es la definida anteriormente. Demostración. P( A B) 1. P B / A 0 ; B A P( A) P( A) P( A) 2. P / A 1 P( A) P( A) 3. Por último, si An n A es una sucesión de disjuntos de A entonces 139 P A A P n An A n 1 n 1 P An / A P ( A ) P ( A ) n 1 P A = n 1 n A P( A) P An A P An / A ◊ P( A) n 1 n 1 La parte relevante de A es A A ya que P(B/A) = 0 si B A*. De hecho, si P(A) > 0, AA = A A es una -Álgebra y P(·/A) es una probabilidad sobre AA . Proposición. El trío (A, AA , PA) es un espacio probabilístico si P(A) > 0. Demostración. AA es la clase de todos los sucesos que se pueden expresar como intersección de un elemento de A y A, es decir, AA = A A={B A ; B A }. Pues bien, AA tiene estructura de -álgebra con espacio total el propio A, ya que: a) A AA por ser A = A A, con A A . b) Si C AA y por C’, representemos el complementario de C en AA y por C* el complementario en A , entonces C’ AA , ya que C’ = C* A y C* A , por ser A álgebra y C A . c) Para toda sucesión Cn n AA es Cn Bn A y Cn n 1 n 1 n 1 Cn AA ya que será Bn A AA n 1 Bn A Por ser Bn A . n 1 Por otro lado, PA es una probabilidad sobre (A, AA ) ya que PA es la restricción de P(·/A) al espacio (A, AA ). Teorema. (Teorema del Producto o Regla de multiplicación) Si A y B son dos sucesos del espacio probabilístico ( , A , P) con P(A) > 0 y P(B) > 0, a partir de la proposición 5 se tiene que: P( A B) P( A) P B / A y P( A B) P( B) P A / B . 140 Demostración (Inmediata) n-1 El teorema anterior se puede generalizar: Sea A1 , A2 ,..., An A con P A j > 0 entonces, j=1 P A j P ( A1 ).P ( A2 / A1 ).P ( A3 / A1 A2 )...P j=1 n An n-1 Aj j=1 fácilmente se demuestra por inducción. Teorema. (Teorema de la probabilidad total) Sea ( , A , P) un espacio probabilístico y sea An n A un sistema completo de sucesos, es decir, una sucesión de disjuntos, Ai A j i j tal que An n 1 Sea B A un suceso para el que se conocen las probabilidades condicionadas P(B/Ai), y supongamos, por último, que se conocen también las probabilidades P(Ai), con P(Ai)>0, para todo i=1,2, . . . En estas condiciones, P( B) P( B / A ) P( A ) i i 1 i Demostración. P( B) P( B ) P B Ai P B Ai P( B / Ai ) P( Ai ) i 1 i 1 i 1 Teorema. (Teorema de Bayes o de la Probabilidad inversa) Sea ( , A , P) un espacio probabilístico y sea An n A un sistema completo de sucesos tal que P(Ai)>0, i . Sea B A un suceso con P(B)>0, para el que se conocen las probabilidades P(B/ Ai). Entonces, P( Ai / B) P( Ai ) P ( B / Ai ) P( A ) P B / A i 1 i , i i Demostración: Inmediata. Aplicación del teorema de la Probabilidad total. A las probabilidades P(Ai)>0 se les suele llamar probabilidades a priori. A las P(Ai/B) probabilidades a posteriori, y a las P(B/Ai) verosimilitudes. 141 7.8. Independencia de sucesos. Sea ( , A , P) un espacio probabilístico y sean A, B A con P(B)>0. El teorema del producto nos dice que P( A B) P( B) P A / B . Existen muchos experimentos aleatorios en los que la información suministrada por el suceso B no afecta para nada la probabilidad del suceso A, es decir, P(A/B)=P(A). Pues bien, esa es precisamente la noción de independencia. Definición. (Independencia) Sea ( , A , P) un espacio probabilístico y sea A,B A , los suceso A y B son independientes si y sólo si: P ( A B ) P ( A) P ( B ) Frecuentemente se confunde sucesos incompatibles con sucesos independientes, observemos que los sucesos incompatibles son los más dependientes que existen, puesto que la ocurrencia de uno de ellos proporciona la máxima información; el otro suceso no va a ocurrir. Proposición. Si A y B son dos sucesos independientes entonces, P(A/B) =P(A) si P(B)>0; y P(B/A)= P(B) si P(A) > 0. Proposición. Si A y B son dos sucesos independientes, entonces, también lo son A y B*, A* y B, A* y B*. Demostración: P(A* B) = P(B - [ A B]) = P(B) – P(A B) , ya que (A B ) B, con lo que: P(A* B) = P(B)(1-P(A)) = P(B)P(A*). Análogamente, se verifica la independencia de A y B*. Por último, P(A* B*) = P[(A B)*] = 1 – P(A B) = 1- [P(A) + P(B) – P(A B)] = 1 -P(A) -P(B) + P(A)P(B) = P(A*) – P(B)(1-P(A)) =P(A*)P(B*) . A continuación se presenta una serie de ejercicios de probabilidad, se han ordenado de acuerdo a su dificultad al momento de resolver. Los ejercicios con un * tienen un grado mayor de dificultad y los ejercicios con ** se recomienda dejarlos hasta el final ya que se requieren mucha concentración para su comprensión y resolución. Esta clasificación se hace con base al nivel de dificultad que encontró el profesor al momento de resolverlos. 7.9. Ejercicios de cálculo de probabilidad Hoja de ejercicios 2. Ejercicio 1: Altube y Vitoria son dos estaciones metereológicas. Representaremos por A y V el que llueva respectivamente en Altube y Vitoria durante cualquier periodo de 24 horas en el mes de Junio; se tiene que P(A) = P(V) = 0, 40 y que P(A V) = 0, 28. Determínense las dos probabilidades condicionales P(A/V) y P(V/A), así como la probabilidad total P(A V). ¿Son independientes A y V? 142 Solución. Para obtener las probabilidades condicionadas aplicamos la expresión: Para obtener la probabilidad total consideramos P(A V) = P(A) + P(V) – P(A V)= 0, 40 + 0, 40 - 0, 28 = 0, 52 Se dice que dos sucesos son independientes si su probabilidad compuesta es igual al producto de sus probabilidades incondicionales respectivas. La definición formal de independencia de dos sucesos es: P(B/A) = P(B) ; P(A/B) = P(A) También, podemos ver que en el caso de sucesos independientes la probabilidad compuesta toma la forma: P(A B) = P(A)•P(B). En nuestro caso resulta fácil comprobar que los dos sucesos no son independientes ya que se tiene: P(A/V) P(A) ; P(V/A) P(V) P(A V) P(A)•P(V) Ejercicio 2. Un mecanismo eléctrico que contiene cuatro interruptores sólo funciona cuando todos ellos están cerrados. En sentido probabilístico, los interruptores son independientes en lo que se refiere al cierre o a la apertura, y, para cada uno de ellos, la probabilidad de que no funcione es 0,1. Calcúlese la probabilidad de que no funcione el mecanismo en conjunto, despreciando todas las causas que pueden hacer que el mecanismo no funcione, excepto los propios interruptores. Solución Representando por F el hecho de que el mecanismo no funcione y por F* el suceso complementario. Llamando S1 al suceso de que el interruptor 1 esté cerrado y S1* al suceso complementario (que esté abierto), se sabe que P(S1*)=0.1, luego P(S1) =0.9. Y análogamente para los otros interruptores. El mecanismo solo funciona cuando los interruptores están cerrados, y esto corresponde al suceso compuesto S1 S2 S3 S4, luego P(F*)=P(S1 S2 S3 S4). Aplicando ahora el teorema sobre la ley de la probabilidad compuesta para sucesos independientes, tenemos: P(S1 S2 S3 S4) = P(S1)P(S2)P(S3)P(S4)= (0.9)(0.9)(0.9)(0.9)= 0.6561 y a partir de ahí: P(F*)= 1 – 0.6561 = 0.3439. Ejercicio 3. En un almacén se tiene que despachar 60 pedidos, y se sabe que 5 de ellos son de una cierta mercancía A. Si se cumplimentan los 60 pedidos al azar, ¿cuál es la probabilidad de que el primero y el cuarto pedido sean de la mercancía A y de que simultáneamente no lo sean el segundo y el tercero?. ¿Cuál es la probabilidad de que en los cuatro primeros pedidos a cumplimentar haya al menos dos pedidos de la mercancía A? 143 Solución. Vamos a representar por A el suceso consistente en que un pedido determinado que se esté despachando sea de la mercancía A, y por A* el suceso complementario consistente en que no sea de la mercancía A. Como la probabilidad de que un pedido determinado se refiera a una clase de mercancía determinada (sea A o A*) está influida por el número de pedidos de la misma clase que se hayan despachado antes, este problema ilustra la ley general de la probabilidad compuesta, expresada en la Ley general de la probabilidad compuesta: P A j P ( A1 ).P ( A2 / A1 ).P ( A3 / A1 A2 )...P j=1 n An n-1 Aj j=1 Una buena forma de considerar el problema es imaginar un mazo de 60 cartas, todas iguales, excepto que 5 de ellas están señaladas con A y 55 señaladas con A*. La acción de cumplimentar los pedidos se puede asociar a la de sacar cartas de un mazo bien barajado, de forma que todas las cartas que se pueden sacar en una prueba determinada tienen las mismas probabilidades de ser elegidas. El suceso de que los pedidos primero y cuarto sean de la mercancía A y el segundo y tercero no, corresponde a sacar la sucesión de cartas A ,A*, A*, A. Como hay 5 cartas señaladas con A, la probabilidad de que la primera carta sea una A es 5/60. En la segunda prueba hay 59 cartas en la baraja, y 55 de ellas están señaladas con A*. Luego la probabilidad condicionada de que la segunda carta sea una A* es 55/59. En la tercera prueba quedan 58 cartas, y 54 de ellas están señaladas con A*. Luego, la probabilidad condicionada de que la tercera carta sea una A* es 54/58. Finalmente, en la cuarta prueba quedan 57 cartas, de las cuales 4 están señaladas con A, luego la probabilidad de que la cuarta carta sea una A es 4/57. Por tanto, multiplicando estas probabilidades de acuerdo con el teorema que expresa la ley general de la probabilidad compuesta, obtenemos: P(A, A*, A*, A) = (5/60) (55/59)(54/58)(4/57) = 0.0051. Si llamamos E al suceso de que al menos dos pedidos de los cuatro primeros a cumplimentar sean de la mercancía A, su probabilidad es igual a 1-P(E*), siendo E* el suceso de que los primeros cuatro pedidos contengan menos de dos pedidos de la mercancía A, es decir, cero o uno. Pero la probabilidad de que ninguno de los pedidos sea de la mercancía A está dada por: P(0)= P(A*, A*, A*, A*)= (55/60)(54/59)(53/58)(52/57) = 0.6994. Como el suceso de que uno de los pedidos sea de la mercancía A puede ocurrir de cuatro formas mutuamente excluyentes, su probabilidad total es: P(1) = P(A, A*, A*, A*)+ P(A*, A, A*, A*)+ P(A*, A*, A, A*)+ P(A*, A*, A*, A) = (5/60)(55/59)(54/58)(53/57) + (55/60)(5/59)(54/58)(53/57)+ (55/60)(54/59)(5/58)(53/57)+ (55/60)(54/59)(53/58)(5/57) = 0.269 144 Por todo ello tendremos: P(E*)= P(0)+P(1) = 0.6994+0.269= 0.9684 y la probabilidad buscada es: P(E)= 1- P(E*)= 1 - 0.9684= 0.0316. Ejercicio 4. Sea un dado tal que la probabilidad de las distintas caras es proporcional al número de puntos inscritos en ellas. Hallar la probabilidad de obtener con este dado un número par. Ejercicio 5. Se elige un número al azar del 1 al 6,000, todos igualmente probables. Hallar la probabilidad de que sea múltiplo de 2 ó de 3 ó de 4 ó de 5. Ejercicio 6. En un juego de dados, hemos apostado por el “2”. Se tira el dado, y antes de ver el resultado, nos dicen que ha salido par. Hallar la probabilidad de ganar. Ejercicio 7. En una reunión hay 25 personas. Calcular la probabilidad de que celebren su cumpleaños el mismo día del año al menos dos personas. Ejercicio 8. Un dado sólo tiene tres caras posibles: 1, 2 y 3, igualmente probables. Realizamos el siguiente juego: tiramos el dado, si sale 3 ganamos, si sale 1 ó 2 continuamos tirando hasta repetir el resultado de la primera tirada, en cuyo caso ganamos, o hasta obtener un tres y entonces perdemos. Se pide la probabilidad de ganar. Ejercicio 9. Un parque natural está dividido en dos partes A y B por un río. Hay 10 ciervos en la parte A y otros 10 en la parte B. Un biólogo realiza investigaciones sobre la conducta de un cierto ciervo X que está en A. Por un descuido de los vigilantes 9 ciervos de A pasan a B. Éstos lo advierten y devuelven 9 ciervos (escogidos al azar) al territorio A. Informado el biólogo de tal contingencia, desea proseguir sus investigaciones sobre X. ¿En cuál de las dos partes A y B es preferible que empiece a buscar su ciervo? Ejercicio 10. Se hacen 6 tiradas con una moneda. Hallar la probabilidad de obtener una racha ininterrumpida de por lo menos tres caras. Ejercicio 11. En una reunión, n personas (n > 2) lanzan una moneda al aire. Si hay una que difiere de todas las demás, su propietario paga una ronda. ¿Cuál es la probabilidad de que esto ocurra? Ejercicio 12. Un examen consta de 5 temas numerados. Para elegir un tema al azar, se propone lanzar un dado. Si sale de 1 a 5, el número del tema es el resultado del dado; si sale 6 se vuelve a tirar hasta que sale de 1 a 5. Demostrar que la probabilidad de elección de cada tema es 1/5. Ejercicio 13. Una urna contiene 5 bolas blancas y 3 bolas negras. Tres jugadores A, B y C extraen una bola, sin devolución, en este mismo orden. Gana el primer jugador que saca bola blanca. Calcular la probabilidad de que gane C. Ejercicio 14. Una urna se ha llenado tirando una moneda al aire dos veces y poniendo una bola blanca por cada cara y una bola negra por cada cruz. Se extrae una bola que es blanca. Hallar la probabilidad de que la otra bola también lo sea. 145 Ejercicio 15. En una universidad en la que sólo hay estudiantes de Arquitectura, Ciencias y Letras, termina la carrera el 5% de Arquitectura, el 10% de Ciencias y el 20% de Letras. Se sabe que el 20% estudian Arquitectura, el 30% Ciencias y el 50% Letras. Eligiendo un estudiante al azar, se pide: d) Probabilidad de que sea de Arquitectura y haya terminado la carrera. e) Nos dice que ha terminado la carrera. Probabilidad de que sea de Arquitectura. Ejercicio 16. Un jugador tira un dado, sale 6 y gana. Hallar la probabilidad de que haya hecho trampa. (Sugerencia: Resolverlo bajo el supuesto de que el 50% de los jugadores son tramposos) Ejercicio 17. Se lanzan tres monedas simétricas. Calcular la probabilidad de que salgan las tres tiradas iguales. Ejercicio 18. Se lanza un dado n veces. Calcular la probabilidad de obtener al menos un seis. Ejercicio 19. Se tiene un cuadrado inscrito en un circulo de radio r. Se eligen tres puntos al azar e independientes dentro del circulo. Hallar la probabilidad de que los tres puntos caigan dentro del cuadrado. *Ejercicio 20. Al contestar una pregunta con sus n posibles respuestas, una persona o bien conoce la respuesta correcta (lo cual ocurre con probabilidad p) o bien lo adivina con probabilidad 1/n. Calcular la probabilidad de que conociese la respuesta, supuesto que ha contestado correctamente. *Ejercicio 21. Con una moneda se juega a cara o cruz. Se para de lanzar cuando por primera vez la diferencia entre el número de caras y el número de cruces es en valor absoluto igual a 3. Calcular la probabilidad de que paremos de lanzar la moneda en la sexta tirada o antes. Idem en la n-ésima tirada o antes. *Ejercicio 22. Entre 5 ciudades situada en los vértices de un pentágono A-B-C-D-E-A, un transportista que parte de A realiza viajes de modo que en cada ciudad tiene probabilidad 1/3 de ir a la izquierda y 2/3 de ir a la derecha. Calcular la probabilidad de que el primer regreso a A sea por la ciudad contraria hacia la que partió habiendo pasado una sola vez por D. Idem pero regresando por BA, y pasando además por D una sola vez. **Ejercicio 23. Un profesor tiene una caja de cerillas en cada una de sus dos bolsillos, ambas con el mismo número N de cerillas, y va sacando al azar cerillas de cada bolsillo, una a una. Calcular la probabilidad de que en el bolsillo izquierdo quede exactamente k cerillas cuando en el derecho saca la última. **Ejercicio 24. En 4 ciudades situadas en los vértices de un cuadrado, un transportista realiza viajes de manera que en cada ciudad tiene una probabilidad p de ir a la derecha y q=1-p de ir hacia la izquierda. Hallar la probabilidad de que el primer regreso a la ciudad de partida, A, se produzca por la ciudad contraria hacia la que partió. 146 7.9.1. Problemas variados de probabilidad Hoja de ejercicios 3 (Problemas de refuerzo). 1. Una experiencia puede dar k resultados posibles mutuamente excluyentes, R1, R2, …,Rk cuyas probabilidades respectivas son p1, p2, … , pk, siendo su probabilidad total igual a la unidad, es decir, p1 + p2 + … + pk = l. Si se ejecutan N pruebas independientes de la experiencia, ¿cuál es la probabilidad de obtener exactamente n1 resultados del primer tipo, n2 del segundo,…, y nk del késimo, siendo n1 + n2 + … + nk = N? RESPUESTA 1. Como las pruebas son independientes, la probabilidad de obtener un resultado determinado cualquiera Ri en una prueba dada no está influida en absoluto por los resultados de otras pruebas. Por tanto, la probabilidad Ps de una sucesión determinada cualquiera de resultados es igual al producto de sus probabilidades incondicionales separadas y, por tanto, El número S de sucesiones distintas que dan el número deseado de resultados de cada clase es igual a Pm(N; n1, n2, … , nk) y la probabilidad total P(n1, n2,… , nk) viene dada por el producto S.Ps ; por consiguiente : P ( n1, n2 , ... , nk ) N! p1n1 p2 n2 ... pk nk n1 ! n2 ! ... nk ! 2. El informe de un ingeniero sobre las causas de avería en los calentadores de agua domésticos reveló que el 90% de las averías se debían a uno de estos tres factores : escapes en las soldaduras, escapes en las juntas, o corrosión en puntos aislados, siendo las probabilidades respectivas de 0.4 ; 0.3 y 0.2. Despreciando la posibilidad remota de que se produzcan averías simultáneas, y suponiendo pruebas independientes, ¿cuál es la probabilidad de que una muestra aleatoria de cinco averías contenga dos casos de escapes en las soldaduras, dos de escapes en las juntas, uno de corrosión en un punto aislado y ninguno debido a otras causas? RESPUESTA 2. Aceptando la hipótesis de que las averías simultáneas son despreciables, podemos considerar los diferentes tipos de averías como sucesos mutuamente excluyentes, e incluyendo la categoría de "averías diversas", obtenemos un sistema exhaustivo. Por tanto, podemos aplicar directamente la ley polinomial de la probabilidad, y la solución está dada por: 3. La probabilidad de que un vendedor a domicilio consiga una venta en un solo intento es 1/6. a) ¿Cuál es la probabilidad de que consiga al menos una venta en los cinco intentos siguientes? b) ¿Cuál es la probabilidad de que consiga, en esos cinco intentos, cuatro o más ventas? 147 RESPUESTA 3. Aunque puede no ser estrictamente cierto, vamos a suponer que un intento no afecta a otro. a) La probabilidad P(E) del suceso de que el vendedor consiga al menos una venta en los cinco intentos es igual a 1 P (E ) , siendo el suceso complementario de que no consiga ninguna venta. En este caso: P (E ) 5! (1/ 6)0 (5 / 6)5 =0.402 0!5! Ahora, P(E)= 1-0.402= 0.598 b) El suceso E' de conseguir cuatro o más ventas se puede producir de dos maneras mutuamente excluyentes: consiguiendo exactamente cuatro ventas o consiguiendo exactamente cinco ventas. Luego: P (E´) 5! 5! (1/ 6)4 (5 / 6)1 (1/ 6)5 (5 / 6)0 0.0032 0.0001 0.0033 4!1! 5!0! 4. Tres urnas, U1 , U2 , U3 , contienen bolas blancas, negras y rojas en proporciones diferentes. U1 contiene una bola blanca, dos negras y tres rojas; U2 contiene dos bolas blancas, una negra y una roja, y U3 contiene cuatro bolas blancas, cinco negras y tres rojas. Sacamos dos bolas de una urna, sin saber de qué urna son. Si resulta que una bola es blanca y la otra es roja, calcúlense las probabilidades respectivas de que la urna de la cual se han sacado las bolas sea la U1 , la U2 ó la U3. RESPUESTA 4. Podemos suponer razonablemente que las tres urnas tienen la misma probabilidad de haber sido elegidas, por lo que tenemos P(Ui) = 1/3 (i = 1, 2, 3). Las probabilidades condicionadas del suceso A (sacar una bola blanca y otra roja, a la vez) las calculamos como sigue: En la urna U1 tenemos una bola blanca y tres rojas frente a 6 bolas en total. Esto supone que tenemos tres casos favorables dados por la bola blanca con cada una de las rojas y 15 casos posibles que resultan del número de combinaciones de 6 elementos tomados de dos en dos, C(6, 2) = 6!/2!(6-2)! = 15. Por todo ello, la probabilidad P(A/U1) vale 3/15 = 1/5. De forma análoga obtenemos también P(A/U2) = 1/3 y P(A/U3) = 2/11. Sustituyendo estos valores en la fórmula de Bayes, obtenemos las probabilidades respectivas P (U1 / A) (1/ 3)(1/ 5) 33 (1/ 3)(1/ 5) (1/ 3)(1/ 3) (1/ 3)(2 /11) 118 148 P (U2 / A) (1/ 3)(1/ 3) 55 (1/ 3)(1/ 5) (1/ 3)(1/ 3) (1/ 3)(2 /11) 118 P (U3 / A) (1/ 3)(2 /11) 30 (1/ 3)(1/ 5) (1/ 3)(1/ 3) (1/ 3)(2 /11) 118 Resulta evidente que la suma de los tres casos es la unidad. 5. Se lanza una moneda y, si sale cara, se mete una bola negra en una urna; si sale cruz, se mete en la urna una bola blanca. Se hace esta operación cuatro veces. A continuación otra persona saca dos bolas simultáneamente de la urna, que resultan ser negras. ¿Cuál es la probabilidad de que en la urna hubiera dos bolas blancas y dos negras? RESPUESTA 5. Debido al método utilizado para llenar la urna, existen cinco posibilidades para la distribución final del color de las cuatro bolas, y se puede calcular la probabilidad de que se produzca cada una de las distribuciones de colores. Son las siguientes: Grupos de 4 bolas blancas (B1) = 4!/4!0! = 1 Grupos de 3 blancas y una negra (B2) = 4!/3!1! = 4 Grupos de 2 blancas y 2 negras (B3) = 4!/2!2! = 6 Grupos de 1 blanca y 3 negras (B4) = 4!/1!3! = 4 Grupos de 4 bolas negras (B5) = 4!/0!4! = 1 En total tenemos 2n = 24 = 16 grupos, por lo que las probabilidades respectivas son: P(B1) = 1/16 ; P(B2) = 4/16 ; P(B3) = 6/16 ; P(B4) = 4/16 ; P(B5) = 1/16. En el caso que estamos considerando, el suceso A (sacar dos bolas negras) no puede ocurrir con los antecedentes B1, y B2, por lo que las probabilidades condicionadas P(A/B1) y P(A/B2) tienen que ser nulas. Las otras tres probabilidades condicionadas se calculan como sigue: para la primera tenemos 1 caso favorable y 6 casos posibles que resultan del número de combinaciones de 4 elementos tomados de 2 en 2. Así pues: P(A/B3) = 1/C(4, 2) = 1/6 Para la segunda y tercera, por una deducción análoga tenemos P(A/B4) = C(3, 2)/C(4, 2) = 1/2 ; P(A/B5) = C(4, 2)/C(4, 2) = 1 149 Por lo tanto, la probabilidad buscada viene dada por la fórmula de Bayes 6. Un avión cubre diariamente el servicio entre dos ciudades. Suponemos que la probabilidad de accidente en día sin niebla es 0.002 y en día con niebla 0.01. Cierto día de un mes que hubo 18 días sin niebla y 12 con niebla se produjo un accidente. Calcular la probabilidad de que el accidente haya ocurrido: a) en día sin niebla; b) en día con niebla. RESPUESTA 6. Sea A1 el suceso "día sin niebla"; A2 el suceso "día con niebla" y B el suceso "ocurrir accidente". Se tiene: y aplicando la fórmula de Bayes: 7. Un avión con tres bombas trata de destruir una línea férrea. La probabilidad de destruir la línea con cualquiera de las bombas es 1/3. ¿Cual es la probabilidad de que la línea quede destruida si el avión emplea las tres bombas? RESPUESTA 7. .) Denotemos por Ai al suceso de que la bomba i destruya la línea férrea; se tiene: P(A i) = p = 1/3, con i = 1, 2, 3. Si A es el suceso de que la línea quede destruida podemos escribir: 150 De ese modo, la probabilidad de que la línea quede destruida es de 19/27. ..) El problema se puede resolver también como sigue: Sea B i el suceso de que la bomba i no destruya la línea, y B el suceso de que la línea no se destruya. Se tiene: Como los sucesos B 1, B 2 y B 3 son independientes, resulta: P(B) = P(B 1 ).P(B 2 ).P(B 3 ) = (2/3) (2/3) (2/3)= 8/27 y la probabilidad de que la línea quede destruida vendrá dada por : P(A) = 1 – P(B) = 1 – (8/27) = 19/27 y evidentemente, este resultado coincide con el anterior. 8. Se hace un disparo con cada uno de tres cañones (A, B y C), siendo la probabilidad de hacer blanco 0.1, 0.2 y 0.3, respectivamente. Calcúlese la probabilidad de cada uno de los números posibles de blancos. Calcular la probabilidad de obtener al menos un blanco. RESPUESTA 8. Los números posibles de blancos son: a) 3 si se hace blanco con cada uno de los cañones. b) 2 si se falla en un disparo. c) 1 si se fallan dos disparos d) 0 si se fallan los tres disparos. En el caso (a), la probabilidad de acertar en todos los disparos vendrá dada como el producto de las probabilidades independientes de acertar cada disparo, es decir: P ( A B C ) = P(A).P(B).P(C) = (0.1)*(0.2)*(0.3) = 0.006 En el caso b) tenemos: 1ª) Probabilidad de acertar A y B fallando C: P(A) .P(B) .P(C) = P(A) .P(B)[ 1 – P(C)] = 0.1 x 0.2 x 0.7 = 0.014 2ª) Probabilidad de acertar A y C fallando B : P(A).P(B').P(C) = F(A)[1 - P(B)]P(C) = 0.1 x 0.8 x 0.3 = 0.024 3ª) Probabilidad de acertar B y C fallando A : P(A').P(B).P(C) = [1 - P(A)P(B).P(C) = 0.9 x 0.2 x 0.3 = 0.054 Así, la probabilidad total de fallar un disparo es: 0.014 + 0.024 + 0.054 = 0.092 151 En el caso (c) tenemos varias posibilidades: 1ª) Probabilidad de acertar A y fallar B y C: P(A).P(B').P(C') = P(A)[1 - P(B)][1 - P(C)] = 0.1 x 0.8 x 0.7 = 0.056 2ª) Probabilidad de acertar B y fallar A y C: P(A').P(B).P(C') = [1 - P(A)]P(B)[1 – P(C)] = 0.9 x 0.2 x 0.7 = 0.126 3ª) Probabilidad de acertar C y fallar A y B: P(A') .P(B') .P(C) = [1 - P(A)] [1 - P(B)] P(C) = 0.3 x 0.9 x 0.8 = 0.126 Así pues, la probabilidad total de fallar dos disparos será: 0.056 + 0.126 + 0.216 = 0.392 Caso d) Puesto que cada disparo es independiente de los otros dos, la probabilidad de fallar en todos vendrá dada por el producto de las probabilidades respectivas de fallo, es decir P ( A´B´C´) = P(A').P(B').P(C') = [1 - P(A)][1 - P(B)][1 – P(C)] = 0.9x0.8x0.7 = 0.504 9. Distribuimos al azar r bolas en n celdas. Hallar la probabilidad de que una celda especificada a priori tenga exactamente k bolas. 10. De una urna que contiene b bolas blancas y n bolas negras se extrae k bolas al azar (sin remplazamiento). Calcular la probabilidad de que exactamente x de ellas sean blancas. 11. De los 30 temas de un examen, un alumno sabe 18. Le proponen dos tipos de examen: Los miembros del tribunal eligen 3 temas y debe contestar dos; o bien el tribunal elige 5 temas y debe contestar 3 de ellos. ¿Cuál es el examen más favorable para el alumno? 12. Una persona ha comprado 40 billetes de una lotería de 100 números. Si la lotería consta de tres premios. ¿Cuál es la probabilidad de que gane sólo un premio? ¿Al menos uno? ¿Ninguno? 13. Una caja contiene 90 piezas buenas y 10 defectuosas. Sacamos 10 piezas aleatoriamente. Calcular la probabilidad de que entre esas 10 piezas no haya ninguna defectuosa. Idem que haya k defectuosas. 14. Un grupo de diez concejales son elegidos al azar de un total de 50 municipios para formar una comisión. Suponiendo que cada municipio tiene dos concejales, ¿Cuál es la probabilidad de que los dos concejales de cierto municipio estén en dicha comisión? ¿Y de que ninguno esté? *15. En una urna se introducen n bolas, cada una de las cuales pueden ser blanca o negra con probabilidades iguales. A continuación se extraen k bolas con remplazamiento. ¿Cuál es la probabilidad de que la urna contenga sólo bolas blancas si las k extraídas han resultado ser blancas? 152 *16. Una secretaria ha escrito n cartas con sus correspondientes n sobres. Se introduce al azar las cartas en los sobres, ¿Cuál es la probabilidad de que al menos una carta vaya a parar a su correspondiente sobre? Hallar el valor de esta probabilidad cuando n tiende a infinito. ** 17. La probabilidad de que un árbol de una cierta variedad de mangos tenga n flores es (1 p )n p (n=0, 1, 2, 3, 4, . . .) . Cada flor tiene una probabilidad de 2/3 de ser fecundada y dar fruto, independientemente del resto de las flores del árbol. Cada fruto tiene probabilidad ¼ de ser picado por los pájaros antes de la cosecha. Se desea: a) obtener la probabilidad de que una flor produzca fruto cosechable; b) Calcular la probabilidad de que un árbol que tiene r frutos haya tenido n flores. 7.9.2. Hoja 4. Ejercicios de probabilidad (Repaso, Capítulo 6 y 7) 1. ¿De cuántas maneras pueden sentarse 10 personas en un banco si hay 4 sitios disponibles? 2. Hay que colocar a 5 hombres y 4 mujeres en una fila de modo que las mujeres ocupen los lugares pares. ¿De cuántas maneras puede hacerse? 3. ¿Cuántos números de 4 dígitos se pueden formar con las cifras 0,1,. . . ,9. a) permitiendo repeticiones; b) sin repeticiones. 4. ¿Cuál es el mínimo número de alumnos que debe tener una clase para garantizar una probabilidad 0.5 de que el día de cumpleaños de algún alumno coincida con el día de cumpleaños del rector de la universidad? Se asume que los años son de 365 días. 5. Un banco ha comprobado que la probabilidad de que un cliente con fondos extienda un cheque con fecha equivocada es de 0.001. En cambio, todo cliente sin fondos pone una fecha errónea en sus cheques. El 90% de los clientes del banco tienen fondos. Se recibe hoy en caja un cheque con fecha equivocada. ¿Qué probabilidad hay de que sea de un cliente sin fondos? 6. *En una bolsa hay cinco bolas, blancas o negras. Se extrae una bola y es blanca. Hállese la probabilidad de que en la bolsa haya dos blancas y tres negras si para formar la urna se tiraron cinco monedas y se metieron tantas blancas como caras resultaron y tantas negras como cruces. 7. *Una urna contiene cinco dados con sus caras de color blanco o rojo. El dado número i (i = 1; 2; 3; 4; 5) tiene i de sus caras blancas y el resto rojas. Se selecciona al azar un dado de la urna, se lanza y sale cara roja. ¿Cuál es la probabilidad de que el dado seleccionado sea el i? 8. Dos personas lanzan una moneda n veces cada una. ¿Cuál es la probabilidad de que obtengan el mismo número de caras? 9. Se tiene un examen con 10 preguntas con respuesta dicotómicas (V/F). El examen se aprueba cuando se aciertan 6 ó más preguntas. Calcular la probabilidad de aprobar el examen dado que no se sabe ninguna pregunta. 10. Una moneda tiene probabilidad p de caer cara. Hallar la probabilidad de que al tirar esta moneda 11 veces se obtenga la sexta cara en la undécima tirada. 11. N bolas se reparten al azar en n celdas (N>n). ¿Cuál es la probabilidad de que todas las celdas queden ocupadas? 153 12. *Un examen de oposición consta de 14 temas. Se debe escoger un tema de entre dos tomados al azar. Calcular la probabilidad de que a un alumno que ha preparado 5 temas le toque al menos uno que sabe. ¿Cuál es el número mínimo de temas que debe preparar para que tenga una probabilidad superior a 1/2 de superar el examen? 13. Obtener la probabilidad p de que al lanzar n veces dos dados se obtenga al menos un 6 doble. ¿Cuántas partidas habrá que jugar para que tengamos p = 1/2 de obtener un 6 doble? 14. N parejas se reúnen y se emparejan al azar para bailar. Calcular la probabilidad de que ninguna baile con su pareja. 15. *Cuatro ciudades (1,2,3 y 4) están interconectadas, un transportista realiza viajes de manera que: a) La probabilidad de ir de la ciudad 1 a la i (i=1, 2, 3, 4) es .d (1, i ), y d(1,i)=|i-1| y la suma de estas probabilidades es 1. b) La probabilidad de ir de la ciudad 2 a la j (j=1, 2, 3,4) es .d (2, j ), y d(2,j)=|j-2| y la suma de estas probabilidades es 1. c) La probabilidad de ir de la ciudad 3 a la k (k=1, 2, 3, 4) es .d (3, k ), y d(3,k)=|k-3| y la suma de estas probabilidades es 1. Si el transportista sale de la ciudad 1, ¿Cuál es la probabilidad de llegar por primera vez a la ciudad 4 sin haber regresado a la ciudad de partida? 16. El profesor Pérez olvida poner su despertador 3 de cada 10 días. Además, ha comprobado que uno de cada 10 días en los que pone el despertador acaba no levandandose a tiempo de dar su primera clase, mientras que 2 de cada 10 días en los que olvida poner el despertador, llega a tiempo a dar su primera clase. a) ¿Cuál es la probabilidad de que el profesor Pérez llegue a tiempo a dar su primera clase? b) Si un día no ha llegado a tiempo, ¿qué probabilidad hay de que olvidase poner el despertador la noche anterior? 17. Un banco local revisa su política de tarjetas de crédito, con el objetivo de cancelar algunas de ellas. En el pasado, el 5% de los clientes con tarjeta ha pasado a ser moroso, esto es ha dejado de pagar sin que el banco pudiera recuperar la deuda. Además, el banco ha comprobado que la probabilidad de que un cliente normal se atrase en un pago es de 0.2. Naturalmente, la probabilidad de que un cliente moroso se atrase en un pago es 1. a) Elegido un clienta al azar, ¿qué probabilidad hay de que el cliente se atrase en un pago mensual? b) Si un cliente se atrasa en un pago mensual, calcular la probabilidad de que el cliente acabe convirtiéndose en moroso. c) Al banco le gustaría cancelar la línea de crédito de un cliente si la probabilidad de que éste acabe convirtiéndose en moroso es mayor de 0.25. De acuerdo con los resultados anteriores, ¿debe cancelar una línea si un cliente se atrasa en un pago? ¿Por qué? 18. *En un pueblo de n + 1 habitantes, una persona le rumorea algo a una segunda persona, quien lo repite a una tercera, etc. En cada paso se elige aleatoriamente al receptor del rumor de entre n personas. Encontrar la probabilidad de que el rumor pase r veces sin: a) Regresar al que lo originó y b) Repetírsele a una persona. 154 Capítulo 8. Variables aleatorias y distribuciones de probabilidad 8.1. Nociones básicas Para introducir el concepto de variable aleatoria, veamos primero algunos ejemplos, al arrojar dos dados, sabemos que la suma X de los puntos que caen hacia arriba debe ser un número entero entre 2 y 12, pero no podemos predecir que valor de X aparecerá en el siguiente ensayo, por lo que decimos que X depende del azar, por lo tanto es una variable aleatoria que toma valores entre 2 y 12. El tiempo de vida de un foco que se extrae aleatoriamente de un lote de focos depende también del azar, este constituye otro ejemplo de una variable aleatoria que varía entre el tiempo 0 y un valor indeterminado, ya que no sabemos exactamente cuánto tiempo va durar. El número de varones de una familia con 5 hijos también es una variable aleatoria que varía de 0 a 5, ya que en una familia de cinco hijos puede que no haya ningún varón, uno, dos, tres, cuatro o cinco varones. Si las observaciones no se dan en términos numéricos, podemos asignarles números y reducir las observaciones cualitativas al caso cuantitativo; así tenemos que la función que asigna valores numéricos a cada uno de los elementos del espacio muestra con una probabilidad definida, se denomina "variable aleatoria". Por ejemplo, si se lanza una moneda 3 veces, el número de águilas X es una variable aleatoria que toma los valores 0, 1, 2, ó 3; es decir puede que ninguna vez, una sola, dos o tres veces salga águila como resultado; la probabilidad de que (dos águilas) es 3/8 ya que el espacio muestra S={aaa, aas, asa, ass, sas, ssa, saa, sss}. Y de estos ocho resultados hay tres en los cuales hay dos águilas. Con esto podemos ver que el espacio muestral es el dominio de la función y el conjunto de valores que la variable puede tomar es el rango o recorrido de la función, que es un subconjunto de los reales . Fig.3.1. Variable aleatoria Si el conjunto de valores de X es un conjunto finito o infinito numerable, es decir, si se pueden enlistar o enumerar, se dice que la variable aleatoria es discreta, y si el conjunto de valores de X es no numerable, la variable aleatoria se llama variable aleatoria continua. Son ejemplos de variables aleatorias continuas: la estatura, el peso, la edad, el volumen, el pH, etc. Algunos ejemplos de variables discretas aleatorias son: el número de alumnos que asisten diariamente durante un semestre, el número de accidentes automovilísticos en una ciudad por día, el número de piezas defectuosas por lote, el número de alumnos aprobados por grupo en un examen, etc. 155 Una variable aleatoria X es una función cuyo dominio es el espacio muestral S y cuyo rango es un subconjunto de los números reales que tiene asociada a su conjunto de valores una función de probabilidad. Matemáticamente, decimos: Dado un espacio de probabilidad ( , ,Pr), una variable aleatoria es cualquier función, X, X : w X ( w) que asocia a cada suceso elemental un número real, verificando que PrX ( B) Pr[ X B] Pr w / X (w) B B El conjunto S es el espacio muestral y es la colección de todos los subconjuntos de . Identificación de una variable aleatoria discreta X: es preciso conocer el conjunto de los posibles resultados de X: {x1, x2, …,xk, …}, donde los xi no necesariamente son todos enteros, pero si se pueden contar o numerar. El conjunto de las probabilidades siguientes: p1 = P(X = x1) p2 = P(X = x2) ... Pk = P(X = xk) ... Propiedades importantes de la función de probabilidad: a) pi ≥0 para todo i b) ∑pi = 1 para todo i La representación gráfica de la función de probabilidad de una variable aleatoria discreta es análoga al diagrama de barras de frecuencias relativas de una variable estadística discreta. La función de distribución de una variable aleatoria discreta X es: FX (t ) P( X t ) Pr( xi ) para todo t xi t La representación gráfica de la función de distribución de una variable aleatoria discreta es análoga al gráfico de frecuencias relativas acumuladas de una variable estadística discreta. La media de una variable aleatoria discreta X es: µ = E(X) = ∑xi pi , para todo i. La varianza de una variable aleatoria discreta X es: σ2= Var(X) = ∑(xi-µ)2pi, para todo i La desviación típica de una variable aleatoria discreta X es: σ = (Var(X))1/2 156 Ejemplo 8.1. Supongamos que la Secretaría del Medio Ambiente inspecciona una vez al mes la cantidad de un contaminante que descarga una compañía de productos químicos. Si la cantidad del contaminante excede el nivel máximo permitido, se multa a la compañía y se le obliga a corregir el problema. Consideremos las siguientes dos variables aleatorias asociadas a este problema: Primero digamos que X es el número de meses antes de que la compañía excede los límites permitidos del contaminante. Esta variable toma valores 1, 2, 3, … pero no conocemos donde termina, ya que quizás nunca exceda estos límites permitidos, por lo tanto, el conjunto de valores de X es el conjunto de los números enteros positivos. Como podemos enlistar o numerar el conjunto (es un conjunto numerable) de valores de la variable X, decimos que la variable aleatoria X es una variable aleatoria discreta. Ejemplo 8.2. Supongamos que nos interesamos por el número de varones X en el experimento de observar al azar dos niños recién nacidos (Sea H = hombre y M = mujer). Entonces, el espacio muestra, los valores de la variable aleatoria X que cuenta el número de varones y su función de probabilidad se dan en la siguiente tabla: S Valores de X: xi MM 0 MH , HM 1 HH 2 Ejemplo 8.3. Sea X la variable aleatoria que indica la suma de los puntos en las caras superiores al lanzar dos dados, Determine el espacio muestral, el conjunto de valores de X y las probabilidades respectivas. Solución: El espacio muestral S es el conjunto de los 36 pares ordenados que se indican a continuación: 157 Este conjunto se puede visualizar como el conjunto de puntos del plano cartesiano que se muestra a continuación Fig. 3.2 Diagrama del Espacio Muestral del lanzamiento de dos dados La variable aleatoria es la suma de los elementos de cada par, por lo tanto, toma los valores del 2 al 12, indican en la siguiente tabla: y las probabilidades para cada uno de los valores de la variable se S Valores de X : xi (1,1) 2 (1,2) (2,1) 3 (1,3) (3,1) (2,2) 4 (1,4) (4,1) (2,3) (3,2) 5 (1,5) (5,1) (2,4) (4,2) (3,3) 6 (1,6) (6,1) (2,5) (5,2) (3,4) (4,3) 7 (2,6) (6,2) (3,5) (5,3) (4,4) 8 (3,6) (6,3) (4,5) (5,4) 9 (4,6) (6,4) (5,5) 10 (5,6) (6,5) 11 (6,6) 12 Total: 158 La gráfica de líneas para este ejemplo es: Fig. 3.3. Gráfico de probabilidad 8.2. Distribución de probabilidad binomial La distribución binomial es típica de las variables que proceden de un experimento que cumple las siguientes condiciones: 1) El experimento está compuesto de n pruebas iguales, siendo n un número natural fijo. 2) Cada prueba resulta en un suceso que cumple las propiedades de la variable binómica o de Bernouilli, es decir, sólo existen dos posibles resultados, mutuamente excluyentes, que se denominan generalmente como éxito y fracaso. 3) La probabilidad del éxito (o del fracaso) es constante en todas las pruebas. P(éxito) = p ; P(fracaso) = 1 - p = q 4) Las pruebas son estadísticamente independientes. En estas condiciones, la variable aleatoria X que cuenta el número de éxitos en las n pruebas se llama variable binomial. Evidentemente, el espacio muestral está compuesto por los números enteros del 0 al n. Se suele decir que una variable binómica cuenta objetos de un tipo determinado en un muestreo de n elementos con reemplazamiento. La función de probabilidad de la variable binomial se representa como b(x,n,p) siendo n el número de pruebas y p la probabilidad del éxito, n y p son los parámetros de la distribución. 159 La función de probabilidad de una variable Binomial es: La media y la varianza de la variable binomial se calculan como: Media = μ = n p (verificarla) Varianza = σ2 = n p q (verificarla) Gráficamente el aspecto de la distribución depende de n y de p. Por ejemplo, si p=0.5 y n cualquiera es simétrica; si p n es 0.5, la binomial no es siméttrica. El siguiente gráfico lo ilustra para n=4. ASPECTO DE LA BINOMIAL PARA n=4 Y p=0.5 Y p=0.25. Fig. 3.4. Gráficos de probabilidad binomial. Ejemplo 8.4. Se sabe que el 5% de los libros que se prestan en una biblioteca escolar se devuelven con retraso. Se realiza el experimento que consiste en observar si la devolución de 5 libros se hacen con retraso o no. a) Determinar la función de probabilidad y hacer su representación gráfica. b) Calcular la función de distribución y hacer su representación gráfica. c) Hallar la media y la varianza. Solución: X= Variable aleatoria = Número de devoluciones con retrazo. X=0,1,2,3,4,5. a) El Modelo o función de probabilidad es 5 b( x, n 5, p 0.05) 0.04 x (1 0.05)5 x , x 0,1, 2,3, 4,5 x 160 0, t 0 0.7738, 0 t 1 0.9774, 1 t 2 b) FX (t ) 0.9988, 2 t 3 1 , 3t 4 , 4t5 1 1 , t5 Gráfico de la función de distribución Fig. 3.5. Gráfico de la Función de distribución c) E[ X ] np 5(0.05) 0.25 2 V [ X ] npq 5(0.05)(0.95) 0.2375 8.3. Distribución de Poisson Una variable de tipo Poisson cuenta éxitos (es decir, objetos de un tipo determinado) que ocurren en una región del espacio o del tiempo. En este tipo de experimentos los éxitos buscados son expresados por unidad de área, tiempo, pieza, etc, etc. Ejemplos: - Número de defectos de una tela por m2 - Número de aviones que aterrizan en un aeropuerto por día, hora, minuto, etc, etc. - Número de bacterias por cm2 de cultivo - Número de llamadas telefónicas a un conmutador por hora, minuto, etc, etc. - Número de llegadas de embarcaciones a un puerto por día, mes, etc, etc. 161 El experimento que la genera debe cumplir las siguientes condiciones: 1. El número de éxitos que ocurren en cada región del tiempo o del espacio es independiente de lo que ocurra en cualquier otro tiempo o espacio disjunto del anterior. 2. La probabilidad de un éxito en un tiempo o espacio pequeño es proporcional al tamaño de este y no depende de lo que ocurra fuera de él. 3. La probabilidad de encontrar uno o más ‘éxitos en una región del tiempo o del espacio tiende a cero a medida que se reducen las dimensiones de la región en estudio. Como consecuencia de estas condiciones, las variables Poisson típicas son variables en las que se cuentan sucesos raros. La función de probabilidad de una variable Poisson es: El parámetro de la distribución es λ que es igual a la media y a la varianza de la variable. µ=E[X]= λ σ2=V[X]= λ (verificarlo) (verificarlo) La distribución de Poisson se puede considerar como el límite al que tiende la distribución binomial cuando n tiende a y p tiende a 0, siendo np constante (y menor que 7); en esta situación sería difícil calcular probabilidades en una variable binomial y, por tanto, se utiliza una aproximación a través de una variable Poisson con media np . La varianza de la variable aproximada es ligeramente superior a la de la variable binomial Las variables Poisson cumplen la propiedad de que la suma de variables Poisson independientes es otra Poisson con media igual a la suma las medias. El aspecto de la distribución depende muchísimo de la magnitud de la media. Como ejemplo, mostramos tres casos con λ = 0,5 (arriba a la izquierda), λ = 1,5 (arriba a la derecha) y λ = 5 (abajo) Obsérvese que la asimetría de la distribución disminuye al crecer λ y que, en paralelo, la gráfica empieza a tener un aspecto acampanado. 162 Fig. 3.6. Gráficos de probabilidad de Poisson. Ejemplos: Ejemplo 8.5. Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las probabilidades de que reciba, a) cuatro cheques sin fondo en un día dado, b) 10 cheques sin fondos en cualquiera de dos días consecutivos? Solución: a) x = variable que nos define el número de cheques sin fondo que llegan al banco en un día cualquiera = 0, 1, 2, 3, ....., etc, etc. = 6 cheques sin fondo por día p( x 4, 6 ) ( 6 )4 ( 2.718 )6 ( 1296 )( 0.00248 ) 0.13392 4! 24 b) x= variable que nos define el número de cheques sin fondo que llegan al banco en dos días consecutivos = 0, 1, 2, 3, ......, etc., etc. = 6 x 2 = 12 cheques sin fondo en promedio que llegan al banco en dos días consecutivos 163 Nota: siempre debe de estar en función de x siempre o dicho de otra forma, debe “hablar” de lo mismo que x. p( x 10, 12 ) ( 12 )10( 2.718 )12 ( 6.191736410 )( 0.000006151 ) 0.104953 10! 3628800 Ejemplo 8.6. En la inspección de hojalata producida por un proceso electrolítico continuo, se identifican 0.2 imperfecciones en promedio por minuto. Determine las probabilidades de identificar a) una imperfección en 3 minutos, b) al menos dos imperfecciones en 5 minutos, c) cuando más una imperfección en 15 minutos. Solución: a) x = variable que nos define el número de imperfecciones en la hojalata por cada 3 minutos = 0, 1, 2, 3, ...., etc., etc. = 0.2 x 3 =0.6 imperfecciones en promedio por cada 3 minutos en la hojalata ( 0.6 )1( 2.718 )0.6 ( 0.6 )( 0.548845 ) p( x 1, 0.6 ) 0.329307 1! 1 b) x = variable que nos define el número de imperfecciones en la hojalata por cada 5 minutos = 0, 1, 2, 3, ...., etc., etc. = 0.2 x 5 =1 imperfección en promedio por cada 5 minutos en la hojalata ( 1 )0 ( 2.718 )1 ( 1 )( 2.718 )1 p( x 2,3,4,etc.... 1 ) 1 p( x 0,1, 1 ) 1 0! 1! =1-(0.367918+0.367918) = 0.26416 c) x = variable que nos define el número de imperfecciones en la hojalata por cada 15 minutos = 0, 1, 2, 3, ....., etc., etc. = 0.2 x 15 = 3 imperfecciones en promedio por cada 15 minutos en la hojalata p( x 0,1, 3 ) p( x 0, 3 ) p( x 1, 3 ) ( 3 )0 ( 2.718 )3 ( 3 )1( 2.718 )3 0! 1! = 0.0498026 + 0.149408 = 0.1992106 164 8.4. Distribución geométrica Esta distribución es un caso especial de la Binomial, ya que se desea que ocurra un éxito por primera y única vez en el último ensayo que se realiza del experimento, para obtener la fórmula de esta distribución, haremos uso de un ejemplo. Ejemplo 8.7. Se lanza al aire una moneda cargada 8 veces, de tal manera que la probabilidad de que aparezca águila es de 2/3, mientras que la probabilidad de que aparezca sello es de 1/3, Determine la probabilidad de que en el último lanzamiento aparezca una águila. Solución: Si nosotros trazamos un diagrama de árbol que nos represente los 8 lanzamientos de la moneda, observaremos que la única rama de ese árbol que nos interesa es aquella en donde aparecen 7 sellos seguidos y por último una águila; como se muestra a continuación: SSSSSSSA Sí denotamos; x = el número de repeticiones del experimento necesarias para que ocurra un éxito por primera y única vez = 8 lanzamientos p = probabilidad de que aparezca una águila = p( éxito) = 2/3 q = probabilidad de que aparezca un sello = p(fracaso) = 1/3 Entonces la probabilidad buscada sería; P(aparezca una águila en el último lanzamiento)=p(S)*p(S)*p(S)*p(S)*p(S)*p(S)*p(S)*p(A) = =q*q*q*q*q*q*q*p = qx-1p Luego, la fórmula a utilizar cuando se desee calcular probabilidades con esta distribución sería; p( x) q x 1 p Donde: p(x) = probabilidad de que ocurra un éxito en el ensayo x por primera y única vez p = probabilidad de éxito q 1 p = probabilidad de fracaso 165 Resolviendo el problema de ejemplo; x = 8 lanzamientos necesarios para que aparezca por primera vez una águila p = 2/3 probabilidad de que aparezca una águila q = 1/3 probabilidad de que aparezca un sello p(x=8) = (1/3)8–1(2/3)= 0.0003048 Ejemplo 8.8. Sí la probabilidad de que un cierto dispositivo de medición muestre una desviación excesiva es de 0.05, ¿cuál es la probabilidad de que; a) el sexto de estos dispositivos de medición sometidos a prueba sea el primero en mostrar una desviación excesiva?, b) el séptimo de estos dispositivos de medición sometidos a prueba, sea el primero que no muestre una desviación excesiva?. Solución: a) x = 6 que el sexto dispositivo de medición probado sea el primero que muestre una variación excesiva p = 0.05 =probabilidad de que un dispositivo de medición muestre una variación excesiva q = 0.95 =probabilidad de que un dispositivo de medición no muestre una variación excesiva p(x = 6) = (0.95)6–1(0.05)= 0.03869 b) x = 7 que el séptimo dispositivo de medición probado, sea el primero que no muestre una desviación excesiva p = 0.95 = probabilidad de que un dispositivo de medición no muestre una variación excesiva q = 0.05 = probabilidad de que un dispositivo de medición muestre una variación excesiva p(x = 7) = (0.05)7–1(0.95)= 0.0000000148 8.5. Distribución hipergeométrica Una variable tiene distribución hipergeométrica si procede de un experimento que cumple las siguientes condiciones: 166 Se toma una muestra de tamaño n, sin reemplazamiento, de un conjunto finito de N objetos. 2) K de los N objetos se pueden clasificar como éxitos y N - K como fracasos. X cuenta el número de éxitos obtenidos en la muestra. Los valores de X en el espacio muestral es el conjunto de los números enteros de 0 a n, ó de 0 a K si K < n. En este caso, la probabilidad del éxito en pruebas sucesivas no es constante pues depende del resultado de las pruebas anteriores. Por tanto, las pruebas no son independientes entre sí. La función de probabilidad de la variable hipergeométrica es: 1) Los parámetros de la distribución son n, N y K. n n! Notacion: n Cr . r ! n r ! r Los valores de la media y la varianza se calculan según las ecuaciones: (verificarlas) Si n es pequeño, con relación a N (n << N), la probabilidad de un éxito varia muy poco de una prueba a otra, así pues, la variable, en este caso, es esencialmente binomial; en esta situación, N suele ser muy grande y los números combinatorios se vuelven prácticamente inmanejables, así pues, la probabilidades se calculan más cómodamente aproximando por las ecuaciones de una binomial con p = K / N. La media de la variable aproximada (μ = n p = n (K / N)) es la misma que la de la variable antes de la aproximación; sin embargo, la varianza de la variable binomial es ligeramente superior a la de la hipergeométrica. el factor por el que difieren ser siempre menor que 1 y tan próximo a 1 como cierto sea que n << N. 167 El aspecto de la distribución es bastante similar al de la binomial. Como ejemplo, mostramos los casos análogos a los de la binomial presentados anteriores. Fig.3.7. Gráficos de probabilidad hipergeométrica Ejemplo 8.9. Para evitar que lo descubran en la aduana, un viajero ha colocado 6 tabletas de narcótico en una botella que contiene 9 píldoras de vitamina que son similares en apariencia. Si el oficial de la aduana selecciona 3 tabletas aleatoriamente para analizarlas, a) ¿Cuál es la probabilidad de que el viajero sea arrestado por posesión de narcóticos?, b) ¿Cuál es la probabilidad de que no sea arrestado por posesión de narcóticos?. Solución: a) N = 9+6 =15 total de tabletas a = 6 tabletas de narcótico n = 3 tabletas seleccionadas x = 0, 1, 2, o 3 tabletas de narcótico = variable que nos indica el número de tabletas de narcótico que se puede encontrar al seleccionar las 3 tabletas p(viajero sea arrestado por posesión de narcóticos) = p(de que entre las 3 tabletas seleccionadas haya 1 o más tabletas de narcótico) p( x 1,2ó3tabletas; n 3 ) 6 C1* 9 C2 6 C2* 9 C1 6 C3* 9 C0 15 C3 15 C3 15 C3 ( 6 )( 36 ) ( 15 )( 9 ) ( 20 )( 1 ) 216 135 20 371 0.81538 455 455 455 455 455 otra forma de resolver; p(el viajero sea arrestado por posesión de narcóticos) = 1 – p(de que entre las tabletas seleccionadas no haya una sola de narcótico) 1 p( x 0; n 3 ) 1 1 6 C0* 9 C3 15 C3 ( 1 )( 84 ) 0.184615 0.815385 455 168 b) p(no sea arrestado por posesión de narcóticos) p( x 0; n 3 ) 6 C0* 9 C3 15 C3 ( 1 )( 84 ) 0.184615 455 Ejemplo 8.10. De un lote de 10 proyectiles, 4 se seleccionan al azar y se disparan. Si el lote contiene 3 proyectiles defectuosos que no explotarán, ¿cuál es la probabilidad de que , a) los 4 exploten?, b) al menos 2 no exploten? Solución: a) N = 10 proyectiles en total a = 7 proyectiles que explotan n = 4 proyectiles seleccionados x = 0, 1, 2, 3 o 4 proyectiles que explotan = variable que nos define el número de proyectiles que explotan entre la muestra que se dispara p( x 4; n 4 ) 7 C4* 3 C0 ( 35 )( 1 ) 35 0.16667 C 210 210 10 4 b) N = 10 proyectiles en total a = 3 proyectiles que no explotan n = 4 proyectiles seleccionados x = 0, 1, 2 o 3 proyectiles que no explotan p(al menos 2 no exploten) = p( 2 o más proyectiles no exploten) = p(x = 2 o 3; n=4) = 3 C2* 7 C2 3 C3* 7 C1 ( 3 )( 21 ) ( 1 )( 7 ) 63 7 70 0.333333 C 210 210 210 10 4 8.6. Densidad uniforme La función de densidad de probabilidad de una variable aleatoria con distribución uniforme continua se denota por X U (a, b) y su función de densidad es: 169 Su gráfico es: Tiene las siguientes propiedades: 1. f ( x) 0 x 2. Toda el área entre f ( x) y el eje x es 1 La probabilidad de un intervalo [a,x] con x (a, b] , se puede calcular sin usar la integral: 1 ba a x b es el área del rectángulo de base x-a y altura y altura 1 entre el área de todo el rectángulo de base b-a ba 1 . Este hecho se puede usar para calcular la función de distribución. ba La función de distribución de probabilidad es: 170 La gráfica de la función de distribución es: El valor esperado de la X U (a, b) es: b a E[ X ] xf ( x)dx x Pero b a xdx 1 1 b dx xdx a ba ba es el área comprendida entre la función g ( x ) x en el intervalo de [a,b] f(x) B A a b 171 el cual es un trapecio, cuya área es A B ab H (b a ) ; por tanto 2 2 E[ X ] ab 2 (b a)2 V[X ] 12 Ejemplo 8.11. Un meteorólogo hace una medición del tiempo al azar, suponiendo que está distribuida uniformemente en el intervalo [1, 4]. A) Calcule la probabilidad de que la medición este entre 5/2 y 3. b) Si se realizan 6 mediciones independientes, hallar la probabilidad de que exactamente 3 de ellas estén entre 2 y 3. 8.7. Densidad normal o de Gauss La distribución normal fue definida por De Moivre en 1733 y es la distribución de mayor importancia en el campo de la estadística. Una variable es normal cuando se ajusta a la ley de los grandes números, es decir, cuando sus valores son el resultado de medir reiteradamente una magnitud sobre la que influyen infinitas causas de efecto infinitesimal. Las variables normales tienen una función de densidad con forma de campana a la que se llama campana de Gauss. Su función de densidad es la siguiente: Cuando una variable aleatoria X es de densidad normal con media E[ X ] y varianza 2 V [ X ] la denotamos por X N ( , 2 ) Los parámetros de la distribución son la media y la varianza, μ y σ2, respectivamente. Como consecuencia, en una variable normal, media y varianza no deben estar correlacionadas en ningún caso (como desgraciadamente ocurre en la inmensa mayoría de las variables aleatorias reales que se asemejan a la normal. La curva normal cumple las siguientes propiedades: 1) El máximo de la curva coincide con la media. 2) Es perfectamente simétrica respecto a la media (g1 = 0). 3) La curva tiene dos puntos de inflexión situados a una desviación típica de la media. Es convexa entre ambos puntos de inflexión y cóncava en ambas colas. 172 4) Sus colas son asintóticas al eje X. Para calcular probabilidades en intervalos de valores de la variable, habría que integrar la función de densidad entre los extremos del intervalo. por desgracia (o por suerte), la función de densidad normal no tiene primitiva, es decir, no se puede integrar. Por ello la única solución es referirse a tablas de la función de distribución de la variable (calculadas por integración numérica) Estas tablas tendrían que ser de triple entrada (μ, σ, valor) y el asunto tendría una complejidad enorme. Afortunadamente, cualquier que sea la variable normal, X, se puede establecer una correspondencia de sus valores con los de otra variable con distribución normal, media 0 y varianza 1, a la que se llama variable normal tipificada o Z. La equivalencia entre ambas variables se obtiene mediante la ecuación: y P( x1 X x2 ) P( z1 Z z2 ) , donde z1 x1 y z2 x2 173 La gráfica de la densidad de Z es la que se muestra en el siguiente gráfico para 2 1 La función de distribución de la variable normal tipificada Z está tabulada y, simplemente, consultando en las tablas se pueden calcular probabilidades en cualquier intervalo que nos interese. De forma análoga a lo que pasaba con las variables Poisson, la suma de variables normales independientes es otra normal. Los histogramas que deben esperarse para una variable normal son: Histograma de una normal idealizada Histograma de una muestra de una variable normal Ej em pl os : Ejemplo 8.12. S i X e s una v ari abl e al e a t ori a de una di st ri buci ón N(µ , σ ), hal l ar: P (µ −3σ ≤ X ≤ µ +3σ) 174 S ol uci ón: P( 3 X 3 ) P(3 Z 3) 0.9974 Ejemplo 3.13. En una di st ri buci ón norm a l de m edi a 4 y d esvi aci ón t í pi ca 2, cal cul ar el val or de a para qu e P (4− a ≤ x ≤ 4+a) = 0.5934. S ol uci ón: P( x1 X x2 ) P( z1 Z z2 ) 0.5934, donde z1 x1 y z2 x2 y x1 4 a y x2 4 a P or t ant o: 4a4 4a4 y z2 2 2 a a z1 y z2 2 2 z1 C om o Z 2 =0.83, por t ant o a 1.66 . 8.8. Aproximación de la binomial por medio de la normal S i una vari abl e al eat ori a es X b( x, n, p ) con n grande, entonces, esta se puede aproximar por una X N ( np, 2 np(1 p)) Las probabilidades puntuales se calculan ocupando la corrección de continuidad: Pb ( X x) PN ( x 0.5 X x 0.5) 8.9. Ejercicios. 1 . En una ci udad se es t i m a que l a t em pera t ura m áx i m a en el m es de j uni o s i gue un a di st ri buc i ón norm al , con m e di a 23° y desvi a ci ón t í pi ca 5°. C al cul ar el núm ero de dí as del m es en l os que se esp era al canz ar m áx i m as ent re 21° y 27°. 2 . La m edi a de l os p e sos de 500 est udi an t es de un col e gi o e s 70 kg y l a d es vi aci ón t í pi ca 3 kg. S uponi endo que l os pesos s e di st ri bu ye n norm al m ent e, hal l ar cuánt os est udi ant es pesan: 175 a. Ent re 60 k g y 75 kg. b . M ás de 90 k g. c. M enos de 64 k g. d . 64 kg. e. 64 kg o menos. 3 . Se supone que los resultados de un examen siguen una distribución normal con media 78 y varianza 36. Se pide: a. ¿ C uál es l a prob abi l i dad de qu e una persona que s e pr e sent a el ex am en obt enga una c al i fi ca ci ón superi or a 72? b . C al cul ar l a proporci ón de est udi ant es que t i enen punt uaci ones que ex ceden por l o m e nos e n ci nco punt os de l a punt uaci ó n que m arc a l a front era ent r e el Ap t o y el No -Apt o (son decl ar ados No - Apt os el 25% de l os es t udi ant es que obt u vi eron l as punt uaci o nes m ás baj as). c. Si se sabe que la calificación de un estudiante es mayor que 72 ¿cuál es la probabilidad de que su calificación sea, de hecho, superior a 84? 4 . Tras un t est de cul t ura gen eral se observa que l as punt uaci ones obt eni das si gu en un a di st ri buci ón una d i st ri buci ón N(65, 1 8). S e des ea cl as i fi car a l os ex am i nados en t res gru pos (de baj a cul t ura gen eral , de cul t ura gener al ace pt abl e, de ex cel ent e cul t ura gener al ) de m odo que ha y en el pri m ero u n 20% l a pobl aci ón, un 65% el segundo y un 15% en el t ercero. ¿ C uál es han de ser l as punt uaci ones que m ar ca n el paso de un grupo al ot ro? 5 . Varios test de inteligencia dieron una puntuación que sigue una ley normal con media 100 y desviación típica 15. a. Det e rm i nar el po r cent aj e d e pobl aci ó n que obt endrí a un coefi ci ent e ent r e 95 y 110. b . ¿ Qué i nt erval o ce nt rado en 100 cont i e ne al 50% de l a pobl aci ón? c. En un a pobl a ci ón de 2500 i ndi vi duos ¿ cuánt os i ndi vi duos se esp eran que t engan un coe fi ci ent e superi or a 125? 176 6 . En una ci ud ad una de cad a t r es f am i l i as posee t el éfono. S i se el i gen al az ar 90 fam i l i as, ca l cul ar l a probabi l i dad de que ent re el l a s ha ya po r l o m enos 30 t engan t el éfono. 7 . En un ex am en t i po t est de 200 pre gu nt as de el ec ci ón m úl t i pl e, cada pre gunt a t i ene una r espuest a cor rect a y una i ncorre ct a. S e a prueba si s e cont est a a m ás de 1 10 respuest as co rre c t as. S uponi endo que se cont es t a al az ar, cal cul ar l a p robabi l i dad de ap ro bar el ex am en. 8 . Un es t udi o ha m ost r ado que, en un ci ert o barri o, el 60% d e l os hoga res t i enen al m enos do s t el evi sores S e el i ge al az ar un a m uest ra de 50 hoga res en el ci t ado barri o. S e pi de: a. ¿ C uál es l a pro babi l i dad de que a l m enos 20 de l os ci t ados hogares t engan cuando m eno s dos t el evi sores? b . ¿ C uál es l a probabi l i dad de que ent re 35 y 40 ho gares t engan cuando m enos dos t el evi sores? 177 Capítulo 9. Estimación de Parámetros. 9.1. Distribución de la medida de la muestra. Distribución muestral de distribución normal. : muestreo a partir de poblaciones que siguen una Cuando el muestreo se realiza a partir de una población que sigue una distribución normal, la distribución de la medida de la muestra tiene las siguientes propiedades: 1. La distribución de será normal 2. La media , de la distribución de será igual a la medida de la población de la cual se seleccionaron las muestras. 3. La varianza, , de la distribución de será igual a la varianza de la población dividida entre el tamaño de la muestra. Teorema del límite central. Dada una población de cualquier forma funcional no normal con una media y varianza finita , la distribución muestral de , calculada a partir de muestras de tamaño n de dicha población, será casi normal con media y varianza , cuando la muestra es muy grande. Observe que el teorema del límite central permite tomar muestras a partir de poblaciones con distribución no normal y garantizar que se obtengan aproximadamente los mismos resultados que si la población tuviera una distribución normal, siempre que se tome una muestra muy grande. Ejemplo Suponga que en una población grande de seres humanos, la dimensión del diámetro craneal sigue una distribución aproximadamente normal, con una media de 185.6 mm y una desviación estándar de 12.7 mm. ¿Cuál es la probabilidad de que una muestra aleatoria de tamaño 10 de esta población tenga una media mayor que 190? Solución Cuando se dice que la población sigue una distribución aproximadamente normal, se supone que la distribución muestral de sigue, para fines prácticos, una distribución normal. También se sabe que la media y la desviación estándar de la distribución muestral son iguales a 185.6 y , respectivamente. 178 Se obtiene la siguiente fórmula para transformar la distribución normal de normal estándar: en la distribución La probabilidad que responde a la pregunta formulada se representa en el área a la derecha de de bajo la curva de la distribución muestral. Esta área es igual al área de la derecha de: Al consultar la tabla normal estándar, se encuentra que el área a la derecha de 1.10 es 0.1357; por lo tanto, se puede decir que la probabilidad de que la muestra de tamaño tenga una media mayor que 190 es 0.1357. Ejemplo: Si la media y desviación estándar de la concentración de hierro en el suero en hombres sanos es de 120 y 15 microgramos por cada 100 ml, respectivamente, ¿cuál es la probabilidad de que una muestra aleatoria de 50 hombres normales tenga una media entre 115 y 125 microgramos por cada 100 ml. 179 Solución: La probabilidad buscada es: Ejercicios: 1. La National Health and Nutrition Examination Survey de 1976-1980 en una investigación encontró que los niveles de colesterol en individuos varones, estadounidenses, con edades entre 20-74 años, fue de 211. La desviación estándar fue de aproximadamente de 90. Considere la distribución muestral de la media de la muestra basada en muestras de tamaño 50 extraídas de esta población de individuos varones. ¿Cuál es la media de la distribución muestral y el error estándar? 2. Si las concentraciones de ácido úrico en hombres adultos normales siguen una distribución aproximadamente normal, con una media y desviación estándar de 5.7 y 1 mg por ciento, respectivamente, encuentre la probabilidad de que una muestra de tamaño 9 proporcione una media: i) Mayor que 6 ii) Entre 5 y 6 iii) Menor que 5.2 3. Para cierto sector amplio de la población en un año determinado, suponga que el número medio de días de incapacidad es de 5.4, con una desviación estándar de 2.8 días. Encuentre la probabilidad de que una muestra aleatoria de tamaño 49 de esa población tenga una media: i) Mayor a 6 días ii) Entre 4 y 6 días iii) Entre 4.5 y 5.5 días. 9.2. Distribución de la diferencia entre las medias de dos muestras. Con frecuencia, el interés en una investigación se dirige hacia dos poblaciones. Específicamente, puede ser que un investigador desee saber algo acerca de la diferencia entre las medias de dos poblaciones. En una investigación, por ejemplo, el investigador tal vez deseará saber si es razonable concluir que dos medias poblacionales son diferentes. En otra situación, es posible que el investigador quiera conocer la magnitud de la diferencia entre ellas. Un equipo de investigación médica, por ejemplo, quizá requiera saber si el nivel medio de colesterol en el suero es mayor en un grupo de oficinistas que en un grupo de obreros. Si los investigadores 180 concluyen que las medias de la población son diferentes, es posible que deseen saber qué tanto difieren. El conocimiento acerca de la distribución muestral de la diferencia entre dos medias es muy útil en investigaciones de este tipo. Ejemplo: Suponga que se tienen dos poblaciones de individuos. Una de ellas ( la población 1 ) ha experimentado alguna enfermedad que se considera está asociada con retraso mental, y la otra (la población 2) no ha experimentado tal enfermedad. Se cree que la distribución de calificaciones de inteligencia de cada una de las poblaciones presenta una distribución aproximadamente normal con una desviación estándar de 20. Suponga, también, que se toma una muestra de 15 individuos de cada población y se calcula en cada muestra la media de las calificaciones de inteligencia, con los siguientes resultados: y Si no hay diferencia entre las dos poblaciones con respecto a la media real de las calificaciones de inteligencia, ¿cuál es la probabilidad de observar una diferencia de esta magnitud ( o mayor entre las medias de las muestras? Solución: Para responder a esta pregunta es necesario conocer la naturaleza de la distribución muestral para la estadística principal, es decir, la diferencia entre las dos medias, . Es importante notar que se busca la probabilidad asociada con la diferencia entre las medias de dos muestras en lugar de una. Distribución muestral de : características. Lo que se pretende es calcular la distribución de la diferencia entre las medias de las muestras. Si se elabora una gráfica de las diferencias de las muestras contra sus frecuencias de ocurrencia, se podría obtener una distribución normal con una media igual a , la diferencia entre las medias reales de los dos grupos o poblaciones, y una varianza igual a . Esto es, el error estándar de la diferencia entre las medias sería igual a Para el ejemplo anterior habría una distribución normal con una media igual a 0 (si no hay diferencia entre las medias reales de la población) y una varianza de [(20)2/15]+ [(20)2/15]=53.33. 181 La gráfica de la distribución muestral se ilustra en la siguiente figura: Se sabe que la distribución normal descrita en el ejemplo se puede transformar en una distribución normal estándar mediante la modificación de una fórmula estudiada con anterioridad. La nueva fórmula es como sigue: El área bajo la curva de correspondiente a la probabilidad buscada es el área a la izquierda de . Suponiendo que no hay diferencia entre las medias de las poblaciones, el valor de z correspondiente a -13 es: Al consultar la tabla de la normal, se encuentra que el área bajo la curva normal estándar a la izquierda de -1.78 es igual a 0.0375. Para responder a la pregunta original, se puede decir que, si no hay diferencia entre las medias poblacionales, la probabilidad de obtener una diferencia mayor o igual que 13 entre las medias de las muestras es de 0.0375. Muestreo a partir de poblaciones normales. El procedimiento anterior es válido incluso cuando el tamaño de la muestras n1 y n2, son diferentes, y cuando las varianzas y , tienen valores diferentes. Los resultados teóricos sobre los que se basa este procedimiento, se resumen de la siguiente forma. Dadas dos poblaciones con una distribución normal, con medias , y varianzas y , la distribución muestral de la diferencia, entre las medias de muestras independientes de 182 tamaño n1 y n2 extraídas de esas poblaciones siguen una distribución normal con media y varianza . Muestreo a partir de poblaciones no normales. La mayoría de las veces el investigador se enfrenta a uno de los siguientes problemas: 1) la necesidad de extraer de una población con distribución no normal, o 2) extraer muestras de poblaciones cuya forma funcional se desconoce. Una solución para estos problemas consiste en tomar muestras grandes, dado que, cuando el tamaño de las muestras es muy grande, el teorema del límite central es aplicable y la distribución de la diferencia entre las dos medias de las muestras sigue una distribución aproximadamente normal, con una media igual a y una varianza . Para calcular probabilidades asociadas con los valores específicos de la estadística, el procedimiento es el mismo que el muestreo que se hace a partir de poblaciones con distribución normal. Ejemplo: Suponga que se estableció que para cierto tipo de pacientes el tiempo promedio de visita domiciliaria hecha por una enfermera es de 45 minutos con una desviación estándar de 15 minutos, y para un segundo tipo de paciente, el promedio de visita domiciliaria es de 30 minutos con una desviación estándar de 20 minutos. Si la enfermera visita al azar a 32 pacientes del primer tipo y 40 del segundo tipo, ¿cuál es la probabilidad de que el tiempo promedio de visita domiciliaria difiera entre los dos grupos por 20 minutos o más? Solución: No se menciona nada respecto a la forma funcional de las poblaciones, por lo que se supone que esta característica se desconoce, o que las poblaciones no presentan una distribución normal. Puesto que las muestras son grandes (mayores que 30) en ambos casos, se hace uso de los resultados del teorema del límite central. Se sabe que la diferencia entre las muestras sigue una distribución al menos aproximadamente normal con las siguientes media y varianza: El área bajo la curva de que se busca se encuentra a la derecha de 20. El valor correspondiente de z en la distribución normal estándar es: 183 En la tabla de la distribución normal se encuentra que el área a la derecha de z=1.23 es: 1-0.8907 =0.1093. por lo tanto, se puede decir que la probabilidad de que las visitas al azar de la enfermera difieren entre las dos medias por 20 o más minutos es de 0.1093. La curva de y la curva normal estándar correspondiente se muestran en la siguiente figura: 9.3. Distribución de la proporción de la muestra. En las secciones anteriores se estudiaron las distribuciones muestrales para estadísticas calculadas a partir de variables medidas. Sin embargo, frecuentemente se tiene interés en la distribución muestral de estadísticas, como la proporción de muestras, que resulta de los datos de conteo o frecuencias. Ejemplo: Suponga que una población de seres humanos, 0.08 son daltónicos. Si la proporción de la población se designa como , se puede decir para este ejemplo que . Si se eligen aleatoriamente 150 individuos de esa población, ¿cuál es la probabilidad de que la proporción en la muestra de individuos daltónicos sea igual a 0.15? 184 Solución: Para responder esta pregunta es necesario conocer algunas de las propiedades de la distribución muestral de la proporción de la muestra. Se designará la proporción de la muestra con el símbolo . Distribución muestral de : características. Cuando la muestra es grande, la distribución de las proporciones de la muestra es aproximadamente normal de acuerdo con el teorema del límite central. La media de la distribución , que es el promedio de todas las proporciones posibles de la muestra, es igual a la proporción real de la población , y la varianza de la distribución, es igual a o donde . Entonces para responder a las preguntas acerca de la probabilidad respecto a , se utiliza la siguiente fórmula: La pregunta que surge ahora es: ¿qué tan grande debe ser la muestra para que sea válido el uso de la aproximación normal? Un criterio ampliamente utilizado es que y deben ser mayores que 5, por lo que se seguirá dicha regla en el presente texto. Ahora se está en posibilidad de responder a la pregunta referente al daltonismo en la muestra de 150 individuos de una población en la cual 0.08 son daltónicos. Puesto que y son mayores que 5 (150x0.08=12 y 150x0.92=138), se puede decir que, en este caso, sigue una distribución aproximadamente normal con una media y . La probabilidad buscada es el área bajo la curva de a la derecha de 0.15. Esta área es igual al área bajo la curva normal estándar a la derecha de: La transformación para la distribución normal estándar se lleva a cabo de la manera usual: z se calcula al dividir el error estándar entre la diferencia de un valor de la estadística y su medida. Al utilizar la tabla de la distribución normal se tiene que el área a la derecha de es 10.9992= 0.0008. Por lo tanto, se puede decir que la probabilidad de observar en una muestra aleatoria de tamaño n=150 de una población en la que es 0.0008. De hecho, si se extrajera una muestra de este tipo, mucha gente la consideraría un evento extraño. 185 Ejercicios: 1. Una investigación realizada en 1990 por el National Center for Health Statistics, 19 por ciento de los encuestados mayores de 18 años, dijo no saber del virus VIH del SIDA. ¿Cuál es la probabilidad de que en una muestra de 175 individuos de esa población 25 por ciento o más no sepa de la existencia del SIDA? 2. Se sabe que 35 por ciento de los miembros de una población sufren de enfermedades crónicas. ¿Cuál es la probabilidad de que en una muestra aleatoria de 200 individuos 80 o más de ellos tengan al menos una enfermedad crónica? 9.4. Distribución de la diferencia entre las proporciones de dos muestras. Con frecuencia son de interés las proporciones de dos poblaciones y se desea averiguar la probabilidad asociada con la diferencia de las proporciones calculadas a partir de muestras extraídas de cada una de dichas poblaciones. La distribución muestral pertinente es la distribución de la diferencia entre las proporciones de dos muestras. Distribución muestral de de : características. Las características de esta distribución muestral se resumen como sigue: Si se extraen muestras aleatorias independientes de tamaño n1 y n2 de dos poblaciones de variables dicotómicas, donde las proporciones de las observaciones con la característica de interés en ambas poblaciones son , respectivamente, la distribución de la diferencia entre las proporciones de las muestras , es aproximadamente normal con una media de: Con varianza Cuando n1 y n2 son grandes. Se consideran a n1 y n2 suficientemente son mayores que 5. grandes cuando Para responder a preguntas respecto a la diferencia entre proporciones de dos muestras, se utiliza la siguiente fórmula: 186 Ejemplo: Suponga que la proporción de consumidores moderados a grandes consumidores de estupefacientes ilegales es de 0.50 para la población 1, en tanto que en la población 2 la proporción es de 0.33. ¿Cuál es la probabilidad de que muestras de tamaño 100, extraídas de cada una de las poblaciones, presente un valor de igual a 0.30? Solución: Se supone que la distribución muestral de de es aproximadamente normal, con una media Y varianza: El área correspondiente a la probabilidad buscada es la que se encuentra baja la curva de a la derecha de 0.30. Al transformar en la distribución normal estándar se obtiene Al consultar la tabla de la normal, se encuentra que el área bajo la curva normal estándar que está a la derecha de z=1.89 es 1-0.9706=0.0294. Por lo tanto, la probabilidad de observar una diferencia igual a 0.30 es de 0.0294. Ejemplo: Se sabe que en una población de adolescentes 10 por ciento de los varones son obesos. Si la misma proporción de mujeres en esa población son obesas, ¿cuál es la probabilidad de que una muestra al azar de 250 varones y 200 mujeres proporcione un valor de ? Solución: Se supone que la distribución muestral de es aproximadamente normal. Si la proporción de individuos obesos es la misma en ambas poblaciones, la media de la distribución es igual a 0 y la varianza es: 187 El área de interés bajo la curva de correspondiente de z es: es la que se encuentra a la derecha de 0.06. El valor Al consultar la tabla de la normal se encuentra que el área a la derecha de z=2.11 es 10.9826=0.0174. Ejercicios: 1. En una población de niños con retraso mental, se sabe que la proporción del os que son hiperactivos es de0.40. Se extrajo una muestra aleatoria de tamaño 120 de esa población, y otra de tamaño 100 a partir de otra población de niños con el mismo problema. Si la proporción de niños hiperactivos es la misma en ambas poblaciones, ¿cuál es la probabilidad de que la muestra presente como resultado una diferencia de 0.16 o más? 2. Se tienen bases para suponer que 40 por ciento de las casas en cierta área de la ciudad están en malas condiciones. Una muestra aleatoria de 75 casas de esa área y otra compuesta de 90 casas de otra sección dieron una diferencia . Si no hay diferencia en la proporción de casas en malas condiciones entre esas dos áreas, ¿cuál es la probabilidad de observar una diferencia de esta magnitud o mucho mayor? 9.5. Intervalos de confianza I- Concepto de Intervalo de Confianza (para una media, varianza conocida). En el contexto de estimar un parámetro poblacional, un intervalo de confianza es un rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parámetro, con una probabilidad determinada. La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo construido se denomina nivel de confianza, y se denota 1- . La probabilidad de equivocarnos se llama nivel de significancia y se simboliza . Generalmente se construyen intervalos con confianza 1=95% (o significancia =5%). Menos frecuentes son los intervalos con =10% ó =1%. Para construir un intervalo de confianza, se puede comprobar que la distribución Normal Estándar cumple: P(-1.96 < z < 1.96) = 0.95 188 (Lo anterior se puede comprobar con una tabla de probabilidades o un programa computacional que calcule probabilidades normales). Luego, si una variable X tiene distribución N( , Despejando ), entonces el 95% de las veces se cumple: en la ecuación se tiene: El resultado es un intervalo que incluye al el 95% de las veces. Es decir, es un intervalo de confianza al 95% para la media cuando la variable X es normal y es conocido. II- Intervalo de confianza para un promedio (Varianza desconocida): Generalmente, cuando se quiere construir un intervalo de confianza para la media poblacional , la varianza poblacional es desconocida, por lo que el intervalo para construido al final de II es muy poco práctico. Si en el intervalo se reemplaza la desviación estándar poblacional muestral s, el intervalo de confianza toma la forma: por la desviación estándar La cual es una buena aproximación para el intervalo de confianza de 95% para con desconocido. Esta aproximación es mejor en la medida que el tamaño muestral sea grande. Cuando el tamaño muestral es pequeño, el intervalo de confianza requiere utilizar la distribución t de Student (con n-1 grados de libertad, siendo n el tamaño de la muestra), en vez de la distribución normal (por ejemplo, para un intervalo de 95% de confianza, los límites del intervalo ya no serán construidos usando el valor 1.96). Se utiliza la siguiente expresión: Ejemplo: Los siguientes datos son los puntajes obtenidos para 45 personas de una escala de depresión (mayor puntaje significa mayor depresión). 2 11 14 16 19 5 11 15 16 19 6 13 15 17 19 8 13 16 17 19 8 14 16 17 19 9 14 16 18 19 9 14 16 18 19 10 14 16 18 20 11 14 16 19 20 189 Para construir un intervalo de confianza para el puntaje promedio poblacional, asumamos que los datos tienen distribución normal, con varianza poblacional desconocida. Como es desconocido, lo estimamos por s =18,7. Luego, un intervalo de confianza aproximado es: Luego, el intervalo de confianza para es (13.2, 15,8). Es decir, el puntaje promedio poblacional se encuentra entre 13,2 y 15,8 con una confianza 95%. Ahora construya un intervalo de confianza utilizando la distribución t-Student. III. Intervalo de Confianza para una Proporción. A menudo es necesario construir intervalos de confianza para una proporción. Por ejemplo, supóngase que se toma una muestra de tamaño n de una población grande (posiblemente infinita) y que X observaciones de esta muestra pertenecen a una clase de interés. Ejemplo: El número de caras obtenidas al lanzar una moneda n veces. X1, X2, X3,………….Xn X caras X B(n, p) El parámetro p es desconocido, sin embargo podemos obtener un estimador denotado por partir de los datos de la muestra. Nótese que ,a es un estimador insesgado de p, ya que: 190 Recuérdese que para n grande, la distribución de muestreo de es aproximadamente normal con media p y varianza p(1-p)/n. Por lo que la distribución de la siguiente variable Tiene aproximadamente una distribución normal (Teorema de Límite Central). Como Z N(0,1), podemos construir fácilmente el intervalo de confianza para p, tal que: zα/2 - zα/2 Pero: Luego: Desafortunadamente el límite superior e inferior del intervalo de confianza contiene el parámetro desconocido p. Sin embargo es válido reemplazar p por , El intervalo de confianza para el parámetro de proporción p es: 191 9.5.1. Selección del tamaño de la muestra Para estimar un intervalo de confianza para el parámetro p, y para que este intervalo sea confiable, es preciso considerar que la diferencia entre el estimador y el parámetro p sea mínima con un nivel de confianza mayor o igual al (1-α)%, es decir: Obsérvese que: Por lo que: Note que para utilizar esta ecuación se requiere una estimación del parámetro p. Si se tiene una estimación de alguna muestra anterior, entonces p puede sustituirse por , de tal manera que: 192 Si el tamaño muestral n es grande, el Teorema Central del Límite nos asegura que: O bien: Donde p es el porcentaje de personas con la característica de interés en la población (o sea, es el parámetro de interés) y p es su estimador muestral. Luego, procediendo en forma análoga al caso de la media, podemos construir un intervalo de 95% de confianza para la proporción poblacional p. Ejemplo: En un estudio de prevalencia de factores de riesgo en una cohorte de 412 mujeres mayores de 15 años en la Región Metropolitana, se encontró que el 17.6% eran hipertensas. Un intervalo de 95% de confianza para la proporción de mujeres hipertensas en la Región Metropolitana está dado por: Luego, la proporción de hipertensas varía entre (0.139, 0.212) con una confianza de 95%. IV. Intervalos de confianza para la diferencia de dos proporciones Supóngase que existen dos proporciones de interés p1 y p2, y es necesario obtener un intervalo de confianza para la diferencia de p1 - p2 con un nivel de confianza de (1-α)%. Supóngase que se toman dos muestras independientes de tamaño n1 y n2 de dos poblaciones infinitamente grandes. En estas dos muestras sean X1 el número de observaciones de la primera muestra que pertenecen a la clase de interés y X2 el número de observaciones en la muestra de la segunda población que pertenecen a la clase de interés. P1 P2 X1, X2, X3,……..Xn1 Y1, Y2, Y3,…….Yn2 Xn1 observaciones Xn2 observaciones 193 = = X1~B(n1,p) X2~B(n2, p) Luego: = = Así para se hace la siguiente transformación: Donde Z tiene una distribución que es aproximadamente normal, esto implica que podemos sustituir el valor de Z directamente para construir el intervalo de confianza: Si desarrollamos esta expresión llegaremos a que el intervalo de confianza para p1 - p2 es: 194 Ejemplo. Se analiza la fracción de productos defectuosos producidos por dos líneas de producción. Una muestra aleatoria de 100 unidades provenientes de la línea uno contienen 10 que son defectuosas, mientras que en una muestra aleatoria de 120 unidades de la línea 2 tiene 25 que son defectuosas. Encuentre un intervalo de confianza del 99% para la diferencia en fracciones de productos defectuosos producidos por las dos líneas. Solución: Se tiene que Pero: Nos resta calcular . Como (1-)=0.99, entonces /2= 0.005. Luego como el valor para no se encuentra en la tabla, promediamos los valores más próximos y Luego Sustituyendo estos valores tenemos: El intervalo de confianza buscado es: Ejemplos: 1. Un fabricante asegura, a una compañía que le compra un producto en forma regular, que el porcentaje de productos defectuosos no es mayor del 5%. La compañía decide comprobar la afirmación del fabricante seleccionando de su inventario, 200 unidades de este producto y probándolas. ¿Deberá sospechar la compañía de la afirmación del fabricante si se descubre un total de 19 unidades defectuosas en la muestra? Solución: La sospecha estará apoyada si existe un intervalo de confiabilidad alto para el cual la proporción p se encuentra completamente a la derecha del valor asegurado 0.05. Si seleccionamos una 195 confiabilidad del 95%, entonces α/2=0.025, y ya conocemos que X=19 y n=200, por lo que =19/200=0.095 Al sustituir estos valores en: Se tiene que el intervalo de confianza del parámetro p es: El cual resulta ser de: Aparentemente existe una razón para sospechar del fabricante, ya que el intervalo de confianza se encuentra completamente a la derecha del valor asegurado. Calcular el tamaño de la muestra del ejemplo anterior para el cual la diferencia entre el parámetro y el estimador es menor que 0.02 con un nivel de confianza mayor a 0.9. Considérese el mismo valor para . Solución: 2. 196 3. Se analiza la fracción de productos defectuosos producidos por dos líneas de producción. Una muestra aleatoria de 100 unidades provenientes de la línea uno contienen 10 que son defectuosas, mientras que en una muestra aleatoria de 120 unidades de la línea 2 tiene 25 que son defectuosas. Encuentre un intervalo de confianza del 99% para la diferencia en fracciones de productos defectuosos producidos por las dos líneas. Solución: Se tiene que Pero: . Como (1-)=0.99, entonces /2= 0.005. Nos resta calcular no se encuentra en la tabla, promediamos los valores más Luego como el valor para próximos y Luego Sustituyendo estos valores tenemos: El intervalo de confianza buscado es: 197 Capítulo 10. Contraste de hipótesis. 10.1.- Introducción Dentro del estudio de la inferencia estadística, se describe como se puede tomar una muestra aleatoria y a partir de esta muestra estimar el valor de un parámetro poblacional en la cual se puede emplear el método de muestreo y el teorema del valor central lo que permite explicar cómo a partir de una muestra se puede inferir algo acerca de una población, lo cual nos lleva a definir y elaborar una distribución de muestreo de medias muestrales que nos permite explicar el teorema del límite central y utilizar este teorema para encontrar las probabilidades de obtener las distintas medias maestrales de una población. Pero es necesario tener conocimiento de ciertos datos de la población como la media, la desviación estándar o la forma de la población, pero a veces no se dispone de esta información. En este caso es necesario hacer una estimación puntual que es un valor que se usa para estimar un valor poblacional. Pero una estimación puntual es un solo valor y se requiere un intervalo de valores a esto se denomina intervalos de confianza y se espera que dentro de este intervalo se encuentre el parámetro poblacional buscado. También se utiliza una estimación mediante un intervalo, el cual es un rango de valores en el que se espera se encuentre el parámetro poblacional En nuestro caso se desarrolla un procedimiento para probar la validez de una aseveración acerca de un parámetro poblacional este método es denominado Prueba de hipótesis para una muestra. 10.2. Nociones básicas En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se hacen las pruebas para verificar la aseveración o para determinar que no es verdadera. Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y la teoría de probabilidad; se emplea para determinar si la hipótesis es una afirmación razonable. Prueba de una hipótesis: se realiza mediante un procedimiento sistemático de cinco paso: 198 Siguiendo este procedimiento sistemático, al llegar al paso cinco se puede o no rechazar la hipótesis, pero debemos de tener cuidado con esta determinación ya que en la consideración de estadística no proporciona evidencia de que algo sea verdadero. Esta prueba aporta una clase de prueba más allá de una duda razonable. Analizaremos cada paso en detalle Objetivo de la prueba de hipótesis. El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico (muestral), sino hacer un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del parámetro. 10.3. Procedimiento sistemático para una prueba de hipótesis de una muestra. .Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa H1. Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones acerca de las poblaciones que se estudian. La hipótesis nula (Ho) se refiere siempre a un valor especificado del parámetro de población, no a una estadística de muestra. La letra H significa hipótesis y el subíndice cero no hay diferencia. Por lo general hay un "no" en la hipótesis nula que indica que "no hay cambio" Podemos rechazar o aceptar Ho. La hipótesis nula es una afirmación que no se rechaza a menos que los datos maestrales proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula siempre contiene un signo de igualdad con respecto al valor especificado del parámetro. La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es una afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente de que la hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al valor especificado del parámetro. Paso 2: Seleccionar el nivel de significancia. Nivel de significancia: Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le denota mediante la letra griega α, también es denominada como nivel de riesgo, este término es más adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es verdadera. Este nivel esta bajo el control de la persona que realiza la prueba. Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará la probabilidad de no aceptarla, es decir, estén fuera de área de aceptación. El nivel de confianza (1-α), indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la población. 199 La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si la estadística de prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula. La región de rechazo puede considerarse como el conjunto de valores de la estadística de prueba que no tienen posibilidad de presentarse si la hipótesis nula es verdadera. Por otro lado, estos valores no son tan improbables de presentarse si la hipótesis nula es falsa. El valor crítico separa la región de no rechazo de la de rechazo. Tipos de errores Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de Ho o de Ha, puede incurrirse en error: Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada cuando de hecho es falsa y debía ser rechazada. En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las consecuencias posibles. Decisión H0 es cierta H0 es Falsa Aceptar H0 Decisión Correcta Error tipo II () Rechazar H0 Error tipo I () Decisión Correcta Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los errores de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y así se tiene a conseguir poner una limitación al error de mayor importancia. La única forma de reducir ambos tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o no ser posible. 200 Paso 3: Cálculo del valor estadístico de prueba Valor determinado a partir de la información muestral, que se utiliza para determinar si se rechaza la hipótesis nula., existen muchos estadísticos de prueba para nuestro caso utilizaremos los estadísticos z y t. La elección de uno de estos depende de la cantidad de muestras que se toman, si las muestras son de la prueba son iguales a 30 o mas se utiliza el estadístico z, en caso contrario se utiliza el estadístico t. Tipos de prueba a) Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la igualdad Ejemplo H0 : µ = 200 H1 : µ ≠ 200 b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤ H0 : µ ≥ 200 H0 : µ ≤ 200 H1 : µ < 200 H1 : µ > 200 En las pruebas de hipótesis para la media (μ), cuando se conoce la desviación estándar (σ) poblacional, o cuando el valor de la muestra es grande (30 o más), el valor estadístico de prueba es z y se determina a partir de: El valor estadístico z, para muestra grande y desviación estándar poblacional desconocida se determina por la ecuación: En la prueba para una media poblacional con muestra pequeña y desviación estándar poblacional desconocida se utiliza el valor estadístico t. 201 10.4. Procedimiento sistemático para una prueba de hipótesis de dos muestras independientes. La prueba para la igualdad de medias con varianzas conocidas es: El estadístico de prueba es Si las varianzas son desconocidas, el estadístico de prueba es: donde 10.5. Prueba de hipótesis para una y dos proporción independientes Prueba para una proporción: El estadístico de prueba es: Prueba de hipótesis sobre dos proporciones independientes: Donde Paso 4: Formular la regla de decisión Se establece las condiciones específicas en la que se rechaza la hipótesis nula y las condiciones en que no se rechaza la hipótesis nula. La región de rechazo define la ubicación de todos los valores que son tan grandes o tan pequeños, que la probabilidad de que se presenten bajo la suposición de que la hipótesis nula es verdadera, es muy remota 202 Distribución muestral del valor estadístico z, con prueba de una cola a la derecha Valor crítico: Es el punto de división entre la región en la que se rechaza la hipótesis nula y la región en la que no se rechaza la hipótesis nula. Paso 5: Tomar una decisión. En este último paso de la prueba de hipótesis, se calcula el estadístico de prueba, se compara con el valor crítico y se toma la decisión de rechazar o no la hipótesis nula. Tenga presente que en una prueba de hipótesis solo se puede tomar una de dos decisiones: aceptar o rechazar la hipótesis nula. Debe subrayarse que siempre existe la posibilidad de rechazar la hipótesis nula cuando no debería haberse rechazado (error tipo I). También existe la posibilidad de que la hipótesis nula se acepte cuando debería haberse rechazado (error de tipo II). Ejemplo 1: Prueba la hipótesis H0 : p = 0.4 H1 : p 0.4 Presuma que n = 200, y = .01. Solución: Paso 1 H0 : p = 0.4 H1 : p 0.4 Paso 2 Usando = .01, el diagrama de la región de rechazo es: Paso 3 Calculando el valor z para la proporción muestral p = 0.45, obtenemos: p Z= 0.4(1 0.4) 0.0346 200 0.45 0.4 1.45 0.0346 .005 -2.575 .005 2.575 203 Paso 4 obtenemos: Dibujando z = 1.45 en el diagrama de la región de rechazo (Paso 2) 1.45 .005 .005 -2.575 Paso 5 rechazamos Ho. 2.575 Como el valor z está fuera de la región de rechazo (sombreada), por lo tanto no Ejemplo. MÉTODO DEL VALOR P (MÉTODO 2, SPSS) Dejemos que p0 sea la proporción aceptada o reclamada. Paso 1 Establezca las hipótesis: H0 : p = p0 H1 : p > p0 ó p < p0 ó p p0 Paso 2 x Calcule el valor z para la proporción muestral p usando la fórmula: n Z= p p0 p , donde p p0 (1 p0 ) . n Paso 3 Usando la hipótesis alterna dibuja la región bajo la curva z que representa los valores extremos. Valor P ó Valor P -z z (H1 : > o) ó (H1 : < o) P/2 P/2 -z z (H1 : o) Paso 4 El valor P = al área de la cola sombreada (s) en el Paso 3. Paso 5 Si el valor P < , entonces rechaza H0 Si el valor P , entonces no rechaces H0. 204 Pruebe la hipótesis Ejemplo 1: H0 : p = 0.4 H1 : p 0.4 Presuma que n = 200, y = 0.01. Solución: Paso 1 H0 : p = 0.4 H1 : p 0.4 Paso 2 Calculando el valor z de p , obtenemos p Z= Paso 3 0.4(1 0.4) 0.0346 200 0.45 0.4 1.45 0.0346 La región bajo la curva z que contiene los valores extremos de es -1.45 Paso 4 1.45 El valor P = suma de las áreas de las regiones sombreadas en el Paso3. = 2(el área a la derecha de 1.45) = 2(0.5 – 0.4265) P/2 P/2 = 0.147 Paso 5 Como el valor P es mayor que , entonces no podemos rechazar H0. Ejercicios. 1. H0 : p=0.6 H1 : p 0.6, 2. n = 100, y = 0.01 H0 : p = 0.29 H1 : p 0.29, n = 90, y = 0.01 3. H0 : p = 0.36 H1 : p < 0.36, n = 630, y = 0.05 205 Bibliografía Canavos, George C. (1988). Probabilidad y Estadística Aplicaciones y Métodos. McGrawHill. Gardner, Robert C. (2003). Estadística para Psicología Usando SPSS para Windows. Prentice-Hall, 1° ED. Jhonson, R y Kuby, P. (1999). Estadística Elemental, lo Esencial. México: Thomson. Martínez Bencardino, Ciro. (2006). Estadística Básica Aplicada. Colombia: ECOE EDICIONES, 3° ED. Martínez Bencardino, Ciro. (2008). Estadística y Muestreo. Colombia: ECOE EDICIONES, 12° ED. Montgomery, Douglas C. y Runger, George C. (1996). Probabilidad y Estadística. McGrawHill. Peralta Astudillo, María Josefa y at. (2000). Estadística: Problemas resueltos. Ediciones Pirámide. 206