Download estadistica y probabilidad
Document related concepts
no text concepts found
Transcript
La estadística es una ciencia que surgió para llevar la contabilidad del Estado (de ahí viene su nombre). En el siglo XX se desarrollaron sus técnicas y se separó de las matemáticas, pasando a ser una ciencia con entidad propia. En los medios de comunicación frecuentemente encontramos estadísticas. En medicina se necesitan medios estadísticos para probar nuevos medicamentos. En todo estudio científico, tras la recogida de datos, se utilizan pruebas estadísticas que permitan dar un resultado de esos datos. La estadística, hoy en día, se ve potenciada por las prestaciones de la tecnología informática. Para llevar a cabo un análisis o estudio estadístico. Lo primero que hay que hacer es recoger datos. Al conjunto de todos los elementos que forman nuestro estudio le llamaremos POBLACIÓN, pero evidentemente casi nunca podemos estudiar toda la POBLACIÓN y cogemos un subconjunto de la POBLACIÓN . Llamaremos MUESTRA al subconjunto, extraído de la POBLACIÓN, del cual podemos obtener características que ampliaremos a toda la POBLACIÓN. Y a cada elemento de la Población o Muestra, le llamaremos INDIVIDUO. Por tanto el resultado del estudio estadístico dependerá mucho de la muestra elegida. Por ejemplo, un inspector de educación ( de nuestra comunidad) investiga cómo funcionan algunos institutos de nuestra comunidad elegidos al azar. El conjunto de todos los institutos de nuestra comunidad es la población, los institutos elegidos formarían la muestra y cada instituto es un individuo. Las características que estudiamos de una población la definiremos por medio de variables estadísticas. Dentro de las variables estadísticas podemos diferenciar : 1. Variables cuantitativas : son aquellas que se expresan mediante números y estas pueden ser : a. Discretas : Solo toman valores aislados ( por ejemplo nº de alumnos de cada clase: 18, 20, 24, …) b. Continuas: pueden tomar todos los valores de un intervalo (tiempo en realizar una prueba :1 hora , 45 min, 1hora 2min 25seg …) 2. Cualitativa : cuando describen una cualidad y no se puede expresar numéricamente. ( el color del pelo: rubio, castaño, pelirrojo, azul ….) PROCESO QUE SE SIGUE EN ESTADÍSTICA 1º 2º 3º 4º - ¿Qué queremos estudiar? ¿Para qué? Selección de las variables que se van a analizar Recolección de datos Organización y exposición de datos 1 EL PAPEL DE LAS MUESTRAS En el proceso que se sique en estadística después de los dos primeros paso (decidir lo que queremos estudiar y perfilar la variables) , muchas veces es necesario recurrir a las muestras para la recolección de datos. Veamos cuándo y cómo CUÁNDO HAY QUE RECURRIR A UNA MUESTRA Hay algunos casos que es aconsejable o incluso imprescindible : o Cuándo la población es muy numerosa. Ej: Si deseamos conocer a quien votaran en unas elecciones por comunidad o Cuando la población es difícil de controlar Ej: el número de veces al mes que cada cliente acude a unos grandes almacenes o Cuando el estudio de las variables es muy caro o destructivo Ej; tiempo que dura una batería del coche CÓMO SELECCIONAMOS LAS MUESTRAS La selección de una buena muestra no es nada fácil. Pero para que la muestra sea válida debemos asegurarnos que: o Se selecciona al azar y que todos los individuos tienen la misma probabilidad de ser elegidos. o El tamaño de la muestra importa, pero es sorprendente que si la muestra está bien cogida las conclusiones suelen ser bastante válidas. Las conclusiones que se extraen para la población a partir de una muestra serán aproximadas con un margen de error Hacer los ejercicios 1,2 y 3 de la pág 261 de vuestro libro de texto Una vez de recoger los datos, hay que organizarlos y esto se hace por medio de una tabla de frecuencias (ya que un dato se puede repetir más de una vez) . Si la variable toma pocos valores confeccionamos una tabla con datos aislados Ejemplo : en un examen de ocho preguntas en esta clase , estudiamos el nº de respuestas correctas . El resultado es : 3,5,6,7,7,7,6,6,5,8,8,3,2,2,2,1,0,0,5,0,6,3,5,6,7,8,4,4,1,1,5,6 Recuento 0 III 1 III 2 III 3 III 4 II 5 IIII 6 IIII I 7 IIII 8 III TABLA DE FRECUENCIAS xi fi 0 3 1 3 2 3 3 3 4 2 5 5 6 6 7 4 8 3 2 Si la variable es continua o bien, siendo discreta , toma muchos valores distintos agrupamos los datos en intervalos (con decimales para que no haya duda a que intervalo pertenece cada dato) todos los intervalos tendrán la misma amplitud. Ejemplo : Se ha tomado el tiempo en los cien metros lisos a los miembros de un club de atletismo . Estos son los resultados : 11,62 ; 12,03 ; 12,15 ; 11,54 ; 10,95 ; 11,56 ; 11,08 ;11,38 ; 12,08 ; 11,73 ; 12,11 ; 11,52 ; 11,72 ; 11,23 ; 11,66 ; 10,87 ; 11,32 ; 11,58 ; 12,01 ; 11,06 Vamos a hacer una tabla de frecuencias con los intervalos (10,805 ; 11,075) (11,075 ; 11,345) (11,345 ; 11,615) (11,615 ; 11,885) (11,885 ; 12,155) Vemos que la amplitud del intervalo es 11,345 – 11,075 = 0,27 y para todos los intervalos es la misma Recuento (10,805 ; 11,075) III (11,075 ; 11,345) III (11,345 ; 11,615) IIII (11,615 ; 11,885) IIII (11,885 ; 12,155) IIII TABLA DE FRECUENCIAS Intervalo fi (10,805 ; 11,075) 3 (11,075 ; 11,345) 3 (11,345 ; 11,615) 5 (11,615 ; 11,885) 4 (11,885 ; 12,155) 5 Además de la frecuencia absoluta, estudiaremos las frecuencias relativas , los porcentajes y las frecuencias acumuladas Frecuencia relativa de un valor: Es la proporción de veces que se presenta, es decir, es la 𝒇 relación entre la frecuencia absoluta y el número total de individuos 𝒇𝒓𝒆𝒍𝒂𝒕𝒊𝒗𝒂 = 𝑵𝒊 donde N es el número total de individuos de la muestra. Porcentaje o frecuencia porcentual : Se calcula multiplicando la frecuencia relativa por 100 TABLA DE FRECUENCIAS Intervalo fi fr (10,805 ; 11,075) 3 3/20 =0,15 (11,075 ; 11,345) 3 3/20 =0,15 (11,345 ; 11,615) 5 5/20 =0,25 (11,615 ; 11,885) 4 4/20 =0,2 (11,885 ; 12,155) 5 5/20 =0,25 Total 20 1 % 15 15 25 20 25 100 3 Frecuencia acumulada:Es la suma de su frecuencia con las frecuencias de los valores anteriores ( para calcular la frecuencia acumulada tiene que estar la variable ordenada de menor a mayor). En el primer ejemplo de las respuestas correctas en un examen de 8 preguntas en la clase de 32 alumnos tendremos TABLA DE FRECUENCIAS xi fi facumulada 0 3 3 1 3 3+3=6 2 3 6+3=9 3 3 9+3=12 4 2 12+2=14 5 5 14+5=19 6 6 19+6=25 7 4 25+4=29 8 3 29+3=32 facumulada (3) =12 significa que hay 12 alumnos que han contestado bien 3 preguntas o menos La representación de los datos se realiza utilizando la gráfica o diagrama más adecuado en cada momento y son: DIAGRAMA DE BARRAS Se utiliza para representar datos de variables estadísticas discretas o datos de variables cualitativas El gráfico anterior representa el número de alumnos ( de una clase de 35) que han aprobado todo ( 20 alumnos) , el número de alumnos que han suspendido una (7 alumnos) , el número de alumnos con dos suspensas (5 alumnos), con tres suspensas (0 alumnos), con cuatro suspensas (1 alumno), con cinco suspensas (1 alumno), con seis suspensas (0 alumnos) y con siete suspensas(1 alumno). 4 HISTOGRAMA DE FRECUENCIAS El histograma se utiliza para distribuciones de variable continua y para variables discretas con muchos valores (ya que se utilizaran intervalos) . Por eso se utilizan retángulos cuya base son de la longitud o amplitud de los intervalos POLÍGONO DE FRECUENCIAS Se utiliza en los mismos casos que el histograma. Se construye uniendo los puntos medios de los lados superiores de los rectángulos del histograma, prolongando al principio y al final hasta llegar al eje. Suaviza los escalones que produce el histograma. Las pirámides de población están formadas por dos histograma, uno para hombres y otro para mujeres ,situados con el eje de la variable de edad en el eje vertical (ya que esta variable es común a los dos histogramas). 5 DIAGRAMAS DE SECTORES En un diagrama de sectores el ángulo de cada sector es proporcional a la frecuencia correspondiente. Se puede utilizar para todo tipo de variables. Este tipo de diagrama es adecuado para mostrar la evolución a lo largo del tiempo de la variable estudiada. Hacer ejercicios 4,5, 6 pág 261 y 7, 8 y 9 pág 262 6 PARÁMETROS ESTADÍSTICOS MEDIDAS DE CENTRALIZACIÓN Si utilizamos tablas de frecuencia tendremos: 𝑛 = 𝑓1 + 𝑓2 + 𝑓3 + ⋯ + 𝑓𝑛 = ∑ 𝑓𝑖 ̅= 𝒙 ∑ 𝒇 𝒊 𝒙𝒊 𝒇𝒊 MEDIDAS DE DISPERSIÓN Recorrido: es la diferencia entre el dato mayor y el dato menor. Tambien se denomina rango 7 Desviación media : es la media de las distancias de los datos a la media. Si utilizamos tablas de frecuencia tendremos : 𝑫𝑴 = ∑ 𝒇𝒊 · |𝒙𝒊 − 𝒙 ̅| ∑ 𝒇𝒊 Varianza : es la media de los cuadrados de las distancias de los datos a la media Y esta fórmula es equivalente a la siguiente ∑ 𝑥𝑖2 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = − 𝑥̅ 2 𝑛 Si utilizamos tablas de frecuencia tendremos : ∑ 𝒇𝒊 (𝒙𝒊 − 𝒙 ̅)𝟐 ∑ 𝒇𝒊 𝒙𝟐𝒊 ̅𝟐 𝒗𝒂𝒓𝒊𝒂𝒏𝒛𝒂 = = − 𝒙 ∑ 𝒇𝒊 ∑ 𝒇𝒊 Desviación típica: es la raíz cuadrada de la varianza ∑ 𝑥2 𝜎 = √𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = √ 𝑖 − 𝑥̅ 2 𝑛 Si utilizamos tablas de frecuencia tendremos : ∑ 𝒇𝒊 (𝒙𝒊 − 𝒙 ∑ 𝒇𝒊 𝒙𝟐𝒊 ̅) 𝟐 ̅𝟐 𝝈 = √𝒗𝒂𝒓𝒊𝒂𝒏𝒛𝒂 = √ =√ − 𝒙 ∑ 𝒇𝒊 ∑ 𝒇𝒊 TABLAS CON DATOS AGRUPADOS EN INTERVALOS Cuando tenemos los datos agrupados en intervalos , a cada intervalo se le asigna su valor central llamado marca de clase y así obtendremos una tabla de frecuencias y calcularemos los parámetros igual que anteriormente 8 Ejemplo: 58+50 X1= 2 pesos (50,58) (58,66) (66-74) = 54 personas 6 20 4 X2 = 66+58 2 = 62 X3= 74+66 2 xi 54 62 70 fi 6 20 4 = 70 Para comparar la dispersión de dos poblaciones heterogéneas, se define el coeficiente de variación como la relación entre la desviación típica y la media 𝐶𝑉 = 𝜎 𝑥̅ El resultado se da a veces en tanto por ciento CV=0,07 es el 7% PARÁMETROS DE POSICIÓN Son la mediana y los cuartiles. Se llaman parámetros de posición porque cada uno de ellos ocupa un lugar. El primer cuartil Q1 es el valor de la variable que deja por debajo de él a un cuarto de la población. El tercer cuartil Q3 es el valor de la variable que deja por encima de él a un cuarto de la población. EL DIAGRAMA DE CAJA Y BIGOTES SE UTILIZA PARA REPRESENTAR LOS PARÁMETROS DE POSICIÓN. Se representa en una escala los posibles datos y dibujamos un rectángulo entre el Q1 y el Q3 señalando la mediana y los bigotes se extienden a la totalidad de los datos Ejemplo : dada la distribución 2, 2, 3, 6, 7, 8, 8, 9,10,11 Q1=3 ; Me=7,5 y Q3=9 ____|___|___|___|___|___|___|___|___|___|___|___|_______ 1 2 3 4 5 6 7 8 9 10 11 12 Q1 Me Q3 La mediana fue estudiada en los parámetros de centralización. Si el número de individuos era impar por ejemplo 11 se dividía 11/2 =5,5 y el individuo que ocupaba el lugar 6 era la mediana. Si el número de individuos era par por ejemplo 14 se dividía 14/2=7 y se hacía la media entre el valor de individuo 7 y el 8 9 CÁLCULO DE PROBABILIDADES Conceptos básicos Todos los días aparecen en nuestra vida hechos que tienen que ver con la probabilidad. Si jugamos al parchís, intuimos que más o menos una de cada 6 veces saldrá un 5, con lo que podremos sacar una ficha con la que jugaremos. La probabilidad es una medida que nos da el grado de confianza que podemos tener en que ocurra un suceso. Para estudiar la probabilidad debemos familiarizarnos con algunos conceptos. Ejemplo : imaginemos que tenemos una urna con 5 bolas : 2 blancas, 2 rojas y 1 negra . Metemos la mano en la urna, extraemos una bola y miramos el color (experimento aleatorio:el resultado depende del azar). Hay tres caso posibles : ‘que la bola se blanca (B)’ , ‘que la bola sea negra (N) ‘ o ‘que la bola sea roja (R)’ . Espacio muestral : es el conjunto de todos los casos posibles : {B,R,N} . Es seguro que la bola que sacamos sea B,R o N . Por eso al espacio muestral se le llama también Suceso Seguro. Sucesos son los subconjuntos del espacio muestral. En nuestro ejemplo los sucesos posibles son {B}, {R}, {N},{B,R}, {B,N},{R,N} Y {B,R,N} Ejemplos: 1.- Experimento: sacamos una carta de la baraja española (40 cartas) y miramos el palo . El espacio muestral es {oros,copas,espadas, bastos} 2.- Experimento lanzamos a la vez dos monedas iguales y observamos lo que sale Espacio muestral es {CC,CX,XX} Ya hemos dicho que la probabilidad es una medida y se expresa mediante un número comprendido entre el 0 y el 1. P(espacio muestral)=1 Cuando un experimento se repite muchas veces la probabilidad coincide con f r Si podemos predecir la probabilidad de un suceso simple se llama experiencia regular y de lo contrario e llama experiencia irregular Ley de Laplace Si realizamos una experiencia regular donde la probabilidad de que se dé un suceso elemental es 1/n (siendo ‘n’ el número de sucesos elementales) entonces 10 P(S) = 𝑛ú𝑚𝑒𝑟𝑜𝑠 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑙𝑒𝑠 𝑎 𝑆 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠 Ejemplo1: En nuestro experimento 1 P(sacar oros )= 10/40 = 1 /4 Ejemplo 2: En una caja hay 20 clavos buenos y 7 defectuosos . Calcular la probabilidad de que al extraer un clavo sea defectuoso P(defectuoso) = 7/27 Ejemplo 3: lanzamos un dado y sumamos sus puntuaciones Los posibles resultados son {2,3,4,5,6,7,8,9,10,11,12} pero estos sucesos no son equiprobables (misma probabilidad) ya que el 2 solo saldrá cuando salgan dos 1 y el 7 saldrá muchas más veces + 1 2 3 4 5 6 1 2 3 4 5 6 7 2 3 4 5 6 7 8 3 4 5 6 7 8 9 4 5 6 7 8 9 10 P(la suma sea 7) = 5 6 7 8 9 10 11 6 7 8 9 10 11 12 𝑛ú𝑚𝑒𝑟𝑜𝑠 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑒𝑛 𝑞𝑢𝑒 𝑙𝑎 𝑠𝑢𝑚𝑎 𝑒𝑠 7 𝑛ú𝑚𝑒𝑟𝑜𝑠 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠 = 6 36 = 1 6 Experiencias compuestas Para estudiar las experiencias compuestas es muy útil el diagrama de árbol Ejemplo: Una urna contiene 26 bolas negras y 26 bolas rojas. Se saca una bola , se mira el color y se vuelve a introducir a la bolsa ¿Cuál es la probabilidad de que una sea roja y la otra negra? P(RN o NR)= P(RN)+P(NR)= 1 / 4 + 1 / 4 = 1 / 2 HACER EJERCICIOS DEL LIBRO 8,9 PÁG 294 Y 13,14 PÁGINA 295 11