Download 5.1 Distribuciones frecuenciales - DCB

Document related concepts
no text concepts found
Transcript
5.1 Distribuciones frecuenciales
El objetivo de la estadística es estudiar los datos obtenidos de una muestra y a partir
de ellos aprender sobre el comportamiento de una población, respecto a ciertas
características. El estudio incluye la recopilación, la descripción y el análisis del
conjunto de datos, convirtiéndolos en información objetiva que genera conocimiento.
La parte de la estadística que describe, analiza y representa al conjunto de datos,
mediante métodos numéricos y gráficos que muestran y sintetizan información a
partir de los datos, se conoce con el nombre de estadística descriptiva.
5.1.1 Población y muestra
Población
En general, una población es un grupo de seres vivos de una especie particular, que
vive en un área o espacio, y cuyo número de habitantes se determina normalmente
mediante un censo. En estadística, la noción de población es más amplia; se define
como el conjunto total de elementos sobre los cuales se pueden realizar observaciones
respecto a cierta o ciertas características comunes, y así obtener conclusiones al
respecto. Es claro que una población estadística no se restringe a seres vivos, ni a un
área o espacio.
Tamaño de la población
El tamaño de la población es el número de elementos que la constituyen; según el
número de elementos la población puede ser finita o infinita. Una población finita es,
por ejemplo, el conjunto de estudiantes de la Facultad de Ingeniería de la UNAM. Y
convencionalmente, cuando el número de elementos de la población es muy grande,
ésta se puede considerar como población infinita; por ejemplo, el número de granos
de arena en una playa.
El propósito de un censo de población siempre es determinar el número de personas
que constituyen un grupo, generalmente de un país, cada cierto período determinado;
en tal caso, la población estadística comprende a todos habitantes del grupo o país.
Por lo general, el censo de población se aprovecha para obtener datos demográficos,
económicos y sociales relativos a esos habitantes, expresados en términos numéricos.
Es claro que un censo implica demasiado trabajo, tiempo y costo; resulta impráctico y
absurdo observar a la totalidad de los elementos de una población, sistemáticamente.
Muestra
En lugar de examinar la población entera, se estudia solo una parte del grupo, una
colección de algunos elementos de la población, no de todos. El subgrupo de población
que será estudiado experimentalmente en detalle se llama muestra y, para que sea
representativa, debe contener las características relevantes de esa población. Así
mismo, las conclusiones que se obtengan de dicha muestra solo podrán referirse a la
población de donde se obtuvo la muestra.
El estudio de una muestra es más sencillo que el estudio de la población completa,
cuesta menos y lleva menos tiempo. Más aún, se considera que el estudio exhaustivo
de una población entera es más susceptible de errores que un estudio muestral, por lo
que, en algunos casos, el muestreo puede elevar el nivel de calidad de la información
obtenida. La estadística descriptiva estudia únicamente muestras, ordenando,
clasificando y describiendo los datos de cada muestra.
Muestra aleatoria
Una muestra aleatoria es una muestra obtenida de una población estadística, de modo
que todos los elementos de la población tienen la misma probabilidad de ser elegidos
y los elementos elegidos de la muestra son seleccionados de modo independiente.
Una población es un todo y una muestra es una fracción o segmento de ese todo, de
modo que ambos son conceptos relativos. Los datos recogidos de una muestra son
transformados en información sobre la población representada por la muestra.
Se trabaja con una muestra aleatoria de una población cuyo tamaño es mayor que el
de la muestra obtenida, de manera que tal muestra aleatoria aislada no es más que
una de muchas muestras diferentes que se habrían podido obtener mediante el
proceso de selección. El que la muestra sea representativa de la población no significa
que la distribución de los elementos de la muestra coincida exactamente con los de la
población total.
Existen otros tipos de muestras no aleatorias, denominadas muestras de juicio, que se
basan en la experiencia que alguien tiene sobre la población y se usan como guía para
decidir como tomar una muestra aleatoria más adelante.
Tamaño de la muestra
El tamaño de la muestra es el número de elementos que componen la muestra y
necesarios para que los datos obtenidos sean representativos de la población.
Notación: n
Características
Las características de interés en una población pueden ser cualitativas, tales como el
sexo y la nacionalidad de una persona; o pueden ser cuantitativas, como el espesor y
la porosidad de un estrato geológico. Lo relevante es que todos los elementos de la
población poseen esas características y son éstas las que se estudian en cada elemento
de la muestra, con valores que son comparables entre sí y susceptibles de análisis.
Variables
Las características cuantitativas se denominan variables y pueden ser expresadas
numéricamente, como la presión arterial sistólica o el número de hijos varones. Los
diferentes valores numéricos que puede tomar una característica cuantitativa
constituyen el dominio de definición de la variable. Cuando la variable puede tomar
solamente un valor se llama constante, como la aceleración de la gravedad en
determinado punto de la superficie terrestre.
Los valores de la variable se expresan numéricamente y son observados sobre los
elementos de la muestra. Si la característica de interés puede ser medida, se trata de
una variable continua, tal como el peso o la talla de un individuo; para asignar los
valores de la variable, es necesario concretar la escala de medición que conviene
utilizar en cada caso. Si la característica no es medible, sino solamente numerable, se
trata de una variable discreta, tal como el número de veces que ocurre un suceso.
Atributos
Los atributos son las características cualitativas de una población, cuyas diferentes
modalidades se expresan a través de nombres, pues no son susceptibles de medición.
Los atributos clasifican cada observación en una de varias categorías. La situación más
simple es cuando se consideran únicamente dos categorías, como hombre – mujer o
fumador - no fumador. En otras ocasiones la dicotomía no es suficiente y se requiere
un mayor número de categorías, como es el caso del grupo sanguíneo de una persona
o la dureza de un material.
Para clasificar los valores de los atributos, a veces se puede utilizar una escala ordinal,
cuando es factible establecer un orden jerárquico de las categorías, como es el caso del
grado de disnea de un paciente o la escala de Mohs para la dureza. La mayor parte de
las veces, sin embargo, los valores de los atributos no mantienen una relación de
orden entre sí, por lo que se tiene que recurrir a escalas nominales, como en el caso
del color de ojos de un individuo o el su estado civil.
Datos estadísticos
Los datos estadísticos son los valores de alguna característica de interés, observados
sobre los elementos de la muestra, los cuales pueden ser comparados, analizados e
interpretados.
En congruencia con los tipos de variable, los datos pueden ser numéricos o nominales.
En ingeniería los datos numéricos son los más frecuentes e importantes, por lo que, en
lo que sigue, se les da prioridad.
Ejemplo 5.1. DURACIÓN DE LLANTAS. Una fábrica de llantas para automóvil ha probado
sus llantas del tipo 225/50R16 91W bajo diferentes condiciones; se ha obtenido una
muestra aleatoria de tamaño 30, que han registrado las siguientes duraciones, en
miles de kilómetros.
Tablas estadísticas
Las tablas estadísticas son formas de presentación tabular utilizadas para organizar
los datos estadísticos. En función del número de datos y el rango de datos, se pueden
distinguir tres tipos de tablas estadísticas:
 Cuando el tamaño de la muestra y el rango son pequeños. Los datos se anotan de
manera ordenada en filas o columnas.
 Cuando el tamaño de la muestra es grande y el rango de datos es pequeño. Existen
valores de la variable que se repiten; es el caso de las variables discretas.
 Cuando el tamaño de la muestra y el rango de datos, ambos son grandes. Se
requiere agrupar los valores de la variable en intervalos; es el caso de las variables
continuas.
Tabla de datos ordenados
Una tabla de datos ordenados es aquella que simplemente presenta los valores de
menor a mayor.
Diagrama de tallos y hojas
Otra forma de presentar ordenadamente un conjunto de datos de tamaño moderado
es el llamado diagrama de tallos y hojas, que consiste en dividir cada valor de dato en
dos partes: su tallo y su hoja; por ejemplo, si los datos son de dos dígitos, el tallo sería
el dígito de las decenas y su hoja el dígito de las unidades. Así, el dato 37 tendría por
tallo el 3 y por hoja el 7.
5.1.2 Intervalos de clase
Los intervalos de clase se emplean cuando la variable es continua o cuando el número
de valores que toma una variable discreta es grande.
Rango de datos
Es la diferencia entre el dato de mayor valor y el dato de menor valor:
R xmax xmin
R
(5.1)
52.0 40.1 11.9 12
Número de intervalos
El número de intervalos de clase en el que se agruparán los datos fluctúa, en la
práctica, entre 5 y 15. La regla empírica de la raíz cuadrada del número de datos ha
quedado en desuso y en su lugar se utiliza la regla de Sturges, dada por la expresión:
k 1 log2 n
(5.2)
k 1 log2 30 1
ln 30
ln 2
1 4.9
5.9
6
Amplitud de clase
Se obtiene dividiendo el rango de datos entre el número de intervalos de clase:
di R / k
(5.3)
Para evitar ambigüedades en la clasificación de los datos, al calcular la amplitud de
clase conviene considerar un rango de datos ligeramente mayor que el rango de datos
exacto, a fin de garantizar que el dato de menor valor quede incluido en el primer
intervalo de clase y el dato de mayor valor quede incluido en el último intervalo de
12
clase.
di
2
6
Límites reales de clase
Cada intervalo de clase tiene dos límites reales de clase; el menor de ellos se llama
límite real inferior y el mayor se llamas límite real superior. Notación: Lj, j = 1, 2,..., k+1.
El límite real superior de un intervalo i debe ser mayor en media unidad, una cifra
significativa más, que el límite superior del intervalo i y menor en media unidad que el
límite inferior del intervalo i + 1, de manera que el límite superior de un intervalo i, es
también el límite real inferior del siguiente intervalo i + 1. Aquí se debe cumplir que:
Li 1 Li di ,
i 1,2,...,k
(5.4)
Límites de clase
Los límites de clase son los números que limitan un intervalo de clase; el menor se
llama límite inferior de clase y el mayor se llama límite superior de clase. Notación:
Ij, Sj, j=1,2,...,k.
Los límites de clase tienen el mismo número de cifras significativas que los datos; el
límite inferior del primer intervalo de clase debe ser menor o igual al menor de los
datos: I1 m; y el límite superior del último intervalo de clase debe ser mayor o igual
que el mayor de los datos: Sk M. El límite superior de clase de un intervalo i no
coincide con el límite inferior de clase del siguiente intervalo i+1, sino que es menor
en una unidad.
Marca de clase
Es el punto medio del intervalo de clase. Notación: xi, i = 1, 2,..., k
Li Li 1
xi
,
i 1,2,...,k
2
Ii si
xi
,
i 1,2,...,k
2
(5.5)
Tabla de datos agrupados
Es aquella en la que se anotan los datos básicos en grupos. El agrupamiento se hace
con base en los intervalos de clase.
5.1.3 Frecuencias
Frecuencia
Es el número de veces que ocurre un evento. Si A es un evento y ocurre n(A) veces, la
frecuencia de A es n(A)
Frecuencia relativa
Si un experimento se realiza n veces es el número de veces que se presenta el evento
A, la frecuencia relativa del evento A es n(A)/n. La frecuencia relativa solo puede
tomar valores entre cero y uno; 0 n(A)/n 1
Distribución de frecuencias
Es toda representación de la relación entre el conjunto de eventos mutuamente
exclusivos y colectivamente exhaustivos y la frecuencia de cada uno de ellos.
Frecuencia de clase
Es la frecuencia de cada intervalo. Notación: fi, i =1, 2,…, k
La tabla de distribución de frecuencias es aquella en la que se presentan los eventos
con su correspondiente frecuencia.
Frecuencia relativa de clase
Es la que resulta de dividir la frecuencia de un intervalo entre el número total de
datos. Notación: fri, i = 1, 2,…, k
La tabla de distribución de frecuencias relativas es aquella que presenta los eventos
con su correspondiente frecuencia relativa.
Frecuencia acumulada de clase
Es la suma de las frecuencias de clase del intervalo en consideración y de los
intervalos anteriores. Notación: Fi, i = 1, 2,…, k
La tabla de distribución de frecuencias acumuladas es aquella en la que se presentan
los eventos con sus correspondientes frecuencias acumuladas. La frecuencia
acumulada del último intervalo de clase debe ser igual al número de observaciones.
Frecuencia relativa acumulada de clase
Es la que resulta de dividir la frecuencia acumulada de un intervalo entre el número
total de observaciones. También puede obtenerse sumando a la frecuencia relativa del
intervalo en consideración, las frecuencias relativas correspondientes a todos los
intervalos anteriores. Notación: Fri, i = 1, 2,…, k
La tabla de distribución de frecuencias relativas acumuladas es aquella en la que se
presentan los eventos con sus correspondientes frecuencias relativas acumuladas. La
frecuencia relativa acumulada del último intervalo debe ser igual a la unidad.
Tabla de distribuciones de frecuencias
5.1.4 Caso discreto y nominal
Caso discreto
No tiene sentido hablar de intervalos de clase ni de límites de clase, sino simplemente
de clase; cada clase representa un valor discreto de la variable.
Ejemplo 5.2. FALTAS DE ASISTENCIA A CLASE. En el grupo 21 de Probabilidad y
Estadística del semestre 2011-2, la lista de asistencia registra las faltas de los 49
alumnos inscritos, conforme se muestra en la siguiente tabla:
Caso nominal
Además de lo expuesto para el caso discreto, aquí no se puede hablar de frecuencias
acumuladas.
Ejemplo 5.3. CARRERA QUE ESTUDIAN. En el grupo 21 de Probabilidad y Estadística del
semestre 2011-2, se tiene registro de que los alumnos inscritos están estudiando
alguna de las 12 carreras que ofrece la Facultad de Ingeniería, conforme a los
siguientes datos, que ya han sido presentados como tabla de frecuencias: