Download Resumen y descripción de los datos numéricos no agrupados

Document related concepts

Parámetro estadístico wikipedia , lookup

Valor atípico wikipedia , lookup

Cuantil wikipedia , lookup

Desviación típica wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Transcript
UNIVERSIDAD DE PUERTO RICO EN HUMACAO
CENTRO DE COMPETENCIAS DE LA COMUNICACIÓN
Resumen y descripción de los
datos numéricos no agrupados
PROF. VÍCTOR ARIEL MOJICA
mayo, 2007
INTRODUCCIÓN

Este módulo se creó con el propósito de atender el tema del
resumen y descripción de los datos numéricos. El/la estudiante
puede estudiar de manera independiente o puede usar el
módulo para complementar lo discutido en clase.

Este módulo pretende asegurar que los/as estudiantes que se
matriculen en el curso ESTA 3041 – Estadística I en
Administración de Empresas - desarrollen las destrezas para
resumir y describir los datos numéricos para su posterior
análisis e interpretación.
Para el profesor
INTRODUCCIÓN (Cont.)


Sería conveniente para los/as estudiantes,
preguntarle al profesor de qué manera se
evaluará el contenido del módulo y el peso
de este material en la nota final del curso en
cuestión.
El profesor le notificará a los/as estudiantes
en cuánto tiempo debe terminar de estudiar
el módulo.
OBJETIVO GENERAL

El objetivo de este módulo es que los/as
estudiantes comprendan las características o
propiedades de los datos numéricos
(tendencia central, variación, forma) y sus
mediciones descriptivas de resumen
correspondientes, como una ayuda para el
análisis e interpretación de datos.
OBJETIVOS ESPECÍFICOS
Al finalizar el módulo, el estudiantado podrá:
 describir la propiedad de tendencia central.
 interpretar las diferencias entre las diversas
mediciones de tendencia central como la media, la
mediana, la moda, el alcance medio y el eje medio.
 explicar la diferencia entre la tendencia central y la
tendencia no central.
 describir la propiedad de variación o dispersión.
OBJETIVOS ESPECÍFICOS (Cont.)



interpretar las diferencias entre las diversas
medidas de variación como el alcance, el alcance
intercuartil, la varianza, la desviación estándar y el
coeficiente de variación.
explicar la propiedad de la forma.
apreciar el valor de las técnicas de análisis de
datos exploratorio: los resúmenes de cinco
números y las gráficas de caja y bigotes.
INSTRUCCIONES



El/la estudiante estudiará el módulo de manera
independiente.
Leer las instrucciones que se presentan con
detenimiento para que pueda lograr los objetivos del
mismo.
No debe tratar este módulo de manera superficial.
Recuerde que el tema que este módulo trata es
fundamental para la interpretación y análisis de los
datos numéricos y para la comprensión de temas
más avanzados en estadística.
Cada parte de este módulo presentará
instrucciones específicas que le indicarán qué
debe hacer.
Las partes son:
Pre-prueba
Presentación de la información
relevante
Hojas de trabajo
Post-prueba
Pre-prueba


Con el propósito de diagnosticar tus
conocimientos sobre el tema de resumen y
descripción de datos numéricos, te solicitamos
que contestes esta prueba.
Al final el módulo podrás contestar de nuevo
esta prueba para que puedas corroborar si
pudiste alcanzar los objetivos del mismo.
Pre-prueba
Continuar
Flujograma de contenido
Úsalo para navegar los cuatro temas principales
Propiedades de los
datos numéricos
Tendencia
central/no
central
Variación
Media aritmética
Rango
Mediana
Rango
intercuartil
Varianza
Moda
Rango medio
Eje
medio
cuartiles,
Percentiles
Forma
Sesgo
Desviación estándar
Coeficiente de variación
Las características o propiedades
de los datos numéricos
Datos no agrupados versus agrupados

Las medidas descriptivas de las
características o propiedades que se
discuten en este módulo se obtienen a partir
de los datos no agrupados. En el caso de
que los datos estén agrupados (por ejemplo,
en una distribución de frecuencia) se pueden
generar aproximaciones de las medidas
descriptivas. Tales aproximaciones no se
cubren en este módulo.
Número de variables

Comenzaremos con conjuntos de datos de una sola
variable. Las medidas numéricas de localización y
dispersión se calculan a partir de los n valores de
los datos. Si el conjunto de datos tiene más de una
variable, esas medidas numéricas se pueden
calcular por separado para cada variable. En el
caso de dos variables, se pueden obtener medidas
del grado de la relación entre ellas. En este módulo
sólo se discute el coeficiente de variación entre dos
variables.
Parámetros versus Estadísticas

En cualquier análisis o interpretación puede usarse
una variedad de mediciones descriptivas que
representan las propiedades de tendencia central,
variación y forma para extraer y resumir las
principales características de la serie de datos. Si
estas mediciones descriptivas se calculan a partir de
una muestra de datos, se denominan estadísticas;
si se calculan a partir de una población de datos, se
denominan parámetros.
Parámetros versus Estadísticas (Cont.)

Los símbolos que se usan son distintos para las
medidas calculadas a partir de una muestra que
para una población aunque el cálculo sea el mismo.
De esta manera los símbolos indican si las medidas
provienen de una muestra de datos o de una
población.
Por ejemplo, a la media aritmética para una muestra
se le asigna el símbolo X (denominado “X barra”) y a
la media aritmética para una población se le asigna
el símbolo μ (denominado “miu”).
MEDIDAS DE LOCALIZACIÓN
Medidas de tendencia central
 La mayor parte de las series de datos muestran una
clara tendencia a agruparse alrededor de un cierto
punto central. Por lo tanto, para cualquier serie de
datos particular, por lo general es posible
seleccionar algún valor típico para describir toda la
serie de datos. El valor seleccionado representa una
medida de la localización central del conjunto de
datos. En otras palabras, estas medidas nos dicen
alrededor de que valor tienden a agruparse los
datos.
Medidas resistentes

Cuando las medidas que calculamos no se
afectan por los valores extremos en el
conjunto de datos se dice que estas medidas
son resistentes. Por lo tanto, cuando
sabemos que el conjunto de datos contiene
algún valor o valores extremos debemos
evitar calcular medidas no resistentes ya que
presentan una representación distorsionada
de los datos.
MEDIDAS DE LOCALIZACIÓN (Cont.)
Medidas de localización “no central”
 Además de las mediciones de tendencia
central, también existen algunas mediciones
útiles de ubicación no central. Estas
mediciones no nos dicen alrededor de qué
valor tienden a estar los datos, sino, por
ejemplo, qué dato del conjunto de datos,
tiene el 25% de los datos menores a él, o el
70%, el 90%, etc.
Medidas de tendencia central
Las medidas de
tendencia central que
más a menudo se usan
son:
–
–
–
–
–
Media aritmética
Mediana
Moda
Rango medio
Eje medio
Media Aritmética

La media aritmética (también llamada la media) es el
promedio o medición de tendencia central de uso
más común. Se calcula sumando todas las
observaciones de una serie de datos y luego
dividiendo el total entre el número de elementos
involucrados. Esta medida no es resistente ya que
se afecta considerablemente por la presencia de
valores extremos en los datos debido a que su
cómputo está basado en cada observación.
Media Aritmética (Cont.)
Notación algebraica (para muestra)
 Para una muestra que contiene una serie de
n observaciones X1, X2,…,Xn, la media
aritmética (dada por el símbolo X,
denominado “X barra”) puede escribirse
como
X=
Xi

i =1
n
=
X1 + X2 + L + Xn
n
Media Aritmética (Cont.)
Notación algebraica (para población)
 Para una población que contiene una serie
de N observaciones X1, X2,…,XN, la media
aritmética (dada por el símbolo μ
denominado “mu”) puede escribirse como
μ =
Xi

i =1
N
=
X1 + X2 + L + XN
N
Mediana

La mediana es el valor intermedio cuando
los valores de los datos se ordenan en forma
ascendente o descendente. Con un número
impar de observaciones, la mediana es el
valor intermedio. Un número par de
observaciones no tiene un número
intermedio. En este caso la mediana se
define como el promedio de los valores de
las dos observaciones intermedias.
Mediana


En otras palabras, la mediana es el valor tal
que 50% de las observaciones son menores
y 50% de las observaciones son mayores.
Una fórmula que indica la posición en que se
encuentra la mediana en un arreglo
ordenado de datos es :
Mediana → (n + 1)/2 donde n es el
tamaño de la muestra
Mediana

El cálculo de la mediana se afecta por el
número de observaciones, no por la
magnitud de cualquier valor extremo.
Moda

La moda es el valor de una serie de datos que se
presenta con más frecuencia. A diferencia de la
media aritmética, la moda no se ve afectada por la
ocurrencia de valores extremos. Sin embargo, la
moda no se usa para propósitos más que
descriptivos porque es más variable de muestra a
muestra que otras mediciones de tendencia central.
Un conjunto de datos puede que no tenga moda,
que tenga una moda, dos modas (bimodal) o más de
dos modas (multimodal).
Rango medio

El rango medio es el promedio de las
observaciones menores y mayores de una
serie de datos. Esto puede escribirse como
Rango medio = (X menor + X mayor)/2
Ejemplo


Eres un analista financiero
de Merill Linch y has
recopilado los siguientes
precios de cierre de
acciones de nuevas
emisiones de acciones: 17,
16, 21, 18, 13, 16, 12, 11.
Describe los precios de las
acciones en términos de
tendencia central.
Medidas de localización “no central”
Las medidas de tendencia “no-central” que
más a menudo se usan son:
–
–
Cuartiles
Percentiles
Cuartiles

Los cuartiles son mediciones descriptivas
que dividen los datos ordenados en cuatro
cuartos. (Recuerde que la mediana divide los
datos ordenados en dos mitades.)
25%
25%
Q1
25%
Q2
25%
Q3
Cuartiles

El primer cuartil, Q1, es un valor tal que 25% de las
observaciones son menores y 75% de las observaciones son
mayores.

El segundo cuartil, Q2, es la mediana, 50% de las
observaciones son menores y 50% de las observaciones son
mayores.

El tercer cuartil, Q3, es un valor tal que 75% de las
observaciones son menores y 25% de las observaciones son
mayores.
Cuartiles (Cont.)

Para aproximar los cuartiles, se usan las
siguientes fórmulas de posicionamiento:
Q1 → valor que está en la posición (n + 1)/4 después de
ordenarse los datos
Q2 → valor que está en la posición 2(n + 1)/4 = (n + 1) /2
después de ordenarse los datos
Q3 → valor que está en la posición 3(n + 1)/4 después de
ordenarse los datos
Cuartiles (Cont.)

Reglas para obtener los valores de cuartiles:
1.
2.
3.
Si el punto de posicionamiento resultante es un entero, se
elige la observación que está en esa posición.
Si el punto de posicionamiento está a la mitad del camino
entre dos enteros, se selecciona el promedio de sus
valores correspondientes.
Si el punto de posicionamiento resultante no es ni un
entero ni un valor a la mitad del camino entre dos enteros,
se redondea al punto de posicionamiento entero más
cercano y se selecciona el valor numérico de la
observación correspondiente.
Percentiles

Un percentil da información acerca de cómo se
distribuyen los valores sobre el intervalo, desde el
menor hacia el mayor. Para datos que no tienen
muchos valores repetidos, el p-ésimo percentil
divide los datos en dos partes. Más o menos el p
por ciento de las observaciones tienen valores
menores que el p-ésimo percentil.
Aproximadamente el (100 – p) por ciento de las
observaciones tienen valores mayores que el
p-ésimo percentil.
Percentiles

Definición
–
El p-ésimo percentil es un valor tal que por lo
menos p por ciento de las observaciones son
menores o iguales que este valor y por lo menos
(100 – p) por ciento de las observaciones son
mayores o iguales que este valor.
Cálculo del p-ésimo percentil
Paso 1:
Paso 2:
Paso 3:
Ordene los datos de manera ascendente.
Calcule un índice de localización i
i = (p/100)n.
en donde p es el percentil de interés y n es
la cantidad de observaciones.
a) Si i no es entero, se redondea al valor
entero inmediato mayor y este valor indica
la posición del p-ésimo percentil.
b) Si i sí es entero, el p-ésimo percentil es el
promedio de los valores de los datos
ubicados en los lugares i e i + 1.
Relación de cuartiles y percentiles

Los cuartiles también se pueden calcular a
partir de la fórmula de localización para
percentiles. Usted debe recordar que:
–
–
–
Q1 = primer cuartil o percentil 25
Q2 = segundo cuartil o percentil 50 (también
la mediana)
Q3 = tercer cuartil o percentil 75.
Medidas de variación o dispersión
Una segunda propiedad importante que
describe una serie de datos numéricos es la
variación. La variación es la cantidad de
dispersión en los datos.
Medidas de variación o dispersión
(Cont.)
Las medidas de tendencia central que más a
menudo se usan son:
–
–
–
–
–
Rango
Rango intercuartil
Varianza
Desviación estándar
Coeficiente de variación
Rango

El rango es la diferencia entre la observación mayor
y la menor en una serie de datos. Esto es,
Rango = X mayor – X menor
El rango mide la dispersión total en una serie de
datos. La debilidad del rango es que no toma en
cuenta la forma en que los datos se distribuyen
realmente entre el valor menor y el mayor.
Rango
El rango ignora cómo los datos se
distribuyen.
Rango = X mayor  X menor
7 8 9 10
7 8 9 10
Rango intercuartil

El rango intercuartil es la diferencia entre el tercer y
primer cuartil en una serie de datos. Es decir,
Rango intercuartil = Q3 – Q1
Esta medida sólo considera la dispersión en el 50%
de los datos del medio por lo que no es influenciada
por posibles valores extremos.
Varianza

La varianza toma en cuenta cómo se
distribuyen todos los valores en los datos.
Esta medida evalúa la forma en que los
valores fluctúan alrededor de la media.
Varianza de muestra

Definición
–
La varianza de muestra es aproximadamente el
promedio de las diferencias cuadradas entre
cada una de las observaciones en una serie de
datos y la media. Para una muestra que contiene
n observaciones, X1, X2,…, Xn, la varianza de
muestra (dada por el símbolo S2) puede
escribirse como:
Varianza de muestra
n
S2=

i =1
(Xi  X)2
n 1
2
=
2
(X1  X) + (X2  X) + L + (Xn  X)
n 1
2
Varianza de muestra
X = media aritmética de muestra
n = tamaño de muestra
Xi = iésimo valor de la variable aleatoria X
Varianza de población

Definición
–
La varianza de población es el promedio de las
diferencias cuadradas entre cada una de las
observaciones en una serie de datos y la media.
Para una población que contiene N
observaciones, X1, X2,…, XN, la varianza de
población (dada por el símbolo σ2) puede
escribirse como:
Varianza de población
σ2 =
=

i =1
(Xi μ)
N
(X1  μ)
2
+ (X2  μ)
N
2
+ L + (XN  μ)
2
Varianza de población
μ = media aritmética de muestra
N = tamaño de muestra
Xi = iésimo valor de la variable aleatoria X
Fórmula de calculadora

Las fórmulas para la varianza anteriores son
fórmulas de definición, pero a menudo estas
fórmulas pueden rearreglarse para obtener
otra fórmula que permita hacer los cálculos
más fácilmente.
Desviación estándar

La desviación estándar de muestra o
población (dadas por los símbolos S o σ,
respectivamente) es simplemente la raíz
cuadrada de la varianza de muestra o
población, según sea el caso.
Coeficiente de variación


El coeficiente de variación dado por el
símbolo CV, mide la dispersión en los datos
relativa a la media.
Puede calcularse mediante
CVpob = (σx/μx) 100%
CVmuestra = (Sx/Xx) 100%
Ejemplo


Usted es un analista
financiero de Merill Linch y
ha recopilado los siguientes
precios de cierre de
acciones de nuevas
emisiones de acciones: 17,
16, 21, 18, 13, 16, 12, 11.
Describa la volatilidad de
los precios de las acciones.
Forma

Una tercera propiedad importante de un
conjunto de datos es su forma, la manera en
que los datos se distribuyen. En términos de
forma, la distribución puede ser simétrica o
no. Si la distribución no es simétrica se dice
que es asimétrica o sesgada. En inglés,
“skewed”.
Medidas de forma

Existen algunas medidas para medir la
forma tales como el sesgo y la kurtosis.
Sin embargo, en este módulo no se
cubren. El estudiante interesado
puede accesar las siguientes páginas
electrónicas:
http://en.wikipedia.org/wiki/Skewness
http://en.wikipedia.org/wiki/Kurtosis
Diagrama de Caja y Bigote

A menudo se usa un diagrama de Caja y
Bigote (Box and Whisker Plot) para tener una
idea de la forma de los datos. Este diagrama
es un resumen de cinco números o medidas:
el número menor, el primer cuartil, la
mediana, el tercer cuartil y el número mayor.
Diagrama de Caja y Bigote
Xsmallest Q1 Median Q3
4
6
8
10
Xlargest
12
Interpretación del diagrama de
Caja y Bigote
Sesgo negativo
Q1 Mediana Q3
Simétrica
Q1
Mediana Q3
Sesgo positivo
Q1 Mediana Q3
Forma

Comparación de la media aritmética y la mediana
–
Para describir, en términos generales, la forma del conjunto
de datos se puede comparar la media y la mediana. Si
estas dos medidas son iguales se puede considerar que los
datos son simétricos o que tienen sesgo cero. Sin
embargo, si la media excede la mediana, los datos pueden
describirse por lo común como de sesgo positivo o
sesgados a la derecha. Si la media es menor que la
mediana, los datos se pueden describir como de sesgo
negativo o sesgados a la izquierda.
Tipos de forma



Media > Mediana: sesgo positivo o derecho
Media = Mediana: simetría o de sesgo cero
Media < Mediana: sesgo negativo o izquierdo
Sesgo negativo
Simérica
Media Mediana Moda Media= Mediana=Moda
Sesgo positivo
Moda Mediana Media
Causas de los sesgos

El sesgo positivo surge cuando la media se
incrementa en algunos valores inusualmente
altos; el sesgo negativo ocurre cuando la
media se reduce en algunos valores
extremadamente bajos. Los datos son
simétricos cuando no existen valores
extremos reales en una dirección particular
de forma tal que los valores bajos y altos se
compensan entre sí.
Post-prueba
Conteste la siguiente post-prueba. Si es
necesario estudie nuevamente los conceptos
que todavía no domina. Comprométase con
su proceso de aprendizaje para que pueda
sacarle provecho a este módulo. Las
contestaciones correctas se proveen al final
del módulo. Así las podrás comparar con tus
respuestas en la Pre-prueba.
Respuestas
Post-Prueba
Solución Pre y Post-prueba
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
D
C
D
D
A
C
D
D
C
B
D
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
A
B
D
A
C
C
B
D
B
A
Bibliografía
Anderson, D. R., Sweeney, D. J. y Williams, T. A.
(2005). Statistics for Business and Economics. (9na
Ed.), Ohio: Thomson Learning.
Berenson, Mark L. Y Levine, David M. (1999). Basic
Business Statistics: Concepts and Applications.
(7ma. Ed.) Prentice Hall, New Jersey.
Groebner, David F., Shannon, Patrick W., Fry, Phillip
C. y Smith, Kent D. (2001). Business Statistics: A
Decision-Making Approach. (5ta Ed.) New Jersey:
Prentice Hall.
Sugerencias de uso para el
profesorado
1.
El profesor decidirá de qué manera usar el módulo
dependiendo de las necesidades y
particularidades de los estudiantes.
2.
Como el curso de estadística se enseña en todas
las disciplinas, éste módulo podrá ser usado por
muchos/as profesores/as en múltiples áreas
académicas. Como es de esperarse, las
aplicaciones o ejemplos deberán modificarse para
que sean pertinentes al área de estudio.
Sugerencias de uso para el
profesorado
3. En este módulo se presentarán los conceptos
esenciales sobre el resumen y descripción de datos
numéricos, de una forma lógica, siguiendo los
objetivos específicos que se pretenden lograr con
este módulo de instrucción y que se detallan al
inicio.
4. Para cada uno de estos objetivos específicos, se
han preparado una serie de actividades que el
estudiantado deberá llevar a cabo para que se
logre el propósito del mismo.
Sugerencias de uso para el
profesorado
5.
6.
El tiempo para terminar el módulo dependerá del
estudiante. Sin embargo, el profesor del curso
puede incluir preguntas y ejercicios sobre este
tema en el examen que administrará avaluando o
evaluando la comprensión del mismo de la forma
que mejor entienda.
Sería conveniente para los/as estudiantes,
preguntarle al profesorado de qué manera se
evaluará el contenido del módulo y el peso de este
material en la nota final del curso en cuestión. El/la
profesor/a le notificará a los/as estudiantes en
cuánto tiempo debe terminar de estudiar el módulo.