Download Estadística descriptiva

Document related concepts
no text concepts found
Transcript
Docente: Gustavo Valencia
v.5.0
Clase 2
Temas
Clase 2: Conceptos Estadísticos
para la VI
Tipos de variables
Conceptos básicos
Módulo: Visualización de Información
La distribución
normal
Estadística
descriptiva
Referencias
Docente: Gustavo Valencia Zapata
Conceptos básicos
Conceptos básicos
El principal objetivo de la Eestadística es producir información útil y de interés a
partir de hechos numéricos. Para alcanzar este objetivo se recomienda prestar
atención a básicamente tres cosas [15]:
1. Producir datos de calidad
2. Organizar y analizar estos datos
3. Obtener conclusiones a partir de estos datos
Las conclusiones basadas en datos, sea que se obtengan de manera formal o
informal, tienen una componente de incertidumbre ya que siempre habrá
variabilidad en los datos.
Módulo: Visualización de Información
www.gustavovalencia.com
Conceptos básicos
Los datos varían. fenómenos naturales, el hombre, Los animales, las cosas,
medidas repetidas hechas sobre un mismo ente varían.
Si la variabilidad no existiera viviríamos en el mundo de lo constante, nada nos
sorprendería ni el pasado o el futuro, todo sería igual y la estadística difícilmente
sería la misma; que pensar de aquellas disciplinas modernas que dependen de la
Estadística como la Minería de Datos, Visualización de Información o la Inteligencia
de Negocios.
La Estadística propone métodos para enfrentar situaciones donde la variabilidad y
la incertidumbre están presentes. Con estos métodos se puede analizar datos a fin
de separar y evidenciar la presencia de patrones sistemáticos de la siempre
presente variabilidad
Antes de que los hechos numéricos se usen para bien o para mal se deben producir
datos.
Los datos pueden estar disponibles o se pueden obtener vía experimental o por
observación.
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Conceptos básicos
Ejemplos:
Disponible: Registros médicos de un Hospital
Observación: Contar el número de vehículos que obvian un semáforo en rojo en
una calle determinada. (Proceso pasivo)
Experimental: Comparar la efectividad de dos o más medicamentos. (Proceso
activo)
Para realizar un estudio estadístico se requieren datos, que pueden comprender a
toda la Población de referencia (Censo), o solo a una parte de ella (Muestra).
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Conceptos básicos
Población: Conjunto de todos los elementos que comparten un grupo común de
características, y forman el universo para el propósito del problema de
investigación. La población objetivo es la población particular en que estamos
interesados y sobre el cual se desea obtener algunas conclusiones por medio de
métodos estadísticos
Muestra: Es un subconjunto representativo de la población a partir del cual se
pretende realizar inferencias respecto a la población de donde proceden. Es más
práctico y ventajoso tomar muestras ya que optimiza los recursos disponibles.
Unidad Estadística: Es el elemento o unidad base de la población o de la muestra.
Cualquier miembro de la Población.
Parámetro: Es cualquier valor característico de la población (valores verdadero),
también llamados medidas numéricas que describen características esenciales en
una población de interés.
Variable: Es una característica de un individuo en la población o en la muestra cuya
medida puede cambiar de valor.
Módulo: Visualización de Información
www.gustavovalencia.com
Conceptos básicos
Inferencia Estadística: Es una parte de la estadística cuya finalidad es obtener
conclusiones respecto a la población a partir de datos observados en muestras.
Ejemplo:
El ministerio de transporte de un país, ha recibido continuas quejas de usuarios
denunciando usura en las tarifas del galón de combustible en estaciones de
gasolina. A la fecha existen 5.467 estaciones de gasolina en el país, por lo que el
ministerio decide seleccionar al azar 200 estaciones y registrar el precio del galón
de gasolina el mismo día para ser comparado con la tarifa oficial.
Describa: Población, variable, muestra y proceso de inferencia
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Conceptos básicos
Solución:
 Población: Las 5.467 estaciones de gasolina es la población de interés.
 Variable: El precio del galón de gasolina es la variable de interés.
 Muestra: Las 200 estaciones auditadas son la muestra de la población.
 Proceso de inferencia: La inferencia en este caso podría ser la generalización de la
información de los precios en las estaciones de gasolina de la muestra. En
particular el ministerio de transporte desea conocer la magnitud del problema de
usura presente en la población. Se propone calcular el promedio del valor galón en
las 200 estaciones y compararlo con la tarifa oficial.
Módulo: Visualización de Información
www.gustavovalencia.com
Tipos de variables
Tipos de Variables
Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012.
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Tipos de variables
Los datos que se recopilan como producto de un proceso de experimentación
aleatoria pueden tener una amplia variedad de formas. Dependiendo del tipo de
datos, la estadística proporciona una técnica adecuada para su estudio.
Un conjunto de datos posee una serie de características de interés que pueden ser
visualizadas ya sea en forma numérica o en forma gráfica.
Las variables más comunes en Estadística se dividen en Discretas, Continuas y
Categóricas
Discretas: Son aquellas variables cuyo rango de valores es finito o contable. Por
ejemplo, el número de accidentes en una intersección en un determinado mes. El
numero de hijos según los diferentes estratos socioeconómicos. Surgen de
procesos que involucran conteos.
Módulo: Visualización de Información
www.gustavovalencia.com
Tipos de variables
Continuas: Son aquellas variables cuyo rango de valores es infinito. Es decir, que
tiene tantos valores como puntos hay en un segmento rectilíneo. Por ejemplo,
nivel de presión sanguínea, edad, peso, temperatura, etc. Surgen de procesos que
involucran mediciones.
Cualitativas (Categorías): Sus valores consisten en una serie de clasificaciones. Por
eje plo, gé ero, afilia ió políti a, el i greso se puede lasifi ar e alto , edio
o ajo , los países segú su desarrollo se puede lasifi ar o o
su desarrollado , e vía de desarrollo , Desarrollados .
Según la escala de medición, las más comunes son:
Nominal: Los niveles no tienen un orden natural. Por ejemplo, afiliación religiosa
(Católico, Testigo de Jehová, Protestante) . Género (Femenino, Masculino). Estado
civil (Soltero, Casado, Unión libre). Color (Rojo, blanco, verde). En este tipo de
variables no se puede determinar cual categoría va primero.
Ordinal: Los niveles tienen algún orden, pero no es posible medir la distancia entre
las categorías. Por ejemplo, estrato socio económico, tamaño de un automóvil,
satisfacción (Poco, moderado, muy satisfecho)
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Tipos de variables
Intervalo: Tiene distancias numéricas entre dos niveles cualquiera de la escala. Por
ejemplo, Ingreso (<200000, entre 200000 y 400000, más de 400000). Se usa para
mediciones de naturaleza cuantitativa que se hacen con escalas que tienen como
base un valor de cero arbitrario. Por ejemplo un registro de 0 no indica la
ausencia de temperatura.
Razón: Se usa para mediciones de naturaleza cuantitativa que se hacen con escalas
que tienen como base un valor de cero absoluto. Por ejemplo, longitud del brazo,
estatura, tiempo de duración, número de artículos defectuosos en una línea de
producción, presión sanguínea. Las variables continuas y discretas pertenecen a
esta escala
Si el peso de persona se mide en gramos, kilos o libras, esta constituye una medida
cuantitativa, pero si se mide como bajo, medio o alto es cualitativa.
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
Estadística descriptiva
La Estadística Descriptiva utiliza métodos numéricos y gráficos a fin de buscar
patrones, resumir y presentar la información contenida en un conjunto de datos
Medidas de Centralidad
Medidas de Centralidad:
Media Aritméticas para datos simples: Denota el promedio de un conjunto de
datos. Se calcula dividiendo la suma del conjunto de datos entre el total de ellos.
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Estadística descriptiva
Moda para datos simples: Es el valor de la variable que tiene mayor frecuencia
absoluta, la que más se repite es la única medida de centralización que tiene
sentido estudiar en una variable cualitativa, pues no precisa la realización de
ningún cálculo. Por su propia definición, la moda no es única, pues puede haber
dos o más valores de la variable que tengan la misma frecuencia siendo esta
máxima.
Mediana para datos simples: Es el valor que divide al conjunto de datos
ordenados, en aproximadamente dos partes: 50% de valores son inferiores y otro
50% son superiores
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
Ejemplo: Considere los siguientes datos ordenados asociados a la edad de un club
de lectura. 22, 33, 35, 44, 47, 49, 55, 56, 67, 68, 70, 75
Como es par, entonces la mediana es:
Medidas de Dispersión
La Varianza: Es una medida de dispersión de la información. Se obtiene como el
promedio de los cuadrados de las desviaciones de los valores de la variable
respecto de su media aritmética.
Desviación Estándar: Conocida también como desviación típica, es una medida de
dispersión que se obtiene como la raíz cuadrada de la varianza. Mide cuanto se
separan los datos.
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Estadística descriptiva
Ejemplo: Altura de perros
Un club de amigos de los perros decidió medir la altura de sus mascotas (altura a la
cruz), para identificar las diferencias entre cada raza en esta variable.
Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012.
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
ID
P1
P2
P3
P4
P5
P6
P7
P8
ALTURA DE PERROS
Perro
Altura_cruz (cm)
76
Gran Danés
59
Bóxer
49
Pinscher Alemán
32
Bulldog Inglés
30
Bull Terrier
37
Schnauzer Miniatura
39
Poodle
22
Pinscher Miniatura
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Estadística descriptiva
Es decir que la altura media a la cruz de los 8 perros es de 43 cm.
Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012.
Módulo: Visualización de Información
www.gustavovalencia.com
Visualización de datos
Para calcular la varianza, se debe identificar la diferencia con respecto a la media
para cada perro.
Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012.
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Visualización de datos
La desviación estándar sería:
Lo útil de la desviación estándar es que es más intuitiva. Se puede identificar que
alturas están a una distancia menor que la desviación estándar de la media.
Usando la desviación estándar tenemos una forma de saber lo normal está dar
referente a la altura. Podríamos concluir que el Galgo Inglés tiene una altura muy
grande y el Pinscher Miniatura una muy pequeña, es decir, el Galgo Inglés y el
Pinscher Miniatura no tienen una altura a la cruz estándar.
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012.
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Estadística descriptiva
Tablas de frecuencia
La distribución de frecuencia es un método para organizar y resumir grandes
volúmenes de información. Suele ser útil para la VI al momento de construir
gráficas.
El caso de variables Discretas y Nominales
Ejemplo Quinto grado:
El tutor de un grupo de quinto año escolar, desea visualizar la información de sus
alumnos referida a la EDAD y GENERO. En total el grupo está conformado por 30
estudiantes entre los 8 y 11 años de edad.
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
Variable Discreta:
EDAD
Válidos 8
9
10
11
Total
Frecuencia
3
13
12
2
30
Porcentaje
10,0
43,3
40,0
6,7
100,0
Porcentaje
válido
10,0
43,3
40,0
6,7
100,0
Porcentaje
acumulado
10,0
53,3
93,3
100,0
Fuente: Gustavo Valencia Z. Notas de clase:
Visualización de Información, 2012.
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Estadística descriptiva
Variable Nominal:
GENERO
Válidos F
M
Total
Frecuenci
Porcentaje Porcentaje
a
válido
acumulado
Porcentaje
19
63,3
63,3
63,3
11
36,7
36,7
100,0
30
100,0
100,0
Fuente: Gustavo Valencia Z. Notas de clase:
Visualización de Información, 2012.
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
Se debe tener presente que para cualquier tipo de variare es fundamental que los
posi les grupos te ga
ás de u i dividuo o ele e to aso iados; de lo
contrario la tabla de frecuencia carecería de utilidad.
El caso de variables Continuas
En estos casos se recomienda agrupar los datos bajo el siguiente método:
El número de clases (grupos) se puede calcular con alguna de las siguientes
formulas: La primera es llamada formula de Sturges.
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Estadística descriptiva
Pasos:
1. Determinar el rango (diferencia entre el valor máximo y mínimo).
2. Valores extremos
 Si los datos son enteros, reste 0.5 al mínimo y súmele 0.5 al máximo
 Si los datos tienen una cifra decimal reste 0.05 al mínimo y súmele 0.05 al
máximo
De esta manera de acuerdo al número de cifras decimales
1. Calcule nuevamente el rango (rango ampliado)
2. Calcule el número de clases con alguna de las formulas mencionadas
3. Calcule la amplitud de la siguiente forma:
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
6. Al nuevo mínimo se le suma la amplitud (A) para generar la primera clase
(utilice intervalo semiabierto a derecha); luego al extremo superior de esa
primera clase súmele la amplitud y de esta manera obtendrá la segunda clase.
Repita este procedimiento hasta llegar a los grupos.
7. Ubique a cada individuo o elemento en las respectivas clases.
Ejemplo Quinto grado:
Sobre el mismo grupo de alumnos, el tutor quiere visualizar la información referida
al PESO.
Quinto Grado
Peso en Kg.
20.6 21.4 23.5 24.5 25.3 26 27.3 28 28.6 29.6
30.4 33.1 34.6 34.6
35 35 35.4 36 36.6 36.9
37 38.7 38.7 39.9 40.6 41
42 42 44.5 45.3
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Tablas de frecuencia
Procedimiento:
Paso 1
Paso 2 y 3
Paso 4
Paso 5
Módulo: Visualización de Información
www.gustavovalencia.com
Tablas de frecuencia
Paso 6
Finalmente la tabla de frecuencia sería:
Quinto Grado
Peso en Kg.
GRUPO_PESO
ALUMNOS
[20.55 , 24.68)
4
[24.68 , 28.81)
5
[28.81 , 32.94)
3
[32.94 , 37.07)
9
[37.07 , 41.21)
5
[41.21 , 45.34)
4
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Tablas de frecuencia
Fuente: Gustavo Valencia Z. Notas de clase:
Visualización de Información, 2012.
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
Tablas de contingencia (Cross Tables)
Cuando en las unidades muéstrales se observan múltiples características
registradas como variables cualitativas, la información puede resumirse usando
una tabla de contingencia.
Por ejemplo, una tabla 2X2 o de doble entrada luciría de la siguiente manera:
Enfermedad Coronaria
Fumador
Módulo: Visualización de Información
Si
No
Total
Si
166
50
216
No
1176
513
1689
Total
1342
563
1905
Docente: Gustavo Valencia Zapata
Estadística descriptiva
Recordemos el caso relacionada al tipo de sangre estudiado en la actividad al inicio
del modulo de VI. En este caso es una tabla 2X4.
Tabla de contingencia GENERO * GRUPO_EDAD
Recuento
GRUPO_EDAD
GENERO Hombre
Mujer
Total
20-29
171
30-39
109
40-49
102
50-59
27
Total
409
196
121
69
28
414
367
230
171
55
823
El uso de tablas de contingencias es el corazón del análisis estadístico de datos
cualitativos [16] y es utilizado ampliamente en pruebas estadística son
paramétricas [17].
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
Tablas de contingencia (Cross Tables)
Cuando en las unidades muéstrales se observan múltiples características
registradas como variables cualitativas, la información puede resumirse usando
una tabla de contingencia.
Por ejemplo, una tabla 2X2 o de doble entrada luciría de la siguiente manera:
Enfermedad Coronaria
Fumador
Módulo: Visualización de Información
Si
No
Total
Si
166
50
216
No
1176
513
1689
Total
1342
563
1905
Docente: Gustavo Valencia Zapata
Distribución Normal
Función de densidad de probabilidad Normal (continuos y discretos)
Esta distribución juega un papel clave en el desarrollo de la inferencia estadística,
pues muchas de las herramientas usadas en la toma de decisiones o en las pruebas
de hipótesis, tienen su fundamento en esta distribución.
Un gran número de estudios pueden ser aproximados usando una distribución
normal. Algunas variables físicas, datos meteorológicos (temperatura,
precipitaciones, presión atmosférica, etc.), mediciones en organismos vivos, notas
o puntajes en pruebas de admisión o de aptitud, errores en instrumentación,
proporciones de errores en diversos procesos, etc.
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
Esta distribución es absolutamente simétrica alrededor de su media.
Variación de la distribución
normal en función de la media
Variación de la distribución normal en función
de la desviación estándar
Fuente: Portal Biomédico., 2010.
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Estadística descriptiva
Retomando el ejemplo de los niños de quinto grado, nos podríamos pregunta si su
distribución en relación a las variables peso y edad se comportan como una
distribución normal. Un primer paso es construir un histograma para cada una de
estas variables.
Fuente: Gustavo Valencia Z. Notas de clase:
Visualización de Información, 2012.
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
Fuente: Gustavo Valencia Z. Notas de clase:
Visualización de Información, 2012.
¿Podríamos decir que estas variables se distribuyen normalmente?
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Estadística descriptiva
Retomando nuevamente la definición y conceptos teóricos de la función de
densidad de probabilidad Normal, podríamos enunciar de una forma más formal:
Sea X una variable aleatoria continua. Se dice que X se distribuye como una normal
con parámetros  y  (estos parámetros determinan el centro y la dispersión de la
distribución y la caracterizan completamente), lo cual se escribe �~� µ, � , si X
tiene función densidad de probabilidad dada por,
� =
− �−µ / �
�
�
, −∞ < � < ∞, � >
Por medio del cálculo se puede probar que realmente esta función es función de
densidad de probabilidad. Además, es simétrica alrededor de µ. Tiene forma
acampanada, el área bajo la curva (considerando todo el dominio de la v.a)
siempre es igual a 1.
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
Si X es una v.a. normal con parámetros  y , la probabilidad de que
calcula así:
�
<�<
=
− �−µ / �
�
�
<�<
se
�
Para calcular probabilidades relacionadas con la normal se hace necesario utilizar
tablas estándar de normalidad. Esto es porque las integrales que surgen en este
tipo de problemas son extremadamente difíciles de resolver.
Afortunadamente, cualquier variable aleatoria normal se puede transformar en
una normal con media = 0 y varianza = 1; esto se logra por medio de la siguiente
transformación.
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Estadística descriptiva
Suponga que X es una variable aleatoria normal con parámetros  y . La variable
aleatoria Z, se define como:
�−
~� ,

=
Pero ¿Es equivalente la probabilidad original a la obtenida con esta
transformación? La respuesta es afirmativa, ya que,
� � <�<�
=
�
�
−
/
�
�=
�
�
=
�
�
� ,
− �−µ / �
�
�
�,
�=� � <
<�
Una variable aleatoria X que se transforme de esta manera se dice que es una
variable aleatoria estandarizada. Una vez una variable este estandarizada ya no es
necesario resolver la integral ya que sus valores están tabulados.
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
Ejemplo: La resistencia a la comprensión de una serie de muestras de cemento
puede modelarse por medio de una distribución normal con una resistencia media
de 6000 kg y una desviación estándar de 100 kg por centímetro cuadrado ¿Cuál es
la probabilidad de que la resistencia de una muestra sea inferior a 6200 kg por
centímetro cuadrado?
Solución
Sea X: Resistencia a la compresión de una muestra de cemento. Por la información
del problema se sabe que �~�
,
. La probabilidad pedida es,
P X<
Entonces,
� �<
De esta forma se estandariza.
�
Módulo: Visualización de Información
=�
<
�−
→�
= .9
−
<
499
�
:
Docente: Gustavo Valencia Zapata
Estadística descriptiva
La distribución normal cumple la siguiente regla:
• El intervalo µ   contiene aproximadamente el 68.2% de las mediciones.
• El intervalo   2 contiene aproximadamente el 95.4% de las mediciones.
• El intervalo   3 contiene algo más del 99.7% de las mediciones.
Fuente: Juan C. Salazar. Elementos de probabilidad y estadística. Notas de clase. Universidad Nacional de
Colombia. Sede Medellín, 2010.
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
El Diagrama Boxplot
En 1977, John Tukey publicó un método eficiente para mostrar cinco números
representativos o resumen de un conjunto de datos cuantitativos. La gráfica fue
llamada Boxplot (Diagrama de caja y bigotes), la cual resume los siguientes
elemento o medidas estadísticas.
•
•
•
•
•
Mediana
Percentiles de interés (25%, 50% y 75%)
Máximo
Mínimo
Valores extremos
El Boxplot representa la distribución de una variable continua, donde por medio de
los cinco valores, se representan los conceptos de:
• Tendencia Central
• Dispersión
• Simetría
Este gráfico es ideal para representar una desviación de la distribución normal.
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Estadística descriptiva
Este gráfico es ideal para representar una desviación de la distribución normal.
• Mientras más grande es la caja y los bigotes, más dispersa es la distribución de
los datos
• La distancia entre las medidas puede variar, pero no la cantidad de elementos,
ya que entre una y la otra es aproximadamente la misma.
• La línea de la mediana indica la simetría .
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
Boxplot para la variable Peso.
Fuente: Gustavo Valencia Z. Notas de clase:
Visualización de Información, 2012.
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Estadística descriptiva
Boxplot para la variable Edad.
Fuente: Gustavo Valencia Z. Notas de clase:
Visualización de Información, 2012.
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
Boxplot y distribución normal
Fuente: www.answers.com
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Estadística descriptiva
Evaluación del supuesto de normalidad.
Cuando se está en presencia de una muestra aleatoria, es ciertamente importante
determinar si proviene o no de una población la cual se distribuye normalmente.
Existen pruebas gráficas y estadísticas para determinar si un conjunto de n datos
sobre una variable provienen o no de una distribución normal.
Método gráfico: Q-Q Plot o gráfico de normalidad. Este método compara los
valores empíricos (o muestrales) de los cuartiles con los valores reales (o teóricos)
de los cuartiles de una normal. Si los datos provienen de una distribución normal,
el gráfico de los cuartiles empíricos contra los reales lucirá como una línea recta.
Si los datos se distribuyen normalmente los puntos en el gráfico caen de manera
muy aproximada sobre una línea recta con intercepto µ y pendiente σ.
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
Fuente: Juan C. Salazar. Elementos de probabilidad y estadística. Notas de clase. Universidad Nacional de
Colombia. Sede Medellín, 2010.
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Estadística descriptiva
Prueba de Normalidad Shapiro-Wilk (No Paramétrica)
Para probar normalidad univariada este test es el que más se recomienda.
Es de resaltar que este test no pertenece a la familia de tests de Kolmogorov.
Si solo se dispone de tablas para comparar este estadístico, se recomienda su uso
cuando el tamaño maestral es menor o igual a 50 aunque los paquetes estadísticos
actuales están en capacidad de calcularlo para muestras más grandes.
El alcance de este curso no abordará el cálculo analítico de esta prueba de
normalidad, sin embargo, en el texto de Conover de estadística No Paramétrica se
encuentra en detalle el desarrollo analítico.
Las hipótesis de esta prueba son:
H0 (hipótesis nula): F(x) es una función de distribución normal, con media y
varianza no especificadas.
H1 (hipótesis alternativa): F(x) no es normal.
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
Para la variable EDAD rechazo H0 y para PESO no se puede rechazar H0
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Estadística descriptiva
Desde R es posible calcular el estadístico y valor p dela prueba Shapiro Wilk.
> EDAD=c(9,10,9,10,9,9,10,10,9,9,10,9,8,10,9,10,11,
+ 9,10,11,9,10,9,9,9,8,10,10,8,10)
> shapiro.test(EDAD)
Shapiro-Wilk normality test
data: EDAD
W = 0.86, p-value = 0.001014
> PESO=c(33.1,35.4,36.6,45.3,37.0,38.7,23.5,34.6,44.5,
+ 41.0,35.0,36.2,27.3,28.6,39.9,36.9,38.7,21.4,42.0,30.4,25.3)
> shapiro.test(PESO)
Shapiro-Wilk normality test
data: PESO
W = 0.9582, p-value = 0.4811
Módulo: Visualización de Información
www.gustavovalencia.com
Estadística descriptiva
Índice de Asimetría
La asimetría de una distribución hace referencia al grado en que los datos se
reparten por encima (derecha) y por debajo (izquierda) de la tendencia central
Índice de Curtosis
La Curtosis hace referencia al grado de apuntamiento de la distribución.
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata
Estadística descriptiva
Podríamos mencionar que si el valor del índice de Asimetría es 0±0.5, se habla de
una posible distribución normal aunque es indispensable apoyarse en otras
verificaciones. Si el valor del índice de Curtosis es 0±0.5, se dice que los datos están
muy bien distribuidos.
Se pudiera pensar que si la media, mediana y moda de una variable presentaran
valores muy similares, se dice que los datos se distribuyen normalmente.
Realizar la actividades asociadas al archivo Actividad 003_Rostros .pdf
Tarea 005. Realizar las actividades sobre Cartas de control.
Módulo: Visualización de Información
www.gustavovalencia.com
Referencias
[15] Juan C. Salazar., 2010. Elementos de probabilidad y estadística. Notas de clase.
Universidad Nacional de Colombia. Sede Medellín.
[16] Alan Agresti. Categorical Data. Universidad Nacional de Colombia. Wiley, 2002.
[17] W. J. Conover. Practical Nonparametric Statistic. Wiley, 1999.
Módulo: Visualización de Información
Docente: Gustavo Valencia Zapata