Download Prof. Magdalena Cladera APLICACIONES DE INFERENCIA

Document related concepts

Estadístico muestral wikipedia , lookup

Varianza wikipedia , lookup

Prueba t de Student wikipedia , lookup

Distribución t de Student wikipedia , lookup

Distribución normal wikipedia , lookup

Transcript
INTRODUCCIÓN A LA ECONOMETRÍA
(LE Y LADE, mañana)
Prof. Magdalena Cladera
APLICACIONES DE INFERENCIA ESTADÍSTICA DE EXCEL Y SPSS
CONTENIDOS
APLICACIONES DE INFERENCIA ESTADÍSTICA DE EXCEL........................................................................ 2
1. Probabilidad................................................................................................................................................... 2
1.1. La distribución normal ............................................................................................................................ 3
1.2. La distribución chi-cuadrado .................................................................................................................. 5
1.3. La distribución t de Student.................................................................................................................... 6
1.4. La distribución F de Snedecor ............................................................................................................... 7
2. Estimación puntual ........................................................................................................................................ 9
2.1. Estimación de la media .......................................................................................................................... 9
2.2. Estimación de la varianza ...................................................................................................................... 9
2.3. Estimación de la proporción................................................................................................................. 10
2.4. Cálculo de estimaciones con la herramienta para el análisis de datos Estadística Descriptiva.......... 11
3. Estimación por intervalos ............................................................................................................................ 13
3.1. Intervalos de confianza para la media de una población normal con varianza desconocida.............. 13
3.2. Intervalos de confianza para la media de una población normal con varianza conocida.................... 14
4. Contrastación de hipótesis .......................................................................................................................... 14
4.1. Contraste de igualdad de varianzas de dos poblaciones normales .................................................... 14
4.2. Contraste de igualdad de medias suponiendo varianzas conocidas................................................... 15
4.3. Contraste de igualdad de medias suponiendo varianzas desconocidas pero iguales ........................ 16
4.4. Contraste de igualdad de medias suponiendo varianzas desconocidas y distintas............................ 17
APLICACIONES DE INFERENCIA ESTADÍSTICA DE SPSS........................................................................ 19
1. Ajuste de la distribución de una variable a la normal .................................................................................. 19
2. Estimación de parámetros........................................................................................................................... 20
3. Contrastación de hipótesis .......................................................................................................................... 21
ANEXO 1. Generación de números aleatorios................................................................................................ 25
ANEXO 2. Obtención de histogramas ............................................................................................................. 26
ANEXO 3. Variables en el archivo EDT2000 .................................................................................................. 27
ANEXO 4. Guía para el trabajo propuesto ...................................................................................................... 27
Bibliografía....................................................................................................................................................... 28
APLICACIONES DE INFERENCIA ESTADÍSTICA DE EXCEL
1. PROBABILIDAD
Excel dispone de varias funciones que permiten trabajar con distribuciones de probabilidad.
Para utilizar una función se deben seguir los siguientes pasos:
1) Seleccionar la opción Función en el menú Insertar (Figura 1) o hacer clic sobre el icono
de la barra
de fórmulas (Figura 2).
2) Entonces se abrirá una ventana en la que se pueden seleccionar distintos tipos de funciones.
Elegiremos las funciones Estadísticas (Figura 3). Dentro de la categoría de funciones Estadísticas
seleccionaremos la función concreta que nos interese, dependiendo del tipo de distribución con el que
vayamos a trabajar.
Figura 1
Figura 2
2
Figura 3
A continuación se presentan las principales funciones que pueden utilizarse dependiendo del tipo de
distribución de probabilidad con el que se esté trabajando.
1.1. La distribución normal
DISTR.NORM(x, µ, σ, acum)
Si acum = VERDADERO, esta función halla el valor de la función de distribución en el punto x, para una
variable aleatoria normal de media µ y desviación típica σ. Es decir, la P(X<x).
Si acum = FALSO, halla el valor correspondiente a la función de densidad.
Por ejemplo, se tiene una variable aleatoria normal con media 5000 y desviación típica 100
la probabilidad de que esta variable tome un valor inferior a 4950? (Figura 4).
10 . ¿Cuál es
DISTR.NORM.INV(probabilidad, µ, σ)
Halla el valor que deja a la izquierda una probabilidad determinada, en la distribución de una variable
normal de media µ y desviación típica σ.
Por ejemplo, se tiene una variable aleatoria normal con media 5000 y desviación típica 100 10 . ¿Cuál es
el valor que deja a la izquierda una probabilidad de 0,025? Es decir, ¿Cuál es el valor, x, tal que la P(X<x) =
0,025? (Figura 5).
DISTR.NORM.ESTAND(z)
Halla el valor de la función de distribución en el punto z, para una variable aleatoria normal de media 0 y
desviación típica 1. Es decir, la P(Z<z).
Por ejemplo, ¿cuál es la probabilidad de que una variable normal estándar tome un valor inferior a –1,96?
(Figura 6).
DISTR.NORM.ESTAND.INV(probabilidad)
Halla el valor de la distribución de una variable aleatoria normal estándar, que deja a la izquierda una
probabilidad determinada.
Por ejemplo, ¿cuál es el valor que deja a la izquierda una probabilidad de 0,975 en la distribución de una
variable normal estándar? (Figura 7).
3
Figura 4
Figura 5
4
Figura 6
Figura 7
1.2. La distribución chi-cuadrado
DISTR.CHI(x, grados de libertad)
Halla el complementario del valor de la función de distribución en el punto x, para una variable aleatoria con
distribución chi-cuadrado de un determinado número de grados de libertad. Es decir, la P( χ g2.l . >x).
Por ejemplo, ¿cuál es la probabilidad de que una variable aleatoria con distribución chi-cuadrado de 10
grados de libertad, tome un valor superior a 15? (Figura 8).
PRUEBA.CHI.INV(probabilidad, grados de libertad)
Halla el valor de la distribución de una variable aleatoria con distribución chi-cuadrado con un determinado
número de grados de libertad, que deja a la derecha una probabilidad determinada.
Por ejemplo, ¿cuál es el valor que deja a la derecha una probabilidad de 0,025 en la distribución de una
variable chi-cuadrado con 10 grados de libertad? (Figura 9).
5
Figura 8
Figura 9
1.3. La distribución t de Student
DISTR.T(x, grados de libertad, colas)
Halla el complementario del valor de la función de distribución en el punto x, para una variable aleatoria con
distribución t de Student con un determinado número de grados de libertad, considerando una o dos colas,
según se indique.
Si se considera una cola, devuelve la probabilidad representada en el gráfico de la Figura 10 (a), y si se
consideran dos colas devuelve la probabilidad representada en el gráfico de la Figura 10 (b).
Por ejemplo, ¿cuál es la probabilidad de que una variable aleatoria con distribución t de Student con 10
grados de libertad, tome un valor inferior a –2 o superior a 2? (Figura 11).
Figura 10
x
x
-x
(a)
(b)
6
DISTR.T.INV(probabilidad, grados de libertad)
Para una distribución t de Student con un determinado número de grados de libertad, halla el valor que
deja en los extremos de la distribución una probabilidad determinada.
Por ejemplo, ¿cuál es el valor que deja en los extremos de una distribución t de Student con 10 grados de
libertad una probabilidad del 0,05 (repartida 0,025 en cada cola)? (Figura 12).
Figura 11
Figura 12
1.4. La distribución F de Snedecor
DISTR.F(x, grados de libertad 1, grados de libertad 2)
Halla el complementario del valor de la función de distribución en el punto x, para una variable aleatoria con
distribución F, con grados de libertad 1 en el numerador y grados de libertad 2 en el denominador. Es
decir, la P(F>x).
Por ejemplo, ¿cuál es la probabilidad de que una variable aleatoria con distribución F, con 6 y 12 grados de
libertad, tome un valor superior a 3? (Figura 13).
DISTR.F.INV(probabilidad, grados de libertad 1, grados de libertad 2)
Para una distribución F con grados de libertad 1 en el numerador y grados de libertad 2 en el
denominador, halla el valor que deja a la derecha de la distribución una probabilidad determinada.
Por ejemplo, ¿cuál es el valor que deja por encima una probabilidad de 0,05 en una distribución F(6, 12)?
(Figura 14).
7
Figura 13
Figura 14
8
2. ESTIMACIÓN PUNTUAL
Una vez que se ha seleccionado la muestra y se tienen los datos en una hoja de cálculo, se pueden utilizar
diversas funciones o herramientas para estimar el valor de determinados parámetros. Si para la estimación
de algún parámetro no se dispone de una función, se puede crear una fórmula para calcularlo a partir de los
datos muestrales.
2.1. Estimación de la media
PROMEDIO(rango de datos)
Esta función calcula la media aritmética de un rango de datos. Si se aplica esta función a los datos
muestrales de una determinada variable, se obtiene la media muestral, es decir, una estimación de la media
poblacional de dicha variable.
Por ejemplo, en el archivo EDT2000.xls se tiene la información proporcionada por una encuesta realizada a
una muestra de 100 turistas con el objetivo de estimar varias características de los turistas que visitaron las
Islas Baleares en el año 2000, entre las que se incluye el gasto turístico. En este archivo, la variable DÍAS
recoge los días que cada turista pasó en las Islas. Para estimar la estancia media de los turistas que
visitaron las Islas Baleares en 2000, se puede calcular la media de la estancia de los 100 turistas de la
muestra (Figura 15).
Figura 15
2.2. Estimación de la varianza
VAR(rango de valores)
Esta función, aplicada a datos muestrales, calcula la varianza muestral corregida ( Ŝ 2 ).
Siguiendo con el ejemplo anterior, la varianza muestral corregida de la variable DÍAS se calcula como
estimación de la varianza poblacional de esta variable (Figura 16).
9
Figura 16
VARP(rango de valores)
Esta función, aplicada a datos muestrales, calcula la varianza muestral ( S 2 ).
Siguiendo con el ejemplo anterior, puesto que la muestra es grande se puede utilizar la varianza muestral
de la variable DÍAS como estimación de la varianza poblacional de esta variable (Figura 17). Puede
observarse que, puesto que la muestra es grande, el valor de la varianza muestral y el de la varianza
muestral corregida son muy similares.
Figura 17
2.3. Estimación de la proporción
Para calcular el valor de la proporción muestral puede hacerse lo siguiente:
ƒ Si se tiene una variable que sólo toma dos valores, 0 ó 1, se puede utilizar la función PROMEDIO,
puesto que la proporción muestral es igual a la media muestral.
Por ejemplo, en el archivo EDT2000.xls se tiene la variable VOLVER, que toma valor 1 si el turista dice
que piensa volver de vacaciones a las Islas y valor 0 si responde que no. La media de los valores
muestrales de esta variable es la proporción muestral (Figura 18).
ƒ Si se tiene una variable que toma más de dos valores puede utilizarse la función FRECUENCIA(datos,
grupos) para obtener el número de observaciones de cada valor y, entonces, dividiendo por el tamaño
muestral calcular la proporción de individuos que presentan cada uno de los valores de la variable.
Por ejemplo, la variable NACIONALIDAD tienen cuatro valores posibles. La proporción muestral de
turistas de cada nacionalidad, que aparece en la siguiente tabla, se calcula dividiendo por el tamaño
muestral (100) el número de observaciones con cada valor (Figura 19):
10
Nacionalidad
Alemana (1)
Británica (2)
Española (3)
Otras (4)
Proporción muestral
36/100 = 0,36
36/100 = 0,36
8/100 = 0,08
20/100 = 0,20
Figura 18
Figura 19
2.4. Cálculo de estimaciones con la herramienta para el análisis de datos Estadística Descriptiva
La herramienta para el análisis de datos Estadística Descriptiva permite obtener los valores de un conjunto
de características de un determinado rango de datos.
Antes de utilizar cualquier herramienta de análisis de datos hay que activar esta componente. Para ello, hay
que seleccionar la opción Complementos en el Menú Herramientas. Entonces, se abre un cuadro de diálogo
en el que hay que activar la opción Herramientas para análisis (Figura 20).
11
Figura 20
Una vez activada, para utilizar esta herramienta hay que seleccionar la opción Análisis de datos en el menú
Herramientas. Se abrirá un cuadro de diálogo en el que seleccionamos la herramienta con la que vamos a
trabajar, en nuestro caso, Estadística Descriptiva (Figura 21).
Figura 21
En la ventana de Estadística Descriptiva (Figura 23), si se activa la casilla Resumen de Estadísticas, se
generará una tabla de resultados con los valores de las siguientes medidas: media ( y ), error típico de la
2
media ( Ŝ n ), mediana, moda, desviación estándar ( Ŝ ), varianza ( Ŝ ), curtosis, coeficiente de asimetría,
rango, mínimo, máximo, suma, cuenta, k-ésimo mayor, k-ésimo menor. Si se activa la casilla Nivel de
confianza para la media, se incluirá en la tabla de resultados la mitad de la amplitud del intervalo de
confianza para la media, correspondiente al nivel de confianza que se haya indicado (se explicará con más
detalle en el apartado 3).
Por ejemplo, si se aplica esta herramienta a la variable DÍAS (Figura 23), se obtienen los resultados de la
siguiente tabla:
12
Figura 22
DÍAS
Media
Error típico
Mediana
Moda
Desviación estándar
Varianza de la muestra
Curtosis
Coeficiente de asimetría
Rango
Mínimo
Máximo
Suma
Cuenta
Nivel de confianza(95,0%)
9,98
0,4175397
7
7
4,1753969
17,433939
0,1922893
0,8749896
18
3
21
998
100
0,8284895
En esta tabla aparecen sombreados los valores de la media muestral y de la varianza muestral corregida.
Figura 23
3. ESTIMACIÓN POR INTERVALOS
3.1. Intervalos de confianza para la media de una población normal con varianza desconocida
En la ventana de la herramienta de análisis de datos Estadística Descriptiva (Figura 23), si se activa la
casilla Nivel de confianza para la media, se incluirá en la tabla de resultados la mitad de la amplitud del
intervalo de confianza para la media, correspondiente al nivel de confianza que se haya indicado. El
intervalo de confianza se calcula bajo el supuesto de que la población es normal con varianza desconocida,
es decir, que se calcula el intervalo de confianza que se corresponde con la siguiente expresión:
ˆ

α 2 S 
IC(µ) =  y ± t n −1

n

ˆ
α 2 S
, es decir, la mitad de la amplitud del intervalo. Entonces,
El valor que proporciona el programa es t n −1
n
para obtener los extremos del intervalo, sumamos y restamos a la media muestral ese valor.
Por ejemplo, en la tabla de resultados para la variable DÍAS de la Figura 22, se tiene que la media muestral
es igual a 9,98 y, en la fila correspondiente al intervalo de confianza para la media del 95% se tiene el valor
0,828. Entonces, el IC95%(µ) es:
13
IC95%(µ) = [9,98 – 0,828; 9,98+0,828] = [9,15; 10,80]
3.2. Intervalos de confianza para la media de una población normal con varianza conocida
La Función INTERVALO.CONFIANZA(alfa;desv. estándar;tamaño) permite calcular intervalos de
confianza, de nivel de confianza (1 – alfa)100%, para la media de una población normal con desviación
típica conocida y para un determinado tamaño muestral. El valor que proporciona esta función es la mitad
σ
de la amplitud del intervalo, es decir: Z
.
α 2 n
Por ejemplo, si se supone que la varianza de los días de estancia es 16, la función
INTERVALO.CONFIANZA(alfa;desv. estándar;tamaño), utilizando un nivel de confianza del 95%,
devuelve el valor 0,784 (Figura 24). Entonces, el intervalo de confianza para la media es:
IC95%(µ) = [9,98 – 0,784; 9,98+0,784] = [9,19; 10,76]
Figura 24
4. CONTRASTACIÓN DE HIPÓTESIS
4.1. Contraste de igualdad de varianzas de dos poblaciones normales
La herramienta de análisis de datos Prueba F para varianzas de dos muestras, permite contrastar la
hipótesis de igualdad de varianzas de dos poblaciones normales. Para acceder a ella hay que seleccionar la
opción Análisis de datos del menú Herramientas.
Por ejemplo, en el archivo EDT2000 hay una hoja en la que están organizados, de forma separada, los
datos de los turistas repetidores (que han visitado las Islas Baleares más de una vez) y los de los no
repetidores. Si se utiliza la Prueba F para varianzas de dos muestras (Figura 25), para contrastar la
hipótesis de igualdad de las varianzas del gasto realizado por los turistas repetidores (GASTO R) y los no
repetidores (GASTO NR), se obtiene la tabla de la Figura 26. En esta tabla se tienen las estimaciones de las
medias y las varianzas del gasto, el número de observaciones en cada muestra y los grados de libertad. F
es el estadístico de contraste, P(F<=f) una cola es el p-valor del contraste y Valor crítico para F (una cola)
es el valor de las tablas con el que se compara el estadístico de contraste. El contraste se hace unilateral
por la derecha.
14
Figura 25
Figura 26
Media
Varianza
Observaciones
Grados de libertad
F
P(F<=f) una cola
Valor crítico para F (una cola)
GASTO R GASTO NR
66.444738 75.055932
1019.6764 299.04782
63
37
62
36
3.4097437
7.567E-05
1.6677131
4.2. Contraste de igualdad de medias suponiendo varianzas conocidas
La herramienta de análisis de datos Prueba z para medias de dos muestras, permite contrastar la hipótesis
de igualdad de medias de dos poblaciones normales. Para acceder a ella hay que seleccionar la opción
Análisis de datos del menú Herramientas.
Por ejemplo, se puede contrastar la hipótesis de que el gasto turístico medio de los turistas repetidores y los
no repetidores es el mismo, suponiendo que la varianza de esta variable es 1000 para los turistas
repetidores y 300 para los no repetidores (Figura 27). Los resultados de este contraste son los de la tabla de
la Figura 28. En esta tabla se tienen las estimaciones de las medias, el valor de las varianzas poblacionales
conocidas, el número de observaciones en cada muestra y el valor de la diferencia entre las medias según
la hipótesis nula (0). Z es el estadístico de contraste, P(Z<=z) una cola es el p-valor del contraste si se hace
unilateral y Valor crítico para Z (una cola) es el valor de las tablas con el que se compara el estadístico de
contraste si el contraste es unilateral. Las dos últimas filas son el p-valor y el valor de tablas si el contraste
es bilateral (en la fila que aparece sombreada en la figura se genera un error puesto que es el p-valor y no
el valor crítico).
Este contraste también puede utilizarse para contrastar la hipótesis de igualdad de medias de dos
poblaciones no normales, pero utilizando muestras grandes. En este caso el valor que se utilizará para la
varianza de cada población será el de la varianza muestral. También puede utilizarse para contrastar la
hipótesis de igualdad de proporciones en dos poblaciones.
15
Figura 27
Figura 28
Media
Varianza (conocida)
Observaciones
Diferencia hipotética de las medias
z
P(Z<=z) una cola
Valor crítico de z (una cola)
Valor crítico de z (dos colas)
Valor crítico de z (dos colas)
GASTO NR GASTO R
75.055932 66.444738
300
1000
37
63
0
1.7584443
0.0393359
1.644853
0.0786719
1.9599611
4.3. Contraste de igualdad de medias suponiendo varianzas desconocidas pero iguales
La herramienta de análisis de datos Prueba t para dos muestras suponiendo varianzas iguales, permite
contrastar la hipótesis de igualdad de medias de dos poblaciones normales, bajo el supuesto de que las
varianzas poblacionales son desconocidas pero iguales. Para acceder a ella hay que seleccionar la opción
Análisis de datos del menú Herramientas.
Por ejemplo, se puede contrastar la hipótesis de que el gasto turístico medio de los turistas repetidores y los
no repetidores es el mismo, en el caso habitual de que no se conozcan las varianzas poblacionales, pero
suponiendo que éstas son iguales para las dos poblaciones (Figura 29). Los resultados de este contraste
son los de la tabla de la Figura 30. La presentación es la misma que en el caso de la prueba z, cambiando
únicamente el tipo de distribución utilizada, de manera que aparecen los grados de libertad para la
distribución t; y, además, se obtiene la estimación de la varianza conjunta de ambas poblaciones (Varianza
agrupada).
16
Figura 29
Figura 30
Media
Varianza
Observaciones
Varianza agrupada
Diferencia hipotética de las medias
Grados de libertad
Estadístico t
P(T<=t) una cola
Valor crítico de t (una cola)
P(T<=t) dos colas
Valor crítico de t (dos colas)
GASTO NR GASTO R
75.055932 66.444738
299.04782 1019.6764
37
63
754.9557
0
98
1.5131214
0.0667336
1.6605509
0.1334672
1.9844674
4.4. Contraste de igualdad de medias suponiendo varianzas desconocidas y distintas
La herramienta de análisis de datos Prueba t para dos muestras suponiendo varianzas desiguales, permite
contrastar la hipótesis de igualdad de medias de dos poblaciones normales, bajo el supuesto de que las
varianzas poblacionales son desconocidas y distintas. Para acceder a ella hay que seleccionar la opción
Análisis de datos del menú Herramientas.
Por ejemplo, se puede contrastar la hipótesis de que el gasto turístico medio de los turistas repetidores y los
no repetidores es el mismo, en el caso habitual de que no se conozcan las varianzas poblacionales, y
suponiendo que éstas son diferentes para las dos poblaciones (Figura 31). Los resultados de este contraste
son los de la tabla de la Figura 32. La presentación es la misma que en el caso anterior, aunque aquí no
aparece la estimación de la varianza conjunta de ambas poblaciones, puesto que se supone que las
varianzas son diferentes.
17
Figura 31
Figura 32
Media
Varianza
Observaciones
Diferencia hipotética de las medias
Grados de libertad
Estadístico t
P(T<=t) una cola
Valor crítico de t (una cola)
P(T<=t) dos colas
Valor crítico de t (dos colas)
GASTO NR GASTO R
75.055932 66.444738
299.04782 1019.6764
37
63
0
98
1.7480303
0.0417953
1.6605509
0.0835906
1.9844674
18
APLICACIONES DE INFERENCIA ESTADÍSTICA DE SPSS
SPSS es una aplicación para el análisis estadístico y econométrico de datos. A continuación se presentan
algunas de las herramientas básicas que ofrece este programa para la inferencia estadística.
Para convertir un archivo de Excel en un archivo de SPSS es suficiente con abrir el archivo desde este
programa y guardarlo. Si el archivo tiene varias hojas se tiene que indicar cuál es la que se quiere abrir, y si
sólo quieren utilizarse parte de los datos hay que indicar cuál es el rango que se desea importar.
Por ejemplo, en el archivo EDT2000, los datos están en la hoja EDT2000 y en el rango A1:K101 (Figura 33).
Figura 33
1. AJUSTE DE LA DISTRIBUCIÓN DE UNA VARIABLE A LA NORMAL
Habitualmente, poder suponer que las variables con las que se trabaja siguen una distribución normal,
simplifica los instrumentos estadísticos que tienen que utilizarse para hacer inferencias sobre las
características de estas variables.
Un primer análisis que puede ayudar a decidir si es posible suponer que una determinada variable se
distribuye normalmente, consiste en representar gráficamente los valores muestrales de esa variable
mediante un histograma y ver como se ajusta a la curva normal.
Para obtener esta representación gráfica mediante SPSS hay que seleccionar la opción Histograma del
menú Gráfico. Se abre una ventana en la que hay que elegir la variable que se quiere graficar y activar la
casilla Mostrar curva normal (Figura 34).
Figura 34
19
2. ESTIMACIÓN DE PARÁMETROS
Con SPSS, se pueden obtener determinados estadísticos muestrales utilizando la opción Estadísticos
Descriptivos del menú Analizar.
Seleccionando la opción Descriptivos se abre una ventada en la que se elige la variable o las variables que
se van a utilizar (Figura 35). Pulsando el botón opciones se pueden elegir los estadísticos que se quieren
obtener (Figura 36).
Utilizando como ejemplo la variable DÍAS, se obtienen los resultados que aparecen en la Figura 37. En esta
tabla se tiene el número de observaciones, la media muestral, el error estándar de la media muestral, la raíz
de la varianza muestral corregida y la propia varianza muestral corregida.
Figura 35
Figura 36
Figura 37
Estadísticos descriptivos
DÍAS
N válido (según lista)
N
Estadístico
100
100
Media
Estadístico Error típico
9,98
,42
20
Desv. típ.
Estadístico
4,18
Varianza
Estadístico
17,434
3. CONTRASTACIÓN DE HIPÓTESIS
Si se selecciona la opción Comparar medias del menú Analizar aparecen las siguientes alternativas (Figura
38):
ƒ Medias.
Este comando permite calcular la media de una o varias variables, existiendo la opción de hacer los
cálculos para el total de la muestra o separando por grupos de observaciones. En la casilla
Dependientes se introducen las variables para las que se calculará la media. En la casilla
Independientes se introducen las variables que, en su caso, servirán para formar los grupos. Pulsando
el botón opciones se pueden elegir los estadísticos que quieren obtenerse. (Figura 41).
ƒ Prueba T para una media.
Con esta opción se puede hacer un contraste para la media de una población normal con varianza
desconocida. En el botón opciones se puede elegir el nivel de significación. (Figura 43).
ƒ Prueba T para muestras independientes.
Esta opción realiza un contraste de igualdad de medias en dos poblaciones normales con varianzas
desconocidas (iguales o distintas). Previamente realiza un contraste de igualdad de varianzas. En la
casilla Contrastar variables se introducen las variables para las que se quieren comparar las medias, y
en la casilla Variable de agrupación, la que se utilizará para distinguir los grupos. En el botón opciones
se puede elegir el nivel de significación. (Figura 45).
Figura 38
Ejemplo:
Se crea una nueva variable que toma valor 1 si el turista es repetidor y valor 0 si no es repetidor. Para ello,
se selecciona la opción Recodificar (En distintas variables) del menú Transformar. Se abre una ventana en
la que se selecciona la variable a partir de la que se crea la nueva, se le da nombre y si se quiere se le pone
una etiqueta para identificarla fácilmente. En nuestro caso, la variable original es repetici y la nueva variable
se llamará repetido (Figura 39).
21
Figura 39
Pulsamos el botón Valores antiguos y nuevos para asignar los valores a la nueva variable. La variable
repetido tomará valor 0 si la variable repetici tomaba valor 1, y tomará valor 1 en los demás casos (el valor 6
era no contesta y quedará igual) (Figura 40).
Figura 40
Esta nueva variable se utilizará para comparar el gasto de los turistas repetidores y los no repetidores.
En primer lugar, se calcula la media del gasto para los turistas repetidores, para los no repetidores y para el
total de la muestra (Figura 41), obteniendo los resultados de la Figura 42.
22
Figura 41
Figura 42
Informe
GASTO
1 repetidor 0 no repetidor
,00
1,00
Total
Media
75,06
66,44
69,63
N
37
63
100
Desv. típ.
17,29
31,93
27,65
A continuación, se contrasta la hipótesis de que la media del gasto es igual a 64 euros (Figura 43),
obteniendo los resultados de la Figura 44.
Figura 43
Figura 44
Estadísticos para una muestra
N
GASTO
100
Media
69,63
Desviación
típ.
27,65
Error típ. de
la media
2,77
23
Prueba para una muestra
Valor de prueba = 64
GASTO
t
2,036
gl
Diferencia
de medias
5,63
Sig. (bilateral)
,044
99
95% Intervalo de
confianza para la
diferencia
Inferior
Superior
,14
11,12
Por último, se contrasta la hipótesis de igualdad de gasto medio, para los turistas repetidores y los no
repetidores (Figura 45). Los resultados se presentan en la Figura 46. El p-valor del contraste de igualdad de
varianzas es inferior a 0,05, por lo que se puede rechazar la hipótesis de igualdad de varianzas. Asumiendo
que las varianzas son distintas, la fila relevante para el contraste de igualdad de medias es la segunda, en
la que no se han asumido varianzas iguales (sombreada en la tabla de resultados).
Figura 45
Figura 46
Estadísticos de grupo
GASTO
1 repetidor 0 no repetidor
1,00
,00
N
63
37
Media
66,44
75,06
Desviación
típ.
31,93
17,29
Error típ. de
la media
4,02
2,84
Prueba de muestras independientes
Prueba de Levene
para la igualdad de
varianzas
F
GASTO
Se han asumido
varianzas iguales
No se han asumido
varianzas iguales
8,544
Sig.
,004
Prueba T para la igualdad de medias
t
gl
Sig. (bilateral)
Diferencia
de medias
Error típ. de
la diferencia
95% Intervalo de
confianza para la
diferencia
Inferior
Superior
-1,513
98
,133
-8,61
5,69
-19,90
2,68
-1,748
97,506
,084
-8,61
4,93
-18,39
1,17
24
ANEXO 1. GENERACIÓN DE NÚMEROS ALEATORIOS
Herramientas → Análisis de datos → Generación de números aleatorios
Figura 47. Generación de 10 muestras de tamaño 5, suponiendo que la distribución poblacional es
normal estándar
25
ANEXO 2. OBTENCIÓN DE HISTOGRAMAS
Herramientas → Análisis de datos → Histograma
Figura 48. Ejemplo
Figura 49. Resultado
26
ANEXO 3. VARIABLES EN EL ARCHIVO EDT2000
En la siguiente tabla aparecen las variables contenidas en el archivo EDT2000, que se ha utilizado en
algunos de los ejemplos de esta guía, y el significado de cada uno de sus valores.
Variables
EDAD
Valores
1 Menos de 30 años
2 Entre 30 y 45
3 Entre 45 y 60
4 Más de 60
5 N/C
NACIONALIDAD 1 Alemana
2 Británica
3 Española
4 Otras
ALOJAMIENTO 1 Hotel
2 Apartamento/Chalet
3 Casa de amigos o familiares
4 Otros
1 Hostales y Hoteles de 1 y 2 *
CATEGORÍA
2 Hotel 3*
3 Hoteles 4 y 5*
4 No hotel/hostal
PAQUETE
¿Ha contratado un paquete turístico?
1 Sí
0 No
Días de estancia
DÍAS
1 Muy buena
IMPRESIÓN
2 Buena
3 Normal
4 Mala
5 N/C
REPETICIONES 1 Una vez
2 Dos veces
3 Tres veces
4 Cuatro veces
5 Más de cuatro veces
6 N/C
VOLVER
¿Piensa volver de vacaciones a las Islas Baleares?
1 Sí
2 No
3 N/C
GASTO
Gasto total per càpita y día
ANEXO 4. GUÍA PARA EL TRABAJO PROPUESTO
En el trabajo se debe explicar lo siguiente:
1. Presentación y motivación del trabajo. Qué se pretende analizar y para qué. Fuentes de los datos.
Se trata de presentar el marco en el que se va a desarrollar el trabajo, qué tema se va a tratar, qué es lo
quiere conocerse y qué interés puede tener. Posteriormente, se deben comentar los datos que van a
utilizarse para analizar las cuestiones planteadas, citando su fuente.
2. Análisis que se van a realizar.
Una vez que se han indicado los objetivos del trabajo se indicará cuáles van a ser las técnicas
estadísticas que se van a aplicar, a qué variables se van a aplicar cada una de ellas y por qué.
3. Resultados. Presentación de los resultados e interpretación de los mismos.
4. Conclusiones.
El trabajo terminará con un resumen de los resultados obtenidos, dando respuesta a las cuestiones
planteadas al inicio.
5. Bibliografía, si se ha utilizado.
El trabajo debe entregarse de la siguiente forma:
- Un disquette con el archivo de Excel en el que estén los datos y los cálculos realizados, de forma clara y
organizada.
27
-
En papel, la redacción del trabajo. En la primera hoja debe figurar el nombre del alumno, los estudios
(LE o LADE) y el grupo.
Fecha límite:
Puedes encontrar datos en las siguientes webs:
- Banco de España. http://www.bde.es/estadis/estadis.htm
- Banco Central Europeo http://www.ecb.int/stats/stats.htm
- Instituto Nacional de Estadística. http://www.ine.es/ (en INEBASE o en la base de datos TEMPUS).
- Eurostat (Oficina de Estadística de la Comunidad Europea). http://europa.eu.int/comm/eurostat/
- Fondo Monetario Internacional. http://dsbb.imf.org/
- OCDE. http://www.oecd.org
BIBLIOGRAFÍA
Pérez, César (2002). Estadística Aplicada a través de Excel, Prentice Hall, Madrid.
Pérez, César (2001). Técnicas Estadísticas con SPSS, Prentice Hall, Madrid.
28