Download estadística

Document related concepts
no text concepts found
Transcript
ESTADÍSTICA
Asignatura Clave:FIM008 Número de Créditos: 6 Teóricos:2 Prácticos: 4
Fecha de actualización: 18 de Julio de 2003
INSTRUCCIONES PARA OPERACIÓN ACADÉMICA:
El Sumario representa un reto, los Contenidos son los ejes temáticos,
los Activos una orientación inicial para resolverlo y la síntesis concluyente,
como posibilidad de integración conceptual corresponderá a lo factible de
un punto de vista temático amplio. La visión global de los asuntos resueltos
como Titular Académico, te ofrecerá oportunidades de discusión que se
enriquecerán en la medida que intensificas las lecturas, asistes a tu comunidad
de estudio, te sirves de los asesores y analizas la ciberinformación disponible
posicionándote de los escenarios informativos adecuados. Los períodos de
evaluación son herramientas de aprendizaje. La acreditación es un
consenso de relación con el nivel de competencia. Mantén informado a tu
Tutor de tus avances académicos y estado de ánimo. Selecciona tus horarios
de asesoría. Se recomienda al Titular Académico (estudiante) que al iniciar
su actividad de dilucidación, lea cuidadosamente todo el texto guión de la
asignatura. Para una mejor facilitación, el documento lo presentamos en tres
ámbitos: 1.- Relación de las Unidades, 2.- Relación de activos, 3.- Principia
Temática consistente en información inicial para que desarrolles los temas.
COMPETENCIA:
• Realización e interpretación de gráficas estadísticas.
• Empleo de cálculos de las primeras estadísticas.
• Desarrollará sus habilidades de pensamiento complejo.
• Fortalecimiento del pensamiento lógico y simbólico.
• Incremento del pensamiento creativo.
SUMARIO: Desarrollar las habilidades numéricas y de pensamiento lógico,
para la solución de problemas estocásticos, partiendo de situaciones de la vida
real hasta las conclusiones teóricas más fundamentales.
ESTADÍSTICA
CONTENIDOS:
Unidad I
Unidad II
Unidad III
Probabilidad.
Estadística descriptiva.
Presentación gráfica de datos estadísticos.
Unidad IV
Unidad V
Unidad VI
Estimación.
Regresión.
Análisis de datos
ACTIVOS
UNIDAD I
Probabilidad
I.1.- Definición y concepto.
I.2.- Teoría (teorema), fundamental del conteo.
I.3.- Evento o suceso.
I.4.- Punto muestral.
I.5.- Espacio muestral.
I.6.- Distribuciones de muestreo.
I.7.- Intervalos de confianza.
Actividad: Aplicación e importancia de la probabilidad dentro de la estadística
UNIDAD II
Estadística Descriptiva
II.8.- Estadística.- definición.
II.9.- Importancia y usos de la estadística.
II.10.- Definición de: población y muestra.
II.11.- Experimentación.
II.12.- Presentación de datos.
II.13.- Estadísticos muéstrales.
II.14.- Distribución de frecuencias no agrupadas.
II.15.- Distribución de frecuencias agrupadas
Actividad: Efectuar un muestreo poblacional.
UNIDAD III
Presentación gráfico de datos estadísticos.
III.16.- Gráfica de líneas.
III.17.- Histograma.
III.18.- Polígono de frecuencias.
III.19.- Gráfica de pastel.
III.20.- Ojivas.
Actividad: De la unidad anterior efectuar una representación gráfica del
muestreo.
UNIDAD IV
Estimación.
IV.21- Estimaciones y estimadores.
IV.22.- Estimadores Insesgados óptimos.
IV.23.- Función de verosimilitud y estimadores máximo-verosímiles.
IV.24.- Precisión de estimaciones.
IV.25.- Intervalos de estimación.
IV.26.- determinación del tamaño muestral.
Actividad: Efectuar estimaciones de producción en productos agrícolas más
importantes de la región.
UNIDAD V
Regresión
V.27.- Métodos de regresión.
V.28.- Regresión lineal mínimo cuadrática.
V.29.- Análisis de la bondad de ajuste.
V.30.- Regresión no lineal y múltiple.
V.31.- Correlación total, parcial y múltiple.
Actividad: Ejemplificar y comprender el concepto de regresión.
UNIDAD VI
Análisis de Datos
VI.32.- Introducción.
VI.33.- Hipótesis y modelos
VI.34.- Prueba de hipótesis estadística.
VI.35.- La hipótesis nula.
VI.36.- Hipótesis alternativa.
Actividad: Ejemplificar y comprender el concepto de hipótesis.
ESCENARIOS INFORMATIVOS:
-
Asesores locales
Asesores externos
Disposición en internet.
Puntualidad en intranet.
Fuentes directas e indirectas.
Bibliografía
BIBLIOGRAFÍA:
Holguin Quiñones Fernando
1984 Estadística Descriptiva Aplicada a las Ciencias Sociales
Editorial UNO, México, pp. 452
Jack, Levin
1979 Fundamentos de Estadística en la Investigación Social
Editorial Karla, México, 2da. edición, pp. 305
Jonson Robert, Patricia Kuby
1999 Estadística Elemental
Editorial Thomson, México, 2da. Edición, pp. 534
Páginas WEB:
http://www.ruf.rice.edu/~lane/rvls.html
http://research.ed.asu.edu/siip/
ESTADÍSTICA
PRINCIPIA TEMÁTICA:
I.1.-
I.2.-
Definición y concepto.
Se entiende por probabilidad, Específicamente se habla sobre “la
probabilidad de que ocurre un evento”.
Naturaleza de la probabilidad.- Puede pensarse que la probabilidad es la
frecuencia relativa con que ocurre un evento.
La probabilidad y la estadística son dos campos ajenos pero
relacionados de las matemáticas. Se ha dicho que “la probabilidad es el
vehículo de la estadística”. Es decir que si no fuera por las leyes de la
probabilidad, la teoría de la estadística no seria posible.
Teoría (teorema), fundamental del conteo.
Para encontrar la probabilidad de muchos eventos es necesario
determinar el número de resultados posibles del experimento implicado.
Esto requiere enumerar (obtener un “conteo” de) las posibilidades. Este
“conteo” puede obtenerse usando uno de los métodos:
1) Enlistar todas las posibilidades y luego proceder a contarlas (1, 2, 3, );
2) Ya que a menudo no es necesario delinear (obtener una representación
de) todas las posibilidades., el conteo puede determinarse al calcular su
valor numérico.
Existen tres métodos básicos de conteo de uso común para obtener el
conteo mediante cálculos: La técnica fundamental y dos técnicas
específicas.
Regla fundamental de conteo.
Si un experimento esta integrado por dos ensayos, donde uno de ellos
(una sola acción o elección) posee “m” resultados posibles y el otro tiene
“n” resultados posibles, entonces cuando los ensayos se realizan juntos,
se tiene:
mxn
(A-1)
Resultados posibles para el experimento.
Ejemplo: Un vendedor de automóviles ofrece uno de sus modelos
deportivos compactos con dos o opciones de transmisión (estándar o
automática) y en uno de tres colores- ¿Cuántas elecciones posibles de
combinaciones de transmisión y color tiene el cliente?.
Tenemos que: m = 2;
n = 3.
Al usar la regla fundamental de conteo (A-1), el número de opciones
posibles disponibles para el cliente es:
mxn= 2 x 3 = 6
Esta regla fundamental de conteo puede ampliarse para incluir
experimentos que tienen más de dos ensayos.
Regla general de conteo.
Si un experimento esta compuesto por k ensayos realizados en un orden
definido, donde el primero tiene n1 resultados posibles, el segundo
posee n2 resultados posibles, el tercero tiene n3 resultados posibles, etc.,
entonces el número de resultados posibles para el experimento es:
n1 x n2 x n3 .........x nk
(A - 2)
Ejemplo: En muchos estados (USA), en las placas del automóvil se usan
tres letras seguidas de tres numerales, para obtener el “número de
placas”. Si se supone que puede usarse cualquiera de las 26 letras del
alfabeto ingles para ocupar cada uno de los tres caracteres y que puede
utilizarse cualquiera de los dígitos del 0 al 9 para ocupar los tres últimos
caracteres.¿Cuántos números de placas diferentes son posibles?
Solución: Para la primera letra hay 26 opciones posibles (n1 = 26), 26
para la segunda (n2 = 26) y 26 para la tercera (n3 = 26). De manera
semejante hay 10 opciones posibles para el numeral que se usara para
los caracteres cuarto (n4 = 10), quinto (n5 = 10) y sexto (n6 = 10). En
consecuencia, al usar la regla general de conteo (formula A -2), Se
encuentra que hay:
26 x 26 x 26 x 10 x 10 x 10 = 17,576,000
Número de placas diferentes, al usar este esquema de seis caracteres.
I.3.-
Evento o suceso.
Un suceso es un subconjunto A del espacio muestral (υ), es decir, es un
conjunto de resultados posibles.
Evento.- Acontecimiento, suceso, cosa que sucede, acontecimiento.
Si el resultado de un experimento es un elemento de A, decimos que el
suceso A ha ocurrido.
Probabilidad de eventos:
Hay tres métodos para asignar probabilidades a un evento: Empírico,
Teórico y Subjetivo.
Empírico o Probabilidad Experimental.
Se trata de la frecuencia relativa observada con la que ocurre un evento
(lanzamiento de moneda), y se representa con la siguiente notación que
se usa para denotar la probabilidad empírica.
n( A)
p ' ( A) =
n
Donde: p’(A) .- Probabilidad del evento (A).
n (A).- Número de veces que se observa el evento (A)
n.- Es el número de veces que se intenta el experimento.
Ejemplo: En un experimento del lanzamiento de monedas, se observo
exactamente un águila (1A) en 104 de los 200 lanzamientos de un par
de monedas.
La probabilidad empírica observada de la ocurrencia de (1A) fue:
104
= 0.52,................52%..de.. probabilidad
200
I.4.-
Espacio Muestral.
Un conjunto que (υ) consiste en todos los resultados de un experimento
aleatorio se llama un Espacio Muestral.
I.5.-
Punto muestral.
Y a cada uno de los resultados se le denomina punto muestral
VARIABILIDAD DE LA MUESTRA
I.6.-
Distribuciones de muestreo.
Distribuciones muéstrales.- Para hacer inferencias sobre una población
es necesario analizar un poco más los resultados muéstrales. De una
manera se obtiene una media muestral x . ¿Es de esperar que este
valor, x . Sea exactamente igual a la media de una población µ ?..La
respuesta es “no”. No es de esperar que ocurra esto, pero los resultados
muéstrales serán aceptables si la media de la muestra esta “próxima” al
valor de la media de la población.
Considérese una segunda pregunta, si se toma una segunda muestra
¿la media de esta será igual a la media de la población?, ¿igual a la
media de la primera muestra? Nuevamente, No, no espera que sea
igual a la media de la población, y tampoco que la media de la segunda
muestra sea una repetición de la primera segunda no obstante otra vez
se espera que los valores estén “próximos”. Este argumento debe ser
valido para cualquier estadística muestral y sus valores de la población
correspondiente.
DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO MUESTRAL
Es la distribución de valores de un estadístico muestral, obteniéndose
muestras repetidas, todas del mismo tamaño y extraídas de la misma
población.
Para ilustrar el concepto de distribución muestral, se considerara una
población finita muy pequeña: el conjunto de dígitos pares, {o, 2, 4, 6, 8},
y todas las muestras posibles de tamaño 2; además, se tomara en
cuenta dos distribuciones muéstrales diferentes que pueden formarse
con: 1) las medias y 2) los rangos muéstrales
Primero, se requiere enumerar todas las muestras posibles de tamaño 2;
hay 25 muestras posibles:
{0, 0}
{0, 2}
{0, 4}
{0, 6}
{0, 8}
{2, 0}
{2, 2}
{2, 4}
{2, 6}
{2, 8}
{4, 0}
{4, 2}
{4, 4}
{4, 6}
{4, 8}
{6, 0}
{6, 2}
{6, 4}
{6, 6}
{6, 8}
{8, 0}
{8, 2}
{8, 4}
{8, 6}
{8, 8}
Cada una de las muestras tiene una media x. Estas medias son,
respectivamente:
0
1
2
3
4
1
2
3
4
5
2
3
4
5
6
3
4
5
6
7
4
5
6
7
8
Cada una de las muestras es igualmente probable, por lo que cada una
de las 25 medias muéstrales se le puede asignar una probabilidad de
1/25 = 0.004. La distribución muestral de las medias muéstrales se
presenta en la tabla 7.1 como una distribución de probabilidad y en la
figura 7.1, como un histograma.
DISTRIBUCIÓN MUESTRAL DE MEDIAS MUESTRALES
x
p( x )
0
0.04
1
0.08
2
0.12
3
0.16
4
0.20
5
0.16
6
0.12
7
0.08
8
0.04
HISTOGRAMA: Distribucion muestral
de medias muestrales
0.25
0.2
0.15
0.1
0.05
0
1
2
3
4
5
6
7
8
9
Recuerde que µp’ = p, y que el estadístico muestral p’, es un estimador
insesgado de p. Así, la información sobre la distribución muestral de p’
se resume como sigue:
Si de una población se elige una muestra aleatoria de tamaño n con p =
P (éxito), entonces la distribución muestral de p’ tiene:
1. Una media µp’, igual a p.
2. un error estándar σp igual a ( pq) / n, ’ y
3. una distribución aproximadamente normal si n es suficiente grande.
I.7.-
Intervalos de confianza.
Procedimiento del Intervalo de Confianza:
Las inferencias sobre el parámetro binomial de población p, P(éxito), se
realizara usando procedimientos bastantes semejantes a los que se
emplean para hacer las inferencias sobre la media poblacional µ.
Cuando se calcula la proporción de la población p, las estimaciones se
basan en las estadística muestral insesgada p’,. La estimación puntual,
p’, se vuelve el centro del intervalo de confianza, y el error máximo de
estimación es un múltiplo del error estándar. El nivel de confianza
determina el coeficiente de confianza, el número de múltiplos del error
estándar.
 a  p' q'
 a  p' q'
p'− z  .
......a...... p'+ z  .
2 n
2 n
donde: p’ = x / n y q = 1 – p’
II.8.- Estadística.- Definición.
Definición.- Ciencia de recolectar, describir e interpretar datos.
Como usuarios potenciales de la estadística necesitamos dominar la
“ciencia” y el “arte” de utilizar correctamente su metodología. El empleo
cuidadoso de los métodos estadísticos permite obtener información
precisa de los datos: Estos métodos incluyen:
1) Definir cuidadosamente la situación
2) Recolectar los datos
3) resumir con precisión los datos, y
4) obtener y comunicar las conclusiones significativas.
La estadística se divide en dos áreas: estadística descriptiva y
estadística inferencial.
Estadística Descriptiva.- es en lo que piensa la mayoría de las personas
al escuchar la palabra estadística. La estadística descriptiva incluye la
recolección, presentación y descripción de los datos muéstrales.
La estadística inferencial.- Se refiere a la técnica de interpretación de los
valores resultantes de las técnicas descriptivas y a la toma de decisiones
y obtención de conclusiones sobre la población muestreada.
II.9.- Importancia y usos de la estadística.
El término estadística posee varios significados para personas de
diversos entornos e intereses. Para algunos, es un campo de “magia” en
el que una persona con conocimientos supera a los demás. Para otros,
se trata de un medio para recolectar y representar grandes cantidades
de información. Y todavía para otro grupo, “se trata de un medio para
tomar decisiones de frente a la incertidumbre”. En la perspectiva idónea,
cada uno de estos puntos de vista es correcto.
II.10.- Definición de: Población y Muestra.
Población.- Es la colección, o conjunto, de individuos, objetos o eventos
cuyas propiedades serán analizadas.
La población de interés debe de definirse cuidadosamente y se
considera que esta completamente definida solo cuando se especifica la
lista de los elementos que pertenecen a ella. Un ejemplo de población
bien definida es el conjunto de “todos los estudiantes que han asistido a
una universidad estadounidense”.
Por lo general, se piensa que una población es una colección de
personas. No obstante, en estadística la población puede ser una
colección de animales, objetos manufacturados o de cualquier cosa.
Hay dos tipos de poblaciones; finitas e infinitas:
Población finita: Cuando es (o puede ser) posible enumerar físicamente
los elementos que pertenecen a una población, se dice que la población
es finita. Ejemplo: Los libros de una biblioteca universitaria constituyen
una población finita. (Los libros se pueden contar.)
Población infinita: Cuando los elementos de una población son
ilimitados, la poblac ión es infinita. Ejemplo: La población de todas las
personas que podrían tomar aspirina, y la población de todos los focos
de 40 watts que serán producidos en México, son infinitas.
Muestra.- Es un conjunto de la población.
Una muestra consta de los individuos, cuyos objetos o medidas
seleccionados de la población por el colector de la muestra.
Variable.- Característica de interés sobre cada elemento individual de
una población o muestra. Por ejemplo:
La edad de un estudiante que ingresa a la universidad, el color de su
cabello, su estatura, y su peso son cuatro variables.
Dato.- Valor de la variable asociada a un elemento de una población o
muestra. Este valor puede ser un número, una palabra o un símbolo.
Por ejemplo; Juan Pérez, ingreso a la universidad a la edad de 23 años.
Datos.- Conjunto de valores recolectados para la variable de cada uno
de los elementos que pertenecen a la muestra.
Por ejemplo: El conjunto de 25 estaturas recolectadas de 25 estudiantes.
II.11.- Experimentación.
Experimento.- Actividad planeada cuyos resultados producen un
conjunto de datos. El experimento incluye las actividades para
seleccionar los elementos y obtener los valores de los datos.
Parámetro.- Valor numérico que resume todos los datos de una
población completa.
En un experimento, el investigador controla o modifica el entorno y
observa el efecto sobre la variable bajo el estudio. A menudo leemos
sobre resultados de laboratorio obtenidos usando ratas blancas para
probar dosis diferentes de un nuevo medicamento y su efecto sobre la
presión arterial. Los tratamientos experimentales fueron diseñados
específicamente para obtener los datos necesarios para estudiar el
efecto sobre la variable.
II.12.- Presentación de datos.
Definición.- Valor de la variable asociada a un elemento de una
población o muestra. Este valor puede ser un número, una palabra o un
símbolo.
Recolección de datos.- Uno de los primeros problemas que enfrentan
quienes se dedican a la estadística es la obtención de datos. Los datos
no ocurren simplemente; es necesario recolectarlos. Es importante
obtener buenos datos porque en última estancia las inferencias
efectuadas se basan en las estadísticas obtenidas a partir de los datos.
Estas inferencias pueden ser tan buenas como lo sean los datos.
La recolección de datos para el análisis estadístico es un proceso
complicado que incluye los siguientes pasos:
1. Definir los objetos de la investigación o del experimento.
Ejemplo: Comparar la eficacia de un nuevo medicamento con la
eficacia de un medicamento normal; estimar el ingreso familiar medio
en algún municipio.
2. Definir la variable y la población de interés
Ejemplo: duración del tiempo de recuperación de los pacientes que
sufren algún enfermedad particular; ingreso total de los hogares de
algún municipio.
3. Definir los esquemas para recolectar y medir los datos.
Esto incluye los procedimientos de muestreo, el tamaño de la
muestra y el instrumento de medición (cuestionario, por teléfono,
etc.) de los datos.
4. Determinar las técnicas idóneas para realizar el análisis de datos:
descriptivas o inferenciales.
Los métodos que se emplean para recolectar los datos son: los
experimentos y las encuestas.
Experimento.- El investigador controla o modifica el entorno y observa el
efecto sobre la variable en estudio.
Encuesta.- En una encuesta o (inspección), los datos se obtienen al
muestrear alguna parte de la población de interés sin embargo, el
investigador no modifica el entorno.
Censo.- Si es posible enlistar (o enumerar) y observar cada elemento de
la población, entonces se compila un censo. Un censo es una encuesta
al cien por ciento.
II.13.- Estadísticos muestrales.
Estadística.- Valor numérico que resume los datos de la muestra.
La estatura “promedio” encontrada al utilizar el conjunto de 25 estaturas
es un ejemplo de una estadística muestral. Una estadística es un valor
que describe una muestra. Casi todas las estadísticas muéstrales se
determinan con ayuda de formulas y suele asignarse denominaciones
simbólicas usando letras del alfabeto español (por ejemplo; x , s y r)
Ejemplo: Un estudiante de estadística esta interesado en
determinar algo sobre el promedio del valor en dólares de los
automóviles que pertenecen al cuerpo docente de nuestra
universidad. Cada uno de los 8 términos descritos puede
identificarse en esta situación.
1) La población es la colección de todos los automóviles que
pertenecen a todos los miembros de del cuerpo docente de la
universidad.
2) Una Muestra, es cualquier subconjunto de esa población. Por
ejemplo, una muestra serian los automóviles que pertenecen a los
profesores del departamento de matemáticas.
3) La variable, es el valor en dólares de cada automóvil individual.
4)
Un dato podría ser el valor en dólares de un automóvil en
particular. El automóvil de él Prof. Neyoy, por ejemplo esta
valuado en 9,400 dólares.
5) Los datos serian el conjunto de valores que corresponden a la
muestra obtenida (9,400; 8,700; 15,950...).
6) El experimento serian los métodos aplicados para seleccionar
los automóviles que integren la muestra y determinar el valor de
cada automóvil de la muestra. Podría efectuarse preguntando a
cada miembro del Dpto. de matemáticas, o de otros formas.
7)
El parámetro sobre el que se esta buscando información es el
valor “promedio” de todos los automóviles de la población.
8) La estadística que se encuentre es el valor “promedio” de todos
los automóviles de la muestra.
II.14.- Distribución de frecuencias no agrupadas.
Los listados de grandes conjuntos de datos no presentan una imagen
valiosa de. Algunas veces se desea condensar los datos en una forma
más manejable. Esto puede lograrse con ayuda de una distribución de
frecuencias.
Distribución de frecuencias.- Listado, a menudo expresado en
forma de diagrama, que asocia cada valor de una variable con su
frecuencia.
Para ilustrar el concepto de distribución de frecuencias se usara el
siguiente conjunto de datos:
3 2 2 3 2
4 4 1 2 2
4 3 2 0 2
2 1 3 3 1
Si x representa una variable, puede usarse una distribución de
frecuencias para representar este conjunto de datos enumerando los
valore “x” con sus frecuencias. Por ejemplo, el valor 1 se presenta tres
veces en la muestra; por tanto, la frecuencia de x = 1 es 3. El conjunto
de datos completo esta representado por la distribución de frecuencias
que se muestra en la tabla siguiente:
X
F
0
1
1
3
2
8
3
5
4
3
L frecuencia “f” es el número de veces de que aparece el valor x en la
muestra, La tabla es una distribución de frecuencias no agrupadas:
“no agrupadas” porque cada valor de x en la distribución permanece
solo.
II.15.- Distribución de frecuencias agrupadas.
Cuando en un gran conjunto de datos tiene muchos valores x distintos,
en lugar de unos cuantos valores repetidos, como en el ejemplo anterior,
es posible agrupar los valores en un conjunto de clases y elaborar una
distribución de frecuencias agrupadas. La representación de tallo y
hojas de la figura (siguiente) muestra, en forma de fotografía, una
distribución de frecuencias agrupadas.
19 PUNTAJES DE EXAMEN
5
2
6
6
8
2
7
6
4
6
8
8
2
6
4
2
9
6
2
2
8
6
8
4
Cada tallo representa una clase. El número de hojas en cada tallo es el
mismo que la frecuencia de esa misma clase. Los datos representados
en la figura, se enumeran como una distribución de frecuencias de la
tabla, siguiente.
DISTRIBUCIÓN DE FRECUENCIAS AGRUPADAS
clase
50 o más hasta menos que 60→ 50 ≤
60 o más hasta menos que 70→ 60 ≤
70 o más hasta menos que 80→ 70 ≤
80 o más hasta menos que 90→ 80 ≤
90 o más hasta menos que 100→ 90 ≤
x
x
x
x
x
<
<
<
<
<
frecuencia
60 1
70 3
80 8
90 5
100 2
19
El proceso de tallo y hojas puede usarse para elaborar una distribución
de frecuencias; no obstante, la representación del tallo no es compatible
con todos los anchos de clase. Por ejemplo, puede ser inconveniente
utilizar los anchos de clase 3, 4, 6, o 7. Por tanto, algunas veces es
ventajoso contar con un procedimiento por separado para elaborar una
distribución de frecuencias agrupadas.
III.16.- Introducción.
Una vez que se han recolectado los datos de la muestra, es necesario
“familiarizarse “con ellos. Una de las formas de más conocidas para
lograr lo anterior es, aplicar una técnica inicial exploratoria de análisis de
datos que produzca una representación visual. La representaciones
resultantes revelan, visualmente, patrones de comportamiento de la
variable en estudio. Hay muchas formas Gráficas (visuales) para
describir los datos. El método que se aplica es determinado por el tipo
de datos y el concepto a representar.
Nota: Cuando se elabora una representación grafica no existe solamente
una respuesta correcta. El juicio del analista y las circunstancias que
rodean al problema desempeñan un papel primordial en el desarrollo de
la grafica.
III.17.- Gráfico de líneas.
20
15
Y
10
X
5
0
1
III.18.- Histograma.
2
3
4
5
6
7
Un histograma o un histograma de frecuencias esta formado por una
serie de rectángulos que tienen sus bases sobre un eje horizontal (eje x)
e iguales al ancho de clase, su altura es igual a la frecuencia de clase.
HISTOGRAMA: Distribucion muestral
de medias muestrales
0.25
0.2
0.15
0.1
0.05
0
1
2
3
4
5
6
7
8
9
III.19.- Polígono de Frecuencias.
Un polígono de frecuencias es un Gráfica de líneas trazado sobre los
puntos medios de cada clase, se obtiene uniendo los puntos medios de
los extremos superiores de cada rectángulo. Se acostumbra a prolongar
el polígono hasta los puntos medios inferiores y superior de la clase
inmediata.
Polígono
frecuencias
III.20.- Gráfico de pastel.
X
1
2
3
4
5
III.21.- Ojivas.
de
12
10
8
6
Y
4
X
2
0
1
2
3
4
5
IV.22- Estimaciones y estimadores.
La estimación de un parámetro poblacional dado por un número se llama
“estima de punto del parámetro”. La estima de un parámetro poblacional
dada por dos números entre los cuales se considera que se encuentra
dicho parámetro se llama estima de intervalo del parámetro.
Ejemplo: Si se dice que una distancia viene dada por 5.28 m., se esta
dando una estima de punto del parámetro. Si se dice que la
distancia es 5.28 ±0.03 m. es decir, la distancia real se encuentra
entre 5.25 y 5.31 m, se esta dando una estima de intervalo.
Nota: La precisión o conocimiento del error de una estima se conoce
también como su seguridad.
Estimadores.IV.23.-Estimadores Insesgados óptimos.
Definición.- Estadística insesgada, es una estadística de la muestra cuya
distribución muestral tienen un valor medio igual al valor del parámetro
de la población que esta estimándose. Una estadística que no es
insesgada es sesgada.
Un estadístico se llama estimador insesgado de un parámetro
poblacional si la media o esperanza del estadístico es igual al parámetro.
El valor correspondiente del estadístico se llama estima insesgado del
parámetro.
Ejemplo: La media x1, y la varianza Ŝ2 son estimadores insesgados de
la media poblacional µ y de la varianza poblacional σ2 , puesto que E(x)
= µ,
E(Ŝ2)= σ2, los valores x1 y Ŝ2 se llaman estimás insesgadas, ¡pero no
siempre es posible¡.
x + x 2 + ......... + x n
1)..x = 1
n
n ˆ 2 ( x1 − x 2 ) 2 + ( x 2 − x) 2 + ..... + ( x n − x) 2
2)..Sˆ 2 =
S =
n −1
n −1
2
2
ˆ
E(S ) = σ
IV.24.-Función de Verosimilitud y estimadores máximo-verosímiles.
Aunque los límites de confianza tienen valor para estimar un parámetro
poblacional es conveniente tener un estimador por punto. Para obtener
el “mejor“de tales estimadores empleamos una técnica conocida como el
estimador de máxima verosimilitud, (FISHER).
Para ilustrar el método suponemos que la población tiene una función de
densidad que contiene un parámetro poblacional, por ejemplo θ, que se
va a estimar por un estadístico determinado. Por tanto, la función de
densidad puede denotarse por f (x1, θ) . Suponiendo que hay “n”
observaciones independientes x1,.....,xn, la función densidad conjunto
para estas observaciones es:
L = f (x1, θ) f (x2, θ)………. f (xn, θ)
Que se llama verosimilitud.
Estimadores máximo-verosimilitud.
La máxima verosimilitud puede tomarse tomando la derivada de L con
respecto a θ e igualamos a 0 (cero). Para este propósito es conveniente
tomar primero el logaritmo de y luego la derivada. De esta manera
hallamos:
∂f ( x n ,θ )
∂f ( x1 ,θ )
1
1
.
.
=0
+ .......... +
∂θ
f ( x ,θ )
f ( x n ,θ )
∂θ
De aquí podemos obtener θ en términos de xk
El método puede generalizarse, así para el caso donde existan varios
parámetros tomamos las derivadas parciales con respecto a cada uno
de los parámetros. Los igualamos a cero y resolvemos las ecuaciones
resultantes simultáneamente.
IV.25.-Intervalos de Estimación.
En el intervalo limitado por dos valores y sirve para estimar el parámetro
de una población. Los valores que limitan este intervalo son
estadísticas calculados a partir de la muestra que se esta utilizando
como base para la estimación.
IV.26.-Determinación del tamaño muestral.
Tamaño de la muestra.- El intervalo de confianza posee dos
características básicas que determinan su calidad; su nivel de confianza
y su ancho. Es preferible que el intervalo tenga un alto nivel de confianza
y que sea exacto (estrecho) a la vez. Mientras más alto sea el nivel de
confianza, más probable es que el intervalo contenga el parámetro, y
mientras estrecho es el intervalo más exacta es la estimación. No
obstante, estas dos propiedades parecen contraponerse, ya que
parecería que un intervalo más ancho es menos exacto. La parte del
error máximo de la formula del intervalo de confianza especifica la
relación implicada.
α  σ
E = z  .
2 n
Las componentes de esta formula son:
a) El error máximo “E” , La mitad de del ancho del intervalo de confianza.
b) El coeficiente de confianza, z(α/2), que es determinado por el nivel de
confianza.
c) El tamaño de la muestra,”n”.
d) La desviación estándar, σ
La desviación estándar, σ no es de interés de en este análisis porque es
una constante, (la desviación estándar, de una población no cambia de
valor).
IV.24.-Precisión de Estimaciones.
Así quedan, tres factores. El análisis de la formula (8.2) indica lo
siguiente: el aumentar el nivel de confianza, se hace más grande el
coeficiente de confianza y por tanto, y por tanto se requiere incrementar
el error máximo de o el tamaño de la muestra; aminorar el error máximo,
requiere de la reducción de del nivel de confianza o bien aumentar el
tamaño de la muestra; disminuir el tamaño de la muestra obliga a que el
error máximo se vuelva más grande o que el nivel de confianza
disminuya. Se tiene una “lucha tripartita por la supremacía”, como se
muestra en la figura. Un aumento o una disminución de cualquiera de los
tres factores afectan a uno o a ambos, de los otros dos elementos. El
trabajo del experto en estadística es “equilibrar” el nivel de confianza. El
tamaño de la muestra y el error máximo. De modo que se obtenga un
intervalo aceptable.
1-α
Error máximo
E
Nivel de confianza
n
Tamaño de la muestra
Pág. 296
V.27.- Método de regresión.
Aunque el coeficiente de correlación mide la intensidad de una relación
lineal, no dice nada sobre la relación matemática que hay entre las dos
variables. En la sección 3.2, se encontró que el coeficiente de
correlación para los datos “lagartijas” y “sentadillas” era de 0.84. Esto
implica que existe una relación lineal entre el número de “lagartijas” y el
número de “sentadillas” que hace un estudiante. El coeficiente de
correlación no ayuda a predecir a el número de “sentadillas” que pueda
hacer una persona con base en el conocimiento de que puede hacer 28
“lagartijas”.
El análisis de regresión encuentra la ecuación de la recta que describe
mejor la relación entre dos variables. Una aplicación de esta ecuación es
hacer
predicciones. Hay muchas situaciones en las que estas
predicciones se usan regularmente; Por ejemplo, predecir el éxito que
tendrá un estudiante en la universidad con base en los resultados que
obtuvo en el bachillerato, y averiguar la distancia necesaria para detener
un automóvil conociendo su velocidad.
En general, el valor exacto de y no es predecible: sin embargo, las
aproximaciones a este valor son de utilidad si las predicciones son
razonablemente acertadas.
La relación entre estas dos variables es una expresión algebraica
que describe la relación matemática entre x & y . A continuación se
presentan algunos ejemplos de varias relaciones posibles, denominadas
modelos o ecuaciones de predicción:
Lineal:
ŷ = b0 + b1x
Cuadrática:
ŷ = a + bx + cx2
Exponencial:
ŷ = a (bx)
Logarítmica:
ŷ = a logbx
Regresión lineal con pendiente positiva
negativa
X
Regresión lineal con pendiente
x
Figura V.1
figura V.2
Y
Regresión curvilínea (cuadrática)
X
y
No hay relación
x
(Regresión no lineal)
Y
figura V.3
y
figura V.4
V.28.- Regresión lineal mínimo cuadrática.
Si un modelo de línea recta parece idóneo, la recta del mejor ajuste se
encuentra aplicando el método de mínimos cuadrados suponga que:
ŷ = b0 + b1x
Es la ecuación de una recta, donde: ŷ (que se lee como y gorro)
representa el valor estimado de y que corresponde a un valor particular
de x. El criterio de mínimos cuadrados requiere encontrar las constantes
de b0 y b1 tales que la sumatoria ∑(y- ŷ)2 sea lo más pequeña posible
(figura A).
ŷ = b0 + b1x
y
(x, ŷ)
y- ŷ
Figura A
(x, y)
ŷ
y
x
En la figura A se muestra la distancia de un valor observado de y a un
valor estimado de ŷ. La longitud de esta distancia representa el valor (x,
ŷ), mostrado como el segmento de recta de línea gruesa de la figura A,
Observe que (y- ŷ) es positivo cuando el punto (x, y) por arriba de la
recta, y es negativo cuando (x, y) esta por debajo de la recta.
En la figura B se muestra un diagrama de dispersión con una posible
recta del mejor ajuste, junto con los 10 valores individuales de (y- ŷ) .
Los valores positivos se muestran con línea gruesa, y los valores
negativos con línea (punteada). Si la recta es, en efecto la del mejor
ajuste, la suma de los cuadrados de estas diferencias se minimiza (se
hace lo más pequeña posible).
+1
+1.5
La recta el mejor
ajuste
+2.5
-1.5 -1
+1 +1
-2.5
-1 -1
Figura B
x
∑(y- ŷ)2 = (-1)2 + (+1)2 +...........+ (+1)2 = 23
En la figura C, Se muestra los mismos puntos que en la figura B con los
10 valores individuales
(y- ŷ) , asociados a una recta que,
definitivamente, no es la del mejor ajuste. El valor de ∑(y- ŷ)2 es 149,
mucho mayor que el 23 de la figura B. Cada recta diferente trazada a
partir de este conjunto de 10 puntos, produce un valor distinto de ∑(y- ŷ)2
. La tarea consiste en encontrar la recta tal que el valor de ∑(y- ŷ)2 sea
menor posible.
No es la recta la mejor curva de ajuste.
∑(y- ŷ)2 = (-6)2 +(-4)2 ......+(+6)2 = 149.0
La ecuación de la recta del mejor ajuste es determinada por su
pendiente (b1), y su ordenada al origen (a0). Los valores de la
constantes, pendiente y ordenada al origen, que satisfacen el criterio de
mínimos cuadrados se encuentran aplicando las siguientes formulas.
∑( x − x)( y − y )
......................3.5
∑( x − x ) 2
( suma..de.. y ) − [( pendiente)( suma..de..x)]
Ordenada..al..origen;......b0 =
numero
∑ y(b1.∑ x) ..........................3.6
ordenada..al..origen...b0 =
n
Para encontrar la pendiente b1 se usara una equivalencia matemática de
la formula (3.5), que utilice la suma de los cuadrados determinados en
los cálculos preliminares de la correlación.
SC ( xy )
.................................3.7
Pendiente;..................b1 =
SC ( x)
Observe que el numerador de la formula (3.7) es la SC(xy) de la formula
(3.4) y que el denominador es la formula (2.8) de los cálculos del
coeficiente de correlación. Entonces, si ya ha calculado previamente el
coeficiente de correlación lineal aplicando. El procedimiento delineado
en <(la hoja no) (sección .3.2) , es fácil encontrar la pendiente de la recta
del mejor ajuste. Si no ha calculado previamente r, elabore una tabla
semejante (3.11) y complete los cálculos preliminares necesarios.
Pendiente;.....................b1 =
Ahora se consideraran los datos de la ilustración (3.7) y la cuestión
es predecir las “sentadillas” efectuadas por un estudiante con base
en el número de “lagartijas” hechas. Se requiere encontrar la recta
del mejor ajuste,
ŷ = b0 + b1x. Los cálculos ya han sido
completados en la tabla (3.11) .
Para calcular la pendiente, b1, usando la formula (3.7), recuerde que;
SC (xy) =919.0 y que SC(x) = 1396.9.
SC ( xy ) 919.0
=
= 0.6579 = 0.66
pendiente......b1 =
SC ( x) 1396.9
Para calcular la ordenada al origen, b0, usando la formula (3.6), recuerde
que por la tabla de extensiones, ∑x = 351, y ∑y = 380.
Ordenada..al..origen.......b0 =
∑ y − (b .∑ x) = 380 − (0.6579)(351)
1
n
10
380 − 230.9229
= 14.9077 = 14.9
10
Asi..la..ecuacion..de..la..recta..es........ yˆ = 14.9 + 0.66 x
=
V.29.- Análisis de la bondad de ajuste.
El problema de ensayar la bondad de ajuste de las distribuciones
teóricas a las distribuciones muéstrales es esencialmente el mismo que
al decidir si hay diferencias importantes entre los valores de la población
y la muestra. Un ensayo de significación importante para la bondad de
ajuste de distribuciones teóricas, el ensayo Chi-cuadrado. En un intento
para determinar si una distribución normal representa un buen ajuste
para datos dados, conviene usar un papel Gráfica de curva normal o
papel de probabilidad, como a veces se llama.
Ensayo Chi-cuadrado para la bondad de ajuste.
Para determinar si la proporción P de “éxitos” en una muestra de tamaño
“n” extraída de una población binomial difiere de la proporción
poblacional P de éxitos, hemos usado el estadístico dado por (5) o (6).
P− p
.................................(5)
Z=
p ( q / n)
Z=
x − np
......................................(6)
npq
En este caso sencillo solamente dos sucesos A1, A2 pueden ocurrir, que
los hemos llamado “éxito” y “fracaso” con probabilidades p y q = 1 – p.
Un valor muestral especifico de la variable aleatoria x = np se llama
frecuencia observada para el suceso A1 en tanto que np se llama la
frecuencia esperada o teórica.
Ejemplo: Si obtenemos una muestra de 100 lanzamientos de una
moneda honrada, de modo que n = 100, p = ½, entonces la frecuencia
esperada de caras (éxitos) es:
Np = (100)(1/2) = 50
La frecuencia observada en la muestra podría lógicamente ser diferente.
Una generalización al caso donde pueden ocurrir “k” sucesos posibles
A1, A2, ......,AK con probabilidades p1, p2, ...., pk , respectivamente. En tal
caso tenemos una poblacional multinomial. ...si
x−µ
Z=
σ/ n
Si extraemos una muestra de tamaño “n” de esta población, las
frecuencias observadas para los sucesos , A1, A2, ...,Ak pueden
describirse por las variables aleatorias x1,...,xk (cuyos valores específicos
x1, x2,...xk, serian las frecuencias observadas para la muestra) en tanto
que las frecuencias esperadas estarían dadas por np1, ......, npk
respectivamente. Los resultados pueden indicarse como se muestra en
la siguiente tabla.
Suceso
A1
Frecuencia observada x1
Frecuencia esperada np1
A2
x2
np2
...........
...........
...........
Ak
xk
npk
V.30.- Regresión No lineal y múltiple.
Regresión no lineal:
Muy a menudo en la practica se encuentra que existe una relación entre
dos, (o más) variables y se desea expresar esta relación en forma
matemática, determinando una ecuación que conecte dos variables.
1) Un primer paso es la colección de datos indicando los valores
correspondientes de las variables.
2) El siguiente paso es dibujar los puntos (x, y) en un sistema de
coordenadas rectangulares. El conjunto resultante se llama diagrama
de dispersión.
Del diagrama de dispersión es posible frecuentemente visualizar una
curva que se aproxime a los datos. Dicha curva se llama curva de
aproximación, en la figura (V.1 ) por ejemplo se observa que los datos se
aproximan bien por una recta y decimos que existe una regresión lineal
entre las variables.
Sin embargo, en la figura (V.3) , aunque existe una relación entre las
variables esta no es una relación lineal y por eso la llamamos regresión
no lineal.
Regresión lineal múltiple.
Por ejemplo, si creemos que hay una relación lineal entre una variable
dependiente de z sobre x, y, entonces buscaríamos una ecuación
conectando las variables que tenga la forma:
z = a + bx + cy..............................( A)
Esta se denomina ecuación de regresión de z sobre x, y, . Si x es la
variable dependiente una ecuación semejante se llamaría ecuación de
regresión de x sobre y, z.
Puesto que (A), representa un plano en un sistema de coordenadas
rectangulares tridimensional se llama con frecuencia plano de
regresión. Para hallar el plano de regresión de mínimos cuadrados a, b,
c en (A) de modo que:
∑ z = na + b∑ x + c∑ y
∑ xz =a∑ x + b∑ x + c∑ xy
∑ yz = a∑ y + b∑ xy + c∑ y
2
2
Estas funciones llamadas las ecuaciones normales correspondientes a
(A), se obtienen como resultado de aplicar una definición análoga
(pendiente ref.) adviértase que puede obtenerse formalmente de (A),
multiplicando por 1, x, y respectivamente y sumando
V.31.- Correlación total, parcial y múltiple.
Correlación lineal: El objetivo primordial del análisis de correlación lineal
es medir la intensidad de una relación lineal entre dos variables. Se
analizaran algunos diagramas de dispersión que muestran diferentes
relaciones entre variables independientes o de entrada, “x”, y variables
dependientes o de salida, “y”, Si a medida que crece “x” no hay un
cambio definido en los valores de “y”, se dice que no hay correlación o
relación entre x & y. Si a medida que crece x””, hay un cambio en los
valores de “y”, existe una correlación. La correlación es positiva cuando
“y” tiende a crecer, y es negativa cuando “y” tiende a decrecer. Si los
pares ordenados (x, y) tienden a seguir un patrón de línea recta, se tiene
una correlación lineal. Los diagramas de dispersión siguientes ilustran
estas ideas:
DIAGRAMA DE DISPERSIÓN Y CORRELACIÓN
No hay correlación
alta
Correlación negativa
Correlación positiva
Correlación positiva
Correlación negativa alta
La correlación lineal perfecta ocurre cuando todos los puntos están
exactamente sobre una recta, como se observa en la siguiente figura.
Esta correlación puede ser positiva o negativa, dependiendo de si “y”
crece o decrece a medida que “x” se incrementa. Silos datos forman una
recta horizontal o vertical, no hay correlación, ya que una variable no
afecta a la otra.
Correlación positiva perfecta
Correlación negativa perfecta
VI.32.-Introducción.Naturaleza de la prueba de hipótesis:
Todo mundo toma decisiones en la vida diaria. Algunas de estas
decisiones son de fundamental importancia y otras aparentemente
insignificantes. Todas las decisiones siguen el mismo patrón básico. Se
ponderan las alternativas; luego, con base en las convicciones y
preferencias personales, y cuales sean los hechos disponibles, se llega
a una decisión y se emprende la acción idónea. La prueba de hipótesis
sigue casi el mismo proceso, excepto que implica información
estadística.
Un amigo suyo va hacer una fiesta (para celebrar el súper tazón por que
acaba de ingresar a la universidad; usted conoce la situación, cualquier
pretexto sirve) a la que usted esta invitado. Debe tomar una decisión de:
ir o no ir. Decisión simple; buena tal vez, a salvo que usted desea asistir
solo si esta convencido de que la fiesta será más divertida que las
reuniones clásicas de sus amigo; además, definitivamente no quiere
asistir si solo va a ser un desastre de fiesta. Usted ha asumido la
posición de que la “fiesta será un fracaso” y no asistirá a menos que se
convenza de lo contrario. Su amigo le asegura “¡Esta garantizado, la
fiesta será un éxito¡” . ¿Asistirá usted o no?.
El proceso de toma de decisiones comienza con la identificación de algo
de interés y luego con el planteamiento de dos hipótesis al respecto.
VI.33.- Hipótesis y modelos
HIPÓTESIS.- Afirmación de que algo es verdadero.
La afirmación de su amigo “¡La fiesta será un éxito¡” es una
hipótesis. Su posición de que “la fiesta será un fracaso” también es
una hipótesis.
VI.34.- Prueba de hipótesis estadística
Proceso que permite tomar una decisión entre dos hipótesis opuestas.
Estas hipótesis se plantean de modo que una es la negación de la otra
(de esta forma una de ellas siempre es verdadera y la otra es falsa).
Luego, una hipótesis se prueba con la esperanza de poder demostrar
que su ocurrencia es muy improbable, implicándose así que la otra
hipótesis es probablemente verdadera.
Las dos hipótesis presentes en la toma de una decisión se denominan
hipótesis nula e hipótesis alternativa.
VI.35.-La hipótesis nula. (Ho)
Es la hipótesis que se prueba. Por lo general, es una afirmación sobre
un parámetro poblacional que tiene un valor específico. La hipótesis nula
se denomina así porque es el “punto inicial” de la investigación (en su
interpretación a menudo se usa la frase “no hay diferencia”).
VI.36.- Hipótesis alternativa. (Ha)
Es la afirmación sobre el mismo parámetro da la población que se usa
en la hipótesis nula. En general, es una afirmación que especifica que el
parámetro de la población tiene un valor diferente, de alguna manera,
del
valor proporcionado en la hipótesis nula. El rechazo de la hipótesis nula
implica la probable veracidad de la hipótesis alternativa.
Con respecto a la fiesta de su amigo, los dos puntos de vista o hipótesis
opuestos son: “La fiesta será un éxito”, y “La fiesta será un fracaso”.
¿Cuál afirmación se vuelve hipótesis nula y cual alternativa?
Un paso muy importante es determinar las afirmaciones de las hipótesis
nula y alternativa. La idea básica de la prueba de hipótesis es que los
hechos tengan la posibilidad de “refutar” la Ho. La hipótesis nula es la
afirmación que podría ser refutada por los hechos. Su interés (convicción
o resultado deseado), como la persona que realiza la prueba, se expresa
en la hipótesis alternativa. Siendo usted quien toma la decisión,
considera que los hechos demostraran la factibilidad de su teoría al
demostrar la improbabilidad de la veracidad de la hipótesis nula.
Algunas veces, la hipótesis alternativa se denomina hipótesis de
investigación, ya que representa lo que el investigador espera encontrar
como “verdadero” (De ser así el investigador publicara un articulo sobre
la investigación).
Debido a que los “hechos” (quien asiste a la fiesta, que se ofrecerá en
esta, etc.) solo pueden demostrar la improbabilidad de que la reunión
será un fracaso, su postura inicial, “La fiesta será un fracaso”, se
convierte en la hipótesis nula. Así, la afirmación de su amigo, “¡La fiesta
será un éxito¡” , se vuelve la hipótesis alternativa.
Ho: “La fiesta cera un fracaso” vs. Ha: La fiesta será un éxito”.
INTEGRACIÓN CONCEPTUAL: (El Titular Académico, conocerá las
respuestas). La tecnología de los métodos científicos se aborda de manera
axiomática a través de las técnicas de análisis de los fenómenos estocásticos. --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------REPORTES CRÍTICOS O SUGERENTES A: MC Ernesto Guerra
García,
Coordinador
General
Educativo.
(Correo
electrónico:
eguerra@uaim.edu.mx ) Benito Juárez No. 39, Mochicahui, El Fuerte,
Sinaloa, México. C.P. 81890, Tel. 01 (698) 8 92 00 42. -------------------------------------------------------------------------------------------------------UNIVERSIDAD AUTÓNOMA INDÍGENA DE MÉXICO
Mochicahui, El Fuerte, Sinaloa
Juárez 39, C.P. 81890. Tel y fax: (698)8 92 00 42 y 8 92 00 23
Correo electrónico:_ uaim@uaim.edu.mx
Página Web: http//www.uaim.edu.mx