Download material guía 1

Document related concepts
no text concepts found
Transcript
UNIVERSIDAD NACIONAL DE LANUS
LICENCIATURA EN SISTEMAS
Ingeniería de Software Empírica
Prof. Adj.:
Ing. Hernán Amatriain
EXPERIMENTACIÓN EN INGENIERÍA DE SOFTWARE
Material Compilado por Ing. Hernán Amatriain
1. LA NECESIDAD DE EXPERIMENTAR EN IS
1.1. ESTADO ACTUAL DE LA INGENIERÍA EN SOFTWARE
La Ingeniería en Software (IS) tiene el objetivo de guiar el proceso de
construcción de productos software mediante la definición de métodos,
técnicas y herramientas para ser utilizadas en cada actividad de acuerdo a las
condiciones que se disponga.
Durante bastante tiempo, desde el inicio de esta disciplina, este proceso de
desarrollo era más parecido a la artesanía que a una ingeniería. Toda
ingeniería debe estar basada en métodos científicos para ser considerada como
tal. En la IS generalmente no se contaba con técnicas ni métodos que cuenten
con una justificación científica ni un “estudio objetivo de su efectividad”.
Las nuevas innovaciones que se aplicaban, se utilizaban porque se asumían
que serían útiles debido al respeto o fama de las personas que lo formulaban.
En la actualidad, suelen verse estas conductas que no fueron del todo
purgadas. Muchas veces, es posible contar con instituciones, educativas,
privadas o gubernamentales, que se ocupan de probar las nuevas tecnologías y
calificarlas para orientar a la industria sobre si son buenas o malas. Pero, en
algunas ocasiones, ciertas técnicas o herramientas se ponen de “moda” entre
los desarrolladores sin contar con ningún tipo apoyo para justificar sus
ventajas y utilidades. Estas innovaciones sorprendentemente luego pueden ser
desmentidas o pueden encontrarse que en la mayoría de los casos no son
útiles. Esto parece un proceso de “prueba y error” en el que se pone en juego
el éxito o fracaso de proyectos con las pérdidas económicas correspondientes.
Por lo tanto, es necesario un marco que permita a los ingenieros poder conocer
cuales son los mejores métodos y herramientas que se deben aplicar a través
de un método científico y por lo tanto objetivo. Este marco es la
Experimentación que como se usa en otras disciplinas permite brindar
información objetiva y no sólo opiniones sobre lo mejor a aplicar en cada etapa
de un proyecto software según las circunstancias. Entonces, de está forma se
“permitirá ganar más entendimiento de que hace un software bueno y como
hacerlo mejor”.
1.2. ¿POR QUÉ NO SE UTILIZA?
Las principales excusas para no utilizar experimentación en IS son:
-
Los desarrolladores no conocen la importancia y el significado del método
científico ni tampoco cómo analizar los resultados generados por un
experimento. Sin embargo, una buena preparación en este método les
permitirá ver que es de gran ayuda en el proceso de construcción de
software.
-
Los estudios conducidos para revisar las ideas no son muy publicables, ni
hay gran atractivo para realizarlos cuando se puede generar en cambio
nuevas teorías que dan más prestigio. Sin embargo, como sucede por
ejemplo en medicina, la publicación de trabajos por los practicantes
permite analizar casos especiales y los resultados de utilizar una nueva
teoría en diferentes proyectos, lo que es de gran importancia para la
comunidad.
-
La gran cantidad de variables que influyen en el desarrollo de software
(entre los que se destaca el factor humano), puede generar que la
experimentación sea muy compleja. Sin embargo, esta tampoco es una
excusa válida. Otras disciplinas tuvieron los mismos problemas al
principio, pero no por eso se dejaron ganar y lograron así obtener mayor
cantidad de conocimiento para madurar hasta llegar a su estado actual.
-
Otros dos factores relacionados que se dan como excusas para no
experimentar son la velocidad con que se mejora la tecnología y la
cantidad de dinero invertido en el mercado del software.
Paradójicamente, a pesar que sería correcto pensar que esto debería
influir en la utilización de técnicas o herramientas debidamente
verificadas, esto no sucede. Se cree erróneamente que la utilización de
experimentos para verificar la eficiencia de las técnicas puede ser un
freno para el progreso, cuando, en cambio, su utilización permitirá un
crecimiento más ordenado y no a los tumbos como sucede actualmente.
Además de permitir generar información histórica que será de gran
utilidad en el futuro.
De estas excusas, se puede destacar que la más importante es que la
comunidad de ingenieros en software todavía no es consciente de la necesidad
e importancia de la utilización de experimentos. De ser así, ella misma se
impondría su desarrollo obligatoria y se podrían obviar las otras excusas
mencionadas.
A pesar de estos inicios y la actualidad que rige en el contexto de la IS, la
mentalidad se está cambiando lentamente, y los reportes de experimentos en
este campo se ha incrementado sensiblemente.
Lo mismo sucedió en la medicina, al principio no se consideraba importante
realizar las pruebas de nuevos medicamentos y técnicas utilizando métodos
científicos y objetivos. Se debía confiar en las opiniones y juicios de los
médicos y los laboratorios a partir de su experiencia y prestigio. Esto trajo
aparejado soluciones que ahora se consideran ridículas, como por ejemplo, la
cura milagrosa de varias enfermedades a través de tónicos milagrosos. Esto
produjo falta de credibilidad en el público, por el peligro que ponían a su salud.
Y por lo tanto comenzaron a realizarse validaciones a través de diferentes tipos
de experimentos de las supuestas innovaciones. Se puede ver que en esto
también debe jugar un importante papel de los clientes de los proyectos
software. Estos también deben exigir una explicación y justificación sobre los
procedimientos realizados para asegurar la calidad de los productos generados.
2. EL MÉTODO CIENTÍFICO
2.1. REGLAS GENERALES
El Método Científico, desarrollado por René Descartes en el siglo XVII, se rige
por las siguientes reglas:
-
Dudar de todo lo que no se puede asegurar con total seguridad que sea
verdadero.
-
Descomponer las dificultades en tantas partes como sea posible.
-
Ordenar los elementos de los más simple a lo más complejo.
-
Generar enumeraciones tan complejas para asegurase que no se omite
nada.
Estas reglas tienen el objetivo primordial de generar leyes expresadas
generalmente en forma de ecuaciones matemáticas y que gobiernan un
fenómeno bajo estudio. Este es el caso, por ejemplo, de la física y química
donde se cuenta con gran cantidad de modelos matemáticos para expresar los
diferentes procesos o fenómenos. Estos modelos son conocidos como modelos
mecanicistas o teóricos porque están basados en el entendimiento de la teoría
mecánica que gobierna el proceso general. Para llegar a este nivel fundamental
de conocimiento estas ciencias han necesitado el trabajo de muchos grandes
hombres a lo largo de muchos siglos.
En otras disciplinas, como es el caso de la construcción de software, muchas
veces el mecanismo que gobierna el proceso todavía no es totalmente
conocido o es muy complejo para ser expresado en un modelo exacto de
consideraciones teóricas. En estos casos se utiliza un modelo empírico. En este
modelo, las investigaciones no tienen el objetivo de encontrar el modelo
mecánico del proceso sino poder comprender las circunstancias bajo las cuales
se realiza. Los modelos experimentales generados son generalmente
representados como ecuaciones relacionados a un área particular de las
variables bajo estudio, por lo que son considerados limitados y no pueden ser
generalizados.
Un modelo mecanicista, respaldado por la naturaleza del sistema bajo estudio
y verificado formalmente a través de experimentos, está en mejores
condiciones que uno empírico, para confirmar el conocimiento del fenómeno
que se está experimentando. Este último está restringido a las condiciones
bajo estudio, mientras que el primero puede servir de base para ser
extrapolado en nuevas situaciones.
A pesar de las ventajas del modelo mecanicista, la construcción de software
todavía no se encuentra en condiciones para desarrollar modelos teóricos
generales para predecir que va a ocurrir a partir de las condiciones presentes.
Mientras tanto, es posible utilizar modelos empíricos para hacer declaraciones
sobre las condiciones particulares bajo las cuáles una técnica o herramienta
funciona. Estos modelos empíricos deben ser desarrollados y verificados a
través de la ejecución de experimentos focalizados en variables particulares y
etapas del proyecto de desarrollo bajo estudio, para aumentar su confianza.
2.2. PROCESO PARA GENERAR CONOCIMIENTO
Las tareas utilizadas para la generación de conocimiento son tres y se explican
a continuación:
1- Interactuar con la realidad, en esta primera etapa, el investigador obtiene
los hechos y experiencias del mundo real a través de dos posibles procesos.
El primero pasivo (sin control) y el otros activo (con control). Estos son la
Observación de los hechos de la realidad, sin interferir sobre ellos; y la
Experimentación, interactuando con la realidad para obtener conclusiones
más específicas.
2- Especulación, en esta etapa se generan las hipótesis o leyes a partir de las
percepciones del mundo real obtenidas en la primera etapa. Éstas pueden
poseer diferentes niveles de abstracción, yendo de lo más general a lo más
particular.
3- Confrontar con la realidad, en esta última etapa se desea verificar que las
hipótesis generadas anteriormente. Para ello se utilizan experimentos para
probarlas bajo condiciones especiales.
Se puede ver que en cada una de las etapas se utilizan los siguientes tipos de
razonamiento, tal como puede verse en la figura 1:
1- Inducción, para estudiar los datos que se reciben del mundo real.
2- Abducción, que consiste en la formulación de una idea, modelo o conjetura
a partir de los datos estudiados del mundo real.
3- Deducción, que consiste en un probar una idea más general bajo
condiciones particulares.
Debe tenerse en cuenta que el conocimiento científico, a pesar de ser probado
y verificado, no es permanente. Se lo considera como tal hasta que es
contradicho o desmitificado. Por eso, los científicos necesitan validar en forma
formal y justificable sus descubrimiento para que estos sean aceptados por el
resto de la comunidad. Los experimentos deben estar debidamente
documentados así el resto de lo científicos pueden reproducirlos bajo
condiciones iguales o similares para tratar de obtener los mismos resultados.
De no ser así, las conclusiones obtenidas serán desestimadas y catalogadas
como “no científicamente probadas” desacreditando cualquier contribución
realizada por el investigador.
2.3. TIPOS DE INVESTIGACIÓN
Los nuevos conocimientos puede ser obtenido a partir de los siguientes tres
niveles de investigación:
1- Encuestas de investigación (survey inquiries), cuyo objetivo es distinguir
cuales son las variables que se afectan entre sí. Esta información, que es
fundamental en cualquier disciplina, todavía no es disponible en la IS. Para
obtenerlo, lo que se podría hacer es ejecutar muchos experimentos,
variando todas las posibles variables de desarrollo y estudiar su impacto en
características particulares. Lo que puede ser muy tedioso y caro, pero de
gran utilidad.
2- Investigación empírica (empirical inquiries), su objetivo es descubrir un
modelo empírico que describa cómo ciertas variables se afectan entre sí. O
sea, determinar que influencia específica existe entre las variables antes
encontradas de acuerdo a sus valores. En el caso de la IS, este tipo de
estudio buscaría que alternativas pueden ser comparadas para seleccionar
el mejor valor de un conjunto particular para optimizar cierta respuesta.
3- Investigación mecanicista (mechanistic inquiries), tiene el objetivo de
producir el modelo teórico para explicar porque las variables afectan la
respuesta de la manera observada. Este es el nivel de conocimiento más
profundo de cualquier disciplina. Para poder realizarla es necesario disponer
un conocimiento teórico que le sirva de base para generar nuevos
conocimientos, lo cuál todavía no está disponible en la IS.
A su vez, a partir de estos tipos de estudios se pueden obtener conocimiento
empírico que pueden ser de dos tipos:
-
Cuantitativos, cuando se busca encontrar una relación numérica entre las
variables y alternativas que se están examinando. Los datos que se
obtienen están en forma de tablas numéricas o fórmulas matemáticas
que muestran de que manera se relacionan las variables entre sí.
-
Cualitativos, cuando se ven los objetos en su forma natural para
interpretar el fenómeno en términos que la gente pueda comprender. Así
los datos obtenidos están en forma de texto, gráficos, imágenes, etc.
Los estudios de tipo cualitativos pueden ser de gran utilidad para definir el
cuerpo de conocimiento de cualquier disciplina. Se puede considerar que éste
es el principal tipo de estudio que se tiene en cuenta actualmente en la IS,
dado que pueden servir de base para definir hipótesis que pueden ser
probadas luego por estudios cuantitativos. Este trabajo se ocupa sólo de
estudios de tipo cuantitativos para a través de la experimentación obtener
resultados numéricos que verifiquen, o no, las hipótesis formuladas. Debido a
que éste permite obtener resultados más formales y por lo tanto más
fácilmente justificables.
2.4. TIPOS DE RELACIÓN ENTRE VARIABLES
Los distintos niveles de relación entre las variables dependiendo la cantidad de
conocimiento sobre su influencia pueden ser:
1- Relación descriptiva (descriptive relationship) cuando una relación entre
variables es desconocida, pero ciertos patrones de comportamiento puede
ser descriptos en lenguaje natural después de observar varios procesos.
2- Correlaciones (correlation) cuando la relación es expresada a través de una
función, que agrega a la descripción antes realizada, las proporciones de
cómo interactuan entre sí una o más variables que influyen sobre una
tercera. Captura evidencia pero no se basa en ninguna teoría.
3- Relación causal (causal relationship o deterministic causality relationship)
cuando el nivel de conocimiento sobre las variables es el más alto. Se
conoce exactamente que variables influyen sobre otra asegurando que no
existe otra que lo haga. Está basada en un modelo teórico que lo sustenta.
Puede verse que los tres tipos de relaciones se corresponden con los tres
niveles de investigación antes mencionados. Así encuestas de investigación
generarán relaciones descriptivas, la investigación empírica correlaciones y la
investigación mecanicista puede generar relaciones causales. De ello se
concluye que el primer tipo de relación es posible de obtener a partir de un
análisis informal de los resultados, mientras que para los otros dos es
necesario realizar un análisis más detallado utilizando la estadística.
3. EXPERIMENTACIÓN Y CONCEPTOS ESTADÍSTICOS
3.1. EJEMPLO INTRODUCTORIO
El Prof. H, que investiga sobre técnicas de testing en la universidad descubre
un nuevo método de inspección de código que, a priori, parece que mejora el
desempeño de otras técnicas tradicionales como es por ejemplo la técnica
basada en perspectivas. Por tal motivo, decide realizar un estudio empírico que
le permita validar esta hipótesis. Dado que posee recursos económicos
limitados, hace un llamado a estudiantes de los últimos años de la carrera de
ingeniería en Sistemas para que participen en el proyecto. Como resultado de
la convocatoria consigue reclutar a 16 estudiantes, los cuales son entrenados 8
en el nuevo método y 8 en el método basado en perspectiva, obteniendo los
siguientes resultados:
Nueva método
Media (Me) = 12.000
Técnica basada en perspectivas
Media (Mc) = 11.125
Desvío Estándar (Se) = 2.673
Desvío Estándar (Sc) = 2.800
Resultados del estudio experimental
En base a estos valores obtenidos, el Prof. H, realiza un contraste de hipótesis
(un t-test suponiendo varianzas iguales, con α = 0.05) para intentar validar los
resultados. Dicho test arroja un p-value de 0.53, por tanto no puede
asegurarse que el nuevo método mejore el desempeño del método
preexistente.
El resultado del experimento desilusiona profundamente al Prof. H, sin
embargo, escribió un paper que envió a un workshop de International
Conference of Empirical Software Engineering (ICESE). Al finalizar el proceso
de revisión, el Prof. H, recibió la siguiente evaluación:
Originality:
Importance:
Overall:
Detail
coments:
Accept
Strong Reject
Reject
Su trabajo es interesante pero tiene dos grandes
falencias, en primer lugar ha sido desarrollado con
muy pocos sujetos experimentales (que, además,
no son profesionales), y, en segundo lugar, los
resultados del estudios son no significativos, por lo
cual no aporta información relevante para los
profesionales del área.
Resultados de la evaluación del trabajo
El ejemplo hipotético anterior, aunque ficticio, es representativo de muchos
investigadores reales en IS empírica. Por una parte, muchos investigadores y
desarrolladores de la industria de software siguiendo recomendaciones
originadas en otros campos de la ciencias (por ejemplo medicina renuncian a
tomar como evidencia estudios experimentales que fueron construidos con
pocos sujetos experimentales o que arrojan diferencias significativas, por
considerar que estos trabajos no aportan información fiable. Sin embargo el
problema que se presenta es que existe escasez de profesionales o estudiantes
avanzados dispuestos a participar de trabajos experimentales a un costo
accesible por los investigadores de las universidades o empresas. Además,
dependiendo del caso bajo estudio, muchas veces es necesario contar con un
nivel de infraestructura de altos costos (por ejemplo, para probar estrategias
de acceso masivo a datos, no solo de debe tener acceso al motor de base de
datos, sino también a un equipo que tenga la capacidad suficiente para
procesar las consultas de manera eficiente) lo cual también condiciona a los
investigadores. Estos factores implican una alta limitante para que los
investigadores de IS puedan generar conocimiento validado empíricamente.
A pesar de ello y el Prof. H publicó su trabajo en la página Web del laboratorio
al cual pertenece, ya que seguía pensando que la información empírica
conseguida podía ser valiosa para otros investigadores y/o profesionales.
Además, le había demandó un gran esfuerzo y tiempo.
Posteriormente volveremos sobre el ejemplo del Prof. H y el porque de la
importancia que haya publicado su trabajo. Ahora nos concentraremos en la
lectura de los resultados de su investigación. Para ello, debemos repasar
algunos conceptos estadísticos básicos.
3.2. MEDIA, MEDIANA Y MODA
Para resumir un conjunto de datos numéricos podemos utilizar la media
aritmética, la mediana y/o la moda. La media aritmética o promedio
representa el reparto equitativo de los valores observados. Es el valor que
tendrían los datos si todos ellos fueran iguales. Si se ordenan todos los datos,
de menor a mayor, la mediana es el valor que ocupa la posición central. Si el
número de datos es par, la mediana es la media aritmética de los dos
centrales. La moda es el valor que más se repite o, lo que es lo mismo, el que
tiene la mayor frecuencia.
3.3. VARIANZA Y DESVÍO ESTÁNDAR
La desviación estándar, también llamada desviación típica, es una medida
de dispersión que indica cuánto tienden a alejarse los valores concretos del
promedio en una distribución. De hecho, específicamente, el cuadrado de la
desviación estándar es "el promedio del cuadrado de la distancia de cada punto
respecto del promedio". Se suele representar por una S o con la letra sigma,
.
La desviación estándar de un conjunto de datos es una medida de cuánto se
desvían los datos de su media. Esta medida es más estable que el recorrido y
toma en consideración el valor de cada dato.
La Desviación Estándar es la raíz cuadrada de la varianza. Así, la varianza es la
media de los cuadrados de las diferencias entre cada valor de la variable y la
media aritmética de la distribución.
3.4. FUNCIÓN DE DENSIDAD DE PROBABILIDAD
En la teoría de la probabilidad, la función de densidad de
probabilidad, función de densidad, o, simplemente, densidad de
una variable aleatoria continua describe la probabilidad relativa según la cual
dicha variable aleatoria tomará determinado valor.
La probabilidad de que la variable aleatoria caiga en una región específica del
espacio de posibilidades estará dada por la integral de la densidad de esta
variable entre uno y otro límite de dicha región.
La función de densidad de probabilidad (FDP o PDF en inglés) es no-negativa a
lo largo de todo su dominio y su integral sobre todo el espacio es de valor
unitario.
Una función de densidad de probabilidad caracteriza el comportamiento
probable de una población en tanto especifica la posibilidad relativa de que
una variable aleatoria continua X tome un valor cercano a x.
Una variable aleatoria X tiene densidad f, si:
Que es la probabilidad de que una variable aleatoria continua X quede ubicada
entre los valores a y b. Por lo tanto, si F es la función de distribución
acumulativa de X, entonces:
y (si f es continua en x)
Intuitivamente,
puede
considerarse f(x) dx como
de X de caer en el intervalo infinitesimal [x, x + dx].
la
probabilidad
3.5. DISTRIBUCIÓN NORMAL
Es una de las distribuciones de probabilidad de variable continua que con más
frecuencia aparece aproximada en fenómenos reales. La gráfica de su función
de densidad de probabilidad f(x) tiene una forma acampanada y es simétrica
respecto de un determinado parámetro estadístico (su media aritmética, μ).
Esta curva se conoce como campana de Gauss y es el gráfico de una función
gaussiana.
La importancia de esta distribución radica en que permite modelar numerosos
fenómenos naturales, sociales y psicológicos. Mientras que los mecanismos
que subyacen a gran parte de este tipo de fenómenos son desconocidos, por la
enorme cantidad de variables incontrolables que en ellos intervienen, el uso
del modelo normal puede justificarse asumiendo que cada observación se
obtiene como la suma de unas pocas causas independientes.
Propiedades
Algunas propiedades de la distribución normal son:
1. Es simétrica respecto de su media, μ;
Distribución de probabilidad alrededor de la media en una distribución
N(μ, σ2).
2. La moda y la mediana son ambas iguales a la media, μ;
3. Los puntos de inflexión de la curva se dan para x = μ − σ y x = μ + σ.
4. Distribución de probabilidad en un entorno de la media:
1. en el intervalo [μ - σ, μ+ σ] se encuentra comprendida,
aproximadamente, el 68,26% de la distribución;
2. en el intervalo [μ - 2σ, μ + 2σ] se encuentra, aproximadamente, el
95,44% de la distribución;
3. por su parte, en el intervalo [μ -3σ, μ + 3σ] se encuentra
comprendida, aproximadamente, el 99,74% de la distribución.
Estas propiedades son de gran utilidad para el establecimiento
de intervalos de confianza. Por otra parte, el hecho de que
prácticamente la totalidad de la distribución se encuentre a tres
desviaciones típicas de la media justifica los límites de las tablas
empleadas habitualmente en la normal estándar.
Estandarización de variables aleatorias normales
Como consecuencia de la Propiedad 1; es posible relacionar todas las variables
aleatorias normales con la distribución normal estándar.
Si
~
, entonces
es una variable aleatoria normal estándar:
~
.
La transformación de una distribución X ~ N(μ, σ) en una N(0, 1) se
llama normalización, estandarización o tipificación de la variable X.
A la inversa, si
es una distribución normal estándar,
~
, entonces
es una variable aleatoria normal tipificada de media
varianza
y
.
La distribución normal estándar está tabulada (habitualmente en la forma del
valor de la función de distribución Φ) y las otras distribuciones normales
pueden obtenerse como transformaciones simples (usando
) de la
distribución estándar. De este modo se pueden usar los valores tabulados de la
función de distribución normal estándar para encontrar valores de la función de
distribución de cualquier otra distribución normal.
El Teorema del Límite Central
El Teorema del límite central establece que bajo ciertas condiciones (como
pueden ser independientes e idénticamente distribuidas con varianza finita), la
suma de un gran número de variables aleatorias se distribuye
aproximadamente como una normal.
3.6. ESTIMACIÓN DE PARÁMETROS
La estimación de parámetros es el procedimiento utilizado para conocer las
características de un parámetro poblacional, a partir del conocimiento de la
muestra.
Con una muestra aleatoria, de tamaño n, podemos efectuar una estimación de
un valor de un parámetro de la población; pero también necesitamos precisar
un Intervalo de confianza. Se llama así a un intervalo en el que sabemos que
está un parámetro, con un nivel de confianza específico. El nivel de confianza
es la probabilidad de que el parámetro a estimar se encuentre en el intervalo
de confianza. El error de estimación admisible estará relacionado con el radio
del intervalo de confianza.
En el caso de experimento realizado por el Prof. H, los valores de la media y el
desvío estándar informados son los valores obtenidos por estimación.
3.7. INTERVALO DE CONFIANZA
Es un par de números entre los cuales se estima que estará cierto valor
desconocido con una determinada probabilidad de acierto. Se calcula a partir
de datos de una muestra, y el valor desconocido es un parámetro poblacional.
La probabilidad de éxito en la estimación se representa con 1 - α y se
denomina nivel de confianza. En estas circunstancias, α es el llamado error
aleatorio o nivel de significación, esto es, una medida de las posibilidades de
fallar en la estimación mediante tal intervalo.
El nivel de confianza y la amplitud del intervalo varían conjuntamente, de
forma que un intervalo más amplio tendrá más probabilidad de acierto (mayor
nivel de confianza), mientras que para un intervalo más pequeño, que ofrece
una estimación más precisa, aumenta su probabilidad de error.
Intervalo de confianza para la media
conocido
de una población con desvío
De una población de media
y desviación típica
se pueden tomar muestras
de
elementos. Cada una de estas muestras tiene a su vez una media ( ). La
media de todas las medias muestrales coincide con la media poblacional:
Pero además, si el tamaño de las muestras es lo suficientemente grande, la
distribución de medias muestrales es una distribución normal con media μ y
una desviación típica dada por:
.
Luego, se estandariza la variable
Z=(
–
con:
) √n /
De lo cual se obtendrá el intervalo de confianza:
P(
+ Zα/2 ( /√n) <
<
+ Z1-α/2 ( /√n)) = 1 - α
<
+ Z1-α/2 ( /√n)) = 1 - α
Como:
Zα/2 = 1 - Z1-α/2
Se tiene:
P(
+ Zα/2 ( /√n) <
Las aproximaciones habitualmente utilizadas son:
Z = 1,96
Z = 2,576
3.8. DISTRIBUCIÓN T DE STUDENT
la distribución t (de Student) es una distribución de probabilidad que surge del
problema
de estimar la media de
una población normalmente
distribuida cuando el tamaño de la muestra es pequeño.
Aparece de manera natural al realizar la prueba t de Student para la
determinación de las diferencias entre dos medias muestrales y para la
construcción del intervalo de confianza para la diferencia entre las medias de
dos poblaciones cuando se desconoce la desviación típica de una población y
ésta debe ser estimada a partir de los datos de una muestra.
La función de densidad de probabilidad es:
Con v = n -1, siendo la función gamma:
La curva representativa de la función de densidad se parece a la Normal
estandarizada, y tiende a ella a medida que el parámetro v se incrementa.
Intervalo de confianza para la media
desconocido
de una población con desvío
El intervalo de confianza para la media
con
que Z tiene distribución Normal estandarizada:
Z=(
–
) √n /
Cuando no se conoce
t=(
–
conocido se basa en el hecho
, debe estimarse con S:
) √n / S
Que tiene una distribución t de Student con v = n – 1 grados de libertad. Así,
el intervalo de confianza para se calcula mediante:
P(
- tv;1-α/2 (S / √n) <
<
+ tv;1-α/2 (S / √n)) = 1 – α
4. INFERENCIA A TRAVÉS DEL CONTRASTE DE HIPÓTESIS
4.1. CONTRASTE DE HIPÓTESIS
Una hipótesis es una suposición o conjetura sobre la naturaleza, cuyo valor de
verdad no se conoce. Una hipótesis estadística es una hipótesis sobre una
población.
En IS empírica (ISE), se utiliza el contraste de hipótesis (como lo hiciera el
Prof. H) para comparar la media de dos poblaciones, donde una de las
poblaciones utiliza un método (técnica, metodología, etc) clásico, ya probado o
de uso actualmente, y la otra población utiliza el método o técnica
experimental que se desea probar como mejora al método clásico.
Dentro de la inferencia estadística, un contraste de hipótesis (test de hipótesis,
ensayo de hipótesis o prueba de significación) es un procedimiento para juzgar
si una propiedad que se supone en una población estadística es compatible con
lo observado en una muestra de dicha población. Se aborda el problema
considerando una hipótesis determinada
y una hipótesis alternativa
, y
se intenta dirimir cuál de las dos es la hipótesis verdadera, tras aplicar el
problema estadístico a un cierto número de experimentos.
Se denomina hipótesis nula
a la hipótesis que se desea contrastar. El
nombre de "nula" significa “sin valor, efecto o consecuencia”, lo cual sugiere
que
debe identificarse con la hipótesis de no cambio (a partir de la opinión
actual); no diferencia, no mejora, etc.
representa la hipótesis que
mantendremos a no ser que los datos indiquen su falsedad, y puede
entenderse, por tanto, en el sentido de “neutra”.
Dado que el ensayo de hipótesis se realiza sobre los resultados muestrales, la
conclusión que se obtiene está sujeta a error.
Un ensayo no puede concluir que una hipótesis nula sea verdadera, sino tan
solo que no hay pruebas de que sea falsa.
4.2. ERRORES DE TIPO I Y DE TIPO II
En un estudio de investigación, el error de tipo I también denominado error de
tipo alfa (α) o falso positivo, es el error que se comete cuando el investigador
no acepta la hipótesis nula ( ) siendo esta verdadera en la población. Es
equivalente a encontrar un resultado falso positivo, porque el investigador
llega a la conclusión de que existe una diferencia entre las hipótesis cuando en
realidad no existe. Se relaciona con el nivel de significancia estadística.
La hipótesis de la que se parte
aquí es el supuesto de que la situación
experimental presentaría un «estado normal». Si no se advierte este «estado
normal», aunque en realidad existe, se trata de un error estadístico tipo I.
En un estudio de investigación, el error de tipo II, también llamado error de
tipo beta (β es la probabilidad de que exista este error) o falso negativo, se
comete cuando el investigador no rechaza la hipótesis nula siendo esta falsa en
la población. Es equivalente a la probabilidad de un resultado falso negativo,
ya que el investigador llega a la conclusión de que ha sido incapaz de
encontrar una diferencia que existe en la realidad.
Se acepta en un estudio que el valor del error beta esté entre el 5 y el 20%.
El poder o potencia del estudio representa la probabilidad de observar en la
muestra una determinada diferencia o efecto, si existe en la población. Es el
complementario del error de tipo II (1-β).
Una vez realizado el contraste de hipótesis, se habrá optado por una de las dos
hipótesis, la hipótesis nula o base
o la hipótesis alternativa
y la decisión
escogida coincidirá o no con la que en realidad es cierta. Se pueden dar los
cuatro casos que se exponen en el siguiente cuadro:
es cierta
es cierta
Se
escogió No
hay
positivo)
error
(verdadero Error de tipo
negativo)
Se
escogió Error de tipo I (α o falso No
hay
positivo)
negativo)
II (β o
error
falso
(verdadero
Si la probabilidad de cometer un error de tipo I está unívocamente
determinada, su valor se suele denotar por la letra griega α, y en las mismas
condiciones, se denota por β la probabilidad de cometer el error de tipo II, esto
es:
A máxima probabilidad de cometer un error de tipo I (α), también se conoce
como nivel de significación del ensayo. Se denomina Potencia del contraste al
valor 1-β, esto es, a la probabilidad de escoger
cuando esta es cierta
.
Cuando es necesario diseñar un contraste de hipótesis, sería deseable hacerlo
de tal manera que las probabilidades de ambos tipos de error fueran tan
pequeñas como fuera posible. Sin embargo, con una muestra de tamaño
prefijado, disminuir la probabilidad del error de tipo I, α, conduce a
incrementar la probabilidad del error de tipo II, β.
Usualmente, se diseñan los contrastes de tal manera que la probabilidad α sea
el 5% (0,05), aunque a veces se usan el 10% (0,1) o 1% (0,01) para adoptar
condiciones más relajadas o más estrictas. El recurso para aumentar la
potencia del contraste, esto es, disminuir β, probabilidad de error de tipo II, es
aumentar el tamaño muestral, lo que en la práctica conlleva un incremento de
los costes del estudio que se quiere realizar.
4.3. ENSAYO DE HIPÓTESIS SOBRE LA MEDIA
CON DESVÍO
CONOCIDO
Si la hipótesis nula ( ) es que la media
sea menor que un cierto valor o,
el rechazo de la misma se producirá si el estadístico (en este caso la media
muestral ) toma un valor que contradice la hipótesis; esto es, si toma un
valor mayor o igual que un cierto valor crítico c. La condición de rechazo (CR)
es la que debe cumplir la muestra para rechazar
:
<=
CR:
>=
:
o
c
Y el valor crítico Mc se calcula con:
c
=
o + Z1–α
/√n
El “nivel de significación a posteriori”, “nivel de significación de los datos”,
“valor p” o “p-value” se calcula con:
p = P ( >=
c
| =
0)
= 1 - Ф[( - o)√n /
]
Por lo tanto, la condición de rechazo puede expresarse como:
p <= α
Esta condición de rechazo es universal para cualquier ensayo de hipótesis.
Por otro lado, si la hipótesis nula (
cierto valor o, se tiene:
:
CR:
>=
<=
o
c
Y el valor crítico Mc se calcula con:
c
=
o - Z1–α
/√n
) es que la media
sea mayor que un
El “valor p” o “p-value” se calcula con:
p = P ( <=
c
| =
0)
= Ф[( - o)√n /
]
4.4. ERROR DE TIPO II Y POTENCIA DEL ENSAYO
El error de Tipo II se define como el que se comete al no rechazar una
hipótesis nula que en realidad es falsa. La probabilidad de este suceso es el
tamaño del error de tipo II y se designa con beta (β); y depende del verdadero
valor del parámetro que se está estimando, en este caso , que se denomina
1. Para calcular β, para un dado
1, se debe plantear la probabilidad de que
no se cumpla la condición de rechazo.
Así, para:
:
CR:
<=
>=
o
c
Se tiene:
β = P ( <=
c
|
=
1)
= Ф[(
c-
=
1)
= 1 - Ф[(
1)√n
/
]
Y para:
:
CR:
>=
<=
o
c
Se tiene:
β = P ( >=
c
|
c-
1)√n
/
]
La potencia del ensayo, entonces, es:
Potencia = 1 – β
Si se quiere que esta potencia tome un valor determinado, debe cumplirse:
n = [(Z1-α + Z1-β)
/(
1
-
2
0)]
4.5. ENSAYO DE HIPÓTESIS SOBRE LA MEDIA
CON DESVÍO
DESCONOCIDO
En estos casos debe utilizarse la distribución t de Student.
Para:
:
<=
CR:
>=
o
c
Se tiene:
c
=
o + tv;1-α S/√n
Y para:
:
CR:
>=
<=
o
c
Se tiene:
c
=
o - tv;1-α S/√n
4.6. EJEMPLO PRÁCTICO APLICADO A UN CASO DE ISE
Hasta aquí se vieron los conceptos necesarios para realizar un test de hipótesis
sobre la media de una muestra. Para afianzar los conceptos, se aplicarán estos
conceptos a un problema de experimentación en el campo de la IS.
Ejemplo 1: se desea analizar el rendimiento de un grupo de 10
programadores de una PyME. Para la prueba se toma un problema estándar,
donde se sabe por registros históricos, que los programadores senior pueden
resolverlo satisfactoriamente en un tiempo de 2 horas, con un desvío conocido
de 15 minutos (0,25 horas). Se desea saber si este grupo de programadores
que fuera seleccionado oportunamente para el trabajo, está dentro de este
rendimiento o tenga un rendimiento superior con un nivel de confianza del
95%. También desea conocerse la probabilidad de aceptar un grupo con un
rendimiento medio de 1,8 horas.
Solución: como se desea una confianza del 95%, se tendrá:
α = 0,05
La hipótesis nula y la condición de rechazo serán:
:
CR:
>=
<=
o = 2 horas
c
Se calcula:
C
=
O
- Z1–Α
/√N = 2 – Z0,95 0,25 / √10 = 2 – 1,96 * 0,25 / 3,16 = 1,85
Lo que debe hacerse, entonces, es tomar los valores temporales de cada uno
de los 10 programadores, obtener la media aritmética (promedio)
y si ese
valor es menor que 1,85, entonces se rechaza la hipótesis nula, y con ello se
acepta al grupo de programadores.
Para la segunda parte del problema, se desea calcular la probabilidad de
aceptar un grupo de programadores con un rendimiento medio de 1,8 horas.
Esta probabilidad es la probabilidad de cometer un error de tipo II:
β = P ( >=
c
|
=
1)
= 1 - Ф[(
c-
1)√n
/
]
β = 1 – Ф[(1,85 – 1,8) * 3,16 / 0,25] = 1 – Ф[0,632] = 1 – 0,735
β = 0,265
Ejemplo 2: la compañía de software BDU diseña un nuevo método de
relevamiento de requisitos. Actualmente se utiliza un método que tiene una
media de relevamiento de 500 horas/hombre por sistema de ABM comercial de
tamaño medio (establecido por la compañía). Para saber si el nuevo método
puede ser aceptado con un error de tipo I menor al 5%, se toman 5 grupos de
trabajo para realizar el relevamiento de requerimiento con el nuevo método
obteniéndose una media de 440 horas/hombre con un desvío de 60
horas/hombre. ¿Cuál es la postura a adoptar con el nuevo método?
Solución: la hipótesis nula a plantear es:
:
>=
o = 500 horas/hombre
Con los siguientes parámetros:
n = 5, v = 5 – 1 = 4, α = 0,05, S = 60
La condición de rechazo será:
CR:
<=
c
=
o - tv;1-α S/√n = 500 – t4;0,95 * 60 / 7,07
Donde t4;0,95 = 2,13
Entonces:
c
= 500 – 2,13 * 60 / 7,07 = 500 – 18,07 = 481,93
Como 440 < 481,93, se rechaza la hipótesis nula, aceptando el nuevo método.
5. DISEÑO DE EXPERIMENTOS
El ejemplo del Prof. H es un ensayo de hipótesis para la comparación de dos
medias. En este caso, el test de hipótesis es ligeramente distinto, y deben
revisarse algunos conceptos estadísticos.
En la siguiente guía se verán estos conceptos y se retomará el ejemplo del
Prof. H para comprender como realizar una comparación de dos métodos o
técnicas. Por lo general, a la técnica/método en uso o actual se conoce como
tratamiento de control. En cambio, a la técnica/método nuevo que se compara
para intentar demostrar su superioridad se conoce como tratamiento
experimental. Esto fue lo que hizo el Prof. H, y es lo que se verá en la
siguiente guía de estudio.
ANEXO
Intervalo de confianza para la media de una población
De una población de media
y desviación típica
se pueden tomar muestras
de
elementos. Cada una de estas muestras tiene a su vez una media ( ). La
media de todas las medias muéstrales coincide con la media poblacional:
Pero además, si el tamaño de las muestras es lo suficientemente grande, la
distribución de medias muéstrales es una distribución normal con media μ y
una desviación típica dada por:
.
Esto se representa como:
.
Si estandarizamos:
En una distribución Z ~ N(0, 1) puede calcularse un intervalo dentro del cual
caigan un determinado porcentaje de las observaciones, esto es hallar z1 y z2
tales que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje deseado.
Se desea obtener una expresión tal que:
En esta distribución normal de medias se puede calcular el intervalo de
confianza donde se encontrará la media poblacional si sólo se conoce una
media muestral ( ), con una confianza determinada. Habitualmente se
manejan valores de confianza del 95 y del 99 por ciento. A este valor se le
llamará
(debido a que es el error que se cometerá).
Para ello se necesita calcular el punto
, o su versión estandarizada
o
valor crítico, junto con su "opuesto en la distribución"
. Estos puntos
delimitan la probabilidad para el intervalo, como se muestra en la siguiente
imagen:
Dicho punto es el número tal que:
Y en la versión estandarizada se cumple que:
Así:
Es posible despejar
para obtener el intervalo:
De lo cual se obtendrá el intervalo de confianza:
Si no se conoce
y n es grande:
Donde s es la desviación típica de la muestra.
Las aproximaciones habitualmente utilizadas para el valor
confianza son 1,96 para
y 2,576 para
y los niveles de