Download material guía 1
Document related concepts
no text concepts found
Transcript
UNIVERSIDAD NACIONAL DE LANUS LICENCIATURA EN SISTEMAS Ingeniería de Software Empírica Prof. Adj.: Ing. Hernán Amatriain EXPERIMENTACIÓN EN INGENIERÍA DE SOFTWARE Material Compilado por Ing. Hernán Amatriain 1. LA NECESIDAD DE EXPERIMENTAR EN IS 1.1. ESTADO ACTUAL DE LA INGENIERÍA EN SOFTWARE La Ingeniería en Software (IS) tiene el objetivo de guiar el proceso de construcción de productos software mediante la definición de métodos, técnicas y herramientas para ser utilizadas en cada actividad de acuerdo a las condiciones que se disponga. Durante bastante tiempo, desde el inicio de esta disciplina, este proceso de desarrollo era más parecido a la artesanía que a una ingeniería. Toda ingeniería debe estar basada en métodos científicos para ser considerada como tal. En la IS generalmente no se contaba con técnicas ni métodos que cuenten con una justificación científica ni un “estudio objetivo de su efectividad”. Las nuevas innovaciones que se aplicaban, se utilizaban porque se asumían que serían útiles debido al respeto o fama de las personas que lo formulaban. En la actualidad, suelen verse estas conductas que no fueron del todo purgadas. Muchas veces, es posible contar con instituciones, educativas, privadas o gubernamentales, que se ocupan de probar las nuevas tecnologías y calificarlas para orientar a la industria sobre si son buenas o malas. Pero, en algunas ocasiones, ciertas técnicas o herramientas se ponen de “moda” entre los desarrolladores sin contar con ningún tipo apoyo para justificar sus ventajas y utilidades. Estas innovaciones sorprendentemente luego pueden ser desmentidas o pueden encontrarse que en la mayoría de los casos no son útiles. Esto parece un proceso de “prueba y error” en el que se pone en juego el éxito o fracaso de proyectos con las pérdidas económicas correspondientes. Por lo tanto, es necesario un marco que permita a los ingenieros poder conocer cuales son los mejores métodos y herramientas que se deben aplicar a través de un método científico y por lo tanto objetivo. Este marco es la Experimentación que como se usa en otras disciplinas permite brindar información objetiva y no sólo opiniones sobre lo mejor a aplicar en cada etapa de un proyecto software según las circunstancias. Entonces, de está forma se “permitirá ganar más entendimiento de que hace un software bueno y como hacerlo mejor”. 1.2. ¿POR QUÉ NO SE UTILIZA? Las principales excusas para no utilizar experimentación en IS son: - Los desarrolladores no conocen la importancia y el significado del método científico ni tampoco cómo analizar los resultados generados por un experimento. Sin embargo, una buena preparación en este método les permitirá ver que es de gran ayuda en el proceso de construcción de software. - Los estudios conducidos para revisar las ideas no son muy publicables, ni hay gran atractivo para realizarlos cuando se puede generar en cambio nuevas teorías que dan más prestigio. Sin embargo, como sucede por ejemplo en medicina, la publicación de trabajos por los practicantes permite analizar casos especiales y los resultados de utilizar una nueva teoría en diferentes proyectos, lo que es de gran importancia para la comunidad. - La gran cantidad de variables que influyen en el desarrollo de software (entre los que se destaca el factor humano), puede generar que la experimentación sea muy compleja. Sin embargo, esta tampoco es una excusa válida. Otras disciplinas tuvieron los mismos problemas al principio, pero no por eso se dejaron ganar y lograron así obtener mayor cantidad de conocimiento para madurar hasta llegar a su estado actual. - Otros dos factores relacionados que se dan como excusas para no experimentar son la velocidad con que se mejora la tecnología y la cantidad de dinero invertido en el mercado del software. Paradójicamente, a pesar que sería correcto pensar que esto debería influir en la utilización de técnicas o herramientas debidamente verificadas, esto no sucede. Se cree erróneamente que la utilización de experimentos para verificar la eficiencia de las técnicas puede ser un freno para el progreso, cuando, en cambio, su utilización permitirá un crecimiento más ordenado y no a los tumbos como sucede actualmente. Además de permitir generar información histórica que será de gran utilidad en el futuro. De estas excusas, se puede destacar que la más importante es que la comunidad de ingenieros en software todavía no es consciente de la necesidad e importancia de la utilización de experimentos. De ser así, ella misma se impondría su desarrollo obligatoria y se podrían obviar las otras excusas mencionadas. A pesar de estos inicios y la actualidad que rige en el contexto de la IS, la mentalidad se está cambiando lentamente, y los reportes de experimentos en este campo se ha incrementado sensiblemente. Lo mismo sucedió en la medicina, al principio no se consideraba importante realizar las pruebas de nuevos medicamentos y técnicas utilizando métodos científicos y objetivos. Se debía confiar en las opiniones y juicios de los médicos y los laboratorios a partir de su experiencia y prestigio. Esto trajo aparejado soluciones que ahora se consideran ridículas, como por ejemplo, la cura milagrosa de varias enfermedades a través de tónicos milagrosos. Esto produjo falta de credibilidad en el público, por el peligro que ponían a su salud. Y por lo tanto comenzaron a realizarse validaciones a través de diferentes tipos de experimentos de las supuestas innovaciones. Se puede ver que en esto también debe jugar un importante papel de los clientes de los proyectos software. Estos también deben exigir una explicación y justificación sobre los procedimientos realizados para asegurar la calidad de los productos generados. 2. EL MÉTODO CIENTÍFICO 2.1. REGLAS GENERALES El Método Científico, desarrollado por René Descartes en el siglo XVII, se rige por las siguientes reglas: - Dudar de todo lo que no se puede asegurar con total seguridad que sea verdadero. - Descomponer las dificultades en tantas partes como sea posible. - Ordenar los elementos de los más simple a lo más complejo. - Generar enumeraciones tan complejas para asegurase que no se omite nada. Estas reglas tienen el objetivo primordial de generar leyes expresadas generalmente en forma de ecuaciones matemáticas y que gobiernan un fenómeno bajo estudio. Este es el caso, por ejemplo, de la física y química donde se cuenta con gran cantidad de modelos matemáticos para expresar los diferentes procesos o fenómenos. Estos modelos son conocidos como modelos mecanicistas o teóricos porque están basados en el entendimiento de la teoría mecánica que gobierna el proceso general. Para llegar a este nivel fundamental de conocimiento estas ciencias han necesitado el trabajo de muchos grandes hombres a lo largo de muchos siglos. En otras disciplinas, como es el caso de la construcción de software, muchas veces el mecanismo que gobierna el proceso todavía no es totalmente conocido o es muy complejo para ser expresado en un modelo exacto de consideraciones teóricas. En estos casos se utiliza un modelo empírico. En este modelo, las investigaciones no tienen el objetivo de encontrar el modelo mecánico del proceso sino poder comprender las circunstancias bajo las cuales se realiza. Los modelos experimentales generados son generalmente representados como ecuaciones relacionados a un área particular de las variables bajo estudio, por lo que son considerados limitados y no pueden ser generalizados. Un modelo mecanicista, respaldado por la naturaleza del sistema bajo estudio y verificado formalmente a través de experimentos, está en mejores condiciones que uno empírico, para confirmar el conocimiento del fenómeno que se está experimentando. Este último está restringido a las condiciones bajo estudio, mientras que el primero puede servir de base para ser extrapolado en nuevas situaciones. A pesar de las ventajas del modelo mecanicista, la construcción de software todavía no se encuentra en condiciones para desarrollar modelos teóricos generales para predecir que va a ocurrir a partir de las condiciones presentes. Mientras tanto, es posible utilizar modelos empíricos para hacer declaraciones sobre las condiciones particulares bajo las cuáles una técnica o herramienta funciona. Estos modelos empíricos deben ser desarrollados y verificados a través de la ejecución de experimentos focalizados en variables particulares y etapas del proyecto de desarrollo bajo estudio, para aumentar su confianza. 2.2. PROCESO PARA GENERAR CONOCIMIENTO Las tareas utilizadas para la generación de conocimiento son tres y se explican a continuación: 1- Interactuar con la realidad, en esta primera etapa, el investigador obtiene los hechos y experiencias del mundo real a través de dos posibles procesos. El primero pasivo (sin control) y el otros activo (con control). Estos son la Observación de los hechos de la realidad, sin interferir sobre ellos; y la Experimentación, interactuando con la realidad para obtener conclusiones más específicas. 2- Especulación, en esta etapa se generan las hipótesis o leyes a partir de las percepciones del mundo real obtenidas en la primera etapa. Éstas pueden poseer diferentes niveles de abstracción, yendo de lo más general a lo más particular. 3- Confrontar con la realidad, en esta última etapa se desea verificar que las hipótesis generadas anteriormente. Para ello se utilizan experimentos para probarlas bajo condiciones especiales. Se puede ver que en cada una de las etapas se utilizan los siguientes tipos de razonamiento, tal como puede verse en la figura 1: 1- Inducción, para estudiar los datos que se reciben del mundo real. 2- Abducción, que consiste en la formulación de una idea, modelo o conjetura a partir de los datos estudiados del mundo real. 3- Deducción, que consiste en un probar una idea más general bajo condiciones particulares. Debe tenerse en cuenta que el conocimiento científico, a pesar de ser probado y verificado, no es permanente. Se lo considera como tal hasta que es contradicho o desmitificado. Por eso, los científicos necesitan validar en forma formal y justificable sus descubrimiento para que estos sean aceptados por el resto de la comunidad. Los experimentos deben estar debidamente documentados así el resto de lo científicos pueden reproducirlos bajo condiciones iguales o similares para tratar de obtener los mismos resultados. De no ser así, las conclusiones obtenidas serán desestimadas y catalogadas como “no científicamente probadas” desacreditando cualquier contribución realizada por el investigador. 2.3. TIPOS DE INVESTIGACIÓN Los nuevos conocimientos puede ser obtenido a partir de los siguientes tres niveles de investigación: 1- Encuestas de investigación (survey inquiries), cuyo objetivo es distinguir cuales son las variables que se afectan entre sí. Esta información, que es fundamental en cualquier disciplina, todavía no es disponible en la IS. Para obtenerlo, lo que se podría hacer es ejecutar muchos experimentos, variando todas las posibles variables de desarrollo y estudiar su impacto en características particulares. Lo que puede ser muy tedioso y caro, pero de gran utilidad. 2- Investigación empírica (empirical inquiries), su objetivo es descubrir un modelo empírico que describa cómo ciertas variables se afectan entre sí. O sea, determinar que influencia específica existe entre las variables antes encontradas de acuerdo a sus valores. En el caso de la IS, este tipo de estudio buscaría que alternativas pueden ser comparadas para seleccionar el mejor valor de un conjunto particular para optimizar cierta respuesta. 3- Investigación mecanicista (mechanistic inquiries), tiene el objetivo de producir el modelo teórico para explicar porque las variables afectan la respuesta de la manera observada. Este es el nivel de conocimiento más profundo de cualquier disciplina. Para poder realizarla es necesario disponer un conocimiento teórico que le sirva de base para generar nuevos conocimientos, lo cuál todavía no está disponible en la IS. A su vez, a partir de estos tipos de estudios se pueden obtener conocimiento empírico que pueden ser de dos tipos: - Cuantitativos, cuando se busca encontrar una relación numérica entre las variables y alternativas que se están examinando. Los datos que se obtienen están en forma de tablas numéricas o fórmulas matemáticas que muestran de que manera se relacionan las variables entre sí. - Cualitativos, cuando se ven los objetos en su forma natural para interpretar el fenómeno en términos que la gente pueda comprender. Así los datos obtenidos están en forma de texto, gráficos, imágenes, etc. Los estudios de tipo cualitativos pueden ser de gran utilidad para definir el cuerpo de conocimiento de cualquier disciplina. Se puede considerar que éste es el principal tipo de estudio que se tiene en cuenta actualmente en la IS, dado que pueden servir de base para definir hipótesis que pueden ser probadas luego por estudios cuantitativos. Este trabajo se ocupa sólo de estudios de tipo cuantitativos para a través de la experimentación obtener resultados numéricos que verifiquen, o no, las hipótesis formuladas. Debido a que éste permite obtener resultados más formales y por lo tanto más fácilmente justificables. 2.4. TIPOS DE RELACIÓN ENTRE VARIABLES Los distintos niveles de relación entre las variables dependiendo la cantidad de conocimiento sobre su influencia pueden ser: 1- Relación descriptiva (descriptive relationship) cuando una relación entre variables es desconocida, pero ciertos patrones de comportamiento puede ser descriptos en lenguaje natural después de observar varios procesos. 2- Correlaciones (correlation) cuando la relación es expresada a través de una función, que agrega a la descripción antes realizada, las proporciones de cómo interactuan entre sí una o más variables que influyen sobre una tercera. Captura evidencia pero no se basa en ninguna teoría. 3- Relación causal (causal relationship o deterministic causality relationship) cuando el nivel de conocimiento sobre las variables es el más alto. Se conoce exactamente que variables influyen sobre otra asegurando que no existe otra que lo haga. Está basada en un modelo teórico que lo sustenta. Puede verse que los tres tipos de relaciones se corresponden con los tres niveles de investigación antes mencionados. Así encuestas de investigación generarán relaciones descriptivas, la investigación empírica correlaciones y la investigación mecanicista puede generar relaciones causales. De ello se concluye que el primer tipo de relación es posible de obtener a partir de un análisis informal de los resultados, mientras que para los otros dos es necesario realizar un análisis más detallado utilizando la estadística. 3. EXPERIMENTACIÓN Y CONCEPTOS ESTADÍSTICOS 3.1. EJEMPLO INTRODUCTORIO El Prof. H, que investiga sobre técnicas de testing en la universidad descubre un nuevo método de inspección de código que, a priori, parece que mejora el desempeño de otras técnicas tradicionales como es por ejemplo la técnica basada en perspectivas. Por tal motivo, decide realizar un estudio empírico que le permita validar esta hipótesis. Dado que posee recursos económicos limitados, hace un llamado a estudiantes de los últimos años de la carrera de ingeniería en Sistemas para que participen en el proyecto. Como resultado de la convocatoria consigue reclutar a 16 estudiantes, los cuales son entrenados 8 en el nuevo método y 8 en el método basado en perspectiva, obteniendo los siguientes resultados: Nueva método Media (Me) = 12.000 Técnica basada en perspectivas Media (Mc) = 11.125 Desvío Estándar (Se) = 2.673 Desvío Estándar (Sc) = 2.800 Resultados del estudio experimental En base a estos valores obtenidos, el Prof. H, realiza un contraste de hipótesis (un t-test suponiendo varianzas iguales, con α = 0.05) para intentar validar los resultados. Dicho test arroja un p-value de 0.53, por tanto no puede asegurarse que el nuevo método mejore el desempeño del método preexistente. El resultado del experimento desilusiona profundamente al Prof. H, sin embargo, escribió un paper que envió a un workshop de International Conference of Empirical Software Engineering (ICESE). Al finalizar el proceso de revisión, el Prof. H, recibió la siguiente evaluación: Originality: Importance: Overall: Detail coments: Accept Strong Reject Reject Su trabajo es interesante pero tiene dos grandes falencias, en primer lugar ha sido desarrollado con muy pocos sujetos experimentales (que, además, no son profesionales), y, en segundo lugar, los resultados del estudios son no significativos, por lo cual no aporta información relevante para los profesionales del área. Resultados de la evaluación del trabajo El ejemplo hipotético anterior, aunque ficticio, es representativo de muchos investigadores reales en IS empírica. Por una parte, muchos investigadores y desarrolladores de la industria de software siguiendo recomendaciones originadas en otros campos de la ciencias (por ejemplo medicina renuncian a tomar como evidencia estudios experimentales que fueron construidos con pocos sujetos experimentales o que arrojan diferencias significativas, por considerar que estos trabajos no aportan información fiable. Sin embargo el problema que se presenta es que existe escasez de profesionales o estudiantes avanzados dispuestos a participar de trabajos experimentales a un costo accesible por los investigadores de las universidades o empresas. Además, dependiendo del caso bajo estudio, muchas veces es necesario contar con un nivel de infraestructura de altos costos (por ejemplo, para probar estrategias de acceso masivo a datos, no solo de debe tener acceso al motor de base de datos, sino también a un equipo que tenga la capacidad suficiente para procesar las consultas de manera eficiente) lo cual también condiciona a los investigadores. Estos factores implican una alta limitante para que los investigadores de IS puedan generar conocimiento validado empíricamente. A pesar de ello y el Prof. H publicó su trabajo en la página Web del laboratorio al cual pertenece, ya que seguía pensando que la información empírica conseguida podía ser valiosa para otros investigadores y/o profesionales. Además, le había demandó un gran esfuerzo y tiempo. Posteriormente volveremos sobre el ejemplo del Prof. H y el porque de la importancia que haya publicado su trabajo. Ahora nos concentraremos en la lectura de los resultados de su investigación. Para ello, debemos repasar algunos conceptos estadísticos básicos. 3.2. MEDIA, MEDIANA Y MODA Para resumir un conjunto de datos numéricos podemos utilizar la media aritmética, la mediana y/o la moda. La media aritmética o promedio representa el reparto equitativo de los valores observados. Es el valor que tendrían los datos si todos ellos fueran iguales. Si se ordenan todos los datos, de menor a mayor, la mediana es el valor que ocupa la posición central. Si el número de datos es par, la mediana es la media aritmética de los dos centrales. La moda es el valor que más se repite o, lo que es lo mismo, el que tiene la mayor frecuencia. 3.3. VARIANZA Y DESVÍO ESTÁNDAR La desviación estándar, también llamada desviación típica, es una medida de dispersión que indica cuánto tienden a alejarse los valores concretos del promedio en una distribución. De hecho, específicamente, el cuadrado de la desviación estándar es "el promedio del cuadrado de la distancia de cada punto respecto del promedio". Se suele representar por una S o con la letra sigma, . La desviación estándar de un conjunto de datos es una medida de cuánto se desvían los datos de su media. Esta medida es más estable que el recorrido y toma en consideración el valor de cada dato. La Desviación Estándar es la raíz cuadrada de la varianza. Así, la varianza es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución. 3.4. FUNCIÓN DE DENSIDAD DE PROBABILIDAD En la teoría de la probabilidad, la función de densidad de probabilidad, función de densidad, o, simplemente, densidad de una variable aleatoria continua describe la probabilidad relativa según la cual dicha variable aleatoria tomará determinado valor. La probabilidad de que la variable aleatoria caiga en una región específica del espacio de posibilidades estará dada por la integral de la densidad de esta variable entre uno y otro límite de dicha región. La función de densidad de probabilidad (FDP o PDF en inglés) es no-negativa a lo largo de todo su dominio y su integral sobre todo el espacio es de valor unitario. Una función de densidad de probabilidad caracteriza el comportamiento probable de una población en tanto especifica la posibilidad relativa de que una variable aleatoria continua X tome un valor cercano a x. Una variable aleatoria X tiene densidad f, si: Que es la probabilidad de que una variable aleatoria continua X quede ubicada entre los valores a y b. Por lo tanto, si F es la función de distribución acumulativa de X, entonces: y (si f es continua en x) Intuitivamente, puede considerarse f(x) dx como de X de caer en el intervalo infinitesimal [x, x + dx]. la probabilidad 3.5. DISTRIBUCIÓN NORMAL Es una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece aproximada en fenómenos reales. La gráfica de su función de densidad de probabilidad f(x) tiene una forma acampanada y es simétrica respecto de un determinado parámetro estadístico (su media aritmética, μ). Esta curva se conoce como campana de Gauss y es el gráfico de una función gaussiana. La importancia de esta distribución radica en que permite modelar numerosos fenómenos naturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a gran parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observación se obtiene como la suma de unas pocas causas independientes. Propiedades Algunas propiedades de la distribución normal son: 1. Es simétrica respecto de su media, μ; Distribución de probabilidad alrededor de la media en una distribución N(μ, σ2). 2. La moda y la mediana son ambas iguales a la media, μ; 3. Los puntos de inflexión de la curva se dan para x = μ − σ y x = μ + σ. 4. Distribución de probabilidad en un entorno de la media: 1. en el intervalo [μ - σ, μ+ σ] se encuentra comprendida, aproximadamente, el 68,26% de la distribución; 2. en el intervalo [μ - 2σ, μ + 2σ] se encuentra, aproximadamente, el 95,44% de la distribución; 3. por su parte, en el intervalo [μ -3σ, μ + 3σ] se encuentra comprendida, aproximadamente, el 99,74% de la distribución. Estas propiedades son de gran utilidad para el establecimiento de intervalos de confianza. Por otra parte, el hecho de que prácticamente la totalidad de la distribución se encuentre a tres desviaciones típicas de la media justifica los límites de las tablas empleadas habitualmente en la normal estándar. Estandarización de variables aleatorias normales Como consecuencia de la Propiedad 1; es posible relacionar todas las variables aleatorias normales con la distribución normal estándar. Si ~ , entonces es una variable aleatoria normal estándar: ~ . La transformación de una distribución X ~ N(μ, σ) en una N(0, 1) se llama normalización, estandarización o tipificación de la variable X. A la inversa, si es una distribución normal estándar, ~ , entonces es una variable aleatoria normal tipificada de media varianza y . La distribución normal estándar está tabulada (habitualmente en la forma del valor de la función de distribución Φ) y las otras distribuciones normales pueden obtenerse como transformaciones simples (usando ) de la distribución estándar. De este modo se pueden usar los valores tabulados de la función de distribución normal estándar para encontrar valores de la función de distribución de cualquier otra distribución normal. El Teorema del Límite Central El Teorema del límite central establece que bajo ciertas condiciones (como pueden ser independientes e idénticamente distribuidas con varianza finita), la suma de un gran número de variables aleatorias se distribuye aproximadamente como una normal. 3.6. ESTIMACIÓN DE PARÁMETROS La estimación de parámetros es el procedimiento utilizado para conocer las características de un parámetro poblacional, a partir del conocimiento de la muestra. Con una muestra aleatoria, de tamaño n, podemos efectuar una estimación de un valor de un parámetro de la población; pero también necesitamos precisar un Intervalo de confianza. Se llama así a un intervalo en el que sabemos que está un parámetro, con un nivel de confianza específico. El nivel de confianza es la probabilidad de que el parámetro a estimar se encuentre en el intervalo de confianza. El error de estimación admisible estará relacionado con el radio del intervalo de confianza. En el caso de experimento realizado por el Prof. H, los valores de la media y el desvío estándar informados son los valores obtenidos por estimación. 3.7. INTERVALO DE CONFIANZA Es un par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de éxito en la estimación se representa con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo. El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más probabilidad de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumenta su probabilidad de error. Intervalo de confianza para la media conocido de una población con desvío De una población de media y desviación típica se pueden tomar muestras de elementos. Cada una de estas muestras tiene a su vez una media ( ). La media de todas las medias muestrales coincide con la media poblacional: Pero además, si el tamaño de las muestras es lo suficientemente grande, la distribución de medias muestrales es una distribución normal con media μ y una desviación típica dada por: . Luego, se estandariza la variable Z=( – con: ) √n / De lo cual se obtendrá el intervalo de confianza: P( + Zα/2 ( /√n) < < + Z1-α/2 ( /√n)) = 1 - α < + Z1-α/2 ( /√n)) = 1 - α Como: Zα/2 = 1 - Z1-α/2 Se tiene: P( + Zα/2 ( /√n) < Las aproximaciones habitualmente utilizadas son: Z = 1,96 Z = 2,576 3.8. DISTRIBUCIÓN T DE STUDENT la distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño. Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos medias muestrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser estimada a partir de los datos de una muestra. La función de densidad de probabilidad es: Con v = n -1, siendo la función gamma: La curva representativa de la función de densidad se parece a la Normal estandarizada, y tiende a ella a medida que el parámetro v se incrementa. Intervalo de confianza para la media desconocido de una población con desvío El intervalo de confianza para la media con que Z tiene distribución Normal estandarizada: Z=( – ) √n / Cuando no se conoce t=( – conocido se basa en el hecho , debe estimarse con S: ) √n / S Que tiene una distribución t de Student con v = n – 1 grados de libertad. Así, el intervalo de confianza para se calcula mediante: P( - tv;1-α/2 (S / √n) < < + tv;1-α/2 (S / √n)) = 1 – α 4. INFERENCIA A TRAVÉS DEL CONTRASTE DE HIPÓTESIS 4.1. CONTRASTE DE HIPÓTESIS Una hipótesis es una suposición o conjetura sobre la naturaleza, cuyo valor de verdad no se conoce. Una hipótesis estadística es una hipótesis sobre una población. En IS empírica (ISE), se utiliza el contraste de hipótesis (como lo hiciera el Prof. H) para comparar la media de dos poblaciones, donde una de las poblaciones utiliza un método (técnica, metodología, etc) clásico, ya probado o de uso actualmente, y la otra población utiliza el método o técnica experimental que se desea probar como mejora al método clásico. Dentro de la inferencia estadística, un contraste de hipótesis (test de hipótesis, ensayo de hipótesis o prueba de significación) es un procedimiento para juzgar si una propiedad que se supone en una población estadística es compatible con lo observado en una muestra de dicha población. Se aborda el problema considerando una hipótesis determinada y una hipótesis alternativa , y se intenta dirimir cuál de las dos es la hipótesis verdadera, tras aplicar el problema estadístico a un cierto número de experimentos. Se denomina hipótesis nula a la hipótesis que se desea contrastar. El nombre de "nula" significa “sin valor, efecto o consecuencia”, lo cual sugiere que debe identificarse con la hipótesis de no cambio (a partir de la opinión actual); no diferencia, no mejora, etc. representa la hipótesis que mantendremos a no ser que los datos indiquen su falsedad, y puede entenderse, por tanto, en el sentido de “neutra”. Dado que el ensayo de hipótesis se realiza sobre los resultados muestrales, la conclusión que se obtiene está sujeta a error. Un ensayo no puede concluir que una hipótesis nula sea verdadera, sino tan solo que no hay pruebas de que sea falsa. 4.2. ERRORES DE TIPO I Y DE TIPO II En un estudio de investigación, el error de tipo I también denominado error de tipo alfa (α) o falso positivo, es el error que se comete cuando el investigador no acepta la hipótesis nula ( ) siendo esta verdadera en la población. Es equivalente a encontrar un resultado falso positivo, porque el investigador llega a la conclusión de que existe una diferencia entre las hipótesis cuando en realidad no existe. Se relaciona con el nivel de significancia estadística. La hipótesis de la que se parte aquí es el supuesto de que la situación experimental presentaría un «estado normal». Si no se advierte este «estado normal», aunque en realidad existe, se trata de un error estadístico tipo I. En un estudio de investigación, el error de tipo II, también llamado error de tipo beta (β es la probabilidad de que exista este error) o falso negativo, se comete cuando el investigador no rechaza la hipótesis nula siendo esta falsa en la población. Es equivalente a la probabilidad de un resultado falso negativo, ya que el investigador llega a la conclusión de que ha sido incapaz de encontrar una diferencia que existe en la realidad. Se acepta en un estudio que el valor del error beta esté entre el 5 y el 20%. El poder o potencia del estudio representa la probabilidad de observar en la muestra una determinada diferencia o efecto, si existe en la población. Es el complementario del error de tipo II (1-β). Una vez realizado el contraste de hipótesis, se habrá optado por una de las dos hipótesis, la hipótesis nula o base o la hipótesis alternativa y la decisión escogida coincidirá o no con la que en realidad es cierta. Se pueden dar los cuatro casos que se exponen en el siguiente cuadro: es cierta es cierta Se escogió No hay positivo) error (verdadero Error de tipo negativo) Se escogió Error de tipo I (α o falso No hay positivo) negativo) II (β o error falso (verdadero Si la probabilidad de cometer un error de tipo I está unívocamente determinada, su valor se suele denotar por la letra griega α, y en las mismas condiciones, se denota por β la probabilidad de cometer el error de tipo II, esto es: A máxima probabilidad de cometer un error de tipo I (α), también se conoce como nivel de significación del ensayo. Se denomina Potencia del contraste al valor 1-β, esto es, a la probabilidad de escoger cuando esta es cierta . Cuando es necesario diseñar un contraste de hipótesis, sería deseable hacerlo de tal manera que las probabilidades de ambos tipos de error fueran tan pequeñas como fuera posible. Sin embargo, con una muestra de tamaño prefijado, disminuir la probabilidad del error de tipo I, α, conduce a incrementar la probabilidad del error de tipo II, β. Usualmente, se diseñan los contrastes de tal manera que la probabilidad α sea el 5% (0,05), aunque a veces se usan el 10% (0,1) o 1% (0,01) para adoptar condiciones más relajadas o más estrictas. El recurso para aumentar la potencia del contraste, esto es, disminuir β, probabilidad de error de tipo II, es aumentar el tamaño muestral, lo que en la práctica conlleva un incremento de los costes del estudio que se quiere realizar. 4.3. ENSAYO DE HIPÓTESIS SOBRE LA MEDIA CON DESVÍO CONOCIDO Si la hipótesis nula ( ) es que la media sea menor que un cierto valor o, el rechazo de la misma se producirá si el estadístico (en este caso la media muestral ) toma un valor que contradice la hipótesis; esto es, si toma un valor mayor o igual que un cierto valor crítico c. La condición de rechazo (CR) es la que debe cumplir la muestra para rechazar : <= CR: >= : o c Y el valor crítico Mc se calcula con: c = o + Z1–α /√n El “nivel de significación a posteriori”, “nivel de significación de los datos”, “valor p” o “p-value” se calcula con: p = P ( >= c | = 0) = 1 - Ф[( - o)√n / ] Por lo tanto, la condición de rechazo puede expresarse como: p <= α Esta condición de rechazo es universal para cualquier ensayo de hipótesis. Por otro lado, si la hipótesis nula ( cierto valor o, se tiene: : CR: >= <= o c Y el valor crítico Mc se calcula con: c = o - Z1–α /√n ) es que la media sea mayor que un El “valor p” o “p-value” se calcula con: p = P ( <= c | = 0) = Ф[( - o)√n / ] 4.4. ERROR DE TIPO II Y POTENCIA DEL ENSAYO El error de Tipo II se define como el que se comete al no rechazar una hipótesis nula que en realidad es falsa. La probabilidad de este suceso es el tamaño del error de tipo II y se designa con beta (β); y depende del verdadero valor del parámetro que se está estimando, en este caso , que se denomina 1. Para calcular β, para un dado 1, se debe plantear la probabilidad de que no se cumpla la condición de rechazo. Así, para: : CR: <= >= o c Se tiene: β = P ( <= c | = 1) = Ф[( c- = 1) = 1 - Ф[( 1)√n / ] Y para: : CR: >= <= o c Se tiene: β = P ( >= c | c- 1)√n / ] La potencia del ensayo, entonces, es: Potencia = 1 – β Si se quiere que esta potencia tome un valor determinado, debe cumplirse: n = [(Z1-α + Z1-β) /( 1 - 2 0)] 4.5. ENSAYO DE HIPÓTESIS SOBRE LA MEDIA CON DESVÍO DESCONOCIDO En estos casos debe utilizarse la distribución t de Student. Para: : <= CR: >= o c Se tiene: c = o + tv;1-α S/√n Y para: : CR: >= <= o c Se tiene: c = o - tv;1-α S/√n 4.6. EJEMPLO PRÁCTICO APLICADO A UN CASO DE ISE Hasta aquí se vieron los conceptos necesarios para realizar un test de hipótesis sobre la media de una muestra. Para afianzar los conceptos, se aplicarán estos conceptos a un problema de experimentación en el campo de la IS. Ejemplo 1: se desea analizar el rendimiento de un grupo de 10 programadores de una PyME. Para la prueba se toma un problema estándar, donde se sabe por registros históricos, que los programadores senior pueden resolverlo satisfactoriamente en un tiempo de 2 horas, con un desvío conocido de 15 minutos (0,25 horas). Se desea saber si este grupo de programadores que fuera seleccionado oportunamente para el trabajo, está dentro de este rendimiento o tenga un rendimiento superior con un nivel de confianza del 95%. También desea conocerse la probabilidad de aceptar un grupo con un rendimiento medio de 1,8 horas. Solución: como se desea una confianza del 95%, se tendrá: α = 0,05 La hipótesis nula y la condición de rechazo serán: : CR: >= <= o = 2 horas c Se calcula: C = O - Z1–Α /√N = 2 – Z0,95 0,25 / √10 = 2 – 1,96 * 0,25 / 3,16 = 1,85 Lo que debe hacerse, entonces, es tomar los valores temporales de cada uno de los 10 programadores, obtener la media aritmética (promedio) y si ese valor es menor que 1,85, entonces se rechaza la hipótesis nula, y con ello se acepta al grupo de programadores. Para la segunda parte del problema, se desea calcular la probabilidad de aceptar un grupo de programadores con un rendimiento medio de 1,8 horas. Esta probabilidad es la probabilidad de cometer un error de tipo II: β = P ( >= c | = 1) = 1 - Ф[( c- 1)√n / ] β = 1 – Ф[(1,85 – 1,8) * 3,16 / 0,25] = 1 – Ф[0,632] = 1 – 0,735 β = 0,265 Ejemplo 2: la compañía de software BDU diseña un nuevo método de relevamiento de requisitos. Actualmente se utiliza un método que tiene una media de relevamiento de 500 horas/hombre por sistema de ABM comercial de tamaño medio (establecido por la compañía). Para saber si el nuevo método puede ser aceptado con un error de tipo I menor al 5%, se toman 5 grupos de trabajo para realizar el relevamiento de requerimiento con el nuevo método obteniéndose una media de 440 horas/hombre con un desvío de 60 horas/hombre. ¿Cuál es la postura a adoptar con el nuevo método? Solución: la hipótesis nula a plantear es: : >= o = 500 horas/hombre Con los siguientes parámetros: n = 5, v = 5 – 1 = 4, α = 0,05, S = 60 La condición de rechazo será: CR: <= c = o - tv;1-α S/√n = 500 – t4;0,95 * 60 / 7,07 Donde t4;0,95 = 2,13 Entonces: c = 500 – 2,13 * 60 / 7,07 = 500 – 18,07 = 481,93 Como 440 < 481,93, se rechaza la hipótesis nula, aceptando el nuevo método. 5. DISEÑO DE EXPERIMENTOS El ejemplo del Prof. H es un ensayo de hipótesis para la comparación de dos medias. En este caso, el test de hipótesis es ligeramente distinto, y deben revisarse algunos conceptos estadísticos. En la siguiente guía se verán estos conceptos y se retomará el ejemplo del Prof. H para comprender como realizar una comparación de dos métodos o técnicas. Por lo general, a la técnica/método en uso o actual se conoce como tratamiento de control. En cambio, a la técnica/método nuevo que se compara para intentar demostrar su superioridad se conoce como tratamiento experimental. Esto fue lo que hizo el Prof. H, y es lo que se verá en la siguiente guía de estudio. ANEXO Intervalo de confianza para la media de una población De una población de media y desviación típica se pueden tomar muestras de elementos. Cada una de estas muestras tiene a su vez una media ( ). La media de todas las medias muéstrales coincide con la media poblacional: Pero además, si el tamaño de las muestras es lo suficientemente grande, la distribución de medias muéstrales es una distribución normal con media μ y una desviación típica dada por: . Esto se representa como: . Si estandarizamos: En una distribución Z ~ N(0, 1) puede calcularse un intervalo dentro del cual caigan un determinado porcentaje de las observaciones, esto es hallar z1 y z2 tales que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje deseado. Se desea obtener una expresión tal que: En esta distribución normal de medias se puede calcular el intervalo de confianza donde se encontrará la media poblacional si sólo se conoce una media muestral ( ), con una confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por ciento. A este valor se le llamará (debido a que es el error que se cometerá). Para ello se necesita calcular el punto , o su versión estandarizada o valor crítico, junto con su "opuesto en la distribución" . Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen: Dicho punto es el número tal que: Y en la versión estandarizada se cumple que: Así: Es posible despejar para obtener el intervalo: De lo cual se obtendrá el intervalo de confianza: Si no se conoce y n es grande: Donde s es la desviación típica de la muestra. Las aproximaciones habitualmente utilizadas para el valor confianza son 1,96 para y 2,576 para y los niveles de