Download Datos cuantitativos: son datos continuos que tienen escala numérica.
Document related concepts
no text concepts found
Transcript
REPUBLICA BOLIVARIANA DE VENEZUELA MINISTERIO DE EDUCACIÓN SUPERIOR UNIVERSIDAD BOLIVARIANA DE VENEZUELA PROGRAMA DE FORMACIÓN GESTIÓN AMBIENTAL UNIDAD CURRICULAR: ANÁLISIS DE DATOS ESTADÍSTICOS ANÁLISIS DE DATOS ESTADÍSTICOS Elaborado por: Prof. Ing. Escalona Zuleima Prof. Ing. Mejías Sandra Prof. Ing. Quintero Natacha ¿QUÉ ES LA ESTADÍSTICA? 1) La Estadística es una Ciencia derivada de la Matemática que estudia los métodos científicos para recoger, organizar, resumir y analizar datos; así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis. En un sentido menos amplio, el término Estadística se usa para denotar los propios datos, o números derivados de ellos, tales como los promedios. Cuando coloquialmente se habla de estadística, se suele pensar en una relación de datos numéricos presentada de forma ordenada y sistemática. 2) La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones. 3) Conjunto de métodos que nos permiten tomar decisiones en momentos de incertidumbre (duda). Tiene como objetivo que la información existente se comprenda más fácilmente y poder hacer en base a ellas inferencias, (decidir y predecir) sobre una población estudiada. 4) "La estadística es una técnica especial apta para el estudio cuantitativo de los fenómenos de masa o colectivo, cuya mediación requiere una masa de observaciones de otros fenómenos más simples llamados individuales o particulares". (Gini, 1953.) 5) Murria R. Spiegel, (1991) dice: "La estadística estudia los métodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis". 6) "La Estadística se podría definir como aquel método que permite no solo describir el hecho o fenómeno, sino deducir y evaluar conclusiones acerca de una población “ (Ciro M. Bencardino,2001)". Cualquiera que sea el punto de vista, lo fundamental es la importancia científica que tiene la estadística, debido al gran campo de aplicación que posee. Por ejemplo, se podría determinar quien, de entre los miembros de la población de la península de Paraguaná, va a encontrar trabajo o a quedarse sin él; o en cuales miembros va a verse aumentada o disminuida una familia en concreto en los próximos meses. Por otra parte, puede proporcionar estimaciones fiables del próximo aumento o disminución de la taza de desempleo referido al conjunto de la población; o de la posible variación de los índices de natalidad o mortalidad. En materia ambiental, la conexión entre el fenómeno de El Niño y la sequía en el noreste de Brasil o el sur de África es fundamentalmente estadística. En esos casos, las estadísticas ayudan a establecer la probabilidad de los impactos regionales de El Niño, pero no explican por qué tienen lugar esos impactos. ¿Qué es “El Niño”? ¿Por qué la estadística por sí sola no puede explicar el origen de los impactos regionales de El Niño? ¿Cuál es la utilidad de las predicciones de los resultados de un estudio estadístico? ¿Por qué es importante el análisis de datos estadísticos en el estudio del Programa Gestión Ambiental? Actividad Nº1. Formule tres ejemplos en dónde la estadística resulte fundamental, bajo el enfoque de la Gestión Ambiental. De acuerdo a los gráficos observados a continuación, sobre el movimiento de los embalses en Falcón, interprete el comportamiento de los mismos en los últimos años. Gráfico Nº1. Movimiento del embalse Barrancas ubicado en Estado Falcón desde Enero 1999 hasta Agosto 2003 1999 2000 2001 Fuente. Superintendencia de Operaciones de Hidrofalcón, C.A., Agosto 2003. 2002 2003 Gráfico Nº2. Movimiento del embalse El Hueque ubicado en el Estado Falcón desde Enero 1999 hasta Agosto 2003 1999 2000 2001 Fuente. Superintendencia de Operaciones de Hidrofalcón, C.A., Agosto 2003. 2002 2003 Gráfico Nº3. Movimiento del embalse El Isiro ubicado en el Estado Falcón desde Enero 1999 hasta Agosto 2003 2001 1999 2000 Fuente. Superintendencia de Operaciones de Hidrofalcón, C.A. Fuente. Superintendencia de Operaciones de Hidrofalcón, C.A., Agosto 2003. 2002 2003 CLASIFICACIÓN DE LA ESTADÍSTICA Estadística descriptiva Estadística Estadística Inferencial ESTADÍSTICA DESCRIPTIVA: 1) Analiza metódicamente los datos, simplificándolos y presentándolos en forma clara; eliminando la confusión característica de los datos preliminares. Permite la elaboración de cuadros, gráficos e índices claros, para el resumen de los datos masivos. Se limita a describir los datos que se analizan, sin hacer inferencias en cuanto a datos no incluidos en la muestra. 2) Es la rama de la estadística que describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos. ESTADÍSTICA INFERENCIAL: 1) Es la rama de la estadística que se apoya en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos. Su objetivo de estudio es derivar las conclusiones obtenidas a un conjunto de datos más amplio. 2) Provee conclusiones o inferencias, basándose en los datos simplificados y analizados; detectando las interrelaciones que pueden unirlos, las leyes que los rigen y eliminando las influencias del azar; llegando más allá de las verificaciones físicas posibles. Sobre la base de la muestra estudiada saca conclusiones, o sea, hace inferencia o inducción, en cuanto al universo o población, de donde se obtuvo dicha muestra. FINALIDAD DE LA ESTADÍSTICA Generalmente, la finalidad de la estadística es suministrar información y su utilidad básicamente depende del fin que se proponga y del método de recolección de datos. Entre algunos de los aspectos encontrados para los cuales la estadística tiene alguna importancia, se mencionan los siguientes: Obtener conclusiones de una muestra estudiada, para hacerlas extensivas a una población. Al realizar mediciones en una muestra, los resultados obtenidos, pueden ser considerados como el comportamiento que se obtendría si se hubiera trabajado con todos los elementos que constituyen la población, de la cual se extrajo la muestra. Conocer la realidad de una observación o fenómeno. Cuando se cuantifica un fenómeno se determina su situación actual; es así como al poseer información diaria, mensual, anual sobre la producción de un producto, se sabrá si se está cumpliendo con la producción programada, o por lo contrario, está por debajo o por encima de nuestra programación, lo cual afectará los inventarios, las ventas, la existencia de la materia prima, etc. Determinar lo típico o normal de esa observación. Cuando se cuantifica la característica de un fenómeno, se obtiene un valor denominado promedio, siendo ésta la forma de referirnos al grupo, cuantificando así su comportamiento. Al decir que el promedio de unidades importadas, de una semilla X, en 30 parcelas sembradas, en el mes de abril fue de 2000 unidades, es una manera de determinar el comportamiento del grupo, cabe señalar que este valor del conjunto no significa que las 30 parcelas importaron 2000 unidades, quizás algunos más, otros menos, pero el promedio fue de 2000 unidades. Relacionar dos o más fenómenos. Desde el punto de vista de correlación, se puede determinar si existe una relación válida entre dos o más características de una misma observación, o entre dos o más fenómenos. Tal es el caso de la relación de ingresos y gastos para un grupo de familias o la relación entre unidades producidas, vendidas y el precio. Determinar las causas que originan el fenómeno. Los cambios que se observan en un fenómeno pueden tener una o varias causas de origen. El aumento de las exportaciones de un artículo puede ser causado por un mejoramiento del precio en el mercado externo, por un volumen de producción superior a la demanda interna o por otras causas que producen variaciones en el comportamiento del fenómeno. Determinar los cambios que representa el fenómeno. Cualquier fenómeno de carácter estadístico presenta variaciones a través del tiempo, pero requiere una observación continua para poder determinar la magnitud del cambio. La demanda, producción, ventas precios son fenómenos que constantemente registran cambios que deben ser tenidos en cuenta por la administración de una empresa. Además de lo planteado anteriormente, la estadística facilita una serie de instrumentos o técnicas que, al ser aplicadas correctamente, permiten determinar el grado de validez y confiabilidad, ya sea de las predicciones o de las conclusiones obtenidas a partir de muestras. INVESTIGACIÓN ESTADÍSTICA La investigación estadística, por sencilla que parezca, es una operación compleja, que demanda considerar diversos factores. El resultado depende en gran parte de la finalidad que se persiga, de la naturaleza de los fenómenos que se desean estudiar y la facilidad con que pueden observarse los elementos. ETAPAS DE UNA INVESTIGACIÓN PLANTEAMIENTO En un plan de investigación, es importante definir y organizar previamente cada una de las actividades señaladas para alcanzar los objetivos propuestos. En esta fase se consideran generalmente los aspectos mencionados a continuación, cabe señalar que no todos los proyectos de investigación presentan los mismos esquemas para todos puesto que cada uno deberá ajustarse a la necesidad de cada uno de ella y según el contexto lo requiera. OBJETO DE LA INVESTIGACIÓN Es necesario al comienzo de la investigación, identificar con claridad el fin que se persigue, formulando el problema de manera tal que se definan cual es el objetivo general y los objetivos específicos. En esta fase deben contestarse Interrogantes como ¿Qué se va a investigar? ¿Cómo se va a realizar? ¿Dónde se realiza? (Lugar, zona, localidad). UNIDAD DE INVESTIGACIÓN Es la fuente de información, es decir, a quién va dirigida la investigación, la cual puede ser una persona, una familia, una vivienda, una industria, una explotación agrícola y su determinación depende del objeto de la investigación. CLASES DE ESTUDIO Por otra parte, hay que determinar que tipo de investigación se va a realizar: a. Investigación descriptiva. b. Investigación experimental o investigación controlado. c. Investigación explicada o analítica. REVISIÓN DE LA DOCUMENTACIÓN Y METODOLOGÍA Se requiere determinar si la investigación ha sido realizada con anterioridad, con el fin de prescindir del estudio; averiguar si se cumplió el objetivo propuesto y si la información está actualizada. En caso contrario, habrá necesidad de realizar, tratando de solucionar las dificultades que presentaron en la anterior, en razón a un mayor conocimiento sobre la población objetivo y, además procurando un mejoramiento en la metodología utilizada. MÉTODO DE OBSERVACIÓN Una vez planteado el objetivo de una investigación, definida las unidades o unidad y efectuado la revisión correspondiente, seguidamente se deberá escoger el método que se aplicará, y decidir si se tomará toda la población o sólo una parte de ella. La selección del método depende básicamente de factores como: Tiempo disponible, recursos humanos y financieros, finalidad y alcance de la investigación, grado de variabilidad, limitaciones, entre otros. MUESTREO Generalmente existen más de un método de muestreo, para su selección se podrán considerar aspectos como: Grado de precisión requerida para los estimadores, tamaño de muestra, costo y tiempo. PROCESO DE RECOLECCIÓN En el proceso de recolección encontramos métodos básicos como las encuestas, cuestionarios, entrevistas, observación, etc. CRONOGRAMA DE ACTIVIDADES Consiste en la planificación de las diferentes etapas esenciales del proyecto con sus respectivas fechas de inicio y culminación, con la finalidad de proporcionar un seguimiento estratégico al cumplimiento de cada uno de los objetivos planteados dentro del tiempo programado. PREPARACIÓN DE LOS FORMULARIOS Durante esta fase es primordial la elaboración seria de cuestionarios, encuestas, censos, entrevistas según sea el método seleccionado y las unidades o unidad de investigación, tomando en cuenta en cada caso la pertinencia sobre el uso de estos a cada investigación planteada y por supuesto, el fin que esta persigue. Tomando en cuenta los aspectos materiales, técnicos, etc. RECOLECCIÓN En esta etapa se debe verificar, en primer lugar, la calidad de la información obtenida. La sistematización del trabajo de campo siguientes: Supervisión. Control de encuestas. Revisión de los cuestionarios inconclusos. Calidad y consistencia de las respuestas. Cumplimiento de los plazos prefijados. Distribución de los entrevistadores. se basa en los criterios Entre las fuentes de error que pueden presentarse en la etapa de recolección, encontramos: Errores en la medición o cuantificación de las características. Errores del entrevistador o influencia negativa del mismo. Mal diseño del cuestionario, encuesta, etc. (material aplicado). Falta de instrucciones imprecisas. ACTIVIDAD Mencione algunos casos que pudieran afectar el proceso de recolección de datos y que afectan los resultados. Dé una sugerencia para cada caso de cómo pueden corregirse o evitarse. PROCESAMIENTO Y ANÁLISIS: Una vez obtenida la información, esta debe ser depurada, clasificada, resumida y analizada, con las técnicas adecuadas según el caso lo requiera. Los puntos más imperantes en esta etapa son la codificación, tabulación, presentación de resultados análisis e interpretación, informe y publicación. Planeamiento Recolección Formulario Procesamiento y Análisis ARCHIVOS Distribución de material Recolección Observación Control y verificación del número de formularios y calidad de la información Crítica Formulario Objetivos de la investigación Métodos de investigación Proceso de recolección Calendario de trabajo Selección de la población y muestra Revisión bibliográfica Diagnóstico preliminar Formulario Codificación, clasificación y recuento Revisión y análisis Informe y publicación Figura 1.1. Etapas básicas de una investigación. (Ciro M. Bencardino, 2001). CONCEPTOS BÁSICOS EN ESTADÍSTICA POBLACIÓN (N) : Grupo de individuos a los que se desea extrapolar o aplicar los resultados de una investigación. Es cualquier colección completa de individuos u objetos que poseen alguna característica observable, la cual se desea estudiar. MUESTRA: 1) Conjunto de objetos ó mediciones seleccionadas de una población de interés.El concepto de muestra no es nuevo para nosotros, porque lo utilizamos en nuestras actividades diarias: nos formamos una opinión de las personas cuando tenemos solamente una o dos conversaciones, probamos un trozo de comida antes de ordenar una mayor cantidad. 2) Una muestra es un subgrupo de población que debe representar a todo el grupo. Cada individuo puede ser descrito mediante uno o varios caracteres. Por ejemplo, si los individuos son personas, el sexo, el estado civil, el número de hermanos o su estatura son caracteres. Y si el individuo es una reacción química, el tiempo de reacción, la cantidad de producto obtenido o si éste es ácido o básico serán posibles caracteres que pueden analizarse. Un caracter puede ser cuantitativo si es medible numéricamente o cualitativo si no admite medición numérica. El número de hermanos y la estatura son caracteres cuantitativos mientras que el sexo y el estado civil son caracteres cualitativos. Los distintos valores que puede tomar un carácter cuantitativo configuran una variable estadística. La variable estatura, en cierta población estadística, toma valores en el intervalo 1.47m – 2.05m; y la variable número de hermanos toma los valores 0, 1, 2, 3, 4, 5, 6, 7 y 8. Una variable estadística como esta última es discreta, ya que sólo admite valores aislados. Una variable estadística es continua si admite todos los valores de un intervalo, como ocurre con estatura. MUESTREO Esto no es más que el procedimiento empleado para obtener una o más muestras de una población. Es efectuado una vez que se ha establecido un marco muestral representativo de la población, para luego proceder a la selección de los elementos de la muestra, este trabajo debe ser minucioso debido a la diversidad existentes en los diseños de la muestra. Es importante considerar que al tomar varias muestras de una población, las estadísticas que se aplica a cada muestra no necesariamente serían iguales, y lo más probable es que varíen de una muestra a otra. Ejemplo: Supongamos que se ha seleccionado como una población a estudiar, a los habitantes del sector 4 del Eje Antiguo Aeropuerto del municipio Carirubana del Estado Falcón, determinando por lo menos cuatro caracteres ser estudiados en dicha población; Edad. Sexo. Nivel de instrucción. Estado Civil. TAMAÑO DE LA MUESTRA: Cantidad de datos que serán extraídos de la población para formar parte de la muestra. Al recoger datos relativos a las características de un grupo de individuos u objetos, suele ser imposible o nada práctico observar todo el grupo, en especial si es muy grande. En vez de examinar el grupo entero, llamado población o universo, se examina una pequeña parte del grupo, llamada muestra. TIPOS DE MUESTRA: MUESTRA ALEATORIA O PROBABILÍSTICA: 1) Es una muestra donde todos los elementos de la población tienen la misma probabilidad de ser seleccionados; es decir, son seleccionados al azar. 2) Muestra seleccionada de una población de interés en la cual, cada uno de los elementos que la componen tienen la misma posibilidad de participar en la muestra. MUESTRA ESTRATIFICADA: Es aquella muestra para la cual se divide la población en subpoblaciones (estratos). Entonces se toma una muestra aleatoria simple de cada uno de estos estratos. La colección de todas las muestras de los estratos nos da como resultado una muestra estratificada. Los estratos se seleccionan de acuerdo con los valores conocidos de alguna variable de manera que hay poca variabilidad entre los miembros de un estrato particular, pero que haya diferencias (grandes) entre los distintos estratos. MUESTRAS INDEPENDIENTES: Muestras seleccionadas de forma que no exista ninguna relación entre sus miembros. No hay ninguna relación en observaciones entre las muestras. MUESTRA CON REEMPLAZO: Es una muestra donde cada elemento observado de la población se devuelve a la misma y tiene misma la probabilidad de ser observado nuevamente. MUESTRA POR CONGLOMERADO: Suponemos que la población se puede dividir en grupos llamados conglomerados. Suponemos que cada conglomerado es representativo de la población. Se toma una muestra aleatoria de conglomerados y luego una muestra aleatoria de los miembros de cada conglomerado seleccionado. Por ejemplo, si suponemos que cada Facultad en la universidad es representativa de la universidad como un todo, seleccionamos Facultades al azar y luego allí seleccionamos al azar miembros de cada una de las facultades seleccionadas. MUESTRA POR CONVENIENCIA Se seleccionan aquellos miembros de la población que están fácilmente accesibles. Se usa cuando se quieren obtener resultados rápidamente. VENTAJAS o Costo de selección es pequeño. o Se producen resultados rápidamente. o Puede usarse para conocer posiciones generales, usualmente extremas de la población. DESVENTAJAS o Es poco probable que la muestra seleccionada sea representativa de la población. o No se puede establecer su confiabilidad ni margen de error. o No se puede inferir sobre la población a base de los resultados obtenidos. MUESTRA REPRESENTATIVA: Es una muestra que refleja las características de la población. Se comporta estadísticamente como la propia población. La forma usual de seleccionarla es a través de una muestra aleatoria. MUESTRA SISTEMÁTICA: Una población de tamaño N se divide entre el tamaño deseado de la muestra n para obtener k grupos distintos. Seleccionamos al azar un elemento del primer grupo y comenzando con ése, seleccionamos cada k-ésimo elemento. Es útil cuando la población está dispuesta en algún orden o lista, tal como en la guía telefónica. DATOS: Son los valores cualitativos o cuantitativos mediante los cuales se miden las características de los objetos, sucesos o fenómenos a estudiar. Valores que se obtienen al observar directamente los resultados de una variable en la muestra o población. Pueden ser numéricos o cualitativos. Los datos estadísticos se obtienen mediante un proceso que comprende la observación o medición de conceptos, los cuales reciben el nombre de variables. TIPOS DE DATOS: Dependiendo de su continuidad: Datos Continuos: Tipo de datos con un número ilimitado de valores espaciados uniformemente (ejemplo, la tensión arterial diastólica, la colesterolemia). Datos no continuos o discontinuos. Dependiendo de su naturaleza: Datos cuantitativos: son datos continuos que tienen escala numérica. Datos cualitativos: Son aquellos cuya escala de clasificación no es numérica, por ejemplo: sexo, raza, estado civil, entre otros. Dependiendo de la fuente de los mismos: Datos primarios: Los datos primarios son datos originales recopilados por el investigador especialmente para el proyecto y con las técnicas adecuadas al objetivo de la investigación. Fuentes de datos primarios: Existe tres métodos usados ampliamente para coleccionar datos primarios: encuesta, entrevista, observación y experimentación. Normalmente no se utilizan las tres en un proyecto. La elección del método estará determinada por la disponibilidad de tiempo, dinero y recurso humano. Método encuesta: una encuesta consiste en recolectar datos y medios de entrevistas a un número limitado de personas (muestra) seleccionando de un grupo más grande (población). Una encuesta tiene la ventaja de conseguir información de la fuente original. Método entrevista: es el método más ampliamente usado para la captura primaria de datos; puede ser hecha personalmente por el investigador, por teléfono o por correo. La entrevista individual es la más flexible porque el entrevistador puede modificar las preguntas para ajustar la situación conforme se vaya desarrollando. Las principales limitaciones del método de entrevista son su alto costo relativo, la cantidad de tiempo necesaria para llevarla a cabo, y la posibilidad de cometer errores durante su ejecución. Método de observación: en el método de observación los datos son tomados observando alguna acción, la información puede ser recolectada por observación personal o mecánica. Método experimental: El método experimental para conseguir datos primarios requiere establecer un experimento controlado que simule la situación real tanto como sea posible. Preparación de las formas para la recopilación de datos. Datos secundarios: Los datos secundarios son aquellos datos que han sido recolectados con algún otro propósito distinto a la investigación a realizar. Tienen la ventaja de ahorra al investigador tiempo y recursos. Fuentes de datos secundarios: bibliotecas, entidades gubernamentales, empresas privadas, medios de comunicación social, entre otros. ESPACIO MUESTRAL: Es el conjunto de todos los resultados que se pueden obtener al realizar el experimento. PARÁMETRO: Es la característica numérica correspondiente a la población. Ejemplo: Característica Símbolo del Parámetro Media µ Desviación Estándar σ Varianza σ2 ESTADÍSTICO: Es la característica numérica correspondiente a la muestra. Ejemplo: Característica Símbolo del Estadístico Media X Desviación Estándar s Varianza s2 PRECISIÓN Y EXACTITUD: Decimos que una medida (o un instrumento para medir) tiene la propiedad de exactitud cuando las observaciones que tomamos se distribuyen alrededor del valor "real". El valor "real" es usualmente un parámetro de la población cuyo valor es usualmente desconocido, tal como la media poblacional. Un estimador de un parámetro es exacto cuando es insesgado, por ejemplo, la media muestral es un estimador exacto (insesgado) para la media poblacional. Decimos que una medida (o un instrumento para medir) es precisa cuando tomamos observaciones repetidas y obtenemos valores cercanos entre sí. Es decir, la dispersión (desviación estándar, varianza) entre las observaciones es pequeña, se acerquen o no al valor "real". El valor real es un parámetro de la población cuyo valor es usualmente desconocido, tal como la media poblacional. TIPOS DE DESVIACIONES Y son SISTEMÁTICAS: FUENTES DE ERRORES: aquellas desviaciones que se presentan invariablemente en el proceso de medición y que son atribuibles al método o a los instrumentos utilizados para la realización de la misma; por ejemplo las fallas en la calibración de los instrumentos. Por ejemplo, pensemos en un reloj que atrasa o adelanta, o en una regla dilatada, el error de paralaje, etc. Los errores introducidos por estos instrumentos o métodos imperfectos afectarán nuestros resultados siempre en un mismo sentido. La única manera de detectarlos y corregirlos es comparar nuestras mediciones con otros métodos alternativos y realizar un análisis crítico y cuidadoso del procedimiento empleado. Es aconsejable intercalar en el proceso de medición patrones confiables que permitan calibrar el instrumento durante la medición. Los errores sistemáticos afectan directamente a la exactitud de una medición. ALEATORIOS: son las desviaciones producto del azar; es decir, se presentan sin ningún patrón y pueden ser atribuibles a errores del investigador o a causas externas extraordinarias al proceso de medición como variaciones fortuitas en el instrumento usado, operador, método, etc. Pueden ser detectados a través de los resultados de una serie de mediciones, aún cuando éstas sean realizadas por un mismo operador, instrumento y en condiciones similares. Estas desviaciones son a veces positiva y a veces negativas. Tienen origen en la imposibilidad de controlar todas las variables que afectan a las mediciones. Por tanto estos errores no son evitables ni previsibles por parte del operador; pero trabajando en condiciones controladas y tomando ciertas precauciones es posible reducir estas variaciones en mediciones sucesivas. Los errores aleatorios, siguen con bastante aproximación la distribución normal, y por lo tanto pueden tratarse estadísticamente. De un número de datos o resultados el analista puede cuantificar la incertidumbre introducida por estas variaciones aleatorias y estimar como afecta a los resultados. Este error afecta a la precisión de una serie de mediciones determinadas. Adicionalmente, también es posible hablar de “Errores ilegítimos o espurios”. Supongamos que deseamos calcular el volumen de un objeto esférico y para ello determinamos su diámetro. Si al introducir el valor del diámetro en la fórmula, nos equivocamos en el número introducido, o lo hacemos usando unidades incorrectas, o bien usamos una expresión equivocada del volumen, habremos cometido un error. Este error está más asociado al concepto convencional de equivocación y los designamos como ilegítimos o espurios. A este tipo de errores no se aplica la teoría estadística de errores y el modo de evitarlo consiste en una evaluación cuidadosa de los procedimientos realizados en la medición. RECOLECCIÓN DE DATOS. Los datos necesarios para la investigación estadística pueden obtenerse a través de diferentes fuentes: primarias y secundarias, oficiales y privadas. Son fuentes primarias, la persona o institución que ha recolectado los datos, y secundarias si la persona o agencia que ha publicado los datos no es la que ha efectuado la investigación. La recolección real de los datos se puede hacer de las siguientes formas: a) Entrevista personal: consiste en que el entrevistador formule una serie de preguntas, necesarias sobre la investigación, al investigado. Permite obtener respuestas más precisas ya que se está en contacto directo con el entrevistado, pero presenta como limitaciones un alto costo, ya que se requiere un gran número de agentes que deben poseer una preparación especial. b) Cuestionario por correo: consiste en enviar por esa vía la lista de preguntas, con sus respectivas instrucciones, a las personas que se van a investigar. Tiene la ventaja de brindar mayor comodidad y tiempo para responder las preguntas, a la vez puede resultar una desventaja cuando no son devueltos oportunamente los cuestionarios repartidos, alargando el tiempo de duración de la investigación. c) Entrevista por teléfono: consiste en telefonear al entrevistado para formularle las pregunta necesarias. Permite realizar la investigación en un tiempo relativamente corto, aunque presenta la desventaja de reducir el número de preguntas a formular, y a su vez no existe forma de descubrir las respuestas falsas. d) Observación directa: consiste en obtener los datos y elementos de juicio a través de personal especializado directamente sobre el terreno, sin la necesidad de formular preguntas. Este método puede dar resultados aceptables y objetivos siempre que se evite la faceta humana y subjetiva del investigador. ORDENACIÓN DE DATOS. Una ordenación es la forma más simple de organizar o agrupar los datos, consiste en disponerlos por orden de su magnitud ya sea en forma creciente o decreciente. A continuación se presenta una serie de datos en forma primitiva que luego se agrupan en forma de ordenamiento. PORCENTAJES DE ÁREAS NO CULTIVADAS EN 29 ZONAS AGRÍCOLAS 2,61 2,29 2,61 1,93 1,97 3,92 4,38 2,57 3,27 2,14 3,21 2,95 3,16 2,74 2,57 2,24 3,05 3,55 1,75 3,94 3,40 1,85 3,93 3,98 5,76 2,55 3,67 1,89 3,28 6,25 2,61 2,74 2,95 3,05 3,16 3,21 3,27 3,28 3,40 3,55 3,67 3,82 3,92 3,93 3,94 4,38 5,76 6,25 A. En forma ordenada 1,75 1,85 1,89 1,93 1,97 2,14 2,24 2,29 2,55 2,57 2,57 2,61 Este ordenamiento permite apreciar los valores del menor (1,75) y mayor (6,25) porcentaje de áreas cultivadas y que hay algunos porcentajes que se repiten. El ordenamiento resulta desventajoso cuando el número de datos a organizar es muy grande, por ejemplo que exceda de 100. MEDICIONES En forma general, la medición es la asignación de números a elementos u objetos para representar o cuantificar una propiedad. Por medio de la medición, los atributos de nuestras percepciones se transforman en entidades conocidas y manejables llamadas "números". NIVELES O ESCALAS DE MEDICIONES Escala Nominal: consiste en la asignación, puramente arbitraria de palabras, letras, números o símbolos a cada una de las diferentes categorías en las cuales podemos dividir el carácter que observamos, sin que puedan establecerse relaciones entre dichas categorías; la única relación que puede haber entre los valores que toma una variable son los de “igual” o “diferente”. Se trata de agrupar objetos en clases, de modo que todos los que pertenezcan a la misma sean equivalentes respecto del atributo o propiedad en estudio, después de lo cual se asignan nombres a tales clases, y el hecho de que a veces, en lugar de denominaciones, se le atribuyan números, puede ser una de las razones por las cuales se le conoce como "medidas nominales". Por ejemplo, podemos estar interesados en clasificar los estudiantes de la Universidad Bolivariana de Venezuela Sede Falcón de acuerdo a los programas de formación de grado que cursan. PROGRAMA DE FORMACIÓN DE GRADO DENOTACIÓN ASIGNADA A LA CATEGORÍA Ciencias Jurídicas 1 Comunicación Social 2 Gestión Ambiental 3 Gestión Social 4 Informática 5 Se ha de tener presente que los números asignados a cada categoría sirven única y exclusivamente para identificar la categoría y no poseen propiedades cuantitativas; es decir, Informática (5) no es mayor que Comunicación Social (2). Otros ejemplos son la escala correspondiente al sexo (“M” o “F”), y la de la religión (Budista, católico, judío, entre otros). Escala Ordinal: en caso de que puedan detectarse diversos grados de un atributo o propiedad de un objeto, la medida ordinal es la indicada, puesto que entonces puede recurrirse a la propiedad de "orden" de los números asignándolo a los objetos en estudio de modo que, si la cifra asignada al objeto A es mayor que la de B, puede inferirse que A posee un mayor grado de atributo que B. La asignación de números a las distintas categorías no puede ser completamente arbitraria, debe hacerse atendiendo al orden existente entre éstas. Por eso, la escala ordinal además de indicar “igual o “diferente” también jerarquiza, es posible determinar cual va antes y cual después. Los caracteres que posee una escala de medida ordinal permiten, por el hecho mismo de poder ordenar todas sus categorías, el cálculo de las medidas estadísticas de posición, como por ejemplo la mediana. Por ejemplo: al asignar un número a los pacientes de una consulta médica, según el orden de llegada, estamos llevando una escala ordinal, es decir que al primero en llegar ordinal, es decir que al primeo en llegar le asignamos el nº 1, al siguiente el nº 2 y así sucesivamente, de esta forma, cada número representará una categoría en general, con un solo elemento y se puede establecer relaciones entre ellas, ya que los números asignados guardan la misma relación que el orden de llegada a la consulta. Escalas de intervalos iguales: se caracteriza por una unidad de medida común y constante que asigna un número igual al número de unidades equivalentes al de la magnitud que posea el elemento observado. Es importante destacar que el punto cero en las escalas de intervalos iguales es arbitrario, y no refleja en ningún momento ausencia de la magnitud que estamos midiendo. Esta escala, además de poseer las características de la escala ordinal, encontramos que la asignación de los números a los elementos es tan precisa que podemos determinar la magnitud de los intervalos (distancia) entre todos los elementos de la escala. Sin lugar a dudas, podemos decir que la escala de intervalos es la primera escala verdaderamente cuantitativa y a los caracteres que posean esta escala de medida pueden calculársele todas las medidas estadísticas a excepción del coeficiente de variación. Por ejemplo: el lapso transcurrido entre 1998-1999 es igual al que transcurrió entre 2000-2001, o la escala de la temperatura en grados Centígrados. Escala de coeficientes o Razones: es el nivel de medida más elevado, y se diferencia de las escalas de intervalos iguales únicamente por poseer un punto cero propio como origen; es decir que el valor cero de esta escala significa ausencia de la magnitud que estamos midiendo. Si se observa una carencia total de propiedad, se dispone de una unidad de medida para el efecto. A iguales diferencias entre los números asignados corresponden iguales diferencias en el grado de atributo presente en el objeto de estudio. Además, siendo que cero ya no es arbitrario, sino un valor absoluto, podemos decir que A tiene dos, tres o cuatro veces la magnitud de la propiedad presente en B. En conclusión, en esta escala tienen sentido las igualdades, las relaciones de orden, diferencias, sumas, restas, proporciones o múltiplos. Por ejemplo: en una encuesta realizada en un barrio de esta localidad se observó que hay familias que no tienen hijos, otras tienen 6 hijos que es exactamente el doble de hijos que aquellas que tienen 3 hijos. En esta escala también se incluyen las magnitudes físicas (masa, tiempo, longitud, fuerza, entre otras). Escala Absoluta: es la escala que organiza datos generados por un conteo, como por ejemplo: número de casas en un barrio, número de estudiantes en una sección de Gestión Ambiental, entre otras. ELABORACIÓN DE TABLAS O CUADROS. Para elaborar las tablas, lo primero que debe hacerse es identificar los caracteres o características que se investigaron, lo que permite una mejor clasificación de lo investigado. Las características de un fenómeno pueden ser: cualitativas y cuantitativas. Las características cualitativas, denominadas también atributos, son todas aquellas que se pueden describir con palabras. Por ejemplo: las ventas (en valor o cantidad) clasificadas por sucursales (tabla 1), por días, meses, etc., los empleados de una empresa clasificados por cargos (tabla 2). Tabla 1 Ventas mensuales por sucursal SUCURSALES Centro Chanpinero Chicó Lago Quiroga Restrepo Total $ MILLONES 220 80 160 312 54 42 868 Tabla 2 Clasificación de empleados por cargo CARGOS Administrador Celador Contador Secretaria Supervisor Vendedor Total CANTIDAD 1 8 2 3 5 36 55 Las características cuantitativas, denominadas también variables, son aquellas susceptibles de ser expresadas numéricamente. Algunos ejemplos de variables son: el número de viajes, en el mes, realizado por buses de servicio público (tabla 3); el número de sucursales por volumen de ventas (tabla 4). Tabla 3 Clasificación de buses públicos de acuerdo con el número de viajes. Nº VIAJES MENSUALES 130 133 138 150 156 160 Total Nº VEHÍCULOS 15 32 36 42 38 35 198 Tabla 4 Clasificación de almacenes según valor de las ventas en un mes. VENTAS (Miles Millones $) 120 – 160 161 – 300 301 – 500 501 – 800 801 – 1000 1001 – 5000 Total Nº ALMACENES 412 279 96 54 38 24 903 Las variables se clasifican a su vez en discretas y continuas. Las variables discretas son aquellas en las que entre dos de cualquiera de sus valores no existe ningún otro; es decir, son las variables cuya naturaleza toma un número finito de valores enteros. Sólo admiten valores numéricos enteros; por ejemplo: la clasificación de las fábricas según el número de máquinas; en ellos no se presentan fracciones de máquinas. El conjunto de valores que podría de tomar una variable discreta puede ser finita o infinita numerable. Las variables continuas son las que pueden admitir valores fraccionados. Son consideradas como tales las expresadas en forma de medidas de superficie, peso, longitud, volumen, tiempo, temperatura, valor. Además, las expresadas en medidas de relación, tales como porcentajes, tasas, puntuaciones. Las variables continuas son aquellas variables cuantitativas que puede tomar cualquier valor dentro de un intervalo (éste será finito o infinito). Es decir, permiten una infinidad de valores dentro de un intervalo. Pueden adoptar una clasificación igual a la discreta, pero su presentación tendría el inconveniente de hacerse demasiado larga, dificultando la aplicación de alguna de las medidas estadísticas. Por tal razón, en la variable continua, se elaboran intervalos con lo cual se simplifica su ordenamiento y presentación. Las variables también pueden ser clasificadas en cualitativas o cuantitativas, y, en dependientes e independientes. Variable cualitativa: Son aquellas variables cuyas modalidades de clasificación son no numéricas. Variable cuantitativa: Son las variables relativas a una población que se expresan en cantidades numéricas, pueden ser continuas o discretas, las primeras originan medidas y las segundas recuentos o intervalos. Variable Dependiente: Es la variable del desenlace de interés en cualquier tipo de estudio. El desenlace o resultado que el investigador pretende explicar o estimar. Variable Independiente: Variable que se mide para determinar el valor correspondiente de la variable dependiente en cualquier tipo de estudio. Las variables independientes definen las condiciones bajo las cuales se examinará la variable dependiente. La tabla 3 corresponde a una variable discreta ya que no se puede fraccionar el número de viajes; en la tabla 4 se presenta una variable continua, porque si se admiten fracciones, como centavos. Cuando se estudia o analiza una sola característica de los elementos seleccionados en la investigación, se dice que la variable o el atributo corresponden a una distribución unidimensional; si se trabaja con dos variables, dos atributos o una variable y un atributo, se trata de distribuciones bidimensionales; y si se estudian tres o más características simultáneamente, se habla de una distribución pluridimensional o multidimensional. Hay que recordar que las tablas o cuadros son arreglos sistemáticos de datos y que su forma depende en gran medida del propósito para el cual fue diseñado, por lo tanto no se tienen reglas fijas para la elaboración de los mismos, pero se tienen algunas recomendaciones en forma general que han sido aceptadas, las cuales son: I) Título: A) Numeración del cuadro: cuando los cuadros forman parte de un texto o de un grupo, deben ser numerados en la parte superior central de la hoja, ejemplo: Cuadro 1, Cuadro 2, etc. B) Se deben seguir los siguientes puntos: 1. Deben colocarse centrado en la parte superior del cuadro sin subrayar, y usando letras mayúsculas para todo el enunciado. 2. Redactarse con claridad y que exprese concisamente los datos que se presentan en el cuadro, y responda las siguientes interrogantes: Qué, cómo, dónde y cuándo se hizo. 3. En general el orden del enunciado será el siguiente: a) Referencia geográfica. b) Naturaleza de los datos. c) Referencia cronológica. d) Detalle de las clasificaciones o unidades. Estas deberán colocarse entre paréntesis y utilizando mayúsculas únicamente al iniciar la palabra. II) Encabezamiento: Contiene los títulos y subtítulos de las columnas. Se puede colocar una columna para los totales, que puede estar ubicada al principio o al final, de izquierda a derecha. Otra observación es que tanto el encabezado como las diversas columnas deben separarse con rayas, cerrando el cuadro por la parte superior e inferior con una raya gruesa o doble raya. III) Columna matriz o principal: El arreglo puede realizarse de la siguiente manera: a) cuando se trata de conceptos cualitativos, deberán ordenarse alfabéticamente; b) cuando se trata de conceptos cuantitativos, puede ordenarse en forma ascendente o descendente; c) si se desea analizar la tendencia de un fenómeno (producción, consumo, entre otros), se ordenarán los años en forma ascendente, pero si se quiere destacar la importancia de los últimos años, se ordenarán en forma descendente; cuando se trabajan con los meses del año o los días de la semana, se comenzará con enero y lunes, respectivamente, si se refieren a series largas de años, deberán separarse estos por un espacio en grupos de cinco o diez años. IV) Tamaño: Es recomendable elaborar cuadros de tamaño carta, y deberá planearse de tal manera que no sea ni muy largo y angosto, ni muy ancho y corto. V) Los signos y puntuaciones a utilizar son: ( . ) Para millares y millones. ( , ) Para decimales. ( . . ) Existe el dato pero no aplicable; es decir, no compatible. ( ... ) No hay cifras disponibles. ( - ) Cuando sea cero. ( o ) Cuando las cifras sean inferiores a la mitad de la unidad empleada. ( ) Para cifras que no deben tomarse en cuenta para el total. 1958/1959 Período año fiscal. 1958-1959 Período año civil. VI) Notas A) Las que se encuentran al pie de los datos casi siempre incluyen llamadas, las cuales llevan la siguiente descripción: Para cifras provisionales o estimadas. a/, b/, etc., para llamadas a números, ejemplo: 1940 a/. 1/, 2/, etc., para llamadas a letras, ejemplo: Caracas 1/. Las notas deberán colocarse antes de la fuente. B) Cuando se refiere a la fuente de datos. Deben ser redactadas de la siguiente manera: 1. Si la fuente es una revista se deberá mencionar el nombre de la institución que emite; nombre de la revista, subrayado; ciudad de la publicación, en paréntesis; fecha de la publicación y página. Ejemplos: Naciones unidas, Boletín Mensual de Estadística (Nueva York), enero 1956, págs. 4-9. Boletín Informativo del Ministerio de Hacienda (Caracas), Año XXI (octubre de 1959), págs. 25-28. 2. Si la fuente es un artículo en una revista se coloca el nombre de un autor; del artículo entre comillas; título de la revista, subrayado; ciudad de publicación, entre paréntesis; fecha o número de volumen; páginas. Ejemplo: Feo Codecido, G. “Notas Petrológicas sobre Formaciones que Afloran en la Región de El Baúl, Estado Cojedes”, Boletín de Geofísica (Caracas), Volumen III (julio 1953 a diciembre 1954), págs 109-121. 3. Si la fuente es una monografía se escribe el nombre del autor (personas u organizaciones); título del estudio, subrayado; lugar de publicación, entre paréntesis; páginas. Ejemplo: Corporación Venezolana de Fomento, El Consumo y Abastecimiento de Energía de Venezuela, 1945-57; 1968 (Caracas, 1959), págs. 57-60. Schackne, S. Petróleo en el Mundo (Caracas, 1955), pág. 32. 4. Si la fuente es un informe: nombre de la organización; título de la publicación, subrayado; lugar y fecha de la publicación, en paréntesis; páginas. Ejemplo: Ministerio de Minas e Hidrocarburos, Anuario, 1956 (Caracas, 1957), pág. 102. 5. Si la fuente es un libro: nombre del autor; título del libro, subrayado; lugar y feche de la publicación, en paréntesis; páginas. Ejemplo: O’Connor, H. El Imperio del Petóleo. (Buenos Aires, 1955), pág. 53. Cuadro Nº TÍTULO (qué, cómo, dónde, cuándo) Encabezamiento TÍTULO EN TÍTULO MAYÚSCULA MAYÚSCULA Subtítulo en minúscula Cuerpo TOTAL Pie (Fuentes, llamadas, convenciones, etc.) TOTAL DISTRIBUCIÓN DE FRECUENCIA. Cuando se trabajan con grandes cantidades de datos que no han sido organizados numéricamente, es útil distribuirlos en clases o categorías, y determinar el número de individuos que pertenecen a cada categoría, a lo que se llama frecuencia de clase. La disposición tabular de los datos por clase, con sus correspondientes frecuencias de clases, se le conoce como distribución de frecuencias o tabla de frecuencias. Los datos se clasifican y ordenan de acuerdo a ciertas características cualitativas y/o cuantitativas, indicando el número de veces que se repiten. ATRIBUTOS: La tabla 5 presenta una muestra de cómo se clasifica o se tabula la información cualitativa, indicando el número de veces que el atributo se repite, el cual se denomina frecuencia de ocurrencia. La proporción se obtiene dividiendo al número de observaciones en cada caso por su total, y se le conoce con el nombre de frecuencia relativa de ocurrencia. Es importante destacar, en el caso de atributos, que las características pueden ser analizadas mediante el cálculo de razones y porcentajes, y, al igual que las variables o características cuantitativas, se pueden representar gráficamente. Tabla 5 MOVIMIENTOS DE EMBARCACIONES EN LOS PUERTOS SEGÚN BANDERAS – ENERO 2000 BANDERAS Hondureña Inglesa Italiana Japonesa Liberiana Noruega Panameña Venezolana Otras naciones Total TABULACIÓN Nº % /// //// //// //// //// //// //// //// //// 3 21 11 8 13 18 23 6 18 2,48 17,36 9,09 6,61 10,74 14,88 19,01 4,96 14,87 121 100,00 //// //// /// //// //// //// / //// //// / //// / /// //// //// /// //// /// //// /// ------ VARIABLES: En este punto se especificará cómo se elabora una tabla de frecuencia, tanto para la variable discreta como para la variable continua. Pero antes se presentará la terminología empleada para su mejor comprensión. La tabla 6 es una distribución de frecuencia de las estaturas de 100 estudiantes hombres de la universidad XYZ. Tabla 6 ESTATURA DE LOS ESTUDIANTES HOMBRES DE LA UNIVERSIDAD XYZ ESTATURA (pulg) NÚMERO DE ESTUDIANTES 60 – 62 5 63 – 65 18 66 – 68 42 69 – 71 27 72 – 74 8 TOTAL 100 Rango o amplitud total: es la diferencia entre el número mayor y el menor de los datos. Por ejemplo, si la estatura mayor de 100 estudiantes es 74 pulg y la menor es 60 pulg, el rango es 74 – 60 = 14 pulg. Clase o grupo: es el fraccionamiento de la amplitud total para reunir los casos que presentan intensidades comprendidas entre los límites dados. Por ejemplo, comprende las estaturas entre 60 y 62 pulg y se indica con el rango 60-62, haciendo un total de 5 clases. Como hay cinco estudiantes en esta clase, la correspondiente frecuencia de clase es 5. Límites de clase: son los valores que limitan las clases; al número más pequeño se le denomina límite inferior de clase, mientras que al número más grande es el límite superior de clase. Los límites de clase serán en la primera clase, 60 límite inferior y 62 límite superior. Intervalo o amplitud de clase: es la diferencia existente entre los límites superior e inferior de clase; también existen casos en que se toma como intervalo de clase la diferencia entre los límites inferiores de dos clases consecutivas. El intervalo puede ser constante o variable; en nuestro ejemplo es 2. A un intervalo de clase que, por lo menos teóricamente, no tiene límite de clase inferior o límite de clase superior se le llama intervalo de clase abierto. Fronteras de clase: si se miden estaturas con exactitud de 1 pulg, en teoría el intervalo de clase 60 – 62 incluye todas las medidas desde 59,5000 hasta 62,5000 pulg, a estos números se les llaman fronteras de clases o límites verdaderos de clase; el número menor (59,5) es la frontera inferior de clase y el número mayor (62,5) la frontera superior de clase. Punto medio del intervalo o marca de clase: es el punto medio del intervalo de clase, se obtiene promediando los límites inferior y superior de clase. La marca de clase del intervalo 60-62 es (60 + 62)/2 = 61. Para efectos del análisis matemático, se asume que todas las observaciones pertenecientes a un mismo intervalo de clase coincide con la marca de clase; de esta manera, todas las estaturas en el intervalo de clase 60-62 pulg se considerarán de 61 pulg. Las reglas generales para construir distribuciones de frecuencia son: 1. Determinar el número mayor y el menor en los datos sueltos con el fin de especificar el rango o amplitud total. 2. Dividir el rango en un número adecuado de intervalos de clase del mismo tamaño. Si esto no es posible, usar intervalos de clases distintos tamaños o intervalos de clase abiertos. Se suelen tomar entre 5 y 20 intervalos de clase, según los datos. Los intervalos de clase se eligen también de modo tal que las marcas de clase coincidan con los datos reales observados. Ello tiende a disminuir el llamado error de agrupamiento que se produce en análisis matemáticos posteriores. No obstante, las fronteras de clase no deberían coincidir con los datos realmente observados. 3. Determinar el número de observaciones que corresponden a cada intervalo de clase; es decir, hallar las frecuencias de clase. La simbología que se utiliza en la elaboración de las tablas, necesarias para el cálculo de las diferentes medidas que se aplican en el análisis de los datos, son: N: Tamaño poblacional. n: Tamaño de muestra. Xi: Características cuantitativa, observadas en cada unidad investigada. f i: Frecuencia absoluta. Número de veces que se repite cada valor de la variable. fri: Frecuencia relativa. Se obtiene dividiendo cada frecuencia absoluta por el tamaño de la muestra o el tamaño poblacional. Fai: Frecuencia absoluta acumulada. Fri: Frecuencia relativa acumulada. K: Número de valores que toma la variable, número de marcas de clase, o número de intervalos. m i: Variable discreta o marca de clase. yi-1 – yi: Los intervalos en que se divide la variable continua. Siendo yi el límite inferior y yi-1 el límite superior del intervalo. Amplitud del intervalo entre yi-1 – yi. C: Variable discreta La elaboración de una tabla de frecuencia se explicará mediante un ejemplo: Se tienen 300 bolsas de semillas de quinchoncho para siembra. Se desea examinar las bolsas de semillas para saber el número de semillas de cada una a fin de diseñar la distribución de las mismas para la siembra. Por motivos de tiempo, espacio físico y personal disponible, se toma la decisión de revisar un 10% de las bolsas. N = 300 bolsas de semillas de quinchoncho (tamaño de la población objetivo) n = 300 bolsas * (10%/100) = 30 bolsas (tamaño de la muestra) Cada bolsa seleccionada en forma aleatoria, se simboliza por xi (minúscula en la muestra y mayúscula en la población), el subíndice “i” toma valores desde 1 hasta n, siendo x1 la primera bolsa seleccionada, x2 la segunda, y así sucesivamente; el valor de estas corresponden al número de semillas dentro de cada bolsa. Tabla 7 Datos originales o no agrupados x1 = 502 x6 = 505 x11 = 501 x16 = 502 x21 = 505 x26 = 499 x2 = 499 x7 = 505 x12 = 505 x17 = 500 x22 = 499 x27 = 503 x3 = 501 x8 = 503 x13 = 502 x18 = 500 x23 = 501 x28 = 499 x4 = 502 x9 = 500 x14 = 504 x19 = 503 x24 = 504 x29 = 505 x5 = 503 x10 = 501 x15 = 502 x20 = 499 x25 = 499 x30 = 502 La variable discreta la simbolizaremos por yi (minúscula para la muestra y mayúscula para la población), donde el subíndice i, toma valores desde 1 hasta m (número de valores que toma la variable). Siendo m = 7, se tendrá: y 1, y2, y3, y4, y5, y6, y7. Tabla 8 Tabla de frecuencia – Variable discreta Número de semillas por bolsas 499 500 501 502 503 504 505 Total Tabulación Número de bolsas % 6 3 4 6 4 2 5 30 20 10 13 20 13 7 17 100 //// / /// //// //// / //// // //// Tabla 9 Distribución de frecuencia yi 499 500 501 502 503 504 505 fi 6 3 4 6 4 2 5 fri 20 10 13 20 13 7 17 Fai 6 9 13 19 23 25 30 Fri 20 30 43 63 76 83 100 Total 30 100 --- --- El cálculo de la frecuencia relativa se efectúa de la siguiente manera: fri fi f fr1 f1 6 0.2 ó 20% f 30 fr2 f2 3 0.1 ó 10% f 30 fr3 f3 4 0.133 ó 13% (se aproximó) f 30 fr4 f4 6 0.2 ó 20% f 30 fr5 f5 4 0.133 ó 13% (se aproximó) f 30 fr7 f7 5 0.166 ó 17% (se aproximó) f 30 fr6 f6 2 0.066 ó 7% (se aproximó) f 30 La obtención de las frecuencias absolutas acumuladas se hace por medio de sumas sucesivas, las que se simbolizan por Fai. La columna de Fai no se suma, y la última frecuencia absoluta será igual a n. Fa1 = f1 = 6 Fa2 = f1+ f2 = 6 + 3 = 9 Fa3 = f1+ f2 + f3 = 6 + 3 + 4 = 13 Fa4 = f1+ f2 + f3 + f4 = 6 + 3 + 4 + 6 = 19 Fa5 = f1+ f2 + f3 + f4 + f5 = 6 + 3 + 4 + 6 + 4 = 23 Fa6 = f1+ f2 + f3 + f4 + f5 + f6 = 6 + 3 + 4 + 6 + 4 + 2 = 25 Fa7 = f1+ f2 + f3 + f4 + f5 + f6 + f7 = 6 + 3 + 4 + 6 + 4 + 2 +5 = 30 Al igual que en las frecuencias absolutas acumuladas, se procede para la obtención de las frecuencias relativas acumuladas: Fr1 = fr1 = 20% Fr2 = fr1+ fr2 = 20% + 10% = 30% Fr3 = fr1+ fr2 + fr3 = 20% + 10% + 13% = 43% Fr4 = fr1+ fr2 + fr3 + fr4 = 20% + 10% + 13% + 20% = 63% Fr5 = fr1+ fr2 + fr3 + fr4 + fr5 = 20% + 10% + 13% + 20% + 13% = 76% Fr6 = fr1+ fr2 + fr3 + fr4 + fr5 + fr6 = 20% + 10% + 13% + 20% + 13% + 7% = 83% Fr7 = fr1+ fr2 + fr3 + fr4 + fr5 + fr6 + fr7 = 20% + 10% + 13% + 20% + 13% + 7% + 17% = 100% Variable continua Consideremos nuevamente la población de 300 bolsas (N=300) y seleccionaremos aleatoriamente una muestra de 30 bolsas (n=30), o sea el 10%, a fin de investigar el peso en gramos de cada bolsa. La información sobre el peso de cada bolsa, se da en números enteros con el fin de simplificar el trabajo, sin olvidar que la medida (peso) utilizada admite valores fraccionados. Tabla 10 Datos originales o no agrupados x1 = 250 x6 = 248 x11 = 243 x16 = 252 x21 = 249 x26 = 251 x2 = 246 x7 = 244 x12 = 247 x17 = 250 x22 = 247 x27 = 249 x3 = 243 x8 = 251 x13 = 248 x18 = 247 x23 = 251 x28 = 248 x4 = 249 x9 = 245 x14 = 246 x19 = 252 x24 = 247 x29 = 250 x5 = 251 x10 = 246 x15 = 248 x20 = 249 x25 = 252 x30 = 246 a) Se determina el valor máximo y mínimo que toma xi: xmín = 243; xmáx = 252 b) Determinación del Rango: Rango = xmáx – xmín = 252 – 243 = 9 c) Determinación del número de intervalo (K) aplicando la regla de Sturger, la cual genera una aproximación aceptable: K 1 3.3 * logn K 1 3.3 * log30 5.87 Aplicando la regla de redondeo, el valor de 5.87 lo aproximamos a 6. d) Determinación de la amplitud para cada intervalo: al calcular el valor de C, este valor no necesariamente debe ser igual para todos los intervalos, sin embargo para este ejercicio vamos a considerarlo constante, para ello se debe aplicar la siguiente fórmula: x máx x mín Rango K K x x mín 252 243 9 C máx 1.5 K 6 6 C Para facilitar los cálculos, el valor se aproxima al número inmediato superior por pequeña que sea la fracción; haciendo uso de esta recomendación, el valor de 1.5 se aproxima a 2; esto altera el valor del rango. El valor de m es fijado a 2, por lo tanto se debe recalcular el rango de la siguiente manera: (anteriormente) 1 .5 (ahora) 9 6 2 Rango Rango 2 * 6 12 6 El rango se incrementa en tres unidades, de 9 pasó a 12. Este incremento debe en lo posible distribuirse proporcionalmente, sumando unas unidades al límite superior y restándole otras al límite inferior. Las situaciones que se pueden presentar son las siguientes: xmáx – xmín = Rango 252 – 243 = 9 (originalmente) 255 – 243 = 12 254 – 242 = 12 253 – 241 = 12 252 – 240 = 12 (nuevo Rango) Cualquiera de estas situaciones en la determinación de los límites del nuevo rango son válidas, siendo preferible distribuir dicho incremento en forma proporcional. Por lo tanto, se tomará: xmín = 242 y xmáx = 254 e) La columna correspondiente a la variable continua se simbolizará por yi-1 – yi: (ambas minúsculas para la muestra y mayúscula para la población). yi-1 = límite inferior del intervalo yi = límite superior del intervalo f) Para la elaboración de los intervalos, se inicia con el valor xmín en el nuevo rango (242), siendo éste a su vez el límite inferior (y0) del primer intervalo, luego se procede a agregarle el valor de la amplitud para así obtener el límite superior (y 1), que será a su vez el límite inferior del segundo intervalo, al cual se le agregará nuevamente el valor de C para obtener el límite superior del segundo intervalo, y así sucesivamente hasta conformar la columna de la variable continua. Tabla 11 Tabla de frecuencia. Variable continua. mi yi-1 – yi fi fri Fai Fri 242 – 243.99 2 6.67 2 6.67 243 244 – 245.99 2 6.67 4 13.34 245 246 – 247.99 8 26.67 12 40.01 247 248 – 249.99 8 26.67 20 66.68 249 250 – 251.99 7 23.33 27 90.01 251 252 – 253.99 3 10 30 100 253 Total 30 100 --- --- --- Se puede observar que cada uno de los límites inferiores de los intervalos se les agregó 0.1, a fin de facilitar la clasificación, por ejemplo: x13 = 248 estaría considerada en el intervalo 245.1 – 248 y no en el intervalo 248.1 – 251, evitando la dificultad de no saber dónde clasificar dicho valor al tener intervalos, tales como (245 – 248) y (248 – 251). g) Para determinar la marca de clase (mi), la cual sirve para facilitar el cálculo de algunas medidas de posición y de dispersión, puede obtenerse de tres formas: 1) m1 y 0 y 1 242 244 243 2 2 m2 y1 y 2 244 246 245 2 2 2) m1 y 0 y 1 242 244 243 2 2 m2 = m1 + C = 243 + 2 = 245 3) m1 y 0 C 2 242 243 2 2 m1 y 1 C 2 244 245 2 2 y así sucesivamente. y así sucesivamente. y así sucesivamente. h) Para la determinación de fi, fri, Fai y Fri, se realiza exactamente igual al ejercicio anterior. GRÁFICAS ESTADÍSTICAS. Son representaciones gráficas de los resultados que se muestran en una tabla estadística, permitiendo obtener gracias al análisis visual una mejor idea de la distribución cuantitativa de los datos de una serie. Pueden ser de formas muy diversas, pero con cada tipo de gráfica se cumple un propósito. La distribución de frecuencia puede presentarse gráficamente a través de diferentes formas: Diagrama de Frecuencia. Diagrama de Barras. Histogramas. Diagrama Circular. Polígonos. Diagrama de Líneas. Ojivas. Cuadrados y Triángulos. Pictogramas. Gráficas de Gantt. Cartogramas. Pirámides. DIAGRAMAS DE FRECUENCIAS: En este tipo de gráfica, sobre los valores de las variables se levantan barras estrechas de longitudes proporcionales a las frecuencias correspondientes. Se utilizan para representar variables cuantitativas discretas. En el eje horizontal colocamos los valores que toma la variable (y i), y en el eje vertical, las frecuencias absolutas (fi) o las relativas (fri). El diagrama de barras siguiente representa la distribución de frecuencia de la tabla 9. Tabla 12 Resumen de la tabla de frecuencia 9 yi fi fri 499 500 501 502 503 504 505 6 3 4 6 4 2 5 20 10 13 20 13 7 17 Total 30 100 Figura 1 Frecuencias Absolutas Figura 2 Frecuencias Relativas HISTOGRAMA DE FRECUENCIA: Los histogramas se utilizan para representar tablas de frecuencias con datos agrupados en intervalos. Si los intervalos son todos iguales, cada uno de ellos es la base de un rectángulo cuya altura es proporcional a la frecuencia correspondiente. Consiste en una serie de rectángulos paralelos, cuya base representa el intervalo de clase (eje x) y su altura la magnitud de frecuencia de clase respectiva (eje y). Si los intervalos de clase no son todos del mismo tamaño, hay que ajustar las alturas. El procedimiento para su construcción es: 1.- Se trazan dos ejes de coordenadas sobre el plano. 2.- Se llevan sobre el eje de las abscisas los límites de clase, y sobre el eje de las ordenadas la magnitud de cada frecuencia. 3.- Se levantan perpendiculares por los límites de cada clase, siendo la altura de estas perpendiculares igual a la frecuencia de la clase respectiva; finalmente se unen las dos perpendiculares que representan cada clase, dando origen al histograma. Los histogramas que se muestran a continuación son los correspondientes a la tabla de frecuencias número 11. Figura 3 Histograma de frecuencia absoluta Figura 4 Histograma de frecuencia relativa 9 30 8 7 25 6 20 fri fi 5 4 3 15 10 2 5 1 0 0 242 244 246 248 yi-1 - yi 250 252 254 242 244 246 248 yi-1 - yi 250 252 254 POLINOMIO DE FRECUENCIA: Es un gráfico de líneas trazado sobre los puntos medios de cada clase. Se obtiene uniendo los puntos medios de los extremos superiores de cada rectángulo del histograma correspondiente. El procedimiento para su construcción es: 1.- Se trazan dos ejes de coordenadas en un plano. 2.- Se llevan sobre las abscisas los puntos medios de la distribución y sus respectivas frecuencias se llevan sobre la ordenada. 3.- Por cada punto medio se levantan perpendiculares cuyas alturas representan las frecuencias de cada clase; en la práctica sólo se traza el punto final de la perpendicular. 4.- Los extremos de las perpendiculares se unen por medio de líneas rectas obteniéndose una línea poligonal, que al cerrarse origina el polinomio de frecuencia. Los polinomios que se muestran a continuación son los correspondientes a la tabla de frecuencias número 11. Figura 5 Histograma de frecuencia absoluta Figura 6 Histograma de frecuencia relativa 30 9 8 25 7 20 5 fri fi 6 4 15 10 3 2 5 1 0 0 243 245 247 249 251 243 253 245 247 249 251 253 mi mi HISTOGRAMA Y POLÍGONO DE FRECUENCIA ACUMULADA: Si se representan las frecuencias acumuladas de una tabla de datos agrupados se obtiene el histograma de frecuencias acumuladas correspondiente polígono. He aquí los que se obtienen de la tabla 11: Figura 7 Histograma y Polinomio de frecuencia acumulada. 35 120 30 100 25 Fi 60 15 40 10 20 5 0 242 244 246 248 250 Peso de las bolsas 252 0 254 Fr1 80 20 o su DIAGRAMA DE SECTORES: En un diagrama de este tipo los 360º de un círculo se reparten proporcionalmente a las frecuencias de los distintos valores de la variable. Resultan muy adecuados cuando hay pocos valores, o bien cuando el carácter que se estudia es cualitativo. El diagrama de sectores siguiente refleja el resultado de la tabla 5: Figura 8 Diagrama de sectores Otras naciones Hondureña Inglesa Venezolana Italiana Panameña Japonesa Noruega Liberiana MEDIDAS DE POSICIÓN O DE TENDENCIA CENTRAL Dentro de la estadística se realizan mediciones con el objetivo de caracterizar a las muestras, y unas de ellas son las medidas de tendencia central. Esta es un valor típico descriptivo en la que un conjunto de datos muestra una tendencia bien determinada a agruparse o aglomerarse alrededor de cierto punto central. Las más usadas son: Promedio ó media aritmética ( X ): Existen varias formas de calcular la media aritmética de una distribución de datos atendiendo a las posibles circunstancias n que suelen presentarse estos: Primer caso: cuando los valores de la variable se presentan sin agrupar, se obtiene al dividir la suma de los valores por el número total de observaciones: X x X1 X 2 X3 ... XN X N x1 x 2 x 3 ... x n x n X i N x Media poblacional (parámetro) i n Media muestral (estadístico) Ejemplo: Hallar la media aritmética X de la siguiente distribución de datos: 32, 25, 29, 30, 30, 27, 24, 35, 34, 30, 29. X X i N 24 25 27 29 29 30 30 30 32 34 35 29,54 11 Segundo caso: cuando los valores de la variable se presentan agrupados por efectivos, se calcula multiplicando cada valor de la variable por el número de efectivos correspondientes y dividiendo la suma total de estos productos por el número de datos. Ejemplo: Hallar la media aritmética de la distribución de datos: Tabla 13 Xi 30 31 32 33 34 35 36 37 38 39 40 Total X fi 2 7 13 22 32 49 35 23 9 5 3 200 fi . Xi 60 217 416 726 1088 1715 1260 851 342 195 120 6990 fi Xi 6990 34,95 N 200 Tercer caso: cuando los valores de la variable se presentan agrupados por el número de efectivos correspondientes a cada uno y en intervalos, se calcula buscando los puntos medios de cada clase (marca de clase) y procediendo como en el caso 2. Ejemplo: Hallar la media aritmética de los datos que figuran en la tabla. Tabla 14 yi-1 - yi 6 – 25 26 – 45 46 – 65 66 – 85 86 – 105 106 – 125 126 – 145 146 – 165 166 – 185 186 – 205 206 – 225 Total fi 4 3 7 9 16 14 20 32 24 13 6 148 mi 15,5 35,5 55,5 75,5 95,5 115,5 135,5 155,5 175,5 195,5 215,5 ---- f i . mi 62 106,5 388,5 679,5 1528 1617 2710 4796 4212 2514,5 1293 20114 X fi mi 20114 135,9 N 148 Moda (Mo): Es aquel valor de la variable o atributo que presenta la mayor frecuencia. La moda puede no existir e incluso no ser única. Ejemplos: 1) El conjunto 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 2) El conjunto 3, 5, 8, 10, 12, 15, 16 3) El conjunto 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 Tiene moda 9. Carece de moda. Cuenta con dos modas, 4 y 7, se le conoce como bimodal. Cuando se desea determinar la moda a partir de una distribución de frecuencia, se realiza de la siguiente manera: Fórmula 1: Fórmula 2: d1 C d1 d2 f Mo li 2 C f1 f2 Mo li li : límite inferior de l clase modal. d1 : valor absoluto de la diferencia entre l frecuencia de la clase modal y la clase inmediatamente anterior. d2 : diferencia entre la frecuencia de la clase modal y de la clase siguiente. C : amplitud del intervalo de clase. f1 : frecuencia de la clase que antecede a la modal. f2 : frecuencia de la clase que sigue a la modal. Ejemplo: determine la moda de los siguientes datos que representan las calificaciones de 100 alumnos de la cátedra de Análisis del dato estadístico. Tabla 15 yi-1 – yi 0 – 4,9 5 – 9,9 10 – 14,9 15 – 20 Total Fórmula 1: Mo li fi 20 40 30 10 100 d1 40 20 20 C 5 5 5 5 8,33 40 20 40 30 d1 d2 20 10 Fórmula 2: Mo li f2 30 30 C 5 5 5 5 8 f1 f2 20 30 50 Mediana (Me): Valor central del grupo de datos ordenados. Valor por encima y por debajo del cual se hallan la mitad de los casos; percentil 50. Por ejemplo, si hay 5 casos, la mediana es la 3ª observación mayor (o menor). Cuando el número de observaciones es par, la mediana es el promedio de las dos observaciones centrales. La mediana no es sensible a la existencia de valores extremos. Esta es utilizada cuando la distribución presenta el primer y último intervalo abierto o no definido. Datos no agrupados: Cuando calculamos la mediana en datos no agrupados, ordenamos las observaciones de menor a mayor o viceversa. En su cálculo se presentan dos casos: a) Cuando el número de datos es impar: en este caso la mediana coincide con el dato central. Ejemplo: determine la mediana de la siguiente distribución: 4 6 7 9 15 16 17 La mediana es 9, ya que éste es el valor central de la distribución. Cuando el número de observaciones es grande, se podrá localizar la observación central mediante la aplicación de la fórmula: n 1 7 1 8 4 ta observació n 2 2 2 b) Cuando el número de datos es par: en este caso la mediana será el término medio de los dos valores centrales. Ejemplo: determine la mediana de la siguiente distribución: 3 7 9 12 La mediana es Me Para obtener n 1 8 1 9 4,5 2 2 2 15 20 21 25 12 15 13,5 2 las observaciones centrales, aplicamos la fórmula: es decir, la mediana en este ejercicio debe estar localizada entre la cuarta y quinta observación, por lo tanto se promediarán los valores de esas observaciones. Datos agrupados: Para el cálculo de la mediana se debe tener en cuenta si la variable es discreta o continua y la ubicación de la observación central. Variable discreta: a) Cuando Faj-1 = n/2 la mediana se obtendrá aplicando esta fórmula: Me y j1 y i . 2 Para la aplicación de la fórmula considere los siguientes datos, y tengamos para esto en cuenta los siguientes cuatro pasos: Tabla 16 yj-1 yj yj 0 1 2 3 4 Total fj 3 4 8 12 3 30 Faj 3 7 15 27 30 --- Faj-1 Faj 1) Se acumulan las frecuencias absolutas (Fai). 2) Se divide el valor de n por dos. En este caso sería: 30 15 2 3) Se busca en la columna de las frecuencias absolutas el valor de n/2. Si aparece, se simbolizará por Faj-1 y el valor inmediato posterior por Faj. Se tendrá que Faj-1 = 15 y Nj = 27. 4) Siempre que Faj-1 = n/2, en una variable discreta, la fórmula que se aplica para y j1 y j 2 3 calcular la mediana, será: Me 2,5 2 2 b) Cuando Faj-1 < n/2; la mediana se obtendrá aplicando la fórmula Me = yj. Observemos el cálculo de la mediana trabajando con los datos de la siguiente tabla: Tabla 17 yj-1 yj yj 0 1 2 3 4 Total fj 3 6 12 7 2 30 1) Se acumulan las frecuencias absolutas (Fai). Faj 3 9 21 28 30 --- Faj-1 Faj 2) Se divide a n por 2. En este caso es 30 15 2 3) Se busca en la columna de las frecuencias absolutas el valor de n/2. Como no aparece el 15 en dicha columna, se tomará el valor inmediato superior a 15 como Faj (en este caso es 21) y el valor inmediato anterior como Faj-1 (en nuestro caso es 9). 4) Siempre que Faj-1 < n/2, en una variable discreta, la mediana se calculará aplicando la siguiente fórmula: Me = yj Me = 2. Variable continua: a) Cuando Faj-1 = n/2; la mediana se obtendrá aplicando la fórmula Me = yj-1. No se describirán los pasos a seguir en la variable continua, ya que son los mismos dados en la variable discreta, solo que yj-1 se localiza al frente de Faj y que el valor de C corresponderá al del intervalo que está al frente de Faj. Ejemplo: determinar la mediana de la siguiente distribución: Tabla 18 yj-1 - yj fj Faj 46,1 – 54 54,1 – 62 62,1 – 70 70,1 – 78 78,1 – 86 86,1 – 94 5 7 13 10 9 6 5 12 Total 50 --- 25 35 44 5 n 50 25 2 2 Faj-1 Siendo Nj-1 = 25 Siempre que: Faj-1 = n/2 Faj La mediana será: Me = yj-1 = 70 b) Cuando Faj-1 < n/2; la mediana se obtendrá aplicando la fórmula: n 2 Fa j1 Me y j1 C fj Consideremos una distribución donde los valores extremos de la variable no están definidos y además la amplitud no es constante, como en la siguiente tabla: Tabla 19 yj-1 - yj Menor o igual a 54 54,1 – 60 60,1 – 72 72,1 – 86 86,1 – 94 94,1 y más Total fj 6 12 20 12 6 4 60 Faj 6 18 38 50 56 60 --- Faj-1 Faj n 60 30 2 2 Faj-1 < n/2 Faj-1 = 18 Faj-1 = 38 144 30 18 12 Me 60 12 60 7,2 67,2 60 12 60 20 20 20 Media Cuadrática (Mc): Es la raíz cuadrada de la media aritmética de los cuadrados de la variable. Se aplica en algunos casos tales como en problemas de probabilidad o cuando se hace indispensable trabajar con los cuadrados de los valores. Mc x 12 x 22 x 32 ... x n2 n Mc x i2 n Mc m12 f1 m 22 f 2 ... m n2 fn n Mc m i2 fi Para datos agrupados n Para datos no agrupados Ejemplo: Consideremos arbitrariamente 5 valores, con los cuales calcularemos la media cuadrática. Mc 5 6 10 x i2 5 2 6 2 10 2 12 2 7 2 n 5 12 7 25 36 100 144 49 8,41 5 Ejemplo: Utilicemos la siguiente tabla correspondiente a una variable continua y calculamos con esos datos la media cuadrática: Tabla 18 yi-1 – yi 46,1 – 54 54,1 – 62 62,1 – 70 70,1 – 78 78,1 – 86 86,1 – 94 Total Mc m i2 fi n fi 3 6 10 6 3 2 30 Mc mi 50 58 66 74 82 90 --- mi2 2500 3364 4356 5476 6724 8100 --- 140472 4682,4 68,43 30 mi2 fi 7500 20184 43560 32856 20172 16200 140472 MEDIDAS DE DISPERSIÓN Son aquellos valores estadísticos que proporcionan una idea acerca de cómo se agrupan los datos de una distribución con respecto a los valores centrales de la misma. Los valores de dispersión mas usados son: El Rango (Ra): Es la diferencia entre el mayor y menor valor de la distribución de datos; en otras palabras, es el límite dentro del cual se encuentran todos los valores de la serie, también se llama recorrido. Esta medida es muy fácil de calcular y depende del número de datos de la serie, uno de sus inconvenientes es que no da una verdadera idea de la concentración de los valores, en ejemplo de ello se observan en los siguientes datos: Ra = 200 – 1 = 199; 1 80 82 84 86 90 104 108 200. es un intervalo exagerado que no da una idea de la verdadera concentración de los datos con respecto al valor central. Varianza: Se define como la media aritmética de los cuadrados de las desviaciones respecto a la media aritmética. xi x s n 2 2 f mi y s i n 2 (para datos no agrupados) 2 (para datos agrupados) Ejemplo: las ventas diarias en un almacén durante una semana cualquiera son las siguientes (en millones de bolívares). Lunes Martes Miércoles 600 800 880 La media aritmética es: x x i 5520 920 n 6 xi x La varianza será igual a: s n 220000 s2 36666,67 6 2 Jueves 2 Tabla 21 980 Viernes Sábado 1060 1200 xj 600 800 880 980 1060 1200 Total (xi – x)2 102400 14400 1600 3600 19600 78400 220000 xi - x -320 -120 -40 60 140 280 0 Ejemplo: utilicemos los datos de la tabla 18 para calcular la varianza en una variable continua. Tabla 18 yi-1 – yi 46,1 – 54 54,1 – 62 62,1 – 70 70,1 – 78 78,1 – 86 86,1 – 94 Total y fi 3 6 10 6 3 2 30 mi 50 58 66 74 82 90 --- mi f i 150 348 660 444 246 180 2028 yi - y -17,6 -9,6 -1,6 6,4 14,4 22,4 --- (yi – y).fi -52,8 -57,6 -16,0 38,4 43,2 44,8 0 (yi – y)2.fi 929,28 552,96 25,60 245,76 622,08 1003,52 3379,20 mi fi 2028 67,6 n 30 2 m i y fi 3379,20 s 112,64 n 30 2 Desviación típica o estándar: Se define como la raíz cuadrada positiva del promedio aritmético de los cuadrados de los desvíos de los valores con respecto a su media aritmética. Para datos no agrupados: 2 s xi x n Xi X N (Desviación típica o estándar muestral) 2 (Desviación típica o estándar poblacional) Para datos agrupados: s fi m i y n fi m i Y N 2 (Desviación típica o estándar muestral) 2 (Desviación típica o estándar poblacional) Con los datos de la tabla 22, la desviación típica será: s 112,64 10,61 Desviación Media: Es la media aritmética de las desviaciones respecto a la media, tomadas en valor absoluto. En este tipo de desviación se tiene en cuenta todos los valores de la variable; siendo menos afectada que la desviación típica, por los valores extremos. El valor de la desviación media siempre será menor que la desviación típica: Da < s Matemáticamente esta definida de la siguiente manera: Da Da xi x (para datos no agrupados) n fi m i y (para datos agrupados) n Ejemplo: los salarios, en miles de bolívares, de 10 empleados en un almacén son los siguientes: 420 680 690 a) varianza 690 720 720 b) desviación típica 730 740 740 760. Se pide calcular: c) desviación media d) rango Tabla 23 xi 420 680 690 690 720 720 730 740 740 760 6890 x x i 6890 689 n 10 xi x a) s n 2 c) Da xi x Ejemplo: n 2 ( xi – x)2 72361 81 1 1 961 961 1681 2601 2601 5041 86290 xi - x -269 -9 1 1 31 31 41 51 51 71 0 Me |xi – x| 269 9 1 1 31 31 41 51 51 71 556 720 720 720 2 86290 8629 10 b) s s 2 8629 92,89 556 55,6 10 d) Ra x máx x mín 760 420 340 utilizando los datos de la tabla 18, se pide obtener los valores de la varianza, desviación típica, recorrido, desviación media. Tabla 18 yi-1 – yi 46,1 – 54 54,1 – 62 62,1 – 70 70,1 – 78 78,1 – 86 86,1 – 94 Total fi 3 6 10 6 3 2 30 mi 50 58 66 74 82 90 --- mi f i 150 348 660 444 246 180 2028 mi - y -17,6 -9,6 -1,6 6,4 14,4 22,4 --- |mi – y| 17,6 9,6 1,6 6,4 14,4 22,4 --- |mi – y|.fi 52,8 57,6 16,0 38,4 43,2 44,8 252,8 mi fi 2028 67,6 n 30 a) De acuerdo con el ejercicio que se desarrollo en la explicación de la mediana, se y obtuvo: s2 = 112,64 b) El recorrido será: y s = 10,61 Ra 94 46 48 c) La desviación media: Da m i y fi n 252,8 8,43 30 BIBLIOGRAFÍA Rivas González, Ernesto. Estadística General. 2000. Universidad Central de Venezuela. Undécima edición. Biblioteca de Consulta Microsoft Encarta Corporation. 2004. 2004. Microsoft