Download Estadística sanitaria: conceptos básicos
Document related concepts
no text concepts found
Transcript
Tema 12. Parámetros estadísticos: razón. Tasas. Índices que definen una distribución: medidas de centralización y dispersión en estadística sanitaria. Análisis de muestras y variables. Chi-cuadrado, F de Snedecor. Parámetros estadísticos: Razón: Valor obtenido al dividir una cantidad por otra (cociente). Proporción: Tipo de cociente en que el numerador se incluye en el denominador. Es el cociente entre una parte y el total, expresado como fracción decimal ó como porcentaje. Tasa: Medida de frecuencia de un fenómeno. Consta de numerador, denominador, tiempo en el que ocurren los hechos y un factor multiplicador que la convierte en un nº entero. La diferencia esencial entre una proporción y una tasa es que el numerador de una proporción se halla incluido en la población definida por el denominador, cosa que no ocurre necesariamente así en una razón. La cuantificación de la enfermedad y otros acontecimientos relacionados con la salud requiere una definición clara de los casos (numerador), la población de riesgo (denominador) y el intervalo de tiempo a los que se refieren los datos del numerador y del denominador. Estadística sanitaria: conceptos básicos: Definición: Ciencia que se ocupa de RECOGER, ORDENAR, REPRESENTAR, RESUMIR Y ANALIZAR el conjunto de “datos de una población”, procedente de la observación o de la experimentación, con vista a obtener determinadas conclusiones de ellos. El carácter esencial de los datos estadísticos es la variabilidad En medicina, la estadística es el instrumento que se utiliza para estimar con un error conocido el comportamiento general de una población frente un factor determinado, o el comportamiento de una enfermedad en una población determinada. Estadística descriptiva: RECOGER, ORDENAR, REPRESENTAR, RESUMIR. Estadística analitica (Estadística Inductiva, Inferencia Estadística): ANALIZAR, EXTRAER CONCLUSIONES. POBLACIÓN: Conjunto de datos/individuos que se desea estudiar. MUESTRA: Modelo reducido y representativo de la población. INDIVIDUO: Cada una de los componentes de la población y la muestra. Los datos que se desean estudiar en una muestra, pueden tomar en cada uno de los individuos diferentes valores, recibiendo el nombre de CARÁCTER O VARIABLE. Al realizar un estudio las características que se miden constituyen las variables y los valores que toman se denominan datos. Clásicamente se han dividido las variables en variables cualitativas y cuantitativas. Las variables cualitativas, denominadas también categóricas, nominales o atributivas, son aquellas cuyos valores no numéricos pertenecen a una categoría determinada, como por ejemplo el estado civil (casado, soltero, separado, etc). Cuando la variable sólo puede tomar dos valores opuestos y excluyentes se denominan variables cualitativas dicotómicas o binarias como es el caso del sexo (hombres/mujeres). Cuando la variable puede tomar valores crecientes o decrecientes, recibe el nombre de variable ordinal, como, por ejemplo el hábito tabáquico codificado como fumador, no fumador, exfumador, fumador severo. Las variables cuantitativas son aquellas que toman un valor numérico. Por ejemplo las cifras de colesterol, la edad, o el número de hijos. Dentro de este grupo cabe diferenciar entre variables cuantitativas discretas, cuyos valores son números finitos (número de hijos), y variables cuantitativas continuas, que pueden tomara valores intermedios, incluyendo números decimales (cifras de colesterol). En algunas ocasiones puede ser de interés la realización de una transformación de variable. Por ejemplo, la variable cuantitativa edad puede ser convertida en cualitativa construyendo grupos de individuos según el valor que tome, formando categorías (< 15 años, de 15 a 24 años, de 25 a 34 años, etc). Sin embargo hay que tener en cuenta que esta transformación es una perdida de información sobre la información obtenida. Siempre que se pueda es preferible utilizar variables cuantitativas. CUALITATIVAS (la variable no puede ser medida) VARIABLES DISCRETAS o DISCONTINUAS (no admiten valores Intermedios) CUANTITATIVAS (puede medirse) CONTINUAS (admite todas las dimensiones intermedias) Escalas de medición: - Nominal o de Categorías, para caracteres cualitativos. Presencia o ausencia de un atributo. En función de las alternativas o clasificaciones puede ser Dicotómica o Politómicas. En esta escala, la medición descriptiva obvia e intuitiva es la proporción o porcentaje de datos que presentan el atributo. - ORDINAL o de Rangos, cuando no podemos cuantificar los caracteres, pero si ordenarlos adecuadamente. No es necesario suponer distancias iguales entre categorías. No permiten manipulaciones estadísticas tal como los cómputos de promedios y exigen métodos especiales. - NUMÉRICA, no sólo es posible establecer orden dentro de las observaciones, sino que también es posible conocer las distancias o grado que los separa, esto nos permite apreciar el “cuanto”, diferenciándolo de la escala ordinal. Se pueden distinguir dos clases: discretas y continuas. La propiedad más importante de esta escala es que permite su manipulación estadística. Distribución de frecuencia. tabulación : La estadística descriptiva, mediante la organización, presentación y síntesis de los datos, intenta plasmar la información de una forma lógica. Es muy difícil poder apreciar el comportamiento de una variable a partir de un larga lista de valores. El primer paso es la tabulación y ordenación según categorías, señalando la frecuencia con que se observa cada una de ellas. A menudo es útil representarlas gráficamente para enfatizar las tendencias de su comportamiento. Es la forma más simple, en estadística, de ordenar y agrupar los datos. Nota.- 3 Nota.- 5 Nota.- 7 Nota.- 10 Totales Frec. Absoluta 2 4 3 1 10 Frec. Relativa 0,2 0,4 0,3 0,1 1,0 Porcent. 20% 40% 30% 10% 100% F. Absoluta Acumulada 2 6 9 10 10 F. Relativa Acumulada 0,2 0,6 0,9 1,0 1,0 % Acumulado 20% 60% 90% 100% 100% En la primera columna se detallan las diferentes modalidades del carácter o datos a medir, denominándose clases. La Frecuencia Absoluta es el número de veces que se repite cada una de los datos. La Frecuencia Relativa de un dato, es el cociente entre la frecuencia absoluta. del dato y el número total de datos. Las Frecuencias Relativas nos permiten comparar dos o más tablas de datos del mismo carácter, basándonos en tamaños muéstrales distintos. El Porcentaje es la frecuencia relativa multiplicado por 100. Lo anterior es válido para variables cualitativas y cuantitativas discretas. Para construir una Distribución de Frecuencia con caracteres cuantitativos continuos, hay que transformarlos en otros discretos mediante una operación llamada “SemiCuantificación”: 1. Se determinará la amplitud de la distribución: es decir el intervalo dentro del cual varían los datos de la muestra. Para ello se resta la puntuación máxima de la mínima. Amplitud de la distribución = Puntuación máxima – Puntuación mínima. 2. Se fija el número de “intervalos de clases” (las llamadas clases en las otras variables)que se van a utilizar. El número dependerá del tamaño de la muestra. Algunos autores recomiendan que no supere el valor de la raíz cuadrada de n (siendo n igual al número total de la muestra). 3º. Calcular la amplitud de los intervalos que se van utilizar. Esta amplitud se representa por i y será igual: i = Amplitud de la distribución / número de intervalos. 4º. Determinar el límite inferior del primer intervalo, es decir la puntuación más pequeña a partir de la cual empezamos a contar, sin que exista una regla fija. Para ciertos fines, es conveniente tomar un único valor como representante de cada clase, denominándose “marcas de clase”, que se define como: (limite superior + límite inferior)/2 Criterios para la construcción de una Distribución de Frecuencia: Las tablas deben llevar un enunciado que las explique totalmente, sin tener que recurrir al texto. En cada tabla se deben indicar el total de cada una de las columnas correspondientes a las frecuencias. Todos los datos de cada columna deben expresarse con el mismo número de decimales. Las tablas deben indicar claramente las unidades de medida. Las clases no deben solaparse, ni producir huecos entre ellas. Para facilitar los cálculos y representaciones gráficas posteriores, es conveniente que todos los intervalos de clase tengan la misma longitud (excepción hecha de los intervalos extremos). El número de clases o intervalos de clase a tomar, suele ser norma general el que está comprendido entre 5 y 20. El número de clases y por consiguiente la longitud de ellas, está en relación con el tamaño de la muestra, aumentando con ella. Representación de los datos: Lo mismo que representamos al conjunto de datos de un modo ordenado para su mejor comprensión mediante la Distribución de Frecuencias o Tabulación, podemos exponer la información estadística de forma aún más fácil de comprender y retener mediante las Representaciones Gráficas. El principio general que inspira cualquier representación gráfica, es que las figuras construidas para cada clase deben tener áreas proporcionales a sus frecuencias. Histogramas Las distribuciones de frecuencias se pueden ilustrar por medio de HISTOGRAMAS. Los valores del carácter se representan sobre el eje de abscisas (horizontal) y en el eje de ordenadas (vertical) se representa la frecuencia de cada clase, valor o intervalo de cada clase. Si el carácter es continuo, se levanta sobre cada intervalo de clase un rectángulo cuya altura sea igual a su frecuencia. Si el carácter es discreto, se levanta sobre cada valor un segmento cuya altura sea igual a cada frecuencia. (diagrama de barras). Si el carácter es cualitativo, se levantan rectángulos o barras de altura igual a la frecuencia de cada clase; las bases de tales rectángulos deberán ser todas iguales (Diagrama de Rectángulos) Polígono de frecuencias Está limitado a los casos de carácter cuantitativo. Para cada clase de distribución, se localiza un punto cuya abscisa corresponda al valor del carácter (caso cuantitativo discreto) o a la marca de clase (caso cuantitativo continuo) y cuya ordenada (altura) es la frecuencia absoluta o relativa, o es proporcional a ella. La serie de puntos obtenidos se conectan por segmentos de rectas. Representan una ventaja sustancial sobre el histograma en los casos en que se desee representar mas de una distribución de frecuencias sobre un mismo gráfico; en tal caso los Polígonos de Frecuencias deberían ser de frecuencias relativas, a efectos de comparación, y dibujarse con trazos perfectamente distinguibles con objeto de evitar confusiones. Diagrama de sectores Se emplea en la representación de porcentajes o de variables cualitativas. Se utiliza un circulo que representa el 100% y el porcentaje o frecuencia de cada clase se representa mediante un sector cuyo ángulo es proporcional al porcentaje o magnitud de la clase. Pictogramas Se utilizan para variables cualitativas. En este caso, se representa las frecuencias de la tabla, mediante dibujos alusivos al carácter que se estudia. Hay dos posibilidades de representación: la repetición de la figura base, o bien la ampliación proporcional de ella. Gráfico lineal Consiste en una línea quebrada que representa la evolución en el tiempo de una variable. Los periodos de tiempo se colocan en el eje de abscisas y la variable en el eje de ordenadas. Primeramente se representan una serie de puntos que se obtienen por intersección de cada valor de la ordenada en cada fracción de tiempo de abscisa. A continuación se unen los puntos con una línea quebrada, que es la que define las características de la variable en el tiempo. Este gráfico puede mostrar las variaciones en el tiempo de diferentes grupos de datos. Gráfico de correlación Se utiliza para representar la existencia o no de correlación significativa entre dos variables estudiadas en el mismo individuo. Una variable se representa en el eje de ordenadas y otro en el de abscisas. Cada individuo se representa por un punto localizado en la intersección de las dos coordenadas. Criterios para las representaciones gráficas: Un gráfico debe contribuir a clarificar el material presentado. No deben ser engañosos. Los gráficos son, probablemente, la forma de presentación de los datos que más se presta a manipulaciones, por ejemplo exagerando ciertas escalas u obviando el cero en las mismas, con la intención de conseguir un efecto visual que distorsiona su interpretación. Los gráficos han de explicarse por sí solos, no teniendo que acudir al texto para comprender dicha representación; de ahí que sea fundamental ponerle un título totalmente explicativo. Deben de estar indicadas claramente las escalas y las unidades de medidas. Variable Cualitativa Concepto Tabulación No puede ser medida. Sus valores se presentan como modalidades o atributos Frecuencias Porcentaje - Cuantitativa Discreta Cuantitativa Continua Sus valores se presentan como cualidades que pueden ser contados y entre dos valores consecutivos de la variable no existen valores intermedios Sus valores se presentan como modalidades que pueden ser medidos y entre dos valores consecutivos de la variable existen infinitos valores intermedios - Frecuencias Porcentaje Frec. Acumulada Porcent. Acumul. Frecuencias Porcentaje Frec. Acumulada Porcent. Acumul. - Representación Gráfica Diagrama de rectángulos / barras Diag de sectores Pictogramas - Diagrama de barras Polígono de Frec. - Histograma Polígono de Frec. MEDIDAS DE CENTRALIZACIÓN Y DISPERSIÓN Una distribución de frecuencias es una buena forma de expresar el patrón de distribución seguido por los valores obtenidos de una observación o experimento. Pero para poder obtener conclusiones estadísticas a partir de estos datos, es decir, conclusiones aplicables a la población, es necesario una información mas completa: describir la tendencia central de los valores obtenidos y su variación. Además permiten sintetizar la información recogida y facilita el trabajo con pocas medidas que contienen mucha información. Ello se consigue, respectivamente, con las medidas de centralización y de dispersión. Estas dos medidas son, juntamente con el tamaño de la muestra, los tres parámetros básicos para la aplicación del método estadístico en cualquier estudio. CENTRALIZACIÓN: Tratan de elegir los valores más representativos de la serie estudiada en torno a los valores más probables o más frecuentes. Moda. Es el valor de la variable que se presenta con más frecuencia. Una distribución puede tener más de una moda, llamándose según este criterio, unimodal, bimodal o multimodales. Mediana. En una serie ordenada de menor a mayor, es el término que ocupa el valor central. Deja a la mitad por encima y a la otra mitad por debajo. Cuando el número de la serie es par, se realiza la media aritmética de los dos centrales. Percentiles. Valor de la variable por debajo del cual se encuentra un porcentaje determinado de las observaciones. Cuartiles. Valor de la variable que deja por debajo de sí el 25%, 50% y el 75%del total de las observaciones. Media aritmética. Se obtiene dividiendo la suma de los elementos de una serie o de una distribución de frecuencias por el número de los mismos. Es la más frecuente, la más estable y la más manipulable. Media aritmética ponderada.- A cada valor xi del carácter se le asigna un peso wi m x n distinto, según la importancia dada bajo un criterio. En tal caso, los pesos juegan el papel de las frecuencias en la media aritmética. mp w x i i wi Media geométrica.- Es la raíz enésima del producto de los n factores de una serie. * En las distribuciones que presenta un cierto grado de inclinación, la mediana constituye una medición descriptiva mejor que la media. * En caso de duda se emplea la media aritmética. DISPERSIÓN: Rango, recorrido o amplitud. Es la medida más sencilla y se de define como la diferencia entre el valor máximo y el valor mínimo de la muestra. Desviación media.- La Media Aritmética de los valores absolutos, de las diferencias de cada término de una serie y su media aritmética. Dm ( x m) n Varianza. La media Aritmética de los cuadrados de las diferencias entre la media de una distribución y cada una de los términos de la misma. ( x m) 2 n Desviación típica o estándar.- Es la raíz cuadrada de la varianza. ( x m) 2 n Coeficientes de dispersión: Coeficiente de varianza.- Es la relación de la desviación típica a la media aritmética, expresada en tanto por ciento. C.V . m 100 Coeficiente de sesgo (Pearson). C.S media mod a * Distribuciones con: - suficiente concentración: Desviación Típica no exceda de 1/3 de la Media. - dispersiones grandes: Desviación Típica entre 1/3 y la ½. - dispersiones execivas: Desviación Típca superiores a la ½ de Media. DISTRIBUCIÓN NORMAL: Las distribuciones de frecuencias reflejan como se reparten los individuos de una muestra según los valores de una variable. Cuando se trata de poblaciones, el comportamiento teórico de una variable puede conocerse mediante la distribución de probabilidades, análogas a las de frecuencias. Las variables cuantitativas pueden seguir diferentes tipos de distribuciones teóricas de probabilidad. Cuando la variable es continua, referirse a la probabilidad de que un individuo tenga un valor concreto no tiene ningún sentido, por que generalmente esa probabilidad es cercana a cero. Será más útil conocer la probabilidad de que un individuo se sitúe entre dos valores concretos. La mayoría de variables biológicas, siguen una distribución de probabilidades denominada normal o gaussiana. El termino normal no coincide con el termino normalidad empleado en medicina, sino que hace referencia a ciertas características que la definen: a. Es una distribución teórica de probabilidad continua definida por una función de probabilidad. b. El área comprendida bajo la curva de la distribución es igual a la unidad. c. Se caracteriza por dos medidas: la media y la desviación estándar. d. Es unimodal, simétrica alrededor de una media y acampanada. La importancia de este tipo de distribuciones en medicina radica, no sólo en que la mayoría de las mediciones clínicas la siguen, sino además es la base para la inferencia estadística. La inferencia estadística es el proceso que permite obtener conclusiones referidas a poblaciones a partir de resultados observados en muestras. Una primera aplicación es la estimación de parámetros poblacionales. Ejemplo, supoganmos que se desea estimar la media de edad de los diabéticos de un centro de salud, basandose en la muestra de 100 individuos, que presentan una media de edad de 57 años y una desviación estándar de 5 años. A partir del listado de pacientes diabéticos del centro, pueden obtenerse infinitas muestras de 100 individuos, cada una de las cuales presentaría una media de edad diferente sólo por el azar. Estas muestras siguen una distribución normal. Esta propiedad se cumple siempre que la variable de interés se distribuya en la población como una distribución normal, y también en muestras grandes, mayores de 30 individuos, aunque la variable no se distribuya según una normal en la población. La media de esta distribución (la media de las medias) es la media poblacional, y su desviación estándar, es conocida como error estándar de la media. Esto indica que cuanto mayor es el número de sujetos estudiados, menor es el error estándar de la media, la media observada en la muestra es la mejor estimación de la media poblacional. La muestra. Tipo de muestreo y tamaño. Tipo de muestra: La muestra debe ser representativa de la población objetivo del estudio. Existen diferentes métodos de muestreo. Cabe destacar: El muestreo aleatorio simple: Implica obtener una muestra aleatoria de la población objetivo. El muestreo estratificado: La población se divide por estratos, como por ejemplo los grupos de edad o las provincias, y en cada uno de ellos se escoge una muestra. Este tipo de muestreo se utiliza cuando se quiere sobrerrepresentar alguno de los estratos. Así por ejemplo, si se quiere estudiar más específicamente la población que vive en un municipio pequeño, esta área geográfica deberá sobrerrepresentarse. El muestreo por conglomerados: Se divide la población en conglomerados, como por ejemplo, los municipios y se extrae una muestra de estos conglomerados (ejemplo: 50 de 300 municipios). Posteriormente se realiza un muestreo dentro de los conglomerados seleccionados. Es necesario disponer de alguna fuente de información fidedigna que permita obtener los individuos a entrevistar y que será la base de muestreo. Habitualmente se suele utilizar el censo, algún registro poblacional, registros electorales, directorios de teléfonos, etc. b) Unidad de análisis: Es necesario definir cual va a ser la unidad de análisis a utilizar. Los dos métodos más utilizados son el individuo o el hogar (unidad familiar), en éste último caso se trata de entrevistar a todos los componentes de la unidad familiar. c) Tamaño de la muestra: Es necesario calcular el tamaño de la muestra a entrevistar. Dependerá fundamentalmente del tamaño de la zona en que se quieren inferir los resultados obtenidos. Se puede afirmar, que cuanto más pequeña sea la zona en donde se quieran inferir los resultados mayor deberá ser el tamaño de la muestra. Así por ejemplo, es distinto si se quieren dar resultados para el conjunto de Catalunya, que para cada una de las regiones. Inferencia estadística. En primer lugar hacemos inferencia a partir de unas observaciones obtenidas a partir de la población a las que vamos a extraer unas propiedades que se denominan estadísticos muestrales. Además vamos a conocer la distribución de dichos estadísticos (generalmente distribución normal) por lo que hacemos inferencia paramétrica. La inferencia paramétrica puede recogerse en una vertiente o en otra según el parámetro a estimar; tenemos por un lado la estadística clásica (que es en la que nos vamos a centrar) y por otro lado la estadística bayesiana. La estadística paramétrica clásica plantea tres tipos de problemas: Estimación puntual en la que pretendemos dar un valor al parámetro a estimar. Estimación por intervalos (buscamos un intervalo de confianza) Contrastes de hipótesis donde buscamos contrastar información acerca del parámetro. Tenemos un experimento, lo repetimos varias veces y obtenemos una muestra con variables aleatorias independientes idénticamente distribuidas con función de distribución conocida. (Por ejemplo tenemos las alturas de 30 varones españoles y estimo que la altura media de los españoles es 1,77 estamos ante una estimación puntual). Pues cualquier función de la muestra que no dependa del parámetro a estimar es un estadístico y aquel estadístico que se utiliza para inferir sobre el parámetro desconocido es un estimador. Ejemplos de estadísticos son el total muestral, la media muestral, la varianza muestral, la cuasivarianza muestral, los estadísticos de orden,.. Conocemos los conceptos básicos para comenzar a trabajar, también sabemos que las observaciones del experimento generalmente tienen distribución normal (esto es inferencia paramétrica). Ahora bien, necesitamos determinar unas distribuciones en el muestreo que estén asociadas con la distribución normal. Estas distribuciones son la chicuadrado, la t de Student y la F de Snedecor. La chi-cuadrado es una suma de normales al cuadrado" más o menos se podía definir así ya que si calculamos la distribución de una variable normal al cuadrado no podemos aplicar cambio de variable y a partir de su función de distribución llegamos a una función de densidad de una gamma con parámetros 1/2 y 1/2 que es una chi-cuadrado con 1 grado de libertad. La gamma es reproductiva respecto al primer parámetro por lo que sumas de normales (0,1) nos proporcionan gammas de parámetros n/2 y 1/2 o lo que es lo mismo chi-cuadrado con n grados de libertad. La F de Snedecor se crea a partir de dos chi-cuadrado independientes dividivas por sus respectivos grados de libertad, así la F de Snedecor tiene dos parámetros que indican sus grados de libertad: X se distribuye como chi-cuadrado con m grados de libertad ==> F=(X/m)/(Y/m) es F de snedecor con m,n grados de libertad Y se distribuye como chi-cuadrado con n grados de libertad BIBLIOGRAFÍA Colton, Theodore.: Estadística en Medicina. Salvat Editores, S.A. Domenech Massons, Jóse.: M. Métodos Estadísticos en Ciencias de la Salud. Estadística Descriptiva. Ed. Gráficas Signo S.A.. Barcelona,1989. Carrasco de la Peña, J.L.:El método estadístico en la investigación médica. Ed. Ciencia 3, S.A. 1986. Spiegel, M.R..: Estadística. Ed. Mc Graw-Hill. Madrid, 1985.