Download Distribución de probabilidad y correlación
Document related concepts
no text concepts found
Transcript
Curso básico de física computacional Asociación EURATOM-CIEMAT Para Fusión B.Ph. van Milligen II. Análisis de Datos • En este apartado del curso trataremos métodos de análisis de señales experimentales provenientes de un experimento de fusión. • Considerar que las aplicaciones de estos métodos son muy generales y que son relevantes en muchas situaciones experimentales y de computación. • Los datos sujetos del análisis no sólo provienen de experimentos, sino también, en su caso, de modelos de ordenador (por ejemplo, de turbulencia) que producen grandes cantidades de datos que deben ser sometidos a tratamientos estadísticos que nos permiten comprenderlos. 1 Tipos de datos Asociación EURATOM-CIEMAT Para Fusión • Centrándonos en datos experimentales: ¿qué tipos de datos produce un experimento de fusión? • Datos espaciales • Cero-dimensional (punto) • Uni-dimensional (línea / cuerda) • Bi-dimensional (plano / superficie) • Etc. (en fusión, hasta la fecha no hay datos tri-dimensionales) • Datos temporales • Un canal • Múltiples canales (correspondiendo, por ejemplo, a varias posiciones) • Datos espacio-temporales • Combinaciones de los dos tipos de arriba 2 Datos espaciales: ejemplo Asociación EURATOM-CIEMAT Para Fusión • Ejemplo de una línea de datos (en un único instante temporal): Thomson Scattering. 3 Datos espacio-temporales: ejemplo Asociación EURATOM-CIEMAT Para Fusión • Ejemplo de múltiples canales de datos (en una serie de instantes temporales): Tomografía de Rayos X. Las líneas de visión cruzadas permiten reconstruir, con cierta aproximación, la emisión local de rayos X en el plasma en un plano (mediante un proceso numérico conocido como “inversión de Abel”): cada línea proporciona información sobre la integral de la emisión a lo largo de la línea. (Ver curso “Diagnósticos de plasmas”) 4 Asociación EURATOM-CIEMAT Para Fusión Datos temporales: ejemplos 0.015 0.01 0.005 Value • Sin embargo, el tipo de datos más común es la serie temporal: • Campo magnético en un punto (Mirnov coils) • Corriente en ciertas bobinas • Integral de la densidad (densidad de línea, interferometría) • Potencial flotante de una sonda de Langmuir • Etc. • Nos concentraremos en este tipo de datos, por ser el más común 0 -0.005 -0.01 -0.015 451 452 453 454 455 Time (ms) Flujo de partículas calculado a partir de señales medidas con una sonda de Langmuir 5 Datos temporales: análisis Asociación EURATOM-CIEMAT Para Fusión Value • A la derecha, una ampliación de la señal anterior. 0.015 • Hay una doble discretización (tiempo y 0.01 valor) Discretización del valor medido • Ambas tienen consecuencias para los 0.005 cálculos posteriores basados en estos 0 datos. -0.005 • El registro de señales contínuas es Discretización en el tiempo posible pero no se abordará aquí por ser -0.01 poco común; en todo caso para poder tratar -0.015 452 452.03 452.05 452.08 452.1 señales contínuas por medio de cálculos de Time (ms) ordenador se requiere su digitalización. • La discretización se puede tomar en cuenta considerando que las medidas tienen (al menos) un error Dt en tiempo y un error Dy en valor. Las consecuencias de estos “errores” se pueden estimar cuando la estadística es Gaussiana (normal), pero es muy difícil cuando la estadística no es Guassiana (por ej., fractal). 6 Asociación EURATOM-CIEMAT Para Fusión Análisis básico: distribución de probabilidad • La función de distribución se obtiene dividiendo el rango de valores [ymin,ymax] en un número N de intervalos y contando cuántos elementos hay en cada intervalo. Counts 700 600 500 400 300 200 100 0 1.5 10-2 1 10-2 Signal 5 10-3 0 100 -5 10-3 -1 10-2 -1.5 10-2 451 451.2 451.4 451.6 Time (ms) 451.8 452 Se pierde toda información sobre la correlación temporal. 7 Análisis básico: distribución de probabilidad Asociación EURATOM-CIEMAT Para Fusión • La función de distribución de probabilidad (PDF) es la función de distribución (de los valores) dividida entre el número total de valores. • Para una señal y(t), la probabilidad de que el valor y(t) esté entre y y y+dy está dado por: p(y) dy, donde p(y) es la función de probabilidad. • p(y) está normalizado tal que su integral es 1. • Ejemplo: y(t) = y0 sin (wt) p(y) = 1/[p√(y02 – y2)] • Muchos procesos físicos tienen un ingrediente “aleatorio”. Consideramos que un proceso es verdaderamente aleatorio cuando no hay correlación alguna entre un valor y(t) y el siguiente y(t+D) (se discutirá más adelante). El proceso “no tiene memoria”. Un ejemplo de un proceso así es el “random walk” (tomar un paso hacia adelante o hacia atrás según lo decide una moneda echada), o la moción Browniana. Para estos procesos, la distribución de probabilidad es una Gaussiana o “normal”: ( y y )2 1 p( y) exp 2 2 2p 8 Asociación EURATOM-CIEMAT Para Fusión Momentos de la función de distribución de probabilidad • Los momentos de la función de probabilidad contienen mucha información: • El momento n es: M n y p( y) dy E y n n • Es también el “expectation value” (valor más probable) de yn • Momento 1: el promedio y • Momento 2: define la desviación estándar mediante 2 E y E y E y2 E y 2 M 2 2 M0 • Momento 3: el “skewness” 3 3 S E y E y • Momento 4: la “kurtosis” 4 4 K E y E y 2 9 Momentos: utilidad Asociación EURATOM-CIEMAT Para Fusión • Los momentos permiten distinguir entre variables con una distribución Gaussiana (aleatorias) y otras. • Si la distribución p(y) es la función de Gauss, entonces: S = 0 y K = 3. Esto es un primer paso para la identificación de una señal como Gaussiana. • Sin embargo, ni la función de probabilidad misma ni todos sus momentos pueden por sí solos identificar una señal como Gaussiana; para ello, es necesario considerar correlaciones temporales. (Hay que establecer que están ausentes.) Esto se discutirá más adelante. • Por contra, si la función de probabilidad no es una función de Gauss (y sus momentos difieren significativamente del valor para una Gaussiana), entonces la señal no es Gaussiana. 10 Asociación EURATOM-CIEMAT Para Fusión Momentos estadísticos • A la derecha, un ejemplo muy claro. = = = = 0.1 6449 60 2.6 5564 66E- 02 0.3 2167 17 2.8 0530 7 10000 Gaussian fit 1000 Number • En la práctica, a menudo una señal es casi Gaussiana; y es difícil establecer su no-Gaussianidad porque la desviación de la curva de Gauss se produce en las colas de la distribución, donde la estadística es mala (pocos datos). Av erag e St anda rd d evia tion Sk ewne ss Ku rtos is 100 10 1 0.05 0.1 0.15 0.2 Amplitude 0.25 0.3 11 Asociación EURATOM-CIEMAT Para Fusión PDF bi-dimensional • Lo anterior es fácilmente generalizable a 2 (o más) dimensiones • Para señales x(t) e y(t), la probabilidad de que el valor x(t) está entre x y x+dx Y el valor y(t) está entre y y y+dy está dado por: p(x,y) dx dy, donde p(x,y) es la función de probabilidad bidimensional. • La probabilidad unidimensional sigue de la bidimensional: p(y) p(x,y)dx • (=la probabilidad de obtener un y, no importa cual sea el valor de x) • Si x e y son independientes, entonces p(x,y) = p(x)p(y) Esto proporciona un interesante método para determinar la independencia estadística de 2 variables. Se pospone la discusión para más adelante. 12 Probabilidad condicional Asociación EURATOM-CIEMAT Para Fusión • En el caso de tener 2 señales xe y, uno puede preguntarse cual es la probabilidad de obtener x cuando y tenga un valor dado (y = y0). Esta es la probabilidad condicional p(x|y0). • La probabilidad condicional p(x|y0) es igual a la probabilidad p(x,y0), normalizada por la probabilidad de obtener y0 (porque ponemos como condición que y= y0). p(x|y0) = p(x,y0)/p(y0) 13 Correlación temporal Asociación EURATOM-CIEMAT Para Fusión • Para establecer la naturaleza aleatoria si/no de una señal, no basta con la PDF y es necesario estudiar su correlación temporal. • Básicamente, existe correlación cuando se puede predecir de algún modo (mediante modelos) cuál va a ser el comportamiento futuro de una señal, conociendo su comportamiento pasado. • Este es un tema que nos ocupará durante gran parte del curso debido a su complejidad y a su importancia para entender la relación entre los modelos de sistemas físicos y medidas, especialmente cuando el sistema es complejo (no-lineal y/o caótico). • Si se puede predecir algo (aún si es con error o sólo en sentido estadístico) del comportamiento futuro de una señal, es indicativo que se ha avananzado en el entendimiento del sistema que se está estudiando. 14 Asociación EURATOM-CIEMAT Para Fusión Correlación lineal • La función de correlación lineal es la herramienta más sencilla para obtener información del comportamiento temporal. • Definición: Rxy ( ) x(t )y(t ) dt Cxy ( ) 1 x y x(t) x y(t ) y dt • Las aparecen para normalizar C tal que su valor está en el rango [-1,1]. • De esta correlación cruzada se obtiene la auto-correlación poniendo x = y. 15 Asociación EURATOM-CIEMAT Para Fusión Correlación cruzada • Estructura típica de Rxy() • Envolvente decae exponencialmente y da el Tiempo de correlación (cuando cae a 1/e) R() 1 0.5 • Máximo igual a x y x y 0 • Mínimo igual a x y x y -0.5 • Valor para : D -1 -1 -0.5 0 0.5 1 xy • Posición del máximo da la desfase D (=0 para la autocorrelación) • A menudo conviene “simetrizar” la autocorrelación restando el promedio de las señales x(t) e y(t) antes de analizarlas. 16 Asociación EURATOM-CIEMAT Para Fusión Autocorrelación lineal: ejemplo (seno) Autocorrelación del seno Seno puro 1.5 T T 1 1 0.5 0.5 C() y(t) 1.5 0 0 -0.5 -0.5 -1 -1 -1.5 -1.5 0 1 2 3 4 5 -1 5 1 2.5 0.5 C( ) y(t) t (misma amplitud) Seno + ruido blanco 0 -2.5 -0.5 0 Autocorrelación 0.5 1 Caída rápida del ruido 0 -0.5 -5 -1 0 1 2 3 t 4 5 -1 -0.5 0 0.5 1 Identificación perfecta del seno 17 Asociación EURATOM-CIEMAT Para Fusión Autocorrelación lineal 1.2 1 0.8 C() • Como pudimos observar en el ejemplo anterior, la correlación lineal sirve para detectar procesos periódicos en el tiempo, al eliminar todo lo que no sea periódico en la integral. • Contiene la misma información que el espectro (ver más delante), pero tiene mejor resolución para las frecuencias bajas. • Para señales no-periódicas, la correlación lineal sólo proporciona una información interesante: el tiempo de decorrelación (y el desfase en el caso de la correlación cruzada). 0.6 0.4 1/e corr 0.2 0 -0.08 -0.06 -0.04 -0.02 0 0.02 0.04 0.06 0.08 Típica señal de turbulencia 18