Download Caches unificadas vs. Caches separadas
Document related concepts
no text concepts found
Transcript
Profesores y Horarios de Tutorías Temas 3 y 4 Teoría: Daniel Cascado Caballero (danic@atc.us.es) Despacho: F070 Lourdes Miró Amarante (lmiro@atc.us.es) Despacho: F061 Horario de tutorías: Martes: 11:00h a 13:00h; 17:30 a 19:30 Miércoles: 10:30h a 12:30h 1 Bibliografía Básica Temas 3 y 4 Estructura y Diseño de Computadores, J. L. Hennessy y D. A. Patterson. Ed. Reverte, 2000. Organización y arquitectura de computadores, W. Stalling. Prentice-Hall, 2000. 2 1 Estructura Básica de un Computador Máquina Von Neumann CPU Interconexiones Memoria E/S Periféricos 3 Ampliación Máquina Von Neumann Programa principal I1 I2 TEMA 4 TEMA 3 CPU palabras . . Memoria principal Interrupción Ii Ii+1 (Mc) páginas bloques . . In Rutina de servicio i1 i2 . . im Sistema de interrupciones (Mp) Memoria cache Memoria principal Memoria secundaria (Mp) (Ms) Sistema de memoria cache Sistema de memoria virtual 4 2 Tema 3: GESTIÓN DE MEMORIA ÍNDICE Jerarquía de memoria Memorias caché 1. 2. Introducción Organización física Organización lógica Optimización 1. 2. 3. 4. 3. Memoria virtual 5 Jerarquía de memoria Introducción Necesidad de grandes cantidades de memoria rápida con tiempos de acceso y transferencia pequeños. Diferentes tipos de memorias según los criterios de tamaño, velocidad y coste (tecnología). Idealmente sería deseable una capacidad indefinidamente grande de memoria tal que cualquier particular…palabra estuviese inmediatamente disponible… Estamos… forzados a reconocer la posibilidad de construir una jerarquía de memorias, memorias cada una de las cuales tenga mayor capacidad que la precedente pero que sea menos rápidamente accesible. A.W. Burks, H.H. Goldstine y J. Von Neumann, Discusión preliminar del diseño lógico de un instrumento de cálculo electrónico (1946) 1. Jerarquía de memoria 6 3 Definición Una jerarquía de memoria está organizada en varios niveles, cada uno más pequeño, más rápido y más caro por byte que el siguiente. Coste/bit (+) Capacidad (-) Velocidad (+) Frecuencia de accesos (+) Registros procesador Caché Memoria principal Caché de disco Disco magnético CD-DVD 1. Jerarquía de memoria 7 Propiedades Inclusión: Cualquier información almacenada en un nivel de memoria, debe encontrarse también en los niveles inferiores. nivel i+1 nivel i Coherencia: Las copias de la misma información existentes en los distintos niveles deben ser consistentes. Localidad de referencia: Los programas favorecen una parte de su espacio de direcciones en cualquier instante de tiempo. Localidad temporal: Si se referencia un elemento, éste tenderá a ser referenciado pronto (p.e. bucles) Localidad espacial: Si se referencia un elemento, los elementos cercanos a él tenderán a ser referenciado pronto (p.e. tablas). 1. Jerarquía de memoria 8 4 Funcionamiento El procesador sólo accede al nivel más alto (más rápido y de menor tamaño). Si el procesador pide un dato y éste se encuentra en el nivel superior (acierto). Si el dato no se encuentra en este nivel (fallo) se trae del nivel inferior al superior. Nivel superior Bloques Las transferencias de datos entre niveles se hace con bloques de varios bytes. Nivel inferior 1. Jerarquía de memoria 9 Conceptos básicos Nivel (level). Bloque (block): mínima unidad de información que puede estar presente o no en la jerarquía de dos niveles (tamaño fijo o variable). Acierto/Fallo (hit/miss). Frecuencia de aciertos/fallos (hit rate, Hr /miss rate, Mr ). Tiempo de acierto (hit time). Penalización por fallo (miss penalty). Tiempo de acceso (access time): tiempo para acceder a la primera palabra de un bloque en un fallo. Tiempo de transferencia (transfer time): tiempo adicional para transferir las restantes palabras del bloque. 1. Jerarquía de memoria 10 5 Evaluación del rendimiento Tiempo medio de acceso a memoria Tiempo de acceso medio a memoria = Tiempo de acierto + + Frecuencia de fallos*Penalización por fallo Por el principio de localidad, Mr suele ser <= 10% El Mr se obtiene mediante TRAZAS de accesos a memoria. Habrá un Mr por cada nivel de la jerarquía. Influencia de parámetros El tamaño de bloque influye sobre: Penalización por fallo Tiempo de acceso medio a memoria Frecuencia de fallos 1. Jerarquía de memoria 11 Evaluación del rendimiento Relación entre parámetros Tiempo medio de acceso Tamaño del bloque Penalización por fallo Tiempo de transferencia Frecuencia por fallo Tiempo de acceso Tamaño del bloque 1. Jerarquía de memoria Tamaño del bloque 12 6 Memoria caché Introducción CPU palabras Representa el nivel de jerarquía de memoria entre la CPU y la memoria principal. Memoria Memoria caché caché Controlador Controlador de decaché caché bloques Se le pueden aplicar todos los conceptos vistos para la jerarquía de memoria (propiedades, funcionamiento, conceptos básicos, rendimiento). Memoria principal (Mp) 2. Memoria cache 13 Estructura Memoria Caché/Memoria Principal Mp (memoria principal): formada por 2n palabras direccionables. “dividida” en nB bloques de tamaño fijo 2K (palabras por bloque). Campos de una dirección física: Dirección de memoria Mp 1 DF: B P Mc 0 Bloque 0 (n-k bits) (k bits) Bloque Palabra . n Bloque 1 . dirección Mc (memoria cache): Línea 0 2 formada por nL líneas de (nL << nB). 2K . palabras . Línea de caché (contenido): Información de bloque Datos adicionales Bit de línea válida. Info. identificación de bloque Otros... 2. Memoria cache . Línea nL -1 . Bloque 2n/2k -1= nB -1 2n -1 14 7 Funcionamiento 2. Memoria cache 15 Arquitecturas Organización física Según su ubicación dentro o fuera del chip procesador: internas o externas. Según su ubicación con respecto al resto de dispositivos (configuración). Organización lógica Según el tipo de información que contienen: unificadas o separadas. Según su estructura interna y funcionamiento: ubicación, identificación, sustitución y escritura 2. Memoria cache 16 8 Organización física Según su ubicación Caches externas: No se encuentran en el interior del chip del procesador (cache-off-chip). Caches internas: Se encuentran en el propio chip del procesador (cache-on-chip). Según la configuración Configuración en serie (Look-Trough Architecutre). Configuración en paralelo (Look-Aside Architecture). 2. Memoria cache. cache Organización Física 17 Configuración en serie CPU Bus Cache DMA I/O Memoria Bus Tc Tmp t Ventajas: Si el dato se encuentra en la caché no hay acceso a memoria y no se ocupa el bus. Inconvenientes: La caché debe tener 2 interfaces de buses diferentes y el tiempo de acceso, en caso de fallo, es mayor (igual al tiempo de acceso a caché más el tiempo de acceso a memoria principal). Tacc = Hr*Tcache +(1-Hr)*(Tcache+Tmemp) 2. Memoria cache. Organización Física según la CONFIGURACIÓN 18 9 Configuración en paralelo Cache DMA I/O Memoria Bus CPU Tc Tmp t Ventajas: Sólo hay una interfaz con el bus y el tiempo de fallo es menor (igual al tiempo de acceso a memoria principal). Inconvenientes: El bus se ocupa en cualquier acceso a memoria, evitando que otros dispositivos puedan acceder a él. Tacc=Tcache*Hr + (1-Hr)*Tmemp 2. Memoria cache. Organización Física según la CONFIGURACIÓN 19 Organización lógica Según el tipo de información que contienen: unificadas o separadas. Separadas: Tacc= %instrucciones * Tacc_inst + %datos*Tacc_datos Según su estructura interna y funcionamiento (Políticas): Ubicación (función de correspondencia). Localización. Sustitución. Escritura. 2. Memoria cache. Organización Lógica 20 10 Caches unificadas vs. Caches separadas Caches unificadas o mixtas (unified or mixed): Contienen tanto datos como instrucciones Caches separadas (separated): Existe una caché para datos y otra para instrucciones Ventajas No hay competencia entre acceso a datos y acceso a instrucciones. Duplicación del ancho de bus (puertos separados) Parámetros de diseño (capacidad, tamaños de bloque, asociatividad, etc.) diferentes para instrucciones y datos (optimización) Inconvenientes En general la tasa de fallos global es algo mayor (próxima transparencia): la caches de instrucciones tienen menor frecuencia de fallos que las de datos (localidad) la separación de instrucciones y datos elimina fallos debidos a conflictos pero al dividir también se fija el espacio de caché dedicado a cada tipo No se equilibra la carga de trabajo de forma automática 2. Memoria cache. Organización Lógica. Cache unificada vs cache separada. 21 Ejemplo caches separadas: Pentium II Depósito de instrucciones. Buffer de reordenación. Unidad de lectura y decodificación de instrucciones. Caché de instrucciones L1. (8-16K) Unidad de retirada Unidad de ejecución y envío Caché de datos L1. (8-16K) Cada caché tiene asociada al menos una unidad de control que controla las peticiones de datos. Interfaz con el bus Bus del sistema Caché L2. (256-1M) 2. Memoria cache. Organización Lógica. Cache unificada vs cache separada. 22 11 Comparativa (I) Comparativa de frecuencias de fallos (VAX, 16 bytes/bloque, LRU, 2 vías) Ejemplo: Frecuencia de fallos (53% de referencias son instrucciones) En caché unificada de 32KB: 4.3% En caches separadas de 16KB: 53%*3.6%+47%*5.3%=4.4% 2. Memoria cache. Organización Lógica. Cache unificada vs cache separada. 23 Comparativa (II) Ejemplo: (75% de accesos a instrucción) a) b) Caches separadas de 16KB. Penalización: 50 ciclos, Tiempo de acierto para instrucción: 1 ciclo, para datos: 2 ciclos (un solo puerto) Cache unificada de 32KB. Penalización: 50 ciclos, Tiempo de acierto: 1 ciclo Solución: a) Tacceso medio =75%*(1+3.6%*50)+25%*(2+5.3*50)= 3.26 ciclos b) Tacceso medio=1+4.3%*50 = 3.0 ciclos=3.15 ciclos 2. Memoria cache. Organización Lógica. Cache unificada vs cache separada. 24 12 Políticas de Ubicación y Localización. Ubicación: Dado un bloque de Mp, con una dirección Db, que se quiere subir a caché, ¿En qué línea hay que ubicarlo? Función de correspondencia: Línea = f(Db) Localización: ¿En qué líneas de caché tengo que buscar para saber si un bloque de Mp con dirección Db está en ella? Se utiliza la función de correspondencia. 2. Memoria cache. Organización Lógica. Políticas de UBICACIÓN y LOCALIZACIÓN 25 Ubicación de un bloque. ¿Qué hay que hacer cuando se quiere subir un bloque a caché? Se averiguan las líneas en las que es posible ubicar mediante la función de correspondencia. Se selecciona una mediante la política de reemplazo (se verá más adelante). Si la línea está vacía, el bloque se guarda en ésta. Si no,se produce un conflicto, y habrá que bajar el antiguo bloque a memoria principal y subir el nuevo a la línea seleccionada. 2. Memoria cache. Organización Lógica. UBICACIÓN 26 13 Identificación de un bloque Una vez que se sabe en qué líneas buscar un bloque con dirección Db ¿Cómo se sabe si está realmente en caché? Se mira el bit de válido de la línea para saber si es válida. Se descompone la dirección Db al menos, en estos campos: Etiqueta (tag): Desplazamiento de bloque (block offset): selecciona el dato deseado dentro del bloque. Se extrae el campo etiqueta y se compara con el campo etiqueta de la línea. Si la línea es válida y las etiquetas son iguales, el bloque está en caché. 2. Memoria cache. Organización Lógica. IDENTIFICACIÓN 27 Políticas de Ubicación y Localización. Mp Mc . . . B0 B1 B2 B3 B4 B5 B6 B7 Mc B0 B1 B2 B3 B4 B5 B6 B7 DIRECTA ASOCIATIVA Mc C0 C1 C2 C3 ASOCIATIVA POR CONJUNTOS 2. Memoria cache. Organización Lógica. Políticas de UBICACIÓN y LOCALIZACIÓN 28 14 Ejemplo de Ubicación de bloque Memoria: 32 bloques Caches: 8 bloques Tres tipos: - Asociativas - Directa - Asociativa por conjuntos de 2 vías 2. Memoria cache. Organización Lógica. Política UBICACIÓN 29 Ejemplo de localización e identificación de un bloque Memoria: 32 bloques Caches: 8 bloques Tres tipos: - Completamente asociativas - De correspondencia directa - Asociativa por conjuntos de 2 vías 2. Memoria cache. Organización Lógica. LOCALIZACIÓN 30 15 Cache de Mapeado Directo Líneas MC Memoria Principal (Mp): 16MB direccionables por bytes (dirección de 24bits). Memoria Cache (Mc): 64KB. Tamaño de bloque 16 Bytes: Nº Bloques en MP: nB = 1M (20 bits) Nº Líneas en MC: nM = 4K (12 bits) M = B mod nM Interpretación de DF en correspondencia DIRECTA: 4 20 B P ETQ M P 8 12 4 2. Memoria cache. Organización Lógica. Política UBICACIÓN 31 Cache de Mapeado Directo •Ventajas: •Baja complejidad hardware Dirección solicitada (de CPU) 6 5 4 3 2 1 0 1 1 1 1 0 1 1 ETI INDICE W B •Rapidez en la identificación •Inconvenientes: V Datos •Alta tasa de fallos si varios bloques compiten por la misma línea. DECODER COMPARADOR Etiqueta Memoria principal 1 1 Encontrado (si) Bloque 0 ACADA...B3 Bloque 1 (y sigue) Y Dato solicitado (AF) Dato A1 A2 A3 A4 A5 A6 A7 A8 A9 AA AB ...... Selector Acierto (si) Dirección 0000000 0000001 0000010 0000011 0000100 0000101 0000110 0000111 0001000 0001001 0001010 Bloque 15 1111000 1111001 1111010 1111011 1111100 1111101 1111110 1111111 2. Memoria cache. Organización Lógica. IDENTIFICACIÓN AC AD AE AF B0 B1 B2 B3 32 16 Cache Totalmente Asociativa Líneas Mc Memoria Principal (Mp): 16MB direccionables por bytes (dirección de 24bits). Memoria Cache (Mc): Cada bloque B 64KB. puede ubicarse en Tamaño de bloque 16 Bytes: cualquier línea M. Nº Bloques en MP: nB = 1M (20 bits) Nº Líneas en MC: nM = 4K (12 bits) Interpretación de DF en correspondencia TOTALMENTE ASOCIATIVA: 20 4 B P ETIQUETA P 20 4 2. Memoria cache. Organización Lógica. Política UBICACIÓN 33 Cache Totalmente Asociativa •Ventajas: •Baja tasa de fallos Dirección solicitada (de CPU) 6 5 4 3 2 1 0 1 1 1 1 0 1 1 ETI W B •Inconvenientes: •Alta complejidad hardware. COMPARADOR Etiqueta V Datos •Lentitud en la identificación. Memoria principal 1111 1 ACADA...B3 Bloque 0 Bloque 1 (y sigue) Encontrado (si) Y Dirección 0000000 0000001 0000010 0000011 0000100 0000101 0000110 0000111 0001000 0001001 0001010 Dato A1 A2 A3 A4 A5 A6 A7 A8 A9 AA AB ...... Selector Acierto (si) Dato solicitado (AF) 2. Memoria cache. Organización Lógica. IDENTIFICACIÓN Bloque 15 1111000 1111001 1111010 1111011 1111100 1111101 1111110 1111111 AC AD AE AF B0 B1 B2 B3 34 17 Cache Asociativa por Conjuntos Línea Memoria Principal (Mp): 16MB direccionables por bytes (24bits). Memoria Cache (Mc): 64KB. Tamaño de bloque 16 Bytes: Nº Bloques en MP: nB = 1M (20 bits) Nº Líneas en MC: nM = 4K (12 bits) 4 vías: C = B mod nC Nº de Líneas por Conjunto: 4 Nº de Conjuntos en Mc: nC = 1K (10 bits) Interpretación de DF en correspondencia ASOCIATIVA POR CONJUNTOS: 20 4 B P ETQ C P 10 10 4 2. Memoria cache. Organización Lógica. Política UBICACIÓN 35 Cache Asociativa por Conjuntos DECODER Dirección solicitada (de CPU) 6 5 4 3 2 1 0 1 1 1 1 0 1 1 ETI CJTO W B Memoria principal Eti V VIA 0 Datos Eti V Bloque 0 VIA 1 Datos Bloque 1 (y sigue) 11 1 ACADA...B3 = Dirección 0000000 0000001 0000010 0000011 0000100 0000101 0000110 0000111 0001000 0001001 0001010 Dato A1 A2 A3 A4 A5 A6 A7 A8 A9 AA AB ...... = Y Y Acierto vía 1(no) Acierto vía 0 (si) Selector Bloque 15 1111000 1111001 1111010 1111011 1111100 1111101 1111110 1111111 AC AD AE AF B0 B1 B2 B3 Dato solicitado (AF) 2. Memoria cache. Organización Lógica. IDENTIFICACIÓN 36 18 Ejemplo (I) • • • 1 2 3 Procesador de 16 bits de datos y 24 de direcciones Tamaño de la cache: 8KB Tamaño de la línea: 8 bytes 1. Cache totalmente asociativa 2. Cache asociativa por conjuntos de 4 vías 3. Cache de mapeado directo Etiqueta: 21bits Desplazamiento: 3bits Palabra: 2bits Etiqueta: 13bits Conjunto: 8bits Desplazamiento: 3bits Palabra: 2bits Etiqueta: 11bits Byte:1bit Bloque: 10bits Byte:1bit Desplazamiento: 3bits Palabra: 2bits 2. Memoria cache. Organización Lógica. IDENTIFICACIÓN Byte:1bit 37 Ejemplo (II) - Cache asociativa por conjunto de 2 vías - Capacidad de datos: 8KB - Tamaño de bloque: 8 bytes - Número de conjuntos: 512 Pasos de un acierto: 1) División de la dirección 2) Acceso a ambos bancos 3) Comparación de etiquetas 4) Multiplexación 5) Envío a la CPU 2. Memoria cache. Organización Lógica. IDENTIFICACIÓN 38 19 Políticas de escritura Frente acierto en la cache Escritura directa (Write through): Escritura en Memoria cache (Mc) y Memoria principal (Mp). Postescritura (Copy Back): La información se escribe sólo en el bloque de la Mc. Este bloque se denomina sucio o modificado. El bloque modificado de la Mc se escribirá en la Mp sólo cuando éste sea reemplazado. Para reducir la frecuencia de postescrituras en el reemplazo, se usa el bit de modificación o sucio (dirty bit), de manera que si el bloque está limpio no se escribe Mp. 2. Memoria cache. Organización Lógica. Política ESCRITURA 39 Políticas de escritura Ventajas e Inconvenientes Escritura directa (Write through): Ventajas: Inconvenientes: Fácil de implementar. Bajo coste hardware. La Mp tiene la copia más reciente de los datos (coherencia de cache, multiprocesadores y E/S). Tráfico importante en Mp. Velocidad de la escritura es la velocidad de escritura en Mp (Solución: Buffer de escritura). Postescritura (Copy Back): Ventajas: Las escrituras se realizan a la velocidad de la memoria caché. Múltiples escrituras en un bloque requieren sólo una escritura en Mp. Disminuye tráfico entre Mc y Mp. Inconvenientes: Inconsistencia Temporal entre Mc y Mp. Necesidad de bit adicional, bit dirty. Implementación más compleja. 2. Memoria cache. Organización Lógica. Política ESCRITURA 40 20 Políticas de escritura Frente fallo en la cache Ubicación en escritura (Write allocate): El bloque se carga en Mc y a continuación se escribe sobre él (similar a acierto en escritura). Apropiado para Copy Back (CB-WA). No ubicación en escritura (No write allocate): El bloque se modifica en Mp y no se carga en Mc. Apropiado para Write Through (WT-NWA). 2. Memoria cache. Organización Lógica. Política ESCRITURA 41 Políticas de reemplazo Espacio de Ubicación Espacio de Ubicación ES el conjunto de posibles bloques de Mc que pueden ser reemplazadas por un nuevo bloque. Depende de la función de correspondencia: Mapeado directo: Sólo hay una opción. Totalmente asociativa: Cualquier bloque que reside en la cache. Asociativa por conjuntos: Cualquier bloque que reside en el conjunto que tiene asignado el nuevo bloque. 2. Memoria cache. Organización Lógica. Política SUSTITUCIÓN 42 21 Políticas de reemplazo Diferentes estrategias: Aleatoria (Random): Se elige un bloque al azar. FIFO (First Input First Out): Se sustituye el bloque que más tiempo ha estado en la cache. LRU (Least Recently Used): Se sustituye el bloque que más tiempo ha estado en la cache sin ser referenciado. LFU (Least Frecuently Used): Se sustituye el bloque que menos referencias ha tenido. Se tienen en cuenta criterios de coste y eficiencia Los esquemas más utilizados son el aleatorio y el LRU 2. Memoria cache. Organización Lógica. Política SUSTITUCIÓN 43 EJEMPLO Ejemplo de política LRU (cache de 4 bloques) Dirección Bloque LRU 0 3 2 1 0 0 2 3 1 3 0 0 0 0 3 3 3 1 0 0 2 Comparativa de frecuencias de fallos (VAX, 16bytes/bloque) 2. Memoria cache. Organización Lógica. Política SUSTITUCIÓN 44 22 Optimización Cómo mejorar el rendimiento de las caches El objetivo es reducir el tiempo medio de acceso a memoria: Tacceso_medio = Tacierto + ffallos*Penalización_fallo Se puede actuar sobre 3 términos: 1. Reducir el tiempo de acceso en caso de acierto (hit time) 2. Reducir la frecuencia de fallos (miss rate). 3. Reducir las penalizaciones por fallo (miss penalty). 2. Memoria cache. Optimización 45 Reducir la frecuencia de fallos Tipos de fallos Forzosos (Compulsory): Capacidad (Capacity): En el primer acceso a un bloque, éste no se encuentra en la caché. La caché no puede contener todos los bloques necesarios durante la ejecución de un programa. Conflicto (Conflict): Diferentes bloques deben ir necesariamente al mismo conjunto o línea, cuando la estrategia es asociativa por conjuntos o de correspondencia directa (fallos de colisión). 2. Memoria cache. Optimización. Reducción de fallos 46 23 Tipos de fallos Frecuencia total de fallos para cada tamaño de cache: 2. Memoria cache. Optimización. Reducción de fallos 1. Fallo forzoso: Independiente del tamaño de cache. 2. Fallo de capacidad: Decrece al aumentar tamaño de la cache. 3. Fallo de conflicto: Decrece al aumentar la asociatividad. 47 Tipos de fallos 2. Memoria cache. Optimización. Reducción de fallos 48 24 Reducir la frecuencia de fallos Técnicas Aumento del tamaño del bloque. Aumento de la asociatividad. 2. Memoria cache. Optimización. Reducción de fallos 49 Incremento del tamaño de bloque Ventaja: Se reducen los fallos forzosos (principio de localidad espacial). Inconvenientes: Aumentan los fallos por conflicto al reducirse el número de bloques de la caché. La penalización por fallo aumenta al incrementarse el tiempo de transferencia del bloque: Penalización por fallo Tiempo de transferencia Tiempo de acceso Frecuencia por fallo Tamaño del bloque 2. Memoria cache. Optimización. Reducción de fallos Tamaño del bloque 50 25 Incremento del tamaño de bloque forzosos Conflicto Capacidad 2. Memoria cache. Optimización. Reducción de fallos 51 Ejemplo incremento del tamaño de bloque Ejemplo: Tiempo de búsqueda = 40CLK Tasa de transferencia= 8bytes/CLK Tiempo de acierto= 1CLK a) Cache de 1Kb con línea de 16bytes b) Cache de 256Kb con línea de 256bytes Solución: a) Tiempo de acceso medio a memoria = 1+15.05%*(40+2)=7.321 ciclos b) Tiempo de acceso medio a memoria = 1+0.49%*(40+32)=1.353 ciclos 2. Memoria cache. Optimización. Reducción de fallos 52 26 Incremento de la asociatividad Ventaja: Se reducen los fallos por conflicto. Inconveniente: Aumenta el tiempo de acceso medio al incrementarse el tiempo de acierto. También aumenta el coste debido a los comparadores. Cache de mapeado directo (1KB): tamm= 1+(0.133*50)=7.65 ciclos Cache asociativa por conjuntos de 8 vías (128KB): tamm= 1+(0.0088*50)=1.44 ciclos Tiempo medio de acceso a memoria (ciclos) 2. Memoria cache. Optimización. Reducción de fallos 53 Memoria virtual Objetivos Permitir a los programas usar más memoria de la disponible físicamente. Se gestiona automáticamente los dos niveles de la jerarquía de memoria representada por la memoria principal y la secundaria, liberando al programador de esta tarea (origen histórico) ... se ha inventado un sistema para hacer que la combinación de tambores de núcleos magnéticos parezca al programador como un simple nivel de almacenamiento, realizando automáticamente las transferencias precisas Kilburn y cols. [1962] Compartir una misma memoria física entre diferentes procesos con su propio espacio de direcciones (sistemas multitarea). Sería muy costoso dedicar una memoria de tamaño igual al espacio total de direcciones a cada proceso. Se requiere un esquema de protección 3. Memoria virtual 54 27 Definiciones (I) Traducción de direcciones Direcciones virtuales Direcciones físicas 0 A 4K B 8K C 8K 12K D 12K Espacio virtual del proceso A. 0 A’ 4K 0 C A 4K Página 16K 20K B 24K A’ 28K Memoria principal 8K 12K Espacio virtual del proceso B. D Disco o Memoria Secundaria 3. Memoria virtual 55 Definiciones (II) Página (page):en los términos definidos para la jerarquía de memoria es un bloque Fallo de página (page fault) o de dirección (address fault): cuando la página solicitada está en disco (y ha de subirse a memoria). Direcciones virtuales: son las direcciones que genera la CPU Direcciones físicas: son las direcciones que atacan a la memoria principal Correspondencia de memoria (memory mapping) o traducción de direcciones (address translation): el proceso (software/hardware) para traducir las direcciones virtuales a direcciones físicas Niveles de la jerarquía controlados por la memoria virtual: Memoria RAM y disco duro Marco: sitio donde se ubica una página en disco o en MP. 3. Memoria virtual 56 28 Memoria virtual Visión general. Cada proceso tiene un espacio de direcciones propio, (espacio virtual) mayor incluso que la MP. El espacio virtual se divide en páginas . El procesador genera direcciones virtuales. Número de página virtual. Desplazamiento. Las páginas pueden estar en MP o en disco. Los lugares donde se meten las páginas se llaman marcos. En MS existe un fichero especial en el que se encuentran los marcos de MS. Es gestionado por el S.O. Las direcciones virtuales son traducidas en direcciones físicas para su acceso a MP. La tabla de páginas (una para cada proceso) relaciona las direcciones virtuales con las físicas (marcos). Existe una tabla de páginas por proceso activo en el sistema. #pag_física = TablaPaginas(#pagina virtual) 3. Memoria virtual 57 Tabla de Páginas ¿Cómo se sabe si una página está en memoria principal? La dirección virtual se descompone en dos campos: número de página virtual y desplazamiento de página La dirección física se obtiene concatenando simplemente la dirección física de la página con el desplazamiento de página Se utiliza una estructura de datos (tabla de páginas) que contiene la dirección física de la página y es indexada por la dirección virtual La tabla de páginas reside en memoria principal. 3. Memoria virtual 58 29 Tabla de páginas Correspondencia entre dirección virtual y física Registro de la tabla de páginas Número de página virtual (20) 1 Pag. V (20bits) V D R W LRU 0 1 1 0 1 1 --... Desplazamiento (12) 120 Marco (18 bits) 46544 1048575 Marco (18) 46544 Desplazamiento (12) 120 3. Memoria virtual 59 Funcionamiento. Dirección virtual Página en MP? si Tratamiento del fallo de página (S. O.) no MP llena? no Dato en caché? si no si Bajar página a MS Subir página a MP y actualizar TP. Bajar subir bloque a Caché Dato (desde caché) Dir. física (desde TP) 3. Memoria virtual 60 30 Ciclo de vida de un proceso en memoria virtual. Cuando un proceso se inicia, se hace sitio en MS para todas sus páginas, y se le crea su propia tabla de páginas. Cuando una página se quiere usar y no está en MP se produce un fallo de página, (paginación bajo demanda) y hace que la página pase a MP. En esta situación se produce una excepción en la CPU, y se llama al S.O. para que gestione el fallo de página. Una página se va a MS cuando la MP está llena y tiene que entrar una página nueva (reemplazo). El intercambio excesivo de páginas, se llama hiperpaginación. Cuando un programa termina, se liberan sus marcos de MS y MP. 3. Memoria virtual 61 Buffer de traducción anticipada o TLB (I). Motivación y definición. La velocidad de un sistema con memoria virtual se ve mermada por su misma naturaleza. Un acceso a dato implica: Acceso a la tabla de páginas (en MP o en caché) para traducción. Acceso al dato (en caché, en MP o en disco) Por lo tanto, el sistema es al menos, el doble de lento de lo que era cuando no tenía memoria virtual. Se puede mejorar el rendimiento, aplicando el concepto de localidad referencial a los accesos a la tabla de páginas. Definiendo una TLB. Se puede tener una caché de la tabla de páginas = TLB. Es un mecanismo de aceleración de las consultas a la TP con objeto de traducir lo antes posible. La memoria perteneciente a la TP no es cacheable por la caché ordinaria. Sólo existe una para todo el sistema, y es interna al procesador. Las referencias pueden pertenecer a uno o a varios procesos (TP): Una vez realizada la traducción a dir. Física, deja de actuar. Uno: la TLB se borra al cambiar de proceso.Produce más fallos por iniciación. Varios: campo PID de proceso en la TLB. Evita algunos fallos por iniciación. Puede ser unificada o separada. 3. Memoria virtual 62 31 TLB. Esquema 3. Memoria virtual 63 TLB. Funcionamiento. Cuando un proceso se vuelve activo en el sistema se cambia de TP, y la TLB se borra, si sólo tiene refs a un proceso. La CPU genera internamente una dirección virtual que es cotejada en la TLB para ver si está su traducción. La dirección virtual sólo existe dentro del procesador. Si la referencia a la TP no está: fallo de TLB: Se trae un bloque de entradas de la TP a TLB y a continuación se consulta ésta. Cuando hay un acierto en TLB, la página está en MP, y puede que sus datos estén en caché. Si además, la página no está en MP: fallo de página. Tamaño de bloque 4-8 bytes (una entrada de TP) Tiempo de acierto 1 ciclo de reloj Penalización de fallos 10-30 ciclos de reloj Frecuencia de fallos 0.1%-0.2% Tamaño TLB 32-8192 3. Memoria virtual Valores típicos de parámetros 64 32 TLB. Funcionamiento (II). Dirección virtual Acierto en TLB? si Dir. física (desde TLB) no Página en MP? si no MP llena? Dato en caché? no si no si Bajar página a MS Subir página a MP y actualizar TP. Bajar subir bloque a Caché Dato (desde caché) Dir. física (desde TP) y actualiza TLB. 3. Memoria virtual 65 TLB. Implementación típica. Líneas de 1 entrada de la TP. 32-1024 líneas Totalmente asociativo, o asociativo por conjuntos. Mr=0.001 - 0.01 Implementación dentro del procesador. Sólo una. CB-WA. Reemplazo aleatorio. Para cada bloque: Bit de válido. Bits de etiqueta (nº de página virtual, si blq=1entrada). Entrada de la TP. Bit de Dirty. 66 33 Buffer de traducción anticipada o TLB (IV) Ejemplo: TLB del VAX-11/780 Tamaño de página de 512bytes Entrada de TP de 4bytes TLB de 512bytes asociativa por conjuntos de 2 vías Pasos: 1: Envío del índice de la dirección virtual 2: Comprobación de válido y tipo de acceso a memoria 3: Comparación de etiquetas 4: Envío de la dirección física a través del multiplexor 5: Combinación del número y desplazamiento de página 3. Memoria virtual 67 34