Download Digital Design and Computer Architecture David Money Harris

Document related concepts
no text concepts found
Transcript
Digital Design and
Computer Architecture
David Money Harris & Sarah L. Harris
Morgan Kaufman - 2007
Traducción parcial del Capítulo 8
Dr. Ing. Armando D. Assandri
Cátedra Electrónica Digital II
2013
8
Sistemas de Memoria
8.1 INTRODUCCIÓN
El rendimiento de un sistema de cómputo depende del sistema de memoria así como de la
microarquitectura del procesador. En el Capítulo 7 se asumió un sistema de memoria ideal
que podría ser accedido en un solo ciclo de reloj. Sin embargo, esto sólo podría ser cierto para
una memoria muy pequeña, ¡o un procesador muy lento! Los procesadores antiguos eran relativamente lentos, de manera que la memoria era capaz de seguirles el ritmo. Pero la velocidad
del procesador se ha incrementado a una tasa más rápida que la de la memoria. Las memorias
DRAM actualmente son de 10 a 100 veces más lentas que los procesadores. La brecha creciente entre las velocidades de los procesadores y de la memoria DRAM demanda sistemas de
memoria cada vez más ingeniosos, para tratar de aproximarse a una memoria que sea tan rápida como el procesador. Este capítulo investiga los sistemas de memoria prácticos y considera las relaciones de compromiso entre velocidad, capacidad y costo.
El procesador se comunica con el sistema de memoria a través de una interfaz a memoria. La
Figura 8.1 muestra un interfaz a memoria simple usada en el procesador multiciclo MIPS. El
procesador envía al sistema de memoria una dirección por el bus de Direcciones. Para una
lectura, MemWrite es 0 y la memoria retorna un dato por el bus ReadData. Para una escritura,
MemWrite es 1 y el procesador envía datos a memoria por el bus WriteData.
El asunto principal en el diseño del sistema de memoria se puede explicar en términos generales usando una metáfora de libros en una biblioteca. Una biblioteca contiene muchos libros en
las estanterías. Si alguien está escribiendo un ensayo sobre el significado de los sueños, podría
ir a la biblioteca1 y sacar de la estantería La Interpretación de los Sueños de Freud y llevarlo a
su cubículo. Después de echarle una mirada, podría ponerlo en su lugar y sacar La Psicología
del Inconsciente de Jung. Luego podría volver por otra cuota de La Interpretación de los Sueños, seguida de otro viaje a las estanterías por El Ego y Yo de Freud. Muy pronto se cansaría
de caminar desde su cubículo a las estanterías. Si es inteligente, podría ahorrar tiempo
1
Nos damos cuenta que el uso de la biblioteca está cayendo en picada entre los estudiantes universitarios debido
a Internet. Pero también creemos que las bibliotecas contienen grandes tesoros de conocimiento humano ganado
con mucho esfuerzo que no está disponible en formato electrónico. Esperamos que la búsqueda en la Web no
desplace totalmente el arte de investigar en la biblioteca.
1
Figura 8.1 Interfaz a Memoria
manteniendo los libros en su cubículo en lugar de andar llevándolos de aquí para allá. Además, cuando saca un libro de Freud, también podría sacar varios de sus otros libros del mismo
estante.
Esta metáfora enfatiza el principio, introducido en la Sección 6.2.1, de hacer rápido el caso
común. Manteniendo en su cubículo los libros que ha usado recientemente o que probablemente podría usar en el futuro, se reduce la cantidad de viajes consumidores de tiempo a las
estanterías. En particular, se usan los principios de localidad temporal y espacial. Localidad
temporal significa que si ha usado recientemente un libro, es probable que lo use de nuevo
pronto. Localidad espacial significa que cuando usa un libro en particular, es probable que se
interese por otros libros del mismo estante.
La biblioteca por sí misma hace rápido el caso común usando este principio de localidad. La
biblioteca no tiene ni el espacio de estantes ni el presupuesto para alojar todos los libros del
mundo. En vez de eso, almacena algunos de los libros menos usados en el sótano. Además,
puede tener un acuerdo de préstamo interbibliotecario con bibliotecas cercanas de manera que
puede ofrecer más libros de los que físicamente tiene.
En resumen, se obtienen los beneficios de tener una gran colección y acceso rápido a los libros más usados por medio de una jerarquía de almacenamiento. Los libros más usados están
en su cubículo. Una colección más grande está en las estanterías. Y una colección aún más
grande está disponible, con aviso previo, del sótano o de otras bibliotecas. De forma similar,
los sistemas de memoria usan una jerarquía de almacenamiento para acceder rápidamente a
los datos más usados, manteniendo aún la capacidad de almacenar grandes cantidades de datos.
Los subsistemas de memoria usados para construir esta jerarquía fueron presentados en la
sección 5.5. Las memorias de las computadoras están construidas principalmente con RAM
dinámica (DRAM) y estática (SRAM). Idealmente, el sistema de memoria de una computadora es rápido, grande y barato. En la práctica, una memoria individual sólo tiene dos de estos
tres atributos; o es lenta, o pequeña, o cara. Pero los sistemas de computación pueden aproximar el ideal combinando una memoria rápida, pequeña y barata con una memoria lenta, grande y barata. La memoria rápida almacena los datos e instrucciones más usados, de manera que
en promedio el sistema de memoria parece rápido. La memoria grande almacena el resto de
los datos e instrucciones, de manera que la capacidad total es grande. La combinación de dos
2
memorias baratas es mucho menos cara que una única memoria grande y rápida. Estos principios se extienden al uso de toda una jerarquía de memorias de capacidad creciente y velocidad
decreciente.
La memoria de una computadora generalmente está construida con chips de DRAM. En 2006,
una PC típica tenía una memoria principal que constaba de 256 MB a 1 GB de DRAM, y la
DRAM costaba cerca de U$S 100 por gigabyte (GB). Los precios de las DRAMs han bajado
un 30% por año durante las últimas tres décadas, y la capacidad de la memoria ha crecido a la
misma tasa, de manera que el costo total de la memoria en una PC ha permanecido más o menos constante. Desafortunadamente, la velocidad de las DRAMs ha mejorado sólo como un
7% por año, mientras que el rendimiento de un procesador ha mejorado a una tasa de un 30%
a un 50% por año, como se muestra en la Figura 8.2. La gráfica muestra las velocidades del
procesador y la memoria con las velocidades de 1980 como punto de partida. En 1980, las
velocidades del procesador y la memoria eran las mismas. Pero el rendimiento ha divergido
desde entonces, con las memorias retrasándose gravemente.
Figura 8.2 Rendimiento divergente de procesador y memoria
La DRAM pudo mantener el ritmo con los procesadores en los ´70 y a principios de los ´80,
pero desgraciadamente ahora es muy lenta. El tiempo de acceso de una DRAM es de uno a
dos órdenes de magnitud más largo que el tiempo de ciclo de un procesador (decenas de nanosegundos, comparado con menos de un nanosegundo).
Para contrarrestar esta tendencia, las computadoras almacenan los datos e instrucciones más
usados en una memoria rápida pero más pequeña, llamada caché. La caché usualmente está
construida con SRAM en el mismo chip que el procesador. La velocidad de la caché es comparable con la del procesador, debido a que la SRAM es inherentemente más rápida que la
DRAM, y debido a que la memoria en el chip elimina los prolongados retardos causados por
el recorrido a y desde un chip separado. En 2006, los costos de la SRAM en el chip eran del
3
orden de los U$S10.000/GB, pero la caché es relativamente pequeña (de kilobytes a unos pocos megabytes), por lo que el costo total es bajo. Las cachés pueden almacenar instrucciones y
datos, pero se referirá a su contenido genéricamente como “datos”.
Si el procesador solicita datos que están disponibles en la caché, se retornan rápido. Esto se
llama un acierto (hit) de caché. En caso contrario, el procesador recupera los datos de la memoria principal (DRAM). Esto se llama un fallo (miss) de caché. Si la caché acierta la mayor
parte del tiempo, el procesador rara vez tiene que esperar a la memoria principal lenta, y el
tiempo de acceso promedio es bajo.
El tercer nivel en la jerarquía de memoria es el disco duro, o unidad de disco duro (hard drive). De la misma manera que una biblioteca usa el sótano para almacenar libros que no caben
en las estanterías, los sistemas de cómputo usan el disco duro para almacenar datos que no
caben en la memoria principal. En 2006, un disco duro costaba menos de 1 U$S/GB y tenía
un tiempo de acceso de unos 10 ms. El costo de los discos duros ha disminuido un 60%/año,
pero los tiempos de acceso apenas mejoraron. El disco duro proporciona la ilusión de tener
más capacidad que la que realmente existe en la memoria principal. De esa manera se denomina memoria virtual. Como los libros en el sótano, lleva un tiempo largo acceder a los datos
de la memoria virtual. La memoria principal, también llamada memoria física, contiene un
subconjunto de la memoria virtual. Por lo tanto, la memoria principal se puede ver como una
caché de los datos más usados del disco duro.
La Figura 8.3 resume la jerarquía de memoria del sistema de cómputo tratado en el resto de
este capítulo. El procesador primero busca el dato en una caché pequeña, pero rápida, ubicada
en el mismo chip. Si el dato no está disponible en la caché, el procesador luego mira en la
memoria principal. Si el dato tampoco está ahí, el procesador busca el dato en la memoria
virtual en el disco duro, grande, pero lento. La Figura 8.4 ilustra este compromiso entre capacidad y velocidad en la jerarquía de memoria y lista los costos y tiempos de accesos típicos
con la tecnología de 2006. A medida que disminuye el tiempo de acceso, se incrementa la
velocidad.
Figura 8.3 Una jerarquía de memoria típica
La Sección 8.2 presenta el análisis del rendimiento del sistema de memoria. En la Sección 8.3
se exploran varias organizaciones de caché, y en la Sección 8.4 se profundiza en los sistemas
4
de memoria virtual. Para concluir, este capítulo explora cómo pueden acceder los procesadores a los dispositivos de entrada y salida, tales como teclados y monitores, de una manera muy
similar a como acceden a memoria. La Sección 8.5 investiga tal E/S mapeada en memoria.
Figura 8.4 Componentes de la jerarquía de memoria,
con características típicas del 2006
8.2 ANÁLISIS DEL RENDIMIENTO DEL SISTEMA DE MEMORIA
Los diseñadores (y los que compran computadoras) necesitan formas cuantitativas de medir el
rendimiento de los sistemas de memoria para evaluar los compromisos costo/beneficio de
diversas alternativas. Las métricas del rendimiento del sistema de memoria son la tasa de fallos (miss rate) o la tasa de aciertos (hit rate) y el tiempo de acceso promedio a memoria. Las
tasas de fallos y aciertos se calculan como:
(8.1)
Ejemplo 8.1 CÁLCULO DEL RENDIMIENTO DE LA CACHÉ
Suponga que un programa tiene 2000 instrucciones de acceso a datos (cargas y almacenamientos), y 1250 de estos valores de los datos requeridos se encuentran en la caché. Los otros
5
750 valores de los datos son suministrados al procesador por la memoria principal o la memoria en disco. ¿Cuáles son las tasas de fallos y aciertos de la caché?
Solución: La tasa de fallos es 750/2000 = 0,375 = 37,5%. La tasa de aciertos es 1250/2000 =
0,625 = 1 – 0,375 = 62,5%
El tiempo promedio de acceso a memoria (average memory access time – AMAT) es el tiempo
promedio que un procesador debe esperar a la memoria por cada instrucción de carga o almacenamiento. En el sistema de cómputo típico de la Figura 8.3, el procesador primero mira los
datos que están en la caché. Si la caché falla, el procesador luego mira en la memoria principal. Si la memoria principal falla, el procesador accede a la memoria virtual en el disco duro.
Así, el AMAT se calcula como:
(
Donde
,
y
memoria virtual, y
cipal, respectivamente.
)
(8.2)
son los tiempos de acceso de la caché, la memoria principal y la
y
son las tasas de fallos de la caché y de la memoria prin-
Ejemplo 8.2 CÁLCULO DEL TIEMPO PROMEDIO DE ACCESO A MEMORIA
Suponga que un sistema de cómputo tiene una organización de memoria con una jerarquía de
sólo dos niveles, una caché y memoria principal. ¿Cuál es el tiempo promedio de acceso a
memoria dados los tiempos de acceso y tasas de fallos mostrados en la Tabla 8.1?
Solución: El tiempo promedio de acceso a memoria es 1 + 0,1(100) = 11 ciclos.
Tabla 8.1 Tiempos de acceso y tasas de fallos
Nivel de
Memoria
Tiempo de Acceso
(Ciclos)
Tasa de
Fallos
Caché
1
10%
Memoria Principal
100
0%
Ejemplo 8.3 CÓMO MEJORAR EL TIEMPO DE ACCESO
Un tiempo promedio de acceso a memoria de 11 ciclos significa que el procesador gasta diez
ciclos esperando los datos por cada ciclo que realmente los usa. ¿Qué tasa de fallos de la caché se requiere para reducir el tiempo promedio de acceso a memoria a 1,5 ciclos dados los
tiempos de acceso de la Tabla 8.1?
Solución: Si la tasa de fallos es m, el tiempo promedio de acceso es 1 + 100m. Fijando este
tiempo en 1,5 y resolviendo para m, se requiere una tasa de fallos de la caché de 0,5%.
6
Como palabras de advertencia, las mejoras del rendimiento no siempre podrían ser tan buenas
como suenan. Por ejemplo, haciendo el sistema de memoria diez veces más rápido no necesariamente va a hacer que un programa de la computadora se ejecute diez veces más rápido. Si
el 50% de las instrucciones de un programa son cargas y almacenamientos, una mejora de 10
veces en el sistema de memoria sólo significa una mejora de 1,82 veces en el rendimiento del
programa. Este principio general se llama Ley de Amdahl, que dice que el esfuerzo empleado
en incrementar el rendimiento de un subsistema vale la pena sólo si el subsistema afecta un
porcentaje alto del rendimiento total.
8.3 CACHÉS
Una caché contiene datos de memorias usados comúnmente. La cantidad de palabras de datos
que puede contener es llamada la capacidad, C. Debido a que la capacidad de la caché es más
pequeña que la de la memoria principal, el diseñador de sistemas de cómputo debe elegir qué
subconjunto de la memoria principal se mantiene en la caché.
Cuando el procesador intenta acceder a un dato, primero verifica si está en la caché. Si la caché acierta, el dato está disponible de inmediato. Si la caché falla, el procesador busca el dato
en la memoria principal y lo coloca en la caché para uso futuro. Para alojar el dato nuevo, la
caché debe reemplazar un dato viejo. Esta sección investiga estos temas del diseño de cachés
respondiendo las siguientes preguntas: (1) ¿Qué datos se tienen en la caché? (2) ¿Cómo se
encuentran los datos? y (3) ¿Qué dato se reemplaza para hacerle lugar a un dato nuevo cuando
la caché está llena?
Cuando se lean las próximas secciones, tenga en mente que la motivación principal al responder estas preguntas es la localidad espacial y temporal inherente de los accesos a los datos en
la mayoría de las aplicaciones. Las cachés usan la localidad espacial y temporal para predecir
qué dato se necesitará a continuación. Si un programa accede a los datos en un orden aleatorio, no se beneficiaría de la caché.
Como se explica en las secciones siguientes, las cachés se especifican por su capacidad (C),
cantidad de conjuntos (S), tamaño del bloque (b), cantidad de bloques (B) y grado de asociatividad (N).
Aunque el texto se enfoca en las cargas de la caché de datos, los mismos principios de aplican
a las búsquedas en la caché de instrucciones. Las operaciones de almacenamiento en la caché
de datos son similares y se tratan con más detalle en la Sección 8.3.4.
8.3.1 ¿Qué Datos se Tienen en la Caché?
Una caché ideal podría anticipar todos los datos requeridos por el procesador y buscarlos antes de tiempo en la memoria principal, de manera que la caché tenga una tasa de fallos de cero. Debido a que es imposible predecir el futuro con exactitud perfecta, la caché debe suponer
qué datos serán necesarios en base al patrón pasado de accesos a memoria. En particular, la
caché explota la localidad temporal y espacial para obtener una tasa de fallos baja.
7
Recuerde que la localidad temporal significa que es probable que el procesador acceda a una
porción de datos de nuevo en breve si ha accedido a esos datos recientemente. Por lo tanto,
cuando el procesador carga o almacena datos que no están en la caché, los datos se copian en
la caché desde la memoria principal. Las solicitudes subsecuentes a los datos acertarán en la
caché.
Recuerde que la localidad espacial significa que, cuando el procesador acceda a una porción
de datos, también es probable que se acceda a datos en ubicaciones cercanas de la memoria.
Por lo tanto, cuando la caché va a buscar una palabra en la memoria, también busca varias
palabras adyacentes. Este grupo de palabras se llama bloque de caché. La cantidad de palabras que hay en el bloque de caché, b, se llama tamaño del bloque. Una caché de capacidad C
contiene B = C/b bloques.
Los principios de localidad temporal y espacial han sido verificados experimentalmente en
programas reales. Si se usa una variable en un programa, es probable que se use de nuevo la
misma variable, creando localidad temporal. Si se usa un elemento de una matriz, es probable
que se usen otros elementos de la misma matriz, creando localidad espacial.
8.3.2 ¿Cómo se Encuentran los Datos?
Una caché está organizada en S conjuntos, cada uno de los cuales tiene uno o más bloques de
datos. La relación entre la dirección del dato en memoria principal y la ubicación de ese dato
en la caché se llama función de correspondencia (mapping). Cada dirección de memoria se
corresponde con exactamente un conjunto en la caché. Algunos de los bits de dirección se
usan para determinar qué conjunto de la caché contiene el dato. Si el conjunto contiene más
de un bloque, el dato puede estar almacenado en cualquier bloque del conjunto.
Las cachés están categorizadas en base a la cantidad de bloques en un conjunto. En una caché
con correspondencia directa (direct mapped), cada conjunto contiene exactamente un bloque,
de manera que la caché tiene S = B conjuntos. Así, una dirección particular de memoria principal corresponde a un único bloque en la caché. En una caché asociativa de conjuntos de N
vías, cada conjunto contiene N bloques. La dirección todavía se corresponde a un único conjunto, con S = B/N conjuntos. Pero el dato de esa dirección puede ir en cualquiera de los N
bloques en ese conjunto. Una caché completamente asociativa (fully associative) tiene sólo un
conjunto (S = 1). El dato puede ir en cualquiera de los B bloques del conjunto. Por consiguiente, una caché completamente asociativa es otro nombre para una caché asociativa de
conjuntos de B vías.
Para ilustrar estas organizaciones de la caché, se considerará el sistema de memoria del MIPS
con direcciones y palabras de 32 bits. La memoria es direccionable por byte, y cada palabra
tiene cuatro bytes, por lo que la memoria consta de 230 palabras alineadas en los límites de
palabra. Se analizan cachés con capacidad para 8 palabras (C), por simplicidad. Se comienza
con un tamaño de bloque de una palabra (b), y luego se generaliza para bloques más grandes.
8
Caché de Correspondencia Directa
Una caché de correspondencia directa tiene un bloque en cada conjunto, por lo que está organizada en S = B conjuntos. Para entender la correspondencia de las direcciones de memoria
con los bloques de memoria, imagine como que la memoria principal se está haciendo corresponder con bloques de b palabras, justo como es la caché. Una dirección en el bloque 0 de la
memoria principal se corresponde con el conjunto 0 de la caché. Una dirección en el bloque 1
de la memoria principal se corresponde con el conjunto 1 de la caché, y así sucesivamente
hasta que una dirección en el bloque B – 1 de la memoria principal se corresponde con el conjunto B – 1 de la caché. No hay más bloques en la caché, por lo que la función de correspondencia se reinicia en forma cíclica, de manera que el bloque B de la memoria principal se corresponde con el conjunto 0 de la caché.
Figura 8.5 Función de correspondencia entre la memoria principal
y una caché de correspondencia directa
Esta función de correspondencia se ilustra en la Figura 8.5 para una caché de correspondencia
directa con una capacidad de ocho palabras y un tamaño de bloque de una palabra. La caché
tiene ocho conjuntos, cada uno de los cuales contiene un bloque de una palabra. Los dos bits
menos significativos de la dirección siempre están en 00, debido a que las direcciones están
alineadas por palabra. Los siguientes log2 8 = 3 bits indican en qué conjunto se corresponde
la dirección de memoria. Así, todos los datos que están en las direcciones 0x00000004,
0x00000024, …, 0xFFFFFFF4 se corresponden con el conjunto 1. De igual modo, todos los
9
datos que están en las direcciones 0x00000010, … , 0xFFFFFFF0 se corresponden con el
conjunto 4, etc. Cada dirección de la memoria principal se corresponde con exactamente un
conjunto en la caché.
Ejemplo 8.4 CAMPOS DE LA CACHÉ
¿A cuál conjunto de la caché le corresponde la dirección 0x00000014 en la Figura 8.5? Mencione otra dirección que se corresponda con el mismo conjunto.
Solución: Los dos bits menos significativos de la dirección son 00, debido a que la dirección
está alineada por palabra. Los siguientes tres bits son 101, por lo que la palabra se corresponde con el conjunto 5. Todas las palabras con las direcciones 0x34, 0x54, 0x74, …,
0xFFFFFFF4 se corresponden con el mismo conjunto.
Debido a que muchas direcciones se corresponden con un único conjunto, la caché también
debe seguir la pista de las direcciones de los datos realmente contenidos en cada conjunto.
Los bits menos significativos de la dirección especifican cuál conjunto tiene el dato. Los bits
más significativos restantes se denominan la etiqueta e indican cuál de las muchas posibles
direcciones está contenida en ese conjunto.
En el ejemplo anterior, los dos bits menos significativos de la dirección de 32 bits se denominan el desplazamiento de byte (byte offset), debido a que indican el byte dentro de una palabra. Los próximos tres bits se denominan bits de conjunto, debido a que indican el conjunto
con el que se hace corresponder la dirección. (En general, la cantidad de bits de conjunto es
log2 S). Los restantes 27 bits de etiqueta indican la dirección de memoria del dato almacenado
en un conjunto dado de la caché. La Figura 8.6 muestra los campos de la caché para la dirección 0xFFFFFFE4. Se corresponde con el conjunto 1 y su etiqueta son todos unos.
Figura 8.6 Campos de la caché para la dirección 0xFFFFFFE4 cuando
se hace la correspondencia de la caché de la Figura 8.5
10
Ejemplo 8.5 CAMPOS DE LA CACHÉ
Encuentre la cantidad de bits de conjunto y etiqueta para una memoria caché de correspondencia directa con 1024 (210) conjuntos y un tamaño de bloque de una palabra. El tamaño de
la dirección es de 32 bits.
Solución: Una caché con 210 conjuntos requiere log2 (210) = 10 bits de conjunto. Los dos bits
menos significativos de la dirección son el desplazamiento de byte, y los 32 – 10 – 2 = 20 bits
restantes forman la etiqueta.
A veces, como cuando la computadora arranca por primera vez, los conjuntos de la caché no
contienen ningún dato. La caché usa un bit de válido (valid bit) en cada conjunto para indicar
si el conjunto tiene un dato significativo. Si el bit de válido es 0, el contenido no tiene sentido.
Figura 8.7 Caché de correspondencia directa de 8 conjuntos
La Figura 8.7 muestra el hardware para la caché de correspondencia directa de la Figura 8.5.
La caché se arma como una SRAM de ocho entradas. Cada entrada, o conjunto, contiene una
línea que consta de 32 bits de dato, 27 bits de etiqueta y 1 bit de válido. La caché se accede
usando la dirección de 32 bits. Los dos bits menos significativos, los bits de desplazamiento
de byte, se ignoran para los accesos a palabra. Los próximos tres bits, los bits de conjunto,
especifican la entrada o conjunto en la caché. Una instrucción de carga lee la entrada especificada de la caché y verifica los bits de etiqueta y válido. Si la etiqueta es igual a los 27 bits de
dirección y el bit de válido está en 1, la caché acierta y se retorna el dato al procesador. En
11
caso contrario, la caché falla y el sistema de memoria debe buscar el dato en la memoria principal.
Ejemplo 8.6 LOCALIDAD TEMPORAL CON UNA CACHÉ DE CORRESPONDENCIA
DIRECTA
En las aplicaciones los lazos son una fuente común de localidad temporal y espacial. Usando
las caché de ocho entradas de la Figura 8.7, muestre el contenido de la caché después de ejecutar el siguiente lazo tonto en código ensamblador de MIPS. Asuma que la caché está vacía
inicialmente. ¿Cuál es la tasa de fallos?
loop:
addi
beq
lw
lw
lw
addi
j
$t0,
$t0,
$t1,
$t2,
$t3,
$t0,
loop
$0,
5
$0,
done
0x4($0)
0xC($0)
0x8($0)
$t0,
-1
done:
Solución: El programa contiene un lazo que se repite cinco iteraciones. Cada iteración involucra tres accesos a memoria (cargas), dando un total de 15 accesos a memoria. La primera
vez que se ejecuta el lazo, la caché está vacía y los datos deben ser buscados en la ubicaciones
de memoria principal 0x4, 0xC y 0x8 y llevados a los conjuntos 1, 3 y 2 de la caché, respectivamente. Sin embargo, la próximas cuatro veces que se ejecuta el lazo, los datos se encuentran en la caché. La Figura 8.8 muestra el contenido de la caché durante la última petición a la
dirección de memoria 0x4. Las etiquetas están todas en 0 debido a que los 27 bits más significativos de las direcciones son 0. La tasa de fallos es 3/15 = 20%.
¨
Figura 8.8 Contenido de una caché de correspondencia directa
12
Cuando dos direcciones que se han accedido recientemente se corresponden con el mismo
bloque de la caché, ocurre un conflicto, y la dirección accedida más recientemente desaloja a
la anterior del bloque. Las cachés de correspondencia directa sólo tienen un bloque en cada
conjunto, de manera que dos direcciones que se corresponden con el mismo conjunto siempre
causan un conflicto. El siguiente ejemplo ilustra los conflictos.
Ejemplo 8.7 CONFLICTO DE BLOQUE DE LA CACHÉ
¿Cuál es la tasa de fallos en la caché de correspondencia directa de la Figura 8.7 cuando se
ejecuta el siguiente lazo? Asuma que la caché está vacía inicialmente.
addi
loop:
$t0,
beq
lw
lw
addi
j
$0,
$t0,
$t1,
$t2,
$t0,
loop
5
$0,
done
0x4($0)
0x24($0)
$t0,
-1
done:
Solución: Las dos direcciones 0x4 y 0x24 se corresponden con el conjunto1. Durante la ejecución inicial del lazo, se carga en el conjunto 1 de la caché el dato contenido en la dirección
0x4. Luego el dato de la dirección 0x24 se carga en el conjunto 1, desalojando el dato de la
dirección 0x4. Con la segunda ejecución del lazo, el patrón de repite y la caché debe buscar de
nuevo el dato de la dirección 0x4, desalojando el dato de la dirección 0x24. Las dos direcciones entran en conflicto y la tasa de fallos es del 100%.
Caché Asociativa de Conjuntos Multivía
Una caché asociativa de conjuntos de N vías reduce los conflictos proporcionando N bloques
en cada conjunto, donde se podrían encontrar los datos que se hacen corresponder con ese
conjunto. Cada dirección de memoria todavía se hace corresponder con un conjunto específico, pero lo puede hacer en cualquiera de los N bloques del conjunto. Por consiguiente, una
caché de correspondencia directa es otro nombre para una caché asociativa de conjuntos de
una vía. A N también se le llama el grado de asociatividad de la caché.
La Figura 8.9 muestra el hardware para una caché asociativa de conjuntos de C = 8 palabras y
N = 2 vías. La caché ahora sólo tiene S = 4 conjuntos en lugar de 8.
Así, se usan sólo log2 4 = 2 bits de conjunto en lugar de 3 para seleccionar el conjunto. La
etiqueta se incrementa de 27 a 28 bits. Cada conjunto contiene dos vías o grados de asociatividad. Cada vía consta de un bloque de dato y los bits de etiqueta y válido. La caché lee los
bloques de las dos vías en el conjunto seleccionado y verifica los bits de etiqueta y válido para
13
un acierto. Si se produce un acierto en una de las dos vías, un multiplexor selecciona el dato
de esa vía.
Figura 8.9 Caché asociativa de conjuntos de dos vías
Las cachés asociativas de conjuntos generalmente tienen tasas de fallos más bajas que las cachés de correspondencia directa de la misma capacidad, debido a que tienen menos conflictos.
Sin embargo, las cachés asociativas de conjuntos usualmente son más lentas, y de alguna manera más caras de construir, debido al multiplexor de salida y a los comparadores adicionales.
También plantean la pregunta de cuál vía reemplazar cuando las dos vías están llenas; esto se
trata más a fondo en la sección 8.3.3. La mayoría de los sistemas comerciales usan cachés
asociativas de conjuntos.
Ejemplo 8.8 TASA DE FALLOS DE LA CACHÉ ASOCIATIVA DE CONJUNTOS
Repetir el Ejemplo 8.7 usando la caché asociativa de conjunto de dos vías y ocho palabras de
la Figura 8.9.
Solución: Los dos accesos a memoria, para las direcciones 0x4 y 0x24, se corresponden con
el conjunto 1. Sin embargo, la caché tiene dos vías, por lo que puede alojar los datos de ambas
direcciones. Durante el primer bucle de la iteración, la caché vacía falla con las dos direcciones y carga ambas palabras de datos en las dos vías del conjunto 1, como se muestra en la
Figura 8.10. En las próximas cuatro iteraciones, la caché acierta. Por consiguiente, la tasa de
fallos es 2/10 = 20%. Hay que recordar que la caché de correspondencia directa del mismo
tamaño del Ejemplo 8.7 tuvo una tasa de fallos del 100%.
14
Figura 8.10 Contenido de una caché asociativa de conjuntos de dos vías
Caché Completamente Asociativa
Una caché completamente asociativa contiene un único conjunto con B vías, donde B es la
cantidad de bloques. Una dirección de memoria puede corresponder a un bloque en cualquiera de estas vías. Una caché completamente asociativa es otro nombre para un caché asociativa
de conjuntos de B vías con un conjunto.
La Figura 8.11 muestra la matriz de SRAM de una caché completamente asociativa con ocho
bloques. Ante el requerimiento de un dato, se deben hacer ocho comparaciones de etiqueta
(no mostradas), debido a que el dato puede estar en cualquier bloque. De forma similar, un
multiplexor 8:1 selecciona el dato correcto si se produce un acierto. La cachés completamente
asociativas suelen tener la menor cantidad de fallos por conflictos para una capacidad de caché dada, pero requieren más hardware para realizar las comparaciones de etiqueta adicionales. Son más apropiadas para cachés relativamente pequeñas debido al gran número de comparadores requeridos.
Figura 8.11 Caché completamente asociativa de ocho bloques
Tamaño del Bloque
Los ejemplos anteriores fueron capaces de aprovechar sólo la localidad temporal, debido a
que el tamaño del bloque fue de una palabra. Para explotar la localidad espacial, una caché
usa bloques más grandes para contener varias palabras consecutivas.
La ventaja de un tamaño de bloque mayor a uno es que cuando se produce un fallo y se trae la
palabra a la caché, también se traen las palabras adyacentes del bloque. Por lo tanto, es más
probable que los accesos subsiguientes acierten debido a la localidad espacial. Sin embargo,
un tamaño de bloque grande significa que una caché de tamaño fijo tendrá menos bloques.
Esto puede llevar a más conflictos, incrementando la tasa de fallos. Además, requiere más
tiempo traer el bloque de caché no encontrado después de un fallo, debido a que se trae de
memoria principal más de una palabra de datos. El tiempo requerido para cargar el bloque
15
fallido se denomina penalización por fallo. Si las palabras adyacentes del bloque no se acceden luego, se desperdicia el esfuerzo de traerlas. Sin embargo, la mayoría de los programas
reales se benefician de tamaños de bloque más grandes.
La Figura 8.12 muestra el hardware de una caché de correspondencia directa de C = 8 palabras con un tamaño de bloque b = 4 palabras. La caché ahora sólo tiene B = C/b = 2 bloques.
Una caché de correspondencia directa sólo tiene un bloque en cada conjunto, por lo que esta
caché está organizada como dos conjuntos. Así, sólo log2 2 = 1 bit se usa para seleccionar el
conjunto. Ahora se necesita un multiplexor para seleccionar la palabra dentro del bloque. El
multiplexor es controlado por log2 4 = 2 bits de desplazamiento de bloque de la dirección. Los
27 bits más significativos de la dirección forman la etiqueta. Sólo se necesita una etiqueta
para todo el bloque, debido a que las palabras en el bloque están en direcciones consecutivas.
Figura 8.12 Caché de correspondencia directa con dos conjuntos y
un tamaño de bloque de cuatro palabras
Figura 8.13 Campos de la caché para la dirección 0x8000009C cuando se hace la
correspondencia a la caché de la Figura 8.12
La Figura 8.13 muestra los campos de la caché para la dirección 0x8000009C cuando se hace
corresponder en la caché de correspondencia directa de la Figura 8.12. Los bits de desplazamiento de byte siempre están en 0 para los accesos de palabras. Los siguientes log2 b = 2 bits
de desplazamiento de bloque indican la palabra dentro del bloque. Y el bit siguiente indica el
conjunto. Los 27 bits restantes son la etiqueta. Por lo tanto, la palabra 0x8000009C se corres16
ponde con el conjunto 1, palabra 3 en la caché. El método de usar tamaños de bloque más
grandes para explotar la localidad espacial también se aplica a las cachés asociativas.
Ejemplo 8.9 LOCALIDAD ESPACIAL CON UNA CACHÉ DE CORRESPONDENCIA
DIRECTA
Repetir el Ejemplo 8.6 para una caché de correspondencia directa de ocho palabras con un
tamaño de bloque de cuatro palabras.
Solución: La Figura 8.14 muestra el contenido de la caché después del primer acceso a memoria. En la primera iteración del bucle, la caché falla en el acceso a la dirección de memoria
0x4. Este acceso carga los datos de la dirección 0x0 hasta la 0xC en el bloque de la caché.
Todos los accesos subsiguientes (como se muestra para la dirección 0xC) aciertan en la caché.
Por consiguiente, la tasa de fallos es 1/15 = 6,67%.
Figura 8.14 Contenido de la caché con un tamaño de bloque (b) de cuatro palabras
Poniendo Todo Junto
Las cachés están organizadas como matrices de dos dimensiones. Las filas de llaman conjuntos y las columnas se llaman vías. Cada entrada en la matriz consta de un bloque de datos y
sus bits de etiqueta y válido asociados. Las cachés se caracterizan por
 capacidad C
 tamaño de bloque b (y cantidad de bloques, B = C/b)
 cantidad de bloques en un conjunto (N)
La Tabla 8.2 resume las diversas organizaciones de las cachés. Cada dirección de memoria se
corresponde con un solo conjunto, pero se puede almacenar en cualquiera de las vías.
La capacidad de la caché, la asociatividad, el tamaño del conjunto y el tamaño del bloque son
típicamente potencias de 2. Esto hace que los campos de la caché (etiqueta, conjunto y los bits
de desplazamiento de bloque) sean subconjuntos de los bits de dirección.
17
Tabla 8.2 Organizaciones de la caché
Organización
Cantidad de Vías
(N)
Cantidad de
Conjuntos (S)
correspondencia
directa
1
B
asociativa de
conjuntos
1<N<B
B/N
totalmente asociativa
B
1
El incremento de la asociatividad, N, usualmente reduce la tasa de fallos causada por los conflictos. Pero una asociatividad mayor requiere más comparadores de etiqueta. El incremento
del tamaño del bloque, b, aprovecha la localidad espacial para reducir la tasa de fallos. Sin
embargo, disminuye la cantidad de conjuntos en una caché de tamaño fijo y por lo tanto puede
llevar a tener más conflictos. También incrementa la penalización por fallos.
8.3.3 ¿Qué Dato se Reemplaza?
En una caché de correspondencia directa, cada dirección se corresponde con un único bloque
y conjunto. Si cuando se debe cargar un dato un conjunto está lleno, se reemplaza el bloque en
ese conjunto con el dato nuevo. En las cachés asociativas de conjuntos y completamente asociativas, la caché debe elegir cuál bloque se debe desalojar cuando un conjunto de la caché
está lleno. El principio de localidad temporal sugiere que la mejor opción es desalojar el bloque que se usó menos recientemente, debido a que es menos probable que se lo use de nuevo
pronto. Así, la mayoría de las cachés asociativas tienen una política de reemplazo denominada
menos recientemente usado (least recently used o LRU).
En una caché asociativa de conjuntos de dos vías, un bit de uso, U, indica cuál vía dentro del
conjunto fue la menos recientemente usada. Cada vez que una de las vías se usa, se modifica
U para indicar la otra vía. Para las cachés asociativas de conjuntos con más de dos vías, seguir
la pista de la vía menos recientemente usada se vuelve complicado. Para simplificar el problema, a menudo se dividen las vías en dos grupos y U indica cuál grupo de vías fue menos
recientemente usado. Ante un reemplazo, el bloque nuevo reemplaza un bloque aleatorio dentro del grupo menos recientemente usado. Tal política se denomina pseudo LRU y en la práctica es lo suficientemente buena.
Ejemplo 8.10 REEMPLAZO POR LRU
Muestre el contenido de una caché asociativa de conjuntos de dos vías y ocho palabras después de ejecutar el siguiente código. Asuma un reemplazo por LRU, un tamaño de bloque de
una palabra y una caché inicialmente vacía.
18
lw $t0, 0x04($0)
lw $t1, 0x24($0)
lw $t2, 0x54($0)
Solución: Las primeras dos instrucciones cargan los datos desde las direcciones de memoria
0x4 y 0x24 en el conjunto 1 de la caché, mostrado en la Figura 8.15(a). U = 0 indica que el
dato en la vía 0 fue el menos recientemente usado. El próximo acceso a memoria, a la dirección 0x54, también se corresponde con el conjunto 1 y reemplaza el dato menos recientemente usado que está en la vía 0, como se muestra en la Figura 8.15(b). El bit de uso, U, se pone
en 1 para indicar que el dato en la vía 1 fue el menos recientemente usado.
Figura 8.15 Caché asociativa de dos vías con reemplazo LRU
Políticas de escritura
Las secciones anteriores se enfocaron en las cargas de memoria. Los almacenamientos en
memoria, o escrituras, siguen un procedimiento similar a las cargas. Ante un almacenamiento
en memoria, el procesador verifica la caché. Si la caché falla, se trae el bloque de caché de
memoria principal a la caché, y luego se escribe la palabra apropiada en dicho bloque. Si se
acierta en la caché, simplemente se escribe la palabra en el bloque de caché.
Las cachés se clasifican en de escritura inmediata (write-through) o de escritura diferida
(write-back). En una caché de escritura inmediata, el dato escrito en un bloque de caché se
escribe simultáneamente en memoria principal. En una caché de escritura diferida, se asocia
un bit de modificado (o dirty bit) (D) con cada bloque de la caché. D vale 1 cuando se ha escrito en el bloque de cache y 0 en caso contrario. Los bloques de caché modificados se reescriben en memoria principal sólo cuando se los desaloja de la caché. Una caché de escritura
inmediata no requiere del bit de modificado pero usualmente requiere más escrituras a memo19
ria principal que una caché de escritura diferida. Las cachés modernas usualmente son de escritura diferida, debido a que el tiempo de acceso a memoria principal es tan largo.
Ejemplo 8.12 ESCRITURA INMEDIATA VERSUS ESCRITURA DIFERIDA
Suponga que una caché tiene un tamaño de bloque de cuatro palabras. ¿Cuántos accesos a
memoria principal se requieren para el siguiente código cuando se usa cada política de escritura: inmediata o diferida?
sw $t0, 0x0($0)
sw $t0, 0xC($0)
sw $t0, 0x8($0)
sw $t0, 0x4($0)
Solución: Las cuatro instrucciones de almacenamiento escriben en el mismo bloque de caché. Con una caché de escritura inmediata, cada instrucción de almacenamiento escribe una
palabra en memoria principal, requiriendo cuatro escrituras en memoria principal. Una política de escritura diferida requiere sólo un acceso a memoria principal, cuando se desaloja el
bloque de caché modificado.
20