Download Una Implementación Eficiente de Algoritmos de Encaminamiento

Document related concepts
no text concepts found
Transcript
277
Castellón, Septiembre 2008
Una Implementación Eficiente de Algoritmos
de Encaminamiento Distribuido para Redes
dentro del Chip
Samuel Rodrigo, José Flich y José Duato1
Resumen— El diseño de redes dentro del chip para
procesadores con varios núcleos introduce nuevas limitaciones como el área, consumo de energı́a y latencias bajı́simas. Aunque el uso de topologı́as regulares (como las mallas bidimensionales) está extendido, varias causas como errores de fabricación, problemas de fiabilidad o la necesidad de particionamiento
(virtualización, dominios de coherencia) y aislamiento
del tráfico, pueden inducir topologı́as irregulares. En
estas situaciones se necesita un encaminamiento eficiente. Aunque el uso de tablas de encaminamiento
es flexible, esta solución incrementa drásticamente el
consumo de energı́a, el área y la latencia.
En este artı́culo proponemos el LBDR (Logic-Based
Distributed Routing) como un método de encaminamiento para el cual no hace falta el uso de tablas de
encaminamiento. LBDR permite aplicar la mayorı́a
de algoritmos de encaminamiento usando para ello
una lógica mı́nima en topologı́as irregulares (y regulares, por supuesto). Los resultados de las evaluaciones muestran que con LBDR los algoritmos de
encaminamiento consiguen el mismo rendimiento que
cuando se usan tablas de encaminamiento con un coste
menor en area, consumo de energı́a y latencias.
Palabras clave— Redes dentro del chip, Encaminamiento distribuido, Lógica, Chips multinúcleo.
I. Introducción
L
AS arquitecturas de procesadores con varios
núcleos comienzan a ser de uso generalizado para
el diseño de procesadores en varios mercados. Al
encontrarse con limitaciones de rendimiento en soluciones de un sólo núcleo, la industria está cambiando
al paradigma de diseño de varios núcleos integrados
en un mismo chip. Aunque el número de núcleos
en los diseños actuales es bastante pequeño (de 2 a
8 núcleos por chip) se prevee una tendencia al alza.
Un ejemplo es el chip Teraflop de Intel, anunciado
recientemente, que contiene hasta 80 núcleos [1].
Tal cantidad de núcleos en la arquitectura requiere
una red de interconexión de alto rendimiento para
ofrecer una comunicación eficiente entre todos los
núcleos y sus respectivos dispositivos de memoria.
Las implementaciones actuales están basadas en estructuras de anillo o bus (por ejemplo, el procesador
Cell [2]). Sin embargo, estas topologı́as resultan ineficaces al convertirse en cuellos de botella del sistema mientras la cantidad de núcleos siga incrementando. Para arquitecturas con un gran número de
núcleos homogéneos, una topologı́a de malla bidimensional (ver Figura 1.a) es adecuada debido a su
1 Grupo de Arquitecturas Paralelas, Dpto. de Informática
de Sistemas y Computadores, Universidad Politécnica
de Valencia, e-mail:
srodrigo@gap.upv.es, {jflich,
jduato}@disca.upv.es.
distribución directa en la superficie plana del chip.
Éste es el caso del chip Teraflop de Intel.
Se ha investigado mucho en redes fuera del chip
y la mayor parte de los mecanismos, técnicas y
métodos se pueden aplicar a redes dentro del chip.
Sin embargo existen restricciones fı́sicas que no se
tenı́an en cuenta en el dominio de las redes fuera
del chip. En particular, cuando se afronta el diseño
de una red dentro del chip hay que tener en cuenta
los requerimientos de área, consumo y latencia. Por
ejemplo, el rendimiento de la red se mide normalmente en términos de latencia del paquete y productividad de la red. Dentro del contexto de las redes
dentro del chip, se requiere unos valores de latencia lo más bajos posibles ası́ que cada etapa se ha
de optimizar con mucho cuidado. Para ello, se suele
usar encaminamiento basado en lógica (por ejemplo,
Dimension-Order-Routing, DOR) como la solución
preferida para encaminar paquetes con un retraso
mı́nimo. En general, la soluciones basadas en mallas
bidimensionales y este tipo de encaminamiento ofrecen buenos resultados en latencia, consumo y área
requerida.
Pero nos enfrentamos también a un tema que
adquiere mayor importancia en redes dentro del chip
y arquitecturas multiprocesador, la tolerancia a fallos. Debido a la gran escala de integración, pueden
aparecer varios problemas relacionados con la fiabilidad en la comunicación. Problemas como el ruido
proveniente de la fuente de alimentación o interferencia de señales son sólo algunos de los inconvenientes
a superar. Además hay que tener en cuenta los defectos de fabricación, como por ejemplo, núcleos, cableado o conmutadores no operativos. En todos estos casos, aun a pesar de tener componentes no funcionales dentro del chip (de forma temporal o permanente), el resto todavı́a sigue siendo funcional.
Además a diferencia de las redes fuera del chip, no es
posible reemplazar la parte afectada. Desde el punto
de vista de la red, nos enfrentamos a una topologı́a
irregular en vez de la regular original y la capa de encaminamiento debe tener esto en cuenta. Podemos
ver ejemplos de estas topologı́as en las Figuras 1.b y
1.c.
Las arquitecturas multiprocesador ofrecen a su vez
nuevos caminos a explorar. Para poder aprovechar la
gran cantidad de núcleos dentro del chip y dado que
las aplicaciones no suelen aprovechar el paralelismo,
la solución pasa por la virtualización del chip. En un
sistema virtualizado los recursos se reparten entre las
Actas de las XIX Jornadas de Paralelismo, pp. 277-282, 2008. ISBN: 978-84-8021-676-0
278
XIX Jornadas de Paralelismo
Fig. 1. Ejemplo de topologı́as regulares (a) e irregulares (b-d).
diferentes máquinas virtuales. Aunque el concepto
de virtualización no es precisamente nuevo, su aplicación en redes dentro del chip y multiprocesadores
se convierte en un reto. La red debe garantizar el
aislamiento del tráfico entre regiones lo que conlleva
a la aparición de subregiones con topologı́a irregular
dentro de la malla original. Como ejemplo podemos
ver la Figura 1.d donde 3 regiones diferentes conviven
en una misma malla.
El encaminamiento puede implementarse de dos
formas diferentes: encaminamiento fuente y distribuido. En el encaminamiento fuente, el nodo
emisor calcula el camino a seguir y lo guarda en
la cabecera del paquete. Como la cabecera se debe
transmitir por la red, consume ancho de banda. El
chip Teraflop de Intel usa este tipo de encaminamiento. En el encaminamiento distribuido, sin embargo, cada conmutador decide el próximo salto que
debe realizar el paquete mientras viaja por la red.
La cabecera del paquete, en este caso, sólo contiene
el nodo destino.
El encaminamiento distribuido se puede implementar de diversas formas. En topologı́as regulares
se usa un encaminamiento basado en circuiterı́a con
lógica combinacional, que calcula el puerto de salida
en función de los nodos fuente y destino y el estado
de los puertos de salida. La implementación es muy
eficiente en términos de área y latencia, pero el algoritmo es totalmente dependiente de la topologı́a y
la estrategia de encaminamiento usadas. Para tratar
con topologı́as irregulares existe una solución propuesta, las tablas de encaminamiento implementadas
en los conmutadores. La función de cada tabla es
guardar para cada nodo destino un puerto de salida relacionado. Esta técnica puede ser extendida
para encaminamiento adaptativo, donde se guardan
varias salidas en cada entrada de la tabla. La ventaja del encaminamiento basado en tablas es que
puede ser implementado en cualquier topologı́a con
cualquier algoritmo de encaminamiento, incluidos algoritmos orientados a tolerancia a fallos. Sin embargo, la mayor desventaja es que esta solución está
implementada en memorias, no siendo posible escalar
en términos de latencia, consumo de energı́a y área,
siendo impracticables para las redes dentro del chip.
Es posible reducir el tamaño de la tabla de encaminamiento en algunos entornos, como por ejemplo, el caso de sistemas embebidos o de aplicaciones
especı́ficas, donde el patrón de comunicación y el
tráfico se pueden predecir de antemano. No obstante, esto no es posible aplicarlo en procesadores
de propósito general.
En este artı́culo, proponemos un mecanismo simple que permite la implementación de algoritmos de
encaminamiento distribuido en topologı́as irregulares
sin necesidad de utilizar tablas de encaminamiento
en los conmutadores o nodos fuente. Este mecanismo, que llamamos LBDR, consiste en el uso de 3
bits por puerto de salida y una lógica implementada
a base de varias puertas lógicas en cada conmutador.
El resto del artı́culo se organiza de esta forma. La
siguiente sección, II, nos describe el entorno del sistema donde se puede aplicar el mecanismo. Seguidamente, en la sección III, se describe el mecanismo a
fondo. Luego, en la sección IV, se presentan los resultados de las evaluaciones que han sido realizadas
y por último se concluye el artı́culo con un apartado
de conclusiones, en la sección V.
II. Entorno
El mecanismo LBDR se puede aplicar en redes que
utilizen cualquier mecanismo de conmutación wormhole o virtual-cut through. Además no hay necesidad
de canales virtuales, aunque son perfectamente aplicables en aquellas situaciones que lo necesiten.
No obstante, y para simplificar, nos vamos a centrar en una red que asume conmutación wormhole
sin canales virtuales. Los mensajes (o paquetes en
conmutación virtual cut-through) se encaminan en
base a las coordenadas X e Y del destino final incluidos en la cabecera del mensaje (Xdst y Ydst ), y cada
conmutador, a su vez, conoce sus propias coordenadas X e Y (guardadas en los registros Xcurr y Ycurr
en cada conmutador).
El mecanismo LBDR se puede aplicar a una combinación de topologı́as y algoritmos de encaminamiento con las siguientes caracterı́sticas que detallamos a continuación.
Como ya se avanzó en la introducción, la topologı́a
tı́pica donde se aplica la red es una malla bidimensional, originalmente una topologı́a regular, pero que
puede derivar en topologı́as irregulares debido a ciertas causas. Todas estas topologı́as comparten una
misma propiedad: todos los nodos (asumiendo que
hay un nodo por cada conmutador) se pueden comunicar con el resto de nodos a través de una ruta
279
Castellón, Septiembre 2008
Fig. 2. Algoritmos de encaminamiento representados en malla 2D y topologı́a irregular.
mı́nima definida en la topologı́a original de malla (ver
Figura 1.a). El mecanismo LBDR se puede aplicar
en todas las topologı́as que cumplan esta propiedad.
En el caso de que exista una ruta no mı́nima entre
cualquier par de nodos, el mecanismo no es aplicable.
Un algoritmo de encaminamiento determinista (o
parcialmente adaptativo) sin dependencias cı́clicas
entre sus enlaces o buffers intermedios se puede representar como un conjunto de restricciones de encaminamiento. Como ejemplo, en la Figura 2 podemos
ver las restricciones de encaminamiento definidas
para los algoritmos de encaminamiento XY y U D
(up*/down*) [4] en una topologı́a de malla bidimensional y una topologı́a irregular con forma de p. Cada
flecha indica una restricción y básicamente, prohibe
el uso de dos canales consecutivos a cualquier paquete de forma que las rutas empleadas por cada par
de nodos nunca pasarán por una restricción de encaminamiento. Para su simplicidad, los puertos se
etiquetan como N (Norte), E (Este), W (Oeste) y
S (Sur). Ası́, por ejemplo, en el primer conmutador
situado en la esquina izquierda superior de la Figura
2.a hay una restricción SE, es decir, se prohibe usar
el canal del puerto E si el paquete viene del puerto
S.
Como también se puede apreciar en la Figura 2.b,
el algoritmo de encaminamiento XY sólo es aplicable
en una topologı́a regular, ya que hay algunos pares
de nodos que no se pueden comunicar. Algoritmos
de encaminamiento, que en cambio, son independientes de la topologı́a aplicada como U D, son perfectamente aplicables.
Llegados a este punto hay que aclarar, que si bien
el mecanismo LBDR se puede aplicar con cualquier
algoritmo de encaminamiento que se pueda representar con las restricciones formadas a partir de dos
canales consecutivos, todas estas restricciones deben
contener un canal de cada uno de estos dos conjuntos: {N,S} y {E,W}. Por ejemplo, no está permitido
el uso de una restricción EW . En otras palabras,
las restricciones de encaminamiento sólo impiden algunos cambios de dirección. La razón es que permitir
el uso de restricciones como W E, EW , N S, SN , SS
o N N fuerzan la necesidad de una ruta no mı́nima.
En cambio, si nos fijamos en los algoritmos de encaminamiento representados en la Figura 2, todos
cumplen esta condición.
Otros algoritmos de encaminamiento como SRh
[3], SRv [3], FX [5] o Turn Model [6] también
cumplen estas condiciones, ası́ que son perfectamente
aplicables.
III. Descripción del LBDR
Las Figuras 3.a y 3.b nos muestran los detalles del
LBDR. Se utilizan 3 bits por cada puerto de salida en
el conmutador, haciendo un total de 12 bits. El valor
de estos bits depende de la topologı́a y el algoritmo
de encaminamiento implementado.
Los bits se agrupan en dos conjuntos: bits de encaminamiento y bits de conectividad. Los bits de
encaminamiento determinan las opciones de encaminamiento que pueden tomarse, mientras que los bits
de conectividad indican como se conecta un conmutador a sus vecinos.
Si nos centramos en los bits de encaminamiento,
por ejemplo, para el puerto de salida E, tenemos los
bits Ren y Res . Estos bits indican si los paquetes que
se encaminen por el puerto de salida E, luego pueden
encaminarse, respectivamente, bien por el puerto de
salida N o S en el próximo conmutador. De esta
forma, para el puero de salida N etiquetaremos los
bits como Rne y Rnw , para el puerto de salida W
tenemos Rwn y Rws , y para el puerto de salida S,
los bits Rse y Rsw .
En cuanto a los bits de conectividad, cada puerto
de salida tiene un sólo bit, definido como Cx , que
indica si existe conectividad en el conmutador por el
puerto x. Se etiquetan como Cn , Ce , Cw y Cs .
La lógica de encaminamiento del LBDR se divide
en 2 partes (mirar Figura 3). La primera parte calcula la posición relativa al destino del paquete. Para
ello, se compara Xcurr y Ycurr , que indican las coordenadas actuales, con Xdst y Ydst , que indican las
coordenadas del nodo destino. A la salida de esta
lógica se obtiene como mucho dos señales activas (por
ejemplo, si el paquete va destinado al cuadrante N W
entonces las salidas N ′ and W ′ se activan). Cabe
observar que se excluye de la lógica los paquetes destinados al puerto local del conmutador.
Una vez se han calculado las señales N ′ , E ′ , W ′ y
′
S entra en juego la segunda parte de la lógica. Consiste en cuatro unidades lógicas, una por cada puerto
de salida, compuestas cada una por dos inversores,
cuatro puertas AND y una puerta OR. Como to-
280
XIX Jornadas de Paralelismo
Fig. 3. El mecanismo LBDR.
das son similares, vamos a centrarnos en describir la
lógica para el puerto de salida N .
El puerto de salida N se puede considerar como
opción de encaminamiento si una de las tres condiciones siguientes se cumple (adicionalmente, el bit
de conectividad Cn se consulta para filtrar el puerto
N ):
•
•
•
El destino del paquete está en la misma columna
(N ′ × E ′ × W ′ ).
El destino del paquete está en el cuadrante N E
y el paquete se podrı́a encaminar por el puerto
E en el próximo conmutador accesible por el
puerto N (N ′ × E ′ × Rne ).
El destino del paquete está en el cuadrante N W
y el paquete se podrı́a encaminar por el puerto
W en el próximo conmutador accesible por el
puerto N (N ′ × W ′ × Rnw ).
Se puede observar, por ejemplo, que a la salida las
señales N y E pueden estar activas al mismo tiempo.
Dado este caso, es tarea del conmutador y su unidad
de control decidir que opción escoger, dependiendo
de la adaptividad permitida o si el algoritmo de encaminamiento es determinista.
El mecanismo LBDR consigue los mismos resultados de rendimiento con la mayorı́a de algoritmos de
encaminamiento, como por ejemplo, XY y U D. Sin
embargo, hay situaciones con algoritmos de encaminamiento más avanzados (como SR) donde se han
detectado ineficiencias. Podemos ver un ejemplo en
la Figura 3.c. Pongamos como caso, que un paquete
se envı́a desde el nodo 1 al nodo 8. El conmutador
en el nodo 1 decide descartar el puerto de salida S
porque el bit Rsw no está activo (hay una restricción
N W en el próximo conmutador si se encamina por
el puerto S). Sin embargo, en este caso, la ruta 1-59-8 es válida, pero estamos reduciendo la adaptatividad. Aunque el mecanismo LBDR funciona correctamente se produce una pérdida de prestaciones que
puede ser inaceptable. Para ello, en la siguiente subsección, proponemos una extensión del mecanismo
para poder solucionar este problema. Sin embargo,
hay que tener en cuenta, que usando un algoritmo
de encaminamiento como U D, este problema desaparece.
También es importante incidir que sólo los bits que
se refieren a restricciones de encaminamiento existentes se ponen a cero y el resto a uno, incluso para
aquellos conmutadores que no existen realmente en
la topologı́a. El bit de conectividad, en estos casos,
sirve de filtro, como se ha dicho anteriormente, para
no incurrir en rutas no válidas.
El mecanismo es libre de bloqueos si y sólo si el algoritmo de encaminamiento representado lo es. Si el
paquete no atraviesa ninguna restricción de encaminamiento no se formarán ciclos. Los bits de encaminamiento Rxy aseguran que no se atraviesa ninguna
restricción. La conectividad, a su vez, está garantizada ya que que el mecanismo LBDR usa cualquier
ruta mı́nima que el algoritmo de encaminamiento
permita.
A. LBDRe, el mecanismo extendido
En la extensión a nuestro mecanismo, denominada LBDRe, se mantienen los mismos bits tanto
de conectividad como de encaminamiento anteriores.
Sin embargo, se añaden 4 nuevos bits por puerto de
salida. Los 2 primeros bits se etiquetan como R2xy
e indican si el paquete puede encaminarse por la dirección y dos conmutadores más alla del actual si se
encamina por la dirección x. Por ejemplo, el bit R2ne
nos indica si podemos hacer un cambio de dirección
al E en el conmutador localizado a dos saltos más allá
en la dirección N . Estos bits tienen un significado
parecido a los que se usan en LBDR, sólo que gracias a estos se permite una visibilidad de dos saltos
al conmutador actual. Sin embargo, al contrario que
los bits anteriores, no deben estar activos si se refieren a un conmutador inexistente. Los siguientes
bits se etiquetan como RRxy e indican si existe una
restricción de encaminamiento entre los canales x y
y en el conmutador actual. Estos bits se necesitan
para evitar la formación de ciclos, como se detalla en
un ejemplo más adelante.
Adicionalmente, el conmutador necesita cinco
señales internas etiquetadas como ipN , ipE, ipW ,
ipS y ipL para indicar el puerto de entrada por donde
el paquete ha sido encaminado.
La primera parte de la lógica ha aumentado un
poco comparada con la del mecanismo. En particular, basándose en las coordenadas X e Y del conmutador actual y el destino del paquete se calculan
las direcciones relativas N ′ , E ′ , W ′ y S ′ . Además,
se calculan 4 señales adicionales: N 2, E2, W 2 y S2.
Estas señales se activan si el destino del paquete está
a dos saltos más allá de la dirección correspondiente
281
Castellón, Septiembre 2008
Fig. 4. Análisis comparativos de área, consumo de energı́a y latencia.
(si se activa N 2 debemos hacer dos saltos en la dirección N para acercarnos a nuestro destino). Esta
parte también es responsable de invalidar los posibles puertos de salida que tengan una restricción de
encaminamiento. Aquı́ es donde entran en juego los
bits RRxy . La lógica requiere 2 inversores, 3 puertas
AND y una puerta OR por cada puerto de salida.
Las señales a la salida se etiquetan como N ′′ , E ′′ ,
W ′′ y S ′′ .
La segunda parte evalúa las opciones de encaminamiento tanto en el próximo conmutador como 2
saltos más allá. Como ejemplo, para el caso del
puerto de salida N , será una opción válida si se
cumple alguna de las siguientes condiciones:
•
•
•
•
•
El destino del paquete está en la misma columna
(N ′ × E ′ × W ′ ).
El destino del paquete está en el cuadrante N E
y el paquete se podrı́a encaminar por el puerto
E en el próximo conmutador accesible por el
puerto N (N ′ × E ′ × Rne ).
El destino del paquete está en el cuadrante N W
y el paquete se podrı́a encaminar por el puerto
W en el próximo conmutador accesible por el
puerto N (N ′ × W ′ × Rnw ).
El destino del paquete está en el cuadrante N E
y el paquete se podrı́a encaminar por el puerto
E en el conmutador 2 saltos más allá, accesible
por el puerto N (N 2 × E ′ × R2ne ).
El destino del paquete está en el cuadrante N W
y el paquete se podrı́a encaminar por el puerto
W en el conmutador 2 saltos más allá, accesible
por el puerto N (N 2 × W ′ × R2nw ).
Finalmente, el bit de conectividad Cn y el filtro
de restricción de encaminamiento (N ′′ ) se usan para
filtrar este puerto. Para el resto de puertos, el funcionamiento es similar.
Gracias a esta extensión se resuelve el problema
de ineficiencia encontrado en el mecanismo LBDR.
Si nos fijamos en la Figura 3.c, ahora existen dos
posibles rutas desde el nodo 1 al nodo 8. En el conmutador del nodo 1, ahora, el puerto de salida S es
una opción válida ya que el bit R2sw está activo por
lo tanto la señal S2 se activará. También se aprecia
que el conmutador del nodo 5 tendrá el bit RRnw
activo, impidiendo que se pueda tomar el puerto de
salida W que podrı́a llevar a un bloqueo.
IV. Resultados y Evaluaciones
A. Rendimiento
Nuestro primer objetivo es comprobar si con el
mecanismo los algoritmos de encaminamiento se
comportan con el mismo rendimiento que usando
tablas de encaminamiento.
Para ello hemos usado el simulador Noxim [7]. En
todas las simulaciones se asume conmutación wormhole, con buffers de 4 flits y paquetes de 32 flits. Cada
flit tiene un tamaño de un byte. Se han evaluado los
algoritmos de encaminamiento XY , U D, y SRh en
un malla bidimensional 8 × 8 mesh y con diferentes
topologı́as irregulares. Se ha utilizado tráfico uniforme.
Fig. 6. Rendimiento de varios algoritmos de encaminamiento
en una malla.
En la Figuras 6 y 7 podemos ver el rendimiento
obtenido para algunos de los casos analizados. Se
puede extraer conclusiones para todos los casos evaluados. Se puede ver que tanto para el algoritmo
XY (en la malla completa) como para U D y SRh
(en la malla regular y topologı́as irregulares) se consigue un rendimiento que iguala al obtenido con la
implementación tradicional con tablas de encaminamiento. Cabe destacar el caso del algoritmo SRh con
282
XIX Jornadas de Paralelismo
Fig. 5. Análisis comparativos de área, consumo de energı́a y latencia.
V. Conclusiones
Fig. 7. Rendimiento de varios algoritmos de encaminamiento
en topologı́a irregular.
LBDR, pero con la extensión se consigue igualar las
prestaciones.
B. Área, Consumo de Energı́a y Latencia
El segundo objetivo de nuestra evaluación es
analizar el impacto en el área, consumo de energı́a
y la latencia del mecanismo comparado con el uso
de tablas de encaminamiento. Para la evaluación los
módulos se han diseñado y sintetizado usando Synopsys Design Compiler en una librerı́a de tecnologı́a de
90nm de TSMC [8]. Se ha considerado una malla de
8 × 8. Podemos ver los análisis comparativos en las
Figuras 4 y 5.
Como era de esperar, LBDR, ofrece un ahorro en
términos de área, consumo de energı́a y latencia comparado con tablas de encaminamiento (RT). De hecho, LBDR consume un total del 5% del área original consumida por las tablas de encaminamiento y
consume aproxidamente 20 veces menos energı́a. En
términos de latencia, los factores no son tan grandes,
pero a media que aumenta el número de nodos el
ahorro puede ser importante.
En el impacto sobre el conmutador se puede observar que en términos de área y consumo de energı́a
el mecanismo representa un tanto por cien bastante
pequeño respecto del total.
En este artı́culo se ha presentado el mecanismo
LBDR como un sustituto eficiente para la implementación de la mayorı́a de algoritmos de encaminamiento distribuido en topologı́as irregulares (y regulares) sin tener que usar tablas de encaminamiento
en redes dentro del chip.
Además se ha analizado el mecanismo con más bits
de visibilidad adicionales, no obteniendo una ganancia aparente con cualquier algoritmo. Aunque la extensión, LBDRe, saca el potencial al máximo de los
algoritmos en topologı́as irregulares, se aconseja usar
el mecanismo, LBDR, debido a su mayor simplicidad.
Con el algoritmo de encaminamiento adecuado (XY
y/o U D) las pérdidas en rendimiento no existen.
Agradecimientos
El presente trabajo ha sido financiado mediante el
proyecto CONSOLIDER-INGENIO 2010 con registro CSD2006-00046, el proyecto CICYT con registro TIN2006-15516-C04-01 y por la Junta de Comunidades de Castilla-La Mancha con registro PCC080078.
Agradecimientos también a Maurizio Palesi por su
ayuda prestada en las evaluaciones.
Referencias
[1] Y. Hoskote, S. Vangal, A. Singh, N. Borkar y S. Borkar, A
5-GHz Mesh Interconnect for a Teraflops Processor, IEEE
Micro Magazine, Sept-Oct. 2007, pp. 51-61.
[2] J.A. Kahle, M.N. Day, H.P. Hofstee, C.R. Johns,
T.R. Maeurer y D. Shippy, Introduction to the Cell multiprocessor, IBM Journal of Research and Development,
Volumen 49, Números 4/5, 2005.
[3] J. Flich, A. Mejı́a, P. López y J. Duato, Region-Based
Routing: An Efficient Routing Mechanism to Tackle Unreliable Hardware in Networks on Chip, First International Symposium on Networks on Chip (ISNOC), 2007.
[4] D. Gelernter, A DAG-based algorithm for prevention
of store-and-forward deadlock in packet networks, IEEE
Transactions on Computers, 30(10):709-715, Oct. 1981.
[5] J.C. Sancho, A. Robles y J. Duato, A Flexible Routing Schemes for Networks of Workstations, Third International Symposium on High Performance Computing
(ISHPC), 2000.
[6] C. Glass y L. Ni, The Turn Model for Adaptive Routing, International Conference on Computer Architecture
(ISCA), 1992.
[7] Noxim:
Simulador de Redes dentro del chip,
http://noxim.sourceforge.net.
[8] Librerı́a 90nm de TSMC, http://www.tsmc.com.