Download Arquitecturas con varios procesadores Tecnología

Document related concepts
no text concepts found
Transcript
REDES DE ALTAS PRESTACIONES
Y SUS APLICACIONES
Presentación
Departamento de Arquitectura y
Tecnología de Computadores
E.T.S. Ingeniería
Informática
Julio Ortega Lopera. Curso 2004/2005
Arquitecturas con varios procesadores
Posibilidades
Capacidades
Prestaciones
Promueve
Tecnología
Posibilidades
Arquitectura
Demanda
Posibilidades
Nuevas
Restricciones
Aplicaciones
Selección
Restricciones
Económicas
Mercado
Generación
Fundamental
Fuerte
Visible
Tendencia hacia arquitecturas con varios
procesadores resultado de la interacción Tecnología- Adaptado de Vajapeyam/Valero (Computer, Abril 2001)
Mercados-Aplicaciones
Curso de Doctorado RAPyA (2004/05)
Arquitecturas con varios procesadores
Tecnología:
•
Procesadores y redes de altas prestaciones: permiten
configurar plataformas paralelas eficientes en tiempos reducidos.
•
Limitaciones previsibles en la tecnología: efecto de los
retardos relativos crecientes y de las limitaciones en el consumo
de potencia (12% de crecimiento anual de la capacidad de los
procesadores)
Aplicaciones y Mercados:
•
Aplicaciones que demandan velocidades y capacidad de
memoria fuera del alcance de las plataformas monoprocesador
(Grand Challenge)
•
Demanda elevada de disponibilidad (Internet: mantenimiento y
amplicación sin tiempos muertos)
Curso de Doctorado RAPyA (2004/05)
Arquitecturas con varios procesadores
Tecnología:
•
Posibilidades
Procesadores y redes
de altas prestaciones
•
Limitaciones previsibles en la tecnología (retardos relativos crecientes
y limitaciones en el consumo de potencia)
Capacidades
Prestaciones
Promueve
Tecnología
Posibilidades
Arquitectura
Aplicaciones
Demanda
Posibilidades
Nuevas
Restricciones
Selección
Restricciones
•
Aplicaciones que
Económicas
Generación
demandan
velocidad
Mercado
y
memoria (Grand Challenge)
•
Demanda elevada Fundamental
de
disponibilidad Fuerte
Visible
Adaptado de Vajapeyam/Valero (Computer, Abril 2001)
Curso de Doctorado RAPyA (2004/05)
Arquitecturas con varios procesadores
Tecnología
Aplicaciones
Mercado
Mercado para aplicaciones que requieren
alta disponibilidad
•
Procesamiento de transacciones
•
Sistemas de control en entornos médicos,
medios de transporte, ambientes seguros
•
Aplicaciones de internet
- Mercados financieros continuos
-
Acceso a bases de datos e
información
-
Computación móvil
-
No hay tiempos muertos (para
mantenimiento, ampliación,...)
Curso de Doctorado RAPyA (2004/05)
Arquitecturas con varios procesadores
Tecnología
Grandes desafíos (Grand challenges)
Memoria
(Gbytes)
100000
TOP500
(Nov2001)
10000
Aplicaciones
Genoma Humano
Cambio Climático
Dinámica de Fluidos Viscosos
Modelado de Semiconductores
Modelado de Superconductores
Cromodinámica cuántica
Circulación de Océanos
1000
100
Tiempo
72 horas
1
3
2
Diseño
Farmacéutico
Modelado
Plasma 3D
0.1
Mercado
1
Biología
Estructural
10
0.01
TOP500
(Nov2002)
Tiempo
48-horas
Dinámica
química
Teraflops
0.1
1980
1
1988
10
1991
102
1993
103
1995
Petaflops
104
105
2002
106
Gigaflops
Alta Disponibilidad (High Availability)
Curso de Doctorado RAPyA (2004/05)
Arquitecturas con varios procesadores
Tecnología
Ritmo de Mejora de los Microprocesadores
Ritmo de mejora de los microprocesadores
1. Si prosigue:
Plataformas paralelas que puedan
desarrollarse en poco tiempo, a partir de
hardware
disponible
Aproximadamente
la Ley de
Aplicaciones
Moore (el doble cada 18 meses)
Plataformas con muchos procesadores
+
(suponen Tecnología
un incremento
de prestaciones
Tecnología
Arquitectura
muy elevado)
2. Si no prosigue:
Mercado
Usar varios procesadores es la opción para
configurar plataformas con mejores
prestaciones.
Curso de Doctorado RAPyA (2004/05)
Influencia de la Tecnología
Más transistores por circuito integrado 
Microarquitecturas más complejas en un solo CI:
Paralelismo entre Instrucciones (Procesadores
Superescalares)
Mejora de la Tecnología de
Fabricación de CI basada en el
Silicio  Reducción del
tamaño de los transistores
+ Aumento del tamaño del
dado
TCPU = NI x CPI x Tciclo
Se reduce la longitud de puerta del transistor y con ello
el tiempo de conmutación  Mayores frecuencias de
funcionamiento
Curso de Doctorado RAPyA (2004/05)
Reducción en CPI (Ciclos/Instrucción)
No segmentado
Inst. 1
IF
ID
Inst. 2
Inst. 1
EX
MEM
IF
5T
IF
Inst. 2
CPI=5
WB
ID
MEM
WB
IF
ID
EX
MEM
WB
IF
ID
EX
MEM
WB
IF
ID
EX
MEM
T
Inst. 1
IF
ID
EX
MEM
WB
Inst. 2
IF
ID
EX
MEM
WB
Inst. 3
IF
ID
EX
MEM
WB
Inst. 4
IF
ID
EX
MEM
WB
WB
Segmentado
EX
Inst. 4
MEM
T
ID
Inst. 3
EX
CPI=1
WB
Superescalar o VLIW
CPI=0.5
Curso de Doctorado RAPyA (2004/05)
Procesadores Superescalares
Captador
BTB
Unidad de
Enteros
Cola de
Instrucciones
Buffer de
Reorden
Banco de Registros
Ventana de
Instrucciones
Decodificador
Saltos
ALU
Unidad de
Flotantes
Desplz.
Comp.
Buffer de
Reorden
Direcc.
Banco de Registros
Ventana de
Instrucciones
Suma
Conv.
Mult.
Div.
Direcc.
Buffer de
Almacen.
Saltos
Buffer de
Carga
Aumentar la complejidad del procesador para incluir más
recursos para poder ejecutar más instrucciones por ciclo
Curso de Doctorado RAPyA (2004/05)
Limites de la Tecnología
Retardo~RwireCwire
Cada vez se puede acceder a menos superficie
(relativa) del CI en un ciclo de reloj:
Rwire=/(WxH)
Incrementar IPC (a costa de más
complejidad) y reducir el tiempo de ciclo se
hacen mutuamente dependientes.
H
W
Rwire
Cwire~
Los límites en la potencia que puede consumir
un CI restringen la frecuencia a la que puede
funcionar
Pot  ACV 2 f  AVIshort  VIleakage
( V  Vthreshold ) 2
fmax  B
V
  eVthershold 
I leakage  H  exp

KT


Curso de Doctorado RAPyA (2004/05)
Límites en las Mejoras de los Superescalares
1720
Las mejoras tecnológicas no
permitirán más de un factor de
mejora anual del 12% anual en
las prestaciones de los
procesadores hasta el 2014.
Esto supone incrementar las
prestaciones en 7.4 veces
(El factor de mejora actual del
55% anual llevaría a
prestaciones 1700 veces las
actuales)
1.
ILP en una hebra con microarquitecturas sencillas: VLIW
2.
Procesamiento paralelo de varias hebras: SMT y CMP
Curso de Doctorado RAPyA (2004/05)
Procesadores VLIW: Itanium 2 (IA-64)
+32
TLB
L1I
Buffer Direcciones
relativas a IP
M
RSE
ROT
Cache
L1D
ALU
enteros
M
M
M
I
Renombramiento Enteros
Registros para Enteros
I
F
F
B
FP
Registros
Saltos
Coma
Flotante
Cache
L3
Interfaz
Sistema
EXP
REG
FP
Multim.
enteros
B
REN
Renomb.
Marcas
L2
Cache
L2
B
EXE
FP1
Núcleo
Detección
de Riesgos
ALAT
Buffer de Instrucciones
(8 haces = 24 instr.)
Decodificación y distribución de instrucciones
Patrones de
Historia
TLB
L2D
IPG
Cache L1 I
Antesala
Predicción
de Saltos
DET
FP2
WRB
FP3
FP4
El aprovechamiento del paralelismo es responsabilidad del compilador
Curso de Doctorado RAPyA (2004/05)
Alternativas (I): Una vs. Varias Hebras
¿?
- Superescalares
Técnicas agresivas de especulación
(procesadores superespeculativos)
Una
Hebra
- VLIW
- SMT (Multihebra Simultánea)
Varias
Hebras
- CMP (Multiprocesador Uni-chip)
Curso de Doctorado RAPyA (2004/05)
SMT
Superespeculativos
Alternativas (II): Superescalar, VLIW, y Multihebra
Thread 1 (T1): I1 I2 I3 I4 I5 I6 I7 I8 I9 I10
Thread 2 (T2): I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12
I1
I3
I2
I5
I4
I6
I7
I9
I1
I3
I2
I5
I2
I3
I1
I4
I7
I8
I10
I4
I2
I3
I9
I1
I4
I7
I8
I5
Superescalar
I8
I6
Instrucciones emitidas por ciclo
I1
I3
I2
I1
I3
X
I2
I5
I6
I2
X
I5
I6
X
X
I3
I5
I4
I7
I1
X
I7
I4
I8
I9
I4
I5
X
X
I9
I7
I8
I7
I8
I8
X
X
10
I6
X
I10
X
I9
I10
X
I2
I3
I1
I4
I5
I10
I6
I11
Multihebra
Multihebra
Simultánea
Curso de Doctorado RAPyA (2004/05)
VLIW
Tiempo
Ejemplo de Arquitectura Multihebra: Pentium 4
Hyper-Threading
Intel ha desarrollado el Pentium 4 a 3.06 GHz con
características de un procesador SMT (Simultaneous Multithreading).
La denominación de Intel para esta arquitectura es HyperThreading (HT).
El procesador puede ejecutar simultáneamente dos hebras que
pueden corresponder a una misma tarea (programada en varias
hebras) o a tareas diferentes.
SPECint_base2000= 1099; SPECfp_base2000=1077
Adobe Photoshop se ejecuta un 21% más rápido cuando se
ejecuta al mismo tiempo en antivirus de McAfee.
Curso de Doctorado RAPyA (2004/05)
Ejemplo de Multiprocesador en un Chip (CMP):
Power4 de IBM
Incluye dos procesadores superescalares a 1 GHz (o más)
Ancho de banda a cache L2 de 100 GB/s y de 55 GB/s a memoria
o a otros chips Power4
Otros ejemplos
UltraSPARC IV (2 UltraSPARC III)
Intel Montecito (2006):
2 Itanium, 24 MB Cache L3
1700 Millones de transistores
Curso de Doctorado RAPyA (2004/05)
Multiprocesador en un Multi-Chip: Power5 de IBM
Cache L3 (4x36MB=144 MB)
Power5 (1.4-2 GHz, 275 M Trans):
2 CPUs SMT (4 proc. lógicos)
Multiprocesador con 64 proc. SMT
Curso de Doctorado RAPyA (2004/05)
Ejemplo de Arquitectura Superescalar: AMD
Hammer x86-64
Tecnología de Comunicación HyperTransport: permite
configurar sistemas con varios multiprocesadores
(glueless MP), aumentando el ancho de banda y
proporciona enlaces punto-a-punto (full duplex y de
transacciones partidas)
Integra el puerto norte con el controlador de
memoria (reduce la latencia DRAM, permite
PC1600, PC2100, PC2700)
SRQ = System Request Queue
Curso de Doctorado RAPyA (2004/05)
Clusters de Computadores (I)
Conjunto de Computadores (completos) conectados y
utilizados como un único recurso de cómputo:
•
No es una plataforma con procesadores con acceso uniforme a
memoria y a las E/S (SMP)
•
Computadores y conexión constituidos por hardware comercial
•
Aprovechamiento rápido de las mejoras en la tecnología del hardware
(microprocesadores y redes).
•
Relación prestaciones/coste elevada
•
Mejorar la imagen del cluster como sistema único (SSI): costo de
mantenimiento y administración elevado
•
Como plataforma para procesamiento paralelo: mejorar las
prestaciones de comunicación
Curso de Doctorado RAPyA (2004/05)
Clusters de Computadores (II)
Ley de Moore (1979): El número de transistores por Circuito Integrado se
dobla cada 18-24 meses (asumiendo precio constante del CI)
Entre un 40% y un 57% de mejora anual en los microprocesadores:
Tres órdenes de magnitud (x103) en 15 años
70
¿Se puede mantener
este ritmo de
mejora?
60
50
40
32
30
20
10
0
0
1,5
3
4.5
6
7.5
9
Curso de Doctorado RAPyA (2004/05)
Analizar el origen de
las mejoras que se
han conseguido y ver
las tendencias
previsibles
Clusters de Computadores (III)
TOP500
100%
80%
Clusters
Constelac
SIMD
UniProc.
MPP
SMP
60%
40%
20%
19
93
(1
19 )
94
(2
19 )
96
(1
19 )
97
(2
19 )
99
(1
20 )
00
(2
20 )
02
(1
)
0%
#5 (TOP500): Linux NetworX (Xeon 2.4 GHz, QsNet, 2304 procesadores)
Rpico=11.06 TFLOPS; Rmax=5.69 TFLOPS
Curso de Doctorado RAPyA (2004/05)
Bibliografía
Cormer, D. E.:”Network Systems Design using Network Processors”.
Prentice Hall, 2004.
Beck, M., et al.:”Linux Kernel Programming”. Tercera Edición. Addison
Wesley, 2002.
Herbert, T.F.:”The Linux TCP/IP Stack: Networking for Embedded
Systems”. Charles River Media, 2004
Curso de Doctorado RAPyA (2004/05)