Download Arquitecturas con varios procesadores Tecnología
Document related concepts
no text concepts found
Transcript
REDES DE ALTAS PRESTACIONES Y SUS APLICACIONES Presentación Departamento de Arquitectura y Tecnología de Computadores E.T.S. Ingeniería Informática Julio Ortega Lopera. Curso 2004/2005 Arquitecturas con varios procesadores Posibilidades Capacidades Prestaciones Promueve Tecnología Posibilidades Arquitectura Demanda Posibilidades Nuevas Restricciones Aplicaciones Selección Restricciones Económicas Mercado Generación Fundamental Fuerte Visible Tendencia hacia arquitecturas con varios procesadores resultado de la interacción Tecnología- Adaptado de Vajapeyam/Valero (Computer, Abril 2001) Mercados-Aplicaciones Curso de Doctorado RAPyA (2004/05) Arquitecturas con varios procesadores Tecnología: • Procesadores y redes de altas prestaciones: permiten configurar plataformas paralelas eficientes en tiempos reducidos. • Limitaciones previsibles en la tecnología: efecto de los retardos relativos crecientes y de las limitaciones en el consumo de potencia (12% de crecimiento anual de la capacidad de los procesadores) Aplicaciones y Mercados: • Aplicaciones que demandan velocidades y capacidad de memoria fuera del alcance de las plataformas monoprocesador (Grand Challenge) • Demanda elevada de disponibilidad (Internet: mantenimiento y amplicación sin tiempos muertos) Curso de Doctorado RAPyA (2004/05) Arquitecturas con varios procesadores Tecnología: • Posibilidades Procesadores y redes de altas prestaciones • Limitaciones previsibles en la tecnología (retardos relativos crecientes y limitaciones en el consumo de potencia) Capacidades Prestaciones Promueve Tecnología Posibilidades Arquitectura Aplicaciones Demanda Posibilidades Nuevas Restricciones Selección Restricciones • Aplicaciones que Económicas Generación demandan velocidad Mercado y memoria (Grand Challenge) • Demanda elevada Fundamental de disponibilidad Fuerte Visible Adaptado de Vajapeyam/Valero (Computer, Abril 2001) Curso de Doctorado RAPyA (2004/05) Arquitecturas con varios procesadores Tecnología Aplicaciones Mercado Mercado para aplicaciones que requieren alta disponibilidad • Procesamiento de transacciones • Sistemas de control en entornos médicos, medios de transporte, ambientes seguros • Aplicaciones de internet - Mercados financieros continuos - Acceso a bases de datos e información - Computación móvil - No hay tiempos muertos (para mantenimiento, ampliación,...) Curso de Doctorado RAPyA (2004/05) Arquitecturas con varios procesadores Tecnología Grandes desafíos (Grand challenges) Memoria (Gbytes) 100000 TOP500 (Nov2001) 10000 Aplicaciones Genoma Humano Cambio Climático Dinámica de Fluidos Viscosos Modelado de Semiconductores Modelado de Superconductores Cromodinámica cuántica Circulación de Océanos 1000 100 Tiempo 72 horas 1 3 2 Diseño Farmacéutico Modelado Plasma 3D 0.1 Mercado 1 Biología Estructural 10 0.01 TOP500 (Nov2002) Tiempo 48-horas Dinámica química Teraflops 0.1 1980 1 1988 10 1991 102 1993 103 1995 Petaflops 104 105 2002 106 Gigaflops Alta Disponibilidad (High Availability) Curso de Doctorado RAPyA (2004/05) Arquitecturas con varios procesadores Tecnología Ritmo de Mejora de los Microprocesadores Ritmo de mejora de los microprocesadores 1. Si prosigue: Plataformas paralelas que puedan desarrollarse en poco tiempo, a partir de hardware disponible Aproximadamente la Ley de Aplicaciones Moore (el doble cada 18 meses) Plataformas con muchos procesadores + (suponen Tecnología un incremento de prestaciones Tecnología Arquitectura muy elevado) 2. Si no prosigue: Mercado Usar varios procesadores es la opción para configurar plataformas con mejores prestaciones. Curso de Doctorado RAPyA (2004/05) Influencia de la Tecnología Más transistores por circuito integrado Microarquitecturas más complejas en un solo CI: Paralelismo entre Instrucciones (Procesadores Superescalares) Mejora de la Tecnología de Fabricación de CI basada en el Silicio Reducción del tamaño de los transistores + Aumento del tamaño del dado TCPU = NI x CPI x Tciclo Se reduce la longitud de puerta del transistor y con ello el tiempo de conmutación Mayores frecuencias de funcionamiento Curso de Doctorado RAPyA (2004/05) Reducción en CPI (Ciclos/Instrucción) No segmentado Inst. 1 IF ID Inst. 2 Inst. 1 EX MEM IF 5T IF Inst. 2 CPI=5 WB ID MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM T Inst. 1 IF ID EX MEM WB Inst. 2 IF ID EX MEM WB Inst. 3 IF ID EX MEM WB Inst. 4 IF ID EX MEM WB WB Segmentado EX Inst. 4 MEM T ID Inst. 3 EX CPI=1 WB Superescalar o VLIW CPI=0.5 Curso de Doctorado RAPyA (2004/05) Procesadores Superescalares Captador BTB Unidad de Enteros Cola de Instrucciones Buffer de Reorden Banco de Registros Ventana de Instrucciones Decodificador Saltos ALU Unidad de Flotantes Desplz. Comp. Buffer de Reorden Direcc. Banco de Registros Ventana de Instrucciones Suma Conv. Mult. Div. Direcc. Buffer de Almacen. Saltos Buffer de Carga Aumentar la complejidad del procesador para incluir más recursos para poder ejecutar más instrucciones por ciclo Curso de Doctorado RAPyA (2004/05) Limites de la Tecnología Retardo~RwireCwire Cada vez se puede acceder a menos superficie (relativa) del CI en un ciclo de reloj: Rwire=/(WxH) Incrementar IPC (a costa de más complejidad) y reducir el tiempo de ciclo se hacen mutuamente dependientes. H W Rwire Cwire~ Los límites en la potencia que puede consumir un CI restringen la frecuencia a la que puede funcionar Pot ACV 2 f AVIshort VIleakage ( V Vthreshold ) 2 fmax B V eVthershold I leakage H exp KT Curso de Doctorado RAPyA (2004/05) Límites en las Mejoras de los Superescalares 1720 Las mejoras tecnológicas no permitirán más de un factor de mejora anual del 12% anual en las prestaciones de los procesadores hasta el 2014. Esto supone incrementar las prestaciones en 7.4 veces (El factor de mejora actual del 55% anual llevaría a prestaciones 1700 veces las actuales) 1. ILP en una hebra con microarquitecturas sencillas: VLIW 2. Procesamiento paralelo de varias hebras: SMT y CMP Curso de Doctorado RAPyA (2004/05) Procesadores VLIW: Itanium 2 (IA-64) +32 TLB L1I Buffer Direcciones relativas a IP M RSE ROT Cache L1D ALU enteros M M M I Renombramiento Enteros Registros para Enteros I F F B FP Registros Saltos Coma Flotante Cache L3 Interfaz Sistema EXP REG FP Multim. enteros B REN Renomb. Marcas L2 Cache L2 B EXE FP1 Núcleo Detección de Riesgos ALAT Buffer de Instrucciones (8 haces = 24 instr.) Decodificación y distribución de instrucciones Patrones de Historia TLB L2D IPG Cache L1 I Antesala Predicción de Saltos DET FP2 WRB FP3 FP4 El aprovechamiento del paralelismo es responsabilidad del compilador Curso de Doctorado RAPyA (2004/05) Alternativas (I): Una vs. Varias Hebras ¿? - Superescalares Técnicas agresivas de especulación (procesadores superespeculativos) Una Hebra - VLIW - SMT (Multihebra Simultánea) Varias Hebras - CMP (Multiprocesador Uni-chip) Curso de Doctorado RAPyA (2004/05) SMT Superespeculativos Alternativas (II): Superescalar, VLIW, y Multihebra Thread 1 (T1): I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 Thread 2 (T2): I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12 I1 I3 I2 I5 I4 I6 I7 I9 I1 I3 I2 I5 I2 I3 I1 I4 I7 I8 I10 I4 I2 I3 I9 I1 I4 I7 I8 I5 Superescalar I8 I6 Instrucciones emitidas por ciclo I1 I3 I2 I1 I3 X I2 I5 I6 I2 X I5 I6 X X I3 I5 I4 I7 I1 X I7 I4 I8 I9 I4 I5 X X I9 I7 I8 I7 I8 I8 X X 10 I6 X I10 X I9 I10 X I2 I3 I1 I4 I5 I10 I6 I11 Multihebra Multihebra Simultánea Curso de Doctorado RAPyA (2004/05) VLIW Tiempo Ejemplo de Arquitectura Multihebra: Pentium 4 Hyper-Threading Intel ha desarrollado el Pentium 4 a 3.06 GHz con características de un procesador SMT (Simultaneous Multithreading). La denominación de Intel para esta arquitectura es HyperThreading (HT). El procesador puede ejecutar simultáneamente dos hebras que pueden corresponder a una misma tarea (programada en varias hebras) o a tareas diferentes. SPECint_base2000= 1099; SPECfp_base2000=1077 Adobe Photoshop se ejecuta un 21% más rápido cuando se ejecuta al mismo tiempo en antivirus de McAfee. Curso de Doctorado RAPyA (2004/05) Ejemplo de Multiprocesador en un Chip (CMP): Power4 de IBM Incluye dos procesadores superescalares a 1 GHz (o más) Ancho de banda a cache L2 de 100 GB/s y de 55 GB/s a memoria o a otros chips Power4 Otros ejemplos UltraSPARC IV (2 UltraSPARC III) Intel Montecito (2006): 2 Itanium, 24 MB Cache L3 1700 Millones de transistores Curso de Doctorado RAPyA (2004/05) Multiprocesador en un Multi-Chip: Power5 de IBM Cache L3 (4x36MB=144 MB) Power5 (1.4-2 GHz, 275 M Trans): 2 CPUs SMT (4 proc. lógicos) Multiprocesador con 64 proc. SMT Curso de Doctorado RAPyA (2004/05) Ejemplo de Arquitectura Superescalar: AMD Hammer x86-64 Tecnología de Comunicación HyperTransport: permite configurar sistemas con varios multiprocesadores (glueless MP), aumentando el ancho de banda y proporciona enlaces punto-a-punto (full duplex y de transacciones partidas) Integra el puerto norte con el controlador de memoria (reduce la latencia DRAM, permite PC1600, PC2100, PC2700) SRQ = System Request Queue Curso de Doctorado RAPyA (2004/05) Clusters de Computadores (I) Conjunto de Computadores (completos) conectados y utilizados como un único recurso de cómputo: • No es una plataforma con procesadores con acceso uniforme a memoria y a las E/S (SMP) • Computadores y conexión constituidos por hardware comercial • Aprovechamiento rápido de las mejoras en la tecnología del hardware (microprocesadores y redes). • Relación prestaciones/coste elevada • Mejorar la imagen del cluster como sistema único (SSI): costo de mantenimiento y administración elevado • Como plataforma para procesamiento paralelo: mejorar las prestaciones de comunicación Curso de Doctorado RAPyA (2004/05) Clusters de Computadores (II) Ley de Moore (1979): El número de transistores por Circuito Integrado se dobla cada 18-24 meses (asumiendo precio constante del CI) Entre un 40% y un 57% de mejora anual en los microprocesadores: Tres órdenes de magnitud (x103) en 15 años 70 ¿Se puede mantener este ritmo de mejora? 60 50 40 32 30 20 10 0 0 1,5 3 4.5 6 7.5 9 Curso de Doctorado RAPyA (2004/05) Analizar el origen de las mejoras que se han conseguido y ver las tendencias previsibles Clusters de Computadores (III) TOP500 100% 80% Clusters Constelac SIMD UniProc. MPP SMP 60% 40% 20% 19 93 (1 19 ) 94 (2 19 ) 96 (1 19 ) 97 (2 19 ) 99 (1 20 ) 00 (2 20 ) 02 (1 ) 0% #5 (TOP500): Linux NetworX (Xeon 2.4 GHz, QsNet, 2304 procesadores) Rpico=11.06 TFLOPS; Rmax=5.69 TFLOPS Curso de Doctorado RAPyA (2004/05) Bibliografía Cormer, D. E.:”Network Systems Design using Network Processors”. Prentice Hall, 2004. Beck, M., et al.:”Linux Kernel Programming”. Tercera Edición. Addison Wesley, 2002. Herbert, T.F.:”The Linux TCP/IP Stack: Networking for Embedded Systems”. Charles River Media, 2004 Curso de Doctorado RAPyA (2004/05)