22 de noviembre de 2024

Computex 2024 – AMD impulsa la innovación y el liderazgo en inteligencia artificial en centros de datos con la hoja de ruta expandida de la GPU AMD Instinct

Escucha este Artículo

Durante Computex 2024, AMD destacó el progreso continuo de la familia de aceleradores AMD Instinct™ en el discurso inaugural de su presidenta y CEO, la Dra. Lisa Su. AMD reveló una hoja de ruta extendida y a largo plazo para los aceleradores AMD Instinct, prometiendo una actualización anual de las capacidades líderes en rendimiento y memoria para inteligencia artificial con cada nueva generación.

La hoja de ruta actual comienza con el lanzamiento del nuevo acelerador AMD Instinct MI325X, disponible en el último trimestre de 2024. Posteriormente, se anticipa que la Serie AMD Instinct MI350, con la novedosa arquitectura AMD CDNA™ 4, llegará en 2025, ofreciendo un incremento de hasta 35 veces en el rendimiento de inferencia de IA frente a la Serie AMD Instinct MI300 que utiliza la arquitectura AMD CDNA 3. Para 2026, se espera el debut de la serie AMD Instinct MI400, fundamentada en la avanzada arquitectura AMD CDNA «Next».

«Los aceleradores AMD Instinct MI300X continúan su fuerte adopción por parte de numerosos socios y clientes, incluidos Microsoft Azure, Meta, Dell Technologies, HPE, Lenovo y otros, un resultado directo del rendimiento excepcional y la propuesta de valor del acelerador AMD Instinct MI300X», dijo Brad McCredie, vicepresidente corporativo de Data Center Accelerated Compute, AMD. «Con nuestra cadencia anual actualizada de productos, somos implacables en nuestro ritmo de innovación, proporcionando las capacidades de liderazgo y el rendimiento que la industria de la IA y nuestros clientes esperan para impulsar la próxima evolución del entrenamiento y la inferencia de la IA en los centros de datos».

El ecosistema de software de IA de AMD madura

La plataforma de software abierto AMD ROCm™ 6 sigue evolucionando, permitiendo que los aceleradores AMD Instinct MI300X ofrezcan un rendimiento sobresaliente para algunos de los LLM más reconocidos. Con un servidor equipado con ocho aceleradores AMD Instinct MI300X y ROCm 6 ejecutando Meta Llama-3 70B, los clientes pueden experimentar un rendimiento de inferencia y generación de tokens 1.3 veces superior al de la competencia[ii]. Utilizando un único acelerador AMD Instinct MI300X con ROCm 6, se puede lograr un rendimiento de inferencia y generación de tokens 1.2 veces mayor en comparación con la competencia en Mistral-7B[iii]. AMD también resaltó que Hugging Face, el repositorio más extenso y popular de modelos de IA, está verificando 700,000 de sus modelos más destacados cada noche para garantizar su compatibilidad inmediata con los aceleradores AMD Instinct MI300X. Adicionalmente, AMD sigue avanzando en su colaboración con marcos de IA de gran popularidad como PyTorch, TensorFlow y JAX.

AMD presenta nuevos aceleradores y revela su hoja de ruta anual.

En la presentación inaugural, AMD desveló una actualización anual en la hoja de ruta de su acelerador AMD Instinct para responder a la demanda creciente de computación IA más avanzada. Esto asegurará que los aceleradores AMD Instinct sean una fuerza motriz en el desarrollo de los próximos modelos de IA de última generación. La hoja de ruta actualizada anualmente de AMD Instinct resalta:

  • El nuevo acelerador AMD Instinct MI325X, que aportará 288 GB de memoria HBM3E y 6 terabytes por segundo de ancho de banda de memoria, utiliza el mismo diseño de servidor de placa base universal estándar de la industria utilizado por la serie AMD Instinct MI300 y estará disponible de forma general en el cuarto trimestre de 2024. El acelerador tendrá una capacidad de memoria y un ancho de banda líderes en la industria, 2 veces y 1.3 veces mejor que la competencia, respectivamente[iv], y un rendimiento informático 1.3 veces mejor[v] que el de la competencia.
  • El primer producto de la Serie AMD Instinct MI350, el acelerador AMD Instinct MI350X, se basa en la arquitectura AMD CDNA 4 y se espera que esté disponible en 2025. Utilizará el mismo diseño de servidor de placa base universal estándar de la industria que otros aceleradores de la Serie MI300 y se construirá utilizando tecnología de proceso avanzada de 3 nm, admitirá los tipos de datos de IA FP4 y FP6 y tendrá hasta 288 GB de memoria HBM3E.  
  • Se espera que la arquitectura AMD CDNA «Next», que impulsará los aceleradores AMD Instinct MI400 Series, esté disponible en 2026 y proporcione las últimas características y capacidades que ayudarán a desbloquear un rendimiento y una eficiencia adicionales para la inferencia y el entrenamiento de IA a gran escala.

Por último, AMD destacó que la demanda de aceleradores AMD Instinct MI300X sigue creciendo con numerosos socios y clientes que utilizan los aceleradores para impulsar sus exigentes cargas de trabajo de IA, entre las que se incluyen:

Conoce más anuncios de IA de AMD Computex aquí y ve una repetición en video de la presentación en la página de YouTube de AMD.

Keynote Completa:


[i]MI300-55: Inference performance projections as of May 31, 2024 using engineering estimates based on the design of a future AMD CDNA 4-based Instinct MI350 Series accelerator as proxy for projected AMD CDNA™ 4 performance. A 1.8T GPT MoE model was evaluated assuming a token-to-token latency = 70ms real time, first token latency = 5s, input sequence length = 8k, output sequence length = 256, assuming a 4x 8-mode MI350 series proxy (CDNA4) vs. 8x MI300X per GPU performance comparison. Actual performance will vary based on factors including but not limited to final specifications of production silicon, system configuration and inference model and size used.
[ii] MI300-54: Testing completed on 05/28/2024 by AMD performance lab attempting text generated Llama3-70B using batch size 1 and 2048 input tokens and 128 output tokens for each system.
Configurations:
2P AMD EPYC 9534 64-Core Processor based production server with 8x AMD InstinctTM MI300X (192GB, 750W) GPU, Ubuntu® 22.04.1, and ROCm™ 6.1.1
Vs.
2P Intel Xeon Platinum 8468 48-Core Processor based production server with 8x NVIDIA Hopper H100 (80GB, 700W) GPU, Ubuntu 22.04.3, and CUDA® 12.2
8 GPUs on each system was used in this test.
Server manufacturers may vary configurations, yielding different results. Performance may vary based on use of latest drivers and optimizations.
[iii] MI300-53: Testing completed on 05/28/2024 by AMD performance lab attempting text generated throughput measured using Mistral-7B model comparison.
Tests were performed using batch size 56 and 2048 input tokens and 2048 output tokens for Mistral-7B
Configurations:
2P AMD EPYC 9534 64-Core Processor based production server with 8x AMD InstinctTM MI300X (192GB, 750W) GPU, Ubuntu® 22.04.1, and ROCm™ 6.1.1
Vs.
2P Intel Xeon Platinum 8468 48-Core Processor based production server with 8x NVIDIA Hopper H100 (80GB, 700W) GPU, Ubuntu 22.04.3, and CUDA® 12.2
Only 1 GPU on each system was used in this test.
Server manufacturers may vary configurations, yielding different results. Performance may vary based on use of latest drivers and optimizations.
[iv]MI300-48 – Cálculos realizados por AMD Performance Labs a partir del 22 de mayo de 2024, basados en especificaciones y/o estimaciones actuales. Se proyecta que el acelerador AMD Instinct™ MI325X OAM tenga una capacidad de memoria HBM3e de 288 GB y un rendimiento de ancho de banda de memoria teórico máximo de 6 TFLOPS. Los resultados reales basados en el silicio de producción pueden variar.   
Los resultados más altos publicados en el acelerador de GPU NVidia Hopper H200 (141 GB) SXM dieron como resultado una capacidad de memoria HBM3e de 141 GB y un rendimiento de ancho de banda de memoria de GPU de 4,8 TB/s.
https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446
Los resultados más altos publicados en el acelerador de GPU NVidia Blackwell HGX B100 (192 GB) de 700 W dieron como resultado una capacidad de memoria HBM3e de 192 GB y un rendimiento de ancho de banda de memoria de GPU de 8 TB/s.
https://resources.nvidia.com/en-us-blackwell-architecture?_gl=1*1r4pme7*_gcl_aw*R0NMLjE3MTM5NjQ3NTAuQ2p3S0NBancyNkt4we know QmhCREVpd0F1NktYdDlweXY1dlUtaHNKNmhPdHM4UVdPSlM3dFdQaE40WkI4THZBaWFVajFyTGhYd3hLQmlZQ3pCb0NsVElRQXZEX0J3RQ.. *_gcl_au*MTIwNjg4NjU0Ny4xNzExMDM1NTQ3 
Los resultados más altos publicados en el acelerador de GPU NVidia Blackwell HGX B200 (192 GB) dieron como resultado una capacidad de memoria HBM3e de 192 GB y un rendimiento de ancho de banda de memoria de GPU de 8 TB/s.
https://resources.nvidia.com/en-us-blackwell-architecture?_gl=1*1r4pme7*_gcl_aw*R0NMLjE3MTM5NjQ3NTAuQ2p3S0NBancyNkt4QmhCREVpd0F1NktYdDlweXY1dlUtaHNKNmhPdHM4UVdPSlM3dFdQaE40WkI4THZBaWFVajFyTGhYd3hLQmlZQ3pCb0NsVElRQXZEX0J3RQ.. *_gcl_au*MTIwNjg4NjU0Ny4xNzExMDM1NTQ3 
[v]MI300-49: Los cálculos realizados por los laboratorios de rendimiento de AMD a partir del 28 de mayo de 2024 para la GPU AMD Instinct™ MI325X dieron como resultado una precisión media teórica máxima de 1307,4 TFLOPS (FP16), una precisión teórica máxima del formato Bfloat16 de 1307,4 TFLOPS (BF16), una precisión teórica máxima de 8 bits (FP8) de 2614,9 TFLOPS, un rendimiento de punto flotante INT8 de 2614,9 TFLOPS. El rendimiento real variará en función de las especificaciones finales y la configuración del sistema.
Resultados publicados en la GPU Nvidia H200 SXM (141 GB): 989,4 TFLOPS de tensor teórico máximo de media precisión (FP16 Tensor), 989,4 TFLOPS de precisión teórica máxima del formato de tensor Bfloat16 (BF16 Tensor), 1.978,9 TFLOPS de precisión teórica máxima de 8 bits (FP8), 1.978,9 TOPs de rendimiento teórico máximo de punto flotante INT8. BFLOAT16 rendimiento de Tensor Core, FP16 Tensor Core, FP8 Tensor Core e INT8 Tensor Core fueron publicados por Nvidia utilizando sparsity; para fines de comparación, AMD convirtió estos números en no dispersos/densos dividiéndolos por 2, y estos números aparecen arriba.
Fuente de Nvidia H200: https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446 y https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024
Nota: Las GPU Nvidia H200 tienen el mismo rendimiento de FLOP publicado que los productos H100 https://resources.nvidia.com/en-us-tensor-core/