Las GPU AMD Instinct mantienen el impulso de la IA en los puntos de referencia de la industria y los modelos de IA más exigentes de la actualidad.

Written by on 03/04/2025

Los clientes que evalúan hoy la infraestructura de IA se basan en una combinación de puntos de referencia estándar de la industria y métricas de rendimiento de modelos del mundo real (como los de Llama 3.1 405B, DeepSeek-R1 y otros modelos líderes de código abierto) para guiar sus decisiones de compra de GPU.

 

En AMD, creemos que ofrecer valor en ambas dimensiones es esencial para impulsar una mayor adopción de la IA y una implementación a gran escala en el mundo real. Por eso, adoptamos un enfoque holístico: optimizamos el rendimiento para rigurosos benchmarks del sector como MLperf, a la vez que facilitamos la compatibilidad desde el primer día y la optimización rápida de los modelos más utilizados en producción por nuestros clientes. Esta estrategia ayuda a garantizar que las GPU AMD Instinct™ ofrezcan no solo un rendimiento sólido y estandarizado, sino también una inferencia de IA escalable y de alto rendimiento en los modelos generativos y de lenguaje más recientes que utilizan nuestros clientes.

 

En este blog, exploramos cómo la inversión continua de AMD en evaluación comparativa, habilitación de modelos abiertos, software y herramientas de ecosistema ayuda a desbloquear un mayor valor para los clientes, desde los resultados de MLPerf Inference 5.0 hasta el rendimiento de Llama 3.1 405B y DeepSeek-R1, los avances del software ROCm y más.

 

Serie de novedades para AMD Instinct en MLPerf Inference 5.0

En la ronda MLPerf Inference 5.0, AMD marcó un hito con una serie de importantes primicias que resaltan nuestro creciente impulso en este estándar de referencia clave de la industria .

 

  • Enviamos nuestros primeros números de inferencia MLPerf para AMD Instinct MI325X, nuestra última generación de GPU Instinct lanzada en octubre de 2024.
  • Apoyamos el primer envío de múltiples nodos utilizando la solución AMD Instinct en colaboración con un socio .
  • Por primera vez , permitimos que varios socios envíen resultados utilizando nuestras últimas GPU MI325X.

 

Creciente adopción por parte de la industria y ampliación de nuestra presencia

Estamos orgullosos de que varios socios (Supermicro (SMC) , ASUS y Gigabyte (GCT) con Instinct MI325X y MangoBoost con Instinct MI300X) hayan enviado con éxito los resultados de MLPerf utilizando las GPU AMD Instinct por primera vez.

 

Ronak_Shah_0-1743523255349.png

 

Todas las presentaciones de los socios con Instinct MI325X en Llama 2 70B lograron un rendimiento comparable con los resultados presentados por AMD (Figura 1 ), lo que subraya la consistencia y confiabilidad de nuestras GPU en diversos entornos.

 

Además de Llama 2 70B, AMD ha ampliado sus propuestas para incluir Stable Diffusion XL (SDXL) con las últimas GPU Instinct MI325X, lo que demuestra un rendimiento competitivo en cargas de trabajo de IA generativa (véase la figura 1 ). Nuestras técnicas únicas de partición de GPU fueron fundamentales para lograr un rendimiento competitivo frente a NVIDIA H200 en nuestra primera propuesta SDXL .

 

Ronak_Shah_2-1743523255353.png

Figura 1 : Resultados de envío de AMD ( 1 nodo Instinct MI325X, MLPerf 5.0 – Llama2-70B, ID: 5.0-0001 | SDXL, ID: 5.0-0002) frente a NVIDIA (1 nodo H200 – Llama2-70B y SDXL, ID: 5.0-0060) para los benchmarks de Llama 2 70B y SDXL

 

Más allá de MLPerf, AMD sigue ayudando a los clientes a implementar con confianza los modelos de IA más avanzados a escala. Recientemente, brindamos soporte desde el primer día para los modelos Gemma 3 de Google , lo que permitió un acceso temprano a la inferencia de alto rendimiento en las GPU AMD Instinct . Nuestro trabajo continuo con Llama 3.1 405B y DeepSeek-R1 también brindó un rendimiento líder gracias a los rápidos avances del software ROCm . Profundizaremos en estos aspectos destacados del rendimiento más adelante en el blog, ¡así que siga leyendo !

 

Demostración de escalabilidad: una presentación de múltiples nodos que bate récords

MangoBoost , proveedor de soluciones de sistemas avanzadas que maximizan la eficiencia de los centros de datos de IA, realizó la primera presentación de un socio a MLperf utilizando múltiples nodos de soluciones AMD Instinct, concretamente cuatro nodos de Instinct MI300X. Cabe destacar que esta presentación estableció un nuevo punto de referencia, logrando el mayor rendimiento sin conexión registrado en presentaciones de MLPerf para el benchmark Llama 2 70B (véase la Figura 2 ). Esta presentación valida la escalabilidad y el rendimiento de las soluciones AMD Instinct en cargas de trabajo de IA multinodo .

 

Ronak_Shah_0-1743605057590.png

Figura 2 : Resultados de envío de MangoBoost (4 nodos Instinct MI300X, MLPerf 5.0) vs. AMD (1 nodo Instinct MI300X, MLPerf 4.1) para el benchmark Llama 2 70B

Información sobre el rendimiento de MLPerf

En el centro de los sólidos resultados de AMD MLPerf Inference 5.0 se encuentra la sinergia entre el hardware Instinct MI325X y la innovación de software impulsada por ROCm™.

 

Cada nodo MI325X ofrece 2,048 TB de memoria HBM3e y 6 TB/s de ancho de banda, lo que permite que modelos como Llama 2 70B y SDXL funcionen completamente en memoria incluso en una sola GPU (incluido el caché KV), evitando la sobrecarga entre GPU y maximizando el rendimiento.

 

Los últimos contenedores ROCm quincenales de AMD , disponibles a través de Infinity Hub , aportaron optimizaciones clave en la programación del kernel, el ajuste de GEMM y la eficiencia de inferencia, lo que permitió aprovechar al máximo el potencial del MI325X. Además, la herramienta Quark de AMD permitió la cuantificación de FP16 a FP8, mientras que las mejoras en vLLM y la gestión de memoria mejoraron aún más el rendimiento de la inferencia.

 

Las últimas actualizaciones del ecosistema ROCm están preparadas para mejorar aún más el rendimiento futuro de MLPerf de AMD y ayudar a los clientes de Instinct a escalar cargas de trabajo de IA de forma más eficiente. El nuevo AI Tensor Engine para ROCm (AITER) acelera operaciones críticas como GEMM, Atención y Mixtura de Expertos mediante kernels preoptimizados integrados, lo que ofrece una ejecución del decodificador hasta 17 veces más rápida, mejoras 14 veces mayores en Atención Multicabezal y un rendimiento superior al doble en inferencia LLM. Lea más sobre AITER aquí .

 

AMD también presentó recientemente la Arquitectura Abierta de Rendimiento y Eficiencia (OPEA), un marco multiplataforma que ofrece telemetría exhaustiva en computación, memoria y consumo de energía. Integrada con ROCm y compatible con PyTorch, Triton y configuraciones multi-GPU, OPEA ayuda a los clientes de Instinct a optimizar el rendimiento y escalar del edge a la nube. Descubre más sobre OPEA aquí .

 

Además, AMD GPU Operator simplifica la implementación nativa de Kubernetes de GPU AMD para entornos de IA de producción. Las actualizaciones recientes incluyen automatización mejorada, compatibilidad con GPU multiinstancia (MIG) y una integración más profunda con ROCm, lo que reduce la sobrecarga operativa y acelera la obtención de valor para los usuarios de Instinct. Explore nuestra serie de blogs “Orquestación de inferencia de IA con Kubernetes en Instinct” aquí: Parte 1 , Parte 2 , Parte 3 . 

 

En conjunto, estas mejoras seguirán ayudando a AMD a ofrecer sólidos resultados en las presentaciones de MLPerf y, al mismo tiempo, brindarán aún mayor valor y escalabilidad para los clientes de Instinct.

Manteniendo un rendimiento sólido en los modelos de código abierto más avanzados y recientes disponibles en la actualidad

Basándonos en nuestro éxito en MLPerf, AMD continúa ofreciendo un rendimiento excepcional en los principales modelos de IA de código abierto, especialmente DeepSeek-R1 y Llama 3.1 405B.

 

Optimizado para las GPU AMD Instinct™ MI300X, DeepSeek-R1 se beneficia de las optimizaciones rápidas de ROCm™, logrando una velocidad de inferencia 4 veces mayor en tan solo 14 días. Si bien MI300X compite directamente con H100 de NVIDIA, su rendimiento rivaliza con el H200 (véase la figura 3 ), lo que lo convierte en una excelente opción en cuanto a escalabilidad, alto rendimiento y eficiencia. Lea más sobre cómo reproducir este benchmark aquí.

Ronak_Shah_1-1743527076052.png

 

Figura  : Resultados de rendimiento de AMD (1 nodo Instinct MI300X) frente a NVIDIA (1 nodo H200) para el benchmark Deepseek R1

 

El modelo Llama 3.1 405B se ha optimizado para las GPU AMD Instinct™ MI300X, lo que beneficia a AMD gracias a su liderazgo en rendimiento. La MI300X supera a la H100 de NVIDIA en cargas de trabajo con memoria limitada gracias a su mayor ancho de banda, a la vez que reduce los costos de infraestructura al requerir menos nodos para modelos grandes. Gracias a su compatibilidad desde el primer día, AMD garantizó una implementación y optimización fluidas de este modelo de vanguardia desde el principio. Lea más sobre cómo reproducir este benchmark aquí .

Ronak_Shah_2-1743527076059.png

Figura 4 : (1 nodo Instinct MI300X) vs. (1 nodo NVIDIA H100) Rendimiento de Llama 3.1 405B FP8 vs. latencia con TP4 y TP8

 

Impulso continuo y compromiso con la transparencia

La inversión de AMD en escalabilidad, rendimiento, avances de software y estrategia de código abierto en IA se evidencia en los resultados de MLPerf v5.0, las colaboraciones con la industria y las optimizaciones para modelos de vanguardia como DeepSeek-R1 y Llama 3.1 405B. Con MI300X y MI325X, ofrecemos soluciones de IA escalables y de alto rendimiento que impulsan la eficiencia y la rentabilidad.

 

A medida que impulsamos la IA, AMD mantiene su compromiso con la transparencia, la innovación y la capacitación de sus clientes para escalar la IA con confianza. Estén atentos a nuestra próxima presentación a MLPerf; esperamos compartir nuestro progreso y perspectivas con ustedes.

 

AMD mantiene su compromiso con el código abierto y la transparencia. Todos los resultados pueden reproducirse siguiendo las instrucciones de nuestra entrada del blog ROCm.  Puede leer más sobre las optimizaciones de MLperf que realizamos en esta ronda en este blog . Los resultados completos de los envíos están disponibles en el sitio web de MLCommons y los artefactos fuente en este repositorio .

 

 

Colaboradores clave:

Meena Arunachalam – Compañera ingeniera de diseño de sistemas

Miro Hodak – Ingeniero de diseño de sistemas SMTS

Mahesh Balasubramanian – Director de Marketing de Producto

David Szabados – Gerente senior de relaciones públicas

Aaron Grabein – Director de Relaciones Públicas

 

La información aquí contenida es solo para fines informativos y está sujeta a cambios sin previo aviso. Si bien se han tomado todas las precauciones durante la preparación de este documento, puede contener imprecisiones técnicas, omisiones y errores tipográficos, y AMD no tiene la obligación de actualizar o corregir esta información. Advanced Micro Devices, Inc. no realiza declaraciones ni otorga garantías con respecto a la exactitud o integridad del contenido de este documento y no asume ninguna responsabilidad, incluidas las garantías implícitas de no infracción, comerciabilidad o idoneidad para fines específicos, con respecto al funcionamiento o uso del hardware, software u otros productos de AMD descritos en este documento. Este documento no otorga ninguna licencia, ni implícita ni derivada de la preclusión, sobre ningún derecho de propiedad intelectual. Los términos y limitaciones aplicables a la compra o uso de productos AMD se establecen en un acuerdo firmado entre las partes o en los Términos y Condiciones de Venta Estándar de AMD. GD-18

A menos que se indique lo contrario, AMD no ha probado ni verificado las afirmaciones de terceros en este documento. GD-182.

 

© 2025 Advanced Micro Devices, Inc. Todos los derechos reservados. AMD, el logotipo de la flecha de AMD, AMD Instinct, AMD ROCm y sus combinaciones son marcas comerciales de Advanced Micro Devices, Inc. Los demás nombres de productos utilizados en esta publicación se utilizan únicamente con fines de identificación y pueden ser marcas comerciales de sus respectivos propietarios. 


Reader's opinions

Leave a Reply

Your email address will not be published. Required fields are marked *



Current track

Title

Artist