29 de mayo de 2025

La democratización de la IA generativa: Red Hat AI Inference Server redefine el futuro de la inferencia en la nube híbrida

Red Hat AI Inference Server 2
Escucha este Artículo

Red Hat, el líder mundial en soluciones de código abierto, da un paso tan significativo en la democratización de la inteligencia artificial generativa (IA generativa) en la nube híbrida! Hoy, han desvelado Red Hat AI Inference Server, una solución que promete una inferencia de IA no solo más rápida, sino también con un rendimiento superior y, lo que es igual de importante, a un costo más bajo en todo el ecosistema de la nube híbrida.

Impulsando la inferencia de IA con vLLM y Neural Magic: una combinación ganadora

En el corazón de Red Hat AI Inference Server encontramos el proyecto vLLM, una iniciativa comunitaria pionera nacida en la UC Berkeley a mediados de 2023. Este proyecto es un verdadero referente por su capacidad para ofrecer una inferencia de IA generativa de alto rendimiento, manejando contextos de entrada enormes, acelerando modelos de múltiples GPU y permitiendo el procesamiento continuo por lotes. Pero Red Hat no se ha quedado ahí; la integración con las tecnologías Neural Magic de Red Hat optimiza aún más esta potente base.

La influencia de vLLM en el futuro de la inferencia de IA es innegable. Su amplio soporte para modelos de código abierto y la integración «Día 0» de los modelos más vanguardistas como DeepSeek, Gemma, Llama, Nemotron, Mistral y Phi, lo posicionan como un estándar de facto. Como bien señala Joe Fernandes, vicepresidente y gerente general de la Unidad de Negocio de IA de Red Hat, la inferencia es el momento crucial donde la promesa de la IA generativa se materializa, donde las interacciones de los usuarios obtienen respuestas rápidas y precisas. Y añade que esta promesa debe cumplirse de manera eficaz y a bajo costo.

Superando los desafíos de la inferencia a escala: una necesidad urgente

Todos sabemos que a medida que los modelos de IA generativa se vuelven más complejos y las implementaciones en producción escalan, la inferencia puede convertirse en un verdadero dolor de cabeza, un cuello de botella que acapara recursos de hardware, ralentiza las respuestas y dispara los costos operativos. Red Hat AI Inference Server aborda estos desafíos de frente. Es una solución de inferencia abierta, diseñada para un rendimiento excepcional y equipada con herramientas líderes en compresión y optimización de modelos. Esta innovación facilita enormemente que las organizaciones aprovechen al máximo el poder transformador de la IA generativa, ofreciendo experiencias de usuario mucho más eficaces y una libertad sin igual para elegir los aceleradores de IA, los modelos y los entornos de TI.

Características clave de Red Hat AI Inference Server: todo lo que necesitas

Red Hat AI Inference Server está disponible de diversas formas: como una solución en contenedores independiente o integrada en RHEL AI y Red Hat OpenShift AI. Esto proporciona a los usuarios una distribución compatible y más segura de vLLM, además de una serie de características muy atractivas:

  • Herramientas de compresión de LLM inteligentes: ¿Imaginan reducir drásticamente el tamaño de los modelos de IA? Pues estas herramientas lo hacen posible, minimizando el consumo de recursos informáticos y, sorprendentemente, preservando e incluso mejorando la precisión del modelo.
  • Repositorio optimizado de modelos: Alojado en Hugging Face, dentro de la organización de Red Hat AI, ofrece acceso instantáneo a una colección validada y optimizada de modelos de IA líderes, listos para la implementación de inferencia. Esto puede significar una aceleración de la eficiencia que se duplica o cuadruplica, ¡sin comprometer la precisión del modelo!
  • Soporte empresarial de Red Hat: Con décadas de experiencia, Red Hat lleva proyectos comunitarios a entornos de producción con una fiabilidad incomparable.
  • Soporte de terceros: Para una flexibilidad de implementación aún mayor, permite desplegar Red Hat AI Inference Server en plataformas que no sean Red Hat Linux y Kubernetes, conforme a su política de soporte de componentes de terceros.

La visión de Red Hat: cualquier modelo, acelerador o nube: ¡un futuro sin límites!

La visión de Red Hat es clara y ambiciosa: un futuro en el que las empresas puedan implementar cualquier modelo de IA, en cualquier acelerador y en cualquier nube. Todo ello, mientras se ofrece una experiencia de usuario excepcional y más uniforme, sin los costos desorbitados que a veces asociamos con estas tecnologías. Para desatar el verdadero potencial de las inversiones en IA generativa, las empresas necesitan una plataforma de inferencia universal, un estándar que asegure una innovación en IA más fluida y de alto rendimiento, tanto hoy como en el futuro.

Así como Red Hat fue pionera en la empresa abierta al transformar Linux en el cimiento de la TI moderna, ahora está en una posición privilegiada para moldear el futuro de la inferencia de IA. El potencial de vLLM como pieza clave de la inferencia de IA generativa estandarizada es inmenso. Red Hat tiene un compromiso firme no solo con la comunidad de vLLM, sino también con llm-d para la inferencia distribuida a gran escala. La meta es convertir a vLLM en el estándar abierto por excelencia para la inferencia en la nueva nube híbrida, sin importar el modelo de IA, el acelerador subyacente o el entorno de implementación.

Para aquellos interesados en profundizar, no duden en escuchar a los ejecutivos de Red Hat o visitar la sala de noticias de Red Hat para más novedades.