Red Hat, el líder mundial en soluciones open source, ha dado un paso trascendental en el futuro de la inteligencia artificial generativa (gen AI) con el lanzamiento de llm-d, un nuevo proyecto open source que aborda la necesidad crítica de la inferencia a gran escala.
Impulsado por una arquitectura nativa de Kubernetes, una inferencia distribuida basada en vLLM y un enrutamiento de red inteligente con reconocimiento de IA, llm-d permite que grandes nubes de inferencia de modelos de lenguaje de gran tamaño (LLM) cumplan con los objetivos de nivel de servicio (SLO) más exigentes en producción.
Superando las Limitaciones de la Inferencia Centralizada
Mientras que el entrenamiento sigue siendo fundamental, el verdadero impacto de la IA generativa depende de una inferencia más eficiente y escalable. Según Gartner, para 2028 más del 80% de los aceleradores de cargas de trabajo de los centros de datos se implementarán específicamente para la inferencia, en lugar del entrenamiento.
Esto pone de relieve que el futuro de la IA generativa reside en su capacidad de ejecución. La creciente demanda de recursos de modelos de razonamiento cada vez más grandes y sofisticados limita la viabilidad de la inferencia centralizada y amenaza con obstaculizar la innovación en IA mediante costos prohibitivos y una latencia paralizante.
Innovaciones Clave de llm-d
llm-d responde a esta necesidad con una serie de innovaciones clave:
vLLM: El Estándar de Inferencia Open Source
vLLM se ha convertido rápidamente en el servidor de inferencia open source estándar de facto, brindando soporte desde el Día 0 a modelos de frontera emergentes y a una amplia lista de aceleradores, incluyendo las unidades de procesamiento de tensor (TPU) de Google Cloud.
Desagregación de Prellenado y Decodificación
Esta innovación separa las fases de contexto de entrada y generación de tokens de la IA en operaciones discretas, permitiendo su distribución entre múltiples servidores para mejorar la eficiencia.
Descarga de Caché KV
Basada en LMCache, esta función mueve la carga de la memoria caché KV de la memoria de la GPU a un almacenamiento estándar de mayor volumen y menor costo, como la memoria de la CPU o el almacenamiento de red.
Clústeres y Controladores con Kubernetes
La integración de Kubernetes permite una programación más eficiente de los recursos informáticos y el almacenamiento en función de la variación en la exigencia de las cargas de trabajo, manteniendo el rendimiento y una latencia más baja.
Enrutamiento de Red con Reconocimiento de IA
Esta innovación programa las solicitudes entrantes a los servidores y aceleradores con más probabilidades de tener memorias caché activas con resultados de inferencias anteriores, optimizando el rendimiento.
Respaldado por Líderes del Sector
llm-d cuenta con el apoyo de una gran alianza de proveedores líderes de modelos de IA generativa, pioneros en aceleradores de IA y plataformas en la nube para IA, como CoreWeave, Google Cloud, IBM Research, NVIDIA, AMD, Cisco, Intel, Lambda y Mistral AI.
Además, la comunidad llm-d incluye a los patrocinadores fundadores Sky Computing Lab de la Universidad de California, creadores de vLLM, y el Laboratorio de LMCache de la Universidad de Chicago, creadores de LMCache.
La Visión de Red Hat: Cualquier Modelo, Acelerador o Nube
Red Hat está comprometida con construir un ecosistema próspero en torno a la comunidad de vLLM y llm-d para la inferencia distribuida a gran escala. Su visión es clara: independientemente del modelo de IA, el acelerador subyacente o el entorno de implementación, Red Hat tiene como meta convertir a vLLM en el estándar abierto por excelencia para la inferencia en la nueva nube híbrida.