INTELIGENCIA ARTIFICIAL

NVIDIA mejora el rendimiento de inferencia LLM con la nueva biblioteca de software TensorRT-LLM

TensorRT-LLM proporciona una mejora de rendimiento 8 veces mayor para la inferencia de IA en hardware NVIDIA.

Ilustración de la inferencia de LLM.Ilustración de la inferencia de LLM. Fuente de la imagen: NVIDIA

A medida que empresas como d-Matrix ingresan al lucrativo mercado de la IA con una codiciada infraestructura de inferencia, NVIDIA, líder en IA, lanzó hoy el software TensorRT-LLM, una biblioteca de tecnologías de inferencia LLM diseñada para acelerar el procesamiento de inferencia de IA.

Pasemos a:

¿Qué es TensorRT-LLM?

TensorRT-LLM es una biblioteca de código abierto que se ejecuta en las GPU NVIDIA Tensor Core. Su objetivo es proporcionar un espacio para que los desarrolladores experimenten con la construcción de nuevos modelos de lenguaje a gran escala, que son la piedra angular de la inteligencia artificial generativa como ChatGPT.

En particular, TensorRT-LLM cubre la inferencia (mejoras en el entrenamiento de IA o la forma en que un sistema aprende a conectar conceptos y hacer predicciones), así como la definición, optimización y ejecución de LLM. NVIDIA dice que TensorRT-LLM está diseñado para acelerar la inferencia en las GPU de NVIDIA.

Más cobertura de IA de lectura obligada

TensorRT-LLM se utilizará para crear versiones de los LLM más importantes de la actualidad, como Meta Llama 2, OpenAI GPT-2 y GPT-3, Falcon, Mosaic MPT, BLOOM, etc.

Con este fin, TensorRT-LLM incluye el compilador de aprendizaje profundo TensorRT, núcleos optimizados, pre y posprocesamiento, comunicación multi-GPU y multi-nodo, y una interfaz de programación de aplicaciones Python de código abierto.

LEER  Cómo detener y eliminar todos los contenedores Docker con 2 comandos

NVIDIA señala que parte del atractivo es que los desarrolladores no necesitan conocimientos profundos de C++ o NVIDIA CUDA para usar TensorRT-LLM.

Ver: Microsoft ofrece cursos gratuitos para personas que quieran aprender a aplicar la IA generativa a sus negocios. (República Tecnológica)

«TensorRT-LLM es fácil de usar; tiene muchas funciones, incluida la transmisión de tokens, el procesamiento por lotes dinámico, la atención paginada, la cuantificación y más», dijo a NVIDIA Naveen Rao, vicepresidente de ingeniería de Databricks, en un comunicado de prensa. «Proporciona servicios LLM utilizando el rendimiento de última generación de las GPU NVIDIA y nos permite trasladar el ahorro de costos a nuestros clientes. «

Databricks es una de las primeras empresas que se centró en TensorRT-LLM.

Aquellos que se hayan registrado en el Programa de desarrolladores de NVIDIA ahora pueden obtener acceso anticipado a TensorRT-LLM. Según el comunicado de prensa original, NVIDIA dijo que realizaría un lanzamiento más amplio «en las próximas semanas».

Cómo TensorRT-LLM mejora el rendimiento de las GPU NVIDIA

NVIDIA dice que realizar un LLM de resumen de artículo en las GPU TensorRT-LLM y NVIDIA H100 es más rápido que realizar la misma tarea en el chip NVIDIA A100 de la generación anterior sin la biblioteca LLM. Usando solo H100, el rendimiento de la inferencia GPT-J 6B LLM mejora 4 veces. El software TensorRT-LLM ofrece una mejora 8 veces mayor.

En particular, dado que TensorRT-LLM utiliza una técnica para dividir diferentes matrices de peso entre dispositivos, la inferencia se puede completar rápidamente. (La ponderación le dice al modelo de IA qué neuronas numéricas deben estar relacionadas entre sí). La técnica, llamada paralelismo tensorial, significa que la inferencia se puede realizar en paralelo en múltiples GPU y múltiples servidores al mismo tiempo.

NVIDIA dice que el procesamiento por lotes dinámico mejora la eficiencia de la inferencia. En resumen, se puede generar un lote completo de texto generado de una sola vez, en lugar de hacerlo todo a la vez. El procesamiento por lotes sobre la marcha y otras optimizaciones están diseñados para aumentar el uso de GPU y reducir el costo total de propiedad.

NVIDIA planea reducir el costo total de propiedad de la IA

Los LLM son costosos de usar. De hecho, Nvidia afirma que el Máster en Derecho cambia la forma en que los centros de datos y la formación en IA encajan en los balances de las empresas. La idea detrás de TensorRT-LLM es que las empresas podrán construir IA generativa compleja sin que el costo total de propiedad se dispare.

LEER  Mantenga a los viajeros seguros y cómodos con estos fabulosos obsequios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba