NVIDIA mejora el rendimiento de inferencia LLM con la nueva biblioteca de software TensorRT-LLM

0 0 3 minutos de lectura

TensorRT-LLM proporciona una mejora de rendimiento 8 veces mayor para la inferencia de IA en hardware NVIDIA.

Ilustración de la inferencia de LLM. Fuente de la imagen: NVIDIA

A medida que empresas como d-Matrix ingresan al lucrativo mercado de la IA con una codiciada infraestructura de inferencia, NVIDIA, líder en IA, lanzó hoy el software TensorRT-LLM, una biblioteca de tecnologías de inferencia LLM diseñada para acelerar el procesamiento de inferencia de IA.

Pasemos a:

Tabla de Contenidos

¿Qué es TensorRT-LLM?

TensorRT-LLM es una biblioteca de código abierto que se ejecuta en las GPU NVIDIA Tensor Core. Su objetivo es proporcionar un espacio para que los desarrolladores experimenten con la construcción de nuevos modelos de lenguaje a gran escala, que son la piedra angular de la inteligencia artificial generativa como ChatGPT.

En particular, TensorRT-LLM cubre la inferencia (mejoras en el entrenamiento de IA o la forma en que un sistema aprende a conectar conceptos y hacer predicciones), así como la definición, optimización y ejecución de LLM. NVIDIA dice que TensorRT-LLM está diseñado para acelerar la inferencia en las GPU de NVIDIA.

Más cobertura de IA de lectura obligada

TensorRT-LLM se utilizará para crear versiones de los LLM más importantes de la actualidad, como Meta Llama 2, OpenAI GPT-2 y GPT-3, Falcon, Mosaic MPT, BLOOM, etc.

Con este fin, TensorRT-LLM incluye el compilador de aprendizaje profundo TensorRT, núcleos optimizados, pre y posprocesamiento, comunicación multi-GPU y multi-nodo, y una interfaz de programación de aplicaciones Python de código abierto.

LEER Cómo detener y eliminar todos los contenedores Docker con 2 comandos

NVIDIA señala que parte del atractivo es que los desarrolladores no necesitan conocimientos profundos de C++ o NVIDIA CUDA para usar TensorRT-LLM.

Ver: Microsoft ofrece cursos gratuitos para personas que quieran aprender a aplicar la IA generativa a sus negocios. (República Tecnológica)

«TensorRT-LLM es fácil de usar; tiene muchas funciones, incluida la transmisión de tokens, el procesamiento por lotes dinámico, la atención paginada, la cuantificación y más», dijo a NVIDIA Naveen Rao, vicepresidente de ingeniería de Databricks, en un comunicado de prensa. «Proporciona servicios LLM utilizando el rendimiento de última generación de las GPU NVIDIA y nos permite trasladar el ahorro de costos a nuestros clientes. «

Databricks es una de las primeras empresas que se centró en TensorRT-LLM.

Aquellos que se hayan registrado en el Programa de desarrolladores de NVIDIA ahora pueden obtener acceso anticipado a TensorRT-LLM. Según el comunicado de prensa original, NVIDIA dijo que realizaría un lanzamiento más amplio «en las próximas semanas».

Cómo TensorRT-LLM mejora el rendimiento de las GPU NVIDIA

NVIDIA dice que realizar un LLM de resumen de artículo en las GPU TensorRT-LLM y NVIDIA H100 es más rápido que realizar la misma tarea en el chip NVIDIA A100 de la generación anterior sin la biblioteca LLM. Usando solo H100, el rendimiento de la inferencia GPT-J 6B LLM mejora 4 veces. El software TensorRT-LLM ofrece una mejora 8 veces mayor.

En particular, dado que TensorRT-LLM utiliza una técnica para dividir diferentes matrices de peso entre dispositivos, la inferencia se puede completar rápidamente. (La ponderación le dice al modelo de IA qué neuronas numéricas deben estar relacionadas entre sí). La técnica, llamada paralelismo tensorial, significa que la inferencia se puede realizar en paralelo en múltiples GPU y múltiples servidores al mismo tiempo.

NVIDIA dice que el procesamiento por lotes dinámico mejora la eficiencia de la inferencia. En resumen, se puede generar un lote completo de texto generado de una sola vez, en lugar de hacerlo todo a la vez. El procesamiento por lotes sobre la marcha y otras optimizaciones están diseñados para aumentar el uso de GPU y reducir el costo total de propiedad.

NVIDIA planea reducir el costo total de propiedad de la IA

Los LLM son costosos de usar. De hecho, Nvidia afirma que el Máster en Derecho cambia la forma en que los centros de datos y la formación en IA encajan en los balances de las empresas. La idea detrás de TensorRT-LLM es que las empresas podrán construir IA generativa compleja sin que el costo total de propiedad se dispare.

LEER Mantenga a los viajeros seguros y cómodos con estos fabulosos obsequios

Etiquetas

0 0 3 minutos de lectura

NVIDIA mejora el rendimiento de inferencia LLM con la nueva biblioteca de software TensorRT-LLM

¿Qué es TensorRT-LLM?

Más cobertura de IA de lectura obligada

Cómo TensorRT-LLM mejora el rendimiento de las GPU NVIDIA

NVIDIA planea reducir el costo total de propiedad de la IA

Read Next

Los presupuestos de transformación digital, la innovación obstaculizada y la gestión de eventos desafían a las empresas

¿Quieres ser un mejor programador? Pruebe el bot de desbordamiento de pila de preguntas y respuestas «Escritura de código» de Microsoft

Los algoritmos de ML detectan correos electrónicos y chats tóxicos en tiempo real

IA en el espacio: los astronautas obtendrán asistentes robóticos flotantes gracias a IBM, Airbus

3 formas gratuitas de obtener resúmenes de IA de artículos web extensos

Los presupuestos de transformación digital, la innovación obstaculizada y la gestión de eventos desafían a las empresas

¿Quieres ser un mejor programador? Pruebe el bot de desbordamiento de pila de preguntas y respuestas «Escritura de código» de Microsoft

Los algoritmos de ML detectan correos electrónicos y chats tóxicos en tiempo real

IA en el espacio: los astronautas obtendrán asistentes robóticos flotantes gracias a IBM, Airbus

3 formas gratuitas de obtener resúmenes de IA de artículos web extensos

Deja una respuesta Cancelar la respuesta

Cómo implementar un servidor autohospedado de Bitwarden con Docker

Cómo virtualizar macOS en VMware ESXi

Cómo conectar un teclado inalámbrico Apple a Windows 10

Meta’s Llama 2 es un competidor de código abierto para ChatGPT

Los ingenieros de Netflix crean lentes SnapCamera que aportan vibraciones de cómic a las videollamadas

Paso a paso: cómo configurar una conexión VPN de cliente Win2K

¿Un mercado laboral inmune al apocalipsis de la IA y la automatización?Finanzas

Las empresas contraatacan: 21 de las 25 empresas tecnológicas más populares son biztech

Encuesta para desarrolladores 2023 de Stack Overflow: ¿Los desarrolladores usan IA?

Este banco de energía delgado de 5,000 mAh cuesta solo $ 19.99 en este momento

El informe Dattell revela las tecnologías más populares para los ingenieros de datos

Cómo agregar caché SSD a su Synology NAS (y por qué desea hacerlo)

Cloud Foundry capacitará a un gran número de desarrolladores a través del programa de certificación ‘más grande del mundo’

Google lanza oficialmente Android 13

¿Qué es TensorRT-LLM?

Más cobertura de IA de lectura obligada

Cómo TensorRT-LLM mejora el rendimiento de las GPU NVIDIA

NVIDIA planea reducir el costo total de propiedad de la IA

Read Next

Los presupuestos de transformación digital, la innovación obstaculizada y la gestión de eventos desafían a las empresas

¿Quieres ser un mejor programador? Pruebe el bot de desbordamiento de pila de preguntas y respuestas «Escritura de código» de Microsoft

Los algoritmos de ML detectan correos electrónicos y chats tóxicos en tiempo real

IA en el espacio: los astronautas obtendrán asistentes robóticos flotantes gracias a IBM, Airbus

3 formas gratuitas de obtener resúmenes de IA de artículos web extensos

Cómo despedir empleados durante la crisis del coronavirus

Cómo mostrar permanentemente las teclas de función para ciertas aplicaciones en la barra táctil del MacBook Pro

Publicaciones relacionadas

Deja una respuesta Cancelar la respuesta