El Hardware detrás de la IA generativa

¿Alguna vez te has preguntado cómo funcionan plataformas como ChatGPT o Claude? Estos potentes modelos de lenguaje, capaces de generar texto, traducir idiomas y responder preguntas complejas, no funcionan en cualquier PC o servidor. Su funcionamiento requiere de infraestructuras computacionales de vanguardia, alojadas en centros de datos dedicados.

La realidad es que los modelos de IA generativa, incluyendo los LLMs, exigen recursos de hardware excepcionales, superando con creces las capacidades de la mayoría de los PCs y servidores convencionales. Pero, ¿qué tipo de hardware es el adecuado que funcionen? Y, ¿cómo ha evolucionado esta necesidad de potencia computacional? En este artículo, exploraremos el diverso panorama de las tecnologías de hardware que hacen posible el funcionamiento de los LLMs, desde las GPUs hasta las TPUs y las NPUs.

Pero, ¿por qué se requiere tanta potencia computacional? La respuesta no reside principalmente en la capacidad bruta de cómputo del procesador o la GPU, sino en la cantidad de operaciones que pueden realizarse simultáneamente y en la capacidad de cargar un gran número de parámetros en el sistema.

Un LLM, como otras redes neuronales, se compone fundamentalmente de múltiples capas de matrices sobre las que se realizan operaciones matemáticas para predecir el siguiente token en una secuencia dada como contexto. Este proceso demanda un alto grado de paralelismo, es decir, la ejecución simultánea de numerosas operaciones relativamente simples. Por esta razón, las GPUs son las opciones preferidas para estas tareas.

Vamos a explorar los distintos tipos de tecnologías capaces de procesar de forma eficiente LLMs

GPUs

Las tarjetas gráficas o GPUs han sido la piedra angular del desarrollo de la IA generativa. A diferencia de las CPUs, diseñadas para tareas secuenciales y de propósito general, las GPUs están optimizadas para realizar la misma operación en múltiples datos simultáneamente. Esto es crucial para las operaciones matriciales que son la base de las redes neuronales (DNNs).

¿Como funcionan?

Las GPUs modernas han evolucionado desde hardware exclusivamente dedicado al procesamiento de gráficos 2D y 3D (Shaders) a convertirse en sistemas capaces de realizar procesamiento paralelo de forma masiva en general y de DNNs en particular. NVIDIA fue pionera en esto con el desarrollo de la plataforma CUDA, que permite usar la GPU para todo tipo de tareas que aprovechen las capacidades del hardware, desde renderizado hasta simulación de fluidos.

La memoria de la GPU, o VRAM, es el elemento fundamental a la hora de usar LLMs, ya que el modelo debe estar completamente cargado en memoria para poder aprovechar el hardware. Esto limita en gran medida el tamaño de los modelos usables en gráficas domésticas, como la NVIDIA RTX 4060 o AMD Radeon 9070 XT. Existen, no obstante, varias formas de cuantización de los modelos para reducir su tamaño, y que GPUs sin tanta memoria puedan cargarlos.

***Data Center* GPUs**

Estos GPUs, con una capacidad de cómputo cientos de veces superior a las versiones de uso doméstico o de estaciones de trabajo, son el principal motor de plataformas como ChatGPT o Meta AI, y suelen formar parte de sistemas distribuidos que aprovechan múltiples GPUs a la vez, ya que modelos tan avanzados como Llama 4 Maverick, de Meta, requiere 4 de las gráficas H100 de NVIIDIA, para una única instancia.

Para entender mejor el coste real de entrenar un LLM de cero, un modelo como Phi4, de Microsoft, de 14 billones de parámetros (unas 15 veces más pequeño que GPT-4o), requirió 21 días de entrenamiento en 256 GPUs H100, en un centro de datos dedicado.

TPUs

Las TPUs y otros aceleradores de cargas de trabajo de DNNs se basan en el concepto de optimización al máximo del hardware, con un diseño completamente adaptado a las necesidades del modelo, en vez de plantear el sistema al revés.

¿Como funcionan?

Las TPUs (Tensor Processing Units) son chips diseñados específicamente por Google para su infraestructura de DNNs y Gemini. A diferencia de las GPUs, que pueden usarse en múltiples tareas más allá de las redes neuronales, este hardware está diseñado específicamente para el cómputo de matrices e incluso posee optimizaciones para los algoritmos usados en LLMs. Esto se traduce en una eficiencia energética mucho mayor, y por ende, menos gasto de refrigeración e infraestructura.

Otros aceleradores

AWS (Amazon Web Services) dispone de su propio acelerador de DNNs, llamado Inf1erencia, y que es el principal motor usado por la plataforma claude.ai de Anthropic, así como el servicio de AWS Bedrock.

Cerebras posee el chip especializado más avanzado, varias veces más potente que las GPUs de centro de datos de NVIDIA, y muy eficientes tanto en entrenamiento como inferencia. No obstante, sistemas basados en este chip son caros y continúan en desarrollo.

NPUs:

Las NPUs son también chips dedicados al procesamiento de DNNs, pero enfocados a dispositivos portátiles, con un bajo consumo, y que permiten cargas de trabajo de IA sin necesidad de una GPU mucho menos eficiente.

¿Como funcionan?

Las NPUs son un componente adicional de los procesadores de dispositivos portátiles, y a aplicaciones de IA pueden usar, en lugar de recurrir a la GPU. Aunque son más eficientes, estos chips no tienen una gran potencia, pero lo compensan con que, al ser parte del procesador, pueden usar la propia RAM del sistema (o parte de ella), ampliando el tamaño de los modelos que pueden cargar sin incrementar los costes de hardware.

Ejemplos

Todos los procesadores portátiles más modernos de AMD, Intel y Qualcomm llevan una NPU integrada, capaz de cumplir el requisito de 40 TOPS necesario para ser un Copilot+PC y usar los componentes de IA de Windows. El Neural Engine de los chips de Apple Silicon también es una NPU integrada, y existen NPUs especializadas basadas en la arquitectura RISC-V.

Conclusión

El rápido desarrollo de la IA generativa ha fomentado la evolución del hardware para cumplir con los extremos requisitos técnicos de los LLMs, tanto en grandes proveedores como OpenAI o Google, como en dispositivos domésticos. La eficiencia y throughput al usar DNNs y LLMs especialmente se ha convertido en una prioridad para los fabricantes de hardware, para reducir los costes de uso y también adaptándolo gradualmente a su uso en dispositivos domésticos y de trabajo sin un coste excesivo.

GPUs

¿Como funcionan?

Data Center GPUs

TPUs

¿Como funcionan?

Otros aceleradores

NPUs:

¿Como funcionan?

Ejemplos

Conclusión

***Data Center* GPUs**