Mejor GPU para LLM locales
El factor que más determina qué modelos puedes ejecutar localmente es la memoria de la GPU. Esta guía clasifica las GPU por lo que desbloquean —no solo por la velocidad bruta— para que compres la cantidad justa de VRAM para los modelos que realmente necesitas.
La VRAM es el factor decisivo
Un modelo solo se ejecuta si cabe en la memoria utilizable. 12GB manejan modelos de 7–8B a 4 bits; 24GB abren modelos de clase 32B; 48GB permiten alojar un modelo de 70B en una sola tarjeta. El ancho de banda decide después la velocidad de generación de tokens.
Niveles por presupuesto
Entrada: RTX 3060 12GB para un primer asistente. Valor: una RTX 3090 usada (24GB). Buque insignia de consumo: RTX 4090 (24GB, rápida). 70B en una sola tarjeta pro: RTX 6000 Ada o A6000 (48GB).
Cuándo optar por varias GPU
Dos tarjetas de 24GB suman 48GB para capacidad y paralelismo, pero el ancho de banda por tarjeta sigue limitando la velocidad de un solo modelo. Para un modelo grande rápido, prefiere una única tarjeta mayor; para muchos agentes, combina varias.
Chips destacados
Modelos recomendados
- 1Qwen2.5 72BQwen · ~72B · 128K ctx · Qwen License
A top-tier open model for coding and reasoning; a strong backbone for a private Business Command Center.
Minimum: Apple Mac mini (M4 Pro)Recommended: Supermicro 8x H100 SuperServer - 2Llama 3.1 70BLlama · ~70B · 128K ctx · Llama Community License
The previous-generation flagship; still excellent. Prefer Llama 3.3 70B where available for similar footprint and better instruction following.
Minimum: NVIDIA RTX A6000Recommended: Supermicro 8x H100 SuperServer - 3Llama 3.3 70BLlama · ~70B · 128K ctx · Llama Community License
A flagship open model with near-frontier quality for many business tasks. Full precision needs multi-GPU/datacenter; 4-bit opens it to high-end workstations.
Minimum: NVIDIA RTX A6000Recommended: Supermicro 8x H100 SuperServer - 4DeepSeek-R1 Distill Llama 70BDeepSeek · ~70B · 128K ctx · MIT
The largest R1 distill, built on Llama 70B. The strongest locally-runnable reasoning option short of the full MoE; plan for high-end workstation or multi-GPU hardware.
Minimum: NVIDIA RTX A6000Recommended: Supermicro 8x H100 SuperServer - 5Mixtral 8x7B (MoE)Mistral · ~47B · 32K ctx · Apache-2.0
Mixture-of-experts: total params are large but only a subset activate per token, so it serves quickly for its quality tier.
Minimum: NVIDIA RTX A6000Recommended: Supermicro 8x H100 SuperServer
Hardware recomendado
- 54/100NVIDIA RTX 6000 Ada GenerationNVIDIA · Professional GPUs
- 52/100AMD Radeon PRO W7900AMD · Professional GPUs
- 50/100NVIDIA RTX A6000NVIDIA · Professional GPUs
- 47/100NVIDIA GeForce RTX 4090NVIDIA · Consumer GPUs
- 46/100AMD Radeon RX 7900 XTXAMD · Consumer GPUs
- 44/100NVIDIA GeForce RTX 3090NVIDIA · Consumer GPUs
Preguntas frecuentes
¿Cuánta VRAM necesito para ejecutar un LLM local?+
Calcula ~6GB para un modelo de 7–8B a 4 bits, ~20GB para un modelo de 32B y ~42GB para uno de 70B. La cifra a 4 bits (Q4) es el número práctico con el que planificar.
¿Es la RTX 4090 la mejor GPU para IA local?+
Es la mejor tarjeta de consumo en velocidad con 24GB. Para modelos de 70B en una sola tarjeta necesitas una pro de 48GB; por presupuesto, la RTX 3060 12GB o una 3090 usada ofrecen gran valor.