BBrainOutput

Mejor GPU para LLM locales

El factor que más determina qué modelos puedes ejecutar localmente es la memoria de la GPU. Esta guía clasifica las GPU por lo que desbloquean —no solo por la velocidad bruta— para que compres la cantidad justa de VRAM para los modelos que realmente necesitas.

La VRAM es el factor decisivo

Un modelo solo se ejecuta si cabe en la memoria utilizable. 12GB manejan modelos de 7–8B a 4 bits; 24GB abren modelos de clase 32B; 48GB permiten alojar un modelo de 70B en una sola tarjeta. El ancho de banda decide después la velocidad de generación de tokens.

Niveles por presupuesto

Entrada: RTX 3060 12GB para un primer asistente. Valor: una RTX 3090 usada (24GB). Buque insignia de consumo: RTX 4090 (24GB, rápida). 70B en una sola tarjeta pro: RTX 6000 Ada o A6000 (48GB).

Cuándo optar por varias GPU

Dos tarjetas de 24GB suman 48GB para capacidad y paralelismo, pero el ancho de banda por tarjeta sigue limitando la velocidad de un solo modelo. Para un modelo grande rápido, prefiere una única tarjeta mayor; para muchos agentes, combina varias.

Chips destacados

Modelos recomendados

  1. 1
    Qwen2.5 72BQwen · ~72B · 128K ctx · Qwen License

    A top-tier open model for coding and reasoning; a strong backbone for a private Business Command Center.

  2. 2
    Llama 3.1 70BLlama · ~70B · 128K ctx · Llama Community License

    The previous-generation flagship; still excellent. Prefer Llama 3.3 70B where available for similar footprint and better instruction following.

  3. 3
    Llama 3.3 70BLlama · ~70B · 128K ctx · Llama Community License

    A flagship open model with near-frontier quality for many business tasks. Full precision needs multi-GPU/datacenter; 4-bit opens it to high-end workstations.

  4. 4
    DeepSeek-R1 Distill Llama 70BDeepSeek · ~70B · 128K ctx · MIT

    The largest R1 distill, built on Llama 70B. The strongest locally-runnable reasoning option short of the full MoE; plan for high-end workstation or multi-GPU hardware.

  5. 5
    Mixtral 8x7B (MoE)Mistral · ~47B · 32K ctx · Apache-2.0

    Mixture-of-experts: total params are large but only a subset activate per token, so it serves quickly for its quality tier.

Hardware recomendado

Preguntas frecuentes

¿Cuánta VRAM necesito para ejecutar un LLM local?+

Calcula ~6GB para un modelo de 7–8B a 4 bits, ~20GB para un modelo de 32B y ~42GB para uno de 70B. La cifra a 4 bits (Q4) es el número práctico con el que planificar.

¿Es la RTX 4090 la mejor GPU para IA local?+

Es la mejor tarjeta de consumo en velocidad con 24GB. Para modelos de 70B en una sola tarjeta necesitas una pro de 48GB; por presupuesto, la RTX 3060 12GB o una 3090 usada ofrecen gran valor.

Guías relacionadas

Convierte esta guía en un AI Business OS privado

Run your own AI agents on hardware you control — private by design, no per-seat data leaving your premises. BrainOutput helps you pick the right machine and turn it into a working AI Business OS.