Melhor GPU para LLMs locais
O fator que mais determina quais modelos pode executar localmente é a memória da GPU. Este guia classifica as GPUs pelo que desbloqueiam — não apenas pela velocidade bruta — para que compre a quantidade certa de VRAM para os modelos de que realmente precisa.
A VRAM é o fator decisivo
Um modelo só é executado se couber na memória utilizável. 12GB lidam com modelos de 7–8B a 4 bits; 24GB abrem modelos da classe 32B; 48GB permitem alojar um modelo de 70B numa única placa. A largura de banda decide depois a velocidade de geração de tokens.
Níveis por orçamento
Entrada: RTX 3060 12GB para um primeiro assistente. Valor: uma RTX 3090 usada (24GB). Topo de gama de consumo: RTX 4090 (24GB, rápida). 70B numa única placa pro: RTX 6000 Ada ou A6000 (48GB).
Quando optar por várias GPUs
Duas placas de 24GB somam 48GB para capacidade e paralelismo, mas a largura de banda por placa continua a limitar a velocidade de um único modelo. Para um modelo grande rápido, prefira uma única placa maior; para muitos agentes, combine várias.
Chips em destaque
Modelos recomendados
- 1Qwen2.5 72BQwen · ~72B · 128K ctx · Qwen License
A top-tier open model for coding and reasoning; a strong backbone for a private Business Command Center.
Minimum: Apple Mac mini (M4 Pro)Recommended: Supermicro 8x H100 SuperServer - 2Llama 3.1 70BLlama · ~70B · 128K ctx · Llama Community License
The previous-generation flagship; still excellent. Prefer Llama 3.3 70B where available for similar footprint and better instruction following.
Minimum: NVIDIA RTX A6000Recommended: Supermicro 8x H100 SuperServer - 3Llama 3.3 70BLlama · ~70B · 128K ctx · Llama Community License
A flagship open model with near-frontier quality for many business tasks. Full precision needs multi-GPU/datacenter; 4-bit opens it to high-end workstations.
Minimum: NVIDIA RTX A6000Recommended: Supermicro 8x H100 SuperServer - 4DeepSeek-R1 Distill Llama 70BDeepSeek · ~70B · 128K ctx · MIT
The largest R1 distill, built on Llama 70B. The strongest locally-runnable reasoning option short of the full MoE; plan for high-end workstation or multi-GPU hardware.
Minimum: NVIDIA RTX A6000Recommended: Supermicro 8x H100 SuperServer - 5Mixtral 8x7B (MoE)Mistral · ~47B · 32K ctx · Apache-2.0
Mixture-of-experts: total params are large but only a subset activate per token, so it serves quickly for its quality tier.
Minimum: NVIDIA RTX A6000Recommended: Supermicro 8x H100 SuperServer
Hardware recomendado
- 54/100NVIDIA RTX 6000 Ada GenerationNVIDIA · Professional GPUs
- 52/100AMD Radeon PRO W7900AMD · Professional GPUs
- 50/100NVIDIA RTX A6000NVIDIA · Professional GPUs
- 47/100NVIDIA GeForce RTX 4090NVIDIA · Consumer GPUs
- 46/100AMD Radeon RX 7900 XTXAMD · Consumer GPUs
- 44/100NVIDIA GeForce RTX 3090NVIDIA · Consumer GPUs
Perguntas frequentes
Quanta VRAM preciso para executar um LLM local?+
Conte com ~6GB para um modelo de 7–8B a 4 bits, ~20GB para um modelo de 32B e ~42GB para um de 70B. O valor a 4 bits (Q4) é o número prático para planear.
A RTX 4090 é a melhor GPU para IA local?+
É a melhor placa de consumo em velocidade com 24GB. Para modelos de 70B numa única placa precisa de uma pro de 48GB; por orçamento, a RTX 3060 12GB ou uma 3090 usada oferecem ótimo valor.