Guia de LLMs locais com RTX 3060 12GB

A RTX 3060 12GB é a porta de entrada económica para a IA local. Os seus 12GB de VRAM executam confortavelmente modelos de 7–8B a 4 bits — suficiente para um primeiro assistente privado, suporte ao cliente ou um chatbot de PME — por uma fração do preço das placas de topo.

O que executa

Modelos de 7–8B (Llama 3.1 8B, Qwen2.5 7B, Mistral 7B) a 4 bits, com espaço para contexto. Um modelo de 14B só cabe com quantização agressiva e pouca margem.

Melhor quantização

Q4_K_M é a opção padrão — o melhor equilíbrio tamanho/qualidade com 12GB. Reserve memória para o contexto em vez de procurar maior precisão.

Quando atualizar

Passe para uma placa de 24GB assim que precisar de modelos de 14–32B, agentes de programação, RAG documental sobre volumes reais ou vários agentes ao mesmo tempo.

Chips em destaque

NVIDIA RTX 3060 12GB NVIDIA RTX 4090

Modelos recomendados

1
Qwen2.5 72BQwen · ~72B · 128K ctx · Qwen License
A top-tier open model for coding and reasoning; a strong backbone for a private Business Command Center.
Minimum: Apple Mac mini (M4 Pro)
Recommended: Supermicro 8x H100 SuperServer
2
Llama 3.1 70BLlama · ~70B · 128K ctx · Llama Community License
The previous-generation flagship; still excellent. Prefer Llama 3.3 70B where available for similar footprint and better instruction following.
Minimum: NVIDIA RTX A6000
Recommended: Supermicro 8x H100 SuperServer
3
Llama 3.3 70BLlama · ~70B · 128K ctx · Llama Community License
A flagship open model with near-frontier quality for many business tasks. Full precision needs multi-GPU/datacenter; 4-bit opens it to high-end workstations.
Minimum: NVIDIA RTX A6000
Recommended: Supermicro 8x H100 SuperServer
4
DeepSeek-R1 Distill Llama 70BDeepSeek · ~70B · 128K ctx · MIT
The largest R1 distill, built on Llama 70B. The strongest locally-runnable reasoning option short of the full MoE; plan for high-end workstation or multi-GPU hardware.
Minimum: NVIDIA RTX A6000
Recommended: Supermicro 8x H100 SuperServer
5
Mixtral 8x7B (MoE)Mistral · ~47B · 32K ctx · Apache-2.0
Mixture-of-experts: total params are large but only a subset activate per token, so it serves quickly for its quality tier.
Minimum: NVIDIA RTX A6000
Recommended: Supermicro 8x H100 SuperServer

Hardware recomendado

Perguntas frequentes

A RTX 3060 12GB pode executar o Ollama?+

Sim — executa bem modelos de 7–8B a 4 bits no Ollama e runtimes semelhantes. É um ponto de partida popular e acessível para LLMs locais.

12GB são suficientes para IA local?+

Para um único assistente pequeno, sim. Para modelos maiores, RAG sobre volumes reais de documentos ou vários agentes, vai querer 24GB ou mais.