Guía de LLM locales con RTX 3060 12GB

La RTX 3060 12GB es la puerta de entrada económica a la IA local. Sus 12GB de VRAM ejecutan con holgura modelos de 7–8B a 4 bits —suficiente para un primer asistente privado, soporte al cliente o un chatbot de pyme— a una fracción del precio de las insignia.

Qué ejecuta

Modelos de 7–8B (Llama 3.1 8B, Qwen2.5 7B, Mistral 7B) a 4 bits, con margen para contexto. Un modelo de 14B solo cabe con cuantización agresiva y poco margen.

Mejor cuantización

Q4_K_M es la opción por defecto: el mejor equilibrio tamaño/calidad con 12GB. Reserva memoria para el contexto en lugar de buscar mayor precisión.

Cuándo actualizar

Pasa a una tarjeta de 24GB en cuanto necesites modelos de 14–32B, agentes de programación, RAG documental sobre volúmenes reales o varios agentes a la vez.

Chips destacados

NVIDIA RTX 3060 12GB NVIDIA RTX 4090

Modelos recomendados

1
Qwen2.5 72BQwen · ~72B · 128K ctx · Qwen License
A top-tier open model for coding and reasoning; a strong backbone for a private Business Command Center.
Minimum: Apple Mac mini (M4 Pro)
Recommended: Supermicro 8x H100 SuperServer
2
Llama 3.1 70BLlama · ~70B · 128K ctx · Llama Community License
The previous-generation flagship; still excellent. Prefer Llama 3.3 70B where available for similar footprint and better instruction following.
Minimum: NVIDIA RTX A6000
Recommended: Supermicro 8x H100 SuperServer
3
Llama 3.3 70BLlama · ~70B · 128K ctx · Llama Community License
A flagship open model with near-frontier quality for many business tasks. Full precision needs multi-GPU/datacenter; 4-bit opens it to high-end workstations.
Minimum: NVIDIA RTX A6000
Recommended: Supermicro 8x H100 SuperServer
4
DeepSeek-R1 Distill Llama 70BDeepSeek · ~70B · 128K ctx · MIT
The largest R1 distill, built on Llama 70B. The strongest locally-runnable reasoning option short of the full MoE; plan for high-end workstation or multi-GPU hardware.
Minimum: NVIDIA RTX A6000
Recommended: Supermicro 8x H100 SuperServer
5
Mixtral 8x7B (MoE)Mistral · ~47B · 32K ctx · Apache-2.0
Mixture-of-experts: total params are large but only a subset activate per token, so it serves quickly for its quality tier.
Minimum: NVIDIA RTX A6000
Recommended: Supermicro 8x H100 SuperServer

Hardware recomendado

Preguntas frecuentes

¿Puede la RTX 3060 12GB ejecutar Ollama?+

Sí: ejecuta bien modelos de 7–8B a 4 bits en Ollama y runtimes similares. Es un punto de partida popular y asequible para LLM locales.

¿Son suficientes 12GB para IA local?+

Para un único asistente pequeño, sí. Para modelos más grandes, RAG sobre volúmenes reales de documentos o varios agentes, querrás 24GB o más.