Guide LLM locaux sur RTX 3060 12GB
La RTX 3060 12GB est la porte d'entrée économique vers l'IA locale. Ses 12GB de VRAM exécutent confortablement des modèles 7–8B en 4 bits — assez pour un premier assistant privé, du support client ou un chatbot de PME — à une fraction du prix des cartes phares.
Ce qu'elle exécute
Des modèles 7–8B (Llama 3.1 8B, Qwen2.5 7B, Mistral 7B) en 4 bits, avec de la place pour le contexte. Un modèle 14B ne tient qu'avec une quantification agressive et peu de marge.
Meilleure quantification
Q4_K_M est le choix par défaut — le meilleur compromis taille/qualité à 12GB. Réservez la mémoire pour le contexte plutôt que de chercher une précision plus élevée.
Quand passer à mieux
Passez à une carte 24GB dès que vous avez besoin de modèles 14–32B, d'agents de code, de RAG documentaire sur de vrais volumes ou de plusieurs agents simultanés.
Puces en vedette
Modèles recommandés
- 1Qwen2.5 72BQwen · ~72B · 128K ctx · Qwen License
A top-tier open model for coding and reasoning; a strong backbone for a private Business Command Center.
Minimum: Apple Mac mini (M4 Pro)Recommended: Supermicro 8x H100 SuperServer - 2Llama 3.1 70BLlama · ~70B · 128K ctx · Llama Community License
The previous-generation flagship; still excellent. Prefer Llama 3.3 70B where available for similar footprint and better instruction following.
Minimum: NVIDIA RTX A6000Recommended: Supermicro 8x H100 SuperServer - 3Llama 3.3 70BLlama · ~70B · 128K ctx · Llama Community License
A flagship open model with near-frontier quality for many business tasks. Full precision needs multi-GPU/datacenter; 4-bit opens it to high-end workstations.
Minimum: NVIDIA RTX A6000Recommended: Supermicro 8x H100 SuperServer - 4DeepSeek-R1 Distill Llama 70BDeepSeek · ~70B · 128K ctx · MIT
The largest R1 distill, built on Llama 70B. The strongest locally-runnable reasoning option short of the full MoE; plan for high-end workstation or multi-GPU hardware.
Minimum: NVIDIA RTX A6000Recommended: Supermicro 8x H100 SuperServer - 5Mixtral 8x7B (MoE)Mistral · ~47B · 32K ctx · Apache-2.0
Mixture-of-experts: total params are large but only a subset activate per token, so it serves quickly for its quality tier.
Minimum: NVIDIA RTX A6000Recommended: Supermicro 8x H100 SuperServer
Matériel recommandé
- 66/100NVIDIA DGX Spark (GB10)NVIDIA · AI Appliances
- 66/100ASUS Ascent GX10 (GB10)ASUS · AI Appliances
- 66/100Dell Pro Max with GB10Dell · AI Appliances
- 56/100Law Firm Private AI Box (reference profile)Reference · AI Appliances
- 49/100Accounting / Odoo AI Box (reference profile)Reference · AI Appliances
- 47/100NVIDIA GeForce RTX 4090NVIDIA · Consumer GPUs
Questions fréquentes
La RTX 3060 12GB peut-elle exécuter Ollama ?+
Oui — elle exécute bien des modèles 7–8B en 4 bits dans Ollama et les runtimes similaires. C'est un point de départ populaire et abordable pour les LLM locaux.
12GB suffisent-ils pour l'IA locale ?+
Pour un seul petit assistant, oui. Pour de plus grands modèles, du RAG sur de vrais volumes de documents ou plusieurs agents, vous voudrez 24GB ou plus.