BBrainOutput

Guide LLM locaux sur RTX 3060 12GB

La RTX 3060 12GB est la porte d'entrée économique vers l'IA locale. Ses 12GB de VRAM exécutent confortablement des modèles 7–8B en 4 bits — assez pour un premier assistant privé, du support client ou un chatbot de PME — à une fraction du prix des cartes phares.

Ce qu'elle exécute

Des modèles 7–8B (Llama 3.1 8B, Qwen2.5 7B, Mistral 7B) en 4 bits, avec de la place pour le contexte. Un modèle 14B ne tient qu'avec une quantification agressive et peu de marge.

Meilleure quantification

Q4_K_M est le choix par défaut — le meilleur compromis taille/qualité à 12GB. Réservez la mémoire pour le contexte plutôt que de chercher une précision plus élevée.

Quand passer à mieux

Passez à une carte 24GB dès que vous avez besoin de modèles 14–32B, d'agents de code, de RAG documentaire sur de vrais volumes ou de plusieurs agents simultanés.

Puces en vedette

Modèles recommandés

  1. 1
    Qwen2.5 72BQwen · ~72B · 128K ctx · Qwen License

    A top-tier open model for coding and reasoning; a strong backbone for a private Business Command Center.

  2. 2
    Llama 3.1 70BLlama · ~70B · 128K ctx · Llama Community License

    The previous-generation flagship; still excellent. Prefer Llama 3.3 70B where available for similar footprint and better instruction following.

  3. 3
    Llama 3.3 70BLlama · ~70B · 128K ctx · Llama Community License

    A flagship open model with near-frontier quality for many business tasks. Full precision needs multi-GPU/datacenter; 4-bit opens it to high-end workstations.

  4. 4
    DeepSeek-R1 Distill Llama 70BDeepSeek · ~70B · 128K ctx · MIT

    The largest R1 distill, built on Llama 70B. The strongest locally-runnable reasoning option short of the full MoE; plan for high-end workstation or multi-GPU hardware.

  5. 5
    Mixtral 8x7B (MoE)Mistral · ~47B · 32K ctx · Apache-2.0

    Mixture-of-experts: total params are large but only a subset activate per token, so it serves quickly for its quality tier.

Matériel recommandé

Questions fréquentes

La RTX 3060 12GB peut-elle exécuter Ollama ?+

Oui — elle exécute bien des modèles 7–8B en 4 bits dans Ollama et les runtimes similaires. C'est un point de départ populaire et abordable pour les LLM locaux.

12GB suffisent-ils pour l'IA locale ?+

Pour un seul petit assistant, oui. Pour de plus grands modèles, du RAG sur de vrais volumes de documents ou plusieurs agents, vous voudrez 24GB ou plus.

Guides associés

Transformez ce guide en un AI Business OS privé

Run your own AI agents on hardware you control — private by design, no per-seat data leaving your premises. BrainOutput helps you pick the right machine and turn it into a working AI Business OS.