Meilleur GPU pour LLM locaux
Le facteur le plus déterminant pour savoir quels modèles vous pouvez exécuter localement est la mémoire du GPU. Ce guide classe les GPU selon ce qu'ils débloquent — pas seulement la vitesse brute — pour que vous achetiez la juste quantité de VRAM pour les modèles dont vous avez réellement besoin.
La VRAM est le facteur décisif
Un modèle ne s'exécute que s'il tient dans la mémoire utilisable. 12GB gèrent des modèles 7–8B en 4 bits ; 24GB ouvrent les modèles de classe 32B ; 48GB permettent d'héberger un modèle 70B sur une seule carte. La bande passante décide ensuite de la vitesse de génération des tokens.
Niveaux par budget
Entrée de gamme : RTX 3060 12GB pour un premier assistant. Bon rapport : une RTX 3090 d'occasion (24GB). Fleuron grand public : RTX 4090 (24GB, rapide). 70B sur une seule carte pro : RTX 6000 Ada ou A6000 (48GB).
Quand passer au multi-GPU
Deux cartes de 24GB cumulent 48GB pour la capacité et le parallelisme, mais la bande passante par carte limite toujours la vitesse d'un seul modèle. Pour un grand modèle rapide, préférez une seule carte plus grosse ; pour de nombreux agents, cumulez.
Puces en vedette
Modèles recommandés
- 1Qwen2.5 72BQwen · ~72B · 128K ctx · Qwen License
A top-tier open model for coding and reasoning; a strong backbone for a private Business Command Center.
Minimum: Apple Mac mini (M4 Pro)Recommended: Supermicro 8x H100 SuperServer - 2Llama 3.1 70BLlama · ~70B · 128K ctx · Llama Community License
The previous-generation flagship; still excellent. Prefer Llama 3.3 70B where available for similar footprint and better instruction following.
Minimum: NVIDIA RTX A6000Recommended: Supermicro 8x H100 SuperServer - 3Llama 3.3 70BLlama · ~70B · 128K ctx · Llama Community License
A flagship open model with near-frontier quality for many business tasks. Full precision needs multi-GPU/datacenter; 4-bit opens it to high-end workstations.
Minimum: NVIDIA RTX A6000Recommended: Supermicro 8x H100 SuperServer - 4DeepSeek-R1 Distill Llama 70BDeepSeek · ~70B · 128K ctx · MIT
The largest R1 distill, built on Llama 70B. The strongest locally-runnable reasoning option short of the full MoE; plan for high-end workstation or multi-GPU hardware.
Minimum: NVIDIA RTX A6000Recommended: Supermicro 8x H100 SuperServer - 5Mixtral 8x7B (MoE)Mistral · ~47B · 32K ctx · Apache-2.0
Mixture-of-experts: total params are large but only a subset activate per token, so it serves quickly for its quality tier.
Minimum: NVIDIA RTX A6000Recommended: Supermicro 8x H100 SuperServer
Matériel recommandé
- 54/100NVIDIA RTX 6000 Ada GenerationNVIDIA · Professional GPUs
- 52/100AMD Radeon PRO W7900AMD · Professional GPUs
- 50/100NVIDIA RTX A6000NVIDIA · Professional GPUs
- 47/100NVIDIA GeForce RTX 4090NVIDIA · Consumer GPUs
- 46/100AMD Radeon RX 7900 XTXAMD · Consumer GPUs
- 44/100NVIDIA GeForce RTX 3090NVIDIA · Consumer GPUs
Questions fréquentes
De combien de VRAM ai-je besoin pour exécuter un LLM local ?+
Comptez ~6GB pour un modèle 7–8B en 4 bits, ~20GB pour un modèle 32B et ~42GB pour un modèle 70B. Le chiffre en 4 bits (Q4) est le nombre pratique à retenir.
La RTX 4090 est-elle le meilleur GPU pour l'IA locale ?+
C'est la meilleure carte grand public en vitesse avec 24GB. Pour des modèles 70B sur une seule carte, il faut une carte pro 48GB ; côté budget, la RTX 3060 12GB ou une 3090 d'occasion offrent un excellent rapport.