Agent privé de documents et RAG

L'agent documentaire lit les contrats, rapports, politiques et wikis et répond aux questions avec des citations, en utilisant la génération augmentée par récupération (RAG) sur une base de connaissances privée plutôt que ses données d'entraînement.

Comme la récupération et le modèle s'exécutent tous deux sur du matériel que vous contrôlez, le matériel source ne quitte jamais vos locaux — et un modèle de taille moyenne performant plus un modèle d'embeddings suffisent généralement.

Créer mon équipe IA Voir le cas d'usage

Ce qu'il fait

▸Répond à partir de vos documents, contrats et wikis avec des citations
▸Récupération sur une base de connaissances privée (RAG)
▸Résumé et questions-réponses entre documents
▸Garde le matériel source sur une infrastructure que vous contrôlez

Comment ça marche

L'agent enveloppe un modèle ouvert avec de la recherche sur vos données, des permissions cadrées, des outils typés, des confirmations et un journal d'audit — la couche AI Business OS qui le rend sûr à déployer.

L'adéquation dépend du score de capacité rag de chaque machine.

Modèles qui l'alimentent

Tous les modèles →

Modèles ouverts de la bibliothèque adaptés à ce rôle : 40. Quelques-uns, du plus petit au plus grand :

Sentence-Transformers

all-MiniLM (class)

tiny · very fast

0.023B params0.5K context

Nomic

Nomic Embed Text (class)

fast retrieval · lightweight

0.14B params8K context

Snowflake

Snowflake Arctic Embed (class)

quality retrieval · RAG

0.33B params0.5K context

Mixedbread

mxbai-embed-large (class)

quality retrieval · RAG

0.34B params0.5K context

BAAI

BGE-M3 Embeddings (class)

multilingual retrieval · long documents

0.6B params8K context

DeepSeek

DeepSeek-R1 Distill 1.5B

tiny reasoning · edge

1.5B params128K context

Le matériel qui l'exécute

Tout le matériel →

Machines capables d'héberger cet agent aujourd'hui, évaluées pour des charges d'IA locale réelles — l'option la moins chère et performante d'abord.

Apple · Apple Silicon

Apple Mac mini (M4 Pro)

57/100· Correct·~

Plus de bande passante mémoire et jusqu'à 64 Go de mémoire unifiée font de ce mini une boîte d'IA locale étonnamment capable en format compact.

Mémoire: 64 GB unified
Architecture: Apple M4 Pro

NVIDIA · GPU datacenter

NVIDIA L40S

59/100· Correct

Une carte de centre de données 48 Go polyvalente pour l'inférence et le graphisme — une option de service populaire et économique en cloud et on-premise.

Mémoire: 48 GB
Architecture: Ada Lovelace

Reference · Stations de travail IA

Coding Agent Workstation (reference profile)

65/100· Solide

Une station de travail optimisée pour les agents de codage locaux : ~48 Go répartis sur deux cartes de 24 Go exécutent de puissants modèles coder 32B et servent en privé une petite équipe d'ingénierie.

Mémoire: 48 GB
Architecture: Ada Lovelace

Exécutez-le en privé, dans votre cloud ou en hybride

Gardez cet agent sur du matériel que vous possédez pour la confidentialité et un coût prévisible, exécutez-le sur des GPU cloud de votre propre compte pour les pics et les plus grands modèles, ou les deux.

Comparer les modes de déploiement →Recommander une configuration et estimer le ROI →

Questions fréquentes

Qu'est-ce que l'agent Documents / RAG ?+

L'agent Documents / RAG peut-il s'exécuter en privé sur mon propre matériel ?+

Oui. Il s'exécute sur des modèles à poids ouverts que vous hébergez vous-même sur un boîtier privé, un serveur on-premise ou votre propre compte cloud, de sorte que les données restent sur l'infrastructure que vous contrôlez. Vous pouvez aussi fonctionner en hybride : local par défaut, avec basculement vers le cloud pour les plus grands modèles.

Quels modèles alimentent l'agent Documents / RAG ?+

Il fonctionne avec des modèles ouverts comme all-MiniLM (class), Nomic Embed Text (class), Snowflake Arctic Embed (class). La bonne taille dépend de vos exigences de qualité et du matériel sur lequel vous l'exécutez — consultez la bibliothèque de modèles pour la VRAM par quantification.

Quel matériel l'agent Documents / RAG nécessite-t-il ?+

Il correspond généralement au niveau —. Une machine comme la Apple Mac mini (M4 Pro) convient parfaitement à ce rôle ; un matériel plus léger ou plus puissant modifie le nombre de requêtes simultanées et la taille de modèle possible.