Privater Dokumenten- & RAG-Agent
Der Dokumenten-Agent liest Verträge, Berichte, Richtlinien und Wikis und beantwortet Fragen mit Quellenangaben, indem er Retrieval-Augmented Generation (RAG) über eine private Wissensbasis statt seiner Trainingsdaten nutzt.
Da sowohl Retrieval als auch Modell auf Hardware laufen, die Sie kontrollieren, verlässt das Quellmaterial nie Ihr Haus – und ein leistungsfähiges mittelgroßes Modell plus ein Embedding-Modell genügen in der Regel.
Was er leistet
- ▸Antwortet aus Ihren Dokumenten, Verträgen und Wikis mit Quellenangaben
- ▸Retrieval über eine private Wissensbasis (RAG)
- ▸Zusammenfassung und dokumentübergreifende Fragen und Antworten
- ▸Hält das Quellmaterial auf einer Infrastruktur, die Sie kontrollieren
Wie es funktioniert
Der Agent umgibt ein offenes Modell mit Retrieval über Ihre Daten, definierten Berechtigungen, typisierten Tools, Bestätigungen und einem Audit-Log – die AI Business OS-Schicht, die ihn sicher einsetzbar macht.
Die Eignung richtet sich nach dem rag-Fähigkeitswert jeder Maschine.
Modelle, die ihn antreiben
Alle Modelle →Offene Modelle in der Bibliothek, die zu dieser Rolle passen: 40. Einige, vom kleinsten zuerst:
all-MiniLM (class)
tiny · very fast
Nomic Embed Text (class)
fast retrieval · lightweight
Snowflake Arctic Embed (class)
quality retrieval · RAG
mxbai-embed-large (class)
quality retrieval · RAG
BGE-M3 Embeddings (class)
multilingual retrieval · long documents
DeepSeek-R1 Distill 1.5B
tiny reasoning · edge
Hardware, auf der er läuft
Gesamte Hardware →Maschinen, die diesen Agenten heute hosten können, bewertet für reale lokale KI-Workloads – die günstigste starke Eignung zuerst.
Apple Mac mini (M4 Pro)
Mehr Speicherbandbreite und bis zu 64 GB Unified Memory machen dies zu einer überraschend leistungsfähigen lokalen KI-Box im kompakten Formfaktor.
- Speicher
- 64 GB unified
- Architektur
- Apple M4 Pro
NVIDIA L40S
Eine vielseitige 48-GB-Rechenzentrumskarte für Inferenz und Grafik — eine beliebte, kostengünstige Serving-Option in Cloud und on-premise.
- Speicher
- 48 GB
- Architektur
- Ada Lovelace
Coding Agent Workstation (reference profile)
Eine auf lokale Coding-Agenten abgestimmte Workstation: ~48 GB über zwei 24-GB-Karten führen starke 32B-Coder-Modelle aus und bedienen ein kleines Engineering-Team privat.
- Speicher
- 48 GB
- Architektur
- Ada Lovelace
Betreiben Sie ihn privat, in Ihrer Cloud oder hybrid
Halten Sie diesen Agenten auf eigener Hardware für Datenschutz und planbare Kosten, betreiben Sie ihn auf Cloud-GPUs in Ihrem eigenen Konto für Lastspitzen und die größten Modelle, oder beides.
Häufige Fragen
Was ist der Dokumente / RAG-Agent?+
Der Dokumenten-Agent liest Verträge, Berichte, Richtlinien und Wikis und beantwortet Fragen mit Quellenangaben, indem er Retrieval-Augmented Generation (RAG) über eine private Wissensbasis statt seiner Trainingsdaten nutzt.
Kann der Dokumente / RAG-Agent privat auf meiner eigenen Hardware laufen?+
Ja. Er läuft auf Modellen mit offenen Gewichten, die Sie selbst auf einer privaten Box, einem On-Prem-Server oder Ihrem eigenen Cloud-Konto hosten, sodass die Daten auf der von Ihnen kontrollierten Infrastruktur bleiben. Sie können auch hybrid arbeiten – standardmäßig lokal, mit Auslagerung in die Cloud für die größten Modelle.
Welche Modelle treiben den Dokumente / RAG-Agenten an?+
Er arbeitet mit offenen Modellen wie all-MiniLM (class), Nomic Embed Text (class), Snowflake Arctic Embed (class). Die richtige Größe hängt von den Qualitätsanforderungen und der Hardware ab, auf der Sie ihn betreiben – in der Modellbibliothek finden Sie den VRAM-Bedarf pro Quantisierung.
Welche Hardware benötigt der Dokumente / RAG-Agent?+
Er entspricht in der Regel der Stufe —. Eine Maschine wie die Apple Mac mini (M4 Pro) passt sehr gut zu dieser Rolle; leichtere oder stärkere Hardware verändert, wie viele gleichzeitige Anfragen und wie große Modelle Sie ausführen können.
Einen weiteren Agenten einstellen
Setzen Sie den Dokumente / RAG-Agenten mit BrainOutput ein
Stellen Sie den Dokumente / RAG-Agenten privat bereit, verbinden Sie Ihre Tools und wachsen Sie zu einem vollständigen KI-Team auf einer Infrastruktur, die Sie kontrollieren.