Agente privado de documentos y RAG
El agente de documentos lee contratos, informes, políticas y wikis y responde preguntas con citas, usando generación aumentada por recuperación (RAG) sobre una base de conocimiento privada en lugar de sus datos de entrenamiento.
Como la recuperación y el modelo se ejecutan en hardware que tú controlas, el material fuente nunca sale de tus instalaciones, y suele bastar con un modelo de tamaño medio capaz más un modelo de embeddings.
Qué hace
- ▸Responde desde tus documentos, contratos y wikis con citas
- ▸Recuperación sobre una base de conocimiento privada (RAG)
- ▸Resumen y preguntas y respuestas entre documentos
- ▸Mantiene el material fuente en infraestructura que tú controlas
Cómo funciona
El agente envuelve un modelo abierto con recuperación sobre tus datos, permisos definidos, herramientas tipadas, confirmaciones y un registro de auditoría: la capa AI Business OS que lo hace seguro de desplegar.
La idoneidad se basa en la puntuación de capacidad rag de cada máquina.
Modelos que lo impulsan
Todos los modelos →Modelos abiertos de la biblioteca que se adaptan a este rol: 40. Algunos, del más pequeño al más grande:
all-MiniLM (class)
tiny · very fast
Nomic Embed Text (class)
fast retrieval · lightweight
Snowflake Arctic Embed (class)
quality retrieval · RAG
mxbai-embed-large (class)
quality retrieval · RAG
BGE-M3 Embeddings (class)
multilingual retrieval · long documents
DeepSeek-R1 Distill 1.5B
tiny reasoning · edge
Hardware en el que se ejecuta
Todo el hardware →Máquinas que pueden alojar este agente hoy, puntuadas para cargas de IA local reales: primero la opción más económica con buen rendimiento.
Apple Mac mini (M4 Pro)
Más ancho de banda de memoria y hasta 64GB de memoria unificada hacen de esta una caja de IA local sorprendentemente capaz en formato compacto.
- Memoria
- 64 GB unified
- Arquitectura
- Apple M4 Pro
NVIDIA L40S
Una versátil tarjeta de centro de datos de 48GB para inferencia y gráficos — una opción de servicio popular y rentable en la nube y on-premise.
- Memoria
- 48 GB
- Arquitectura
- Ada Lovelace
Coding Agent Workstation (reference profile)
Una estación de trabajo afinada para agentes de programación locales: ~48GB entre dos tarjetas de 24GB ejecutan potentes modelos coder de 32B y dan servicio privado a un pequeño equipo de ingeniería.
- Memoria
- 48 GB
- Arquitectura
- Ada Lovelace
Ejecútalo en privado, en tu nube o híbrido
Mantén este agente en hardware propio para privacidad y coste predecible, ejecútalo en GPU en la nube de tu propia cuenta para picos y los modelos más grandes, o ambas cosas.
Preguntas frecuentes
¿Qué es el agente de Documentos / RAG?+
El agente de documentos lee contratos, informes, políticas y wikis y responde preguntas con citas, usando generación aumentada por recuperación (RAG) sobre una base de conocimiento privada en lugar de sus datos de entrenamiento.
¿Puede el agente de Documentos / RAG ejecutarse de forma privada en mi propio hardware?+
Sí. Se ejecuta con modelos de pesos abiertos que alojas tú mismo en una caja privada, un servidor on-prem o tu propia cuenta de nube, de modo que los datos permanecen en infraestructura que tú controlas. También puedes ejecutar en híbrido: local por defecto, escalando a la nube para los modelos más grandes.
¿Qué modelos impulsan el agente de Documentos / RAG?+
Funciona con modelos abiertos como all-MiniLM (class), Nomic Embed Text (class), Snowflake Arctic Embed (class). El tamaño adecuado depende de las necesidades de calidad y del hardware en el que lo ejecutes; consulta la biblioteca de modelos para ver la VRAM por cuantización.
¿Qué hardware necesita el agente de Documentos / RAG?+
Normalmente se corresponde con el nivel —. Una máquina como la Apple Mac mini (M4 Pro) se adapta muy bien a este rol; un hardware más ligero o más potente cambia cuántas solicitudes simultáneas y qué tamaño de modelo puedes ejecutar.
Contrata otro agente
Pon a trabajar el agente de Documentos / RAG con BrainOutput
Despliega el agente de Documentos / RAG de forma privada, conecta tus herramientas y crece hasta un equipo de IA completo en infraestructura que tú controlas.