Reference · AI Servers

Dual RTX 3060 Local Server (reference profile): IA local e adequação para empresas

Name: Dual RTX 3060 Local Server (reference profile)
Brand: Reference

Uma caixa económica de duas GPU: combinar duas RTX 3060 de 12GB dá 24GB no total para modelos maiores ou dois assistentes em paralelo com um orçamento apertado.

Eis o que o Dual RTX 3060 Local Server (reference profile) representa para uma empresa que quer executar IA privada em hardware que controla: que LLMs abertos encaixam, que agentes pode alimentar, o nível AI Business OS adequado e se deve executar em local, na nuvem ou em híbrido.

41/100· Capaz

Recommended on-prem appliance

Run it on a GB10 box with AI Business OS pre-installed

The simplest way to put a private AI workforce on-premise: a compact GB10 Grace Blackwell appliance with ~128 GB unified memory — from ASUS, Dell or NVIDIA — shipped by BrainOutput with BrainOS pre-installed, so it runs your agents the day it arrives.

ASUS66/100

ASUS Ascent GX10 (GB10)

128GB unified · GB10 Grace Blackwell · on-prem

Dell66/100

Dell Pro Max with GB10

128GB unified · GB10 Grace Blackwell · on-prem

NVIDIA66/100

NVIDIA DGX Spark (GB10)

128GB unified · GB10 Grace Blackwell · on-prem

Request this appliance →Indicative GB10-class specs — exact SKU, availability and pricing to verify.

Especificações num relance

Memória: 24 GB
Tipo de memória: GDDR6 (2× 12GB)
Largura de banda: 360 GB/s
FP16 aprox.: 50 TFLOPS
Arquitetura: Ampere
Processo: Samsung 8nm
Consumo: 500 W
Ano de lançamento: 2021

As especificações são valores approximate. Perfil representativo, não um SKU específico. Duas placas dão 24GB agregados, mas a largura de banda por placa continua a limitar a velocidade de um único modelo — o multi-GPU ajuda mais a capacidade e o paralelismo do que a latência. Um primeiro servidor de escritório pragmático.

Pontuações de compatibilidade com IA

Heurísticas transparentes de 0 a 100 que combinam memória utilizável, largura de banda e computação: orientação relativa, não testes de desempenho.

IA local (global)41/100

RAG documental43/100

Agentes de programação38/100

Multiagente34/100

Automação de negócio38/100

LLMs compatíveis

Modelos de chat, programação e raciocínio de pesos abertos do nosso catálogo, classificados para o Dual RTX 3060 Local Server (reference profile), melhor encaixe primeiro.

CodeLlama 13B
CodeLlama · 13B · Llama Community License
Cabe em Q8_0 (~14GB) com ~7.1GB de margem — cerca de 1 instância em simultâneo.
Q8_0 · ~14GBCorre bem
Gemma 3 12B
Gemma 3 · 12B · Gemma Terms of Use
Cabe em Q8_0 (~13GB) com ~8.1GB de margem — cerca de 1 instância em simultâneo.
Q8_0 · ~13GBCorre bem
Mistral Nemo 12B
Mistral · 12B · Apache-2.0
Cabe em Q8_0 (~13GB) com ~8.1GB de margem — cerca de 1 instância em simultâneo.
Q8_0 · ~13GBCorre bem
Gemma 2 9B
Gemma · 9B · Gemma Terms of Use
Cabe em FP16 (~19GB) com ~2.1GB de margem — cerca de 1 instância em simultâneo.
FP16 · ~19GBCorre bem
Llama 3.1 8B
Llama · 8B · Llama Community License
Cabe em FP16 (~17GB) com ~4.1GB de margem — cerca de 1 instância em simultâneo.
FP16 · ~17GBCorre bem
Qwen3 8B
Qwen · 8B · Apache-2.0
Cabe em FP16 (~17GB) com ~4.1GB de margem — cerca de 1 instância em simultâneo.
FP16 · ~17GBCorre bem
Granite 3 8B
Granite · 8B · Apache-2.0
Cabe em FP16 (~17GB) com ~4.1GB de margem — cerca de 1 instância em simultâneo.
FP16 · ~17GBCorre bem
DeepSeek-R1 Distill 8B
DeepSeek · 8B · MIT
Cabe em FP16 (~17GB) com ~4.1GB de margem — cerca de 1 instância em simultâneo.
FP16 · ~17GBCorre bem

Ver o catálogo completo de modelos →

Melhores modelos por carga de trabalho de negócio

Melhor para agentes de programação

Conclusão, revisão e refatoração de código sobre código-fonte privado.

CodeLlama 13BCorre bem
Qwen3 8BCorre bem
DeepSeek-R1 Distill 8BCorre bem

Melhor para RAG / pesquisa

Respostas sobre os seus documentos com citações.

Melhor para automação de negócio

Extração de documentos e fluxos de trabalho de back-office.

Bom para um AI Business OS privado?

✓

Sim — este é um anfitrião privado viável para o AI Business OS em implementação uma implementação de assistente único, executando modelos como o CodeLlama 13B em hardware que controla.

Dica de upgrade: Para modelos maiores, contexto mais longo ou mais agentes em simultâneo, suba para uma placa de 24-48GB, uma estação de trabalho multi-GPU, ou recorra à nuvem para picos.

Modelo de destaque que consegue alojar: CodeLlama 13B.

Onde fica aquém

▸A largura de banda de memória modesta limita o débito de geração de tokens.
▸Requer energia, arrefecimento e espaço físico de classe datacenter.

Agentes de negócio que fazem sentido

Como esta máquina encaixa nos principais arquétipos de agentes do AI Business OS:

Agente de Apoio ao Cliente
Responde a clientes a partir dos seus documentos, redige respostas, triagem de tickets.
Capaz
Agente de Documentos / RAG
Lê contratos, relatórios e wikis e responde com citações.
Capaz
Agente de Prova Jurídica (estilo DocMatch)
Pesquisa processos e documentos probatórios para revelar e ligar provas.
Assistência na nuvem
Agente de Hotelaria / Hospitalidade
Gere a comunicação com hóspedes, reservas e automação de receção.
Capaz
Agente de Contabilidade / Odoo
Extrai faturas, reconcilia dados e conduz fluxos de trabalho de ERP.
Assistência na nuvem
Agente de Programação / Engenharia de Produto
Conclusão, revisão e refatoração de código localmente sobre código-fonte privado.
Assistência na nuvem
Founder Ops / Centro de Comando do Negócio
Uma frota de agentes cooperantes a gerir todo o negócio de forma privada.
Assistência na nuvem

“Assistência na nuvem” significa executá-lo localmente para cargas leves e recorrer à nuvem para trabalhos mais pesados. Veja casos de uso de negócio para saber como cada agente se mapeia ao hardware.

Perguntas frequentes

O Dual RTX 3060 Local Server (reference profile) é bom para executar IA local?+

Obtém 41/100 no nosso Local AI Score (nível Capaz), com base nos seus 24GB de memória e na largura de banda/computação disponíveis. Isso torna-o adequado ao nível Starter do AI Business OS.

Que LLMs consegue o Dual RTX 3060 Local Server (reference profile) executar?+

Confortavelmente: CodeLlama 34B (Q4_K_M), Qwen2.5 32B (Q4_K_M), Qwen3 32B (Q4_K_M). Modelos maiores podem correr com quantização mais agressiva ou dividindo-os entre vários dispositivos.

Devo executar IA localmente ou na nuvem no Dual RTX 3060 Local Server (reference profile)?+

Local em primeiro lugar é recomendado. A capacidade de classe datacenter é melhor executada on-prem (ou em colocation) para cargas privadas sustentadas e de grande volume, com a nuvem como excedente.

Posso transformar o Dual RTX 3060 Local Server (reference profile) num AI Business OS privado?+

Sim. O AI Business OS pode correr nesta máquina ao nível Starter, dando-lhe agentes privados no seu próprio hardware. Veja o apelo à ação acima para começar.

Transforme o Dual RTX 3060 Local Server (reference profile) num AI Business OS privado

Execute os seus próprios agentes de IA em hardware que controla: privado por design, sem dados por utilizador a saírem das suas instalações. BrainOutput ajuda-o a escolher a máquina certa e a transformá-la num AI Business OS em funcionamento.

Começar

Hardware relacionado

Supermicro · Servidores de IA

Supermicro 8x H100 SuperServer

100/100· Elite

Um servidor HGX H100 de 8 GPU com ~640GB de HBM3 agregada — treino à escala de centro de dados e serviço de alto débito num único nó.

Memória: 640 GB
Arquitetura: NVIDIA HGX H100 (8-GPU)

Dell · Servidores de IA

Dell PowerEdge XE9680

100/100· Elite

O servidor de IA de 8 GPU emblemático da Dell, configurável com H100 ou H200 — um bloco de construção à escala de rack para clusters de IA.

Memória: 640 GB
Arquitetura: NVIDIA HGX (8-GPU), H100/H200 options

Reference · Estações de trabalho de IA

Quad RTX 4090 AI Workstation (reference profile)

75/100· Forte

Uma estação de trabalho de IA local séria: quatro RTX 4090 combinam 96GB, suficiente para servir modelos emblemáticos de 70B e executar muitos agentes simultâneos de forma privada.

Memória: 96 GB
Arquitetura: Ada Lovelace

Reference · Estações de trabalho de IA

Coding Agent Workstation (reference profile)

65/100· Forte

Uma estação de trabalho afinada para agentes de programação locais: ~48GB entre duas placas de 24GB executam potentes modelos coder de 32B e servem em privado uma pequena equipa de engenharia.

Memória: 48 GB
Arquitetura: Ada Lovelace