O catálogo selecionado de modelos de linguagem de grande porte de código aberto que você pode instalar com um clique no assistente MyAI do Linux Lite. Todos os modelos rodam localmente via Ollama — sem nuvem, sem telemetria, sem conta. Os tamanhos assumem quantização Q4_K_M; a VRAM mínima é para inferência acelerada por GPU utilizável (VRAM inferior usa CPU+RAM, muito mais lento). Fonte de verdade: /usr/share/myai/hardware-profiles.json. Atualizado em 12/05/26.
Rodar modelos de linguagem de grande porte localmente no Linux significa que seus prompts, arquivos e conversas nunca saem da máquina. Não há chave de API, sem limite de uso, sem assinatura e sem envio de dados sensíveis para um servidor de terceiros. O MyAI é a alternativa gratuita ao ChatGPT mais simples para usuários que desejam privacidade, acesso offline e controle total sobre qual modelo de código aberto utilizam — desde modelos de linguagem pequenos (SLMs) como o Gemma 3 Mini (1B) que rodam em um laptop básico, até modelos flagship de 70B+ em uma GPU de estação de trabalho.
O MyAI inclui um mecanismo de recomendação com reconhecimento de hardware que detecta sua CPU, RAM, GPU NVIDIA/AMD e VRAM, exibindo apenas os modelos que realmente rodarão bem. Seja para encontrar a melhor IA para programação, escrita, matemática, fluxos de trabalho agênticos ou um assistente rápido para o dia a dia, a tabela selecionada abaixo tem uma opção escolhida a dedo para cada nível.
| Modelo | Tamanho (Q4) | VRAM Mín. | RAM Mín. | Notas |
|---|---|---|---|---|
|
Gemma 3 Mini
gemma3:1b
|
815 MB | — | 4 GB |
Google
LLM compacto de 1B de código aberto do Google. Rápido em qualquer lugar, ideal para bate-papo casual e IA no dispositivo em laptops Linux mais antigos.
smallcpu-friendly
|
|
Llama 3.2
llama3.2:3b
|
2.0 GB | — | 6 GB |
Meta
Modelo versátil de 3B. Melhor LLM de código aberto padrão para desktops Linux típicos. Ótimo equilíbrio entre velocidade e qualidade.
balanced
|
|
Mistral 7B
mistral:7b
|
4.1 GB | 6 GB | 8 GB |
Mistral AI
Forte raciocínio e seguimento de instruções de código aberto. Favorito para escrita de uso geral e fluxos de trabalho de perguntas e respostas.
quality
|
|
GLM 4.7 Flash
glm-4.7-flash
|
5.5 GB | 6 GB | 10 GB |
Zhipu AI
Variante "flash" leve do GLM 4.7 da Zhipu AI. Otimizado para respostas rápidas com qualidade equilibrada — ótimo para bate-papo ágil.
balanced
|
|
Llama 3.1 8B
llama3.1:8b
|
4.7 GB | 6 GB | 10 GB |
Meta
Modelo pequeno flagship da Meta — muito capaz para seu tamanho. Ótima escolha para programação, escrita e IA de uso geral em hardware intermediário.
quality
|
|
Qwen 2.5 14B
qwen2.5:14b
|
9.0 GB | 12 GB | 16 GB |
Alibaba
Modelo versátil de 14B. Excelente para contexto longo, prompts multilíngues e matemática. Requer 12 GB+ de VRAM ou bastante RAM.
heavy
|
|
Devstral Small 2
devstral-small-2
|
14 GB | 14 GB | 28 GB |
Mistral AI
Modelo de 24B focado em código — a melhor IA de código aberto para programação e fluxos de trabalho agênticos. Excelente em edições de múltiplos arquivos e refatoração.
quality
|
|
Gemma 2 27B
gemma2:27b
|
16 GB | 18 GB | 32 GB |
Google
Modelo denso médio-grande do Google. Excelente qualidade para escrita, sumarização e tarefas de redação em escala de estação de trabalho.
largegpu-recommended
|
|
Mixtral 8x7B
mixtral:8x7b
|
26 GB | 28 GB | 48 GB |
Mistral AI
Mistura de especialistas (47 B no total, ~13 B ativos por token). Rápido para sua qualidade — uma popular alternativa local ao ChatGPT.
largemoegpu-recommended
|
|
Llama 3.3 70B
llama3.3:70b
|
43 GB | 42 GB | 64 GB |
Meta
LLM de 70B de código aberto da Meta do final de 2024. Qualidade próxima ao estado da arte em uma única GPU de 48 GB — o Llama local mais poderoso que você pode rodar.
xlargegpu-only
|
|
Qwen 3.6
qwen3.6:latest
|
47 GB | 44 GB | 64 GB |
Alibaba
Versão mais recente do Qwen 3.6. Forte em uso geral, contexto longo e multilíngue — um dos principais concorrentes de código aberto aos modelos da classe GPT.
xlargegpu-only
|
|
Mixtral 8x22B
mixtral:8x22b
|
80 GB | 80 GB | 128 GB |
Mistral AI
Grande mistura de especialistas (141 B). Classe de estação de trabalho / servidor — ideal quando você precisa de máxima profundidade de raciocínio.
xlargemoegpu-only
|
Devstral Small 2 (24B) lidera para codificação agêntica e edições de múltiplos arquivos. Qwen 2.5 14B e Llama 3.1 8B são fortes alternativas quando você tem menos VRAM. Todos gratuitos, todos locais, todos de código aberto.
Gemma 2 27B e Llama 3.3 70B produzem a prosa de forma longa mais refinada. Para escrita cotidiana em hardware modesto, Mistral 7B supera muito o esperado para seu tamanho.
Qwen 2.5 14B e Qwen 3.6 se destacam em matemática, raciocínio estruturado e tarefas multilíngues. Mixtral 8x7B é a melhor opção de mistura de especialistas.
Gemma 3 Mini (1B, ~815 MB) roda com 4 GB de RAM sem GPU necessária — o menor modelo de linguagem confiável do catálogo. Llama 3.2 (3B) é um degrau acima se você tiver 6 GB.
GLM 4.7 Flash (Zhipu AI) é otimizado para respostas ágeis. No extremo menor, Llama 3.2 (3B) é um ótimo padrão para respostas rápidas.
Para uma substituição gratuita, privada e offline ao ChatGPT: Mixtral 8x7B em uma GPU de 24–48 GB, ou Llama 3.3 70B se você tiver uma placa de estação de trabalho. Zero conta, zero dados saem da sua máquina.
| Nível | Ativado por | Padrão recomendado | Modelos disponíveis |
|---|---|---|---|
| Leve | < 6 GB RAM, sem GPU | Gemma 3 Mini | 1 modelo — Gemma 3 Mini |
| Padrão | 6–15 GB RAM, sem GPU | Llama 3.2 | 3 modelos — adiciona Llama 3.2 |
| CPU Espaçosa | 16–31 GB RAM, sem GPU | Llama 3.2 | 5 modelos — adiciona Mistral 7B, GLM 4.7 Flash |
| CPU Estação de Trabalho | 32 GB+ RAM, sem GPU | Llama 3.1 8B | 7 modelos — adiciona Llama 3.1 8B, Qwen 2.5 14B |
| GPU (pequena) | < 6 GB VRAM (individual ou somada) | Llama 3.2 | 2 modelos — Gemma 3 Mini, Llama 3.2 |
| GPU (média) | 6–11 GB VRAM | Mistral 7B | 6 modelos — adiciona Mistral 7B, GLM 4.7 Flash, Llama 3.1 8B |
| GPU (alta) | 12–23 GB VRAM | Qwen 2.5 14B | 8 modelos — adiciona Qwen 2.5 14B, Devstral Small 2 |
| GPU (muito alta) | 24–47 GB VRAM | Mixtral 8x7B | 10 modelos — adiciona Gemma 2 27B, Mixtral 8x7B |
| GPU (extrema) | 48 GB+ VRAM | Llama 3.3 70B | Todos os 13 modelos — adiciona Llama 3.3 70B, Qwen 3.6, Mixtral 8x22B |
Devstral Small 2 (24B) é o modelo de código aberto focado em programação da Mistral — a melhor opção local para codificação agêntica, revisão de código e edições de múltiplos arquivos. Llama 3.1 8B e Qwen 2.5 14B são fortes alternativas de uso geral quando a VRAM é limitada. Todos rodam no Linux Lite via MyAI sem nuvem ou conta necessária.
Sim. O MyAI no Linux Lite usa o Ollama internamente para rodar LLMs de código aberto inteiramente no seu hardware. Modelos menores como Gemma 3 Mini rodam na CPU com apenas 4 GB de RAM; modelos flagship maiores como Llama 3.3 70B precisam de uma GPU de estação de trabalho. O seletor de hardware do MyAI escolhe modelos que realmente rodarão na sua máquina.
Os LLMs de código aberto mais fortes para inferência local são Meta Llama 3.3 70B, Mistral Mixtral 8x7B / 8x22B, Google Gemma 2 27B, Alibaba Qwen 3.6 e Mistral Devstral Small 2 (melhor para programação). Para bate-papo rápido, Zhipu GLM 4.7 Flash é excelente. O melhor modelo de linguagem pequeno (SLM) para hardware de baixo desempenho é o Gemma 3 Mini.
O MyAI inclui um catálogo selecionado de modelos verificados, mas qualquer modelo compatível com Ollama — incluindo variantes do DeepSeek — pode ser baixado diretamente com ollama pull <model> após instalar o MyAI. O mecanismo de recomendação combina os modelos disponíveis com sua CPU, RAM, GPU e VRAM automaticamente.
Para modelos de linguagem pequenos (1–3B): 2–6 GB de RAM, qualquer CPU moderna. Para modelos médios (7–14B): 10–16 GB de RAM ou uma GPU de 6–12 GB. Para modelos grandes (27B–70B+): 32 GB+ de RAM e 18–48 GB de VRAM. O MyAI soma a VRAM em configurações multi-GPU NVIDIA (sempre) e placas AMD compatíveis com ROCm.
MCP é um padrão aberto para conectar assistentes de IA a ferramentas externas, arquivos e fontes de dados, popularizado em 2024. O MyAI roda modelos localmente via API HTTP do Ollama, com a qual clientes compatíveis com MCP e fluxos de trabalho agênticos podem se comunicar diretamente. Isso permite criar agentes de IA privados que operam nos seus próprios dados sem passar pela nuvem.
Sim. O MyAI é gratuito, de código aberto e roda inteiramente no seu próprio computador. Sem contas. Sem assinaturas. Sem nuvem. Sem telemetria. Após o primeiro download do modelo, funciona completamente offline — uma verdadeira alternativa privada ao ChatGPT, Claude ou Gemini para usuários que se preocupam com a propriedade dos dados.
Llama 3.1 8B é o melhor modelo de uso geral para desktops típicos. Mistral 7B se destaca em seguimento de instruções e raciocínio em tamanhos menores. Qwen 2.5 14B / Qwen 3.6 são os mais fortes para tarefas multilíngues, contexto longo e matemática. Para programação especificamente, Devstral Small 2 (também da Mistral) supera os três.
RAG combina um LLM local com uma etapa de busca nos seus próprios documentos, para que o modelo possa responder perguntas baseadas nos seus dados sem enviá-los a lugar nenhum. O MyAI expõe a API HTTP do Ollama em 127.0.0.1:7070, que qualquer framework RAG (LangChain, LlamaIndex, etc.) pode usar para fluxos de trabalho de recuperação aumentada totalmente locais.
Sim. A única atividade de rede é o download inicial do modelo (geralmente 0,6–80 GB dependendo do modelo escolhido). Uma vez que o modelo esteja no disco, o MyAI funciona completamente offline — sem necessidade de conexão à internet para bate-papo, ajuda com programação ou qualquer outra tarefa de IA.