MyAI  ·  Rode LLMs de Código Aberto Localmente no Linux Lite

O catálogo selecionado de modelos de linguagem de grande porte de código aberto que você pode instalar com um clique no assistente MyAI do Linux Lite. Todos os modelos rodam localmente via Ollama — sem nuvem, sem telemetria, sem conta. Os tamanhos assumem quantização Q4_K_M; a VRAM mínima é para inferência acelerada por GPU utilizável (VRAM inferior usa CPU+RAM, muito mais lento). Fonte de verdade: /usr/share/myai/hardware-profiles.json. Atualizado em 12/05/26.

Por que rodar um LLM localmente?

Rodar modelos de linguagem de grande porte localmente no Linux significa que seus prompts, arquivos e conversas nunca saem da máquina. Não há chave de API, sem limite de uso, sem assinatura e sem envio de dados sensíveis para um servidor de terceiros. O MyAI é a alternativa gratuita ao ChatGPT mais simples para usuários que desejam privacidade, acesso offline e controle total sobre qual modelo de código aberto utilizam — desde modelos de linguagem pequenos (SLMs) como o Gemma 3 Mini (1B) que rodam em um laptop básico, até modelos flagship de 70B+ em uma GPU de estação de trabalho.

O MyAI inclui um mecanismo de recomendação com reconhecimento de hardware que detecta sua CPU, RAM, GPU NVIDIA/AMD e VRAM, exibindo apenas os modelos que realmente rodarão bem. Seja para encontrar a melhor IA para programação, escrita, matemática, fluxos de trabalho agênticos ou um assistente rápido para o dia a dia, a tabela selecionada abaixo tem uma opção escolhida a dedo para cada nível.

Catálogo Selecionado de LLMs de Código Aberto
Modelo Tamanho (Q4) VRAM Mín. RAM Mín. Notas
Gemma 3 Mini
gemma3:1b
815 MB 4 GB Google   LLM compacto de 1B de código aberto do Google. Rápido em qualquer lugar, ideal para bate-papo casual e IA no dispositivo em laptops Linux mais antigos.
smallcpu-friendly
Llama 3.2
llama3.2:3b
2.0 GB 6 GB Meta   Modelo versátil de 3B. Melhor LLM de código aberto padrão para desktops Linux típicos. Ótimo equilíbrio entre velocidade e qualidade.
balanced
Mistral 7B
mistral:7b
4.1 GB 6 GB 8 GB Mistral AI   Forte raciocínio e seguimento de instruções de código aberto. Favorito para escrita de uso geral e fluxos de trabalho de perguntas e respostas.
quality
GLM 4.7 Flash
glm-4.7-flash
5.5 GB 6 GB 10 GB Zhipu AI   Variante "flash" leve do GLM 4.7 da Zhipu AI. Otimizado para respostas rápidas com qualidade equilibrada — ótimo para bate-papo ágil.
balanced
Llama 3.1 8B
llama3.1:8b
4.7 GB 6 GB 10 GB Meta   Modelo pequeno flagship da Meta — muito capaz para seu tamanho. Ótima escolha para programação, escrita e IA de uso geral em hardware intermediário.
quality
Qwen 2.5 14B
qwen2.5:14b
9.0 GB 12 GB 16 GB Alibaba   Modelo versátil de 14B. Excelente para contexto longo, prompts multilíngues e matemática. Requer 12 GB+ de VRAM ou bastante RAM.
heavy
Devstral Small 2
devstral-small-2
14 GB 14 GB 28 GB Mistral AI   Modelo de 24B focado em código — a melhor IA de código aberto para programação e fluxos de trabalho agênticos. Excelente em edições de múltiplos arquivos e refatoração.
quality
Gemma 2 27B
gemma2:27b
16 GB 18 GB 32 GB Google   Modelo denso médio-grande do Google. Excelente qualidade para escrita, sumarização e tarefas de redação em escala de estação de trabalho.
largegpu-recommended
Mixtral 8x7B
mixtral:8x7b
26 GB 28 GB 48 GB Mistral AI   Mistura de especialistas (47 B no total, ~13 B ativos por token). Rápido para sua qualidade — uma popular alternativa local ao ChatGPT.
largemoegpu-recommended
Llama 3.3 70B
llama3.3:70b
43 GB 42 GB 64 GB Meta   LLM de 70B de código aberto da Meta do final de 2024. Qualidade próxima ao estado da arte em uma única GPU de 48 GB — o Llama local mais poderoso que você pode rodar.
xlargegpu-only
Qwen 3.6
qwen3.6:latest
47 GB 44 GB 64 GB Alibaba   Versão mais recente do Qwen 3.6. Forte em uso geral, contexto longo e multilíngue — um dos principais concorrentes de código aberto aos modelos da classe GPT.
xlargegpu-only
Mixtral 8x22B
mixtral:8x22b
80 GB 80 GB 128 GB Mistral AI   Grande mistura de especialistas (141 B). Classe de estação de trabalho / servidor — ideal quando você precisa de máxima profundidade de raciocínio.
xlargemoegpu-only
Melhor IA de Código Aberto por Caso de Uso

Melhor IA para programação

Devstral Small 2 (24B) lidera para codificação agêntica e edições de múltiplos arquivos. Qwen 2.5 14B e Llama 3.1 8B são fortes alternativas quando você tem menos VRAM. Todos gratuitos, todos locais, todos de código aberto.

Melhor IA para escrita

Gemma 2 27B e Llama 3.3 70B produzem a prosa de forma longa mais refinada. Para escrita cotidiana em hardware modesto, Mistral 7B supera muito o esperado para seu tamanho.

Melhor IA para matemática & raciocínio

Qwen 2.5 14B e Qwen 3.6 se destacam em matemática, raciocínio estruturado e tarefas multilíngues. Mixtral 8x7B é a melhor opção de mistura de especialistas.

Melhor IA para hardware de baixo desempenho

Gemma 3 Mini (1B, ~815 MB) roda com 4 GB de RAM sem GPU necessária — o menor modelo de linguagem confiável do catálogo. Llama 3.2 (3B) é um degrau acima se você tiver 6 GB.

Melhor IA para bate-papo rápido

GLM 4.7 Flash (Zhipu AI) é otimizado para respostas ágeis. No extremo menor, Llama 3.2 (3B) é um ótimo padrão para respostas rápidas.

Melhor alternativa ao ChatGPT

Para uma substituição gratuita, privada e offline ao ChatGPT: Mixtral 8x7B em uma GPU de 24–48 GB, ou Llama 3.3 70B se você tiver uma placa de estação de trabalho. Zero conta, zero dados saem da sua máquina.

Mapeamento de Níveis de Hardware
Nível Ativado por Padrão recomendado Modelos disponíveis
Leve < 6 GB RAM, sem GPU Gemma 3 Mini 1 modelo — Gemma 3 Mini
Padrão 6–15 GB RAM, sem GPU Llama 3.2 3 modelos — adiciona Llama 3.2
CPU Espaçosa 16–31 GB RAM, sem GPU Llama 3.2 5 modelos — adiciona Mistral 7B, GLM 4.7 Flash
CPU Estação de Trabalho 32 GB+ RAM, sem GPU Llama 3.1 8B 7 modelos — adiciona Llama 3.1 8B, Qwen 2.5 14B
GPU (pequena) < 6 GB VRAM (individual ou somada) Llama 3.2 2 modelos — Gemma 3 Mini, Llama 3.2
GPU (média) 6–11 GB VRAM Mistral 7B 6 modelos — adiciona Mistral 7B, GLM 4.7 Flash, Llama 3.1 8B
GPU (alta) 12–23 GB VRAM Qwen 2.5 14B 8 modelos — adiciona Qwen 2.5 14B, Devstral Small 2
GPU (muito alta) 24–47 GB VRAM Mixtral 8x7B 10 modelos — adiciona Gemma 2 27B, Mixtral 8x7B
GPU (extrema) 48 GB+ VRAM Llama 3.3 70B Todos os 13 modelos — adiciona Llama 3.3 70B, Qwen 3.6, Mixtral 8x22B
Perguntas Frequentes
Qual é a melhor IA para programação que pode ser executada localmente?

Devstral Small 2 (24B) é o modelo de código aberto focado em programação da Mistral — a melhor opção local para codificação agêntica, revisão de código e edições de múltiplos arquivos. Llama 3.1 8B e Qwen 2.5 14B são fortes alternativas de uso geral quando a VRAM é limitada. Todos rodam no Linux Lite via MyAI sem nuvem ou conta necessária.

Posso rodar um LLM localmente no Linux?

Sim. O MyAI no Linux Lite usa o Ollama internamente para rodar LLMs de código aberto inteiramente no seu hardware. Modelos menores como Gemma 3 Mini rodam na CPU com apenas 4 GB de RAM; modelos flagship maiores como Llama 3.3 70B precisam de uma GPU de estação de trabalho. O seletor de hardware do MyAI escolhe modelos que realmente rodarão na sua máquina.

Quais são os melhores LLMs de código aberto em 2026?

Os LLMs de código aberto mais fortes para inferência local são Meta Llama 3.3 70B, Mistral Mixtral 8x7B / 8x22B, Google Gemma 2 27B, Alibaba Qwen 3.6 e Mistral Devstral Small 2 (melhor para programação). Para bate-papo rápido, Zhipu GLM 4.7 Flash é excelente. O melhor modelo de linguagem pequeno (SLM) para hardware de baixo desempenho é o Gemma 3 Mini.

Como rodar DeepSeek ou outros LLMs localmente no Linux Lite?

O MyAI inclui um catálogo selecionado de modelos verificados, mas qualquer modelo compatível com Ollama — incluindo variantes do DeepSeek — pode ser baixado diretamente com ollama pull <model> após instalar o MyAI. O mecanismo de recomendação combina os modelos disponíveis com sua CPU, RAM, GPU e VRAM automaticamente.

Qual hardware preciso para rodar um LLM local?

Para modelos de linguagem pequenos (1–3B): 2–6 GB de RAM, qualquer CPU moderna. Para modelos médios (7–14B): 10–16 GB de RAM ou uma GPU de 6–12 GB. Para modelos grandes (27B–70B+): 32 GB+ de RAM e 18–48 GB de VRAM. O MyAI soma a VRAM em configurações multi-GPU NVIDIA (sempre) e placas AMD compatíveis com ROCm.

O que é MCP (Model Context Protocol)?

MCP é um padrão aberto para conectar assistentes de IA a ferramentas externas, arquivos e fontes de dados, popularizado em 2024. O MyAI roda modelos localmente via API HTTP do Ollama, com a qual clientes compatíveis com MCP e fluxos de trabalho agênticos podem se comunicar diretamente. Isso permite criar agentes de IA privados que operam nos seus próprios dados sem passar pela nuvem.

O MyAI é uma alternativa gratuita ao ChatGPT?

Sim. O MyAI é gratuito, de código aberto e roda inteiramente no seu próprio computador. Sem contas. Sem assinaturas. Sem nuvem. Sem telemetria. Após o primeiro download do modelo, funciona completamente offline — uma verdadeira alternativa privada ao ChatGPT, Claude ou Gemini para usuários que se preocupam com a propriedade dos dados.

Llama vs Mistral vs Qwen — qual LLM de código aberto devo escolher?

Llama 3.1 8B é o melhor modelo de uso geral para desktops típicos. Mistral 7B se destaca em seguimento de instruções e raciocínio em tamanhos menores. Qwen 2.5 14B / Qwen 3.6 são os mais fortes para tarefas multilíngues, contexto longo e matemática. Para programação especificamente, Devstral Small 2 (também da Mistral) supera os três.

O que é RAG (Retrieval-Augmented Generation)?

RAG combina um LLM local com uma etapa de busca nos seus próprios documentos, para que o modelo possa responder perguntas baseadas nos seus dados sem enviá-los a lugar nenhum. O MyAI expõe a API HTTP do Ollama em 127.0.0.1:7070, que qualquer framework RAG (LangChain, LlamaIndex, etc.) pode usar para fluxos de trabalho de recuperação aumentada totalmente locais.

O MyAI funciona offline?

Sim. A única atividade de rede é o download inicial do modelo (geralmente 0,6–80 GB dependendo do modelo escolhido). Uma vez que o modelo esteja no disco, o MyAI funciona completamente offline — sem necessidade de conexão à internet para bate-papo, ajuda com programação ou qualquer outra tarefa de IA.