El catálogo seleccionado de modelos de lenguaje grandes de código abierto que puedes instalar con un clic en el asistente MyAI de Linux Lite. Todos los modelos se ejecutan localmente mediante Ollama — sin nube, sin telemetría, sin cuenta. Los tamaños corresponden a cuantización Q4_K_M; la VRAM mínima es para inferencia acelerada por GPU de forma utilizable (con menos VRAM se vuelve a CPU+RAM, mucho más lento). Fuente de referencia: /usr/share/myai/hardware-profiles.json. Actualizado el 12/05/26.
Ejecutar modelos de lenguaje grandes localmente en Linux significa que tus prompts, archivos y conversaciones nunca salen del equipo. No hay clave de API, ni límite de uso, ni suscripción, ni carga de datos sensibles a servidores de terceros. MyAI es la alternativa gratuita a ChatGPT más sencilla para quienes quieren privacidad, acceso sin conexión y control total sobre qué modelo de código abierto usan — desde modelos de lenguaje pequeños (SLMs) como Gemma 3 Mini (1B) que funcionan en un portátil básico, hasta modelos emblemáticos de más de 70B en una GPU de estación de trabajo.
MyAI incluye un motor de recomendaciones adaptado al hardware que detecta tu CPU, RAM, GPU NVIDIA / AMD y VRAM, y solo te muestra los modelos que realmente funcionarán bien. Ya busques la mejor IA para programar, escribir, matemáticas, flujos de trabajo agénticos o un asistente cotidiano rápido, la tabla seleccionada a continuación tiene una opción a medida para cada nivel.
| Modelo | Tamaño (Q4) | VRAM mín. | RAM mín. | Notas |
|---|---|---|---|---|
|
Gemma 3 Mini
gemma3:1b
|
815 MB | — | 4 GB |
Google
LLM de código abierto compacto de 1B de Google. Rápido en cualquier hardware, ideal para chat casual e IA en dispositivo en portátiles Linux más antiguos.
smallcpu-friendly
|
|
Llama 3.2
llama3.2:3b
|
2.0 GB | — | 6 GB |
Meta
Modelo versátil de 3B. Mejor LLM de código abierto por defecto para escritorios Linux típicos. Gran equilibrio entre velocidad y calidad.
balanced
|
|
Mistral 7B
mistral:7b
|
4.1 GB | 6 GB | 8 GB |
Mistral AI
Sólido razonamiento de código abierto y seguimiento de instrucciones. Favorito para escritura de propósito general y flujos de trabajo de preguntas y respuestas.
quality
|
|
GLM 4.7 Flash
glm-4.7-flash
|
5.5 GB | 6 GB | 10 GB |
Zhipu AI
Variante GLM 4.7 "flash" ligera de Zhipu AI. Optimizada para respuestas rápidas con calidad equilibrada — ideal para chat ágil.
balanced
|
|
Llama 3.1 8B
llama3.1:8b
|
4.7 GB | 6 GB | 10 GB |
Meta
El modelo pequeño emblemático de Meta — muy capaz para su tamaño. Excelente elección para programación, escritura e IA de propósito general en hardware de gama media.
quality
|
|
Qwen 2.5 14B
qwen2.5:14b
|
9.0 GB | 12 GB | 16 GB |
Alibaba
Modelo versátil de 14B. Excelente para contextos largos, prompts multilingües y matemáticas. Requiere 12 GB+ de VRAM o mucha RAM.
heavy
|
|
Devstral Small 2
devstral-small-2
|
14 GB | 14 GB | 28 GB |
Mistral AI
Modelo de 24B enfocado en código — la mejor IA de código abierto para programación y flujos de trabajo agénticos. Muy bueno en ediciones de múltiples archivos y refactorización.
quality
|
|
Gemma 2 27B
gemma2:27b
|
16 GB | 18 GB | 32 GB |
Google
Modelo denso de tamaño medio-grande de Google. Excelente calidad para escritura, resumen y tareas de redacción a escala de estación de trabajo.
largegpu-recommended
|
|
Mixtral 8x7B
mixtral:8x7b
|
26 GB | 28 GB | 48 GB |
Mistral AI
Mezcla de expertos (47 B en total, ~13 B activos por token). Rápido para su calidad — una popular alternativa local a ChatGPT.
largemoegpu-recommended
|
|
Llama 3.3 70B
llama3.3:70b
|
43 GB | 42 GB | 64 GB |
Meta
LLM de código abierto de 70B de Meta de finales de 2024. Calidad casi de frontera en una sola GPU de 48 GB — el Llama local más potente que puedes ejecutar.
xlargegpu-only
|
|
Qwen 3.6
qwen3.6:latest
|
47 GB | 44 GB | 64 GB |
Alibaba
Última versión de Qwen 3.6. Gran propósito general, contexto largo y multilingüe — un competidor de código abierto de primer nivel frente a modelos de clase GPT.
xlargegpu-only
|
|
Mixtral 8x22B
mixtral:8x22b
|
80 GB | 80 GB | 128 GB |
Mistral AI
Gran mezcla de expertos (141 B). Clase estación de trabajo / servidor — la mejor opción cuando necesitas máxima profundidad de razonamiento.
xlargemoegpu-only
|
Devstral Small 2 (24B) lidera para codificación agéntica y ediciones en múltiples archivos. Qwen 2.5 14B y Llama 3.1 8B son fuertes opciones secundarias cuando tienes menos VRAM. Todos gratuitos, todos locales, todos de código abierto.
Gemma 2 27B y Llama 3.3 70B producen los textos de forma larga más pulidos. Para escritura cotidiana en hardware modesto, Mistral 7B rinde muy por encima de su categoría.
Qwen 2.5 14B y Qwen 3.6 destacan en matemáticas, razonamiento estructurado y tareas multilingües. Mixtral 8x7B es la mejor opción de mezcla de expertos.
Gemma 3 Mini (1B, ~815 MB) funciona con 4 GB de RAM sin necesidad de GPU — el modelo de lenguaje pequeño más ligero y fiable del catálogo. Llama 3.2 (3B) es un paso adelante si tienes 6 GB.
GLM 4.7 Flash (Zhipu AI) está optimizado para respuestas ágiles. En la gama más baja, Llama 3.2 (3B) es un excelente modelo predeterminado para respuestas rápidas.
Para un reemplazo gratuito, privado y sin conexión de ChatGPT: Mixtral 8x7B en una GPU de 24–48 GB, o Llama 3.3 70B si tienes una tarjeta de estación de trabajo. Sin cuenta, sin que ningún dato salga de tu equipo.
| Nivel | Activado por | Predeterminado recomendado | Modelos disponibles |
|---|---|---|---|
| Ligero | < 6 GB RAM, sin GPU | Gemma 3 Mini | 1 modelo — Gemma 3 Mini |
| Estándar | 6–15 GB RAM, sin GPU | Llama 3.2 | 3 modelos — añade Llama 3.2 |
| CPU amplia | 16–31 GB RAM, sin GPU | Llama 3.2 | 5 modelos — añade Mistral 7B, GLM 4.7 Flash |
| CPU de estación de trabajo | 32 GB+ RAM, sin GPU | Llama 3.1 8B | 7 modelos — añade Llama 3.1 8B, Qwen 2.5 14B |
| GPU (pequeña) | < 6 GB VRAM (individual o sumada) | Llama 3.2 | 2 modelos — Gemma 3 Mini, Llama 3.2 |
| GPU (media) | 6–11 GB VRAM | Mistral 7B | 6 modelos — añade Mistral 7B, GLM 4.7 Flash, Llama 3.1 8B |
| GPU (alta) | 12–23 GB VRAM | Qwen 2.5 14B | 8 modelos — añade Qwen 2.5 14B, Devstral Small 2 |
| GPU (muy alta) | 24–47 GB VRAM | Mixtral 8x7B | 10 modelos — añade Gemma 2 27B, Mixtral 8x7B |
| GPU (extrema) | 48 GB+ VRAM | Llama 3.3 70B | Los 13 modelos — añade Llama 3.3 70B, Qwen 3.6, Mixtral 8x22B |
Devstral Small 2 (24B) es el modelo de código abierto de Mistral enfocado en código — la mejor opción local para codificación agéntica, revisión de código y ediciones en múltiples archivos. Llama 3.1 8B y Qwen 2.5 14B son sólidas alternativas de propósito general cuando la VRAM es limitada. Todos funcionan en Linux Lite mediante MyAI sin necesidad de nube ni cuenta.
Sí. MyAI en Linux Lite usa Ollama internamente para ejecutar LLMs de código abierto completamente en tu hardware. Los modelos más pequeños como Gemma 3 Mini funcionan en CPU con tan solo 4 GB de RAM; los modelos emblemáticos más grandes como Llama 3.3 70B necesitan una GPU de estación de trabajo. El selector adaptado al hardware de MyAI elige los modelos que realmente funcionarán en tu equipo.
Los LLMs de código abierto más potentes para inferencia local son Meta Llama 3.3 70B, Mistral Mixtral 8x7B / 8x22B, Google Gemma 2 27B, Alibaba Qwen 3.6 y Mistral Devstral Small 2 (el mejor para programar). Para chat rápido, Zhipu GLM 4.7 Flash es excelente. El mejor modelo de lenguaje pequeño (SLM) para hardware de gama baja es Gemma 3 Mini.
MyAI incluye un catálogo seleccionado de modelos verificados, pero cualquier modelo compatible con Ollama — incluyendo variantes de DeepSeek — puede descargarse directamente con ollama pull <model> tras instalar MyAI. El motor de recomendaciones ajusta los modelos disponibles a tu CPU, RAM, GPU y VRAM de forma automática.
Para modelos de lenguaje pequeños (1–3B): 2–6 GB de RAM, cualquier CPU moderna. Para modelos medianos (7–14B): 10–16 GB de RAM o una GPU de 6–12 GB. Para modelos grandes (27B–70B+): 32 GB+ de RAM y 18–48 GB de VRAM. MyAI suma la VRAM en configuraciones multi-GPU NVIDIA (siempre) y tarjetas AMD compatibles con ROCm.
MCP es un estándar abierto para conectar asistentes de IA con herramientas externas, archivos y fuentes de datos, popularizado en 2024. MyAI ejecuta modelos localmente mediante la API HTTP de Ollama, con la que los clientes compatibles con MCP y los flujos de trabajo agénticos pueden comunicarse directamente. Esto permite crear agentes de IA privados que operan sobre tus propios datos sin pasar por la nube.
Sí. MyAI es gratuito, de código abierto y se ejecuta completamente en tu propio ordenador. Sin cuentas. Sin suscripciones. Sin nube. Sin telemetría. Tras la primera descarga del modelo funciona completamente sin conexión — una verdadera alternativa privada a ChatGPT, Claude o Gemini para quienes se preocupan por la propiedad de sus datos.
Llama 3.1 8B es el mejor modelo de propósito general equilibrado para escritorios típicos. Mistral 7B destaca en seguimiento de instrucciones y razonamiento en tamaños más pequeños. Qwen 2.5 14B / Qwen 3.6 son los más potentes para tareas multilingües, contextos largos y matemáticas. Para programación específicamente, Devstral Small 2 (también de Mistral) supera a los tres.
RAG combina un LLM local con una búsqueda sobre tus propios documentos, de modo que el modelo pueda responder preguntas basadas en tus datos sin subirlos a ningún lugar. MyAI expone la API HTTP de Ollama en 127.0.0.1:7070, que cualquier framework de RAG (LangChain, LlamaIndex, etc.) puede usar para flujos de trabajo de recuperación aumentada completamente locales.
Sí. La única actividad de red es la descarga inicial del modelo (normalmente entre 0,6 y 80 GB según el modelo elegido). Una vez que el modelo está en el disco, MyAI funciona completamente sin conexión — no se necesita internet para el chat, ayuda con código ni ninguna otra tarea de IA.