Le catalogue sélectionné de grands modèles de langage open source que vous pouvez installer en un clic dans l'assistant MyAI de Linux Lite. Tous les modèles s'exécutent localement via Ollama — sans cloud, sans télémétrie, sans compte. Les tailles supposent une quantification Q4_K_M ; la VRAM minimale est pour une inférence accélérée par GPU utilisable (une VRAM inférieure bascule sur CPU+RAM, beaucoup plus lente). Source de vérité : /usr/share/myai/hardware-profiles.json. Mis à jour le 12/05/26.
Exécuter des grands modèles de langage localement sur Linux signifie que vos invites, fichiers et conversations ne quittent jamais la machine. Pas de clé API, pas de limite de débit, pas d'abonnement, et pas d'envoi de données sensibles vers un serveur tiers. MyAI est la alternative à ChatGPT gratuite la plus simple pour les utilisateurs qui souhaitent la confidentialité, l'accès hors ligne et un contrôle total sur le modèle open source utilisé — des petits modèles de langage (SLM) comme Gemma 3 Mini (1B) qui fonctionnent sur un ordinateur portable basique, jusqu'aux modèles phares 70B+ sur un GPU de station de travail.
MyAI est livré avec un moteur de recommandation adapté au matériel qui détecte votre CPU, RAM, GPU NVIDIA/AMD et VRAM, puis ne vous affiche que les modèles qui fonctionneront réellement bien. Que vous recherchiez la meilleure IA pour le code, l'écriture, les mathématiques, les workflows agentiques ou un assistant quotidien rapide, le tableau sélectionné ci-dessous propose une option soigneusement choisie pour chaque niveau.
| Modèle | Taille (Q4) | VRAM min. | RAM min. | Notes |
|---|---|---|---|---|
|
Gemma 3 Mini
gemma3:1b
|
815 MB | — | 4 Go |
Google
LLM open source compact 1B de Google. Rapide partout, idéal pour le chat occasionnel et l'IA embarquée sur les anciens ordinateurs portables Linux.
smallcpu-friendly
|
|
Llama 3.2
llama3.2:3b
|
2.0 Go | — | 6 Go |
Meta
Modèle polyvalent 3B. Meilleur LLM open source par défaut pour les bureaux Linux typiques. Excellent équilibre entre vitesse et qualité.
balanced
|
|
Mistral 7B
mistral:7b
|
4.1 Go | 6 Go | 8 Go |
Mistral AI
Solide raisonnement open source et suivi d'instructions. Un favori pour l'écriture générale et les workflows de questions-réponses.
quality
|
|
GLM 4.7 Flash
glm-4.7-flash
|
5.5 Go | 6 Go | 10 Go |
Zhipu AI
Variante légère GLM 4.7 « flash » de Zhipu AI. Optimisée pour des réponses rapides avec une qualité équilibrée — idéale pour un chat réactif.
balanced
|
|
Llama 3.1 8B
llama3.1:8b
|
4.7 Go | 6 Go | 10 Go |
Meta
Le modèle phare compact de Meta — très capable pour sa taille. Excellent choix pour le code, l'écriture et l'IA polyvalente sur du matériel de milieu de gamme.
quality
|
|
Qwen 2.5 14B
qwen2.5:14b
|
9.0 Go | 12 Go | 16 Go |
Alibaba
Modèle polyvalent 14B. Excellent pour les longs contextes, les invites multilingues et les mathématiques. Nécessite 12 Go+ de VRAM ou beaucoup de RAM.
heavy
|
|
Devstral Small 2
devstral-small-2
|
14 Go | 14 Go | 28 Go |
Mistral AI
Modèle 24B axé sur le code — la meilleure IA open source pour le codage et les workflows agentiques. Excellent pour les modifications multi-fichiers et le refactoring.
quality
|
|
Gemma 2 27B
gemma2:27b
|
16 Go | 18 Go | 32 Go |
Google
Modèle dense moyen-grand de Google. Excellente qualité pour l'écriture, la synthèse et les tâches rédactionnelles à l'échelle d'une station de travail.
largegpu-recommended
|
|
Mixtral 8x7B
mixtral:8x7b
|
26 Go | 28 Go | 48 Go |
Mistral AI
Mélange d'experts (47 B au total, ~13 B actifs par token). Rapide pour sa qualité — une alternative locale populaire à ChatGPT.
largemoegpu-recommended
|
|
Llama 3.3 70B
llama3.3:70b
|
43 Go | 42 Go | 64 Go |
Meta
LLM open source 70B de Meta fin 2024. Qualité proche de l'état de l'art sur un seul GPU 48 Go — le Llama local le plus puissant que vous pouvez exécuter.
xlargegpu-only
|
|
Qwen 3.6
qwen3.6:latest
|
47 Go | 44 Go | 64 Go |
Alibaba
Dernière version Qwen 3.6. Polyvalent, long contexte, multilingue — un concurrent open source de premier plan face aux modèles de classe GPT.
xlargegpu-only
|
|
Mixtral 8x22B
mixtral:8x22b
|
80 Go | 80 Go | 128 Go |
Mistral AI
Grand mélange d'experts (141 B). Classe station de travail / serveur — idéal quand vous avez besoin d'une profondeur de raisonnement maximale.
xlargemoegpu-only
|
Devstral Small 2 (24B) est en tête pour le codage agentique et les modifications multi-fichiers. Qwen 2.5 14B et Llama 3.1 8B sont de solides alternatives quand la VRAM est limitée. Tous gratuits, tous locaux, tous open source.
Gemma 2 27B et Llama 3.3 70B produisent la prose longue la plus soignée. Pour l'écriture quotidienne sur du matériel modeste, Mistral 7B dépasse largement ses attentes.
Qwen 2.5 14B et Qwen 3.6 se distinguent pour les mathématiques, le raisonnement structuré et les tâches multilingues. Mixtral 8x7B est la meilleure option de type mélange d'experts.
Gemma 3 Mini (1B, ~815 Mo) fonctionne avec 4 Go de RAM sans GPU requis — le petit modèle de langage fiable le plus léger du catalogue. Llama 3.2 (3B) est un niveau au-dessus si vous avez 6 Go.
GLM 4.7 Flash (Zhipu AI) est optimisé pour des réponses réactives. Dans la gamme basse, Llama 3.2 (3B) est un excellent choix par défaut pour les réponses rapides.
Pour un remplacement gratuit, privé et hors ligne de ChatGPT : Mixtral 8x7B sur un GPU 24–48 Go, ou Llama 3.3 70B si vous avez une carte de station de travail. Zéro compte, zéro donnée ne quitte votre machine.
| Niveau | Déclenché par | Recommandation par défaut | Modèles proposés |
|---|---|---|---|
| Léger | < 6 Go RAM, sans GPU | Gemma 3 Mini | 1 modèle — Gemma 3 Mini |
| Standard | 6–15 Go RAM, sans GPU | Llama 3.2 | 3 modèles — ajoute Llama 3.2 |
| CPU spacieux | 16–31 Go RAM, sans GPU | Llama 3.2 | 5 modèles — ajoute Mistral 7B, GLM 4.7 Flash |
| CPU station de travail | 32 Go+ RAM, sans GPU | Llama 3.1 8B | 7 modèles — ajoute Llama 3.1 8B, Qwen 2.5 14B |
| GPU (petit) | < 6 Go VRAM (unique ou cumulé) | Llama 3.2 | 2 modèles — Gemma 3 Mini, Llama 3.2 |
| GPU (moyen) | 6–11 Go VRAM | Mistral 7B | 6 modèles — ajoute Mistral 7B, GLM 4.7 Flash, Llama 3.1 8B |
| GPU (élevé) | 12–23 Go VRAM | Qwen 2.5 14B | 8 modèles — ajoute Qwen 2.5 14B, Devstral Small 2 |
| GPU (très élevé) | 24–47 Go VRAM | Mixtral 8x7B | 10 modèles — ajoute Gemma 2 27B, Mixtral 8x7B |
| GPU (extrême) | 48 Go+ VRAM | Llama 3.3 70B | 13 modèles au total — ajoute Llama 3.3 70B, Qwen 3.6, Mixtral 8x22B |
Devstral Small 2 (24B) est le modèle open source axé sur le code de Mistral — la meilleure option locale pour le codage agentique, la revue de code et les modifications multi-fichiers. Llama 3.1 8B et Qwen 2.5 14B sont de solides alternatives polyvalentes quand la VRAM est limitée. Tous fonctionnent sur Linux Lite via MyAI sans cloud ni compte requis.
Oui. MyAI sur Linux Lite utilise Ollama en coulisse pour exécuter des LLM open source entièrement sur votre matériel. Les modèles plus petits comme Gemma 3 Mini fonctionnent sur CPU avec seulement 4 Go de RAM ; les modèles phares plus grands comme Llama 3.3 70B nécessitent un GPU de station de travail. Le sélecteur adapté au matériel de MyAI choisit les modèles qui fonctionneront réellement sur votre machine.
Les LLM open source les plus puissants pour l'inférence locale sont Meta Llama 3.3 70B, Mistral Mixtral 8x7B / 8x22B, Google Gemma 2 27B, Alibaba Qwen 3.6 et Mistral Devstral Small 2 (meilleur pour le code). Pour le chat rapide, Zhipu GLM 4.7 Flash est excellent. Le meilleur petit modèle de langage (SLM) pour le matériel d'entrée de gamme est Gemma 3 Mini.
MyAI est livré avec un catalogue sélectionné de modèles vérifiés, mais tout modèle compatible Ollama — y compris les variantes DeepSeek — peut être téléchargé directement avec ollama pull <model> après l'installation de MyAI. Le moteur de recommandation associe automatiquement les modèles disponibles à votre CPU, RAM, GPU et VRAM.
Pour les petits modèles de langage (1–3B) : 2–6 Go de RAM, tout CPU moderne. Pour les modèles de taille moyenne (7–14B) : 10–16 Go de RAM ou un GPU de 6–12 Go. Pour les grands modèles (27B–70B+) : 32 Go+ de RAM et 18–48 Go de VRAM. MyAI additionne la VRAM sur les configurations multi-GPU NVIDIA (toujours) et les cartes AMD compatibles ROCm.
MCP est un standard ouvert pour connecter des assistants IA à des outils externes, des fichiers et des sources de données, popularisé en 2024. MyAI exécute des modèles localement via l'API HTTP d'Ollama, à laquelle les clients compatibles MCP et les workflows agentiques peuvent se connecter directement. Cela vous permet de créer des agents IA privés qui opèrent sur vos propres données sans aller-retour vers le cloud.
Oui. MyAI est gratuit, open source, et fonctionne entièrement sur votre propre ordinateur. Pas de compte. Pas d'abonnement. Pas de cloud. Pas de télémétrie. Après le premier téléchargement du modèle, il fonctionne entièrement hors ligne — une véritable alternative privée à ChatGPT, Claude ou Gemini pour les utilisateurs soucieux de la propriété de leurs données.
Llama 3.1 8B est le meilleur modèle polyvalent pour les bureaux typiques. Mistral 7B excelle dans le suivi d'instructions et le raisonnement pour les petites tailles. Qwen 2.5 14B / Qwen 3.6 sont les plus puissants pour les tâches multilingues, les longs contextes et les mathématiques. Pour le code spécifiquement, Devstral Small 2 (également de Mistral) surpasse les trois.
Le RAG combine un LLM local avec une étape de recherche sur vos propres documents, permettant au modèle de répondre à des questions ancrées dans vos données sans les envoyer nulle part. MyAI expose l'API HTTP d'Ollama sur 127.0.0.1:7070, que tout framework RAG (LangChain, LlamaIndex, etc.) peut cibler pour des workflows de génération augmentée par récupération entièrement locaux.
Oui. La seule activité réseau est le téléchargement initial du modèle (généralement 0,6–80 Go selon le modèle choisi). Une fois un modèle sur le disque, MyAI fonctionne entièrement hors ligne — aucune connexion Internet requise pour le chat, l'aide au code ou toute autre tâche IA.