Il catalogo curato di modelli linguistici open source installabili con un clic nell'assistente MyAI di Linux Lite. Tutti i modelli girano in locale tramite Ollama — senza cloud, senza telemetria, senza account. Le dimensioni assumono la quantizzazione Q4_K_M; la VRAM minima è per un'inferenza accelerata da GPU utilizzabile (VRAM inferiore ricade su CPU+RAM, molto più lenta). Fonte di riferimento: /usr/share/myai/hardware-profiles.json. Aggiornato il 12/05/26.
Eseguire modelli linguistici di grandi dimensioni in locale su Linux significa che i tuoi prompt, file e conversazioni non lasciano mai la macchina. Non ci sono chiavi API, limiti di utilizzo, abbonamenti, né caricamento di dati sensibili su server di terze parti. MyAI è la alternativa gratuita a ChatGPT più semplice per gli utenti che desiderano privacy, accesso offline e controllo totale sul modello open source da utilizzare — dai modelli linguistici piccoli (SLM) come Gemma 3 Mini (1B) che girano su un laptop di base, fino ai modelli flagship da 70B+ su GPU da workstation.
MyAI include un motore di raccomandazione basato sull'hardware che rileva CPU, RAM, GPU NVIDIA/AMD e VRAM, mostrando solo i modelli che funzioneranno davvero bene. Che tu stia cercando la migliore AI per la programmazione, la scrittura, la matematica, flussi di lavoro agentivi o un assistente quotidiano veloce, la tabella curata qui sotto ha un'opzione selezionata per ogni fascia.
| Modello | Dimensione (Q4) | VRAM Min | RAM Min | Note |
|---|---|---|---|---|
|
Gemma 3 Mini
gemma3:1b
|
815 MB | — | 4 GB |
Google
LLM open source compatto da 1B di Google. Veloce ovunque, ideale per chat casual e AI on-device su laptop Linux più datati.
smallcpu-friendly
|
|
Llama 3.2
llama3.2:3b
|
2.0 GB | — | 6 GB |
Meta
Tuttofare da 3B. Il miglior LLM open source predefinito per i tipici desktop Linux. Ottimo equilibrio tra velocità e qualità.
balanced
|
|
Mistral 7B
mistral:7b
|
4.1 GB | 6 GB | 8 GB |
Mistral AI
Forte ragionamento open source e capacità di seguire istruzioni. Un preferito per la scrittura per uso generale e i flussi di lavoro Q&A.
quality
|
|
GLM 4.7 Flash
glm-4.7-flash
|
5.5 GB | 6 GB | 10 GB |
Zhipu AI
Variante "flash" leggera di GLM 4.7 di Zhipu AI. Ottimizzata per risposte rapide con qualità bilanciata — ottima per chat veloci.
balanced
|
|
Llama 3.1 8B
llama3.1:8b
|
4.7 GB | 6 GB | 10 GB |
Meta
Il modello piccolo di punta di Meta — molto capace per le sue dimensioni. Ottima scelta per programmazione, scrittura e AI per uso generale su hardware di fascia media.
quality
|
|
Qwen 2.5 14B
qwen2.5:14b
|
9.0 GB | 12 GB | 16 GB |
Alibaba
Tuttofare da 14B. Eccellente per prompt a contesto lungo, multilingue e matematica. Richiede 12 GB+ di VRAM o molta RAM.
heavy
|
|
Devstral Small 2
devstral-small-2
|
14 GB | 14 GB | 28 GB |
Mistral AI
Modello da 24B orientato al codice — la migliore AI open source per la programmazione e i flussi di lavoro agentivi. Eccelle nelle modifiche multi-file e nel refactoring.
quality
|
|
Gemma 2 27B
gemma2:27b
|
16 GB | 18 GB | 32 GB |
Google
Modello denso medio-grande di Google. Eccellente qualità per scrittura, riassunti e compiti saggistici a livello workstation.
largegpu-recommended
|
|
Mixtral 8x7B
mixtral:8x7b
|
26 GB | 28 GB | 48 GB |
Mistral AI
Mixture-of-experts (47 B totali, ~13 B attivi per token). Veloce per la sua qualità — una popolare alternativa locale a ChatGPT.
largemoegpu-recommended
|
|
Llama 3.3 70B
llama3.3:70b
|
43 GB | 42 GB | 64 GB |
Meta
LLM open source da 70B di Meta del tardo 2024. Qualità quasi all'avanguardia su una singola GPU da 48 GB — il Llama locale più potente che puoi eseguire.
xlargegpu-only
|
|
Qwen 3.6
qwen3.6:latest
|
47 GB | 44 GB | 64 GB |
Alibaba
Ultima versione di Qwen 3.6. Forte per uso generale, contesto lungo, multilingue — un top concorrente open source ai modelli di classe GPT.
xlargegpu-only
|
|
Mixtral 8x22B
mixtral:8x22b
|
80 GB | 80 GB | 128 GB |
Mistral AI
Grande mixture-of-experts (141 B). Classe workstation/server — ideale quando serve la massima profondità di ragionamento.
xlargemoegpu-only
|
Devstral Small 2 (24B) è il leader per la programmazione agentiva e le modifiche multi-file. Qwen 2.5 14B e Llama 3.1 8B sono ottimi secondi classificati quando si ha meno VRAM. Tutti gratuiti, tutti locali, tutti open source.
Gemma 2 27B e Llama 3.3 70B producono la prosa lunga più raffinata. Per la scrittura quotidiana su hardware modesto, Mistral 7B rende molto al di sopra del suo peso.
Qwen 2.5 14B e Qwen 3.6 si distinguono per matematica, ragionamento strutturato e attività multilingue. Mixtral 8x7B è la migliore opzione mixture-of-experts.
Gemma 3 Mini (1B, ~815 MB) gira con 4 GB di RAM senza GPU — il modello linguistico piccolo più leggero e affidabile del catalogo. Llama 3.2 (3B) è un passo avanti se hai 6 GB.
GLM 4.7 Flash (Zhipu AI) è ottimizzato per risposte rapide. Sul fronte dei modelli più piccoli, Llama 3.2 (3B) è un ottimo predefinito per risposte veloci.
Per una sostituzione gratuita, privata e offline di ChatGPT: Mixtral 8x7B su una GPU da 24–48 GB, oppure Llama 3.3 70B se hai una scheda da workstation. Zero account, zero dati lasciano la tua macchina.
| Fascia | Attivata da | Predefinito consigliato | Modelli disponibili |
|---|---|---|---|
| Leggera | < 6 GB RAM, nessuna GPU | Gemma 3 Mini | 1 modello — Gemma 3 Mini |
| Standard | 6–15 GB RAM, nessuna GPU | Llama 3.2 | 3 modelli — aggiunge Llama 3.2 |
| CPU Ampia | 16–31 GB RAM, nessuna GPU | Llama 3.2 | 5 modelli — aggiunge Mistral 7B, GLM 4.7 Flash |
| CPU Workstation | 32 GB+ RAM, nessuna GPU | Llama 3.1 8B | 7 modelli — aggiunge Llama 3.1 8B, Qwen 2.5 14B |
| GPU (piccola) | < 6 GB VRAM (singola o sommata) | Llama 3.2 | 2 modelli — Gemma 3 Mini, Llama 3.2 |
| GPU (media) | 6–11 GB VRAM | Mistral 7B | 6 modelli — aggiunge Mistral 7B, GLM 4.7 Flash, Llama 3.1 8B |
| GPU (alta) | 12–23 GB VRAM | Qwen 2.5 14B | 8 modelli — aggiunge Qwen 2.5 14B, Devstral Small 2 |
| GPU (molto alta) | 24–47 GB VRAM | Mixtral 8x7B | 10 modelli — aggiunge Gemma 2 27B, Mixtral 8x7B |
| GPU (estrema) | 48 GB+ VRAM | Llama 3.3 70B | Tutti i 13 modelli — aggiunge Llama 3.3 70B, Qwen 3.6, Mixtral 8x22B |
Devstral Small 2 (24B) è il modello open source di Mistral orientato al codice — la migliore opzione locale per la programmazione agentiva, la revisione del codice e le modifiche multi-file. Llama 3.1 8B e Qwen 2.5 14B sono valide alternative per uso generale quando la VRAM è limitata. Tutti girano su Linux Lite tramite MyAI senza cloud né account richiesti.
Sì. MyAI su Linux Lite utilizza Ollama per eseguire LLM open source interamente sul tuo hardware. I modelli più piccoli come Gemma 3 Mini girano su CPU con appena 4 GB di RAM; i modelli flagship più grandi come Llama 3.3 70B richiedono una GPU da workstation. Il selettore hardware di MyAI sceglie i modelli che funzioneranno davvero sulla tua macchina.
I più forti LLM open source per l'inferenza locale sono Meta Llama 3.3 70B, Mistral Mixtral 8x7B / 8x22B, Google Gemma 2 27B, Alibaba Qwen 3.6 e Mistral Devstral Small 2 (il migliore per la programmazione). Per la chat veloce, Zhipu GLM 4.7 Flash è eccellente. Il miglior modello linguistico piccolo (SLM) per hardware di fascia bassa è Gemma 3 Mini.
MyAI include un catalogo curato di modelli verificati, ma qualsiasi modello compatibile con Ollama — incluse le varianti DeepSeek — può essere scaricato direttamente con ollama pull <model> dopo aver installato MyAI. Il motore di raccomandazione abbina automaticamente i modelli disponibili alla tua CPU, RAM, GPU e VRAM.
Per i modelli linguistici piccoli (1–3B): 2–6 GB di RAM, qualsiasi CPU moderna. Per i modelli di medie dimensioni (7–14B): 10–16 GB di RAM o una GPU con 6–12 GB. Per i modelli grandi (27B–70B+): 32 GB+ di RAM e 18–48 GB di VRAM. MyAI somma la VRAM su configurazioni multi-GPU NVIDIA (sempre) e schede AMD compatibili ROCm.
MCP è uno standard aperto per collegare assistenti AI a strumenti esterni, file e fonti di dati, diffusosi nel 2024. MyAI esegue i modelli in locale tramite l'API HTTP di Ollama, con cui i client compatibili con MCP e i flussi di lavoro agentivi possono comunicare direttamente. Questo consente di costruire agenti AI privati che operano sui propri dati senza passaggi nel cloud.
Sì. MyAI è gratuito, open source e funziona interamente sul tuo computer. Nessun account. Nessun abbonamento. Nessun cloud. Nessuna telemetria. Dopo il primo download del modello funziona completamente offline — una vera alternativa privata a ChatGPT, Claude o Gemini per gli utenti che tengono alla proprietà dei dati.
Llama 3.1 8B è il miglior tuttofare per uso generale sui desktop tipici. Mistral 7B eccelle nel seguire istruzioni e nel ragionamento a dimensioni ridotte. Qwen 2.5 14B / Qwen 3.6 sono i più forti per attività multilingue, contesti lunghi e matematica. Per la programmazione nello specifico, Devstral Small 2 (anch'esso di Mistral) supera tutti e tre.
RAG combina un LLM locale con una fase di ricerca sui propri documenti, così il modello può rispondere a domande basandosi sui tuoi dati senza caricarli da nessuna parte. MyAI espone l'API HTTP di Ollama su 127.0.0.1:7070, che qualsiasi framework RAG (LangChain, LlamaIndex, ecc.) può utilizzare come destinazione per flussi di lavoro di recupero completamente locali.
Sì. L'unica attività di rete è il download iniziale del modello (tipicamente da 0,6 a 80 GB a seconda del modello scelto). Una volta che il modello è su disco, MyAI funziona completamente offline — nessuna connessione internet richiesta per chat, aiuto con la programmazione o qualsiasi altro compito AI.