Der kuratierte Katalog von Open-Source-Large-Language-Models, die Sie mit einem Klick im Linux Lite-MyAI-Assistenten installieren können. Alle Modelle laufen lokal über Ollama – keine Cloud, kein Telemetrie, kein Konto. Größen basieren auf Q4_K_M-Quantisierung; minimaler VRAM gilt für nutzbare GPU-beschleunigte Inferenz (weniger VRAM fällt auf CPU+RAM zurück, deutlich langsamer). Referenzquelle: /usr/share/myai/hardware-profiles.json. Aktualisiert 12.05.26.
Große Sprachmodelle lokal auf Linux auszuführen bedeutet, dass Ihre Eingaben, Dateien und Gespräche das Gerät nie verlassen. Es gibt keinen API-Schlüssel, kein Ratenlimit, kein Abonnement und keinen Upload sensibler Daten an einen Drittanbieter-Server. MyAI ist die einfachste kostenlose ChatGPT-Alternative für Nutzer, die Privatsphäre, Offline-Zugang und volle Kontrolle über das verwendete Open-Source-Modell wünschen – von kleinen Sprachmodellen (SLMs) wie Gemma 3 Mini (1B), die auf einem einfachen Laptop laufen, bis hin zu 70B+-Flaggschiffmodellen auf einer Workstation-GPU.
MyAI enthält ein hardware-bewusstes Empfehlungsmodul, das Ihre CPU, Ihren RAM, Ihre NVIDIA-/AMD-GPU und Ihren VRAM erkennt und Ihnen nur die Modelle anzeigt, die tatsächlich gut laufen werden. Ob Sie die beste KI für Programmierung, Schreiben, Mathematik, agentische Arbeitsabläufe oder einen schnellen Alltagsassistenten suchen – die kuratierte Tabelle unten bietet für jede Stufe eine handverlesene Option.
| Modell | Größe (Q4) | Min. VRAM | Min. RAM | Hinweise |
|---|---|---|---|---|
|
Gemma 3 Mini
gemma3:1b
|
815 MB | — | 4 GB |
Google
Googles kompaktes 1B Open-Source-LLM. Überall schnell, ideal für gelegentlichen Chat und Geräte-KI auf älteren Linux-Laptops.
smallcpu-friendly
|
|
Llama 3.2
llama3.2:3b
|
2.0 GB | — | 6 GB |
Meta
3B-Allrounder. Bestes Standard-Open-Source-LLM für typische Linux-Desktops. Gute Balance aus Geschwindigkeit und Qualität.
balanced
|
|
Mistral 7B
mistral:7b
|
4.1 GB | 6 GB | 8 GB |
Mistral AI
Starkes Open-Source-Reasoning und Anweisungsausführung. Ein Favorit für allgemeines Schreiben und Frage-&-Antwort-Arbeitsabläufe.
quality
|
|
GLM 4.7 Flash
glm-4.7-flash
|
5.5 GB | 6 GB | 10 GB |
Zhipu AI
Leichte GLM-4.7-„Flash"-Variante von Zhipu AI. Optimiert für schnelle Antworten bei ausgewogener Qualität – ideal für flotten Chat.
balanced
|
|
Llama 3.1 8B
llama3.1:8b
|
4.7 GB | 6 GB | 10 GB |
Meta
Metas Flaggschiff-Kleinmodell – sehr leistungsfähig für seine Größe. Starke Wahl für Programmierung, Schreiben und allgemeine KI auf Mid-Range-Hardware.
quality
|
|
Qwen 2.5 14B
qwen2.5:14b
|
9.0 GB | 12 GB | 16 GB |
Alibaba
14B-Allrounder. Ausgezeichnet für Langkontext, mehrsprachige Eingaben und Mathematik. Benötigt 12 GB+ VRAM oder viel RAM.
heavy
|
|
Devstral Small 2
devstral-small-2
|
14 GB | 14 GB | 28 GB |
Mistral AI
Code-fokussiertes 24B-Modell – die beste Open-Source-KI für Programmierung und agentische Arbeitsabläufe. Stark bei Mehrfachdatei-Bearbeitungen und Refactoring.
quality
|
|
Gemma 2 27B
gemma2:27b
|
16 GB | 18 GB | 32 GB |
Google
Googles mittelgroßes dichtes Modell. Ausgezeichnete Qualität für Schreiben, Zusammenfassen und Aufsatzaufgaben auf Workstation-Niveau.
largegpu-recommended
|
|
Mixtral 8x7B
mixtral:8x7b
|
26 GB | 28 GB | 48 GB |
Mistral AI
Mixture-of-Experts (47 B gesamt, ~13 B aktiv pro Token). Schnell für seine Qualität – eine beliebte lokale ChatGPT-Alternative.
largemoegpu-recommended
|
|
Llama 3.3 70B
llama3.3:70b
|
43 GB | 42 GB | 64 GB |
Meta
Metas 70B Open-Source-LLM von Ende 2024. Nahezu Frontier-Qualität auf einer einzelnen 48 GB GPU – das stärkste lokale Llama, das Sie ausführen können.
xlargegpu-only
|
|
Qwen 3.6
qwen3.6:latest
|
47 GB | 44 GB | 64 GB |
Alibaba
Neueste Qwen-3.6-Version. Stark in allgemeinen, langkontextuellen, mehrsprachigen Aufgaben – ein führender Open-Source-Konkurrent zu GPT-Klasse-Modellen.
xlargegpu-only
|
|
Mixtral 8x22B
mixtral:8x22b
|
80 GB | 80 GB | 128 GB |
Mistral AI
Großes Mixture-of-Experts (141 B). Workstation-/Serverklasse – am besten, wenn maximale Reasoning-Tiefe benötigt wird.
xlargemoegpu-only
|
Devstral Small 2 (24B) führt für agentisches Programmieren und Mehrfachdatei-Bearbeitungen. Qwen 2.5 14B und Llama 3.1 8B sind starke Alternativen bei weniger VRAM. Alle kostenlos, alle lokal, alle Open-Source.
Gemma 2 27B und Llama 3.3 70B erzeugen den ausgefeiltesten Langform-Prosa. Für alltägliches Schreiben auf bescheidener Hardware übertrifft Mistral 7B seine Größe bei weitem.
Qwen 2.5 14B und Qwen 3.6 sind herausragend für Mathematik, strukturiertes Reasoning und mehrsprachige Aufgaben. Mixtral 8x7B ist die beste Mixture-of-Experts-Option.
Gemma 3 Mini (1B, ~815 MB) läuft auf 4 GB RAM ohne GPU – das leichteste zuverlässige kleine Sprachmodell im Katalog. Llama 3.2 (3B) ist eine Stufe höher, wenn Sie 6 GB haben.
GLM 4.7 Flash (Zhipu AI) ist für schnelle Antworten optimiert. Am unteren Ende ist Llama 3.2 (3B) ein großartiger Schnellantwort-Standard.
Für einen kostenlosen, privaten, Offline-Ersatz für ChatGPT: Mixtral 8x7B auf einer 24–48 GB GPU, oder Llama 3.3 70B wenn Sie eine Workstation-Karte haben. Null Konto, null Daten verlassen Ihren Rechner.
| Stufe | Ausgelöst durch | Empfohlener Standard | Angebotene Modelle |
|---|---|---|---|
| Leicht | < 6 GB RAM, keine GPU | Gemma 3 Mini | 1 Modell — Gemma 3 Mini |
| Standard | 6–15 GB RAM, keine GPU | Llama 3.2 | 3 Modelle — fügt Llama 3.2 hinzu |
| Geräumige CPU | 16–31 GB RAM, keine GPU | Llama 3.2 | 5 Modelle — fügt Mistral 7B, GLM 4.7 Flash hinzu |
| Workstation-CPU | 32 GB+ RAM, keine GPU | Llama 3.1 8B | 7 Modelle — fügt Llama 3.1 8B, Qwen 2.5 14B hinzu |
| GPU (klein) | < 6 GB VRAM (einzeln oder summiert) | Llama 3.2 | 2 Modelle — Gemma 3 Mini, Llama 3.2 |
| GPU (mittel) | 6–11 GB VRAM | Mistral 7B | 6 Modelle — fügt Mistral 7B, GLM 4.7 Flash, Llama 3.1 8B hinzu |
| GPU (hoch) | 12–23 GB VRAM | Qwen 2.5 14B | 8 Modelle — fügt Qwen 2.5 14B, Devstral Small 2 hinzu |
| GPU (sehr hoch) | 24–47 GB VRAM | Mixtral 8x7B | 10 Modelle — fügt Gemma 2 27B, Mixtral 8x7B hinzu |
| GPU (extrem) | 48 GB+ VRAM | Llama 3.3 70B | Alle 13 Modelle — fügt Llama 3.3 70B, Qwen 3.6, Mixtral 8x22B hinzu |
Devstral Small 2 (24B) ist Mistrals code-fokussiertes Open-Source-Modell – die beste lokale Option für agentisches Programmieren, Code-Review und Mehrfachdatei-Bearbeitungen. Llama 3.1 8B und Qwen 2.5 14B sind starke Allzweck-Alternativen, wenn der VRAM knapp ist. Alle laufen auf Linux Lite über MyAI ohne Cloud oder Konto.
Ja. MyAI auf Linux Lite verwendet Ollama im Hintergrund, um Open-Source-LLMs vollständig auf Ihrer Hardware auszuführen. Kleinere Modelle wie Gemma 3 Mini laufen auf der CPU mit nur 4 GB RAM; größere Flaggschiffmodelle wie Llama 3.3 70B benötigen eine Workstation-GPU. MyAIs hardware-bewusste Auswahl wählt Modelle, die tatsächlich auf Ihrem Rechner laufen.
Die stärksten Open-Source-LLMs für lokale Inferenz sind Meta Llama 3.3 70B, Mistral Mixtral 8x7B / 8x22B, Google Gemma 2 27B, Alibaba Qwen 3.6 und Mistral Devstral Small 2 (am besten für Programmierung). Für schnellen Chat ist Zhipu GLM 4.7 Flash ausgezeichnet. Das beste kleine Sprachmodell (SLM) für schwächere Hardware ist Gemma 3 Mini.
MyAI enthält einen kuratierten Katalog geprüfter Modelle, aber jedes Ollama-kompatible Modell – einschließlich DeepSeek-Varianten – kann nach der Installation von MyAI direkt mit ollama pull <model> heruntergeladen werden. Das Empfehlungsmodul ordnet verfügbare Modelle automatisch Ihrer CPU, Ihrem RAM, Ihrer GPU und Ihrem VRAM zu.
Für kleine Sprachmodelle (1–3B): 2–6 GB RAM, jede moderne CPU. Für mittelgroße Modelle (7–14B): 10–16 GB RAM oder eine 6–12 GB GPU. Für große Modelle (27B–70B+): 32 GB+ RAM und 18–48 GB VRAM. MyAI summiert den VRAM über mehrere NVIDIA-Karten (immer) und ROCm-fähige AMD-Karten.
MCP ist ein offener Standard zur Verbindung von KI-Assistenten mit externen Werkzeugen, Dateien und Datenquellen, der 2024 populär wurde. MyAI führt Modelle lokal über Ollamaas HTTP-API aus, mit der MCP-kompatible Clients und agentische Arbeitsabläufe direkt kommunizieren können. So können Sie private KI-Agenten erstellen, die auf Ihren eigenen Daten arbeiten, ohne einen Cloud-Umweg.
Ja. MyAI ist kostenlos, Open-Source und läuft vollständig auf Ihrem eigenen Computer. Keine Konten. Keine Abonnements. Keine Cloud. Kein Telemetrie. Nach dem ersten Modell-Download funktioniert es vollständig offline – eine echte private Alternative zu ChatGPT, Claude oder Gemini für Nutzer, denen Dateneigentum wichtig ist.
Llama 3.1 8B ist der beste Allzweck-Allrounder für typische Desktops. Mistral 7B glänzt bei der Anweisungsausführung und beim Reasoning bei kleineren Größen. Qwen 2.5 14B / Qwen 3.6 sind am stärksten für mehrsprachige Aufgaben, langen Kontext und Mathematik. Für Programmierung im Speziellen übertrifft Devstral Small 2 (ebenfalls von Mistral) alle drei.
RAG kombiniert ein lokales LLM mit einem Suchschritt über Ihre eigenen Dokumente, sodass das Modell Fragen beantworten kann, die auf Ihren Daten basieren, ohne sie irgendwo hochzuladen. MyAI stellt Ollamaas HTTP-API unter 127.0.0.1:7070 bereit, auf die jedes RAG-Framework (LangChain, LlamaIndex usw.) für vollständig lokale Retrieval-Augmented-Arbeitsabläufe zugreifen kann.
Ja. Die einzige Netzwerkaktivität ist der erste Modell-Download (typischerweise 0,6–80 GB je nach gewähltem Modell). Sobald ein Modell auf der Festplatte liegt, läuft MyAI vollständig offline – keine Internetverbindung erforderlich für Chat, Programmierhilfe oder andere KI-Aufgaben.