Llama vs Mistral vs Qwen – welches soll ich wählen?

Llama 3.1 8B ist das beste Allzweck-Modell für den allgemeinen Einsatz. Mistral 7B glänzt bei der Befolgung von Anweisungen und beim Schlussfolgern. Qwen 2.5 14B ist am stärksten für mehrsprachige Aufgaben und langen Kontext. Für Programmierung im Speziellen übertrifft Devstral Small 2 (ebenfalls von Mistral) alle drei.

Die besten Open-Source-LLMs lokal auf Linux ausführen

Der kuratierte Katalog von Open-Source-Large-Language-Models, die Sie mit einem Klick im Linux Lite-MyAI-Assistenten installieren können. Alle Modelle laufen lokal über Ollama – keine Cloud, kein Telemetrie, kein Konto. Größen basieren auf Q4_K_M-Quantisierung; minimaler VRAM gilt für nutzbare GPU-beschleunigte Inferenz (weniger VRAM fällt auf CPU+RAM zurück, deutlich langsamer). Referenzquelle: /usr/share/myai/hardware-profiles.json. Aktualisiert 12.05.26.

Warum ein LLM lokal ausführen?

Große Sprachmodelle lokal auf Linux auszuführen bedeutet, dass Ihre Eingaben, Dateien und Gespräche das Gerät nie verlassen. Es gibt keinen API-Schlüssel, kein Ratenlimit, kein Abonnement und keinen Upload sensibler Daten an einen Drittanbieter-Server. MyAI ist die einfachste kostenlose ChatGPT-Alternative für Nutzer, die Privatsphäre, Offline-Zugang und volle Kontrolle über das verwendete Open-Source-Modell wünschen – von kleinen Sprachmodellen (SLMs) wie Gemma 3 Mini (1B), die auf einem einfachen Laptop laufen, bis hin zu 70B+-Flaggschiffmodellen auf einer Workstation-GPU.

MyAI enthält ein hardware-bewusstes Empfehlungsmodul, das Ihre CPU, Ihren RAM, Ihre NVIDIA-/AMD-GPU und Ihren VRAM erkennt und Ihnen nur die Modelle anzeigt, die tatsächlich gut laufen werden. Ob Sie die beste KI für Programmierung, Schreiben, Mathematik, agentische Arbeitsabläufe oder einen schnellen Alltagsassistenten suchen – die kuratierte Tabelle unten bietet für jede Stufe eine handverlesene Option.

Kuratierter Open-Source-LLM-Katalog

Modell	Größe (Q4)	Min. VRAM	Min. RAM	Hinweise
Gemma 3 Mini gemma3:1b	815 MB	—	4 GB	Google Googles kompaktes 1B Open-Source-LLM. Überall schnell, ideal für gelegentlichen Chat und Geräte-KI auf älteren Linux-Laptops. smallcpu-friendly
Llama 3.2 llama3.2:3b	2.0 GB	—	6 GB	Meta 3B-Allrounder. Bestes Standard-Open-Source-LLM für typische Linux-Desktops. Gute Balance aus Geschwindigkeit und Qualität. balanced
Mistral 7B mistral:7b	4.1 GB	6 GB	8 GB	Mistral AI Starkes Open-Source-Reasoning und Anweisungsausführung. Ein Favorit für allgemeines Schreiben und Frage-&-Antwort-Arbeitsabläufe. quality
GLM 4.7 Flash glm-4.7-flash	5.5 GB	6 GB	10 GB	Zhipu AI Leichte GLM-4.7-„Flash"-Variante von Zhipu AI. Optimiert für schnelle Antworten bei ausgewogener Qualität – ideal für flotten Chat. balanced
Llama 3.1 8B llama3.1:8b	4.7 GB	6 GB	10 GB	Meta Metas Flaggschiff-Kleinmodell – sehr leistungsfähig für seine Größe. Starke Wahl für Programmierung, Schreiben und allgemeine KI auf Mid-Range-Hardware. quality
Qwen 2.5 14B qwen2.5:14b	9.0 GB	12 GB	16 GB	Alibaba 14B-Allrounder. Ausgezeichnet für Langkontext, mehrsprachige Eingaben und Mathematik. Benötigt 12 GB+ VRAM oder viel RAM. heavy
Devstral Small 2 devstral-small-2	14 GB	14 GB	28 GB	Mistral AI Code-fokussiertes 24B-Modell – die beste Open-Source-KI für Programmierung und agentische Arbeitsabläufe. Stark bei Mehrfachdatei-Bearbeitungen und Refactoring. quality
Gemma 2 27B gemma2:27b	16 GB	18 GB	32 GB	Google Googles mittelgroßes dichtes Modell. Ausgezeichnete Qualität für Schreiben, Zusammenfassen und Aufsatzaufgaben auf Workstation-Niveau. largegpu-recommended
Mixtral 8x7B mixtral:8x7b	26 GB	28 GB	48 GB	Mistral AI Mixture-of-Experts (47 B gesamt, ~13 B aktiv pro Token). Schnell für seine Qualität – eine beliebte lokale ChatGPT-Alternative. largemoegpu-recommended
Llama 3.3 70B llama3.3:70b	43 GB	42 GB	64 GB	Meta Metas 70B Open-Source-LLM von Ende 2024. Nahezu Frontier-Qualität auf einer einzelnen 48 GB GPU – das stärkste lokale Llama, das Sie ausführen können. xlargegpu-only
Qwen 3.6 qwen3.6:latest	47 GB	44 GB	64 GB	Alibaba Neueste Qwen-3.6-Version. Stark in allgemeinen, langkontextuellen, mehrsprachigen Aufgaben – ein führender Open-Source-Konkurrent zu GPT-Klasse-Modellen. xlargegpu-only
Mixtral 8x22B mixtral:8x22b	80 GB	80 GB	128 GB	Mistral AI Großes Mixture-of-Experts (141 B). Workstation-/Serverklasse – am besten, wenn maximale Reasoning-Tiefe benötigt wird. xlargemoegpu-only

Beste Open-Source-KI nach Anwendungsfall

Beste KI für Programmierung

Devstral Small 2 (24B) führt für agentisches Programmieren und Mehrfachdatei-Bearbeitungen. Qwen 2.5 14B und Llama 3.1 8B sind starke Alternativen bei weniger VRAM. Alle kostenlos, alle lokal, alle Open-Source.

Beste KI für Schreiben

Gemma 2 27B und Llama 3.3 70B erzeugen den ausgefeiltesten Langform-Prosa. Für alltägliches Schreiben auf bescheidener Hardware übertrifft Mistral 7B seine Größe bei weitem.

Beste KI für Mathematik & Reasoning

Qwen 2.5 14B und Qwen 3.6 sind herausragend für Mathematik, strukturiertes Reasoning und mehrsprachige Aufgaben. Mixtral 8x7B ist die beste Mixture-of-Experts-Option.

Beste KI für schwache Hardware

Gemma 3 Mini (1B, ~815 MB) läuft auf 4 GB RAM ohne GPU – das leichteste zuverlässige kleine Sprachmodell im Katalog. Llama 3.2 (3B) ist eine Stufe höher, wenn Sie 6 GB haben.

Beste KI für schnellen Chat

GLM 4.7 Flash (Zhipu AI) ist für schnelle Antworten optimiert. Am unteren Ende ist Llama 3.2 (3B) ein großartiger Schnellantwort-Standard.

Beste ChatGPT-Alternative

Für einen kostenlosen, privaten, Offline-Ersatz für ChatGPT: Mixtral 8x7B auf einer 24–48 GB GPU, oder Llama 3.3 70B wenn Sie eine Workstation-Karte haben. Null Konto, null Daten verlassen Ihren Rechner.

Hardware-Stufen-Zuordnung

Stufe	Ausgelöst durch	Empfohlener Standard	Angebotene Modelle
Leicht	< 6 GB RAM, keine GPU	Gemma 3 Mini	1 Modell — Gemma 3 Mini
Standard	6–15 GB RAM, keine GPU	Llama 3.2	3 Modelle — fügt Llama 3.2 hinzu
Geräumige CPU	16–31 GB RAM, keine GPU	Llama 3.2	5 Modelle — fügt Mistral 7B, GLM 4.7 Flash hinzu
Workstation-CPU	32 GB+ RAM, keine GPU	Llama 3.1 8B	7 Modelle — fügt Llama 3.1 8B, Qwen 2.5 14B hinzu
GPU (klein)	< 6 GB VRAM (einzeln oder summiert)	Llama 3.2	2 Modelle — Gemma 3 Mini, Llama 3.2
GPU (mittel)	6–11 GB VRAM	Mistral 7B	6 Modelle — fügt Mistral 7B, GLM 4.7 Flash, Llama 3.1 8B hinzu
GPU (hoch)	12–23 GB VRAM	Qwen 2.5 14B	8 Modelle — fügt Qwen 2.5 14B, Devstral Small 2 hinzu
GPU (sehr hoch)	24–47 GB VRAM	Mixtral 8x7B	10 Modelle — fügt Gemma 2 27B, Mixtral 8x7B hinzu
GPU (extrem)	48 GB+ VRAM	Llama 3.3 70B	Alle 13 Modelle — fügt Llama 3.3 70B, Qwen 3.6, Mixtral 8x22B hinzu

Häufig gestellte Fragen

Was ist die beste KI für Programmierung, die man lokal ausführen kann?

Devstral Small 2 (24B) ist Mistrals code-fokussiertes Open-Source-Modell – die beste lokale Option für agentisches Programmieren, Code-Review und Mehrfachdatei-Bearbeitungen. Llama 3.1 8B und Qwen 2.5 14B sind starke Allzweck-Alternativen, wenn der VRAM knapp ist. Alle laufen auf Linux Lite über MyAI ohne Cloud oder Konto.

Kann ich ein LLM lokal auf Linux ausführen?

Ja. MyAI auf Linux Lite verwendet Ollama im Hintergrund, um Open-Source-LLMs vollständig auf Ihrer Hardware auszuführen. Kleinere Modelle wie Gemma 3 Mini laufen auf der CPU mit nur 4 GB RAM; größere Flaggschiffmodelle wie Llama 3.3 70B benötigen eine Workstation-GPU. MyAIs hardware-bewusste Auswahl wählt Modelle, die tatsächlich auf Ihrem Rechner laufen.

Was sind die besten Open-Source-LLMs im Jahr 2026?

Die stärksten Open-Source-LLMs für lokale Inferenz sind Meta Llama 3.3 70B, Mistral Mixtral 8x7B / 8x22B, Google Gemma 2 27B, Alibaba Qwen 3.6 und Mistral Devstral Small 2 (am besten für Programmierung). Für schnellen Chat ist Zhipu GLM 4.7 Flash ausgezeichnet. Das beste kleine Sprachmodell (SLM) für schwächere Hardware ist Gemma 3 Mini.

Wie führe ich DeepSeek oder andere LLMs lokal auf Linux Lite aus?

MyAI enthält einen kuratierten Katalog geprüfter Modelle, aber jedes Ollama-kompatible Modell – einschließlich DeepSeek-Varianten – kann nach der Installation von MyAI direkt mit ollama pull <model> heruntergeladen werden. Das Empfehlungsmodul ordnet verfügbare Modelle automatisch Ihrer CPU, Ihrem RAM, Ihrer GPU und Ihrem VRAM zu.

Welche Hardware benötige ich, um ein lokales LLM auszuführen?

Für kleine Sprachmodelle (1–3B): 2–6 GB RAM, jede moderne CPU. Für mittelgroße Modelle (7–14B): 10–16 GB RAM oder eine 6–12 GB GPU. Für große Modelle (27B–70B+): 32 GB+ RAM und 18–48 GB VRAM. MyAI summiert den VRAM über mehrere NVIDIA-Karten (immer) und ROCm-fähige AMD-Karten.

Was ist MCP (Model Context Protocol)?

MCP ist ein offener Standard zur Verbindung von KI-Assistenten mit externen Werkzeugen, Dateien und Datenquellen, der 2024 populär wurde. MyAI führt Modelle lokal über Ollamaas HTTP-API aus, mit der MCP-kompatible Clients und agentische Arbeitsabläufe direkt kommunizieren können. So können Sie private KI-Agenten erstellen, die auf Ihren eigenen Daten arbeiten, ohne einen Cloud-Umweg.

Ist MyAI eine kostenlose ChatGPT-Alternative?

Ja. MyAI ist kostenlos, Open-Source und läuft vollständig auf Ihrem eigenen Computer. Keine Konten. Keine Abonnements. Keine Cloud. Kein Telemetrie. Nach dem ersten Modell-Download funktioniert es vollständig offline – eine echte private Alternative zu ChatGPT, Claude oder Gemini für Nutzer, denen Dateneigentum wichtig ist.

Llama vs Mistral vs Qwen – welches Open-Source-LLM soll ich wählen?

Llama 3.1 8B ist der beste Allzweck-Allrounder für typische Desktops. Mistral 7B glänzt bei der Anweisungsausführung und beim Reasoning bei kleineren Größen. Qwen 2.5 14B / Qwen 3.6 sind am stärksten für mehrsprachige Aufgaben, langen Kontext und Mathematik. Für Programmierung im Speziellen übertrifft Devstral Small 2 (ebenfalls von Mistral) alle drei.

Was ist RAG (Retrieval-Augmented Generation)?

RAG kombiniert ein lokales LLM mit einem Suchschritt über Ihre eigenen Dokumente, sodass das Modell Fragen beantworten kann, die auf Ihren Daten basieren, ohne sie irgendwo hochzuladen. MyAI stellt Ollamaas HTTP-API unter 127.0.0.1:7070 bereit, auf die jedes RAG-Framework (LangChain, LlamaIndex usw.) für vollständig lokale Retrieval-Augmented-Arbeitsabläufe zugreifen kann.

Funktioniert MyAI offline?

Ja. Die einzige Netzwerkaktivität ist der erste Modell-Download (typischerweise 0,6–80 GB je nach gewähltem Modell). Sobald ein Modell auf der Festplatte liegt, läuft MyAI vollständig offline – keine Internetverbindung erforderlich für Chat, Programmierhilfe oder andere KI-Aufgaben.