MyAI  ·  Open-Source-LLMs lokal auf Linux Lite ausführen

Der kuratierte Katalog von Open-Source-Large-Language-Models, die Sie mit einem Klick im Linux Lite-MyAI-Assistenten installieren können. Alle Modelle laufen lokal über Ollama – keine Cloud, kein Telemetrie, kein Konto. Größen basieren auf Q4_K_M-Quantisierung; minimaler VRAM gilt für nutzbare GPU-beschleunigte Inferenz (weniger VRAM fällt auf CPU+RAM zurück, deutlich langsamer). Referenzquelle: /usr/share/myai/hardware-profiles.json. Aktualisiert 12.05.26.

Warum ein LLM lokal ausführen?

Große Sprachmodelle lokal auf Linux auszuführen bedeutet, dass Ihre Eingaben, Dateien und Gespräche das Gerät nie verlassen. Es gibt keinen API-Schlüssel, kein Ratenlimit, kein Abonnement und keinen Upload sensibler Daten an einen Drittanbieter-Server. MyAI ist die einfachste kostenlose ChatGPT-Alternative für Nutzer, die Privatsphäre, Offline-Zugang und volle Kontrolle über das verwendete Open-Source-Modell wünschen – von kleinen Sprachmodellen (SLMs) wie Gemma 3 Mini (1B), die auf einem einfachen Laptop laufen, bis hin zu 70B+-Flaggschiffmodellen auf einer Workstation-GPU.

MyAI enthält ein hardware-bewusstes Empfehlungsmodul, das Ihre CPU, Ihren RAM, Ihre NVIDIA-/AMD-GPU und Ihren VRAM erkennt und Ihnen nur die Modelle anzeigt, die tatsächlich gut laufen werden. Ob Sie die beste KI für Programmierung, Schreiben, Mathematik, agentische Arbeitsabläufe oder einen schnellen Alltagsassistenten suchen – die kuratierte Tabelle unten bietet für jede Stufe eine handverlesene Option.

Kuratierter Open-Source-LLM-Katalog
Modell Größe (Q4) Min. VRAM Min. RAM Hinweise
Gemma 3 Mini
gemma3:1b
815 MB 4 GB Google   Googles kompaktes 1B Open-Source-LLM. Überall schnell, ideal für gelegentlichen Chat und Geräte-KI auf älteren Linux-Laptops.
smallcpu-friendly
Llama 3.2
llama3.2:3b
2.0 GB 6 GB Meta   3B-Allrounder. Bestes Standard-Open-Source-LLM für typische Linux-Desktops. Gute Balance aus Geschwindigkeit und Qualität.
balanced
Mistral 7B
mistral:7b
4.1 GB 6 GB 8 GB Mistral AI   Starkes Open-Source-Reasoning und Anweisungsausführung. Ein Favorit für allgemeines Schreiben und Frage-&-Antwort-Arbeitsabläufe.
quality
GLM 4.7 Flash
glm-4.7-flash
5.5 GB 6 GB 10 GB Zhipu AI   Leichte GLM-4.7-„Flash"-Variante von Zhipu AI. Optimiert für schnelle Antworten bei ausgewogener Qualität – ideal für flotten Chat.
balanced
Llama 3.1 8B
llama3.1:8b
4.7 GB 6 GB 10 GB Meta   Metas Flaggschiff-Kleinmodell – sehr leistungsfähig für seine Größe. Starke Wahl für Programmierung, Schreiben und allgemeine KI auf Mid-Range-Hardware.
quality
Qwen 2.5 14B
qwen2.5:14b
9.0 GB 12 GB 16 GB Alibaba   14B-Allrounder. Ausgezeichnet für Langkontext, mehrsprachige Eingaben und Mathematik. Benötigt 12 GB+ VRAM oder viel RAM.
heavy
Devstral Small 2
devstral-small-2
14 GB 14 GB 28 GB Mistral AI   Code-fokussiertes 24B-Modell – die beste Open-Source-KI für Programmierung und agentische Arbeitsabläufe. Stark bei Mehrfachdatei-Bearbeitungen und Refactoring.
quality
Gemma 2 27B
gemma2:27b
16 GB 18 GB 32 GB Google   Googles mittelgroßes dichtes Modell. Ausgezeichnete Qualität für Schreiben, Zusammenfassen und Aufsatzaufgaben auf Workstation-Niveau.
largegpu-recommended
Mixtral 8x7B
mixtral:8x7b
26 GB 28 GB 48 GB Mistral AI   Mixture-of-Experts (47 B gesamt, ~13 B aktiv pro Token). Schnell für seine Qualität – eine beliebte lokale ChatGPT-Alternative.
largemoegpu-recommended
Llama 3.3 70B
llama3.3:70b
43 GB 42 GB 64 GB Meta   Metas 70B Open-Source-LLM von Ende 2024. Nahezu Frontier-Qualität auf einer einzelnen 48 GB GPU – das stärkste lokale Llama, das Sie ausführen können.
xlargegpu-only
Qwen 3.6
qwen3.6:latest
47 GB 44 GB 64 GB Alibaba   Neueste Qwen-3.6-Version. Stark in allgemeinen, langkontextuellen, mehrsprachigen Aufgaben – ein führender Open-Source-Konkurrent zu GPT-Klasse-Modellen.
xlargegpu-only
Mixtral 8x22B
mixtral:8x22b
80 GB 80 GB 128 GB Mistral AI   Großes Mixture-of-Experts (141 B). Workstation-/Serverklasse – am besten, wenn maximale Reasoning-Tiefe benötigt wird.
xlargemoegpu-only
Beste Open-Source-KI nach Anwendungsfall

Beste KI für Programmierung

Devstral Small 2 (24B) führt für agentisches Programmieren und Mehrfachdatei-Bearbeitungen. Qwen 2.5 14B und Llama 3.1 8B sind starke Alternativen bei weniger VRAM. Alle kostenlos, alle lokal, alle Open-Source.

Beste KI für Schreiben

Gemma 2 27B und Llama 3.3 70B erzeugen den ausgefeiltesten Langform-Prosa. Für alltägliches Schreiben auf bescheidener Hardware übertrifft Mistral 7B seine Größe bei weitem.

Beste KI für Mathematik & Reasoning

Qwen 2.5 14B und Qwen 3.6 sind herausragend für Mathematik, strukturiertes Reasoning und mehrsprachige Aufgaben. Mixtral 8x7B ist die beste Mixture-of-Experts-Option.

Beste KI für schwache Hardware

Gemma 3 Mini (1B, ~815 MB) läuft auf 4 GB RAM ohne GPU – das leichteste zuverlässige kleine Sprachmodell im Katalog. Llama 3.2 (3B) ist eine Stufe höher, wenn Sie 6 GB haben.

Beste KI für schnellen Chat

GLM 4.7 Flash (Zhipu AI) ist für schnelle Antworten optimiert. Am unteren Ende ist Llama 3.2 (3B) ein großartiger Schnellantwort-Standard.

Beste ChatGPT-Alternative

Für einen kostenlosen, privaten, Offline-Ersatz für ChatGPT: Mixtral 8x7B auf einer 24–48 GB GPU, oder Llama 3.3 70B wenn Sie eine Workstation-Karte haben. Null Konto, null Daten verlassen Ihren Rechner.

Hardware-Stufen-Zuordnung
Stufe Ausgelöst durch Empfohlener Standard Angebotene Modelle
Leicht < 6 GB RAM, keine GPU Gemma 3 Mini 1 Modell — Gemma 3 Mini
Standard 6–15 GB RAM, keine GPU Llama 3.2 3 Modelle — fügt Llama 3.2 hinzu
Geräumige CPU 16–31 GB RAM, keine GPU Llama 3.2 5 Modelle — fügt Mistral 7B, GLM 4.7 Flash hinzu
Workstation-CPU 32 GB+ RAM, keine GPU Llama 3.1 8B 7 Modelle — fügt Llama 3.1 8B, Qwen 2.5 14B hinzu
GPU (klein) < 6 GB VRAM (einzeln oder summiert) Llama 3.2 2 Modelle — Gemma 3 Mini, Llama 3.2
GPU (mittel) 6–11 GB VRAM Mistral 7B 6 Modelle — fügt Mistral 7B, GLM 4.7 Flash, Llama 3.1 8B hinzu
GPU (hoch) 12–23 GB VRAM Qwen 2.5 14B 8 Modelle — fügt Qwen 2.5 14B, Devstral Small 2 hinzu
GPU (sehr hoch) 24–47 GB VRAM Mixtral 8x7B 10 Modelle — fügt Gemma 2 27B, Mixtral 8x7B hinzu
GPU (extrem) 48 GB+ VRAM Llama 3.3 70B Alle 13 Modelle — fügt Llama 3.3 70B, Qwen 3.6, Mixtral 8x22B hinzu
Häufig gestellte Fragen
Was ist die beste KI für Programmierung, die man lokal ausführen kann?

Devstral Small 2 (24B) ist Mistrals code-fokussiertes Open-Source-Modell – die beste lokale Option für agentisches Programmieren, Code-Review und Mehrfachdatei-Bearbeitungen. Llama 3.1 8B und Qwen 2.5 14B sind starke Allzweck-Alternativen, wenn der VRAM knapp ist. Alle laufen auf Linux Lite über MyAI ohne Cloud oder Konto.

Kann ich ein LLM lokal auf Linux ausführen?

Ja. MyAI auf Linux Lite verwendet Ollama im Hintergrund, um Open-Source-LLMs vollständig auf Ihrer Hardware auszuführen. Kleinere Modelle wie Gemma 3 Mini laufen auf der CPU mit nur 4 GB RAM; größere Flaggschiffmodelle wie Llama 3.3 70B benötigen eine Workstation-GPU. MyAIs hardware-bewusste Auswahl wählt Modelle, die tatsächlich auf Ihrem Rechner laufen.

Was sind die besten Open-Source-LLMs im Jahr 2026?

Die stärksten Open-Source-LLMs für lokale Inferenz sind Meta Llama 3.3 70B, Mistral Mixtral 8x7B / 8x22B, Google Gemma 2 27B, Alibaba Qwen 3.6 und Mistral Devstral Small 2 (am besten für Programmierung). Für schnellen Chat ist Zhipu GLM 4.7 Flash ausgezeichnet. Das beste kleine Sprachmodell (SLM) für schwächere Hardware ist Gemma 3 Mini.

Wie führe ich DeepSeek oder andere LLMs lokal auf Linux Lite aus?

MyAI enthält einen kuratierten Katalog geprüfter Modelle, aber jedes Ollama-kompatible Modell – einschließlich DeepSeek-Varianten – kann nach der Installation von MyAI direkt mit ollama pull <model> heruntergeladen werden. Das Empfehlungsmodul ordnet verfügbare Modelle automatisch Ihrer CPU, Ihrem RAM, Ihrer GPU und Ihrem VRAM zu.

Welche Hardware benötige ich, um ein lokales LLM auszuführen?

Für kleine Sprachmodelle (1–3B): 2–6 GB RAM, jede moderne CPU. Für mittelgroße Modelle (7–14B): 10–16 GB RAM oder eine 6–12 GB GPU. Für große Modelle (27B–70B+): 32 GB+ RAM und 18–48 GB VRAM. MyAI summiert den VRAM über mehrere NVIDIA-Karten (immer) und ROCm-fähige AMD-Karten.

Was ist MCP (Model Context Protocol)?

MCP ist ein offener Standard zur Verbindung von KI-Assistenten mit externen Werkzeugen, Dateien und Datenquellen, der 2024 populär wurde. MyAI führt Modelle lokal über Ollamaas HTTP-API aus, mit der MCP-kompatible Clients und agentische Arbeitsabläufe direkt kommunizieren können. So können Sie private KI-Agenten erstellen, die auf Ihren eigenen Daten arbeiten, ohne einen Cloud-Umweg.

Ist MyAI eine kostenlose ChatGPT-Alternative?

Ja. MyAI ist kostenlos, Open-Source und läuft vollständig auf Ihrem eigenen Computer. Keine Konten. Keine Abonnements. Keine Cloud. Kein Telemetrie. Nach dem ersten Modell-Download funktioniert es vollständig offline – eine echte private Alternative zu ChatGPT, Claude oder Gemini für Nutzer, denen Dateneigentum wichtig ist.

Llama vs Mistral vs Qwen – welches Open-Source-LLM soll ich wählen?

Llama 3.1 8B ist der beste Allzweck-Allrounder für typische Desktops. Mistral 7B glänzt bei der Anweisungsausführung und beim Reasoning bei kleineren Größen. Qwen 2.5 14B / Qwen 3.6 sind am stärksten für mehrsprachige Aufgaben, langen Kontext und Mathematik. Für Programmierung im Speziellen übertrifft Devstral Small 2 (ebenfalls von Mistral) alle drei.

Was ist RAG (Retrieval-Augmented Generation)?

RAG kombiniert ein lokales LLM mit einem Suchschritt über Ihre eigenen Dokumente, sodass das Modell Fragen beantworten kann, die auf Ihren Daten basieren, ohne sie irgendwo hochzuladen. MyAI stellt Ollamaas HTTP-API unter 127.0.0.1:7070 bereit, auf die jedes RAG-Framework (LangChain, LlamaIndex usw.) für vollständig lokale Retrieval-Augmented-Arbeitsabläufe zugreifen kann.

Funktioniert MyAI offline?

Ja. Die einzige Netzwerkaktivität ist der erste Modell-Download (typischerweise 0,6–80 GB je nach gewähltem Modell). Sobald ein Modell auf der Festplatte liegt, läuft MyAI vollständig offline – keine Internetverbindung erforderlich für Chat, Programmierhilfe oder andere KI-Aufgaben.