MyAI  ·  Linux Lite पर ओपन-सोर्स LLM स्थानीय रूप से चलाएं

ओपन-सोर्स बड़े भाषा मॉडलों का क्यूरेटेड कैटलॉग जिन्हें आप Linux Lite के MyAI सहायक में एक क्लिक से इंस्टॉल कर सकते हैं। सभी मॉडल Ollama के माध्यम से स्थानीय रूप से चलते हैं — कोई क्लाउड नहीं, कोई टेलीमेट्री नहीं, कोई अकाउंट नहीं। आकार Q4_K_M क्वांटाइज़ेशन मानकर हैं; न्यूनतम VRAM उपयोगी GPU-त्वरित इन्फरेंस के लिए है (कम VRAM CPU+RAM पर वापस आता है, बहुत धीमा)। स्रोत: /usr/share/myai/hardware-profiles.json। अपडेट 12/05/26.

LLM को स्थानीय रूप से क्यों चलाएं?

Linux पर स्थानीय रूप से बड़े भाषा मॉडल चलाने का मतलब है कि आपके प्रॉम्प्ट, फाइलें और बातचीत कभी मशीन से बाहर नहीं जाती। कोई API की नहीं, कोई रेट लिमिट नहीं, कोई सब्सक्रिप्शन नहीं, और किसी तृतीय-पक्ष सर्वर पर संवेदनशील डेटा का कोई अपलोड नहीं। MyAI उन उपयोगकर्ताओं के लिए सबसे सरल मुफ्त ChatGPT विकल्प है जो गोपनीयता, ऑफलाइन एक्सेस और किस ओपन-सोर्स मॉडल का उपयोग करना है उस पर पूरा नियंत्रण चाहते हैं — Gemma 3 Mini (1B) जैसे छोटे भाषा मॉडल (SLM) जो एक बुनियादी लैपटॉप पर चलते हैं, से लेकर वर्कस्टेशन GPU पर 70B+ फ्लैगशिप मॉडल तक।

MyAI एक हार्डवेयर-जागरूक अनुशंसा इंजन के साथ आता है जो आपके CPU, RAM, NVIDIA / AMD GPU और VRAM का पता लगाता है, फिर केवल वही मॉडल दिखाता है जो वास्तव में अच्छी तरह चलेंगे। चाहे आप कोडिंग के लिए सर्वश्रेष्ठ AI, लेखन, गणित, एजेंटिक वर्कफ्लो, या एक तेज रोज़मर्रा सहायक की तलाश में हों, नीचे दी गई क्यूरेटेड तालिका में हर टियर के लिए एक हाथ से चुना गया विकल्प है।

क्यूरेटेड ओपन-सोर्स LLM कैटलॉग
मॉडल आकार (Q4) न्यूनतम VRAM न्यूनतम RAM नोट्स
Gemma 3 Mini
gemma3:1b
815 MB 4 GB Google   Google का कॉम्पैक्ट 1B ओपन-सोर्स LLM। हर जगह तेज़, पुराने Linux लैपटॉप पर सामान्य चैट और ऑन-डिवाइस AI के लिए आदर्श।
smallcpu-friendly
Llama 3.2
llama3.2:3b
2.0 GB 6 GB Meta   3B ऑल-राउंडर। सामान्य Linux डेस्कटॉप के लिए सर्वश्रेष्ठ डिफ़ॉल्ट ओपन-सोर्स LLM। गति और गुणवत्ता का बेहतरीन संतुलन।
balanced
Mistral 7B
mistral:7b
4.1 GB 6 GB 8 GB Mistral AI   मजबूत ओपन-सोर्स तर्क और निर्देश-पालन। सामान्य-उद्देश्य लेखन और Q&A वर्कफ्लो के लिए पसंदीदा।
quality
GLM 4.7 Flash
glm-4.7-flash
5.5 GB 6 GB 10 GB Zhipu AI   Zhipu AI का हल्का GLM 4.7 "flash" वेरिएंट। संतुलित गुणवत्ता के साथ तेज प्रतिक्रिया के लिए अनुकूलित — स्नैपी चैट के लिए बढ़िया।
balanced
Llama 3.1 8B
llama3.1:8b
4.7 GB 6 GB 10 GB Meta   Meta का फ्लैगशिप छोटा मॉडल — अपने आकार के लिए बहुत सक्षम। मध्यम श्रेणी के हार्डवेयर पर कोडिंग, लेखन और सामान्य-उद्देश्य AI के लिए मजबूत विकल्प।
quality
Qwen 2.5 14B
qwen2.5:14b
9.0 GB 12 GB 16 GB Alibaba   14B ऑल-राउंडर। लंबे संदर्भ, बहुभाषी प्रॉम्प्ट और गणित के लिए उत्कृष्ट। 12 GB+ VRAM या पर्याप्त RAM की जरूरत।
heavy
Devstral Small 2
devstral-small-2
14 GB 14 GB 28 GB Mistral AI   कोड-केंद्रित 24B मॉडल — कोडिंग और एजेंटिक वर्कफ्लो के लिए सर्वश्रेष्ठ ओपन-सोर्स AI। मल्टी-फाइल एडिट और रिफैक्टरिंग में मजबूत।
quality
Gemma 2 27B
gemma2:27b
16 GB 18 GB 32 GB Google   Google का मध्यम-बड़ा घना मॉडल। वर्कस्टेशन स्तर पर लेखन, सारांश और निबंध कार्यों के लिए उत्कृष्ट गुणवत्ता।
largegpu-recommended
Mixtral 8x7B
mixtral:8x7b
26 GB 28 GB 48 GB Mistral AI   मिक्सचर-ऑफ-एक्सपर्ट्स (कुल 47 B, प्रति टोकन ~13 B सक्रिय)। अपनी गुणवत्ता के लिए तेज़ — एक लोकप्रिय स्थानीय ChatGPT विकल्प।
largemoegpu-recommended
Llama 3.3 70B
llama3.3:70b
43 GB 42 GB 64 GB Meta   Meta का 2024 के अंत का 70B ओपन-सोर्स LLM। एकल 48 GB GPU पर फ्रंटियर के करीब गुणवत्ता — सबसे मजबूत स्थानीय Llama जिसे आप चला सकते हैं।
xlargegpu-only
Qwen 3.6
qwen3.6:latest
47 GB 44 GB 64 GB Alibaba   नवीनतम Qwen 3.6 रिलीज़। मजबूत सामान्य-उद्देश्य, लंबे संदर्भ, बहुभाषी — GPT-क्लास मॉडलों का शीर्ष ओपन-सोर्स प्रतिस्पर्धी।
xlargegpu-only
Mixtral 8x22B
mixtral:8x22b
80 GB 80 GB 128 GB Mistral AI   बड़ा मिक्सचर-ऑफ-एक्सपर्ट्स (कुल 141 B)। वर्कस्टेशन / सर्वर क्लास — सर्वश्रेष्ठ जब आपको अधिकतम तर्क गहराई चाहिए।
xlargemoegpu-only
उपयोग के अनुसार सर्वश्रेष्ठ ओपन-सोर्स AI

कोडिंग के लिए सर्वश्रेष्ठ AI

Devstral Small 2 (24B) एजेंटिक कोडिंग और मल्टी-फाइल एडिट में अग्रणी है। Qwen 2.5 14B और Llama 3.1 8B जब कम VRAM हो तो मजबूत उप-विकल्प हैं। सभी मुफ्त, सभी स्थानीय, सभी ओपन-सोर्स।

लेखन के लिए सर्वश्रेष्ठ AI

Gemma 2 27B और Llama 3.3 70B सबसे परिष्कृत लंबा गद्य उत्पन्न करते हैं। सामान्य हार्डवेयर पर रोज़मर्रा के लेखन के लिए, Mistral 7B अपने आकार से कहीं बेहतर प्रदर्शन करता है।

गणित & तर्क के लिए सर्वश्रेष्ठ AI

Qwen 2.5 14B और Qwen 3.6 गणित, संरचित तर्क और बहुभाषी कार्यों में उत्कृष्ट हैं। Mixtral 8x7B सर्वश्रेष्ठ मिक्सचर-ऑफ-एक्सपर्ट्स विकल्प है।

कम-अंत हार्डवेयर के लिए सर्वश्रेष्ठ AI

Gemma 3 Mini (1B, ~815 MB) बिना GPU के 4 GB RAM पर चलता है — कैटलॉग में सबसे हल्का विश्वसनीय छोटा भाषा मॉडल। अगर आपके पास 6 GB है तो Llama 3.2 (3B) एक कदम ऊपर है।

तेज चैट के लिए सर्वश्रेष्ठ AI

GLM 4.7 Flash (Zhipu AI) तेज प्रतिक्रिया के लिए अनुकूलित है। छोटे अंत पर, Llama 3.2 (3B) एक बेहतरीन त्वरित-उत्तर डिफ़ॉल्ट है।

सर्वश्रेष्ठ ChatGPT विकल्प

ChatGPT के मुफ्त, निजी, ऑफलाइन विकल्प के लिए: 24–48 GB GPU पर Mixtral 8x7B, या वर्कस्टेशन कार्ड होने पर Llama 3.3 70B। कोई अकाउंट नहीं, कोई डेटा आपकी मशीन से नहीं जाता।

हार्डवेयर टियर मैपिंग
टियर ट्रिगर होता है जब अनुशंसित डिफ़ॉल्ट उपलब्ध मॉडल
हल्का < 6 GB RAM, कोई GPU नहीं Gemma 3 Mini 1 मॉडल — Gemma 3 Mini
मानक 6–15 GB RAM, कोई GPU नहीं Llama 3.2 3 मॉडल — Llama 3.2 जोड़ता है
विशाल CPU 16–31 GB RAM, कोई GPU नहीं Llama 3.2 5 मॉडल — Mistral 7B, GLM 4.7 Flash जोड़ता है
वर्कस्टेशन CPU 32 GB+ RAM, कोई GPU नहीं Llama 3.1 8B 7 मॉडल — Llama 3.1 8B, Qwen 2.5 14B जोड़ता है
GPU (छोटा) < 6 GB VRAM (एकल या संयुक्त) Llama 3.2 2 मॉडल — Gemma 3 Mini, Llama 3.2
GPU (मध्यम) 6–11 GB VRAM Mistral 7B 6 मॉडल — Mistral 7B, GLM 4.7 Flash, Llama 3.1 8B जोड़ता है
GPU (उच्च) 12–23 GB VRAM Qwen 2.5 14B 8 मॉडल — Qwen 2.5 14B, Devstral Small 2 जोड़ता है
GPU (बहुत उच्च) 24–47 GB VRAM Mixtral 8x7B 10 मॉडल — Gemma 2 27B, Mixtral 8x7B जोड़ता है
GPU (अत्यधिक) 48 GB+ VRAM Llama 3.3 70B सभी 13 मॉडल — Llama 3.3 70B, Qwen 3.6, Mixtral 8x22B जोड़ता है
अक्सर पूछे जाने वाले प्रश्न
स्थानीय रूप से चलाने के लिए कोडिंग का सर्वश्रेष्ठ AI कौन सा है?

Devstral Small 2 (24B) Mistral का कोड-केंद्रित ओपन-सोर्स मॉडल है — एजेंटिक कोडिंग, कोड समीक्षा और मल्टी-फाइल एडिट के लिए सर्वश्रेष्ठ स्थानीय विकल्प। जब VRAM कम हो तो Llama 3.1 8B और Qwen 2.5 14B मजबूत सामान्य-उद्देश्य विकल्प हैं। सभी बिना क्लाउड या अकाउंट के MyAI के माध्यम से Linux Lite पर चलते हैं।

क्या मैं Linux पर स्थानीय रूप से LLM चला सकता हूं?

हां। Linux Lite पर MyAI, Ollama का उपयोग करके ओपन-सोर्स LLM को पूरी तरह आपके हार्डवेयर पर चलाता है। Gemma 3 Mini जैसे छोटे मॉडल केवल 4 GB RAM के साथ CPU पर चलते हैं; Llama 3.3 70B जैसे बड़े फ्लैगशिप मॉडलों के लिए वर्कस्टेशन GPU की जरूरत है। MyAI का हार्डवेयर-जागरूक पिकर वही मॉडल चुनता है जो आपकी मशीन पर वास्तव में चलेंगे।

2026 में सर्वश्रेष्ठ ओपन-सोर्स LLM कौन से हैं?

स्थानीय इन्फरेंस के लिए सबसे मजबूत ओपन-सोर्स LLM हैं Meta Llama 3.3 70B, Mistral Mixtral 8x7B / 8x22B, Google Gemma 2 27B, Alibaba Qwen 3.6 और Mistral Devstral Small 2 (कोडिंग के लिए सर्वश्रेष्ठ)। तेज चैट के लिए, Zhipu GLM 4.7 Flash उत्कृष्ट है। कम-अंत हार्डवेयर के लिए सर्वश्रेष्ठ छोटा भाषा मॉडल (SLM) Gemma 3 Mini है।

मैं Linux Lite पर DeepSeek या अन्य LLM स्थानीय रूप से कैसे चलाऊं?

MyAI में परीक्षित मॉडलों का क्यूरेटेड कैटलॉग है, लेकिन कोई भी Ollama-संगत मॉडल — जिसमें DeepSeek वेरिएंट भी शामिल हैं — MyAI इंस्टॉल करने के बाद ollama pull <model> से सीधे प्राप्त किया जा सकता है। अनुशंसा इंजन उपलब्ध मॉडलों को आपके CPU, RAM, GPU और VRAM के अनुसार स्वचालित रूप से मिलाता है।

स्थानीय LLM चलाने के लिए मुझे किस हार्डवेयर की जरूरत है?

छोटे भाषा मॉडलों (1–3B) के लिए: 2–6 GB RAM, कोई भी आधुनिक CPU। मध्यम आकार के मॉडलों (7–14B) के लिए: 10–16 GB RAM या 6–12 GB GPU। बड़े मॉडलों (27B–70B+) के लिए: 32 GB+ RAM और 18–48 GB VRAM। MyAI मल्टी-GPU NVIDIA सेटअप (हमेशा) और ROCm-योग्य AMD कार्ड पर VRAM का योग करता है।

MCP (Model Context Protocol) क्या है?

MCP AI सहायकों को बाहरी टूल, फाइलों और डेटा स्रोतों से जोड़ने का एक खुला मानक है, जो 2024 में लोकप्रिय हुआ। MyAI Ollama के HTTP API के माध्यम से मॉडल स्थानीय रूप से चलाता है, जिससे MCP-संगत क्लाइंट और एजेंटिक वर्कफ्लो सीधे बात कर सकते हैं। इससे आप ऐसे निजी AI एजेंट बना सकते हैं जो क्लाउड के बिना आपके अपने डेटा पर काम करते हैं।

क्या MyAI एक मुफ्त ChatGPT विकल्प है?

हां। MyAI मुफ्त, ओपन-सोर्स है और पूरी तरह आपके अपने कंप्यूटर पर चलता है। कोई अकाउंट नहीं। कोई सब्सक्रिप्शन नहीं। कोई क्लाउड नहीं। कोई टेलीमेट्री नहीं। पहले मॉडल डाउनलोड के बाद यह पूरी तरह ऑफलाइन काम करता है — डेटा स्वामित्व की परवाह करने वाले उपयोगकर्ताओं के लिए ChatGPT, Claude या Gemini का सच्चा निजी विकल्प।

Llama बनाम Mistral बनाम Qwen — मुझे कौन सा ओपन-सोर्स LLM चुनना चाहिए?

सामान्य डेस्कटॉप के लिए Llama 3.1 8B सर्वश्रेष्ठ सामान्य-उद्देश्य ऑल-राउंडर है। Mistral 7B छोटे आकार में निर्देश-पालन और तर्क में उत्कृष्ट है। Qwen 2.5 14B / Qwen 3.6 बहुभाषी कार्यों, लंबे संदर्भ और गणित में सबसे मजबूत हैं। कोडिंग के लिए विशेष रूप से, Devstral Small 2 (भी Mistral से) तीनों से बेहतर प्रदर्शन करता है।

RAG (Retrieval-Augmented Generation) क्या है?

RAG एक स्थानीय LLM को आपके अपने दस्तावेज़ों पर खोज चरण के साथ जोड़ता है, ताकि मॉडल डेटा को कहीं अपलोड किए बिना आपके डेटा पर आधारित प्रश्नों का उत्तर दे सके। MyAI Ollama का HTTP API 127.0.0.1:7070 पर उजागर करता है, जिसे कोई भी RAG फ्रेमवर्क (LangChain, LlamaIndex, आदि) पूरी तरह स्थानीय रिट्रीवल-ऑग्मेंटेड वर्कफ्लो के लिए लक्षित कर सकता है।

क्या MyAI ऑफलाइन काम करता है?

हां। एकमात्र नेटवर्क गतिविधि प्रारंभिक मॉडल डाउनलोड (आमतौर पर आपके चुने मॉडल के आधार पर 0.6–80 GB) है। एक बार मॉडल डिस्क पर होने के बाद, MyAI पूरी तरह ऑफलाइन चलता है — चैट, कोडिंग सहायता या किसी भी अन्य AI कार्य के लिए इंटरनेट कनेक्शन की जरूरत नहीं।