Ollama للمبتدئ: شغّل Llama 3.3 محليًا في 15 دقيقة

المستوى: مبتدئ — وقت القراءة: حوالي 7 دقائق

تقدر تشغّل نموذج لغوي كبير زي Llama 3.3 على لابتوبك في أقل من 15 دقيقة، بدون اشتراك شهري وبدون ما تبعت أي بيانات لسيرفر بره. الأداة اسمها Ollama، وحجم التحميل الأولي 4.7 جيجا فقط لنسخة الـ 8B parameters، وبتشتغل بأمر واحد.

لابتوب على مكتب يعرض شاشة terminal بأوامر تشغيل نموذج لغوي كبير محليًا عبر Ollama

ليه أصلًا تشغّل LLM محليًا بدل ما تستخدم ChatGPT؟

المشكلة باختصار

لما تستخدم ChatGPT أو Claude، كل سؤال بيروح لسيرفرات OpenAI أو Anthropic. ده كويس للسرعة والجودة، بس فيه 3 مشاكل بتقابل المطورين العرب: الاشتراك الشهري اللي ممكن يطلع $20 لكل مستخدم في الشركة، البيانات الحساسة اللي بتسيب جهازك (كود الشركة، بيانات العملاء، عقود)، والاعتماد على اتصال انترنت ثابت.

مثال يقرّب الفكرة قبل التعريف العلمي

تخيّل إن عندك مترجم فوري في شغلك. عندك خياران: تتصل بمكتب ترجمة كل مرة محتاج ترجمة (ده الـ Cloud API)، أو توظّف مترجم يقعد في مكتبك ومعاك على طول (ده الـ Local LLM). المترجم المكتبي أبطأ شوية ومش بنفس مستوى أحسن مترجم في السوق، بس مش هيشوف وثائقك حد تاني، ومش هتدفعله بالكلمة، وموجود حتى لو الانترنت قطع.

Ollama هو الأداة اللي بتخلّي عملية "توظيف المترجم في مكتبك" دي تتم في 4 أوامر فقط، بدون ما تتعامل مع تعقيدات إعداد GPU، quantization، ولا compilation يدوي.

التعريف العلمي الدقيق لـ Ollama

Ollama هي runtime مكتوبة بلغة Go، بتعتمد على مكتبة llama.cpp اللي عملها Georgi Gerganov في مارس 2023. llama.cpp بتشغّل النماذج المحوّلة لصيغة GGUF (وهي صيغة quantized بترفع عدد الـ parameters اللي يقدر يتسع في الذاكرة عبر تخفيض دقة كل وزن من 16-bit لـ 4-bit أو 8-bit). Ollama بتضيف فوقها HTTP server بـ REST API على المنفذ 11434، فتقدر تكلّم النموذج من أي تطبيق بطريقة متوافقة مع OpenAI API بدون تعديل تقريبًا.

رسم توضيحي ثلاثي الأبعاد لشبكة عصبية اصطناعية يمثّل بنية نموذج Llama بـ 8 مليارات معامل

التثبيت والتشغيل في 4 خطوات

الخطوات دي مجرّبة على macOS Sequoia 15 و Ubuntu 24.04. على ويندوز استخدم WSL2 لأن النسخة الأصلية لسه فيها قيود على بعض الـ GPUs.

التثبيت بأمر واحد — Ollama بتثبت نفسها كـ background service.
تحميل النموذج — Ollama هتختار الـ quantization المناسب لذاكرتك تلقائيًا.
التشغيل التفاعلي — في الـ terminal مباشرة، زي ChatGPT بس offline.
الاستدعاء البرمجي — من Python أو أي لغة عبر REST API.

Bash

# 1) التثبيت على macOS أو Linux
curl -fsSL https://ollama.com/install.sh | sh

# 2) تحميل وتشغيل Llama 3.3 (نسخة 8B parameters، حجم 4.7GB)
ollama pull llama3.3:8b

# 3) اسأل النموذج مباشرة
ollama run llama3.3:8b "اشرح ما هو RAG في 3 جمل بالعربي"

# 4) شغّله كـ API server في الخلفية
ollama serve &

Ollama للمبتدئ: شغّل Llama 3.3 محليًا على لابتوبك في 15 دقيقة

ليه أصلًا تشغّل LLM محليًا بدل ما تستخدم ChatGPT؟

المشكلة باختصار

مثال يقرّب الفكرة قبل التعريف العلمي

التعريف العلمي الدقيق لـ Ollama

التثبيت والتشغيل في 4 خطوات

هل استفدت من المقال؟

استدعاء Ollama من Python في 8 سطور

الـ Trade-offs اللي محدش بيقولهالك

متى لا تستخدم Ollama

الخطوة التالية

المصادر