Diffusion Models للمبتدئ: ازاي Stable Diffusion بيرسم

المستوى: مبتدئ — هذا المقال موجّه لأي شخص سمع عن Stable Diffusion أو Midjourney لكن مش فاهم ازاي بيشتغلوا فعلاً. مش محتاج خلفية في deep learning.

لو فتحت Stable Diffusion أو Midjourney وكتبت "رائد فضاء راكب حصان على سطح القمر"، الصورة بتطلع في 4 ثواني. الكلام ده مكنش ممكن قبل 2020. الموضوع مش سحر، وفهمه بياخد 10 دقايق وهيفرق معاك لما تيجي تستخدم الأدوات دي في شغلك.

يد روبوتية تلامس شبكة عصبية مضيئة، رمز لتوليد الصور بنماذج Diffusion من نص

المشكلة باختصار

الكمبيوتر مش بيرسم زي الإنسان. هو ما عندوش يد ولا فرشاة ولا ذوق. هو بيشتغل على أرقام بس. السؤال اللي حيّر الباحثين سنين: ازاي تحوّل جملة نص (5 كلمات مثلاً) لـ مصفوفة 512×512×3 من البكسلز تشبه صورة حقيقية يقبلها العين البشرية؟

محاولات قبل 2020 (زي GANs) كانت بتنجح في صور وجوه بس، وبتفشل لمّا تطلب منها حاجة معقدة. سنة 2020 ظهرت ورقة اسمها "Denoising Diffusion Probabilistic Models" من Ho et al، وغيّرت اللعبة بطريقة غريبة شوية: بدل ما تعلّم الموديل يرسم، علّمه يشيل ضوضاء.

الفكرة الأساسية: ابدأ من الفوضى

تخيّل إنك بتلعب لعبة عكسية. عندك صورة واضحة لقطة. بتضيف عليها شويّة تشويش (noise) في كل خطوة لحد ما تبقى مجرد بقع رمادية ملهاش معنى — حرفيًا برد التليفزيون لمّا الإشارة بتقطع. ده النص الأمامي من العملية وبيتسمى forward diffusion.

الـ Diffusion Model بيتعلم العكس: ياخد الفوضى دي ويتنبأ بالـ noise اللي اتضاف، يطرحه، ويرجّع الصورة الأصلية خطوة خطوة. لمّا بتدّيه نص (prompt)، الموديل بيشيل الـ noise بطريقة موجّهة نحو الصورة اللي توصف الجملة دي.

مثال للتقريب: المذيع في الغرفة المزعجة

تخيّل مذيع راديو بيقرأ خبر، بس في خلفية الصوت ضوضاء عالية جدًا — موسيقى، ناس بتتكلم، تكييف شغّال. لو عندك جهاز ذكي يعرف يفصل الكلام عن الضوضاء، الجهاز ده مش بيخترع الكلام من العدم. هو بيستخدم معرفته المسبقة بـ "ازاي شكل الكلام البشري الطبيعي" علشان يشيل الضوضاء طبقة بطبقة.

Diffusion Models بتشتغل بنفس المنطق على الصور بدل الصوت. الموديل اتدرّب على ملايين الصور، فبقى عارف "ازاي شكل الصورة الطبيعية". لمّا بتدّيه ضوضاء + جملة "قطة بنية"، هو بيشيل الضوضاء بشكل يخلّي اللي فاضل يطابق "قطة بنية" في معرفته.

التعريف العلمي بشكل أدق

الـ Diffusion Model هو شبكة عصبية (غالبًا U-Net معماريًا) بتتدرّب على مهمة واحدة فقط: توقّع الـ noise اللي اتضاف لصورة معيّنة عند خطوة زمنية t. لو الموديل قدر يتنبأ بالـ noise بدقة، تقدر تطرحه وتقرب من الصورة الأصلية.

التدريب بيتم على ملايين الأزواج (صورة، نص يصفها). الموديل بيتعلم العلاقة الإحصائية بين الكلمات والـ visual patterns. الجزء اللي بيربط النص بالصورة اسمه text encoder (غالبًا CLIP من OpenAI)، وبيحوّل الجملة لـ vector رقمي يفهمه الـ U-Net.

صورة فنية مولّدة بالذكاء الاصطناعي تظهر تدرّج ألوان وأشكال هندسية تشبه مخرجات Stable Diffusion عند خطوات inference متتالية

الكود: 8 سطور تولّد صورة على جهازك

المثال ده شغّال على مكتبة diffusers الإصدار 0.27 أو أحدث، وبيحتاج GPU بـ 8GB VRAM على الأقل (RTX 3060 وفوق):

Python

from diffusers import StableDiffusionPipeline
import torch

pipe = StableDiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-2-1",
    torch_dtype=torch.float16
).to("cuda")

prompt = "an astronaut riding a horse, photorealistic, 4k"
image = pipe(prompt, num_inference_steps=30, guidance_scale=7.5).images[0]
image.save("output.png")

شرح سريع لكل سطر مهم:

from_pretrained بينزّل وزن الموديل (~5GB) من Hugging Face Hub أول مرة، وبعدين بيـcache محليًا.
torch_dtype=torch.float16 بيشغّل الموديل بـ نصف الدقة، يوفر نص الذاكرة بفقدان مهمل في الجودة.
num_inference_steps=30 يعني 30 خطوة شيل noise. أكتر من 50 الجودة تتحسّن قليلاً جدًا، أقل من 20 الصور بتطلع مشوّهة.
guidance_scale=7.5 بيتحكم في "ادّ ايه الصورة هتلتزم بالنص". قيمة عالية = التزام أعلى، تنوّع أقل.

أرقام مقاسة لازم تعرفها

Stable Diffusion 1.5 اتدرّب على dataset اسمه LAION-5B فيه 5.85 مليار صورة مع وصفها النصي. مصدر: Schuhmann et al., NeurIPS 2022.
توليد صورة 512×512 بياخد 2 لـ 8 ثواني على GPU بـ 12GB VRAM (RTX 3060/4070).
تكلفة API على Replicate تقريبًا $0.0023 للصورة الواحدة (تسعير مايو 2026).
التدريب الأصلي لموديل Stable Diffusion 2.1 كلّف Stability AI حوالي $600,000 في وقت GPU. مصدر: Emad Mostaque، تصريحات علنية 2022.

Trade-offs لازم تفهمها قبل ما تستخدم

Diffusion Models قوية، لكن مش مجانية. أنت بتكسب جودة عالية ومرونة في الـ prompts، وبتخسر في 3 نقاط:

زمن التوليد: 30 خطوة inference يعني 30 forward pass على شبكة U-Net ضخمة. ده مش real-time. لو محتاج صور أسرع، استخدم نسخ مقطّرة زي LCM (Latent Consistency Models) اللي بتقطع الزمن لـ 4 خطوات بفقدان جودة بسيط.
التحكم محدود: الـ prompt كلمة واحدة غلط ممكن يقلب النتيجة كليًا. أدوات زي ControlNet و IP-Adapter بتساعد، بس بتزود التعقيد ووقت الإعداد.
تكلفة التدريب: الاستخدام رخيص (سنتات للصورة)، التدريب من الصفر بيكلف مئات الآلاف من الدولارات. لو محتاج موديل مخصص لشغلك، استخدم fine-tuning أو LoRA بدل التدريب من البداية.

متى لا تستخدم Diffusion Model

التقنية مش الحل لكل مشكلة بصرية:

صور منتجات تجارية بدقة 100%: لو محتاج تعرض شعار شركتك بشكله الحرفي، التوليد العشوائي مش الحل. ابدأ بصورة حقيقية وعدّل عليها يدويًا أو بـ inpainting.
أيقونات وشعارات بسيطة: Diffusion Models بتنتج raster (بكسل). لو محتاج vector قابل للتكبير، استخدم Figma أو Illustrator أو موديل مخصص للـ vector زي Recraft.
صور تحتاج نص مقروء بدقة: أغلب موديلات Diffusion (لحد SD 3) بتخرّب الكتابة داخل الصور. لو محتاج بوستر فيه نص واضح، اكتبه يدويًا فوق الصورة.

الخطوة التالية

افتح huggingface.co/spaces ودوّر على space اسمه "Stable Diffusion XL Demo". جرّب 5 prompts مختلفة ولاحظ ازاي صياغة الكلام بتغيّر النتيجة. لو عندك GPU بـ 8GB+ على جهازك، نزّل مكتبة diffusers وشغّل الكود اللي فوق. لو ما عندكش GPU، استخدم Replicate أو Hugging Face Inference API بسنتات معدودة. الهدف من النهاردة: تولّد 10 صور وتحس الفرق بين prompt مكتوب كويس وآخر مكتوب وحش.

المصادر

Ho et al., Denoising Diffusion Probabilistic Models, NeurIPS 2020 — الورقة الأصلية.
Rombach et al., High-Resolution Image Synthesis with Latent Diffusion Models, CVPR 2022 — ورقة Stable Diffusion.
Schuhmann et al., LAION-5B: An open large-scale dataset, NeurIPS 2022 — مصدر بيانات التدريب.
Hugging Face Diffusers Documentation — huggingface.co/docs/diffusers.
Replicate Pricing Page — replicate.com/pricing (مايو 2026).
Stability AI Public Statements — تكلفة تدريب SD 2.1.

المشكلة باختصار

الفكرة الأساسية: ابدأ من الفوضى

مثال للتقريب: المذيع في الغرفة المزعجة

التعريف العلمي بشكل أدق

الكود: 8 سطور تولّد صورة على جهازك

المثال ده شغّال على مكتبة diffusers الإصدار 0.27 أو أحدث، وبيحتاج GPU بـ 8GB VRAM على الأقل (RTX 3060 وفوق):

Python

from diffusers import StableDiffusionPipeline
import torch

pipe = StableDiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-2-1",
    torch_dtype=torch.float16
).to("cuda")

prompt = "an astronaut riding a horse, photorealistic, 4k"
image = pipe(prompt, num_inference_steps=30, guidance_scale=7.5).images[0]
image.save("output.png")

شرح سريع لكل سطر مهم:

from_pretrained بينزّل وزن الموديل (~5GB) من Hugging Face Hub أول مرة، وبعدين بيـcache محليًا.
torch_dtype=torch.float16 بيشغّل الموديل بـ نصف الدقة، يوفر نص الذاكرة بفقدان مهمل في الجودة.
num_inference_steps=30 يعني 30 خطوة شيل noise. أكتر من 50 الجودة تتحسّن قليلاً جدًا، أقل من 20 الصور بتطلع مشوّهة.
guidance_scale=7.5 بيتحكم في "ادّ ايه الصورة هتلتزم بالنص". قيمة عالية = التزام أعلى، تنوّع أقل.

أرقام مقاسة لازم تعرفها

Stable Diffusion 1.5 اتدرّب على dataset اسمه LAION-5B فيه 5.85 مليار صورة مع وصفها النصي. مصدر: Schuhmann et al., NeurIPS 2022.
توليد صورة 512×512 بياخد 2 لـ 8 ثواني على GPU بـ 12GB VRAM (RTX 3060/4070).
تكلفة API على Replicate تقريبًا $0.0023 للصورة الواحدة (تسعير مايو 2026).
التدريب الأصلي لموديل Stable Diffusion 2.1 كلّف Stability AI حوالي $600,000 في وقت GPU. مصدر: Emad Mostaque، تصريحات علنية 2022.

Trade-offs لازم تفهمها قبل ما تستخدم

Diffusion Models قوية، لكن مش مجانية. أنت بتكسب جودة عالية ومرونة في الـ prompts، وبتخسر في 3 نقاط:

زمن التوليد: 30 خطوة inference يعني 30 forward pass على شبكة U-Net ضخمة. ده مش real-time. لو محتاج صور أسرع، استخدم نسخ مقطّرة زي LCM (Latent Consistency Models) اللي بتقطع الزمن لـ 4 خطوات بفقدان جودة بسيط.
التحكم محدود: الـ prompt كلمة واحدة غلط ممكن يقلب النتيجة كليًا. أدوات زي ControlNet و IP-Adapter بتساعد، بس بتزود التعقيد ووقت الإعداد.
تكلفة التدريب: الاستخدام رخيص (سنتات للصورة)، التدريب من الصفر بيكلف مئات الآلاف من الدولارات. لو محتاج موديل مخصص لشغلك، استخدم fine-tuning أو LoRA بدل التدريب من البداية.

متى لا تستخدم Diffusion Model

التقنية مش الحل لكل مشكلة بصرية:

صور منتجات تجارية بدقة 100%: لو محتاج تعرض شعار شركتك بشكله الحرفي، التوليد العشوائي مش الحل. ابدأ بصورة حقيقية وعدّل عليها يدويًا أو بـ inpainting.
أيقونات وشعارات بسيطة: Diffusion Models بتنتج raster (بكسل). لو محتاج vector قابل للتكبير، استخدم Figma أو Illustrator أو موديل مخصص للـ vector زي Recraft.
صور تحتاج نص مقروء بدقة: أغلب موديلات Diffusion (لحد SD 3) بتخرّب الكتابة داخل الصور. لو محتاج بوستر فيه نص واضح، اكتبه يدويًا فوق الصورة.

الخطوة التالية

المصادر

Ho et al., Denoising Diffusion Probabilistic Models, NeurIPS 2020 — الورقة الأصلية.
Rombach et al., High-Resolution Image Synthesis with Latent Diffusion Models, CVPR 2022 — ورقة Stable Diffusion.
Schuhmann et al., LAION-5B: An open large-scale dataset, NeurIPS 2022 — مصدر بيانات التدريب.
Hugging Face Diffusers Documentation — huggingface.co/docs/diffusers.
Replicate Pricing Page — replicate.com/pricing (مايو 2026).
Stability AI Public Statements — تكلفة تدريب SD 2.1.

Diffusion Models للمبتدئ: ازاي Stable Diffusion بيرسم صورة من 5 كلمات

المشكلة باختصار

الفكرة الأساسية: ابدأ من الفوضى

مثال للتقريب: المذيع في الغرفة المزعجة

التعريف العلمي بشكل أدق

الكود: 8 سطور تولّد صورة على جهازك

أرقام مقاسة لازم تعرفها

Trade-offs لازم تفهمها قبل ما تستخدم

متى لا تستخدم Diffusion Model

الخطوة التالية

المصادر

هل استفدت من المقال؟

Diffusion Models للمبتدئ: ازاي Stable Diffusion بيرسم صورة من 5 كلمات

المشكلة باختصار

الفكرة الأساسية: ابدأ من الفوضى

مثال للتقريب: المذيع في الغرفة المزعجة

التعريف العلمي بشكل أدق

الكود: 8 سطور تولّد صورة على جهازك

أرقام مقاسة لازم تعرفها

Trade-offs لازم تفهمها قبل ما تستخدم

متى لا تستخدم Diffusion Model

الخطوة التالية

المصادر

هل استفدت من المقال؟