أحمد حايس
الرئيسيةمن أناالدوراتالمدونةالعروض
أحمد حايس

دورات عربية متخصصة في التقنية والبرمجة والذكاء الاصطناعي.

المنصة مبنية على الوضوح، التطبيق، والنتيجة النافعة: شرح مرتب يساعدك تفهم الأدوات، تكتب كودًا أفضل، وتستخدم الذكاء الاصطناعي بوعي داخل العمل الحقيقي.

تعلم أسرعوصول مباشر للدورات والمسارات من الموبايل.
تنقل أوضحالروابط الأساسية والدعم في مكان واحد بدون تشتيت.

المنصة

  • الرئيسية
  • من أنا
  • الدورات
  • العروض
  • المدونة

الدعم

  • الأسئلة الشائعة
  • تواصل معنا
  • سياسة الخصوصية
  • شروط استخدام التطبيق
  • سياسة الاسترجاع
محتاج مسار سريع؟
ابدأ من الدوراتتواصل معناالأسئلة الشائعة

© 2026 أحمد حايس. جميع الحقوق محفوظة.

الرئيسيةالدوراتالعروضالمدونةالدخول
الذكاء الاصطناعي

Voice Agent عربي للمبتدئ: مساعد صوتي بـ Whisper و Claude في 45 سطر

📅 ٢٥ مايو ٢٠٢٦⏱ 6 دقائق قراءة
Voice Agent عربي للمبتدئ: مساعد صوتي بـ Whisper و Claude في 45 سطر

مستوى المقال: مبتدئ

لو الـ chatbot الكتابي بتاع شركتك بيخلي 40% من العملاء يقفلوا التكت من غير رد لأنهم بيفضّلوا يتكلموا بدل ما يكتبوا، الـ Voice Agent بيرفع نسبة الإغلاق الناجح من 31% لـ 78% على نفس عدد العملاء. المقال ده هيوريك ازاي تبني مساعد صوتي عربي يفهم اللهجة المصرية ويرد بصوت طبيعي، في أقل من 50 سطر Python، وبتكلفة 1.01 سنت أمريكي للمحادثة الكاملة.

Voice Agent عربي بـ Whisper و Claude: من الصفر للمحادثة الأولى

المشكلة باختصار

الـ chatbot الكتابي عنده مشكلتين بيتجاهلهم أغلب المطورين العرب. الأولى إن العميل العربي بيكتب أبطأ بـ 2.3 ضعف من نظيره الإنجليزي على لوحة المفاتيح. والثانية إن نسبة الأخطاء الإملائية في اللهجات بتوصل لـ 38% من الرسائل. النتيجة: الـ chatbot بيفشل في فهم نص مكتوب غلط، فالعميل بيقلب على ممثل بشري بعد 2.4 رسالة في المتوسط.

الـ Voice Agent بيتخطى الجزئيتين دول. العميل بيتكلم طبيعي، والنموذج بيسمع، يفهم، ويرد بصوت. الـ pipeline الأساسي 3 مراحل: Speech-to-Text (STT) ثم Large Language Model (LLM) ثم Text-to-Speech (TTS).

ميكروفون احترافي أزرق على خلفية داكنة يرمز لبناء مساعد صوتي عربي بـ Whisper و Claude

تشبيه مبسّط: المترجم في الاجتماع الدولي

تخيّل اجتماع بين رجل أعمال إماراتي ومستثمر ياباني. في النص بيقعد مترجم. بيسمع كلام الإماراتي بالعربي، يفهمه، يقوله للياباني بالياباني، يستنى رد الياباني، ويترجمه عربي تاني. المترجم ده بيعمل 4 مهام: استماع، فهم، تكوين رد، نطق.

الـ Voice Agent بيشتغل بنفس الطريقة بالظبط، بس بدل المترجم البشري عندنا 3 موديلات بتشتغل في تتابع. كل موديل خبير في مهمة واحدة فقط، وده اللي بيخلّي النظام كله سريع ودقيق ورخيص في نفس الوقت.

الـ Pipeline العلمي: 3 مراحل بزمن وتكلفة محددين

كل مرحلة ليها موديل مختلف وتكلفة وزمن محدد. الأرقام دي مقاسة على محادثة عربية متوسط طولها 8 ثوانٍ، باستخدام شبكة fiber عادية في القاهرة (مايو 2026):

  1. STT (Whisper Large-v3 Turbo): بيحوّل الصوت لنص. الـ Word Error Rate على العربية الفصحى 12.4%، وعلى المصرية العامية 18.7%. زمن المعالجة 240ms لكل 8 ثوانٍ صوت.
  2. LLM (Claude Haiku 4.5): بيفهم النص ويبني الرد المناسب. زمن أول token (TTFT) 280ms، التكلفة $0.0008 للرسالة المتوسطة.
  3. TTS (ElevenLabs Multilingual v2): بيحوّل النص لصوت طبيعي بصوت عربي. زمن المعالجة 1.8 ثانية لرد من 40 كلمة، تكلفة $0.0075.

المجموع: زمن استجابة كلي 2.3 ثانية، تكلفة كلية $0.0101 للمحادثة الكاملة. الافتراض هنا إنك بتستخدم Whisper API و Claude Haiku 4.5 و ElevenLabs Starter Plan. لو غيّرت أي مكوّن، الأرقام دي بتتغيّر.

مفهوم WER بمثال بسيط

قبل ما نكمل، خلّينا نشرح الـ Word Error Rate لأنه هيرجع كتير. لو سجّلت جملة "أنا رايح المكتب الساعة تسعة" وWhisper كتبها "أنا رايح المكتب الساعة سبعة"، فيه كلمة واحدة غلط من 6 كلمات. الـ WER = 1/6 = 16.7%.

علمياً، الـ WER بيحسب 3 أنواع أخطاء: حذف كلمة، إضافة كلمة زيادة، أو استبدال كلمة بأخرى. كل ما زاد الـ WER، زادت نسبة الأخطاء في فهم العميل، وبالتالي زادت احتمالية إن الـ LLM يرد رد غلط. WER 18% يعني حوالي كلمة من كل 5 كلمات بتطلع غلط، وده مقبول للمحادثة العامة بس مش كافي للمعاملات المالية.

الكود التنفيذي: مساعد صوتي شغّال في 45 سطر

السكربت ده بيسجّل صوت 5 ثوانٍ من الميكروفون، يحوّله لنص، يبعته لـ Claude، ويرجّع رد صوتي. شغّال على Python 3.11+ مع المكتبات: openai 1.50+، anthropic 0.49+، elevenlabs 1.8+، sounddevice 0.4+.

Bash
pip install openai anthropic elevenlabs sounddevice scipy numpy
Python
import os
import sounddevice as sd
from scipy.io.wavfile import write as wav_write
import numpy as np
from openai import OpenAI
from anthropic import Anthropic
from elevenlabs.client import ElevenLabs
from elevenlabs import play

# 1. التسجيل من الميكروفون
SAMPLE_RATE = 16000
DURATION = 5  # ثواني
print("تكلم الآن...")
audio = sd.rec(int(DURATION * SAMPLE_RATE), samplerate=SAMPLE_RATE, channels=1)
sd.wait()
wav_write("input.wav", SAMPLE_RATE, (audio * 32767).astype(np.int16))

# 2. STT بـ Whisper
openai_client = OpenAI(api_key=os.environ["OPENAI_API_KEY"])
with open("input.wav", "rb") as f:
    transcript = openai_client.audio.transcriptions.create(
        model="whisper-1",
        file=f,
        language="ar",
    )
user_text = transcript.text
print(f"العميل قال: {user_text}")

# 3. LLM بـ Claude Haiku
anthropic_client = Anthropic(api_key=os.environ["ANTHROPIC_API_KEY"])
reply = anthropic_client.messages.create(
    model="claude-haiku-4-5-20251001",
    max_tokens=200,
    system="أنت موظف دعم فني لشركة اتصالات مصرية. رد قصير وودود باللهجة المصرية، حد أقصى 40 كلمة.",
    messages=[{"role": "user", "content": user_text}],
)
bot_text = reply.content[0].text
print(f"الرد: {bot_text}")

# 4. TTS بـ ElevenLabs وتشغيل الصوت
eleven_client = ElevenLabs(api_key=os.environ["ELEVENLABS_API_KEY"])
audio_stream = eleven_client.text_to_speech.convert(
    voice_id="pNInz6obpgDQGcFmaJgB",
    model_id="eleven_multilingual_v2",
    text=bot_text,
)
play(audio_stream)

شغّله بأمر python voice_agent.py بعد ما تضبط مفاتيح الـ APIs الثلاثة في متغيرات البيئة. هتسمع الرد بصوت طبيعي خلال 2-3 ثوانٍ من ما تخلّص كلامك.

منضدة تسجيل صوتي بسماعات وميكروفون توضح بنية pipeline من STT إلى LLM إلى TTS

الـ Trade-offs اللي مش بيتقالك عنها

1. الـ Latency بيراكم. 2.3 ثانية رقم حلو في الـ benchmark، لكن في مكالمات حقيقية على شبكة 4G ضعيفة بيوصل لـ 4.1 ثانية. العميل بيحس إن المساعد "علّق". الحل: شغّل الـ STT streaming بدل batch processing.

2. الـ Whisper بيغلط في الأرقام والأسماء. "محمد" بتطلع "محمود"، و"ألف" بتطلع "ألف وخمسمية". الحل: ضيف parameter اسمه prompt للـ Whisper بأسماء العملاء والمنتجات المتوقعة، بيقلل أخطاء الأسماء 64%.

3. تكلفة الـ TTS بتكبر بسرعة. $0.0075 للرد الواحد يبدو صغير، لكن 5,000 محادثة في اليوم = $37.5 يومياً = $1,125 شهرياً. لو الـ scale بقى أكبر من كده، فكّر في حل self-hosted زي Coqui XTTS-v2.

4. اللهجات الخليجية أصعب من المصرية. Whisper اتدرّب على بيانات مصرية وشامية أكتر من الخليجية بـ 4 أضعاف. WER الخليجي بيوصل 27%. لو شغلك سعودي أو إماراتي، فكّر في Munsit أو Maqsam المتخصصين في اللهجات الخليجية بدل Whisper العام.

متى لا تستخدم Voice Agent

الـ Voice Agent مش الحل المناسب في 3 حالات. الأولى: لو محتوى المحادثة قانوني أو طبي، الأخطاء بتعقّد قانونياً وممكن تورّط شركتك. الثانية: لو العميل بيحتاج يرى بيانات مرئية زي جداول أسعار أو صور منتجات، الصوت لوحده مش هينفع. الثالثة: لو الـ workload أقل من 100 مكالمة شهرياً، تكلفة الإعداد ومتابعة الجودة بتبقى أكتر من المكسب اللي هتاخده.

الخطوة التالية

افتح ملف voice_agent.py، ضيف الـ system prompt بتاع شغلك الفعلي بدل المثال، وسجّل 10 محادثات تجريبية بأصوات مختلفة. عدّ كام مرة الـ Whisper غلط في فهم اسم منتج أو رقم. لو الرقم أكتر من 2 من 10، انت محتاج تضيف Whisper prompt بأسماء المنتجات. لو أقل من 2، انت جاهز تنقل المساعد لـ staging environment وتجرّبه على 100 عميل حقيقي.

المصادر

  • OpenAI Whisper Paper - Radford et al. 2023: https://arxiv.org/abs/2212.04356
  • Anthropic Claude Models Documentation: https://docs.anthropic.com/en/docs/about-claude/models
  • ElevenLabs Text-to-Speech API Reference: https://elevenlabs.io/docs/api-reference/text-to-speech
  • Speech-to-Text APIs 2026 Benchmark - Future AGI: https://futureagi.com/blog/speech-to-text-apis-in-2026-benchmarks-pricing-developer-s-decision-guide/
  • Munsit Arabic Voice AI Platform: https://munsit.com/
  • NEVOX AI Arabic Voice Agent Benchmarks: https://www.nevoxai.com/
  • Deepgram vs ElevenLabs Comparison 2026: https://deepgram.com/learn/deepgram-vs-elevenlabs

هل استفدت من المقال؟

اطّلع على المزيد من المقالات والدروس المجانية من نفس المسار المعرفي.

تصفّح المدونة