SpeechSSM

طوّرت الباحثة الكورية الجنوبية سي جين بارك نموذجًا لغويًا صوتيًا جديدًا أطلقت عليه اسم SpeechSSM، ويُعد هذا النموذج نقلة نوعية في مجال توليد الصوت الاصطناعي بالاعتماد على تقنيات الذكاء الاصطناعي. يتميز هذا الابتكار بقدرته على إنتاج كلام يبدو طبيعيًا للغاية، ويتدفق بشكل مستمر دون انقطاع أو قيود زمنية، مما يفتح آفاقًا واسعة لتطوير تقنيات صوتية يمكن أن تعمل دون توقف، على مدار الساعة.

يعالج نموذج SpeechSSM إحدى أبرز التحديات التي واجهت النماذج السابقة، وهي صعوبة إنتاج محتوى صوتي طويل بجودة عالية واستمرارية طبيعية. وغالبًا ما كانت هذه النماذج تتعرض لمشكلات مثل التكرار غير المرغوب فيه، أو الانقطاع في تدفق الصوت، خاصة عند استخدامها في تطبيقات تتطلب إنتاجًا صوتيًا طويلًا، مثل البودكاست، والكتب الصوتية، والمساعدات الصوتية التفاعلية.
وفقًا لما ورد في ورقة بحثية منشورة على منصة arXiv العلمية المتخصصة، فإن النموذج الجديد تم تطويره ضمن مشروع بحثي تقوده بارك، وهي طالبة دكتوراه تعمل ضمن فريق البروفيسور يونج مان رو في كلية الهندسة الكهربائية. ويُنتظر تقديم هذا الابتكار خلال المؤتمر الدولي لتعلم الآلة ICML لعام 2025، أحد أبرز المؤتمرات العالمية في مجال الذكاء الاصطناعي وتعلم الآلة.
يعتمد النموذج على آلية جديدة تُعرف باسم State Space Model، وهي تقنية تتيح للنظام تتبع التسلسل الصوتي وتحليله بطريقة أكثر كفاءة، ما يتيح للنموذج إنتاج كلام انسيابي وطبيعي حتى في المقاطع الطويلة. ويُعد دمج هذه التقنية ضمن نموذج لغوي صوتي خطوة غير مسبوقة، حيث يُعتقد أنها توفر بديلاً فعالًا للتقنيات التقليدية مثل نماذج Transformer التي تعاني أحيانًا من صعوبات في الحفاظ على استمرارية الصوت.
وتكمن أهمية هذا التطوير في أنه يمهّد الطريق نحو مستقبل تتوفر فيه أدوات صوتية ذكية يمكنها التفاعل مع البشر بطريقة أكثر طبيعية وواقعية، دون أن يشعر المستمع بأن الصوت “مصطنع” أو مكرر. كما أن هذه التقنية تتيح لمطوري التطبيقات الصوتية بناء أنظمة قادرة على قراءة النصوص الطويلة، أو الاستجابة للمستخدمين في الزمن الحقيقي، دون الحاجة إلى إعادة تشغيل النموذج أو تقطيعه إلى أجزاء.
من المتوقع أن يكون لهذا الإنجاز انعكاسات واسعة في مختلف المجالات، بما في ذلك التعليم، وخدمة العملاء، والتطبيقات الطبية والنفسية التي تعتمد على التفاعل الصوتي. وبتقديم هذا النموذج في مؤتمر ICML 2025، ستكون الفرصة متاحة أمام المجتمع العلمي لتقييم الأداء الفعلي لـ SpeechSSM، ومناقشة إمكانياته وتحدياته المحتملة، مما يمهد الطريق لاعتماده بشكل أوسع في حلول الذكاء الاصطناعي المستقبلية.
جيل جديد من تقنيات معالجة اللغة
تُعد النماذج اللغوية الصوتية (SLMs) بمثابة خطوة متقدمة في مجال تقنيات معالجة اللغة، إذ تتجاوز القيود التقليدية للنماذج النصية من خلال قدرتها على فهم وتوليد الكلام البشري مباشرة، دون الحاجة إلى تحويله إلى نص مكتوب. وتستفيد هذه النماذج من الخصائص الصوتية الطبيعية للبشر لإنتاج كلام عالي الجودة بسرعة وكفاءة، حتى ضمن نماذج ضخمة الحجم.
ومع ذلك، واجهت الأجيال السابقة من هذه النماذج صعوبات كبيرة في توليد كلام طويل المدى، بسبب ارتفاع متطلبات تحليل التفاصيل الدقيقة في الصوت، وهو ما يؤدي إلى استهلاك عالٍ للذاكرة وصعوبة في الحفاظ على اتساق المعنى ونبرة المتحدث عند التوليد لفترات طويلة.
توليد مستقر لكلام طويل وسرد متماسك
النموذج الجديد “SpeechSSM” يُقدم حلاً مبتكرًا لهذه التحديات، من خلال بنية هجينة تجمع بين آليات “الانتباه” التي تركز على المعلومات الحديثة، وطبقات “تكرارية” تتيح الاحتفاظ بالسياق العام للنص أو المحادثة. هذا التصميم الفريد يمكّن النموذج من توليد كلام طويل يحافظ على ترابط المعنى وسلاسة السرد، دون أن يخرج عن الموضوع أو يفقد خيط الحديث.
إضافة إلى ذلك، يتميز “SpeechSSM” بكفاءة حاسوبية عالية، حيث لا يزداد استهلاك الموارد مع ازدياد طول المدخلات، مما يجعله أكثر ملاءمة للتطبيقات العملية والواقعية.
ويعتمد النموذج على تقسيم الصوت إلى نوافذ زمنية قصيرة وثابتة يتم تحليلها بشكل منفصل، ثم إعادة دمجها لتوليد كلام طويل ومترابط، بما يعزز من قدرته على التعامل مع تسلسلات صوتية غير محدودة الطول.
أداء متفوق وتوليد يصل إلى 16 دقيقة
في مرحلة تركيب الصوت، يستخدم “SpeechSSM” نموذجًا يُعرف باسم “SoundStorm”، وهو نموذج غير تسلسلي (Non-Autoregressive) قادر على توليد عدة مقاطع صوتية في آن واحد، ما يقلل زمن التوليد مقارنة بالنماذج التقليدية التي تعتمد على بناء الصوت خطوة بخطوة.
ولقياس فعالية النموذج في توليد محتوى طويل، طورت الباحثة مجموعة بيانات جديدة تحمل اسم “LibriSpeech-Long”، تمكّن من اختبار قدرات النموذج في توليد كلام يمتد حتى 16 دقيقة — وهو تطور نوعي مقارنة بالنماذج السابقة التي لم تتجاوز عادةً بضع ثوانٍ من الكلام المستمر.
أدوات تقييم جديدة وأكثر دقة
إلى جانب تطوير النموذج، قدّمت الباحثة مجموعة جديدة من أدوات التقييم تتجاوز المقاييس التقليدية مثل مقياس “الحيّرة” (Perplexity) الذي يركز فقط على الصحة اللغوية. وتشمل هذه الأدوات:
مقياس “SC-L”: لقياس الاتساق الدلالي عبر الزمن.
مقياس “N-MOS-T”: لتقييم مدى طبيعية الصوت مع مرور الوقت.
وقد أظهرت التقييمات أن نموذج “SpeechSSM” قادر على الحفاظ على تسلسل منطقي للأحداث والشخصيات، مع تقديم معلومات جديدة بشكل منسجم وطبيعي، حتى عند توليد كلام طويل. وهو تفوق واضح على النماذج السابقة التي كانت تميل إلى التكرار أو فقدان البنية السردية مع الزمن.
وصرحت الباحثة قائلة: “كانت النماذج الصوتية التقليدية تفتقر إلى القدرة على توليد محتوى طويل ومترابط، وكان هدفنا تطوير نموذج يلبّي احتياجات الاستخدام البشري الفعلي من خلال تحسين جودة التوليد الصوتي واستمراريته”.
وأضافت: “نأمل أن يساهم هذا التقدم في تحسين تطبيقات الذكاء الاصطناعي الصوتية، مثل المساعدات الرقمية، من خلال تعزيز تماسك المحتوى وتسريع الاستجابة في الزمن الحقيقي”.