نظام ذکائی للتعرف على لغات متعددة
الملخص
تُستخدم أنظمة تصنیف اللغة لتصنیف اللغة المنطوقة من عینة صوتیة معینة وهی عادةً الخطوة الأولى للعدید من مهام معالجة اللغة المنطوقة، مثل أنظمة التعرف التلقائی على الکلام بدون الاکتشاف التلقائی للغة، لا یمکن تحلیل الکلام المنطوق بشکل صحیح ولا یمکن تطبیق القواعد النحویة، مما یتسبب فی فشل خطوات التعرف على الکلام اللاحقة. نقترح نظام تصنیف اللغة الذی یحل المشکلة فی مجال الصورة، بدلاً من مجال الصوت. حدد هذا البحث ونفذ العدید من المیزات منخفضة المستوى باستخدام معاملات درجة النغم (Mel Frequency Cepstral Coefficients)، والتی تستخلص الصفات من ملفات الکلام لأربع لغات (العربیة، الإنجلیزیة، الفرنسیة، الکردیة) من قاعدة البیانات (M2L_Dataset) هی مصدر البیانات المستخدمة فی هذا البحث. تُستخدم الشبکة العصبیة التلافیفیة (Convolutional Neuron Network) بحیث تعمل على صور المخطط الطیفی للمقتطفات الصوتیة المتوفرة. أظهرنا فی تجارب مکثفة أن نموذجنا قابل للتطبیق على مجموعة من السیناریوهات الصاخبة ویمکن بسهولة توسیعه لیشمل لغات غیر معروفة سابقًا، مع الحفاظ على دقة التصنیف. أصدرنا الکود الخاص بنا ومجموعة تدریب واسعة النطاق لأنظمة تصنیف اللغة للمجتمع. تم تطبیق خوارزمیة الشبکات العصبیة الالتفافیة (CNN) فی هذا البحث للتصنیف وکانت النتیجة مثالیة، حیث بلغت دقة التصنیف 97% بین لغتین إذا کان طول العینة ثانیة واحدة فقط، اما إذا کان طول العینة ثانیتین فقد بلغت دقة التصنیف 98%. بینما التصنیف بین ثلاث لغات فقد بلغت دقة التصنیف 95% إذا کان طول العینة ثانیة واحدة فقط، اما إذا کان طول العینة ثانیتین فقد بلغت دقة التصنیف 96%.