طريقة هجينة (Undersampling-SMOTE) لتصنيف البيانات الضخمة غير المتوازنة

القسم: Research Paper
منشور
Dec 1, 2023
##editor.issues.pages##
81-90

الملخص

يعد اختلال توازن البيانات من أهم المشاكل والتحديات التي تواجه تصنيف البيانات. وهذا من شأنه أن يؤدي إلى ضعف أداء المصنفات الثنائية، وذلك بسبب انحياز التصنيف نحو فئة الأغلبية وتجاهل تأثير فئة الأقلية، في حين أن فئة الأقلية غالبا ما تكون هي الأكثر أهمية عند التصنيف. من أجل إيجاد حل وسط بين فقدان المعلومات وموازنة مجموعة البيانات قبل تطبيق التصنيف، اقترح البحث خوارزمية هجينة تعتمد على استخدام طرق التجميع لتقسيم فئة الأغلبية إلى مجموعات فرعية في المرحلة الأولى، واستخدام أسلوب ترميز فئة الأغلبية. تستخدم الخوارزمية الرموز لتجميع العينات المتشابهة مع بعضها البعض وتقليل عدد عينات فئة الأغلبية. بينما تم استخدام تقنية الإفراط في أخذ عينات الأقليات الاصطناعية (SMOTE) لزيادة عدد عينات فئة الأقليات في المرحلة التالية. يدرس البحث تأثيرات الخوارزمية المقترحة على خمسة مصنفات اعتمادا على مقاييس الأداء AUC وF-score بعد تطبيق التصنيف باستخدام مجموعات البيانات المعيارية ذات أبعاد ونسب عدم توازن مختلفة. أظهرت النتائج أن الخوارزمية المقترحة أعطت نتائج جيدة في تحسين أداء المصنفات عند تطبيقها على البيانات بعد اعادة التوزيع.

تنزيل هذا الملف

الإحصائيات

كيفية الاقتباس

[1]
G. A.A. Al-Talib, عبد العزیز الطالب غ., S. Ahmed Razoqi, و احمد رزوقی ش., "طريقة هجينة (Undersampling-SMOTE) لتصنيف البيانات الضخمة غير المتوازنة", EDUSJ, م 32, عدد 4, ص 81–90, 2023.