التدقیق الإملائی للکلمات العربیة المطبوعة باستخدام التحلیل الإحصائی
الملخص
المستخلصیقترح هذا البحث طریقة إحصائیة وتحلیل مورفولوجی لتصحیح الکلمات العربیة الخاطئة بوصفها وسیلة معالجة نهائیة للکلمات العربیة الناتجة من أنظمة التمییز الضوئی OCR. یلحق بالبحث قوامیس بالکلمات بهدف مقارنة الکلمة تحت المعالجة مع مطابقتها فی القاموس.یستخدم هذا البحث عدد من مصادر المعرفة ویعتمد خصائص اللغة العربیة، طریقة إحصائیة، تحلیل مورفولوجی، فضلاً عن البحث فی القوامیس لتحدید موقع الخطأ وتصحیحه. تتوقف عملیة تصحیح الأخطاء على نوع الخطأ المحتمل، والذی یشمل القلب المکانی، وإبدال الحروف، وحذفها، وإضافتها الممکنة، وذلک باستبدال الحروف المنقلبة بتلک التی تشابهها، وتعویض الحروف المحذوفة بتلک المسموح بها داخل سیاق الکلمة، وهی الأخطاء الأکثر حدوثاً فی أنظمة التمییز الضوئی.