أتمتة اللغة العربيّة أمام منعطف لبناني- فرنسي

نعمة نعمة اختصاصي تربوي لبناني |

ما زالت أتمتة اللغة العربيّة Automation، بمعنى صوغ معادلات رياضيّة رقميّة تمكّن الكومبيوتر من «فهمها» بوضوح، مسألة إشكاليّة.

وعلى رغم انقضاء قرابة ربع قرن من الجهود الرامية إلى صنع برامج رقميّة تجعل الكومبيوتر قادراً على أن «يتولى» بنفسه تصريف الأفعال باللغة العربيّة، تكون بمستوى الاتقان والدقة والفعاليّة التي تتمتع بها برامج تصريف الأفعال في لغات كالإنكليزيّة والفرنسيّة وغيرهما.

 

جسر لغوي مختلط

ربما تغيّرت تلك الصورة قريباً بفضل جهود لبنانيّة - فرنسيّة، يبذلها باحثون في الأتمتة والتدقيق الإملائي للغة العربيّة.

وهناك باحثان باتا على مقربة من صنع برنامج كومبيوتر يتولى أوتوماتيكيّاً توليد الأفعال العربيّة وتحليلها، بل وصولاً إلى المعالجة الآليّة للغة العربيّة. ويعمل أحد الباحثين، هو اللبناني- الفرنسي ألكسي عميد نعمة، باحثاً في علوم الألسنيّة ومهندساً في علوم الكومبيوتر، فيما يدير الآخر، هو الفرنسي إيريك لابورت «مختبر غاسبار مونتاني للمعلوماتيّة» Gaspard Montagne Computer Science Laboratory (اختصار الإسم الفرنسي للمختبر هو «إل إي جي إم» LIGM).

وأوضح نعمة أنه بعد ما يزيد على عشرين عاماً من العمل على المعالجة الآليّة للغّة العربيّة، ما زالت العقبات نفسها تعترض التوصّل إلى حلول لثغرات برامج توليد الأفعال والأسماء في اللغّة العربيّة. في المقابل، تتطور المعالجات الآليّة في اللغّات الأجنبيّة بوتيرة كبيرة. إذ جرى نشر ما يزيد على 20 برنامج كومبيوتر لتصريف الأفعال في اللغّة الفرنسيّة.

وشدّد على كون التعقيدات الـ?«مورفوفنولوجيّة» للغّة العربيّة، والمتغيّرات الإملائيّة المتّصلة بها، تعتبر من العقبات الكبرى في تحقيق نجاح ملموس في صنع برامج المعالجة الآليّة للعربيّة. ويطلق تعبير «مورفوفنولوجي» على العلاقة بين الشكل الظاهري للحروف وطريقة تجميعها في تركيب كلمات منطوقة. ولاحظ نعمة أن مراكز البحوث العربيّة والعالميّة، لم تتوصّل بعد إلى صوغ برنامج فعّال لتصريف الأفعال، على غرار ما هو حاصل في اللغّات الأوروبيّة.

وبيّن أن معظم تلك المراكز البحثيّة تلجأ إلى سياسة «الهروب الى الأمام». فبدلاً من التصدي لمشكلة عدم قدرتها على حلّ عقدة المرجعيّات المعجميّــــة ووضـــع فـــرضيّات وتشكيلات لغويّة جديدة، تعمد تلك المراكز إلى التقدّم باستمرار، فكأنها تتعامل مع المشكلة بإنكار وجودها أصلاً!

 

بساطة تخلو من الخطأ

في السياق عينه، شرح لابورت وجود مشكلة اخرى تتعلّق بنُظُم الكومبيوتر وبرامجه، بمعنى أنه لم يجرِ تطوير نظام من برامج الكومبيوتر يتناسب مع خصائص اللغة العربيّة. ولفت إلى أن مختبر «إل إي جي إم» لجأ إلى تعديل البنية البرمجيّة للغة الرقميّة المعروفة بإسم «يوني تكس» UNITEX، كي تصير أكثر إستجابة للغة العربيّة. ووفق لابورت، تضمّن ذلك التعديل إضافة ثلاث تحديثات تطاول جذر الفعل، والسوابق واللواحق، والتشكيل الجزئي.

وبيّن لابورت أن تلك الإضافات جعلت نظام «يوني تكس» رافعة أساسيّة في معالجة اللغة العربيّة بواسطة الكومبيوتر.

ويلتقط نعمة الخيط ليوضح أن نتائج استخدام «يوني تكس» في أتمتة اللغة العربيّة، أعطت نتائج عالية الدقّة، مبيّناً أنه استطاع استخدام نظام «يوني تكس» في صنع برنامج لتوليد الأفعال العربيّة وتصريفها (15400 فعل)، ومشيراً إلى ان ذلك البرنامج جاء بسيطاً وسهلاً وخاليّاً من الأخطاء أيضاً. وأضاف أن استعماله نظام «يوني تكس» (مع التعديلات الثلاثة المشار إليها أعلاه)، أدى إلى صنع برنامج كومبيوتر يستطيع تحليل الأفعال العربيّة، مع ملاحظة السوابق واللواحق المتّصلة بالأفعال، وكذلك الحال بالنسية لأشكال التصريف كلها.

وشدّد نعمة على أن البرنامج الذي صنعه لا يعتبر وصولاً إلى «خط النهاية». إذ يعتزم وضع نموذج عن البرنامج بين أيدي المهتمين، كي يحصل على رأيهم وتقويمهم لذلك البرنامج. وأضاف: «نتابع في مختبر «إل إي جي إم» البحوث لإيجاد حلول للمشكلات الأكثر تعقيداً في اللغة العربيّة. إذ اشتغلنا أيضاً على توليد جمع التكسير (3200 مدخل معجمي) وحصلنا على نتائج ممتازة (93000 شكل) في توليد جموع التكسير، والتعرّف على صيغة المفرد التي جاءت منها، إضافة إلى ربطها بعضها بعضاً».

وللتوضيح، تعتبر صيغة جمع التكسير من الصيغ الصعبة في اللغة العربيّة، لأن لا توجد قاعدة تحكمها. فمثلاً، يجمع «رامٍ» تكسيراً بكلمة «رُماة»، و?«راكع» بـ?«رُكّع» و?«حاج» بـ?«حجيج»، وواضح أن لا قاعدة للربط بين صيغتي المفرد وجمع التكسير. ومثلاً، يجري الحفاظ على صيغة المفرد في جمع المؤنّث السالم، كأن تجمع «طالبة» بكلمة «طالبات»، وجمع المذكّر السالم فيمكن جمع «جالس» بـ?«جالسون».

وعلّق لابورت على الأمر نفسه بالإشارة إلى أن خبراء علوم اللغات مجبرين على التكييف مع نُظُم برامج الكومبيوتر. وأضاف: «يحتاج توليد مورد تصريف وتحليل الأفعال بكامله (2.5 مليون شكل تصريفي لـ 15400 فعل) إلى دقيقة واحدة على حاسوب منزلي متوسط المواصفات، ما يشير إلى قدرة نظام «يوني تكس» وفعاليته في إدارة الموارد اللغويّة».

وبيّن نعمة أن العمل جارٍ، على مسألة الأسماء ومتغيراتها (المثنى، والجموع والمؤنّث)، إضافة الى الحروف، مبيّناً إنجاز قرابة 95 في المئة من المفردات التي تحتويها اللغة العربيّة الحديثة (مع استثناء أسماء العلم)، إضافة إلى النجاح في تحليل نصوص إختباريّة بنسبة لامست الـ95 في المئة.

وتشمل آفاق تلك الجهود، إضافة إلى قطاع التعليم، التدقيق اللغوي لبرامج الكتابة، والتدقيق اللغوي الاحترافي في الصحف ودور النشر، والبحث على الإنترنت، والتدقيق في الترجمة الآليّة وغيرها.

وحاضراً، هناك موقع إلكتروني في صيغة أوليّة، لتصريف الأفعال العربيّة. ويعرض الموقع عيّنة من 300 فعل، مع وعد بأن يشمل بقية الأفعال الـ15400، عندما يطلق في صيغته النهائيّة. (العنوان الإلكتروني للموقع هو tasrif.univ-mlv.fr).