الترجمة الآلية: ماذا تعرف عن اللغات التي تستعصي عليها؟

أربعاء, 03/31/2021 - 02:48

 

 

سوفي هارداتس

بي بي سي

هناك أكثر من سبعة آلاف لغة في العالم، من بينها أربعة آلاف لغة مكتوبة. لكن 100 لغة فقط، أو نحو ذلك، يمكن ترجمتها باستخدام أدوات الترجمة الآلية مثل "غوغل ترانسليت". وتجرى في الوقت الحالي أبحاث جديدة واعدة لمساعدتنا في التواصل باللغات الأخرى أيضا.

لنفترض أنك عثرت على رسالة تتضمن معلومات ربما تسهم في إنقاذ حياة شخص، لكن المشكلة أنك لا تفهم كلمة واحدة من الرسالة، والأدهى من ذلك، أنك لا تعرف بأي لغة من بين الآلاف من لغات العالم، كُتبت هذه الرسالة، فماذا تفعل؟

لو كانت هذه الرسالة مكتوبة بالفرنسية أو الإسبانية، لكانت هذه المشكلة ستحل بكتابة الرسالة في محرك الترجمة الآلية وستحصل على إجابة واضحة باللغة الإنجليزية على الفور. لكن الكثير من اللغات لا تزال تستعصي على الترجمة الآلية، منها لغات يتحدث بها ملايين من الناس، مثل اللغة الولوفية واللوغندية ولغة التوي ولغة الإيوي في أفريقيا. وذلك لأن الخوارزميات التي تعتمد عليها هذه المحركات تتعلم من الترجمات البشرية، إذ تحلل ملايين الكلمات من النصوص المترجمة لتتحسن دقتها.

وهناك معين لا ينضب من هذه النصوص ببعض اللغات، مثل الإنجليزية والفرنسية والإسبانية، بفضل غزارة إنتاج المترجمين البشر بالمؤسسات متعددة الجنسيات، مثل البرلمان الكندي والأمم المتحدة والاتحاد الأوروبي، إذ ينتج هؤلاء كميات هائلة من الوثائق والمستندات المترجمة. فالبرلمان الأوروبي ينتج وحده 1.37 مليار كلمة بـ 23 لغة خلال عشر سنوات.

لكن بعض اللغات، التي قد تكون واسعة الانتشار، قد لا تترجم بهذه الغزارة، ومن ثم لا يوجد الكثير من المنشورات بهذه اللغات، ولهذا تُعرف بأنها لغات قليلة المصادر. ويعتمد الذكاء الاصطناعي للتدرب على هذه اللغات على المنشورات الدينية، مثل الإنجيل المترجم بلغات عديدة. لكن هذه المعلومات ليست كافية لتدريب أجهزة الروبوت لإنتاج نصوص مترجمة بدقة في مختلف المجالات.

 

وبينما يتيح تطبيق "غوغل ترانسليت" للناس التواصل بنحو 108 لغات مختلفة، فإن مترجم "بينغ"، الذي طورته مايكروسوفت، يتيح التواصل بنحو 70 لغة. لكن عدد اللغات المنطوقة في العالم يتجاوز سبعة آلاف لغة، من بينها أربعة آلاف لغة على الأقل لديها نظم كتابة.

وقد يقف هذا الحاجز اللغوي عائقا أمام أي شخص يحتاج لجمع معلومات دقيقة على وجه السرعة، مثل الوكالات الاستخباراتية.

 

ويقول كارل روبينو، مدير برنامج بوكالة مشروعات البحوث الاستخباراتية المتطورة "إياربا"، الذراع البحثي للاستخبارات الأمريكية: "كلما زاد اهتمام الفرد بفهم العالم، زادت الحاجة للوصول إلى البيانات غير المكتوبة باللغة الإنجليزية. ونواجه الآن الكثير من التحديات التي لا تعرف الحدود، مثل انعدام الاستقرار الاقتصادي والسياسي وتفشي فيروس كورونا وتغير المناخ، ومن ثم فإن كل هذه التحديات في جوهرها متعددة اللغات".

وقد يستغرق تدريب المترجم أو المحلل الاستخباراتي على لغة جديدة سنوات عديدة، وبعد هذه السنوات قد لا يكتسب الخبرة الكافية لأداء المهمة المكلف بها. ويقول روبينو: "هناك أكثر من 500 لغة منطوقة في نيجيريا وحدها، على سبيل المثال. وقد لا يفهم خبراؤنا، حتى أشهرهم عالميا، في هذا البلد، سوى القليل منها".

وتمول وكالة "إياربا" أبحاثا لتطوير نظام للترجمة الآلية يمكنه البحث عن أي معلومات مكتوبة أو منطوقة بلغة قليلة الموارد، وترجمتها وتلخيصها.

ويتمثل هذا المشروع في محرك للبحث يمكن أن يكتب فيه المستخدم استفسارا باللغة الإنجليزية، على سبيل المثال، فتُعرض له على الفور قائمة بالمستندات الملخصة باللغة الإنجليزية مترجمة من لغة أجنبية. وإذا ضغط المستخدم على أحد هذه المستندات، سيظهر له المستند المترجم كاملا. ويشارك في المشروع فرق متنافسة من الباحثين في علوم الكمبيوتر، ونشرت أجزاء كبيرة منه بالفعل.

وترى كاثلين ماكيون، عالمة كمبيوتر بجامعة كولومبيا وتقود أحد الفرق المتنافسة، أن الغاية من هذا المشروع هي تسهيل التفاعل بين الناس من مختلف الثقافات وتبادل المزيد من المعلومات عن ثقافاتهم.

وتستخدم الفرق البحثية تقنية الشبكة العصبية الاصطناعية، أحد أشكال الذكاء الاصطناعي التي تحاكي بعض أوجه التفكير البشري. وقد قلبت نماذج الشبكات العصبية الاصطناعية الموازين في مجال معالجة اللغة في السنوات الأخيرة. فبدلا من مجرد حفظ الكلمات والجمل، تتعلم هذه الشبكات معانيها. فقد تفهم من السياق أن مفردات عديدة يمكن استخدامها للتعبير عن نفس المفهوم، حتى لو بدت في ظاهرها مختلفة.

لكن هذه النماذج عادة تحتاج لتحليل ملايين النصوص للتدرب على اللغة المراد تعلمها. ويحاول الباحثون في هذا المشروع تطوير هذه النماذج حتى تتدرب على اللغة بتحليل كميات أقل من البيانات، فالبشر في نهاية الأمر لا يحتاجون لقراءة وثائق رسمية حررت على مدى سنوات لتعلم إحدى اللغات.

وتقول ريجينا بارزيلاي، عالمة كمبيوتر بمعهد ماساتشوستس للتكنولوجيا: "عندما يتعلم البشر إحدى اللغات، فإنهم لا يحتاجون إلا لقراءة جزء ضئيل من البيانات التي تحتاجها أنظمة الترجمة الآلية اليوم للتدرب على الترجمة. ولهذا نحاول تطوير الجيل الجديد من أنظمة الترجمة الآلية التي تنتج نصوصا مترجمة بدقة دون أن تحتاج لهذا الكم الهائل من المعلومات".

ويتضمن كل فريق من الفرق البحثية مجموعات من المتخصصين لحل إحدى مشاكل النظام. وعُدلت المكونات الرئيسية، مثل البحث التلقائي وتقنية التعرف على الكلام والترجمة وتلخيص النصوص لتناسب اللغات قليلة الموارد.

ومنذ عام 2017، ركزت الفرق على ثماني لغات مختلفة، منها السواحيلية والتاغالوغية والصومالية والكازاخية.

ونجحت الفرق في جمع المعلومات المكتوبة والمنطوقة باللغات قليلة الموارد من مواقع الإنترنت في صورة مقالات ومنتديات ومقاطع فيديو. فقد أصبحت هذه المعلومات متوفرة على الإنترنت بفضل المستخدمين حول العالم الذين ينشرون محتويات بلغتهم الأم.

ويقول سكوت ميلر، عالم كمبيوتر بجامعة جنوب كاليفورنيا، ويشارك في المشروع: "إذا أردت معلومات باللغة الصومالية، ستجد مئات الملايين من الكلمات. فبإمكانك العثور على كميات كبيرة من النصوص بأي لغة تقريبا الآن على الإنترنت".

لكن هذه النصوص تكون في الغالب بلغة واحدة، بمعنى أن المقالات الصومالية، على سبيل المثال، لا تكون مصحوبة بالترجمة الإنجليزية. لكن ميلر يقول إن نماذج الشبكات العصبية قد تُدرب مسبقا على اللغات المختلفة من خلال تحليل النصوص المكتوبة بلغة واحدة فقط.

ويقال إن الشبكات العصبية الاصطناعية تتعلم أثناء عملية التدرب خصائص اللغة وتراكيبها، ومن ثم تستخدمها في عملية الترجمة. ويقول ميلر: "لا أحد يعرف التراكيب اللغوية التي تتعلمها هذه النماذج، فهناك الملايين من المعايير".

وبعد مرحلة التدريب على لغات عديدة، تتعلم نماذج الشبكات العصبية الترجمة من لغة لأخرى، بالاستعانة بالقليل من النصوص المترجمة، فربما تكفي بضع مئات الآلاف من الكلمات باللغة المراد تعلمها وما يقابلها في اللغات الأخرى.

وبعدها يكون محرك البحث متعدد اللغات قادرا على البحث عبر المعلومات المنطوقة والمكتوبة، وإن كان هذا ينطوي على تحديات عديدة. فتقنية التعرف على الكلام وتحويل الكلام إلى نصوص، تجد صعوبة عادة في تمييز الأصوات والأسماء والمناطق الجغرافية التي لم تصادفها من قبل.

ويضرب بيتر بيل، خبير تقنيات التخاطب بجامعة إدنبره، ويشارك في أحد الفرق، مثالا على ذلك ببلد قد يكون غير معروف نسبيا للغرب، وربما تعرض أحد الساسة فيه لعملية اغتيال. فإن العثور على اسم هذا السياسي في المقاطع السمعية سيكون عسيرا.

وقد تحايل بيل على هذه المشكلة بالرجوع إلى النصوص التي نُقلت عن مقاطع صوتية، والبحث عن كلمات تبدو غير واضحة لأن النظام لم يصادفها من قبل. وبفحص هذه الكلمات، قد تكون واحدة منها اسم هذا السياسي الذي كان مغمورا.

وبعد العثور على المعلومات وترجمتها، يلخص محرك البحث المعلومات للمستخدم. لكن أثناء عملية التلخيص قد ترتكب الشبكات العصبية أخطاء، يطلق عليها علماء الكمبيوتر اسم "الهلوسة".

فلنفترض أنك كنت تبحث عن تقرير إخباري عن متظاهرين اقتحموا أحد المباني يوم الإثنين، لكنك قرأت في الملخص الذي ظهر لك أنهم اقتحموه يوم الخميس. ويرجع ذلك إلى أن نماذج الشبكات العصبية عندما تلخص تقريرا، تستقي المعلومات من الملايين من الصفحات التي حللتها أثناء مرحلة التدريب. وقد تتضمن هذه النصوص الكثير من الأمثلة عن محتجين يقتحمون مبان أيام الخميس، ولهذا توقعت الشبكة العصبية أن هذا ينطبق على المثال الأخير أيضا.

وقد تقوم نماذج الشبكات العصبية أيضا بإدخال تواريخ أو أرقام من تلقاء نفسها في الملخص، من قبيل "الهلوسة".

وتقول ميريلا لاباتا، عالمة كمبيوتر بجامعة إدنبره: "إن نماذج الشبكات العصبية بالغة التطور، فيمكنها حفظ الكثير من اللغات وإضافة كلمات ليست موجودة في المصدر".

وتفادت لاباتا هذه المشكلة باستخلاص كلمات مفتاحية من كل مستند، بدلا من أن تلخصها الآلة في صورة جمل، وبذلك تمنع هذه النماذج العصبية من إضافة المعلومات والاسترسال.

ويضم المشروع فريقا معنيا باللغات التي اندثرت منذ آلاف السنين. ولا شك أن هذه اللغات القديمة شحيحة المصادر، وربما لا يتبقى منها سوى أجزاء من النصوص. ويستخدم الخبراء هذه اللغات كوسيلة لتجربة التقنيات الجديدة التي قد تطبق على اللغات الحديثة قليلة الموارد.

وطور جيامينغ لو، طالب الدكتوراة بمعهد ماساتشوستس للتكنولوجيا، وفريقه خوارزميات يمكنها اكتشاف اللغات الحديثة المنحدرة من اللغات القديمة. ويغذي الفريق الخوارزميات بمعلومات بسيطة عن هذه اللغات ونبذة عامة عن التغيرات التي طرأت عليها.

واكتشف نموذج الشبكة العصبية استنادا إلى القليل من المعلومات، أن اللغة الأوغاريتية القديمة في الشرق الأقصى، وثيقة الصلة بالعبرية، وأن اللغة الإيبيرية، إحدى اللغات الأوروبية القديمة، أقرب إلى الباسكية (البشكنشية) منها إلى سائر اللغات الأوروبية.

وتقول بارزيلاي: "إن الاعتماد على كميات ضخمة من الوثائق المترجمة، يعد من مظاهر ضعف النظام، ولهذا فإن إنتاج أدوات تكنولوجية فعالة، سواء لمعالجة الرموز أو لترجمة اللغات غير المنتشرة، سيسهم في النهوض بمجال الترجمة الآلية".

وطورت الفرق نماذج من محركات البحث متعددة اللغات، وحسنت كفاءتها بإضافة لغات جديدة. ويقول روبينو: "إن هذه الأدوات التكنولوجية كفيلة بإحداث ثورة في الطرق التي يجمع بها المحللون البيانات من النصوص المكتوبة باللغات الأجنبية، إذ ستتيح للمحللين الذين لا يتحدثون سوى الإنجليزية تحليل البيانات التي لم يكونوا قادرين على قراءتها أو فهمها سابقا".

ويشارك أيضا في هذا المشروع ناطقون باللغات قليلة الموارد، إذ يحتاج هؤلاء للمعلومات المهمة المكتوبة بلغات أجنبية، لا لغرض التجسس، بل لتحسين جودة الحياة اليومية.

ويقول ديفيد إفيولوا أديلاني، طالب الدكتوراة في علوم الكمبيوتر بجامعة سارلاند الألمانية، وينحدر من نيجيريا وأحد الناطقين باللغة اليوروبية: "عندما تفشى فيروس كورونا، كنا في حاجة ماسة لترجمة النصائح الصحية الضرورية إلى لغات عديدة. واستشعرنا حينها مدى أهمية وجود أدوات تكنولوجية تساعدنا على الترجمة إلى اللغات قليلة الموارد".

ويطور أديلاني، قاعدة بيانات من اليوروبية إلى الإنجليزية في إطار مشروع "كسر الحاجز اللغوي بين متحدثي اللغات المتعددة في أفريقيا" الذي لا يهدف للربح. وأضاف أديلاني وأعضاء فريقه إلى قاعدة البيانات سيناريوهات الأفلام والأخبار والأعمال الأدبية والأحاديث العامة المترجمة إلى اليوروبية، واستخدموا قاعدة البيانات لتحسين دقة نموذج شبكة عصبية قد تدرب بالفعل على نصوص دينية، مثل منشورات جماعة شهود يهوه.

وبالتوازي مع هذه الجهود، يشارك أفراد مجتمعات في أفريقيا في تطوير قواعد بيانات بلغات أفريقية أخرى، مثل الإيوية ولغات الفون والتوي واللوغاندا.

ربما سيأتي يوم نستخدم فيه جميعا محركات البحث متعددة اللغات في حياتنا اليومية، لنكتشف معلومات من جميع أنحاء العالم بضغطة زر. لكن في الوقت الراهن، إذا أردت أن تفهم نصوصا بإحدى اللغات قليلة الموارد، فليس بوسعك إلا أن تتعلم هذه اللغة لتنضم إلى أعضاء فرق متحدثي اللغات المتعددة الذين يطورون قواعد بيانات لتحسين كفاءة أدوات وتقنيات الترجمة الآلية.