لماذا يجب على الذكاء الاصطناعي فهم جميع لغات العالم؟
عندما طلبنا من صديقتنا الجديدة أيساتو -التي تعيش في قرية ريفية في غينيا بغرب أفريقيا– أن تسجل أرقام هواتفنا على هاتفها المحمول لكي نحافظ على التواصل معها، ردت علينا قائلةً بلغة السوسو: "لا أستطيع، لأنني لم أرتد المدرسة"، لا تستطيع أيساتو قراءة اللغة الفرنسية أو الكتابة بها؛ لأنها لم تتلقَّ تعليمًا رسميًّا، لكننا نؤمن بأن حرمان أيساتو من تلقِّي التعليم المدرسي لا يجب أن يمثِّل عائقًا يمنعها من الانتفاع بالخدمات الأساسية المتاحة في هاتفها، والمشكلة من وجهة نظرنا هي أن هاتف أيساتو لا يفهم لغتها المحلية.
يجب أن تواكب نظم الحاسوب طرق استخدام الناس -كل الناس- للغات، يتحدث سكان غرب أفريقيا لغاتهم منذ آلاف السنين، وقد أنتجوا بهذه اللغات تراثًا شفهيًّا ثريًّا أفاد مجتمعاتهم عن طريق إحياء قصص الأجداد، والآراء التاريخية، ونقل المعرفة والأخلاق من جيل إلى آخر، ويمكن لأجهزة الحاسوب بسهولة أن تدعم هذا التراث الشفهي؛ فعلى الرغم من أن الحواسيب تُصَمَّم عادةً لتُستَخدَم مع اللغات المكتوبة، فإن التكنولوجيا القائمة على الكلام المنطوق موجودة بالفعل، غير أن هذه التكنولوجيا لا "تتحدث" بأيٍّ من اللغات أو اللهجات التي يتحدث بها الأفارقة والتي يبلغ عددها ألفي لغة؛ فتطبيق "سيري" الذي طورته شركة "أبل"، أو "مساعد جوجل"، أو المساعد "أليكسا" من أمازون، كلها لا يخدم أيًّا من اللغات الأفريقية.
وفي الواقع فإن أغلب الأميين البالغ عددهم 700 مليون فرد حول العالم لا يستطيعون الاستفادة من تكنولوجيا الهاتف المحمول؛ إذ ينحصر استخدامهم له في الاستخدامات البسيطة كالرد على المكالمات الهاتفية، دون الاستفادة من وظائفه الأخرى وإن كانت بسيطة، مثل إدارة جهات الاتصال، أو إرسال رسالة نصية، ولأن الأمية تعني في المعتاد عدم نيل أي قدر من التعليم المدرسي، وبالتالي عدم القدرة على التحدُّث بإحدى لغات العالم شائعة الاستخدام، فإن تكنولوجيا التعرف على الكلام غير متاحة لمَن هم في أمسِّ الحاجة إليها، وفي حالة هؤلاء، قد تستطيع تكنولوجيا التعرُّف على الكلام سد الفجوة بين الأمية والقدرة على الوصول إلى المعلومات والخدمات القيمة، بدءًا من المعلومات الزراعية ووصولًا إلى الرعاية الطبية.
لماذا إذًا لا تتوافر منتجات تكنولوجيا التعرُّف على الكلام باللغات الأفريقية وبغيرها من اللغات المحلية؟ غالبًا ما تكون اللغات التي يتحدث بها أعداد قليلة نسبيًّا من الناس ضحيةً للأولويات التجارية، إضافةً إلى هذا، فإن أصحاب النفوذ في مجال الخدمات والمنتجات التكنولوجية عادةً ما يتحدثون باللغات المحدودة العدد ذاتها، مما يجعل من السهل عدم مراعاة الأشخاص ذوي الخلفيات المختلفة بما فيه الكفاية؛ فالمتحدثون بلغات كالتي ينتشر استخدامها في غرب أفريقيا لا يتمتعون إطلاقًا بالتمثيل الكافي في المختبرات البحثية، والشركات، والجامعات، التي طورت تكنولوجيا التعرُّف على الكلام عبر الزمن، ومن المعروف أن التقنيات الرقمية قد يكون لها آثار مختلفة على الأعراق المختلفة، فيمكن أن تفشل النظم التكنولوجية في توفير جودة الخدمات ذاتها لمختلِف المستخدمين، وقد تنظر إلى بعض الجماعات وكأنها لا وجود لها.
والأولويات التجارية، والنفوذ، وغياب التمثيل الكافي، كلها عوامل تفاقم من سوء تحدٍّ آخر مهم، ألا وهو: نقص البيانات؛ فتطوير تكنولوجيا التعرف على الكلام يتطلب وجود مجموعات ضخمة من البيانات المشروحة، غير أن اللغات التي يتحدث بها الأميون الذين سيحققون أكبر استفادة من تكنولوجيا التعرف على الأصوات في الغالب تصنف ضمن اللغات "قليلة المصادر"، التي لا تتوافر لها الكثير من مجموعات البيانات، على عكس اللغات "كثيفة المصادر"، وأكثر تقنيات معالجة مشكلة نقص البيانات تطورًا في الوقت الحالي هي تقنية "نقل التعلم"، وهي تقنية تقوم بنقل المعرفة المستقاة من اللغات كثيفة المصادر إلى مهمات تعلُّم الآلة الخاصة باللغات قليلة المصادر، غير أن البيانات المنقولة لا تكون مفهومة جيدًا، وهو ما يخلق حاجةً إلى أبحاث أكثر إمعانًا بشأن ما يجب التخلي عنه وما يجب الحفاظ عليه فيما يتعلق بملاءمة مجموعات البيانات المستخدمة لنقل التعلُّم، وحجمها، وجودتها، وكما هو واضح من وضع التكنولوجيا اليوم، فإن مئات الملايين من مستخدمي الإنترنت في العقد القادم لن يكونوا من المتحدثين باللغات التي تدعمها هواتفهم المحمولة.
وإذا تمكَّن هؤلاء المستخدمون من الوصول إلى خدمات الإنترنت، فلن يكون متاحًا لهم الاستفادة من مزايا الإشراف الآلي على المحتوى، وغيرها من وسائل الحماية التي يتمتع بها متحدثو اللغات الشائعة، بل إنه يصعب الحفاظ على أمن الناس على الإنترنت حتى في الولايات المتحدة حيث يحظى المستخدمون بالاهتمام وتعديل المحتوى لملاءمة السياق، وقد رأينا في ميانمار وفي غيرها من البلاد أن الانتشار السريع للمحتوى غير الخاضع للإشراف يمكن أن يؤدي إلى تفاقم الشقاق الاجتماعي وزيادة فاعلية الأصوات المتطرفة التي تؤجج العنف، وتتجلى الإساءة التي تحدث عبر شبكة الإنترنت في صور مختلفة في "الجنوب العالمي"، وأغلب العاملين في مجال التصميم الذين هم من الغربيين، المتعلمين، الأغنياء، الديمقراطيين، الذين يعيشون في مجتمعات صناعية، والذين لا يفهمون اللغات المحلية وثقافاتها، غير مؤهلين للتنبؤ بالعنف والتمييز أو منعهما عندما يحدثان في سياقات ثقافية مختلفة عن ثقافتهم.
إننا نعمل على حل هذه المشكلة، وقد طورنا أول نماذج التعرُّف على الكلام المنطوق بلغات المانينكا، والبولار، والسوسو، وهي لغات يتحدث بها مجتمعةً نحو 10 ملايين شخص في سبع دول تبلغ نسبة الأمية فيها 68%، وبدلًا من استخدام مجموعات البيانات من اللغات كثيفة المصادر التي لا علاقة لها باللغات المنشودة، فقد استفدنا من البيانات المنطوقة المتاحة بوفرة حتى في اللغات قليلة المصادر، وهي: أرشيفات البث الإذاعي، وقد جمعنا مجموعتين من البيانات زودنا بها الباحثين: الأولى هي مجموع نصوص إذاعة غرب أفريقيا، وتحتوي على 142 ساعة من النصوص الصوتية المتاحة بأكثر من عشر لغات، مع مجموعة تحقق فرعية مُصنَّفة.
والمجموعة الثانية تسمى West African Virtual Assistant Speech Recognition Corpus، وتحتوي على 10 آلاف من المقاطع الصوتية مصنفةً بأربع لغات، وقد طورنا نموذج "wav2vec غرب أفريقيا" West African wav2vee، وهو مُشَفِّر كلام مُدَرَّب على مجموعة نصوص إذاعية يشوبها ضجيج وتشويش، ثم قارنَّاه بمُشَفِّر الكلام الأساسي لفيسبوك، والذي جرى تدريبه باستخدام بيانات أكبر كمًّا بستة أضعاف وذات جودة أعلى أيضًا، وقد أثبتنا أنه رغم صغر حجم مجموع نصوص إذاعة غرب أفريقيا ورغم الضوضاء المصاحبة لها، فإن أداء مُشَفِّر الكلام الذي طورناه كان يماثل أداء مُشَفِّر الكلام الأساسي في مهمة للتعرف على الكلام بلغات متعددة، كما يتفوق على المُشَفِّر الأساسي تفوقًا ملحوظًا في مهمة التعرُّف على لغات غرب أفريقيا، وأخيرًا، قمنا بتصميم نموذج أولي لمساعد افتراضي ذكي متعدد اللغات، يخدم الأميين الذين يتحدثون لغات المانينكا، والبولار، والسوسو (انظر الفيديو أدناه)، وسوف ننشر مجموعات بياناتنا، وكود البرمجة، والنماذج المُدَرَّبة جميعًا على الأوساط البحثية، على أمل أن يشجع هذا على بذل مزيد من المجهودات في هذه المجالات.
لقد أدرك رواد الحوسبة الأوائل أنهم إذا أرادوا جعل البرمجة متاحةً لعامة الناس، فإنهم سيكونون بحاجة إلى تطوير لغات برمجة يسهل على الناس تعلُّمها، وبرغم ذلك، فقد كانت أولى لغات البرمجة عالية المستوى معقدة تقنيًّا، غير أن المستخدمين اليوم يتمتعون بمستويات مختلفة من التجريد؛ فأنت لست بحاجة إلى فهم لغة جافا سكريبت لقراءة هذا المقال على حاسوبك، ولا يحتاج باحثو الذكاء الاصطناعي إلى استخدام كود التجميع لتطوير مجال علوم الحاسب.
ورغم هذا، فإن الحواسيب لم تتطور بما يكفي لتكون مفيدةً في بعض المجتمعات، ويجب ألا تضطر أيساتو إلى قراءة لغة شائعة والكتابة بها حتى تستطيع الإسهام في البحث العلمي، فما بالنا باضطرارها إلى ذلك من أجل التعامل مع هاتفها الذكي.
صحيح أنه من الصعب تطوير حواسيب تستطيع فهم التفاصيل الدقيقة للتواصل الشفهي بآلاف اللغات الثرية بالخصائص الشفهية، مثل نبرة الصوت وغيرها من أمور علم الدلالات اللغوية المعقد، غير أنه أينما وجه الباحثون اهتمامهم، يمكنهم إحراز تقدم، إن تحقيق الابتكار، وإتاحة المعلومات والتكنولوجيا، وتوفير الأمان، جميعها أشياء تتطلب أن تتحدث التكنولوجيا بجميع لغات العالم.