كشف باحثون في شركة فيسبوك عن نظام ذكاء اصطناعي جديد يدعى “روزيتا” يستخدم منهج تعلم الآلة لتعزيز قدرات التعرف البصري على الحروف (أو سي آر) ليتيح للمستخدمين التنقيب بين ملايين الصور التي يتم تحميلها يوميا على فيسبوك.
لنفترض أنك تريد البحث عن كلمات أو عبارات في صور على فيسبوك فإن التحدي الذي سيواجه الموقع هو اكتشاف إذا كانت هناك حروف مطبوعة ضمن الصورة، ثم تحليل تلك الحروف لمعرفة ماذا تقول العبارة.
بالطبع فإن هذه التقنية ليست جديدة وكانت تستخدم لسنوات في معالجة المستندات، لكن التحدي الذي يواجه فيسبوك هو تمييز النص في أي عدد من الصور المعقدة، بما في ذلك النص المرسوم فوق الصورة، كما هو الحال في بطاقات التهنئة مثلا المنتشرة على الإنترنت، أو النص في علامة كانت جزءا من صورة أصلية، ثم جعل التقنية تعمل على نطاق التدفق المستمر للصور في الموقع.
وتقسم فيسبوك مهمة “استخراج” النص من الصور إلى موضوعين منفصلين، الأول اكتشاف ما إذا كان هناك نص أصلا في الصورة، والثاني تحليل ما هي كلمات العبارة.
واستخدم الباحثون من أجل المهمة الأولى شبكة عصبية تلافيفية تدعى “فاستر آر-سي إن إن” استمدت من عمل قام به في الأصل الباحث لدى “فيسبوك” روس غريشيك عندما كان يعمل لدى مايكروسوفت.
وفي حين أن تقنية “سي إن إن” استخدمت بعض الشيء في العقد الماضي للتعرف على الصور فإن تقنية “آر-سي إن إن” تضيف إليها مفهوم “المناطق” كوسيلة لتسريع استخراج الكائن في الصورة وتحديد مكان وجوده فيها بدقة.
وبمجرد تمييز وجود نص في الصورة فإنه يتم تمرير إحداثيات تلك الصورة إلى نظام “سي إن إن” آخر لتمييز الكلمة أو العبارة حرفا بحرف، ونتائج هذه الخطوة الثانية هي سلاسل من الحروف التي تشكل الكلمات والعبارات.
ولأن التعرف على الكلمات أو العبارات الطويلة قد يكون صعبا بشكل خاص فإن الباحثين استخدموا وسيلة تدعى “المنهج التعليمي” لتدريب نظام التعرف على الحروف، حيث بدؤوا بتدريبه على كلمات صغيرة من خمسة أحرف أو أقل ثم أخذوا يزيدون طول الكلمات تدريجيا مع تكرار عمليات التدريب.
ونظام روزيتا مفعل حاليا في فيسبوك ويستخدم يوميا وفقا للباحثين الذين يقولون إن التحدي المقبل يتضمن استخراج النص من تطبيقات الفيديو.
المصدر : مواقع إلكترونية