لا يزال الفشل في التعرف على الأرقام المكتوب بخط اليد (وكيفية إصلاحه)

لقد تم الإشادة بالتعلم العميق لحل كل شيء بدءًا من السيارات ذاتية القيادة وحتى المناخ العالمي. ومع ذلك ، فإن الشبكات العصبية العميقة (العمود الفقري للتعلم العميق) تفشل في حل حتى أكثر المهام دنيوية: الاعتراف القوي بالأرقام المكتوبة بخط اليد. النظر في الأمثلة التالية:

يتم تصنيف الصور

يُظهر الرقم الموجود أسفل كل رقم تنبؤ الشبكة. يصنف كل هذه العينات بشكل صحيح. إذا ما هي المشكلة؟ حسنًا ، خذ بعين الاعتبار الصور التالية:

... التعديلات الصغيرة يمكن أن تعرقل قرارات الشبكة عن مسارها.

قمنا بتعديل الصور قليلاً ، لكن الآن تقوم الشبكة العصبية بتصنيفها جميعًا. هذه الأنواع من المدخلات "العدائية" كانت معروفة لسنوات عديدة. إنها تؤثر بشكل أساسي على كل تطبيق للتعلم العميق بدءًا من التعرف على الكائنات وتجزئة الصورة الدلالية والتعرف على الكلام إلى تصفية البريد العشوائي. تتأثر كل شبكة عصبية مفردة يتم نشرها حاليًا وقد تتعرض للهجوم (بما في ذلك Siri أو Amazon Echo).

لكن الأمر يزداد سوءًا: فكر في مجموعة الصور التالية:

يتم تصنيف هذه الصور بثقة عالية كـ

هل تعرف حتى تلميح رقم مكتوب بخط اليد؟ لا؟ الشبكة العصبية من المؤكد للغاية أن هذه كلها أصفار. تسلط هذه الصور المزعومة التي لا يمكن التعرف عليها الضوء على مشكلة أخرى مع الشبكات العصبية اليوم: فهي تتصرف بطريقة غير منتظمة تمامًا إذا كانت المدخلات بعيدة جدًا عن البيانات "العادية" (في هذه الحالة ، الضوضاء بدلاً من الأرقام).

تم التعرف على مشكلة الصلابة هذه من قِبل الكثيرين كواحدة من حواجز الطرق الرئيسية نحو نشر التعلم العميق. ليس فقط لأسباب أمنية ، ولكن لأن هذه الإخفاقات تبرز أنه ليس لدينا أدنى فكرة عن كيفية عمل الشبكات العصبية حقًا وأي ميزات صور تستخدمها في التصنيف. زاد عدد الأوراق التي تحاول حل هذه المشكلة بشدة خلال العامين الماضيين ، ولكن دون جدوى حتى الآن. في الواقع ، يتم التعرف على الشبكة العصبية التي استخدمناها لتصنيف الأرقام المكتوبة بخط اليد أعلاه حاليًا على أنها النموذج الأقوى (Madry et al.). توضح هذه الحقيقة مدى بعيدًا عن نماذج التعرف القوية - حتى بالنسبة للأرقام المكتوبة بخط اليد البسيطة.

في ورقتنا الحديثة ، نقدم مفهومًا جديدًا لتصنيف الصور بقوة. الفكرة بسيطة للغاية: إذا تم تصنيف الصورة على أنها سبعة ، يجب أن تحتوي على سطرين تقريبًا - أحدهما أقصر والآخر - يمس بعضهما البعض في نهاية واحدة. هذه طريقة مبتكرة للتفكير في الأرقام ، وهو أمر طبيعي للغاية بالنسبة للبشر والذي يسمح لنا بتحديد إشارة (الخطوط) بسهولة حتى وسط كميات كبيرة من الضوضاء والاضطرابات. إن وجود مثل هذا النموذج من شأنه أن يجعل من السهل تصنيف أمثلة الخصومة المذكورة أعلاه في الفصل الصحيح. تعلم نموذج عام من الأرقام (مثل الأصفار) هو أمر بسيط ومباشر (باستخدام Variational Autoencoder) ، وباختصار ، يعمل على النحو التالي: نبدأ من مساحة كامنة للمتغيرات المزعجة (التي قد تلتقط أشياء مثل سمك أو إمالة الرقم ويتم تعلمها من البيانات) وإنشاء صورة باستخدام شبكة عصبية. ثم نعرض أمثلة على الأصفار المكتوبة بخط اليد ونقوم بتدريب الشبكة لإنتاج أخرى مماثلة. في نهاية التدريب ، تعرفت الشبكة على التغيرات الطبيعية للأصفار المكتوبة بخط اليد:

يتعلم نموذج عام من الأصفار الأشكال المختلفة للأرقام المكتوبة بخط اليد (الجانب الأيمن).

نتعلم مثل هذا النموذج التوليدي لكل رقم. بعد ذلك ، عندما يأتي مدخلات جديدة ، نتحقق من نموذج الأرقام الذي يمكن تقريبًا إدخاله الجديد. يُطلق على هذا الإجراء عادة التحليل التحليلي ، لأننا نحلل محتوى الصورة وفقًا للنموذج الذي يمكنه توليفها بشكل أفضل. من ناحية أخرى ، ليس لشبكات التغذية القياسية ، آليات للتغذية المرتدة للتحقق مما إذا كانت صورة الإدخال تشبه حقًا الفئة المستنبطة:

تنتقل شبكات Feedforward مباشرةً من الصورة إلى الفصل وليس لديها طريقة للتحقق من أن التصنيف منطقي. يقوم نموذج التحليل التوليفي الخاص بنا بالتحقق من ميزات الصورة الموجودة وتصنيفها وفقًا للفئة الأكثر منطقية.

هذا هو الفرق الرئيسي حقًا: ليس لشبكات feedforward أي وسيلة للتحقق من توقعاتها ، بل يجب عليك الوثوق بها. من ناحية أخرى ، يبدو نموذج التحليل التوليفي الخاص بنا ، ما إذا كانت بعض ميزات الصورة موجودة بالفعل في الإدخال قبل الانتقال إلى الاستنتاج.

نحن لسنا بحاجة إلى نموذج توليفي مثالي لهذا الإجراء للعمل. نموذجنا من الأرقام المكتوبة بخط اليد ليس بالتأكيد مثاليًا: انظر إلى الحواف الضبابية. ومع ذلك ، يمكن أن يصنف نموذجنا الأرقام المكتوبة بخط اليد بدقة عالية (99،0 ٪) وقراراتها تجعل الكثير من معنى للبشر. على سبيل المثال ، يشير النموذج دائمًا إلى انخفاض الثقة في صور الضوضاء ، لأنها لا تشبه أيًا من الأرقام التي شاهدتها من قبل. الصور الأقرب إلى الضوضاء التي لا يزال نموذج التحليل التوليفي يصنفها على أنها أرقام تتمتع بثقة عالية تجعل الإنسان أكثر منطقية:

حاولنا تجميع الصور التي يتعذر التعرف عليها والتي ما زالت مصنفة كأصفار بثقة عالية من خلال نموذج التحليل التوليفي الخاص بنا. هذا هو أفضل ما حصلنا عليه.

في النموذج الحالي للدولة من بين الفن من قبل مادري وآخرون. لقد وجدنا أن الحد الأدنى من الاضطرابات في الأرقام النظيفة غالبًا ما يكفي لإخراج تصنيف النموذج عن مساره. يؤدي القيام بنفس الشيء بالنسبة إلى نموذج التحليل التوليفي الخاص بنا إلى نتائج مختلفة بشكل لافت للنظر:

أمثلة معارضة لنموذج التحليل التوليفي. هل يمكنك تخمين الرقم الأصلي؟

لاحظ أن الاضطرابات لها معنى كبير بالنسبة للبشر ومن الصعب أحيانًا تحديد الفئة التي ينبغي تصنيف الصورة فيها. هذا بالضبط ما نتوقع حدوثه لنموذج تصنيف قوي.

نموذجنا لديه العديد من الميزات البارزة الأخرى. على سبيل المثال ، تكون قرارات نموذج التحليل التجميعي أسهل في التفسير ، حيث يمكن للمرء أن يرى بشكل مباشر الميزات التي تؤثر على النموذج نحو قرار معين. بالإضافة إلى ذلك ، يمكننا حتى استنباط بعض الحدود السفلية لقوتها.

نموذج التحليل التجميعي لا يتطابق تمامًا مع التصور الإنساني ، ولا يزال الطريق طويلًا (انظر التحليل الكامل في مخطوطنا). ومع ذلك ، نعتقد أن هذه النتائج مشجعة للغاية ونأمل أن يمهد عملنا الطريق نحو فئة جديدة من نماذج التصنيف تكون دقيقة وقوية وقابلة للتفسير. لا يزال يتعين علينا أن نتعلم الكثير عن هذه النماذج الجديدة ، وأهمها كيفية جعل الاستدلال أكثر فعالية وكيفية توسيع نطاقه إلى مجموعات بيانات أكثر تعقيدًا (مثل CIFAR أو ImageNet). نحن نعمل بجد للإجابة على هذه الأسئلة ونتطلع إلى مشاركة المزيد من النتائج معك في المستقبل.

نحو أول نموذج لشبكة عصبية قوية معاداة على MNIST

لوكاس شوت ، جوناس راوبر ، ماتياس بيث ، فيلاند بريندل
أرخايف: 1805.09190