ما مدى عمق التعلم المزيف لمقاطع الفيديو (Deepfake) وكيفية اكتشافها؟

تلفيق صور المشاهير الإباحية ليست جديدة. ومع ذلك ، في أواخر عام 2017 ، بدأ مستخدم في Reddit اسمه Deepfakes في تطبيق تعلم عميق لتصنيع مقاطع فيديو مزيفة للمشاهير. التي تبدأ موجة جديدة من أشرطة الفيديو وهمية على الانترنت. تقوم داربا ، كجزء من الجيش الأمريكي ، بتمويل الأبحاث في اكتشاف مقاطع الفيديو المزيفة. في الواقع ، بدأ تطبيق الذكاء الاصطناعي لإنشاء مقاطع الفيديو قبل تطبيق Deepfakes. يقوم Face2Face و UW "توليف أوباما (تعلم مزامنة الشفاه من الصوت)" بإنشاء مقاطع فيديو مزيفة يصعب اكتشافها. في الواقع ، فهي حقيقية لدرجة أن Jordan Peele أنشأ واحدًا أدناه لتحذير الجمهور.

في هذه المقالة ، نفسر مفهوم Deepfakes. نحدد بعض الصعوبات ونوضح طرقًا لتعريف مقاطع الفيديو المزيفة. نحن نبحث أيضًا في بحث بجامعة واشنطن في إنشاء مقاطع فيديو يمكنها مزامنة الصوت المزيف المحتمل.

مبدأ اساسي

مفهوم Deepfakes بسيط جدا. دعنا نقول أننا نريد نقل وجه الشخص A إلى مقطع فيديو للشخص B.

أولاً ، نجمع مئات أو آلاف الصور لكلا الشخصين. نحن نبني جهاز تشفير لترميز كل هذه الصور باستخدام شبكة CNN للتعلم العميق. ثم نستخدم وحدة فك الترميز لإعادة بناء الصورة. يحتوي هذا الرمز التلقائي (المشفر وفك الشفرة) على أكثر من مليون معلمة لكنه ليس قريبًا بما يكفي لتذكر كل الصور. لذا يحتاج التشفير إلى استخراج أهم الميزات لإعادة إنشاء الإدخال الأصلي. فكر في الأمر كرسم للجريمة. الميزات هي الأوصاف من شاهد (التشفير) وفنان رسم مركب (فك) يستخدم لهم لإعادة بناء صورة للمشتبه فيه.

لفك تشفير الميزات ، نستخدم وحدات فك ترميز منفصلة للشخص A والشخص B. والآن ، نقوم بتدريب وحدة فك التشفير وأجهزة فك التشفير (باستخدام backpropagation) بحيث يتطابق الإدخال بشكل وثيق مع الإخراج. هذه العملية تستغرق وقتًا طويلاً. مع بطاقة الرسومات GPU ، يستغرق حوالي 3 أيام لتوليد نتائج لائقة. (بعد تكرار معالجة الصور لنحو 10 ملايين مرة)

بعد التدريب ، نقوم بمعالجة إطار الفيديو بالإطار لمبادلة وجه شخص بآخر. باستخدام اكتشاف الوجه ، نقوم باستخراج وجه الشخص A وإدخاله في المشفر. ومع ذلك ، بدلاً من التغذية على وحدة فك الترميز الأصلية الخاصة بها ، نستخدم وحدة فك ترميز الشخص B لإعادة بناء الصورة. أي نرسم الشخص B بميزات A في الفيديو الأصلي. ثم ندمج الوجه الجديد الذي تم إنشاؤه في الصورة الأصلية.

بشكل حدسي ، يقوم المشفر باكتشاف زاوية الوجه ولون الجلد وتعبير الوجه والإضاءة وغيرها من المعلومات المهمة لإعادة بناء الشخص أ. في الصورة أدناه ، تحتوي الصورة التي أعيد بناؤها على أحرف الوجه لترامب مع الحفاظ على تعبير الوجه للفيديو المستهدف.

المصدر: Derpfakes ويكيبيديا

صورة

قبل التدريب ، نحتاج إلى إعداد آلاف الصور لكلا الشخصين. يمكننا أخذ اختصار واستخدام مكتبة اكتشاف الوجه لكشط صور الوجه من مقاطع الفيديو الخاصة بهم. اقض وقتًا كبيرًا لتحسين جودة صور وجهك. يؤثر على النتيجة النهائية بشكل كبير.

  • قم بإزالة أي إطارات صور تحتوي على أكثر من شخص واحد.
  • تأكد من أن لديك وفرة من لقطات الفيديو. استخراج صور الوجه تحتوي على بوز مختلفة ، زاوية الوجه وتعبيرات الوجه.
  • قم بإزالة أي صور ذات جودة رديئة أو ملونة أو صغيرة أو سيئة أو صور مغمورة للوجه.
  • قد يساعد بعض تشابه الشخصين ، مثل شكل الوجه المماثل.

لا نريد أن يتذكر برنامج التشفير التلقائي مدخلات التدريب وتكرار الإخراج مباشرةً. تذكر كل الاحتمالات ليست ممكنة. نحن نقدم تقليل الضوضاء لإدخال المتغيرات البيانات وتدريب التشفير التلقائي على التعلم بذكاء. المصطلح تقليل الضوضاء قد يكون مضللاً. المفهوم الرئيسي هو تشويه بعض المعلومات ، لكننا نتوقع أن يتجاهل الرمز التلقائي بذكاء هذه الحالة الشاذة البسيطة ويعيد إنشاء الأصل. على سبيل المثال ، دعونا نتذكر ما هو مهم ونتجاهل المتغيرات غير الضرورية. من خلال تكرار التدريب عدة مرات ، سوف تلغي ضوضاء المعلومات بعضها البعض وتنسى في النهاية. ما تبقى هو الأنماط الحقيقية التي نهتم بها.

في صورة الوجه لدينا ، نختار 5 × 5 نقاط شبكية ونحولها قليلاً عن مواقعها الأصلية. نحن نستخدم خوارزمية بسيطة للالتفاف على الصورة وفقًا لنقاط الشبكة التي تم تغييرها. حتى الصورة المشوّهة قد لا تبدو صحيحة تمامًا ، لكن هذا هو الضجيج الذي نريد تقديمه. ثم نستخدم خوارزمية أكثر تعقيدًا لإنشاء صورة مستهدفة باستخدام نقاط الشبكة المغيرة. نريد صورنا التي تم إنشاؤها لتبدو قريبة من الصور المستهدفة.

مثال 2 × 2 نقطة الشبكة.

يبدو غريباً ولكن ذلك يفرض على وحدة التشفير التلقائي تعلم أهم الميزات.

للتعامل مع مختلف الأشكال وزوايا الوجه والمواقع بشكل أفضل ، نطبق أيضًا تكبير الصورة لإثراء بيانات التدريب. أثناء التدريب ، نقوم بتدوير صورة الوجه لدينا وتكبيرها / تصغيرها وترجمتها وقلبها بشكل عشوائي ضمن نطاق معين.

نموذج الشبكة العميقة

دعنا نأخذ استراحة قصيرة لتوضيح كيف يمكن أن يكون جهاز التشفير التلقائي. (هناك حاجة إلى بعض المعرفة الأساسية بشبكة CNN هنا.) يتألف المشفر من 5 طبقات ملتوية لاستخراج الميزات متبوعًا بطبقتين كثيفتين. ثم يستخدم طبقة الالتواء لتكبير الصورة. يواصل وحدة فك الترميز عملية الاختزال بأربع طبقات أخرى من الالتواء حتى تعيد بناء صورة 64 × 64 مرة أخرى.

لإعادة تشكيل البعد المكاني لنقول من 16 × 16 إلى 32 × 32 ، نستخدم مرشح الالتواء (مرشح 3 × 3 × 256 × 512) لتعيين الطبقة (16 ، 16 ، 256) إلى (16 ، 16 ، 512) . ثم نقوم بإعادة تشكيلها إلى (32 ، 32 ، 128).

مشاكل

لا تحمس للغاية. إذا كنت تستخدم تطبيقًا سيئًا ، أو لم يتم تكوين تهيئة سيئة أو الطراز الخاص بك بشكل صحيح ، فستحصل على نتيجة الفيديو التالي بدلاً من ذلك. (تحقق من الثواني القليلة الأولى. قمت بتمييز الفيديو في حوالي 3:37 بالفعل.)

منطقة الوجه هي عبها ، طمس مع لون النزيف. وهناك صناديق واضحة حول الوجه. يبدو أن الناس يلصقون الصور على وجهه بالقوة الغاشمة. يتم فهم هذه المشكلات بسهولة إذا شرحنا كيفية تبديل الوجه يدويًا.

نبدأ مع صورتين (1 و 2) لامرأتين. في الصورة 4 ، نحاول لصق الوجه من 1 إلى 2. ندرك أن وجههم مختلف تمامًا وأن فاصل الوجه (المستطيل الأحمر) كبير جدًا. يبدو أن شخصًا ما وضع قناعًا ورقيًا عليها. الآن ، دعونا نحاول لصق الوجه 2 على 1 بدلاً من ذلك. في الصورة 3 ، نستخدم انقطاع أصغر. نقوم بإنشاء قناع يزيل بعض مناطق الزاوية بحيث يمكن للقص أن يمتزج بشكل أفضل. ليست كبيرة ولكن بالتأكيد أفضل من 4. ولكن هناك تغيير مفاجئ في لون البشرة حول المنطقة الحدودية. في الصورة 5 ، نقوم بتقليل عتامة القناع حول الحدود بحيث يمكن خلط الوجه الذي تم إنشاؤه بشكل أفضل. لكن نغمة اللون وسطوع الفصل لا يزال غير متطابق مع الهدف. لذلك في الصورة 6 ، نقوم بضبط درجة اللون وسطوع اللقطة لتتناسب مع هدفنا. انها ليست جيدة بما فيه الكفاية ولكن ليس سيئا لجهدنا الصغير.

في Deepfakes ، يقوم بإنشاء قناع على الوجه الذي تم إنشاؤه حتى يتمكن من المزج مع الفيديو الهدف. لمزيد من القضاء على القطع الأثرية ، يمكننا

  • تطبيق مرشح غاوسي لنشر مزيد من المنطقة الحدودية للقناع ،
  • قم بتكوين التطبيق لتوسيع أو تقليص القناع بشكل إضافي ، أو
  • السيطرة على شكل القناع.

إذا نظرت إلى مقطع فيديو مزيف ، فقد تلاحظ الذقن المزدوجة أو حواف الأشباح حول الوجه. هذا هو التأثير الجانبي لدمج صورتين معًا باستخدام قناع. حتى القناع يحسن الجودة ، فهناك ثمن يدفعه. على وجه الخصوص ، معظم مقاطع الفيديو المزيفة التي أراها ، يكون الوجه مدفونًا مقارنة بالأجزاء الأخرى من الصورة. لموازنة ذلك ، يمكننا تكوين Deepfakes لتطبيق مرشح حاد على الوجه الذي تم إنشاؤه قبل المزج. هذه هي عملية التجربة والخطأ لإيجاد التوازن الصحيح بين القطع الأثرية والحدة. من الواضح ، في معظم الوقت ، نحتاج إلى إنشاء صور طفيفة لإزالة التحف الملحوظة.

حتى وحدة التشفير التلقائي يجب أن تنشئ وجوهًا لتتناسب مع لون اللون المستهدف ، وأحيانًا تحتاج إلى مساعدة. يوفر Deepfakes معالجة النشر لضبط لون اللون والتباين والسطوع للوجه الذي تم إنشاؤه لمطابقة الفيديو المستهدف. يمكننا أيضًا تطبيق الاستنساخ السلس cv2 لمزج الصورة التي تم إنشاؤها مع الصورة المستهدفة باستخدام الضبط التلقائي للنغمات. ومع ذلك ، فإن بعض هذه الجهود يمكن أن تأتي بنتائج عكسية. يمكننا أن نجعل إطار معين يبدو رائعا. ولكن إذا قمنا بالإفراط في ذلك ، فقد يؤذي السلاسة الزمنية عبر الإطارات. في الواقع ، استنساخ سلس في Deepfakes هو سبب رئيسي محتمل للالوميض. لذا ، غالبًا ما يقوم الناس بإيقاف تشغيل السلس لمعرفة ما إذا كان من الممكن تقليل التدفق.

مصدر رئيسي آخر للوميض هو فشل الرمز التلقائي في إنشاء الوجوه المناسبة. لهذا ، نحتاج إلى إضافة المزيد من الصور المتنوعة لتدريب النموذج بشكل أفضل أو زيادة تكبير البيانات. في النهاية ، قد نحتاج إلى تدريب النموذج لفترة أطول. في الحالات التي يتعذر فيها إنشاء الوجه المناسب لبعض إطارات الفيديو ، فإننا نتخطى إطارات المشكلة ونستخدم الاستيفاء لإعادة إنشاء الإطارات المحذوفة.

معالم

يمكننا أيضًا تشويه وجهنا المُنشأ وفقًا لمعالم الوجه في الإطار الهدف الأصلي.

هذه هي الطريقة التي تشوه بها روغ وان الأميرة ليا الصغرى على ممثلة أخرى.

مصدر

قناع أفضل

في جهدنا السابق ، تم تكوين قناعنا مسبقًا. يمكننا القيام بعمل أفضل بكثير إذا كان قناعنا مرتبطًا بالصورة المدخلة والوجه الذي تم إنشاؤه.

دعنا نقدم شبكات الخصومات العامة (GAN).

GAN

في GAN ، نقدم أداة تمييز شبكة عميقة (مصنف CNN) لتمييز ما إذا كانت صور الوجه أصلية أم تم إنشاؤها بواسطة الكمبيوتر. عندما نقوم بإطعام صور حقيقية لهذا المميّز ، فإننا ندرب المميّز نفسه على التعرف على الصور الحقيقية بشكل أفضل. عندما نقوم بتغذية الصور التي تم إنشاؤها في أداة التمييز ، فإننا نستخدمها لتدريب جهاز التشفير التلقائي لإنشاء صور أكثر واقعية. نحول هذا إلى سباق لا يمكن تمييز الصور التي تم إنشاؤها في النهاية عن الصور الحقيقية.

في إضافية ، وحدة فك الترميز الخاصة بنا تنشئ صورًا وكذلك أقنعة. نظرًا لتعلم هذه الأقنعة من بيانات التدريب ، يمكنها إخفاء الصورة بشكل أفضل وإنشاء انتقال أكثر سلاسة إلى الصورة المستهدفة. أيضا ، فإنه يتعامل مع وجه مسدود جزئيا أفضل. في مقاطع الفيديو المزيفة ، عندما يتم حظر الوجه جزئيًا بيد ، قد ينقلب الفيديو أو يدفن. باستخدام قناع أفضل ، يمكننا إخفاء المنطقة المعوقة في الوجه المُنشأ واستخدام الجزء الموجود في الصورة المستهدفة بدلاً من ذلك.

على الرغم من أن GAN قوية ، إلا أنها تستغرق وقتًا طويلاً للغاية في التدريب وتتطلب مستوى أعلى من الخبرة لجعلها صحيحة. لذلك ، ليست شعبية كما ينبغي.

فقدان وظيفة

إلى جانب تكلفة إعادة الإعمار ، يضيف GAN تكلفة المولد والتمييز لتدريب النموذج. في الواقع ، يمكننا إضافة وظائف فقدان الإضافة لإكمال نموذجنا. واحدة مشتركة واحدة هي تكلفة الحافة التي تقيس ما إذا كانت الصورة المستهدفة والصورة التي تم إنشاؤها لها نفس الحافة في نفس الموقع. بعض الناس ينظرون أيضا إلى فقدان الإدراك الحسي. تكلفة إعادة الإعمار تقيس الفرق بكسل بين الصورة الهدف والصورة التي تم إنشاؤها. ومع ذلك ، قد لا يكون هذا مقياسًا جيدًا في قياس كيفية إدراك أدمغتنا للأشياء. لذلك ، قد يستخدم بعض الأشخاص فقدان الإدراك لاستبدال فقدان إعادة البناء الأصلي. هذا تقدم كبير لذا سأترك لهؤلاء المتحمسين لقراءة الورقة في قسم المراجع بدلاً من ذلك. يمكنك إجراء مزيد من التحليل للأداء السيء لمقاطع الفيديو الخاصة بك وإدخال وظيفة تكلفة جديدة لمعالجة المشكلة.

برهنة

اسمح لي باختيار بعض مقاطع الفيديو Deepfakes الجيدة ومعرفة ما إذا كان يمكنك اكتشافها الآن. العبها بحركة بطيئة وانتبه بشكل خاص إلى

  • لا طمس مقارنة مع غيرها من المناطق غير الوجه من الفيديو؟
  • هل نفض الغبار؟
  • هل لديها تغيير في لون البشرة بالقرب من حافة الوجه؟
  • هل يحتوي على ذقن مزدوج ، حواجب مزدوجة ، حواف مزدوجة على الوجه؟
  • عندما يكون الوجه مسدودًا جزئياً بالأيدي أو بأشياء أخرى ، هل ينقلب أو يختلط اللون؟

في إنشاء مقاطع فيديو مزيفة ، نطبق وظائف خسارة مختلفة لإنشاء مقاطع فيديو ممتعة بصرية. كما هو موضح في الصور المزيفة لترامب ، تبدو ملامح وجهه قريبة من المظهر الحقيقي لكنها تتغير إذا نظرت عن قرب. لذلك ، في رأيي ، إذا قمنا بتغذية الفيديو المستهدف في مصنف لتحديده ، فهناك فرصة جيدة لفشله. بالإضافة إلى ذلك ، يمكننا كتابة البرامج للتحقق من النعومة الزمنية. نظرًا لأننا نقوم بإنشاء الوجوه بشكل مستقل عبر الإطارات ، يجب أن نتوقع أن يكون الانتقال أقل سلاسة مقارنةً بمقطع فيديو حقيقي.

مزامنة الشفاه من الصوت

يعد مقطع الفيديو الذي أعده Jordan Peele من أصعب مقطع الفيديو الذي تم تعريفه على أنه مزيف. ولكن بمجرد النظر عن كثب ، فإن الشفة السفلية لأوباما تصبح أكثر ضبابية مقارنة بالأجزاء الأخرى من الوجه. لذلك ، بدلاً من تبديل الوجه ، أظن أن هذا هو شريط فيديو حقيقي لأوباما ، لكن الفم ملفق لتشفير المزامنة بصوت مزيف.

بالنسبة لبقية هذا القسم ، سنناقش تقنية مزامنة الشفاه التي تمت في جامعة واشنطن (UW). يوجد أدناه سير عمل ورقة مزامنة الشفاه. فإنه يستبدل صوت عنوان رئاسي أسبوعي مع صوت آخر (إدخال الصوت). في هذه العملية ، نعيد تخليق الفم ومنطقة الذقن بحيث تكون حركتها متزامنة مع الصوت المزيف.

مصدر

أولاً ، باستخدام شبكة LSTM ، يتم تحويل الصوت x إلى سلسلة من 18 نقطة بارزة y في الشفة. هذا LSTM إخراج شكل فم متفرق لكل إطار إخراج الفيديو.

تعديل من المصدر

بالنظر إلى شكل الفم y ، فإنه يجمع نسيج الفم للفم ومنطقة الذقن. يتم بعد ذلك إنشاء قوام الفم باستخدام الفيديو المستهدف لإعادة إنشاء الإطار الهدف:

مصدر

إذا كيف يمكننا خلق نسيج الفم؟ نريد أن تبدو حقيقية ولكن لديها أيضًا نعومة زمنية. لذلك يبحث التطبيق على مقاطع الفيديو المستهدفة للبحث عن إطارات المرشحين التي لها نفس شكل الفم المحسوب مثل ما نريد. ثم نقوم بدمج المرشحين معًا باستخدام دالة وسيطة. كما هو موضح أدناه ، إذا استخدمنا المزيد من الإطارات المرشحة للقيام بعملية حساب المتوسط ​​، فإن الصورة تصبح غير واضحة بينما تتحسن النعومة الزمنية (لا تقلب). من ناحية أخرى ، يمكن أن تكون الصورة أقل دفنًا ولكن قد نرى التحريك عند الانتقال من إطار إلى آخر.

مصدر

لتعويض الضبابية ، يتم إجراء تحسين الأسنان وشحذها. ولكن من الواضح أن الحدة لا يمكن استعادتها بالكامل للشفاه السفلية.

مصدر

أخيرًا ، نحتاج إلى إعادة ضبط الإطار حتى نعرف مكان إدخال نسيج الفم المزيف. هذا يساعدنا على المزامنة مع حركة الرأس. على وجه الخصوص ، عادةً ما يتوقف رئيس أوباما عن الحركة عندما يوقف حديثه.

الصف العلوي أدناه هو إطارات الفيديو الأصلية للصوت المدخلات التي استخدمناها. نضيف هذا الصوت المدخلات إلى الفيديو المستهدف لدينا (الصف الثاني). عند مقارنتها جنبًا إلى جنب ، ندرك أن حركة الفم من الفيديو الأصلي قريبة جدًا من حركة الفم الملفقة.

مصدر

يستخدم UW الإطارات الحالية لإنشاء نسيج الفم. بدلاً من ذلك ، يمكننا استخدام مفهوم Deepfakes لإنشاء نسيج الفم مباشرةً من جهاز التشفير التلقائي. نحتاج إلى جمع آلاف الإطارات واستخدام LSTM لاستخراج الميزات من كل من الفيديو والصوت. ثم يمكننا تدريب وحدة فك الترميز لإنشاء نسيج الفم.

المزيد من الأفكار

من المثير للاهتمام بشكل خاص أن نرى كيف نطبق مفاهيم الذكاء الاصطناعي لخلق أفكار جديدة ومنتجات جديدة ، ولكن ليس من دون سابق إنذار! الآثار الاجتماعية يمكن أن تكون ضخمة. في الواقع ، لا تنشر أي مقاطع فيديو وهمية للمتعة! يمكن أن تحصل في متاعب قانونية ويضر سمعتك عبر الإنترنت. أنا أنظر إلى هذا الموضوع بسبب اهتمامي بالتعلم الفوقي واكتشافات الخصم. أفضل استخدام الطاقة الخاصة بك لأشياء أكثر ابتكارا. من ناحية أخرى ، سيبقى الفيديو المزيف وسيتم تحسينه. ليس غرضي إنشاء مقاطع فيديو مزيفة بشكل أفضل. من خلال هذه العملية ، آمل أن نعرف كيفية تطبيق GAN بشكل أفضل لإعادة بناء الصورة. ربما يومًا ما ، قد يكون هذا مفيدًا في نهاية المطاف في اكتشاف الأورام.

كإجراء وقائي آخر ، احذر من التطبيقات التي تقوم بتنزيلها لإنشاء مقاطع فيديو Deepfakes. هناك تقارير تفيد بأن بعض التطبيقات تختطف أجهزة الكمبيوتر لاستخراج العملة المشفرة. فقط كن حذرا.

قائمة المواد الأخرى

مرجع

توليف أوباما: تعلم الشفاه سينك من الصوت

استنساخ سلس

خسائر الإدراك الحسي

قروض

اعتمادات الصورة (وشاح الرأس ، امرأة)