كيفية تطبيق التعلم المعزز على مشاكل تخطيط الحياة الحقيقية

لقد قمت مؤخرًا بنشر بعض الأمثلة التي قمت فيها بإنشاء نماذج التعلم من أجل تعزيز بعض مشكلات الحياة الحقيقية. على سبيل المثال ، استخدام تعزيز التعلم لتخطيط الوجبات استنادًا إلى تعيين ميزانية وتفضيلات شخصية.

يمكن استخدام التعلم المعزز بهذه الطريقة لمجموعة متنوعة من مشاكل التخطيط بما في ذلك خطط السفر وتخطيط الميزانية واستراتيجية العمل. تتمثل ميزتان استخدام RL في أنه يأخذ في الاعتبار احتمال النتائج ويسمح لنا بالتحكم في أجزاء من البيئة. لذلك ، قررت أن أكتب مثالًا بسيطًا حتى يتمكن الآخرون من التفكير في كيفية البدء في استخدامه لحل بعض مشكلاتهم اليومية أو العمل.

ما هو التعلم التعزيز؟

تعلم التعزيز (RL) هو عملية اختبار الإجراءات المناسبة لكل حالة بيئة عن طريق التجربة والخطأ بشكل أساسي. يقدم النموذج سياسة عشوائية للبدء ، وفي كل مرة يتم فيها اتخاذ إجراء ، يتم تغذية المبلغ الأولي (المعروف باسم المكافأة) بالنموذج. يستمر هذا حتى يتم الوصول إلى الهدف النهائي ، على سبيل المثال تربح أو تخسر اللعبة ، حيث ينتهي هذا التشغيل (أو الحلقة) وتعيد ضبط اللعبة.

مع مرور النموذج بالعديد والكثير من الحلقات ، يبدأ في معرفة الإجراءات التي من المرجح أن تقودنا إلى نتيجة إيجابية. لذلك يجد أفضل الإجراءات في أي حالة معينة ، والمعروفة باسم السياسة المثلى.

تعزيز التعلم العملية العامة

تقوم العديد من تطبيقات RL بتدريب نماذج عبر الإنترنت على لعبة أو بيئة افتراضية حيث يمكن للنموذج التفاعل مع البيئة بشكل متكرر. على سبيل المثال ، يمكنك السماح للنموذج بلعب محاكاة التشنج اللاإرادي مرارًا وتكرارًا بحيث يلاحظ النجاح والفشل في تجربة حركات مختلفة.

في الحياة الواقعية ، من المحتمل ألا نتمكن من تدريب نموذجنا بهذه الطريقة. على سبيل المثال ، يحتاج نظام التوصية في التسوق عبر الإنترنت إلى تعليقات شخص ما لإخبارنا بما إذا كان قد نجح أم لا ، وهذا محدود في توفره استنادًا إلى عدد المستخدمين الذين يتفاعلون مع موقع التسوق.

بدلاً من ذلك ، قد يكون لدينا بيانات نموذجية توضح اتجاهات التسوق خلال فترة زمنية يمكننا استخدامها لإنشاء الاحتمالات المقدرة. باستخدام هذه ، يمكننا إنشاء ما يعرف باسم عملية قرار Markov المرصودة جزئيًا (POMDP) ​​كوسيلة لتعميم توزيع الاحتمالات الأساسي.

عمليات قرار ماركوف المرصودة جزئيا (POMDPs)

توفر عمليات اتخاذ القرار في Markov إطارًا لنمذجة عملية صنع القرار في الحالات التي تكون فيها النتائج عشوائية جزئيًا وجزئيًا تحت سيطرة صانع القرار. الميزة الرئيسية لل MDPs هي أنها تتبع خاصية Markov ؛ جميع دول المستقبل مستقلة عن الماضي بالنظر إلى الحاضر. بمعنى آخر ، فإن احتمال الانتقال إلى الحالة التالية يعتمد فقط على الحالة الحالية.

تعمل POMDPs بشكل مشابه إلا أنها تعميم MDPs. باختصار ، هذا يعني أن النموذج لا يمكن أن يتفاعل ببساطة مع البيئة ولكن يتم بدلاً من ذلك توزيع توزيع الاحتمالات المحدد بناءً على ما لاحظناه. مزيد من المعلومات يمكن العثور عليها هنا. يمكننا استخدام أساليب تكرار القيمة على POMDP لدينا ، لكن بدلاً من ذلك قررت استخدام Monte Carlo Learning في هذا المثال.

مثال البيئة

تخيل أنك عدت إلى المدرسة (أو ربما لا تزال) وأنت في الفصل الدراسي ، لدى المعلم سياسة صارمة بشأن النفايات الورقية ويتطلب أن يتم تمرير أي قطعة من ورق الخردة إليه في مقدمة الفصل الدراسي وسيقوم بوضعها النفايات في سلة المهملات.

ومع ذلك ، فإن بعض الطلاب في الفصل لا يهتمون بقواعد المعلم ويفضلون أن ينقذوا أنفسهم عناء تمرير الورقة حول الفصل. بدلاً من ذلك ، قد يختار هؤلاء الأفراد المزعجون رمي ورقة الخردة في الصندوق من مسافة بعيدة. الآن هذا يغضب المعلم وتلك التي تفعل ذلك يعاقبون.

يقدم هذا مفهومًا أساسيًا لمكافأة العمل ، ولدينا بيئة نموذجية للفصول الدراسية كما هو موضح في الرسم البياني التالي.

هدفنا هو العثور على أفضل الإرشادات لكل شخص بحيث تصل الورقة إلى المعلم وتوضع في الحاوية وتتجنب إلقاؤها في الحاوية.

الدول والإجراءات

في بيئتنا ، يمكن اعتبار كل شخص حالة ولديه مجموعة متنوعة من الإجراءات التي يمكن اتخاذها مع ورقة الخردة. قد يختارون تمريرها إلى رفيق مجاور ، أو التمسك بها أو قد يختار البعض رميها في سلة المهملات. وبالتالي ، يمكننا تعيين بيئتنا إلى تخطيط شبكة قياسي أكثر كما هو موضح أدناه.

تم تصميم هذا الغرض بحيث يكون لكل شخص أو ولاية أربعة إجراءات: للأعلى أو للأسفل أو لليسار أو لليمين وسيكون لكل منها نتيجة "حياة حقيقية" متنوعة بناءً على من قام بالإجراء. يشير الإجراء الذي يضع الشخص إلى الحائط (بما في ذلك الكتلة السوداء في المنتصف) إلى أن الشخص يتمسك بالورق. في بعض الحالات ، يتم تكرار هذا الإجراء ، ولكنه ليس مشكلة في مثالنا.

على سبيل المثال ، تؤدي تصرفات الشخص أ إلى:

  • يصل = رمي في بن
  • أسفل = التمسك ورقة
  • يسار = مرر إلى الشخص ب
  • اليمين = امسك على الورق

البيئة الاحتمالية

في الوقت الحالي ، نحن صانع القرار الذي يتحكم جزئياً في البيئة هو نحن. سنخبر كل شخص بالإجراء الذي يجب عليهم اتخاذه. هذا هو المعروف باسم السياسة.

التحدي الأول الذي أواجهه في تعليمي هو فهم أن البيئة من المحتمل أن تكون احتمالية وماذا يعني ذلك. البيئة الاحتمالية هي عندما نطلب من إحدى الدول اتخاذ إجراء بموجب سياستنا ، فهناك احتمال مرتبط بما إذا كان قد تم اتباع ذلك بنجاح. بمعنى آخر ، إذا أخبرنا الشخص أ بتمرير الورقة إلى الشخص ب ، فيمكنهم أن يقرروا عدم اتباع الإجراء الموضح في سياستنا ورمي ورقة الخردة بدلاً من ذلك في الحاوية.

مثال آخر هو إذا كنا نوصي بمنتجات التسوق عبر الإنترنت ، فلا يوجد ضمان بأن الشخص سوف يشاهد كل منها.

الاحتمالات الانتقالية الملحوظة

للعثور على الاحتمالات الانتقالية المرصودة ، نحتاج إلى جمع بعض عينات البيانات حول كيفية تصرف البيئة. قبل أن نجمع المعلومات ، نقدم أولاً سياسة مبدئية. لبدء العملية ، اخترت بشكل عشوائي عملية تبدو وكأنها ستؤدي إلى نتيجة إيجابية.

نلاحظ الآن الإجراءات التي يتخذها كل شخص في ضوء هذه السياسة. بمعنى آخر ، قل أننا جلسنا في الجزء الخلفي من الفصل الدراسي ولاحظنا ببساطة الفصل ولاحظنا النتائج التالية للشخص A:

تصرفات الشخص أ

نرى أن ورقة مرت عبر هذا الشخص 20 مرة ؛ احتفظوا به 6 مرات ، و 8 مرات نقلوه إلى الشخص ب ، و 6 مرات أخرى ألقوا به في سلة المهملات. هذا يعني أنه بموجب سياستنا الأولية ، فإن احتمال الاحتفاظ بها أو رميها في سلة المهملات لهذا الشخص هو 6/20 = 0.3 ، وبالمثل 8/20 = 0.4 للانتقال إلى الشخص ب. يمكننا ملاحظة بقية الفصل ل اجمع بيانات العينات التالية:

لوحظ نتائج الحياة الحقيقية

وبالمثل ، نقوم بعد ذلك بحساب الاحتمالات لتكون المصفوفة التالية ويمكننا استخدامها لمحاكاة التجربة. تعتمد دقة هذا النموذج إلى حد كبير على ما إذا كانت الاحتمالات تمثل تمثيلات حقيقية للبيئة بأكملها. بمعنى آخر ، نحتاج إلى التأكد من أن لدينا عينة كبيرة وغنية بالقدر الكافي في البيانات.

وظيفة احتمالية الانتقال المرصودة

اللصوص متعددة المسلحين ، الحلقات ، المكافآت ، معدل العائد والخصم

لذلك لدينا احتمالات الانتقال لدينا المقدرة من بيانات العينة تحت POMDP. الخطوة التالية ، قبل أن نقدم أي نماذج ، هي تقديم المكافآت. حتى الآن ، ناقشنا فقط نتيجة الخطوة الأخيرة ؛ إما أن يتم وضع الورقة في سلة من قبل المعلم والشباك مكافأة إيجابية أو يتم إلقاؤها بواسطة A أو M وشبكات مكافآت سلبية. تعرف هذه المكافأة النهائية التي تنتهي بالحلقة باسم "المكافأة النهائية".

ولكن ، هناك أيضًا نتيجة ثالثة أقل من مثالية أيضًا ؛ يتم تمرير الورق باستمرار ولا يصل (أو يستغرق وقتًا أطول مما نريد) إلى الصندوق. لذلك ، باختصار لدينا ثلاث نتائج نهائية

  • يتم وضع الورق في سلة من قبل المدرس والشبكات مكافأة نهائية إيجابية
  • يتم إلقاء الورق في صندوق من قبل طالب وشباك مكافأة نهائية سلبية
  • يتم تمرير الورق باستمرار في جميع أنحاء الغرفة أو يتم تعليقه على الطلاب لفترة زمنية أطول مما نود

لتجنب إلقاء الورقة في الحاوية ، فإننا نوفر ذلك مكافأة كبيرة سلبية ، قل -1 ، ولأن المعلم مسرور من وضعها في الحاوية ، فإن هذه الشباك تحصل على مكافأة إيجابية كبيرة ، +1. لتجنب النتيجة حيث يتم تمريرها باستمرار في جميع أنحاء الغرفة ، وضعنا المكافأة لجميع الإجراءات الأخرى لتكون قيمة صغيرة سلبية ، قل -0.04.

إذا حددنا هذا كرقم موجب أو خالي ، فإن النموذج قد يترك الورقة تدور وتدور حيث سيكون من الأفضل الحصول على إيجابيات صغيرة بدلاً من المخاطرة بالاقتراب من النتيجة السلبية. هذا الرقم صغير جدًا أيضًا لأنه سيجمع مكافأة طرفية واحدة فقط ، لكن قد يستغرق الأمر العديد من الخطوات لإنهاء الحلقة ، وعلينا التأكد من أنه إذا تم وضع الورقة في الحاوية ، فلن يتم إلغاء النتيجة الإيجابية.

يرجى ملاحظة: المكافآت هي دائما نسبة إلى بعضها البعض ولقد اخترت الشخصيات التعسفية ، ولكن يمكن تغييرها إذا كانت النتائج ليست كما هو مطلوب.

على الرغم من أننا ناقشنا عن غير قصد الحلقات في المثال ، إلا أننا لم نحددها رسميًا بعد. الحلقة هي ببساطة الإجراءات التي تتخذها كل ورقة من خلال الفصل الدراسي الذي يصل إلى سلة المحذوفات ، وهي الحالة النهائية وتنتهي الحلقة. في أمثلة أخرى ، مثل لعب tic-tac-toe ، ستكون هذه نهاية لعبة حيث تربح أو تخسر.

يمكن أن تبدأ الورقة من الناحية النظرية في أي حالة ، وهذا يقدم سبب حاجتنا إلى عدد كاف من الحلقات للتأكد من أن كل حالة وكل إجراء يتم اختباره بشكل كافٍ بحيث لا يتم تحريك نتائجنا بنتائج غير صالحة. ومع ذلك ، على الجانب الآخر ، فكلما زاد عدد الحلقات التي نقدمها كلما زاد وقت الحساب ، وبناءً على حجم البيئة ، قد لا تتوفر لدينا موارد غير محدودة للقيام بذلك.

هذا هو المعروف باسم مشكلة العصابات المسلحة المتعددة. مع وقت محدود (أو موارد أخرى) ، نحتاج إلى التأكد من أننا نختبر كل زوج من إجراءات الحالة بما يكفي بحيث تكون الإجراءات المحددة في سياستنا هي الأفضل في الواقع. بعبارة أخرى ، نحن بحاجة إلى التحقق من أن الإجراءات التي أدت بنا إلى نتائج جيدة في الماضي ليست محظوظًا بل هي في الحقيقة في الاختيار الصحيح ، وكذلك بالنسبة للإجراءات التي تبدو سيئة. في مثالنا ، قد يبدو هذا بسيطًا مع قلة عدد الدول التي لدينا ، ولكن تخيل ما إذا كنا قد قمنا بزيادة الحجم وكيف أصبح هذا الأمر مشكلة أكثر فأكثر.

الهدف العام لنموذجنا هو تحديد الإجراءات التي تزيد المكافآت التراكمية المتوقعة ، والمعروفة باسم العائد. بمعنى آخر ، العائد هو ببساطة المكافأة الكلية التي تم الحصول عليها للحلقة. هناك طريقة بسيطة لحساب ذلك تتمثل في إضافة جميع المكافآت ، بما في ذلك المكافأة النهائية ، في كل حلقة.

تتمثل الطريقة الأكثر صرامة في اعتبار الخطوات الأولى أكثر أهمية من الخطوات الأحدث في الحلقة من خلال تطبيق عامل خصم ، gamma ، في الصيغة التالية:

بعبارة أخرى ، نلخص كل المكافآت ، لكننا نضع في الاعتبار الخطوات اللاحقة بعامل غاما لقوة عدد الخطوات التي اتخذتها للوصول إليها.

إذا فكرنا في مثالنا ، فإن استخدام عائد مخفض يصبح أكثر وضوحًا لتخيله لأن المعلم سوف يكافئ (أو يعاقب وفقًا لذلك) أي شخص متورط في هذه الحلقة ، ولكنه سيحدد ذلك استنادًا إلى مدى بعدهم عن النتيجة النهائية.

على سبيل المثال ، إذا كانت الورقة قد انتقلت من A إلى B إلى M الذين ألقوا بها في الحاوية ، فيجب أن تعاقب M بشدة ، ثم B لتمريرها إليه وأخيرًا الشخص A الذي لا يزال مشاركًا في النتيجة النهائية ولكن أقل من M أو ب. يؤكد هذا أيضًا على أنه كلما طال الوقت (بناءً على عدد الخطوات) للبدء في حالة ما والوصول إلى الصندوق ، سيتم إما المكافأة أو العقوبة ، ولكن سيتم تجميع مكافآت سلبية لاتخاذ المزيد من الخطوات.

تطبيق نموذج على مثالنا

نظرًا لأن بيئة المثال لدينا صغيرة ، فيمكننا تطبيق كل منها وإظهار بعض الحسابات التي يتم تنفيذها يدويًا وتوضيح تأثير تغيير المعلمات.

لأي خوارزمية ، نحتاج أولاً إلى تهيئة دالة قيمة الحالة ، V (s) ، وقررنا تعيين كل منها على 0 كما هو موضح أدناه.

بعد ذلك ، تركنا النموذج يحاكي التجربة على البيئة بناءً على توزيع الاحتمالات الملحوظ. يبدأ النموذج قطعة من الورق في حالات عشوائية وتستند نتائج كل إجراء بموجب سياستنا إلى الاحتمالات الملحوظة لدينا. لذلك ، على سبيل المثال ، قل لدينا الحلقات الثلاثة الأولى المحاكاة لتكون التالية:

باستخدام هذه الحلقات ، يمكننا حساب تحديثاتنا القليلة الأولى لوظيفة قيمة الحالة لدينا باستخدام كل من النماذج الثلاثة المقدمة. في الوقت الحالي ، نختار قيم ألفا وغاما العشوائية لتكون 0.5 لجعل حساباتنا اليدوية أكثر بساطة. سنبين لاحقًا تأثير هذا المتغير على النتائج.

أولاً ، نطبق الفارق الزمني 0 ، وأبسط نماذجنا وتحديثات القيمة الثلاثة الأولى هي كما يلي:

فكيف تم حساب هذه؟ حسنًا ، لأن مثالنا صغير ، يمكننا إظهار الحسابات يدويًا.

إذن ما الذي يمكن أن نلاحظه في هذه المرحلة المبكرة؟ أولاً ، يبدو استخدام TD (0) غير عادل لبعض الولايات ، على سبيل المثال الشخص D ، الذي ، في هذه المرحلة ، لم يربح شيئًا من الورق الذي وصل إلى الحاوية مرتين من ثلاث مرات. لقد تأثر تحديثهم فقط بقيمة المرحلة التالية ، لكن هذا يؤكد على كيفية انتشار المكافآت الإيجابية والسلبية للخارج من الزاوية باتجاه الولايات.

بينما نأخذ المزيد من الحلقات ، ستنتشر المكافآت النهائية الإيجابية والسلبية أكثر فأكثر في جميع الولايات. يظهر هذا في الرسم البياني أدناه تقريبًا حيث يمكننا أن نرى أن الحالتين اللتين نتج عنهما نتيجة إيجابية تؤثر على قيمة حالات المدرسين والمدرسين بينما عوقبت الحلقة السلبية المفردة الشخص م.

لإظهار ذلك ، يمكننا تجربة المزيد من الحلقات. إذا كررنا المسارات الثلاثة نفسها التي سبق تقديمها ، فإننا ننتج دالة قيمة الحالة التالية:

(يرجى ملاحظة ، لقد كررنا هذه الحلقات الثلاث للبساطة في هذا المثال ، ولكن النموذج الفعلي سيكون به حلقات حيث تستند النتائج إلى وظيفة احتمالية الانتقال الملحوظة.)

يُظهر الرسم البياني أعلاه المكافآت الطرفية التي تنتشر إلى الخارج من الزاوية اليمنى العليا إلى الولايات. من هذا ، قد نقرر تحديث سياستنا لأنه من الواضح أن المكافأة النهائية السلبية تمر عبر الشخص M وبالتالي فإن B و C تتأثر سلبًا. لذلك ، استنادًا إلى الإصدار 27 ، بالنسبة لكل ولاية ، قد نقرر تحديث سياستنا من خلال تحديد أفضل قيمة حالة التالية لكل ولاية كما هو موضح في الشكل أدناه

يوجد سببان للقلق في هذا المثال: الأول هو أن الإجراء الأفضل لهذا الشخص هو رميه في الصندوق والحصول على مكافأة سلبية. وذلك لأن أيا من الحلقات زار هذا الشخص ويؤكد مشكلة العصابات المسلحة المتعددة. في هذا المثال الصغير ، يوجد عدد قليل جدًا من الولايات ، لذا سيتطلب الأمر العديد من الحلقات لزيارتها جميعًا ، لكننا نحتاج إلى التأكد من القيام بذلك.

السبب في أن هذا الإجراء أفضل بالنسبة لهذا الشخص لأنه لا يوجد أي من الحالات الطرفية له قيمة ولكن النتائج الإيجابية والسلبية هي في المكافآت النهائية. يمكننا حينئذٍ ، إذا تطلب وضعنا ذلك ، تهيئة V0 بأرقام للحالات الطرفية بناءً على النتائج.

ثانياً ، تتقلب قيمة حالة الشخص M ذهابًا وإيابًا بين -0.03 و -0.51 (تقريبًا) بعد الحلقات ونحتاج إلى معالجة سبب حدوث ذلك. يحدث هذا بسبب معدل التعلم لدينا ، ألفا. في الوقت الحالي ، قدمنا ​​فقط معلماتنا (معدل التعلم ألفا وجاما معدل الخصم) ولكننا لم نوضح بالتفصيل كيف ستؤثر على النتائج.

قد يتسبب معدل التعلم الكبير في تأرجح النتائج ، ولكن على العكس من ذلك ، يجب ألا يكون صغيراً بحيث يتطلب التقارب إلى الأبد. يظهر هذا بشكل أكبر في الشكل أدناه الذي يوضح إجمالي V (s) لكل حلقة ، ويمكننا أن نرى بوضوح كيف ، على الرغم من وجود اتجاه عام متزايد ، فإنه يتحول جيئة وذهابا بين الحلقات. التفسير الجيد الآخر لمعدل التعلم هو كما يلي:

في لعبة الجولف عندما تكون الكرة بعيدة عن الحفرة ، يصعب اللاعب عليها أن تقرب من الحفرة قدر الإمكان. في وقت لاحق عندما يصل إلى المنطقة التي ترفع العلم ، يختار عصا مختلفة للحصول على لقطة قصيرة دقيقة.

لذلك لا يعني أنه لن يتمكن من وضع الكرة في الحفرة دون اختيار عصا الرماية القصيرة ، فقد يرسل الكرة إلى الهدف مرتين أو ثلاث مرات. ولكن من الأفضل أن يلعب على النحو الأمثل ويستخدم القدر المناسب من القوة للوصول إلى الحفرة. "

حلقة

هناك بعض الطرق المعقدة لتحديد معدل التعلم الأمثل لمشكلة ما ، ولكن كما هو الحال مع أي خوارزمية للتعلم الآلي ، إذا كانت البيئة بسيطة بما يكفي يمكنك تكرارها على قيم مختلفة حتى يتم الوصول إلى التقارب. هذا هو المعروف أيضا باسم الاستوكاستك التدرج لائق. في مشروع RL حديث ، أوضحت تأثير تقليل ألفا باستخدام بصرية متحركة وهذا موضح أدناه. يوضح هذا التذبذب عندما يكون حجم ألفا كبيرًا وكيف يصبح هذا سلسًا مع تقليل الفا.

وبالمثل ، يجب أيضًا أن يكون لدينا معدل الخصم ليكون رقمًا بين 0 و 1 ، وفي كثير من الأحيان ، يكون هذا قريبًا من 0.9. يخبرنا عامل الخصم بمدى أهمية المكافآت في المستقبل ؛ يشير عدد كبير إلى أنها ستعتبر مهمة في حين أن التحرك نحو 0 سيجعل النموذج يفكر في الخطوات المستقبلية بشكل أقل وأقل.

مع وضع هذين الأمرين في الاعتبار ، يمكننا تغيير كل من alpha من 0.5 إلى 0.2 و gamma من 0.5 إلى 0.9 ونحقق النتائج التالية:

نظرًا لأن معدل التعلم أصبح الآن أصغر كثيرًا ، فإن النموذج يستغرق وقتًا أطول للتعلم والقيم أصغر عمومًا. الأهم من ذلك هو المعلم الذي من الواضح أنه أفضل حالة. ومع ذلك ، فإن هذه المقايضة لزيادة وقت الحساب تعني أن قيمتنا بالنسبة إلى M لم تعد تتأرجح إلى الدرجة التي كانت عليها من قبل. يمكننا الآن أن نرى هذا في الرسم البياني أدناه لمجموع V (ق) بعد المعلمات المحدثة لدينا. على الرغم من أنه ليس سلسًا تمامًا ، إلا أن إجمالي V (s) يزداد ببطء بمعدل أكثر سلاسة من ذي قبل ويبدو أنه يتقارب كما نود ولكن يتطلب حوالي 75 حلقة للقيام بذلك.

تغيير النتيجة الهدف

ميزة أخرى حاسمة من RL التي لم نذكرها بتفاصيل كثيرة هي أن لدينا بعض السيطرة على البيئة. حاليًا ، تعتمد المكافآت على ما قررنا أنه من الأفضل الحصول على النموذج للوصول إلى النتيجة الإيجابية بأقل عدد ممكن من الخطوات.

ومع ذلك ، لنفترض أن المدرس قد تغير وأن المعلم الجديد لا يمانع في إلقاء الطلاب للورقة في الصندوق طالما وصل إليها. بعد ذلك يمكننا تغيير مكافأتنا السلبية حول هذا الأمر وسوف تتغير السياسة المثلى.

هذا مفيد بشكل خاص لحلول الأعمال. على سبيل المثال ، لنفترض أنك تخطط لاستراتيجية وتعرف أن بعض التحولات تكون أقل رغبة من الآخرين ، ثم يمكن أخذ ذلك في الاعتبار وتغييره حسب الرغبة.

خاتمة

لقد أنشأنا الآن نموذج التعلم التعزيز البسيط من البيانات الملاحظة. هناك العديد من الأشياء التي يمكن تحسينها أو زيادتها ، بما في ذلك استخدام نموذج أكثر تعقيدًا ، ولكن يجب أن يكون هذا مقدمة جيدة لأولئك الذين يرغبون في تجربة مشاكلهم في الحياة الواقعية وتطبيقها.

آمل أن تستمتع بقراءة هذا المقال ، إذا كان لديك أي أسئلة ، فلا تتردد في التعليق أدناه.

شكر

الجنيه الإسترليني