كيف نقول لا لمشاريع علوم البيانات؟ - مقابلة مع سايكات ، عالم البيانات في التحليلات الكسورية

الصورة من قبل كاي بيلجر على Unsplash

يشرح سايكات إطار عمل يستخدمه لتحديد القيمة المقترحة لمشاريع علوم البيانات والقول "لا" لهم.

من باب المجاملة: https://www.linkedin.com/in/saikatkumardey/

سايكات كومار داي هو عالم بيانات في التحليلات الكسورية. قصته رائعة كيف انتقل من مهندس برمجيات إلى عالم بيانات. لقد اكتشفت سايكات من خلال موقعه على الإنترنت http://saikatkumardey.com. لديه بعض المشاريع الرائعة على ذلك. خلال المقابلة معه ، قام بتفصيل عملية تفكيره حول كيف يقول "لا" لمشاريع علوم البيانات. كانت إجابته جيدة التنظيم وقابلة للتنفيذ. يرجى قراءة المقابلة لمعرفة المزيد ...

للمزيد من الإلهام نفسه:

Vimarsh Karbhari (VK): ما هي أهم ثلاثة كتب عن الذكاء الاصطناعي / ML / DS أعجبك أكثر؟ ما هي الكتب التي كان لها أكبر الأثر في حياتك المهنية؟

سايكات كومار داي (SD): أتعلم بالممارسة. لذلك ، أود أن أقرأ كود كتابة الكتب معهم. أهم ثلاثة كتب أعجبتني أكثر هي: برمجة الذكاء الجماعي ، والتعلم الآلي في العمل ، وإحصاءات التفكير.

VK: ما الأداة / الأدوات (البرامج / الأجهزة / العادة) التي لديك كعالم بيانات لها التأثير الأكبر على عملك؟

SD: دفتر Jupyter. لم يكن إنشاء عمل مستنسخ يمكن مشاركته مع الزملاء أو مع العالم أسهل من أي وقت مضى. دفتر Jupyter يجعل من السهل حقًا كتابة التعليمات البرمجية وتقديم عملك لأي شخص. أحب أن أكتب ملاحظات صغيرة عن عملية تفكيري في تخفيض السعر أثناء العمل في أي مشروع. عندما أحتاج إلى العودة إلى مشاريعي القديمة ، يمكن أن أتذكر بسهولة ما كنت أفكر فيه. كل شيء هناك. أيضًا ، أثناء قراءة كتاب جديد على ML ، أحاول إيجاد رمز على Github لذلك الكتاب. هذا يساعدني على إعادة إنتاج الأفكار في الكتاب.

VK: هل يمكنك مشاركة حول الفشل / المشاريع / التجارب ذات الصلة بعلوم البيانات التي تعلمتها أكثر من غيرها؟

SD: أتذكر العمل في مشروع تحليل المنافسين لشركتي السابقة. كان هذا أول مشروع لعلوم البيانات في الشركة. كانت الفكرة هي اكتشاف شركات مماثلة بناءً على علامات FourSquare. شركات مماثلة في الحي يمكن أن يكون المنافسين. حصلت على البيانات من FourSquare واستخدمت طريقة قائمة على التشابه لحل المشكلة.

الآن ، لم أفكر مطلقًا في السؤال عن من سيستخدم هذا النموذج؟ كيف سيتم نشر هذا النموذج؟ كما اتضح فيما بعد ، فإن معظم الشركات الصغيرة والمتوسطة (الشركات الصغيرة والمتوسطة) التي كانت من عملائنا لم تكن متوفرة في FourSquare. معظمهم لم يكونوا موجودين في أماكن Google أيضًا (من أجل إثبات قرب أي من الشركتين). تم الغاء المشروع في وقت لاحق.

لقد رأيت مشكلة مهمة واستمرت في حلها. تم اعتبار دقة / أداء الحل غير ذي صلة بعد أن اكتشفنا أنه لا يمكننا استخدامه لقاعدة عملائنا. درس ضخم تعلمته. :)

VK: إذا كنت تكتب كتابًا ، فما هو عنوان الكتاب؟ ما هي المواضيع الرئيسية التي ستغطيها في الكتاب؟

SD: "التعلم التطبيقي الآلي" - سيأخذ الكتاب القراء في رحلة لبناء مشاريع شاملة. سوف يستغرق نهج التعلم من أعلى إلى أسفل. معظم الكتب / المدونات / MOOCs تبني دليلا على المفاهيم عند إظهار تطبيق ML. هذه مفيدة للمبتدئين. ومع ذلك ، فإن معظم الناس لا يعرفون إلى أين يذهبون بعد ذلك. يتعلمون ذلك بالطريقة الصعبة. بالنسبة للمتعلم المتقدم ، من المهم معرفة:

  1. كيف تسأل الأسئلة الصحيحة؟
  2. كيفية جمع بيانات الجودة؟
  3. كيف تبني إستراتيجية فعالة لتخزين البيانات (إذا كانت جودة البيانات غير متوفرة)؟
  4. كيفية بناء خط أنابيب الآلي لتدريب / التحقق من صحة / نشر / مراقبة نماذج ML؟
  5. كيفية بناء خط أنابيب هندسي للسماح للآخرين باستخدام تطبيق ML الخاص بك؟
  6. كيفية بناء MVP ولديك استراتيجيات للتكرار؟

VK: من حيث الوقت ، المال أو الطاقة ما هي أفضل الاستثمارات التي قمت بها والتي منحتك مكافآت مركبة في حياتك المهنية؟

SD: لقد كان الوصول إلى أستاذ في قسمي للعمل على بعض المشكلات المثيرة للإهتمام في ظله هو أفضل قرار اتخذته في الجامعة. كنت أستعد لنكون مهندس برامج. ومع ذلك ، فإن العمل في المشاريع قد أثار اهتمامي تجاه ML ومع قليل من الحظ ، بدأت في بدء حياتي المهنية كعالم بيانات.

العمل على مشاريع جانبية ، والتي طرحتها على جيثب من وقت لآخر.

التطوع من أجل الفيل الخامس ، مؤتمر علم البيانات. حصلت على مقابلة الكثير من الناس المثيرين للاهتمام هناك. التقيت بأشخاص لديهم فهم عميق لخوارزميات ML / DL التي ألهمتني لتقوية مؤسستي.

VK: ما هي بعض الأفكار السخيفة حول تجارب / مشاريع علوم البيانات التي ليست بديهية للأشخاص الذين يبحثون من الخارج في؟

SD: التوقعات من التطبيقات القائمة على ML عالية ، بفضل الضجيج AI في السنوات الأخيرة. يعتقد الناس أن ML يمكن أن تخلق شيئا من لا شيء. مبدأ GIGO (Garbage in، Garbage out) مناسب في هذا السياق.
أتذكر حادثة معينة. كنا نعمل على بناء chatbot. لقد بنيناها لحل مجموعة من المشكلات المقيدة بمجال معين. كانت توقعات الناس من chatbot عالية مثل Siri / Google-Assistant / Alexa. بالكاد فهم الناس أننا نبنيه من الصفر :). كان لدي زملاء (مهندسو برامج) يتسللون أحيانًا وينصحونني باستخدام التعلم العميق (LSTMs ، على وجه الخصوص). كان من المهم أن ننقل قدرات النظام بشكل مباشر.

VK: في العام الماضي ، ما الذي حسن حياتك العملية والتي يمكن أن تعود بالنفع على الآخرين؟

SD: تدوين الملاحظات عن القرارات المتخذة على مراحل مختلفة من دورة حياة المشروع (معظمها على مستندات Google) ومشاركتها مع الفريق. هذا يساعد على إبقاء الجميع على نفس الصفحة فيما يتعلق بحالة العمل.

VK: ما النصيحة التي تقدمها لشخص يبدأ في هذا المجال؟ ما النصيحة التي يجب أن يتجاهلوها؟

SD: ركز على بناء أشياء رائعة. ثم انتقل لأسفل وتعلم الخوارزميات / التقنيات المستخدمة في بنائها.

تجاهل الأشخاص / الكتب / مقاطع الفيديو التي تعدكم:

  • تعليم علم البيانات أو ML بدون الرياضيات. الرياضيات مهمة. يجب أن تتعلم كيف تعمل الخوارزمية ، والافتراضات المقدمة ولماذا تعمل. وجود أساس متين في الجبر والإحصاء الخطي سيساعدك على تحقيق تقدم كبير.
  • تدريس علم البيانات في العاشر أسابيع / أشهر. إنه حقل ضخم سيستغرق سنوات ليكون جيدًا حقًا. بحلول الوقت الذي تكون فيه قريبًا من اللحاق بالركب ، كان الحقل سيتقدم أكثر. أنا أحثكم على قراءة علم نفسك البرمجة في 10 سنوات. هذا المقال مناسب للتعلم من أي نوع ، في أي مجال.

VK: ما هي التوصيات السيئة الواردة في علم البيانات في رأيك؟

SD: يتم التركيز أكثر على الخوارزميات من البيانات. كما ذكرت في وقت سابق ، القمامة في = القمامة خارج مبدأ مناسب جدا. التعلم العميق لا ينطبق في كل مكان. إن الغش في طريقك عبر كل خوارزمية متاحة لا يعمل بشكل جيد ، إذا لم تتوقف وتفكر في ما يحدث. قد يتعين حل العديد من المشكلات التي ستحلها في شركتك من البداية حيث تتوفر بيانات ضئيلة أو معدومة. ماذا تستخدم بعد ذلك؟

VK: كيف يمكنك تحديد قول لا للتجارب / المشاريع؟

SD: أبدأ بطلب المشاريع بناءً على اقتراح القيمة الخاص بها. ثم أتبع إطار عمل طرح الأسئلة المهمة المدرجة أدناه. من السهل تحديد مهمة مهمة أثناء تقييمك لها بموضوعية. في معظم الأحيان ، يكون قرار العمل هو إنشاء ميزة / تطبيق ويجب عليك الالتزام به. في هذه الحالات ، من المهم أن تقوم بتوصيل القيود وتحديد التوقعات في وقت مبكر.

يجب طرح الأسئلة التالية قبل القيام بأي مشروع لعلوم البيانات:

  1. هل هذه المشكلة تستحق الحل؟
  2. من سوف يستخدم تطبيقنا؟
  3. هل لدينا البيانات المطلوبة لحل هذه المشكلة الآن؟
  4. ما هي مصادر البيانات لدينا؟
  5. إذا لم يكن لدينا أي بيانات في الوقت الحالي ، فهل يمكننا إنشاء خط أنابيب لجمع البيانات الآن حتى نتمكن من استخدام "علوم البيانات" في المستقبل؟
  6. هل يعمل مجريات الأمور هنا بدلاً من ML؟
  7. ما نوع الجهد الهندسي الذي نحتاجه لدعم هذا التطبيق؟

VK: هل شعرت يومًا بالإرهاق من كمية البيانات أو حجم التجربة أو مشكلة البيانات؟ إذا كانت الإجابة بنعم ماذا تفعل لتطهير عقلك؟

SD: معظم المشكلات التي تعاملت معها حتى الآن لم تكن تحتوي على بيانات هائلة. ومع ذلك ، قد يكون المشروع غالبًا بسبب وجود عدد كبير من المجهولين (وإذا كان عليك المضي قدمًا والقيام بذلك على أي حال). في تلك الحالات ، أحاول أن أبسط تصميمي وأعد الإصدار الأول القابل للتطبيق (MVP) ، مع الاعتقاد بأنني سوف أكرره ونحسنه مع مرور الوقت.

VK: كيف تفكر في تقديم فرضيتك / نتائجك بمجرد الوصول إلى حل / إيجاد؟

SD: إن اتباع طريقة منهجية لبناء المشروع يساعد في تقليل الجهد الإضافي في تقديمه. أعمل على أجهزة Jupyter Notebooks التي يمكن تقديمها في الغالب كشرائح في أي وقت. إطار تقديم النتائج هو:

  1. عرض المشكلة
  2. موقع ذو قيمة
  3. الافتراضات المقدمة
  4. رؤى مثيرة للاهتمام من التحليل الاستكشافي (في شكل تصورات / مجموعات / احصائيات).
  5. شرح تنبؤات النموذج (إذا تم بناء نموذج تنبؤي).
  6. أمثلة للإيجابيات الكاذبة / السلبيات الكاذبة والإستراتيجيات الخاصة بكيفية تخفيضها في التكرار التالي (حسب حالة استخدام العمل).
  7. اعتبارات المستقبل.

VK: ما هو دور الحدس في عملك اليومي وفي اتخاذ القرارات الكبيرة في العمل؟

SD: الحدس يساعدك في تقدير الجهد المطلوب لحل مشكلة معينة. في بعض الأحيان قد يبدو إنشاء تطبيق بسيطًا. ومع ذلك ، قد يساعدك الحدس في قياس الجهد المطلوب لإدارة التطبيق على نطاق واسع. يساعد الحدس أيضًا في توقع المشكلات التي قد تنشأ في المستقبل بسبب القرارات المتخذة في الوقت الحالي. إنها تتحسن فقط مع التجربة ، لذلك أقوم بعصف ذهني مع زملائي (الذين لديهم خبرة أكثر مني) قبل اتخاذ قرارات كبيرة. هذا يساعدني في رؤية الأشياء من وجهات نظر مختلفة.

VK: في رأيك ما هو الموضع التنظيمي المثالي لفريق البيانات؟

SD: يجب أن يقوم فريق البيانات بإبلاغ المدير التنفيذي مباشرةً والعمل عن كثب مع فرق المنتجات والهندسة. من المهم أن يتماشى فريق البيانات (أكثر من أي فريق آخر) مع رؤية الشركة. لوضع الأشياء في منظورها الصحيح ، قد لا تكون هناك أي بيانات للبدء بها. يساعد وجود علم البيانات في مركز منتج ما في تحديد خطط التشغيل الآلي / الذكاء في وقت مبكر. يساعد هذا في تحديد أولويات خط الأنابيب بطريقة بحيث عندما يكون لدينا بيانات كافية ، سنستخدمها بشكل صحيح.

VK: إذا استطعت إعادة حياتك المهنية اليوم ، ماذا ستفعل؟

SD: أود أن أقرأ المزيد عن الإحصاء (Bayesian & Frequentist) والجبر الخطي. هناك الكثير من الأفكار الجديدة في "التعلم الآلي" المعبر عنها في الأبحاث. إن وجود أساس قوي للرياضيات من شأنه أن يساعدني في فهم الحدس وراء إعادة إنتاج الأفكار.

VK: ما هي المرشحات الخاصة بك للحد من التحيز في التجربة؟

SD: أستخدم أخذ العينات الطبقية لتقسيم مجموعة البيانات الخاصة بي إلى مجموعات تدريب / تحقق / اختبار بحيث تتناسب العينات في كل مجموعة مع توزيع المجموعات الفرعية في مجموعة البيانات الأصلية. تعزيز التقنيات تساعد أيضا في الحد من التحيز.

VK: عندما تقوم بتعيين علماء البيانات أو مهندسي البيانات أو مهندسي ML ، ما هي أفضل ثلاث مهارات فنية / غير تقنية تبحث عنها؟

SD: إذا اضطررت إلى استئجار عالم بيانات ، فإن أفضل 3 مهارات أبحث عنها ستكون:

  1. مهارات قوية حل المشاكل / الترميز.
  2. أسس إحصائية قوية.
  3. مهارات التواصل الجيد - القدرة على شرح المفاهيم على مستويات مختلفة من التجريد ، وهذا يتوقف على الجمهور.

بالنسبة لمهندسي البيانات / مهندسي ML ، تعتبر النقطة (2) جيدة في حين أن (1) و (3) يجب أن يكونوا من أصحاب الحسابات.

أود أن أعمل مع أشخاص تتنوع مهاراتهم في الطبيعة. تساعد الطبيعة الغريبة ، لأن هذا يضمن لك أن تتعلم من بعضها البعض على أساس يومي.

VK: ما هي المدونات / الأشخاص على الإنترنت الذين تتابعهم للحصول على المشورة / معرفة المزيد عن DS؟

SD: قرأت الكثير على Arxiv. إنه أفضل مورد للبقاء على اطلاع دائم على تقدم المجال.
تساعدني قراءة kaggle kernels في تعلم طرق تحليل مجموعات البيانات المتنوعة.
تساعد Datatau و KDnuggets و Reddit (/ r / MachineLearning و / r / DataScience ، إلخ) أيضًا في اكتشاف أحدث الموارد / البرامج التعليمية حول هذا المجال.

يمكن للناس متابعة عمل سايكات على موقعه على الويب: http://saikatkumardey.com

يرجى زيارة Acing AI مقابلات للتحضير لمقابلات علوم البيانات: Acing AI مقابلات

اشترك في النشرة الإخبارية Acing AI لمقابلات الخبراء الكبيرة ، وأعدكم بعدم إرسال رسائل غير مرغوب فيها ومجاني!

شكرا للقراءة! إذا كنت قد استمتعت بها ، فاختبر عدد المرات التي يمكن أن تضرب فيها خلال 5 ثوان. إنها أداة رائعة لأصابعك وستساعد الآخرين على رؤية القصة.