ما هو فرط التجهيز Overfitting، من بين كل الأشياء التي يمكن أن تسوء في نموذج ML الخاص بك، يعد فرط التجهيز أحد أكثر الأخطاء شيوعًا والأكثر ضررًا. النبأ السيئ هو أن هذه المرة الامر ليس مبالغاً فيه. حيث يعد فرط التجهيز مشكلة متكررة وإذا كان نموذجك يعمم البيانات بشكل سيئ على بيانات الاختبار الجديدة، فأنت تعلم أن لديك مشكلة. لكن لا تقلق! نحن هنا لمساعدتك على فهم هذه المشكلة وإيجاد طرق لتجنب ذلك، إذا اقتربت بشكل خطير من تعديل نموذجك.

 

ما هو فرط التجهيز Overfitting

هو مفهوم في علم البيانات، والذي يحدث عندما يتناسب النموذج الإحصائي تمامًا مع بيانات التدريب الخاصة به. عندما يحدث هذا، فإن الخوارزمية للأسف لا يمكنها الأداء بدقة ضد البيانات غير المرئية، مما يؤدي إلى إفشال الغرض منها. إن تعميم نموذج على بيانات جديدة هو في النهاية ما يسمح لنا باستخدام خوارزميات التعلم الآلي كل يوم لعمل تنبؤات وتصنيف البيانات.

عندما يتم إنشاء خوارزميات التعلم الآلي، فإنها تستفيد من عينة مجموعة بيانات لتدريب النموذج. ومع ذلك، عندما يتدرب النموذج لفترة طويلة جدًا على بيانات العينة أو عندما يكون النموذج شديد التعقيد، يمكن أن يبدأ في التعرف على “الضوضاء” أو المعلومات غير ذات الصلة، ضمن مجموعة البيانات. عندما يحفظ النموذج الضوضاء ويتناسب بشكل وثيق جدًا مع مجموعة التدريب، يصبح النموذج “أكثر من اللازم”  ولا يمكنه التعميم جيدًا على البيانات الجديدة. إذا لم يتمكن النموذج من التعميم بشكل جيد على البيانات الجديدة، فلن يكون قادرًا على أداء مهام التصنيف أو التنبؤ التي تم تصميمه من أجلها.

معدلات الخطأ المنخفضة والتباين العالي هي مؤشرات جيدة لفرط التجهيز. ومن أجل منع هذا النوع من السلوك، يتم عادةً وضع جزء من مجموعة بيانات التدريب جانبًا على أنه “مجموعة اختبار” للتحقق من فرط التجهيز. فإذا كانت بيانات التدريب ذات معدل خطأ منخفض وكانت بيانات الاختبار بها معدل خطأ مرتفع، فإنها تشير إلى فرط التجهيز.

overfitting و underfitting

إذا أدى الإفراط في التدريب أو تعقيد النموذج إلى فرط التجهيز، فإن الاستجابة الوقائية المنطقية ستكون إما إيقاف عملية التدريب مؤقتًا، والمعروف أيضًا باسم “التوقف المبكر” أو تقليل التعقيد في النموذج عن طريق التخلص من المدخلات الأقل صلة. ومع ذلك، إذا توقفت مؤقتًا مبكرًا أو استبعدت عددًا كبيرًا جدًا من الميزات المهمة، فقد تواجه المشكلة المعاكسة، وبدلاً من ذلك، قد لا تلائم نموذجك. يحدث التقليل من الملاءمة عندما لا يتم تدريب النموذج لفترة كافية أو عندما لا تكون متغيرات الإدخال كبيرة بما يكفي لتحديد علاقة ذات مغزى بين متغيرات الإدخال والإخراج.

في كلا السيناريوهين، لا يمكن للنموذج تحديد الاتجاه السائد ضمن مجموعة بيانات التدريب. نتيجة لذلك، يُعمم نقص الملاءمة أيضًا بشكل سيء على البيانات غير المرئية. ومع ذلك، على عكس فرط التجهيز، تعاني النماذج غير المجهزة بدرجة عالية من التحيز وتباينًا أقل في تنبؤاتها. ويوضح هذا مقايضة تباين التحيز، والتي تحدث عندما يتحول نموذج غير ملائم إلى حالة أكثر من اللازم. كما يتعلم النموذج، يقل تحيزه، ولكن يمكن أن يزيد في التباين عندما يصبح مُجهزًا بشكل زائد. عند ملاءمة نموذج ما، يكون الهدف هو العثور على “النقطة المثالية” بين المقاس المناسب والإفراط في التجهيز، بحيث يمكنه إنشاء اتجاه مهيمن وتطبيقه على نطاق واسع على مجموعات البيانات الجديدة.

كيفية الكشف عن فرط التجهيز Overfitting

يكاد يكون من المستحيل الكشف عن فرط التجهيز قبل اختبار البيانات. كما يمكن أن يساعد في معالجة السمة الكامنة في فرط التخصيص، وهو عدم القدرة على تعميم مجموعات البيانات. وبالتالي، يمكن فصل البيانات إلى مجموعات فرعية مختلفة لتسهيل التدريب والاختبار. يتم تقسيم البيانات إلى قسمين رئيسيين، أي مجموعة اختبار ومجموعة تدريب.

تمثل مجموعة التدريب غالبية البيانات المتاحة (حوالي 80٪)، وهي تدرب النموذج. تمثل مجموعة الاختبار جزءًا صغيرًا من مجموعة البيانات (حوالي 20٪)، ويتم استخدامها لاختبار دقة البيانات التي لم تتفاعل معها من قبل. من خلال تقسيم مجموعة البيانات، يمكننا فحص أداء النموذج في كل مجموعة من البيانات لاكتشاف التجاوز عند حدوثه، وكذلك معرفة كيفية عمل عملية التدريب.

يمكن قياس الأداء باستخدام النسبة المئوية للدقة التي لوحظت في كلتا مجموعتي البيانات لاستنتاج وجود فرط في التجهيز. إذا كان أداء النموذج في مجموعة التدريب أفضل من أداءه في مجموعة الاختبار، فهذا يعني أن النموذج من المحتمل أن يكون أكثر من اللازم.

 

كيفية تجنب حدوث فرط التجهيز Overfitting

فيما يلي بعض الطرق لمنع فرط التجهيز:

 

  • التدريب بمزيد من البيانات

إحدى طرق منع فرط التجهيز هي التدريب بمزيد من البيانات. مثل هذا الخيار الذي يجعل من السهل على الخوارزميات اكتشاف الإشارة بشكل أفضل لتقليل الأخطاء. نظرًا لأن المستخدم يغذي المزيد من بيانات التدريب في النموذج، فلن يكون قادرًا على زيادة حجم جميع العينات وسيضطر إلى التعميم للحصول على النتائج.

كما ويجب على المستخدمين جمع المزيد من البيانات باستمرار كطريقة لزيادة دقة النموذج. ومع ذلك، تعتبر هذه الطريقة باهظة الثمن، وبالتالي يجب على المستخدمين التأكد من أن البيانات المستخدمة ملائمة ونظيفة.

 

  • زيادة البيانات

بديل للتدريب مع المزيد من البيانات هو زيادة البيانات، وهو أقل تكلفة مقارنة بالأول. إذا كنت غير قادر على جمع المزيد من البيانات بشكل مستمر، يمكنك جعل مجموعات البيانات المتاحة تبدو متنوعة.

زيادة البيانات تجعل عينة البيانات تبدو مختلفة قليلاً في كل مرة تتم معالجتها بواسطة النموذج. حيث تجعل العملية كل مجموعة بيانات تبدو فريدة للنموذج وتمنع النموذج من تعلم خصائص مجموعات البيانات.

هناك خيار آخر يعمل بنفس طريقة زيادة البيانات وهو إضافة ضوضاء إلى بيانات الإدخال والإخراج. وتؤدي إضافة الضوضاء إلى الإدخال إلى جعل النموذج مستقرًا، دون التأثير على جودة البيانات والخصوصية، بينما يؤدي إضافة الضوضاء إلى الإخراج إلى جعل البيانات أكثر تنوعًا. ومع ذلك، يجب أن تتم إضافة الضوضاء باعتدال بحيث لا يكون مدى الضوضاء بقدر ما يجعل البيانات غير صحيحة أو مختلفة للغاية.

 

  • تبسيط البيانات

يمكن أن يحدث التجاوز بسبب تعقيد النموذج، بحيث أنه حتى مع وجود كميات كبيرة من البيانات، لا يزال النموذج قادرًا على تجهيز مجموعة بيانات التدريب. تُستخدم طريقة تبسيط البيانات لتقليل فرط التخصيص عن طريق تقليل تعقيد النموذج لجعله بسيطًا بما يكفي بحيث لا يتسع.

  • التجميع

التجميع هو أسلوب تعلم آلي يعمل من خلال الجمع بين التنبؤات من نموذجين منفصلين أو أكثر، وتشمل طرق التجميع الأكثر شيوعًا التعزيز والتعبئة.

حيث يعمل التعزيز باستخدام نماذج أساسية بسيطة لزيادة تعقيدها الكلي. فهو يدرب عددًا كبيرًا من المتعلمين الضعفاء مرتبة في تسلسل، بحيث يتعلم كل متعلم في التسلسل من أخطاء المتعلم قبله. كما ويجمع التعزيز بين جميع المتعلمين الضعفاء في التسلسل لإخراج متعلم واحد قوي.

بينما طريقة التجميع الأخرى هي التعبئة، وهو عكس التعزيز. حيث تعمل التعبئة عن طريق تدريب عدد كبير من المتعلمين الأقوياء مرتبة في نمط متوازي ثم دمجهم لتحسين توقعاتهم.

 

سايبر وان لمكافحة مخاطر الأمن السيبراني

شركة سايبر وان واحدة من ألمع وأبرز الشركات المتخصصة وبخبرة طويلة في مجال الأمن السيبراني وامن المعلومات، ومكافحة الجرائم الالكترونية والسيبرانية على اختلاف انوعها، والتي تساعد في حمايتك من أي هجمات او جرائم قد تتعرض لها مهما كان نوعها ومهما كانت تعقيد مشكلتك، وأينما كنت حول العالم، وبسرية تامة لا مثيل لها، بالإضافة لدعمك في كيفية حماية نفسك فيما يتعلق في مجال الأمن السيبراني وكيفية التعامل مع المخاطر التي تحيط به. ويمكن التواصل معنا عن طريق الأرقام التالية بالاتصال المباشر او على واتس اب:

972533392585+

972505555511+

او من خلال البريد الإلكتروني التالي: info@cyberone.co

 

وكما اسلفنا الذكر فإن فرط التجهيز Overfitting هو خطأ في النمذجة في الإحصائيات يحدث عندما تكون إحدى الوظائف متقاربة للغاية مع مجموعة محدودة من نقاط البيانات. ونتيجة لذلك ، يكون النموذج مفيدًا في الإشارة فقط إلى مجموعة البيانات الأولية الخاصة به، وليس إلى أي مجموعات بيانات أخرى. وهو ما يعاكس تماماً التوقف المبكر او underfitting، لذا كان علينا معرفة الرطق اللازم اتباعها لتجنب فرط التجهيز.

جميع الحقوق محفوظة لشركة سايبر وان المختصة في الامن السيبراني والجرائم الإلكترونية

لا يحق لكم نقل او اقتباس اي شيء بدون موافقه الشركة قد يعاقب عليها القانون.

للتواصل info@cyberone.co

00972533392585

 

 

الحماية الالكترونية

CyberoneAuthor posts

المهندس احمد بطو مختص أمن المعلومات والجرائم الإلكترونية وسفيراً لنوايا الحسنة لمنظمة يونتيك الدولية للأمان على الإنترنت.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *