freeCodeCamp

2.9 KiB

Raw Blame History

title	localeTitle
Dataset Splitting	تقسيم البيانات

تقسيم البيانات

يعد الانقسام في التدريب ، التحقق من صحة الصليب ، ومجموعات الاختبار من أفضل الممارسات الشائعة. يتيح لك هذا الأمر ضبط العديد من معلمات الخوارزمية دون إصدار أحكام تتفق مع بيانات التدريب على وجه التحديد.

التحفيز

يظهر Dataset Splitting كضرورة لإزالة التحيز لبيانات التدريب في خوارزميات ML. عادة ما ينتج عن تعديل معلمات خوارزمية ML لتلائم بيانات التدريب بشكل أفضل خوارزمية overfit خوارزمية أداء ضعيف في بيانات الاختبار الفعلية. ولهذا السبب ، قمنا بتقسيم مجموعة البيانات إلى مجموعات فرعية متعددة منفصلة نرتب بها معلمات مختلفة.

مجموعة التدريب

يتم استخدام مجموعة التدريب لحساب النموذج الفعلي الذي ستستخدمه الخوارزمية عند تعريضها للبيانات الجديدة. عادةً ما تكون مجموعة البيانات هذه 60٪ -80٪ من بياناتك المتوفرة بالكامل (اعتمادًا على ما إذا كنت تستخدم مجموعة التحقق من صحة مشتركة أم لا).

مجموعة التحقق من الصليب

مجموعات التحقق من صحة الصليب هي لاختيار النموذج (عادة حوالي 20 ٪ من بياناتك). استخدم مجموعة البيانات هذه لتجربة معلمات مختلفة للخوارزمية كما تم تدريبها على مجموعة التدريب. على سبيل المثال ، يمكنك تقييم معلمات نموذج differnt (درجة متعددة الحدود أو lambda ، معلمة التسوية) على مجموعة التحقق من صحة الصليب لمعرفة أيها قد يكون أكثر دقة.

مجموعة الاختبار

مجموعة الاختبار هي مجموعة البيانات النهائية التي تلمسها (عادةً ما تصل إلى 20٪ من بياناتك). إنه مصدر الحقيقة. دقتك في التنبؤ بمجموعة الاختبار هي دقة خوارزمية ML الخاص بك.

2.9 KiB Raw Blame History