मशीन लर्निंग में पूर्वाग्रह क्या है?



यह लेख मशीन सीखने में पूर्वाग्रह और विचरण की अवधारणा को शामिल करता है, जो मॉडल के पूर्वानुमान की सटीकता को निर्धारित करता है।

में , एक मॉडल का प्रदर्शन उसकी भविष्यवाणियों पर आधारित है और यह अनदेखी, स्वतंत्र डेटा के प्रति सामान्य रूप से कितना अच्छा है। एक मॉडल की सटीकता को मापने का एक तरीका मॉडल में पूर्वाग्रह और विचरण को ध्यान में रखते हुए है। इस लेख में, हम सीखेंगे कि कैसे मॉडल की प्रामाणिकता का निर्धारण करने में पूर्वाग्रह-विचरण महत्वपूर्ण भूमिका निभाता है। इस लेख में निम्नलिखित विषयों पर चर्चा की गई है:

इरेड्यूसबल त्रुटि

में कोई भी मॉडल एक नए स्वतंत्र, अनदेखी डेटा सेट पर भविष्यवाणी की त्रुटि के आधार पर मूल्यांकन किया जाता है। त्रुटि और कुछ नहीं बल्कि वास्तविक आउटपुट और अनुमानित आउटपुट के बीच का अंतर है। त्रुटि की गणना करने के लिए, हम reducible और irreducible त्रुटि a.k.a पूर्वाग्रह-विघटन अपघटन का योग करते हैं।





सरणी जावा में उच्चतम मूल्य पाते हैं

अपरिवर्तनीय त्रुटि कुछ भी नहीं है लेकिन उन त्रुटियों को कम किया जा सकता है जो किसी की परवाह किए बिना की जा सकती हैं जो आप मॉडल में उपयोग करते हैं। यह असामान्य चर के कारण होता है जिसका आउटपुट चर पर सीधा प्रभाव पड़ता है। तो आपके मॉडल को कुशल बनाने के लिए, हमें रिड्यूसबल त्रुटि के साथ छोड़ दिया जाता है जिसे हमें हर कीमत पर अनुकूलित करने की आवश्यकता होती है।

एक reducible त्रुटि के दो घटक हैं - पूर्वाग्रह और विचरण पूर्वाग्रह और विचरण की उपस्थिति मॉडल की सटीकता को कई तरह से प्रभावित करती है ओवरफिटिंग, अंडरफिटिंग , आदि।आइए हम पूर्वाग्रह और विचरण पर एक नज़र डालते हैं कि कैसे reducible त्रुटि से निपटने के लिए ।



मशीन सीखने में पूर्वाग्रह क्या है?

पूर्वाग्रह मूल रूप से हमने वास्तविक मूल्य से कितनी दूर की भविष्यवाणी की है। हम कहते हैं कि यदि भविष्यवाणियां वास्तविक मूल्यों से दूर हैं तो पूर्वाग्रह बहुत अधिक है।

एक उच्च पूर्वाग्रह इनपुट और आउटपुट चर के बीच एक प्रमुख पैटर्न या संबंध को याद करने के लिए एल्गोरिथ्म का कारण होगा। जब पूर्वाग्रह बहुत अधिक होता है, तो यह माना जाता है कि मॉडल काफी सरल है और संबंध निर्धारित करने के लिए निर्धारित डेटा की जटिलता को थाह नहीं देता है और इस प्रकार,कम करना।

एक मशीन लर्निंग मॉडल में भिन्नता?

एक स्वतंत्र, अनदेखी डेटा सेट या एक सत्यापन सेट पर। जब कोई मॉडल उतना अच्छा प्रदर्शन नहीं करता है जितना कि वह प्रशिक्षित डेटा सेट के साथ करता है, तो इस बात की संभावना है कि मॉडल में विचरण हो। यह मूल रूप से बताता है कि पूर्वानुमानित मूल्य वास्तविक मूल्यों से कैसे बिखरे हुए हैं।



डेटा सेट में एक उच्च विचरण का मतलब है कि मॉडल ने बहुत अधिक शोर और अप्रासंगिक डेटा के साथ प्रशिक्षित किया है। इस प्रकार मॉडल में ओवरफिटिंग का कारण बनता है। जब किसी मॉडल में उच्च विचरण होता है, तो यह बहुत लचीला हो जाता है और नए डेटा बिंदुओं के लिए गलत भविष्यवाणी करता है। क्योंकि इसने खुद को प्रशिक्षण सेट के डेटा बिंदुओं पर बांधा है।

आइए हम गणितीय रूप से पूर्वाग्रह-विचरण की अवधारणा को समझने का भी प्रयास करें। जिस वेरिएबल की हम भविष्यवाणी कर रहे हैं, वह Y है और अन्य स्वतंत्र वेरिएबल X है। अब मान लेते हैं कि दो वैरिएबल के बीच एक संबंध है जैसे:

वाई = एफ (एक्स) + ई

उपरोक्त समीकरण में, यहाँ है औसत मान के साथ अनुमानित त्रुटि है 0. जब हम एल्गोरिदम का उपयोग करके एक क्लासिफायरियर बनाते हैं जैसे रेखीय प्रतिगमन , , आदि, बिंदु x पर अपेक्षित चुकता त्रुटि होगी:

ग़लती (x) = पूर्वाग्रह+ भिन्न + विडंबनापूर्ण त्रुटि

आइए हम यह भी समझते हैं कि बायस-वेरिएंस कैसे प्रभावित करेगा यंत्र अधिगम मॉडल का प्रदर्शन।

यह मशीन लर्निंग मॉडल को कैसे प्रभावित करता है?

हम नीचे सूचीबद्ध चार श्रेणियों में पूर्वाग्रह-विच्छेद के बीच संबंध रख सकते हैं:

  1. उच्च भिन्न-भिन्न पूर्वाग्रह - मॉडल असंगत है और औसत रूप से गलत भी है
  2. कम भिन्न-उच्च पूर्वाग्रह - मॉडल सुसंगत हैं लेकिन औसतन कम हैं
  3. उच्च भिन्न-निम्न पूर्वाग्रह - औसतन कुछ हद तक सटीक लेकिन असंगत
  4. लो वेरिएंस-लो बायस - यह आदर्श परिदृश्य है, औसत पर मॉडल सुसंगत और सटीक है।

मशीन सीखने-एडुरका में पूर्वाग्रह-विचरण

हालांकि एक मॉडल में पूर्वाग्रह और विचरण का पता लगाना काफी स्पष्ट है। उच्च विचरण वाले मॉडल में कम प्रशिक्षण त्रुटि और उच्च सत्यापन त्रुटि होगी। और उच्च पूर्वाग्रह के मामले में, मॉडल में उच्च प्रशिक्षण त्रुटि होगी और सत्यापन त्रुटि प्रशिक्षण त्रुटि के समान है।

जबकि पता लगाना आसान लगता है, असली काम इसे कम से कम करना है। उस स्थिति में, हम निम्नलिखित कार्य कर सकते हैं:

  • अधिक इनपुट सुविधाएँ जोड़ें
  • बहुपद सुविधाओं को पेश करके अधिक जटिलता
  • नियमितीकरण की अवधि घटाएं
  • अधिक प्रशिक्षण डेटा प्राप्त करना

अब जब हम जानते हैं कि पूर्वाग्रह और भिन्नता क्या है और यह हमारे मॉडल को कैसे प्रभावित करता है, तो आइए एक पूर्वाग्रह-भिन्नता व्यापार पर एक नज़र डालें।

बायस-वेरिएंस ट्रेड-ऑफ

मॉडल के पूर्वाग्रह और विचरण के बीच सही संतुलन का पता लगाने को बायस-वेरिएंस ट्रेड-ऑफ कहा जाता है। यह मूल रूप से यह सुनिश्चित करने का एक तरीका है कि मॉडल को किसी भी मामले में न तो ओवरफिट किया गया है और न ही इसे कम किया गया है।

यदि मॉडल बहुत सरल है और बहुत कम पैरामीटर हैं, तो यह उच्च पूर्वाग्रह और निम्न विचरण से ग्रस्त होगा। दूसरी ओर, यदि मॉडल में बड़ी संख्या में पैरामीटर हैं, तो इसमें उच्च विचरण और निम्न पूर्वाग्रह होंगे। इस व्यापार बंद का परिणाम दोनों के बीच पूरी तरह से संतुलित संबंध में होना चाहिए। आदर्श रूप से, कम पूर्वाग्रह और कम विचरण किसी भी मशीन लर्निंग मॉडल के लिए लक्ष्य है।

स्ट्रिंग दिनांक को दिनांक में बदलें

कुल त्रुटि

किसी भी मशीन लर्निंग मॉडल में, पूर्वाग्रह और विचरण के बीच एक अच्छा संतुलन, भविष्य कहनेवाला सटीकता के संदर्भ में एक आदर्श परिदृश्य के रूप में और पूरी तरह से ओवरफिटिंग से बचने का काम करता है। एल्गोरिथ्म जटिलता के संदर्भ में पूर्वाग्रह और विचरण के बीच एक इष्टतम संतुलन, यह सुनिश्चित करेगा कि मॉडल को कभी भी ओवरफ़ीड या कम नहीं दिखाया जाएगा।

सांख्यिकीय मॉडल में माध्य चुकता त्रुटि को चुकता पूर्वाग्रह और त्रुटि के विचरण और विचरण का योग माना जाता है। यह सब एक कुल त्रुटि के अंदर रखा जा सकता है जहां हमारे पास एक मॉडल में पूर्वाग्रह, विचरण और इरेड्यूबल त्रुटि है।

आइए हम समझते हैं कि हम व्यावहारिक कार्यान्वयन की मदद से कुल त्रुटि को कैसे कम कर सकते हैं।

हमने बनाया है रैखिक प्रतिगमन क्लासिफायरियर में मशीन लर्निंग में रैखिक प्रतिगमन के डेटासेट्स मॉड्यूल में डायबिटीज डेटा सेट का उपयोग करके एडुरका पर लेख शिकिट सीखो पुस्तकालय।

जब हमने क्लासिफायर की औसत चुकता त्रुटि का मूल्यांकन किया, तो हमें लगभग 2500 त्रुटि हुई।

कुल त्रुटि को कम करने के लिए, हमने क्लासिफ़ायर को अधिक डेटा दिया और बदले में मीन चुकता त्रुटि को घटाकर 2000 कर दिया गया।

यह मॉडल को अधिक प्रशिक्षण डेटा खिलाकर कुल त्रुटि को कम करने का एक सरल कार्यान्वयन है। इसी प्रकार हम त्रुटि को कम करने और एक कुशल मशीन लर्निंग मॉडल के लिए पूर्वाग्रह और विचरण के बीच संतुलन बनाए रखने के लिए अन्य तकनीकों को लागू कर सकते हैं।

यह हमें इस लेख के अंत में लाता है, जहां हमने माच में बायस-वेरिएंस सीखा हैइसके कार्यान्वयन और उपयोग के मामले के साथ सीखना। मुझे आशा है कि आप इस ट्यूटोरियल में आपके साथ साझा किए गए सभी के साथ स्पष्ट हैं।

अगर आपको यह लेख 'Bias-Variance In Machine Learning' पर प्रासंगिक लगे, तो देखें दुनिया भर में फैले 250,000 से अधिक संतुष्ट शिक्षार्थियों के नेटवर्क के साथ एक विश्वसनीय ऑनलाइन शिक्षण कंपनी।

हम यहां आपकी यात्रा में हर कदम पर आपकी मदद करने के लिए हैं और ऐसे पाठ्यक्रम के साथ आते हैं जो छात्रों और पेशेवरों के लिए बनाया गया है जो बनना चाहते हैं । पाठ्यक्रम आपको पायथन प्रोग्रामिंग में एक शुरुआत देने के लिए डिज़ाइन किया गया है और आपको विभिन्न के साथ-साथ कोर और उन्नत पायथन अवधारणाओं के लिए प्रशिक्षित करता है। पसंद , , आदि।

यदि आपको कोई प्रश्न आता है, तो 'बायस-वेरिएंस इन मशीन लर्निंग' के टिप्पणी अनुभाग में अपने सभी प्रश्न पूछने के लिए स्वतंत्र महसूस करें और हमारी टीम जवाब देने में प्रसन्न होगी।