पायथन में लॉजिस्टिक रिग्रेशन कैसे करें?



निर्भर और एक या अधिक स्वतंत्र चर के बीच संबंध का निर्धारण करके परिणाम की भविष्यवाणी करने के लिए स्केलेर का उपयोग करके पायथन में लॉजिस्टिक प्रतिगमन।

पाइथन में लॉजिस्टिक रिग्रेशन एक भविष्य कहनेवाला विश्लेषण तकनीक है। इसका उपयोग बाइनरी वर्गीकरण समस्याओं के लिए मशीन लर्निंग में भी किया जाता है। इस ब्लॉग में हम पायथन में लॉजिस्टिक रिग्रेशन को समझने के लिए निम्नलिखित विषयों पर विचार करेंगे:

  1. रिग्रेशन क्या है?
  2. पाइथन में लॉजिस्टिक रिग्रेशन
  3. लॉजिस्टिक रिग्रेशन बनाम रैखिक रिग्रेशन
  4. बक्सों का इस्तेमाल करें
  5. प्रदर्शन

आप बेहतर समझ या प्रदर्शन के माध्यम से प्रदर्शन के साथ अजगर में लॉजिस्टिक प्रतिगमन पर इस विस्तृत ट्यूटोरियल का उल्लेख कर सकते हैं मास्टर लॉजिस्टिक प्रतिगमन के लिए।





रिग्रेशन क्या है?

विश्लेषण एक शक्तिशाली सांख्यिकीय विश्लेषण तकनीक है। ए आश्रित हमारी रुचि का चर दूसरे के मूल्यों की भविष्यवाणी करने के लिए उपयोग किया जाता है स्वतंत्र प्रभावित करने वाली वस्तुएँ डेटा सेट में।

हम हर समय सहज तरीके से प्रतिगमन में आते हैं। जैसे अतीत में मौसम की स्थिति के डेटा-सेट का उपयोग करके मौसम की भविष्यवाणी करना।



यह परिणाम का विश्लेषण और भविष्यवाणी करने के लिए कई तकनीकों का उपयोग करता है, लेकिन जोर मुख्य रूप से है आश्रित चर और एक या अधिक स्वतंत्र चर के बीच संबंध।

विश्लेषण एक द्विआधारी चर में परिणाम की भविष्यवाणी करता है जिसमें केवल दो संभावित परिणाम हैं।



पाइथन में लॉजिस्टिक रिग्रेशन

यह एक डेटा-सेट का विश्लेषण करने की एक तकनीक है जिसमें एक द्विआधारी चर में परिणाम की भविष्यवाणी करने के लिए एक आश्रित चर और एक या अधिक स्वतंत्र चर हैं, जिसका अर्थ है कि इसके केवल दो परिणाम होंगे।

आश्रित चर है श्रेणीबद्ध प्रकृति में। आश्रित चर भी कहा जाता है लक्ष्य चर और स्वतंत्र चर को कहा जाता है भविष्यवाणियों

लॉजिस्टिक रिग्रेशन रैखिक रिग्रेशन का एक विशेष मामला है जहां हम केवल एक श्रेणीगत चर में परिणाम की भविष्यवाणी करते हैं। यह लॉग फ़ंक्शन का उपयोग करके घटना की संभावना की भविष्यवाणी करता है।

हम उपयोग करते हैं सिग्मॉइड फ़ंक्शन / वक्र स्पष्ट मूल्य का अनुमान लगाने के लिए। दहलीज मान परिणाम (जीत / हार) तय करता है।

रैखिक प्रतिगमन समीकरण: y = +0 + β1X1 + 22X2…। + nnXn

  • Y आश्रित चर के लिए खड़ा है जिसकी भविष्यवाणी करने की आवश्यकता है।
  • β0 वाई-इंटरसेप्ट है, जो मूल रूप से लाइन पर बिंदु है जो वाई-अक्ष को छूता है।
  • β1 रेखा का ढलान है (आश्रित और स्वतंत्र चर के बीच संबंध के आधार पर ढलान नकारात्मक या सकारात्मक हो सकता है।)
  • एक्स यहां स्वतंत्र चर का प्रतिनिधित्व करता है जो हमारे परिणामी निर्भर मूल्य का अनुमान लगाने के लिए उपयोग किया जाता है।

सिग्मोइड फ़ंक्शन: पी = 1/1 + ई-हाँ

रैखिक प्रतिगमन समीकरण पर सिग्मॉइड फ़ंक्शन लागू करें।

अजगर-एडुरका में लॉजिस्टिक रिग्रेशन

तार्किक प्रतिगमन समीकरण: पी = 1/1 + ई- (β0 + β1X1 + 22X2…। + βnXn)

विभिन्न प्रकार के लॉजिस्टिक रिग्रेशन पर एक नज़र डालते हैं।

लॉजिस्टिक रिग्रेशन के प्रकार

मर्ज सॉर्ट c ++ सोर्स कोड
    • बाइनरी लॉजिस्टिक रिग्रेशन - इसके केवल दो संभावित परिणाम हैं। उदाहरण- हाँ या नहीं
    • बहुराष्ट्रीय लॉजिस्टिक प्रतिगमन - इसकी तीन या अधिक नाममात्र श्रेणियां हैं। नमूना- बिल्ली, कुत्ता, हाथी।
    • साधारण लॉजिस्टिक रिग्रेशन- इसमें तीन या अधिक ऑर्डिनल कैटेगरी होती हैं, ऑर्डिनल का मतलब है कि श्रेणियां एक क्रम में होंगी। उदाहरण- उपयोगकर्ता रेटिंग (1-5)।

रैखिक बनाम लॉजिस्टिक प्रतिगमन

जबकि रेखीय प्रतिगमन हो सकता है अनंत संभव मूल्य, लॉजिस्टिक रिग्रेशन है निश्चित परिणाम

रैखिक प्रतिगमन का उपयोग तब किया जाता है जब प्रतिक्रिया चर प्रकृति में निरंतर होता है, लेकिन जब प्रतिक्रिया चर प्रकृति में श्रेणीबद्ध होता है तो लॉजिस्टिक प्रतिगमन का उपयोग किया जाता है।

अतीत में लेन-देन के विवरण का उपयोग करके बैंक में डिफॉल्टर की भविष्यवाणी करना लॉजिस्टिक रिग्रेशन का एक उदाहरण है, जबकि स्टॉक मार्केट स्कोर की तरह एक निरंतर आउटपुट रैखिक प्रतिगमन का एक उदाहरण है।

बक्सों का इस्तेमाल करें

निम्नलिखित उपयोग के मामले हैं जहां हम लॉजिस्टिक प्रतिगमन का उपयोग कर सकते हैं।

मौसम की भविष्यवाणी

मौसम की भविष्यवाणी तार्किक प्रतिगमन का परिणाम है। यहां, हम पिछली मौसम रिपोर्टों के आंकड़ों का विश्लेषण करते हैं और एक विशिष्ट दिन के लिए संभावित परिणाम की भविष्यवाणी करते हैं। लेकिन तार्किक प्रतिगमन केवल श्रेणीबद्ध डेटा की भविष्यवाणी करेगा, जैसे कि बारिश के लिए जा रहा है या नहीं।

बीमारी का निर्धारण

वे कैनप्रयोग करेंकिसी भी मामले में बीमारी के सकारात्मक या नकारात्मक होने की भविष्यवाणी करने के लिए रोगी के चिकित्सा इतिहास की मदद से तार्किक प्रतिगमन।

लॉजिस्टिक प्रतिगमन का उपयोग कर एक भविष्यवाणी मॉडल का निर्माण करने के लिए एक नमूना डेटा-सेट लेते हैं।

डेमो

हम एक भविष्यवाणी मॉडल बनाने जा रहे हैंका उपयोग करमदद से अजगर में तार्किक प्रतिगमनकाएक डेटासेट,इसमेंहम तार्किक प्रतिगमन प्राप्त करने के लिए निम्नलिखित चरणों को शामिल करने जा रहे हैं।

डेटा एकत्र करना

लॉजिस्टिक प्रतिगमन को लागू करने के लिए पहला कदम डेटा एकत्र करना है। हम पंडों का उपयोग करके प्रोग्राम में डेटा-सेट युक्त सीएसवी फ़ाइल को लोड करेंगे। हम प्रासंगिक डेटा के बीच संबंध का विश्लेषण करके, होम गेम या दूर खेल की संभावना का अनुमान लगाने के लिए भविष्यवाणी मॉडल के निर्माण के लिए एनबीए डेटा का उपयोग कर रहे हैं।

आयात पंडों के रूप में पीडी आयात सुन्न के रूप में एनपी आयात सीबोर्न के रूप में एसएनएस आयात matplotlib.pyplot के रूप में plt df = pd.read_csv (r'C: UsersMohammadWaseemDocumentsdata.csv ') प्रिंट (df.head (5))

आपको आसानी से विश्लेषण के लिए एक पठनीय प्रारूप में सभी डेटा मिलेंगे। और फिर आप अपने मॉडल के लिए निर्भर और स्वतंत्र चर निर्धारित कर सकते हैं।

डेटा का विश्लेषण

चर के बीच संबंध निर्धारित करने के लिए डेटा-सेट का विश्लेषण किया जाता है। चर के बीच संबंधों की जांच करने के लिए विभिन्न भूखंडों का निर्माण करके।

सूचनात्मक में जुड़े और असंबद्ध परिवर्तन
sns.countplot ('Home', hue = 'WinorLOSS', data = df) plt.now ()

ऊपर घर / दूर खेल के संबंध में जीत / हार प्रतिशत के बीच संबंध है। एसप्रफुल्लित करने वालाहम डेटा में अन्य प्रासंगिक प्रविष्टियों के बीच संबंध के ग्राफ को प्लॉट कर सकते हैं।

डेटा की तकरार

डेटा-सेट को लक्ष्य चर के अनुसार संशोधित किया गया है। हम सभी शून्य मानों और स्ट्रिंग मानों को डेटाफ़्रेम से बाहर निकाल देंगे।

प्रिंट (df.isnull ()। sum। ())

हम सभी अप्रासंगिक डेटा जैसे शून्य मान और उन मानों की जांच करेंगे जिनकी भविष्यवाणी मॉडल का निर्माण करते समय आवश्यक नहीं होगी। यदि एनबीए डेटासेट में कोई शून्य मान नहीं हैं जिनका हम उपयोग कर रहे हैं, तो हम डेटा को विभाजित करने के साथ आगे बढ़ेंगे।

टेस्ट और ट्रेन डेटा

मॉडल के प्रदर्शन के लिए डेटा को परीक्षण डेटा और ट्रेन डेटा में विभाजित किया गया है। डेटा का उपयोग करके विभाजित किया गया है train_test_split । यहां डेटा 70:30 के अनुपात में विभाजित है।

अब, के लिए मॉडल भविष्यवाणी लॉजिस्टिक रिग्रेशन फ़ंक्शन को स्केलेर मॉड्यूल में लॉजिस्टिक रिग्रेशन मॉडल आयात करके कार्यान्वित किया जाता है।

मॉडल तब फिट फ़ंक्शन का उपयोग करके ट्रेन सेट पर फिट होता है। इसके बाद भविष्यवाणी समारोह का उपयोग करके भविष्यवाणी की जाती है।

sklearn.model_selection आयात ट्रेन_test_split से sklearn.linear_model आयात से, LogisticRegression from sklearn.metrics आयात वर्गीकरण_report from sklearn.metr आयात आयात confusion_matrix, सटीकता_score x = df.drop ('होम', अक्ष = 1) = 1 = 1 = d = 1 = d = x_test, y_train, y_test = train_test_split (x, y, test_size = 0.33, random_state = 1) logmodel = LogisticRegression () logmodel.fit (x_train, y_train) भविष्यवाणियां। xprt। x प्रिंट (कन्फ़्यूज़न_मेट्रिक्स (y_test, भविष्यवाणियाँ)) प्रिंट (सटीकता_स्कोर (y_test, भविष्यवाणियाँ))

वर्गीकरण रिपोर्ट:

वर्गीकरण रिपोर्ट प्रदर्शित करती है परिशुद्धता , रिकॉल, एफ 1 और सपोर्ट मॉडल के लिए स्कोर।

परिशुद्धता स्कोर का मतलब उस स्तर तक है, जिसमें मॉडल द्वारा की गई भविष्यवाणी सटीक है। एक घर के खेल के लिए सटीक है 0.62 और दूर खेल के लिए है 0.58 है

स्मरण करो वह राशि है जिसके लिए मॉडल परिणाम की भविष्यवाणी कर सकता है। एक घर के खेल के लिए याद है 0.57 है और एक दूर के खेल के लिए है 0.64 । एफ 1 और समर्थन स्कोर भविष्यवाणियों के लिए परीक्षण किए गए डेटा की मात्रा है। एनबीए डेटा-सेट में होम गेम के लिए परीक्षण किया गया डेटा है 1662 और दूर खेल के लिए है 1586

असमंजस का जाल:

कन्फ्यूजन मैट्रिक्स एक तालिका है जो एक भविष्यवाणी मॉडल के प्रदर्शन का वर्णन करती है। एक भ्रम मैट्रिक्स में वास्तविक मूल्य और अनुमानित मूल्य शामिल हैं। हम मॉडल के सटीकता स्कोर की गणना करने के लिए इन मूल्यों का उपयोग कर सकते हैं।

भ्रम मैट्रिक्स हीटमैप:

चलो सीबॉर्न का उपयोग करके भ्रम मैट्रिक्स के एक हीट-मैप की साजिश करते हैं और हमारे द्वारा बनाए गए भविष्यवाणी मॉडल की कल्पना करना। हीटमैप प्लॉट करने के लिए, निम्नलिखित सिंटैक्स आवश्यक है।

sns.heatmap (pd.DataFrame (confusion_matrix (y_test, भविष्यवाणियाँ))) plt.show ()

हीटमैप को देखकर, हम निम्नलिखित निष्कर्ष निकाल सकते हैं:

  • सभी भविष्यवाणियों में से, क्लासिफायरियर ने कुल 1730 बार भविष्यवाणी की, जिसमें से 1012 वास्तविक हां थे।
  • सभी भविष्यवाणियों में से, क्लासिफायर ने कुल 1518 बार के लिए भविष्यवाणी की, जिसमें से 944 वास्तविक संख्या में थे।

भ्रम मैट्रिक्स के इस विश्लेषण के साथ हम अपने भविष्यवाणी मॉडल के लिए सटीकता स्कोर का निष्कर्ष निकाल सकते हैं।

सटीकता स्कोर:

सटीकता स्कोर मॉडल द्वारा की गई भविष्यवाणियों की सटीकता का प्रतिशत है। हमारे मॉडल के लिए सटीकता स्कोर 0.60 है, जो काफी सटीक है। लेकिन अधिक सटीकता स्कोर कुशल है आप भविष्यवाणी मॉडल है। बेहतर भविष्यवाणी मॉडल के लिए आपको हमेशा उच्च सटीकता स्कोर का लक्ष्य रखना चाहिए।

ऊपर चर्चा किए गए चरणों का पालन करके, हमने एनबीए डेटासेट का उपयोग करके घर / दूर खेल की संभावना की भविष्यवाणी की है। वर्गीकरण रिपोर्ट का विश्लेषण करने के बाद हम घर / दूर खेल की संभावना मान सकते हैं।

इस ब्लॉग में हमने अजगर अवधारणाओं में लॉजिस्टिक रिग्रेशन पर चर्चा की है कि यह रैखिक दृष्टिकोण से कैसे अलग है। इसके अलावा, हमने एनबीए डेटासेट का उपयोग करके एक प्रदर्शन को कवर किया है। अधिक जानकारी और अभ्यास के लिए, आप अपनी पसंद के डेटासेट का उपयोग कर सकते हैं और पायथन में लॉजिस्टिक रिग्रेशन को लागू करने के लिए चर्चा किए गए चरणों का पालन कर सकते हैं।

इसके अलावा, आप में डेटा वैज्ञानिक में महारत हासिल करने के लिए edureka प्लेटफॉर्म पर विभिन्न डेटा-विज्ञान ब्लॉगों की जांच करें।

यदि आप अजगर सीखना चाहते हैं और डेटा विज्ञान में अपना कैरियर बनाना चाहते हैं, तो हमारे इंटरैक्टिव, लाइव-ऑनलाइन की जांच करें यहाँ, यह आपके सीखने की अवधि में मार्गदर्शन करने के लिए 24 * 7 समर्थन के साथ आता है।
कोई सवाल है? कृपया टिप्पणियों में इसका उल्लेख करें और हम आपके पास वापस आ जाएंगे।