मशीन लर्निंग में कन्फ्यूजन मैट्रिक्स: आपका वन स्टॉप सॉल्यूशन

में , हम आम तौर पर 2 विभिन्न प्रकार के उपयोग के मामले हैं, , तथा मुसीबत। भ्रम मैट्रिक्स वर्गीकरण मॉडल की सटीकता की गणना करने में मदद करता है जो परोक्ष रूप से हमें वर्गीकरण मॉडल के प्रदर्शन का वर्णन करने में मदद करता है। यह एक मॉडल का मूल्यांकन करने के लिए सबसे महत्वपूर्ण कदम है। मैं इस लेख में निम्नलिखित विषयों को शामिल करूंगा:

1. एक भ्रम मैट्रिक्स क्या है?

2. सटीकता और भ्रम मैट्रिक्स के घटक

3. परिशुद्धता, याद और एफ-उपाय

4. पायथन और स्केलेर का उपयोग करके एक भ्रम मैट्रिक्स बनाना

एक भ्रम मैट्रिक्स क्या है?

कन्फ़्यूज़न मैट्रिक्स पूर्वानुमानित परिणामों का तुलनात्मक सारांश है और किसी भी वर्गीकरण समस्या उपयोग मामले में वास्तविक परिणाम है। तुलनात्मक सारांश कुछ प्रशिक्षण डेटा के साथ प्रशिक्षित होने के बाद मॉडल के प्रदर्शन को निर्धारित करने के लिए अत्यंत आवश्यक है। Accuracy-Confusion-Matrix

एक द्विआधारी वर्गीकरण उपयोग के मामले के लिए, एक भ्रम मैट्रिक्स 2 × 2 मैट्रिक्स है जो नीचे दिखाया गया है

अनुमानित कक्षा 1 मान ईजी: 1

अनुमानित कक्षा 2 मान ईजी: 0

वास्तविक कक्षा 1 मान

ईजी: 1

टीपी (ट्रू पॉजिटिव)

FN (गलत नकारात्मक)

वास्तविक कक्षा 2 मान

ईजी: 0

एफपी (झूठी सकारात्मक)

TN (ट्रू नेगेटिव)

उपरोक्त आंकड़े से:
हमारे पास है,

वास्तविक कक्षा 1 मान = 1 जो कि एक द्विआधारी परिणाम में सकारात्मक मूल्य के समान है।
वास्तविक कक्षा 2 मूल्य = 0 जो कि द्विआधारी परिणाम में एक नकारात्मक मूल्य के समान है।

भ्रम मैट्रिक्स के बाईं ओर का सूचकांक मूल रूप से वास्तविक मूल्यों को इंगित करता है और शीर्ष कॉलम पूर्वनिर्धारित मानों को इंगित करता है।

जब हम एक उलझन मैट्रिक्स बनाते हैं तो विभिन्न घटक मौजूद होते हैं। घटकों का उल्लेख नीचे किया गया है

सकारात्मक (पी): अनुमानित परिणाम सकारात्मक है (उदाहरण: छवि एक बिल्ली है)

नकारात्मक (N): अनुमानित परिणाम नकारात्मक है (उदाहरण: छवियाँ एक बिल्ली नहीं है)

ट्रू पॉजिटिव (टीपी): यहां टीपी मूल रूप से अनुमानित भविष्यवाणी करता है और वास्तविक मान 1 (सत्य) है

ट्रू नेगेटिव (TN): यहां TN अनुमानित भविष्यवाणी करता है और वास्तविक मान 0 (गलत) है

सी + + में रिट्रेसमेंट श्रृंखला

झूठी नकारात्मक (FN): यहाँ FN इंगित करता है कि अनुमानित मान 0 (ऋणात्मक) है और वास्तविक मान 1. है। यहाँ दोनों मान मेल नहीं खाते हैं। इसलिए यह मिथ्या नकारात्मक है।

झूठी सकारात्मक (FP): यहां एफपी इंगित करता है कि अनुमानित मूल्य 1 (पॉजिटिव) है और वास्तविक मूल्य 0. है। यहां फिर से दोनों मान बेमेल हैं। इसलिए यह झूठी सकारात्मक है।

सटीकता और भ्रम के घटक मैट्रिक्स

भ्रम मैट्रिक्स बनने के बाद और हम सभी घटक मूल्यों को निर्धारित करते हैं, सटीकता की गणना करना हमारे लिए काफी आसान हो जाता है। तो, आइए हम इसे बेहतर समझने के लिए घटकों पर एक नज़र डालें।

वर्गीकरण सटीकता

उपरोक्त सूत्र से, टीपी (ट्रू पॉजिटिव) और टीएन (ट्रू नेगेटिव) का योग सही अनुमानित परिणाम है। इसलिए प्रतिशत में सटीकता की गणना करने के लिए, हम सभी अन्य घटकों के साथ विभाजित करते हैं। हालाँकि, सटीकता में कुछ समस्याएं हैं और हम पूरी तरह से इस पर निर्भर नहीं हो सकते हैं।

आइए विचार करें कि हमारा डेटासेट पूरी तरह से असंतुलित है। इस परिदृश्य में, 98% सटीकता समस्या कथन के आधार पर अच्छी या बुरी हो सकती है। इसलिए हमारे पास कुछ और महत्वपूर्ण शब्द हैं जो हमें गणना की सटीकता के बारे में सुनिश्चित करने में मदद करेंगे। शर्तें नीचे दी गई हैं:

TPR (सच्ची सकारात्मक दर) या संवेदनशीलता:

सच्ची सकारात्मक दर जिसे संवेदनशीलता के रूप में भी जाना जाता है, कुल वास्तविक सकारात्मकता के संबंध में सच्चे सकारात्मक के प्रतिशत को मापता है जो कि (टीपी + एफएन) द्वारा इंगित किया गया है

अनुमानित कक्षा 1 मान ईजी: 1

अनुमानित कक्षा 2 मान ईजी: 0

कुल

वास्तविक कक्षा 1 मान

ईजी: 1

टीपी (ट्रू पॉजिटिव)

FN (गलत नकारात्मक)

कुल वास्तविक सकारात्मक

वास्तविक कक्षा 2 मान

ईजी: 0

एफपी (झूठी सकारात्मक)

TN (ट्रू नेगेटिव)

कुल वास्तविक नकारात्मक

टीपीआर = ट्रू पॉजिटिव / (ट्रू पॉजिटिव + गलत निगेटिव)

TNR (सच्ची ऋणात्मक दर) या विशिष्टता:

ट्रू निगेटिव रेट या स्पेसिफिकेशन कुल निगेटिव के संबंध में वास्तविक निगेटिव के अनुपात को मापता है

अनुमानित कक्षा 1 मान ईजी: 1

अनुमानित कक्षा 2 मान ईजी: 0

कुल

वास्तविक कक्षा 1 मान

ईजी: 1

टीपी (ट्रू पॉजिटिव)

FN (गलत नकारात्मक)

कुल वास्तविक सकारात्मक

वास्तविक कक्षा 2 मान

ईजी: 0

एफपी (झूठी सकारात्मक)

TN (ट्रू नेगेटिव)

कुल वास्तविक नकारात्मक

TNR = ट्रू नेगेटिव / (नेगेटिव नेगेटिव + गलत पॉजिटिव)

गोटो में सी ++

झूठी सकारात्मक दर (FPR):

झूठी सकारात्मक दर पूर्व निर्धारित सकारात्मक परिणाम (टीपी + एफपी) की कुल संख्या के लिए अनुमानित झूठी सकारात्मक (एफपी) का प्रतिशत है।

	अनुमानित कक्षा 1 मान ईजी: 1	अनुमानित कक्षा 2 मान ईजी: 0
वास्तविक कक्षा 1 मान ईजी: 1	टीपी (ट्रू पॉजिटिव)	FN (गलत नकारात्मक)
वास्तविक कक्षा 2 मान ईजी: 0	एफपी (झूठी सकारात्मक)	TN (ट्रू नेगेटिव)
	कुल अनुमानित सकारात्मक का योग	कुल अनुमानित ऋण का योग

FPR = गलत पॉजिटिव / (ट्रू पॉजिटिव + गलत पॉजिटिव)

झूठी नकारात्मक दर (FNR):

झूठी नकारात्मक दर पूर्व निर्धारित नकारात्मक परिणामों (TN + FN) की कुल संख्या के लिए पूर्व निर्धारित झूठी ऋणात्मक (FP) का प्रतिशत है।

	अनुमानित कक्षा 1 मान ईजी: 1	अनुमानित कक्षा 2 मान ईजी: 0
वास्तविक कक्षा 1 मान ईजी: 1	टीपी (ट्रू पॉजिटिव)	FN (गलत नकारात्मक)
वास्तविक कक्षा 2 मान ईजी: 0	एफपी (झूठी सकारात्मक)	TN (ट्रू नेगेटिव)
	कुल अनुमानित सकारात्मक का योग	कुल अनुमानित ऋण का योग

FNR = गलत नकारात्मक / (गलत नकारात्मक + गलत नकारात्मक)

परिशुद्धता, स्मरण, और एफ-माप

स्मरण करें:

एक रिकॉल ट्रू पॉजिटिव रेट के समान होता है और यह सभी पॉजिटिव पॉजिटिव वैल्यूज के सही पॉजिटिव पॉजिटिव वैल्यूज (टीपी) की कुल संख्या का अनुपात होता है।

परिशुद्धता:

प्रिसिजन मूलतः उन सभी बिंदुओं को इंगित करता है जो मॉडल के सकारात्मक होने की भविष्यवाणी करते हैं और उनमें से कितने प्रतिशत वास्तव में सकारात्मक हैं।

प्रिसिजन और रिकॉल मेट्रिक्स परिणाम हैं जो उपरोक्त सूत्रों से दिखाए गए सकारात्मक वर्ग पर ध्यान केंद्रित करते हैं।

एफ-उपाय

तो एफ-माप एक ऐसी तकनीक है जो परिशुद्धता और रिकॉल तकनीक दोनों को जोड़ती है और यह सामान्य अंकगणित माध्य के स्थान पर हार्मोनिक मीन का उपयोग करती है, जिसके कारण चरम मूल्यों को दंडित किया जाता है। एफ-माप को एफ 1-स्कोर भी कहा जाता है और इसे नीचे दिए गए सूत्र द्वारा दिया जाता है।

आइए एक उदाहरण पर विचार करें और देखें कि हम सटीकता, परिशुद्धता, स्मरण और एफ 1-स्कोर की गणना कैसे कर सकते हैं।

एन = 165	YES की भविष्यवाणी की	अनुमानित सं
वास्तविक हाँ	टीपी = 150	एफएन = 10
वर्तमान सं	एफपी = 20	टीएन = 100

- सटीकता = (टीपी + टीएन) / (टीपी + टीएन + एफपी + एफएन) = (150 + 100) / (150 + 100 + 20 + 10) = 0.89
- याद करें = टीपी / (टीपी + एफएन) = 150 / (150 + 10) = 0.93
- परिशुद्धता: टीपी / (टीपी + एफपी) = 150 / (150 + 20) = 0.88

एफ-माप = (2 * रिकॉल * प्रेसिजन) / (रिकॉल + प्रेजेंटेशन) = (2 * 0.93 * 0.88) / (0.93 + 0.88) = 0.90 है

पायथन और स्केलेर का उपयोग करके एक भ्रम मैट्रिक्स बनाना

अब हम एक उदाहरण देखेंगे कि हम स्केनियर लाइब्रेरी के साथ अजगर का उपयोग करके एक भ्रम मैट्रिक्स कैसे बना सकते हैं।

एक। प्रारंभ में, हम नीचे दिखाए गए अनुसार सटीकता की जांच करने के लिए वास्तविक डेटा और अनुमानित भविष्यवाणी की कुछ सूची बनाएंगे

# भ्रम मैट्रिक्स निर्माण के लिए पायथन लिपि। वास्तविक_दत्ता = [1, 1, 0, 1, 0, 1, 0, 0, 0,1,0,1] अनुमानित_दत्ता = [0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0,1,0,1]

२। हमें स्केलेर लाइब्रेरी से भ्रम मैट्रिक्स को आयात करने की आवश्यकता है जैसा कि नीचे दिखाया गया है:

मर्ज सॉर्ट कोड c ++

sklearn.metrics से confusion_matrix आयात करते हैं

३। अगला, हम नीचे दिखाए गए अनुसार उलझन मैट्रिक्स बनाएंगे:

final_results = confusion_matrix (वास्तविक_दाता, अनुमानित_दत्ता)

चार। अब हम नीचे दिखाए गए अनुसार पुस्तकालय को आयात करके सटीकता की गणना कर सकते हैं:

sklearn.metrics आयात सटीकता से_सर्किट सटीकता = सटीकता_स्कोर (वास्तविक_डेटा, अनुमानित_दत्ता)

५। अंत में, हम F1-स्कोर या F- माप की गणना करते हैं जैसा कि नीचे दिखाया गया है:

sklearn.metrics आयात वर्गीकरण से_प्रत्यक्ष रिपोर्ट = वर्गीकरण_प्रत्यक्ष (वास्तविक_दत्ता, अनुमानित_दत्ता)

नीचे पूरा कोड है:

वास्तविक_दत्ता = [1, 1, 0, 1, 0, 1, 0, 0, 0,1,0,1] अनुमानित_दत्ता = [0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, Sklearn.metrics से 0,1,0,1] confusion_matrix का आयात करते हैं। confusion_matrix final_results = confusion_matrix (real_data, predicted_data) sklearn.metrics से सटीकता (last_results) प्रिंट (अन्तिम_सर्कुट) सटीकता, सटीकता (s_dcore), जो कि प्रयासरत हैं। वास्तविक_डेटा, अनुमानित_डाटा) प्रिंट (सटीकता) प्रिंट (रिपोर्ट)

matrix

तो, इसके साथ, हम इस लेख के अंत में आते हैं। मुझे उम्मीद है कि कन्फ्यूजन मैट्रिक्स के बारे में आपका सारा कन्फ्यूजन अब सुलझ गया है।

एडुर्का की विभिन्न मशीन लर्निंग एल्गोरिदम जैसे प्रतिगमन, क्लस्टरिंग, डिसीजन ट्री, रैंडम फॉरेस्ट, नाओवे बेयस और क्यू-लर्निंग में विशेषज्ञता हासिल करने में आपकी मदद करता है। पायथन ट्रेनिंग का उपयोग करने वाली यह मशीन लर्निंग आपको सांख्यिकी, टाइम सीरीज़ और मशीन लर्निंग एल्गोरिदम की अलग-अलग कक्षाओं जैसे पर्यवेक्षित, अनसुनी और सुदृढीकरण एल्गोरिदम को उजागर करती है। डेटा साइंस सर्टिफिकेशन कोर्स के दौरान, आप मीडिया, हेल्थकेयर, सोशल मीडिया, एविएशन, एचआर पर वास्तविक जीवन के मामलों के अध्ययन को हल करेंगे।

मशीन लर्निंग में भ्रम मैट्रिक्स: आपका एक बंद समाधान

एक भ्रम मैट्रिक्स क्या है?

सटीकता और भ्रम के घटक मैट्रिक्स

परिशुद्धता, स्मरण, और एफ-माप

पायथन और स्केलेर का उपयोग करके एक भ्रम मैट्रिक्स बनाना

श्रेणियाँ

Popular Articles

सी ++ में ऑपरेटर ओवरलोडिंग कैसे लागू करें?

आपको जावा में नेटबीन्स के बारे में जानने की आवश्यकता है

सूचनात्मक प्रमाणन: सभी को जानना है

एडुर्का सक्सेस स्टोरी - श्रीराम का पैशन विरल डेटा

जावास्क्रिप्ट चर क्या है और इसे कैसे घोषित किया जाए?

पायथन में गणना फ़ंक्शन को सर्वश्रेष्ठ उपयोग कैसे करें?

हाइव और यार्न स्पार्क द्वारा विद्युतीकृत हो जाते हैं

SQLite ब्राउज़र क्या है और इसका उपयोग कैसे करें?

जावा 9 सुविधाएँ और सुधार

जावा में सबस्ट्रिंग: जानें कि सब्स्टिट्यूट () विधि का उपयोग कैसे करें

महत्वपूर्ण जावास्क्रिप्ट कार्य जिनके बारे में आपको जानना आवश्यक है

LinkedList बनाम ArrayList in Java: प्रमुख अंतरों को जानें