में , हम आम तौर पर 2 विभिन्न प्रकार के उपयोग के मामले हैं, , तथा मुसीबत। भ्रम मैट्रिक्स वर्गीकरण मॉडल की सटीकता की गणना करने में मदद करता है जो परोक्ष रूप से हमें वर्गीकरण मॉडल के प्रदर्शन का वर्णन करने में मदद करता है। यह एक मॉडल का मूल्यांकन करने के लिए सबसे महत्वपूर्ण कदम है। मैं इस लेख में निम्नलिखित विषयों को शामिल करूंगा:
2. सटीकता और भ्रम मैट्रिक्स के घटक
4. पायथन और स्केलेर का उपयोग करके एक भ्रम मैट्रिक्स बनाना
एक भ्रम मैट्रिक्स क्या है?
कन्फ़्यूज़न मैट्रिक्स पूर्वानुमानित परिणामों का तुलनात्मक सारांश है और किसी भी वर्गीकरण समस्या उपयोग मामले में वास्तविक परिणाम है। तुलनात्मक सारांश कुछ प्रशिक्षण डेटा के साथ प्रशिक्षित होने के बाद मॉडल के प्रदर्शन को निर्धारित करने के लिए अत्यंत आवश्यक है। एक द्विआधारी वर्गीकरण उपयोग के मामले के लिए, एक भ्रम मैट्रिक्स 2 × 2 मैट्रिक्स है जो नीचे दिखाया गया हैअनुमानित कक्षा 1 मान ईजी: 1 | अनुमानित कक्षा 2 मान ईजी: 0 | |
वास्तविक कक्षा 1 मान ईजी: 1 | टीपी (ट्रू पॉजिटिव) | FN (गलत नकारात्मक) |
वास्तविक कक्षा 2 मान ईजी: 0 | एफपी (झूठी सकारात्मक) | TN (ट्रू नेगेटिव) |
उपरोक्त आंकड़े से:
हमारे पास है,
- वास्तविक कक्षा 1 मान = 1 जो कि एक द्विआधारी परिणाम में सकारात्मक मूल्य के समान है।
- वास्तविक कक्षा 2 मूल्य = 0 जो कि द्विआधारी परिणाम में एक नकारात्मक मूल्य के समान है।
भ्रम मैट्रिक्स के बाईं ओर का सूचकांक मूल रूप से वास्तविक मूल्यों को इंगित करता है और शीर्ष कॉलम पूर्वनिर्धारित मानों को इंगित करता है।
जब हम एक उलझन मैट्रिक्स बनाते हैं तो विभिन्न घटक मौजूद होते हैं। घटकों का उल्लेख नीचे किया गया है
सकारात्मक (पी): अनुमानित परिणाम सकारात्मक है (उदाहरण: छवि एक बिल्ली है)
नकारात्मक (N): अनुमानित परिणाम नकारात्मक है (उदाहरण: छवियाँ एक बिल्ली नहीं है)
ट्रू पॉजिटिव (टीपी): यहां टीपी मूल रूप से अनुमानित भविष्यवाणी करता है और वास्तविक मान 1 (सत्य) है
ट्रू नेगेटिव (TN): यहां TN अनुमानित भविष्यवाणी करता है और वास्तविक मान 0 (गलत) है
सी + + में रिट्रेसमेंट श्रृंखला
झूठी नकारात्मक (FN): यहाँ FN इंगित करता है कि अनुमानित मान 0 (ऋणात्मक) है और वास्तविक मान 1. है। यहाँ दोनों मान मेल नहीं खाते हैं। इसलिए यह मिथ्या नकारात्मक है।
झूठी सकारात्मक (FP): यहां एफपी इंगित करता है कि अनुमानित मूल्य 1 (पॉजिटिव) है और वास्तविक मूल्य 0. है। यहां फिर से दोनों मान बेमेल हैं। इसलिए यह झूठी सकारात्मक है।
सटीकता और भ्रम के घटक मैट्रिक्स
भ्रम मैट्रिक्स बनने के बाद और हम सभी घटक मूल्यों को निर्धारित करते हैं, सटीकता की गणना करना हमारे लिए काफी आसान हो जाता है। तो, आइए हम इसे बेहतर समझने के लिए घटकों पर एक नज़र डालें।- वर्गीकरण सटीकता
उपरोक्त सूत्र से, टीपी (ट्रू पॉजिटिव) और टीएन (ट्रू नेगेटिव) का योग सही अनुमानित परिणाम है। इसलिए प्रतिशत में सटीकता की गणना करने के लिए, हम सभी अन्य घटकों के साथ विभाजित करते हैं। हालाँकि, सटीकता में कुछ समस्याएं हैं और हम पूरी तरह से इस पर निर्भर नहीं हो सकते हैं।
आइए विचार करें कि हमारा डेटासेट पूरी तरह से असंतुलित है। इस परिदृश्य में, 98% सटीकता समस्या कथन के आधार पर अच्छी या बुरी हो सकती है। इसलिए हमारे पास कुछ और महत्वपूर्ण शब्द हैं जो हमें गणना की सटीकता के बारे में सुनिश्चित करने में मदद करेंगे। शर्तें नीचे दी गई हैं:
- TPR (सच्ची सकारात्मक दर) या संवेदनशीलता:
सच्ची सकारात्मक दर जिसे संवेदनशीलता के रूप में भी जाना जाता है, कुल वास्तविक सकारात्मकता के संबंध में सच्चे सकारात्मक के प्रतिशत को मापता है जो कि (टीपी + एफएन) द्वारा इंगित किया गया है
अनुमानित कक्षा 1 मान ईजी: 1 | अनुमानित कक्षा 2 मान ईजी: 0 | कुल | |
वास्तविक कक्षा 1 मान ईजी: 1 | टीपी (ट्रू पॉजिटिव) | FN (गलत नकारात्मक) | कुल वास्तविक सकारात्मक |
वास्तविक कक्षा 2 मान ईजी: 0 | एफपी (झूठी सकारात्मक) | TN (ट्रू नेगेटिव) | कुल वास्तविक नकारात्मक |
- TNR (सच्ची ऋणात्मक दर) या विशिष्टता:
ट्रू निगेटिव रेट या स्पेसिफिकेशन कुल निगेटिव के संबंध में वास्तविक निगेटिव के अनुपात को मापता है
अनुमानित कक्षा 1 मान ईजी: 1 | अनुमानित कक्षा 2 मान ईजी: 0 | कुल | |
वास्तविक कक्षा 1 मान ईजी: 1 | टीपी (ट्रू पॉजिटिव) | FN (गलत नकारात्मक) | कुल वास्तविक सकारात्मक |
वास्तविक कक्षा 2 मान ईजी: 0 | एफपी (झूठी सकारात्मक) | TN (ट्रू नेगेटिव) | कुल वास्तविक नकारात्मक |
TNR = ट्रू नेगेटिव / (नेगेटिव नेगेटिव + गलत पॉजिटिव)
गोटो में सी ++
- झूठी सकारात्मक दर (FPR):
झूठी सकारात्मक दर पूर्व निर्धारित सकारात्मक परिणाम (टीपी + एफपी) की कुल संख्या के लिए अनुमानित झूठी सकारात्मक (एफपी) का प्रतिशत है।
अनुमानित कक्षा 1 मान ईजी: 1 | अनुमानित कक्षा 2 मान ईजी: 0 | |
वास्तविक कक्षा 1 मान ईजी: 1 | टीपी (ट्रू पॉजिटिव) | FN (गलत नकारात्मक) |
वास्तविक कक्षा 2 मान ईजी: 0 | एफपी (झूठी सकारात्मक) | TN (ट्रू नेगेटिव) |
कुल अनुमानित सकारात्मक का योग | कुल अनुमानित ऋण का योग |
- झूठी नकारात्मक दर (FNR):
झूठी नकारात्मक दर पूर्व निर्धारित नकारात्मक परिणामों (TN + FN) की कुल संख्या के लिए पूर्व निर्धारित झूठी ऋणात्मक (FP) का प्रतिशत है।
परिशुद्धता, स्मरण, और एफ-माप
- स्मरण करें:
एक रिकॉल ट्रू पॉजिटिव रेट के समान होता है और यह सभी पॉजिटिव पॉजिटिव वैल्यूज के सही पॉजिटिव पॉजिटिव वैल्यूज (टीपी) की कुल संख्या का अनुपात होता है।
- परिशुद्धता:
प्रिसिजन मूलतः उन सभी बिंदुओं को इंगित करता है जो मॉडल के सकारात्मक होने की भविष्यवाणी करते हैं और उनमें से कितने प्रतिशत वास्तव में सकारात्मक हैं।
प्रिसिजन और रिकॉल मेट्रिक्स परिणाम हैं जो उपरोक्त सूत्रों से दिखाए गए सकारात्मक वर्ग पर ध्यान केंद्रित करते हैं।
- एफ-उपाय
तो एफ-माप एक ऐसी तकनीक है जो परिशुद्धता और रिकॉल तकनीक दोनों को जोड़ती है और यह सामान्य अंकगणित माध्य के स्थान पर हार्मोनिक मीन का उपयोग करती है, जिसके कारण चरम मूल्यों को दंडित किया जाता है। एफ-माप को एफ 1-स्कोर भी कहा जाता है और इसे नीचे दिए गए सूत्र द्वारा दिया जाता है।
आइए एक उदाहरण पर विचार करें और देखें कि हम सटीकता, परिशुद्धता, स्मरण और एफ 1-स्कोर की गणना कैसे कर सकते हैं।
एन = 165 | YES की भविष्यवाणी की | अनुमानित सं |
वास्तविक हाँ | टीपी = 150 | एफएन = 10 |
वर्तमान सं | एफपी = 20 | टीएन = 100 |
- सटीकता = (टीपी + टीएन) / (टीपी + टीएन + एफपी + एफएन) = (150 + 100) / (150 + 100 + 20 + 10) = 0.89
- याद करें = टीपी / (टीपी + एफएन) = 150 / (150 + 10) = 0.93
- परिशुद्धता: टीपी / (टीपी + एफपी) = 150 / (150 + 20) = 0.88
- एफ-माप = (2 * रिकॉल * प्रेसिजन) / (रिकॉल + प्रेजेंटेशन) = (2 * 0.93 * 0.88) / (0.93 + 0.88) = 0.90 है
पायथन और स्केलेर का उपयोग करके एक भ्रम मैट्रिक्स बनाना
अब हम एक उदाहरण देखेंगे कि हम स्केनियर लाइब्रेरी के साथ अजगर का उपयोग करके एक भ्रम मैट्रिक्स कैसे बना सकते हैं।
एक। प्रारंभ में, हम नीचे दिखाए गए अनुसार सटीकता की जांच करने के लिए वास्तविक डेटा और अनुमानित भविष्यवाणी की कुछ सूची बनाएंगे
# भ्रम मैट्रिक्स निर्माण के लिए पायथन लिपि। वास्तविक_दत्ता = [1, 1, 0, 1, 0, 1, 0, 0, 0,1,0,1] अनुमानित_दत्ता = [0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0,1,0,1]
२। हमें स्केलेर लाइब्रेरी से भ्रम मैट्रिक्स को आयात करने की आवश्यकता है जैसा कि नीचे दिखाया गया है:
मर्ज सॉर्ट कोड c ++
sklearn.metrics से confusion_matrix आयात करते हैं
३। अगला, हम नीचे दिखाए गए अनुसार उलझन मैट्रिक्स बनाएंगे:
final_results = confusion_matrix (वास्तविक_दाता, अनुमानित_दत्ता)
चार। अब हम नीचे दिखाए गए अनुसार पुस्तकालय को आयात करके सटीकता की गणना कर सकते हैं:
sklearn.metrics आयात सटीकता से_सर्किट सटीकता = सटीकता_स्कोर (वास्तविक_डेटा, अनुमानित_दत्ता)
५। अंत में, हम F1-स्कोर या F- माप की गणना करते हैं जैसा कि नीचे दिखाया गया है:
sklearn.metrics आयात वर्गीकरण से_प्रत्यक्ष रिपोर्ट = वर्गीकरण_प्रत्यक्ष (वास्तविक_दत्ता, अनुमानित_दत्ता)
नीचे पूरा कोड है:
वास्तविक_दत्ता = [1, 1, 0, 1, 0, 1, 0, 0, 0,1,0,1] अनुमानित_दत्ता = [0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, Sklearn.metrics से 0,1,0,1] confusion_matrix का आयात करते हैं। confusion_matrix final_results = confusion_matrix (real_data, predicted_data) sklearn.metrics से सटीकता (last_results) प्रिंट (अन्तिम_सर्कुट) सटीकता, सटीकता (s_dcore), जो कि प्रयासरत हैं। वास्तविक_डेटा, अनुमानित_डाटा) प्रिंट (सटीकता) प्रिंट (रिपोर्ट)
तो, इसके साथ, हम इस लेख के अंत में आते हैं। मुझे उम्मीद है कि कन्फ्यूजन मैट्रिक्स के बारे में आपका सारा कन्फ्यूजन अब सुलझ गया है।
एडुर्का की विभिन्न मशीन लर्निंग एल्गोरिदम जैसे प्रतिगमन, क्लस्टरिंग, डिसीजन ट्री, रैंडम फॉरेस्ट, नाओवे बेयस और क्यू-लर्निंग में विशेषज्ञता हासिल करने में आपकी मदद करता है। पायथन ट्रेनिंग का उपयोग करने वाली यह मशीन लर्निंग आपको सांख्यिकी, टाइम सीरीज़ और मशीन लर्निंग एल्गोरिदम की अलग-अलग कक्षाओं जैसे पर्यवेक्षित, अनसुनी और सुदृढीकरण एल्गोरिदम को उजागर करती है। डेटा साइंस सर्टिफिकेशन कोर्स के दौरान, आप मीडिया, हेल्थकेयर, सोशल मीडिया, एविएशन, एचआर पर वास्तविक जीवन के मामलों के अध्ययन को हल करेंगे।