मशीन लर्निंग में भ्रम मैट्रिक्स: आपका एक बंद समाधान



यह लेख कन्फ्यूजन मैट्रिक्स पर केंद्रित है, जो किसी भी मशीन लर्निंग एल्गोरिथम का सबसे महत्वपूर्ण पहलुओं में से एक है, जो इसका मूल्यांकन करने के लिए उपयोग किया जाता है।

में , हम आम तौर पर 2 विभिन्न प्रकार के उपयोग के मामले हैं, , तथा मुसीबत। भ्रम मैट्रिक्स वर्गीकरण मॉडल की सटीकता की गणना करने में मदद करता है जो परोक्ष रूप से हमें वर्गीकरण मॉडल के प्रदर्शन का वर्णन करने में मदद करता है। यह एक मॉडल का मूल्यांकन करने के लिए सबसे महत्वपूर्ण कदम है। मैं इस लेख में निम्नलिखित विषयों को शामिल करूंगा:

1. एक भ्रम मैट्रिक्स क्या है?





2. सटीकता और भ्रम मैट्रिक्स के घटक

3. परिशुद्धता, याद और एफ-उपाय



4. पायथन और स्केलेर का उपयोग करके एक भ्रम मैट्रिक्स बनाना

एक भ्रम मैट्रिक्स क्या है?

कन्फ़्यूज़न मैट्रिक्स पूर्वानुमानित परिणामों का तुलनात्मक सारांश है और किसी भी वर्गीकरण समस्या उपयोग मामले में वास्तविक परिणाम है। तुलनात्मक सारांश कुछ प्रशिक्षण डेटा के साथ प्रशिक्षित होने के बाद मॉडल के प्रदर्शन को निर्धारित करने के लिए अत्यंत आवश्यक है। Accuracy-Confusion-Matrixएक द्विआधारी वर्गीकरण उपयोग के मामले के लिए, एक भ्रम मैट्रिक्स 2 × 2 मैट्रिक्स है जो नीचे दिखाया गया है
अनुमानित कक्षा 1 मान ईजी: 1 अनुमानित कक्षा 2 मान ईजी: 0
वास्तविक कक्षा 1 मान

ईजी: 1

टीपी (ट्रू पॉजिटिव) FN (गलत नकारात्मक)
वास्तविक कक्षा 2 मान



ईजी: 0

एफपी (झूठी सकारात्मक) TN (ट्रू नेगेटिव)

उपरोक्त आंकड़े से:
हमारे पास है,

  • वास्तविक कक्षा 1 मान = 1 जो कि एक द्विआधारी परिणाम में सकारात्मक मूल्य के समान है।
  • वास्तविक कक्षा 2 मूल्य = 0 जो कि द्विआधारी परिणाम में एक नकारात्मक मूल्य के समान है।

भ्रम मैट्रिक्स के बाईं ओर का सूचकांक मूल रूप से वास्तविक मूल्यों को इंगित करता है और शीर्ष कॉलम पूर्वनिर्धारित मानों को इंगित करता है।

जब हम एक उलझन मैट्रिक्स बनाते हैं तो विभिन्न घटक मौजूद होते हैं। घटकों का उल्लेख नीचे किया गया है

सकारात्मक (पी): अनुमानित परिणाम सकारात्मक है (उदाहरण: छवि एक बिल्ली है)

नकारात्मक (N): अनुमानित परिणाम नकारात्मक है (उदाहरण: छवियाँ एक बिल्ली नहीं है)

ट्रू पॉजिटिव (टीपी): यहां टीपी मूल रूप से अनुमानित भविष्यवाणी करता है और वास्तविक मान 1 (सत्य) है

ट्रू नेगेटिव (TN): यहां TN अनुमानित भविष्यवाणी करता है और वास्तविक मान 0 (गलत) है

सी + + में रिट्रेसमेंट श्रृंखला

झूठी नकारात्मक (FN): यहाँ FN इंगित करता है कि अनुमानित मान 0 (ऋणात्मक) है और वास्तविक मान 1. है। यहाँ दोनों मान मेल नहीं खाते हैं। इसलिए यह मिथ्या नकारात्मक है।

झूठी सकारात्मक (FP): यहां एफपी इंगित करता है कि अनुमानित मूल्य 1 (पॉजिटिव) है और वास्तविक मूल्य 0. है। यहां फिर से दोनों मान बेमेल हैं। इसलिए यह झूठी सकारात्मक है।

सटीकता और भ्रम के घटक मैट्रिक्स

भ्रम मैट्रिक्स बनने के बाद और हम सभी घटक मूल्यों को निर्धारित करते हैं, सटीकता की गणना करना हमारे लिए काफी आसान हो जाता है। तो, आइए हम इसे बेहतर समझने के लिए घटकों पर एक नज़र डालें।
  • वर्गीकरण सटीकता

उपरोक्त सूत्र से, टीपी (ट्रू पॉजिटिव) और टीएन (ट्रू नेगेटिव) का योग सही अनुमानित परिणाम है। इसलिए प्रतिशत में सटीकता की गणना करने के लिए, हम सभी अन्य घटकों के साथ विभाजित करते हैं। हालाँकि, सटीकता में कुछ समस्याएं हैं और हम पूरी तरह से इस पर निर्भर नहीं हो सकते हैं।

आइए विचार करें कि हमारा डेटासेट पूरी तरह से असंतुलित है। इस परिदृश्य में, 98% सटीकता समस्या कथन के आधार पर अच्छी या बुरी हो सकती है। इसलिए हमारे पास कुछ और महत्वपूर्ण शब्द हैं जो हमें गणना की सटीकता के बारे में सुनिश्चित करने में मदद करेंगे। शर्तें नीचे दी गई हैं:

  • TPR (सच्ची सकारात्मक दर) या संवेदनशीलता:

सच्ची सकारात्मक दर जिसे संवेदनशीलता के रूप में भी जाना जाता है, कुल वास्तविक सकारात्मकता के संबंध में सच्चे सकारात्मक के प्रतिशत को मापता है जो कि (टीपी + एफएन) द्वारा इंगित किया गया है

अनुमानित कक्षा 1 मान ईजी: 1 अनुमानित कक्षा 2 मान ईजी: 0 कुल
वास्तविक कक्षा 1 मान

ईजी: 1

टीपी (ट्रू पॉजिटिव) FN (गलत नकारात्मक) कुल वास्तविक सकारात्मक
वास्तविक कक्षा 2 मान

ईजी: 0

एफपी (झूठी सकारात्मक)TN (ट्रू नेगेटिव)कुल वास्तविक नकारात्मक
टीपीआर = ट्रू पॉजिटिव / (ट्रू पॉजिटिव + गलत निगेटिव)
  • TNR (सच्ची ऋणात्मक दर) या विशिष्टता:

ट्रू निगेटिव रेट या स्पेसिफिकेशन कुल निगेटिव के संबंध में वास्तविक निगेटिव के अनुपात को मापता है

अनुमानित कक्षा 1 मान ईजी: 1 अनुमानित कक्षा 2 मान ईजी: 0 कुल
वास्तविक कक्षा 1 मान

ईजी: 1

टीपी (ट्रू पॉजिटिव)FN (गलत नकारात्मक)कुल वास्तविक सकारात्मक
वास्तविक कक्षा 2 मान

ईजी: 0

एफपी (झूठी सकारात्मक) TN (ट्रू नेगेटिव) कुल वास्तविक नकारात्मक

TNR = ट्रू नेगेटिव / (नेगेटिव नेगेटिव + गलत पॉजिटिव)

गोटो में सी ++
  • झूठी सकारात्मक दर (FPR):

झूठी सकारात्मक दर पूर्व निर्धारित सकारात्मक परिणाम (टीपी + एफपी) की कुल संख्या के लिए अनुमानित झूठी सकारात्मक (एफपी) का प्रतिशत है।

अनुमानित कक्षा 1 मान ईजी: 1 अनुमानित कक्षा 2 मान ईजी: 0
वास्तविक कक्षा 1 मान ईजी: 1 टीपी (ट्रू पॉजिटिव) FN (गलत नकारात्मक)
वास्तविक कक्षा 2 मान ईजी: 0 एफपी (झूठी सकारात्मक) TN (ट्रू नेगेटिव)
कुल अनुमानित सकारात्मक का योग कुल अनुमानित ऋण का योग
FPR = गलत पॉजिटिव / (ट्रू पॉजिटिव + गलत पॉजिटिव)
  • झूठी नकारात्मक दर (FNR):

झूठी नकारात्मक दर पूर्व निर्धारित नकारात्मक परिणामों (TN + FN) की कुल संख्या के लिए पूर्व निर्धारित झूठी ऋणात्मक (FP) का प्रतिशत है।

अनुमानित कक्षा 1 मान ईजी: 1 अनुमानित कक्षा 2 मान ईजी: 0
वास्तविक कक्षा 1 मान ईजी: 1टीपी (ट्रू पॉजिटिव) FN (गलत नकारात्मक)
वास्तविक कक्षा 2 मान ईजी: 0एफपी (झूठी सकारात्मक) TN (ट्रू नेगेटिव)
कुल अनुमानित सकारात्मक का योग कुल अनुमानित ऋण का योग
FNR = गलत नकारात्मक / (गलत नकारात्मक + गलत नकारात्मक)

परिशुद्धता, स्मरण, और एफ-माप

  • स्मरण करें:

एक रिकॉल ट्रू पॉजिटिव रेट के समान होता है और यह सभी पॉजिटिव पॉजिटिव वैल्यूज के सही पॉजिटिव पॉजिटिव वैल्यूज (टीपी) की कुल संख्या का अनुपात होता है।

  • परिशुद्धता:

प्रिसिजन मूलतः उन सभी बिंदुओं को इंगित करता है जो मॉडल के सकारात्मक होने की भविष्यवाणी करते हैं और उनमें से कितने प्रतिशत वास्तव में सकारात्मक हैं।

प्रिसिजन और रिकॉल मेट्रिक्स परिणाम हैं जो उपरोक्त सूत्रों से दिखाए गए सकारात्मक वर्ग पर ध्यान केंद्रित करते हैं।

  • एफ-उपाय

तो एफ-माप एक ऐसी तकनीक है जो परिशुद्धता और रिकॉल तकनीक दोनों को जोड़ती है और यह सामान्य अंकगणित माध्य के स्थान पर हार्मोनिक मीन का उपयोग करती है, जिसके कारण चरम मूल्यों को दंडित किया जाता है। एफ-माप को एफ 1-स्कोर भी कहा जाता है और इसे नीचे दिए गए सूत्र द्वारा दिया जाता है।

आइए एक उदाहरण पर विचार करें और देखें कि हम सटीकता, परिशुद्धता, स्मरण और एफ 1-स्कोर की गणना कैसे कर सकते हैं।

एन = 165 YES की भविष्यवाणी की अनुमानित सं
वास्तविक हाँ टीपी = 150 एफएन = 10
वर्तमान सं एफपी = 20 टीएन = 100
    • सटीकता = (टीपी + टीएन) / (टीपी + टीएन + एफपी + एफएन) = (150 + 100) / (150 + 100 + 20 + 10) = 0.89
    • याद करें = टीपी / (टीपी + एफएन) = 150 / (150 + 10) = 0.93
    • परिशुद्धता: टीपी / (टीपी + एफपी) = 150 / (150 + 20) = 0.88

  • एफ-माप = (2 * रिकॉल * प्रेसिजन) / (रिकॉल + प्रेजेंटेशन) = (2 * 0.93 * 0.88) / (0.93 + 0.88) = 0.90 है

पायथन और स्केलेर का उपयोग करके एक भ्रम मैट्रिक्स बनाना

अब हम एक उदाहरण देखेंगे कि हम स्केनियर लाइब्रेरी के साथ अजगर का उपयोग करके एक भ्रम मैट्रिक्स कैसे बना सकते हैं।

एक। प्रारंभ में, हम नीचे दिखाए गए अनुसार सटीकता की जांच करने के लिए वास्तविक डेटा और अनुमानित भविष्यवाणी की कुछ सूची बनाएंगे

# भ्रम मैट्रिक्स निर्माण के लिए पायथन लिपि। वास्तविक_दत्ता = [1, 1, 0, 1, 0, 1, 0, 0, 0,1,0,1] अनुमानित_दत्ता = [0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0,1,0,1]

२। हमें स्केलेर लाइब्रेरी से भ्रम मैट्रिक्स को आयात करने की आवश्यकता है जैसा कि नीचे दिखाया गया है:

मर्ज सॉर्ट कोड c ++
sklearn.metrics से confusion_matrix आयात करते हैं

३। अगला, हम नीचे दिखाए गए अनुसार उलझन मैट्रिक्स बनाएंगे:

final_results = confusion_matrix (वास्तविक_दाता, अनुमानित_दत्ता)

चार। अब हम नीचे दिखाए गए अनुसार पुस्तकालय को आयात करके सटीकता की गणना कर सकते हैं:

sklearn.metrics आयात सटीकता से_सर्किट सटीकता = सटीकता_स्कोर (वास्तविक_डेटा, अनुमानित_दत्ता)

५। अंत में, हम F1-स्कोर या F- माप की गणना करते हैं जैसा कि नीचे दिखाया गया है:

sklearn.metrics आयात वर्गीकरण से_प्रत्यक्ष रिपोर्ट = वर्गीकरण_प्रत्यक्ष (वास्तविक_दत्ता, अनुमानित_दत्ता)

नीचे पूरा कोड है:

वास्तविक_दत्ता = [1, 1, 0, 1, 0, 1, 0, 0, 0,1,0,1] अनुमानित_दत्ता = [0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, Sklearn.metrics से 0,1,0,1] confusion_matrix का आयात करते हैं। confusion_matrix final_results = confusion_matrix (real_data, predicted_data) sklearn.metrics से सटीकता (last_results) प्रिंट (अन्तिम_सर्कुट) सटीकता, सटीकता (s_dcore), जो कि प्रयासरत हैं। वास्तविक_डेटा, अनुमानित_डाटा) प्रिंट (सटीकता) प्रिंट (रिपोर्ट)

matrix

तो, इसके साथ, हम इस लेख के अंत में आते हैं। मुझे उम्मीद है कि कन्फ्यूजन मैट्रिक्स के बारे में आपका सारा कन्फ्यूजन अब सुलझ गया है।

एडुर्का की विभिन्न मशीन लर्निंग एल्गोरिदम जैसे प्रतिगमन, क्लस्टरिंग, डिसीजन ट्री, रैंडम फॉरेस्ट, नाओवे बेयस और क्यू-लर्निंग में विशेषज्ञता हासिल करने में आपकी मदद करता है। पायथन ट्रेनिंग का उपयोग करने वाली यह मशीन लर्निंग आपको सांख्यिकी, टाइम सीरीज़ और मशीन लर्निंग एल्गोरिदम की अलग-अलग कक्षाओं जैसे पर्यवेक्षित, अनसुनी और सुदृढीकरण एल्गोरिदम को उजागर करती है। डेटा साइंस सर्टिफिकेशन कोर्स के दौरान, आप मीडिया, हेल्थकेयर, सोशल मीडिया, एविएशन, एचआर पर वास्तविक जीवन के मामलों के अध्ययन को हल करेंगे।