K- का अर्थ है क्राइम डेटासेट पर क्लस्टरिंग

अमेरिकी अपराध डेटासेट पर गुच्छों का कार्यान्वयन

इस ब्लॉग में, आप समझेंगे कि K- साधन क्लस्टरिंग क्या है और इसे विभिन्न अमेरिकी राज्यों में एकत्रित आपराधिक डेटा पर कैसे लागू किया जा सकता है। डेटा में अपराध शामिल हैं जैसे: हमला, हत्या, और 1973 में 50 अमेरिकी राज्यों में से प्रत्येक में 100,000 निवासियों की गिरफ्तारी में बलात्कार। इसके अलावा डेटा के बारे में आप भी जानेंगे:

    • समूहों की इष्टतम संख्या का पता लगाना।
    • विकृति को कम करना
    • कोहनी वक्र बनाना और विश्लेषण करना।
  • K- साधन एल्गोरिथ्म के तंत्र को समझना।

हमें विश्लेषण के साथ शुरू करते हैं। डेटा इस प्रकार है:





dataset

इस डेटासेट को डाउनलोड करने के लिए चित्र पर क्लिक करें

इस डाटासेट की जरूरत है? इसे डाउनलोड करने के लिए उपरोक्त चित्र पर क्लिक करें।



पहले विश्लेषण के लिए डेटा तैयार करते हैं। ऐसा करने के लिए, हमें डेटा में मौजूद किसी भी NA मान को हटा देना चाहिए और डेटा को मैट्रिक्स में बदलना चाहिए।

qlikview ट्यूटोरियल कदम से कदम
> क्राइम ० क्राइम स्ट्रॉ (अपराध) अंक [१:५०, १: ४] १३.२ १० 7.9. crime ९ 3.3 ९ .९ ३.३ १५.४ १ --.४ १r.४ ... - अत्र (*, 'डिमनेम्स') = २ की सूची .. $: chr [१ : 50] 'अलबामा' 'अलास्का' 'एरिज़ोना' 'अर्कांसस' ... .. $: chr [1: 4] 'मर्डर' 'आक्रमण' 'अर्बनपॉप' 'रेप'

आइए हम समूहों की संख्या को लेते हैं। 5. कोण () फ़ंक्शन इनपुट डेटा लेता है और क्लस्टर की संख्या जिसमें डेटा को क्लस्टर किया जाना है। वाक्यविन्यास है: किमी (डेटा, के) जहां k क्लस्टर केंद्रों की संख्या है।

> सीएल वर्ग (सीएल) [1] 'kmeans'

क्लस्टरिंग का विश्लेषण:



> str (cl) 9 $ क्लस्टर की सूची: नामांकित int [1:50] 5 3 3 5 3 4 5 5 3 3 5 ... ..- attr (*, 'नाम') = chr [1:50] ' अलबामा '' अलास्का '' एरिज़ोना '' अर्कांसस '... $ केंद्र: संख्या [1: 5, 1: 4] 2.95 6.11 12.14 5.59 11.3 ... ..- attr (*,' डिमनेम्स ') = 2 की सूची .. .. $: chr [1: 5] '1' '2' '3' '4' ... .. .. $: chr [1: 4] 'हत्या' 'आक्रमण' 'UrbanPop' 'बलात्कार '$ tots: num 355808 $ withinss: num [1: 5] 4548 2286 16272 1480 3653 $ tot.withinss: num 28240 $ betweenss: num 327568 $ size: int [1: 5] 10 9 14 10 7 $ iter: int 3 $ ifault: int 0 - attr (*, 'class') = chr 'kmeans'

Str () फंक्शन किमीन्स की संरचना देता है जिसमें विभिन्न पैरामीटर जैसे विंस, बेटवेन्स आदि शामिल होते हैं, जिसका विश्लेषण करके आप किमी के प्रदर्शन का पता लगा सकते हैं।

betweenss: वर्गों के योग के बीच यानी इंट्राक्लस्टर समानता

withinss: वर्गाकार राशि के भीतर यानी इंटरक्लस्टर समानता

कुलदेवता: सभी समूहों के सभी योगों का योग अर्थात् पूर्ण अंतर-क्लस्टर समानता

एक अच्छी क्लस्टरिंग, विंस का कम मूल्य और बेटवेन्स का उच्च मूल्य होगा जो शुरू में चुने गए क्लस्टर्स की संख्या पर निर्भर करता है। आइए देखें कि हम 'k' का इष्टतम मान कैसे पा सकते हैं।

’K 'का इष्टतम मान ज्ञात करना

’K 'का एक इष्टतम मूल्य वह मूल्य है जो हमें न्यूनतम विकृति वाले समूहों का एक परिवर्तित सेट देता है। विकृति को दूर करने के लिए, बदतर क्लस्टर बनेंगे।

विरूपण:

विरूपण की गणना प्रत्येक समूह से ‘withinss’ के संदर्भ में की जा सकती है। किसी विशेष क्लस्टर के ins withinss ’का मान जितना कम होगा, उतनी ही अधिक घनी आबादी होगी, इस प्रकार न्यूनतम विरूपण होगा।

kmeans.wss.k<- function(crime, k){ km = kmeans(crime, k) return (km$tot.withinss) }

यह फ़ंक्शन डेटा और k का मूल्य लेता है और इसके लिए 'किमी $ टोटविथिन' लौटाता है। ‘किमी $ टोटविथिंस 'कुल चौकों की कुल योग राशि है, इस प्रकार बनाए गए सभी 5 समूहों के खंडों सहित i.e.योग (withinss)। 'किमी $ टोटविथिन' का मूल्य जितना अधिक होगा, विरूपण उतना ही अधिक होगा।

K = 5 के लिए, विंस 24417.02 है

> kmeans.wss.k (अपराध, 5) [1] 24417.02

मान लें कि k का मान 5 से बढ़ाकर 10 कर दिया गया है, और अंतर देखें।

> kmeans.wss.k (अपराध, 10) [1] 11083.04

यह देखा जा सकता है कि जैसे जैसे K का मान बढ़ता है, विकृति कम होती जाती है।

हम 'किमी $ टोटविंथिंस' के विभिन्न मूल्यों को निकाल सकते हैं और विरूपण और कश्मीर के मूल्य के बीच संबंध खोजने के लिए उन्हें एक ग्राफ में प्लॉट कर सकते हैं। निम्नलिखित कार्य हमारे लिए करता है:

> kmeans.dis maxk = 10> dis = kmeans.dis (अपराध, maxk)> भूखंड (1: maxk, जिले, प्रकार = 'b', xlab = 'क्लस्टर की संख्या', + ylab = 'विरूपण, + कॉल = 'नीला')

ता दा !!! इस प्रकार हमारे पास प्रसिद्ध कोहनी वक्र है।

कोहनी वक्र:

यह ’k’, समूहों की संख्या और k के प्रत्येक मान के लिए ith totwithinss ’(या विरूपण) के बीच की साजिश है। आप देख सकते हैं कि जब क्लस्टर की संख्या कम होती है, तो विकृति में धीरे-धीरे कमी होती है लेकिन जैसे-जैसे हम k का मान बढ़ाते जाते हैं, विरूपण मूल्यों में कमी की दर स्थिर होती जाती है।

K का यह मान जिसके आगे विकृति दर स्थिर हो जाती है, इष्टतम मान है। यहाँ k = 4।

आइए हम यह समझने के लिए कुछ एनीमेशन लागू करें कि आर ने हमें किस तरह के परिणाम दिए हैं।

पुस्तकालय (एनीमेशन)> सीएल<- kmeans.ani(crime, 4)

एल्गोरिथ्म क्लस्टरिंग

आइए हम उस एल्गोरिथ्म को समझते हैं जिस पर k- साधन क्लस्टरिंग कार्य करता है:

स्टेप 1। यदि k = 4, हम 4 यादृच्छिक बिंदुओं का चयन करते हैं और उन्हें क्लस्टर के लिए क्लस्टर केंद्र बनाने के लिए मान लेते हैं।

चरण 2। हम अंतरिक्ष से एक यादृच्छिक डेटा बिंदु लेते हैं और सभी 4 क्लस्टर केंद्रों से इसकी दूरी का पता लगाते हैं। यदि डेटा बिंदु हरे रंग के क्लस्टर केंद्र के सबसे करीब है, तो यह हरे रंग का है और इसी तरह सभी बिंदुओं को 4 समूहों के बीच वर्गीकृत किया गया है।

चरण 3। अब हम सभी हरे बिंदुओं के केंद्रक की गणना करते हैं और उस बिंदु को उस क्लस्टर के क्लस्टर केंद्र के रूप में असाइन करते हैं।

इसी तरह, हम सभी 4 रंगीन (क्लस्टर) बिंदुओं के लिए सेंट्रोइड्स की गणना करते हैं और क्लस्टर केंद्रों के रूप में नए सेंट्रोइड्स असाइन करते हैं।

चरण 4। जब तक क्लस्टर केंद्र एक बिंदु पर और अब नहीं चलते, तब तक चरण -2 और चरण -3 पुनरावृत्त रूप से चलाए जाते हैं।


इस प्रकार, हम अभिसरण समूहों केंद्रों तक पहुँचते हैं।

यह देखा जा सकता है कि डेटा को 4 समूहों में विभाजित किया गया है। क्लस्टर केंद्र हैं:

> सीएल $ केंद्र मर्डर असॉल्ट अर्बनपॉप रेप टेक्सास 4.740741 104.8519 62.96296 16.10 लुइसियाना 10.907143 219.9286 71.71429 25.95 साउथ कैरोलिना 13.375000 284.55 46.25000 25.05 न्यू मैक्सिको 11.040000 298.0000 77.60000 32.68

क्लस्टर केंद्र के रूप में Mexico न्यू मैक्सिको ’के साथ क्लस्टर -4 में सबसे अधिक आबादी के साथ एक बड़ी अपराध दर भी है।

क्लस्टर -3 और क्लस्टर -2 का अनुसरण करते हैं।

प्रत्येक राज्य को एक क्लस्टर सौंपा गया है, जिसके आधार पर अब हम इसकी अपराध रैंकिंग की भविष्यवाणी कर सकते हैं। आउटपुट दिखता है:

क्या आप हमसे कोई प्रश्न पूछना चाहते हैं? कृपया टिप्पणी अनुभाग में इसका उल्लेख करें और हम आपके पास वापस आ जाएंगे।

संबंधित पोस्ट: