अपाचे स्पार्क COMBBYKEY समझाया

पृथ्वीराज बोस द्वारा योगदान दिया गया

शुरुआती के लिए एमएस sql ट्यूटोरियल

स्पार्क एक लाइटनिंग-फास्ट क्लस्टर कंप्यूटिंग ढांचा है जिसे तेजी से कम्प्यूटेशन और पेशेवरों की मांग के लिए डिज़ाइन किया गया है आज बाजार में पर्याप्त है।यहाँ स्पार्क में एक शक्तिशाली एपीआई है जो कम्बाइकबाय ।

एपीआई पैमाना: org.apache.spark.PairRDDFunctions.combineByKey ।

पायथन एपीआई: pyspark.RDD.combineByKey ।

एपीआई तीन कार्य करता है (के रूप में) लंबोदर भाव में है अजगर या अनाम फ़ंक्शन में है सीढ़ी ), अर्थात्,

कॉम्बिनेशन फ़ंक्शन बनाएं: x
मर्ज मान फ़ंक्शन: y
विलय कॉम्बिनर्स फ़ंक्शन: z

और एपीआई प्रारूप है CombByKey (x, y, z) ।

आइए एक उदाहरण देखें (स्काला में)। पूर्ण स्काला स्रोत पाया जा सकता है यहाँ ।

हमारा उद्देश्य प्रति छात्र औसत अंक प्राप्त करना है।

यहाँ एक प्लेसहोल्डर क्लास है स्कोरडिटेल एक विषय के स्कोर के साथ छात्रों के नाम को संग्रहीत करना।

Scoredetail-spark-combinebykey

कुछ परीक्षण डेटा उत्पन्न होते हैं और कुंजी-जोड़ी मूल्यों में परिवर्तित हो जाते हैं कुंजी = छात्रों का नाम तथा मान = स्कोरडेल उदाहरण

फिर हम एक Pair RDD बनाते हैं जैसा कि नीचे दिए गए कोड के टुकड़े में दिखाया गया है। बस प्रयोग के लिए, मैंने आकार 3 का हैश पार्टीशनर बनाया है, इसलिए तीनों विभाजनों में क्रमशः 2, 2 और 4 प्रमुख जोड़े होंगे। यह उस खंड में हाइलाइट किया गया है जहां हम प्रत्येक विभाजन का पता लगाते हैं।

अब हम प्रत्येक विभाजन का पता लगा सकते हैं। पहली पंक्ति प्रत्येक विभाजन की लंबाई (विभाजन के लिए प्रमुख मूल्य जोड़े की संख्या) और दूसरी पंक्ति प्रत्येक विभाजन की सामग्री को प्रिंट करती है।

और यहाँ का समापन आंदोलन है जहाँ हम विभाजन के दौरान स्कोर के संयोजन के बाद प्रति छात्र औसत स्कोर की गणना करते हैं।

उपरोक्त कोड प्रवाह इस प्रकार है…
पहले हमें एक कॉम्बिनेशन फ़ंक्शन बनाने की आवश्यकता होती है जो अनिवार्य रूप से प्रत्येक विभाजन में सामने आने वाली प्रत्येक कुंजी के लिए एक टपल = (मूल्य, 1) है। इस चरण के बाद एक विभाजन में हर (कुंजी, मूल्य) के लिए आउटपुट है (कुंजी, (मूल्य, 1))।

फिर अगले पुनरावृत्ति पर प्रत्येक कुंजी के लिए मर्ज वैल्यू फ़ंक्शन का उपयोग करके प्रति विभाजन के कॉम्बिनेशन फ़ंक्शन को मर्ज किया जाता है। इस चरण के बाद हर विभाजन में हर (की, वैल्यू, 1) का आउटपुट (की, (कुल, गिनती)) होता है।

अंत में मर्ज कॉम्बिनर फ़ंक्शन, निष्पादकों में विभाजन के सभी मूल्यों को मिला देता है और चालक को डेटा वापस भेजता है। इस चरण के बाद हर पार्टीशन (कुंजी, (कुल, गिनती)) का विभाजन प्रति आउटपुट है
(कुंजी, (TotalAcrossAllPartitions, countAcrossAllPartitions))।

नक्शा रूपांतरित करता है
(की, टुपल) = (की, (कुल एस्कॉर्टपार्टिशन, काउंटआर्केलप्लिमेंट्स)
कुंजी के अनुसार औसत की गणना करना (कुंजी, tuple._1 / tuple._2)।

अंतिम पंक्ति ड्राइवर के अंत में सभी छात्रों के लिए औसत अंक प्रिंट करती है।

क्या आप हमसे कोई प्रश्न पूछना चाहते हैं? उन्हें टिप्पणी अनुभाग में उल्लेख करें और हम आपके पास वापस आ जाएंगे।

संबंधित पोस्ट:

स्पार्क में विभाजन का प्रदर्शन

श्रेणियाँ

Popular Articles

फायदे और नैतिक हैकिंग के नुकसान

C ++ में संदर्भ द्वारा कॉल को कैसे लागू करें

MySQL डेटा प्रकार - MySQL में डेटा प्रकारों का अवलोकन

क्या है स्क्रैम? प्रोजेक्ट मैनेजमेंट के बारे में आपको जो कुछ भी जानना है

Apache Pig में ऑपरेटर्स: पार्ट 1- रिलेशनल ऑपरेटर्स

PHP में एक स्ट्रिंग को Array में कैसे बदलें

जावा में एक लूप क्या है और इसका उपयोग कैसे करें?

ब्लॉकचैन बियॉन्ड बिटकॉइन - ब्लॉकचैन प्लेटफॉर्म और ट्रेंड

आप सभी को पायथन में एवल के बारे में जानना होगा

डॉकर वास्तुकला: यह महत्वपूर्ण क्यों है?

Google क्लाउड मूल्य निर्धारण - Google क्लाउड प्लेटफ़ॉर्म मूल्य निर्धारण कैलकुलेटर

पायथन सीबोर्न ट्यूटोरियल: सीबॉर्न क्या है और इसका उपयोग कैसे करें?