पृथ्वीराज बोस द्वारा योगदान दिया गया
शुरुआती के लिए एमएस sql ट्यूटोरियल
स्पार्क एक लाइटनिंग-फास्ट क्लस्टर कंप्यूटिंग ढांचा है जिसे तेजी से कम्प्यूटेशन और पेशेवरों की मांग के लिए डिज़ाइन किया गया है आज बाजार में पर्याप्त है।यहाँ स्पार्क में एक शक्तिशाली एपीआई है जो कम्बाइकबाय ।
एपीआई पैमाना: org.apache.spark.PairRDDFunctions.combineByKey ।
पायथन एपीआई: pyspark.RDD.combineByKey ।
एपीआई तीन कार्य करता है (के रूप में) लंबोदर भाव में है अजगर या अनाम फ़ंक्शन में है सीढ़ी ), अर्थात्,
- कॉम्बिनेशन फ़ंक्शन बनाएं: x
- मर्ज मान फ़ंक्शन: y
- विलय कॉम्बिनर्स फ़ंक्शन: z
और एपीआई प्रारूप है CombByKey (x, y, z) ।
आइए एक उदाहरण देखें (स्काला में)। पूर्ण स्काला स्रोत पाया जा सकता है यहाँ ।
हमारा उद्देश्य प्रति छात्र औसत अंक प्राप्त करना है।
यहाँ एक प्लेसहोल्डर क्लास है स्कोरडिटेल एक विषय के स्कोर के साथ छात्रों के नाम को संग्रहीत करना।
कुछ परीक्षण डेटा उत्पन्न होते हैं और कुंजी-जोड़ी मूल्यों में परिवर्तित हो जाते हैं कुंजी = छात्रों का नाम तथा मान = स्कोरडेल उदाहरण
फिर हम एक Pair RDD बनाते हैं जैसा कि नीचे दिए गए कोड के टुकड़े में दिखाया गया है। बस प्रयोग के लिए, मैंने आकार 3 का हैश पार्टीशनर बनाया है, इसलिए तीनों विभाजनों में क्रमशः 2, 2 और 4 प्रमुख जोड़े होंगे। यह उस खंड में हाइलाइट किया गया है जहां हम प्रत्येक विभाजन का पता लगाते हैं।
अब हम प्रत्येक विभाजन का पता लगा सकते हैं। पहली पंक्ति प्रत्येक विभाजन की लंबाई (विभाजन के लिए प्रमुख मूल्य जोड़े की संख्या) और दूसरी पंक्ति प्रत्येक विभाजन की सामग्री को प्रिंट करती है।
और यहाँ का समापन आंदोलन है जहाँ हम विभाजन के दौरान स्कोर के संयोजन के बाद प्रति छात्र औसत स्कोर की गणना करते हैं।
उपरोक्त कोड प्रवाह इस प्रकार है…
पहले हमें एक कॉम्बिनेशन फ़ंक्शन बनाने की आवश्यकता होती है जो अनिवार्य रूप से प्रत्येक विभाजन में सामने आने वाली प्रत्येक कुंजी के लिए एक टपल = (मूल्य, 1) है। इस चरण के बाद एक विभाजन में हर (कुंजी, मूल्य) के लिए आउटपुट है (कुंजी, (मूल्य, 1))।
फिर अगले पुनरावृत्ति पर प्रत्येक कुंजी के लिए मर्ज वैल्यू फ़ंक्शन का उपयोग करके प्रति विभाजन के कॉम्बिनेशन फ़ंक्शन को मर्ज किया जाता है। इस चरण के बाद हर विभाजन में हर (की, वैल्यू, 1) का आउटपुट (की, (कुल, गिनती)) होता है।
अंत में मर्ज कॉम्बिनर फ़ंक्शन, निष्पादकों में विभाजन के सभी मूल्यों को मिला देता है और चालक को डेटा वापस भेजता है। इस चरण के बाद हर पार्टीशन (कुंजी, (कुल, गिनती)) का विभाजन प्रति आउटपुट है
(कुंजी, (TotalAcrossAllPartitions, countAcrossAllPartitions))।
नक्शा रूपांतरित करता है
(की, टुपल) = (की, (कुल एस्कॉर्टपार्टिशन, काउंटआर्केलप्लिमेंट्स)
कुंजी के अनुसार औसत की गणना करना (कुंजी, tuple._1 / tuple._2)।
अंतिम पंक्ति ड्राइवर के अंत में सभी छात्रों के लिए औसत अंक प्रिंट करती है।
क्या आप हमसे कोई प्रश्न पूछना चाहते हैं? उन्हें टिप्पणी अनुभाग में उल्लेख करें और हम आपके पास वापस आ जाएंगे।
संबंधित पोस्ट: