Amazon EMR के साथ Hadoop क्लस्टर कैसे बनाएं?

इस लेख में हम AWS EMR सेवा का पता लगाएंगे और इस प्रक्रिया में हम सीखेंगे कि Amazon EMR के साथ Hadoop क्लस्टर कैसे बनाएं?

हाऊ टू क्रिएट पर इस लेख में Amazon EMR के साथ क्लस्टर हम आसानी से रन और स्केल Hadoop और बिग डेटा अनुप्रयोगों को देखना होगा। इस लेख में निम्नलिखित बिंदुओं को शामिल किया जाएगा,

इस पर आगे बढ़ते हुए Amazon EMR के साथ Hadoop Cluster कैसे बनाएं?





Amazon EMR के साथ Hadoop क्लस्टर कैसे बनाएं?

जब हम Google या याहू में कुछ खोजते हैं, तो हमें दूसरे के एक अंश में प्रतिक्रिया मिलती है। यह कैसे संभव है कि Google, याहू और अन्य खोज इंजन कभी बढ़ती वेब से इतनी तेजी से परिणाम लौटाएं? खोज इंजन इंटरनेट के माध्यम से क्रॉल करते हैं, वेबपेज डाउनलोड करते हैं और नीचे दिखाए अनुसार एक इंडेक्स बनाते हैं। हमसे किसी भी प्रश्न के लिए, वे सूचकांक का उपयोग यह पता लगाने के लिए करते हैं कि वे सभी वेब पृष्ठ क्या हैं जिनमें पाठ हम खोज रहे थे। दाईं ओर नीचे के सूचकांक को देखकर, हम स्पष्ट रूप से जान सकते हैं कि Hadoop वेब पेज 1, 2 और 3 है।

इमेज - अमेज़न EMR के साथ Hadoop क्लस्टर कैसे बनाये - Edurekaफिर PageRanking एल्गोरिथ्म इसका उपयोग किया जाता है, जो इस बात पर आधारित होता है कि पृष्ठ किस प्रकार जुड़े हैं, यह जानने के लिए कि कौन सा पृष्ठ शीर्ष पर है और कौन सा नीचे। नीचे के परिदृश्य में W1 'सबसे लोकप्रिय' है क्योंकि हर कोई इसे लिंक कर रहा है और W4 'सबसे कम लोकप्रिय' है क्योंकि कोई भी इसे लिंक नहीं कर रहा है। तो, खोज परिणामों में सबसे नीचे W1 और सबसे नीचे W4 दिखाया गया है।



वेब पेजों के विस्फोट के साथ ये खोज इंजन इंडेक्स बनाने और पेजरैंकिंग गणना करने के लिए चुनौतियों का सामना कर रहे थे। यहीं पर हाडोप का जन्म याहू में हुआ और बाद में ASF (Apache Software Foundation) के तहत FOSS (फ्री एंड ओपन सोर्स सॉफ्टवेयर) बन गया। एक बार ASF के तहत बहुत सारी कंपनियों ने Hadoop में दिलचस्पी लेना शुरू कर दिया और इसे बेहतर बनाने में योगदान देना शुरू कर दिया। Hadoop बिग डेटा क्रांति को शुरू करने वाला था, लेकिन स्पार्क, Hive, सुअर, Sqoop, Zookeeper, HBase, Cassandra, Flume जैसे कई अन्य सॉफ्टवेयर्स Hadoop में सीमाओं और अंतराल को संबोधित करने के लिए विकसित होने लगे।

वेब सर्च इंजन Hadoop का उपयोग करने वाले पहले व्यक्ति थे, लेकिन बाद में बहुत से उपयोग-मामले विकसित होने लगे, क्योंकि अधिक से अधिक डेटा उत्पन्न किया गया था। आइए उपयोगकर्ता को पुस्तकों की सिफारिश करने के लिए उपयोग किए जाने वाले ईकामर्स एप्लिकेशन का उदाहरण लें। नीचे दिए गए चित्र के अनुसार, user1 ने book1, book2 और book3 को खरीदा, user2 ने कुछ पुस्तकें और इसी तरह खरीदीं। बारीकी से देखने पर, हम देख सकते हैं कि user1 और user2 में समान स्वाद है जैसा कि उन्होंने book1 और book2 को खरीदा है। तो, बुक 3 को यूजर 2 के लिए और बुक 4 को यूजर 1 के लिए अनुशंसित किया जा सकता है। इसे Collaborative Filtering, मशीन लर्निंग एल्गोरिदम का एक प्रकार कहा जाता है। हम नीचे दिए गए आरेख को फ्लिप कर सकते हैं और समान किताबें प्राप्त कर सकते हैं।

उपरोक्त मामले में हमने इंडेक्स, पेजरेंकड और उपयोगकर्ता के लिए सिफारिश की है, डेटा का आकार छोटा था और इसलिए हम डेटा की कल्पना करने में सक्षम थे और इसके कुछ परिणामों का अनुमान लगाया। जैसे-जैसे डेटा का आकार दिन-ब-दिन बड़ा होता जाता है और नियंत्रण से बाहर होता है, यह वह जगह है जहां Hadoop जैसे बिग डेटा उपकरण चित्र में आते हैं।



Hadoop ने बहुत सी समस्याओं को हल किया है, लेकिन Hadoop और अन्य बिग डेटा सॉफ़्टवेयर को स्थापित करना कभी आसान काम नहीं था। काम करने के लिए एकीकरण, स्थापना और कॉन्फ़िगरेशन मुद्दों की तरह, ट्वीक करने के लिए बहुत सारे कॉन्फ़िगरेशन पैरामीटर हैं। यह वह जगह है जहां Cloudera जैसी कंपनियां, और Databricks मदद करते हैं। वे बिग डेटा सॉफ़्टवेयर स्थापित करना आसान बनाते हैं और व्यावसायिक सहायता प्रदान करते हैं, उदाहरण के लिए उत्पादन में कुछ होता है। Amazon EMR (Elastic MapReduce) Hadoop आदि का उपयोग करने में बहुत आसान है। Elastic MapReduce का नाम थोड़ा गलत है क्योंकि EMR अन्य वितरित कंप्यूटिंग मॉडल जैसे Resilient वितरित डेटासेट और न केवल MapReduce का समर्थन करता है।

इस ट्यूटोरियल में, हम यह पता लगाएंगे कि AWS क्लाउड पर एक EMR क्लस्टर को कैसे सेटअप किया जाए और आगामी ट्यूटोरियल में, हम यह पता लगाएंगे कि स्पार्क, हाइव और अन्य कार्यक्रमों को कैसे चलाया जाए।

इस पर आगे बढ़ते हुए Amazon EMR के साथ Hadoop Cluster कैसे बनाएं?

डेमो: AWS में एक EMR क्लस्टर बनाना

स्टेप 1: EMR मैनेजमेंट कंसोल पर जाएं और “Create क्लस्टर” पर क्लिक करें। कंसोल में, मेटाडेटा के लिए समाप्त क्लस्टर दो महीने के लिए मुफ्त में भी बचा है। यह समाप्त किए गए क्लस्टर को क्लोन करने और फिर से बनाने की अनुमति देता है।

चरण 2 : त्वरित विकल्प स्क्रीन से, क्लस्टर के बारे में अधिक विवरण निर्दिष्ट करने के लिए 'उन्नत विकल्पों पर जाएं' पर क्लिक करें।

चरण 3: उन्नत विकल्प टैब में, हम EMR क्लस्टर पर स्थापित किए जाने वाले विभिन्न सॉफ़्टवेयर का चयन कर सकते हैं। SQL इंटरफ़ेस के लिए, Hive को चुना जा सकता है। डेटा प्रवाह भाषा इंटरफ़ेस के लिए, सुअर का चयन किया जा सकता है। वितरित आवेदन समन्वय के लिए चिड़ियाघरकीपर का चयन किया जा सकता है और इसी तरह। यह टैब हमें चरणों को जोड़ने की भी अनुमति देता है, जो एक वैकल्पिक कार्य है। MapReduce, Pig, Hive इत्यादि का उपयोग करके बिग डेटा प्रोसेसिंग जॉब्स हैं। उन्हें इस टैब में जोड़ा जा सकता है या बाद में एक बार क्लस्टर बनाया जा सकता है। EMR क्लस्टर के लिए आवश्यक हार्डवेयर का चयन करने के लिए 'अगला' पर क्लिक करें।

चरण 4: Hadoop मास्टर-वर्कर आर्किटेक्चर का अनुसरण करता है जहां मास्टर सभी समन्वय जैसे कार्य को शेड्यूल करना और असाइन करना और उनकी प्रगति की जाँच करते हैं, जबकि वर्कर्स डेटा को प्रोसेस और स्टोर करने का वास्तविक कार्य करते हैं। एक एकल मास्टर एकल-बिंदु-विफलता (SPOF) है। अमेज़न ईएमआर उच्च उपलब्धता (एचए) के लिए मल्टी-मास्टर का समर्थन करता है। पिछला चरण EMR में एक मल्टी-मास्टर क्लस्टर सेटअप करने की अनुमति देता है।

कठपुतली बनाम महाराज बनाम डॉकटर

EMR दो प्रकार के नोड्स, कोर और टास्क की अनुमति देता है। कोर नोड का उपयोग डाटा के प्रसंस्करण और भंडारण दोनों के लिए किया जाता है, कार्य नोड का उपयोग केवल डेटा के प्रसंस्करण के लिए किया जाता है। इस ट्यूटोरियल के लिए, हम केवल एक कोर और कोई टास्क नोड्स का चयन कर सकते हैं क्योंकि इसमें हमारे लिए कम लागत शामिल है। इसके अलावा, चुनें स्पॉट उदाहरण ऊपर मांग पर के रूप में स्पॉट उदाहरण सस्ता कर रहे हैं। स्पॉट उदाहरणों के साथ पकड़ यह है कि उन्हें एडब्ल्यूएस द्वारा स्वचालित रूप से ए के साथ समाप्त किया जा सकता है दो मिनट का नोटिस । यह अभ्यास के लिए और कुछ वास्तविक परिदृश्यों में भी ठीक है। स्पॉट इंस्टेंसेस स्वचालित रूप से समाप्त हो जाते हैं क्योंकि उनके पास अन्य उदाहरण प्रकारों पर कम प्राथमिकता है। 'अगला' पर क्लिक करें।

चरण 5: क्लस्टर नाम निर्दिष्ट करें। और 'अगला' पर क्लिक करें। ध्यान दें कि 'समाप्ति सुरक्षा' को डिफ़ॉल्ट रूप से चालू किया गया है, यह सुनिश्चित करता है कि क्लस्टर को समाप्त करते समय कुछ चरणों को शुरू करके EMR क्लस्टर को आकस्मिक रूप से हटाया नहीं जाता है।

चरण 6: टैब में, EMR क्लस्टर के लिए विभिन्न सुरक्षा विकल्प निर्दिष्ट हैं। KeyPair को EC2 उदाहरण में लॉगिंग के लिए चुना जाना चाहिए। EMR स्वचालित रूप से उपयुक्त भूमिकाएँ और सुरक्षा समूह बनाएगा और उन्हें मास्टर और कार्यकर्ता EC2 नोड्स में संलग्न करेगा। 'क्रिएट क्लस्टर' पर क्लिक करें।

क्लस्टर के निर्माण में कुछ मिनट लगते हैं क्योंकि EC2 इंस्टेंस को खरीदा जाना चाहिए और विभिन्न बिग डेटा सॉफ्टवेयर्स को स्थापित और कॉन्फ़िगर किया जाना चाहिए। प्रारंभ में क्लस्टर स्थिति 'प्रारंभ' स्थिति में होगी और 'प्रतीक्षा' स्थिति में आगे बढ़ेगी। 'वेटिंग' स्थिति में, EMR क्लस्टर बस हमारे लिए अलग-अलग बिग डाटा प्रोसेसिंग जॉब जैसे MR, स्पार्क, हायर इत्यादि को जमा करने की प्रतीक्षा कर रहा है।

इसके अलावा, EC2 प्रबंधन कंसोल से नोटिस करें और ध्यान दें कि मास्टर और कार्यकर्ता EC2 उदाहरण एक चालू स्थिति में होने चाहिए। ये स्पॉट उदाहरण हैं जिन्हें ईएमआर क्लस्टर निर्माण के हिस्से के रूप में बनाया गया है। उसी EC2 को EMR मैनेजमेंट कंसोल में हार्डवेयर टैब से भी देखा जा सकता है। ध्यान दें कि हार्डवेयर टैब में स्पॉट EC2 उदाहरणों के लिए मूल्य 0.032 $ / घंटा के रूप में उल्लेख किया गया है। स्पॉट इंस्टैंस की कीमत समय के साथ बदलती रहती है और ऑन-डिमांड ईसी 2 मूल्य निर्धारण की तुलना में बहुत कम है।

चरण 7: अब जबकि EMR क्लस्टर को सफलतापूर्वक जोड़ दिया गया है, स्टेप्स या बिग डेटा प्रोसेसिंग जॉब्स को जोड़ा जा सकता है। चरण टैब पर जाएं और 'चरण जोड़ें' पर क्लिक करें और चरण (एमआर, हाइव, स्पार्क आदि) का चयन करें। हम आगामी ट्यूटोरियल में इसका पता लगाएंगे। अभी के लिए, रद्द करें पर क्लिक करें।

चरण 8: अब जबकि हमने देखा है कि ईएमआर कैसे शुरू किया जाता है, हम देखते हैं कि इसे कैसे रोका जाए।

कदम 8.1: टर्मिनेट पर क्लिक करें।

चरण 8.2: जैसा कि पिछले चरणों में उल्लेख किया गया है, “समाप्ति सुरक्षा” EMR क्लस्टर के लिए है और समाप्ति बटन अक्षम कर दिया गया है। चेंज पर क्लिक करें।

चरण 8.3: 'बंद' रेडियो बटन का चयन करें और टिक मार्क पर क्लिक करें। अब समाप्ति बटन सक्षम होना चाहिए। यह अतिरिक्त चरण EMR पेश किया गया है, बस यह सुनिश्चित करने के लिए कि हम EMR क्लस्टर को गलती से नहीं हटाते हैं।

ध्यान दें कि EMR क्लस्टर समाप्ति स्थिति में होगा और EC2s समाप्त हो जाएंगे। अंत में, EMR क्लस्टर को समाप्त स्थिति में ले जाया जाएगा, यहाँ से AWS के साथ हमारी बिलिंग रुक जाती है। क्लस्टर को समाप्त करना सुनिश्चित करें, ताकि अतिरिक्त एडब्ल्यूएस लागतों को लाइक न करें।

निष्कर्ष

इस ट्यूटोरियल में हमने देखा है कि वेब कंसोल (ब्राउज़र) से कुछ ही मिनटों में EMR क्लस्टर कैसे शुरू किया जाता है, इसे उपयोग करके स्वचालित किया जा सकता है , एडब्ल्यूएस एसडीके या उपयोग करके AWS CloudFormation । जैसा कि एक EMR क्लस्टर स्थापित करने पर ध्यान दिया जा सकता है, कुछ ही मिनटों का समय है और बिग डाटा प्रोसेसिंग तुरंत शुरू की जा सकती है, एक बार प्रोसेसिंग हो जाने के बाद आउटपुट को स्टोर किया जा सकता है S3 या DynamoDB और इसलिए क्लस्टर बंद करने के लिए बिलिंग बंद करो। इस मूल्य निर्धारण मॉडल और उपयोग में आसानी के कारण, EMR उन लोगों के साथ एक बड़ी हिट है जो बिग डाटा प्रोसेसिंग कर रहे हैं। बड़ी संख्या में सर्वर खरीदने की आवश्यकता नहीं है, बिग डेटा सॉफ़्टवेयर के लिए लाइसेंस प्राप्त करें और उन्हें बनाए रखें। '

तो यह है लोग, यह हमें इस लेख के अंत में लाता है कि कैसे अमेज़ॅन ईएमआर के साथ हडॉप क्लस्टर बनाने के लिए?यदि आप इस विषय में विशेषज्ञता हासिल करना चाहते हैं, तो एडुरका एक ऐसा पाठ्यक्रम लेकर आया है, जो वास्तव में कवर करता है, आपको सॉल्यूशन आर्किटेक्ट परीक्षा को क्रैक करने की आवश्यकता होगी! आप पाठ्यक्रम के विवरण पर एक नज़र डाल सकते हैं प्रशिक्षण।

इस ब्लॉग से संबंधित किसी भी प्रश्न के मामले में, कृपया नीचे टिप्पणी अनुभाग में प्रश्न करने के लिए स्वतंत्र महसूस करें और हम आपको जल्द से जल्द जवाब देने के लिए खुश होंगे।