AWS में बड़ा डेटा | AWS में बिग डेटा के साथ शुरुआत करना

बिग डेटा का विचार बस नया नहीं है, यह हर जगह है। बिग डेटा का असर हर जगह है, व्यापार से लेकर विज्ञान तक, सरकार से लेकर कलाओं तक और इसी तरह। इससे बेहतर कोई साथी नहीं है बिग डेटा को संसाधित करने और उसका विश्लेषण करने के लिए। इस लेख में, मैं यह दिखाने जा रहा हूँ कि AWS बिग डेटा की चुनौतियों से कैसे निपटता है और जिन बिंदुओं को मैं कवर करने जा रहा हूँ, वे इस प्रकार हैं:

बिग डेटा क्या है?
AWS में बिग डेटा क्यों?
AWS बड़ी डेटा चुनौतियों को कैसे हल कर सकता है?
डेमो

बिग डेटा क्या है?

बड़ी डेटा विशेषताएँ

आप बिग डेटा को उच्च-आयतन, उच्च-वेग और / या उच्च-विविधता वाली सूचना परिसंपत्तियों के रूप में मान सकते हैं, जो लागत प्रसंस्करण के लिए, सूचना प्रसंस्करण के अभिनव रूपों की मांग करते हैं जो एन्हांस्ड अंतर्दृष्टि, निर्णय लेने और प्रक्रिया स्वचालन को सक्षम करते हैं।

बिग डेटा में 5 महत्वपूर्ण V शामिल हैं जो बिग डेटा की विशेषताओं को परिभाषित करता है। AWS में जाने से पहले इन पर चर्चा करते हैं।

AWS क्या है?

कई अलग-अलग क्लाउड कंप्यूटिंग उत्पादों और सेवाओं में शामिल हैं। अत्यधिक लाभदायक अमेज़ॅन डिवीजन सुरक्षा के साथ सर्वर, स्टोरेज, नेटवर्किंग, रिमोट कंप्यूटिंग, ईमेल, मोबाइल विकास प्रदान करता है। इसके अलावा। AWS में दो मुख्य उत्पाद शामिल हैं: EC2, Amazon की वर्चुअल मशीन सेवा, और S3, अमेज़न द्वारा एक स्टोरेज सिस्टम। यह कंप्यूटिंग जगत में इतना बड़ा और मौजूद है कि अब यह अपने निकटतम प्रतिद्वंद्वी के आकार का कम से कम 10 गुना है और नेटफ्लिक्स और इंस्टाग्राम जैसी लोकप्रिय वेबसाइटों को होस्ट करता है।

।

AWS दुनिया भर में 12 वैश्विक क्षेत्रों में विभाजित है, जिनमें से प्रत्येक में कई उपलब्धता क्षेत्र हैं जिसमें इसके सर्वर स्थित हैं।इन सर्विस्ड क्षेत्रों को विभाजित किया जाता है ताकि उपयोगकर्ता अपनी सेवाओं पर भौगोलिक सीमा निर्धारित कर सकें, बल्कि उन भौतिक स्थानों में भी विविधता लाकर सुरक्षा प्रदान कर सकें जिनमें डेटा रखा गया है।

AWS में बिग डेटा क्यों?

कई अलग-अलग डोमेन के वैज्ञानिक, डेवलपर और अन्य प्रौद्योगिकी उत्साही बड़े डेटा एनालिटिक्स का प्रदर्शन करने और डिजिटल जानकारी की बढ़ती Vs की महत्वपूर्ण चुनौतियों का सामना करने के लिए AWS का लाभ उठा रहे हैं। AWS आपको क्लाउड कंप्यूटिंग सेवाओं का एक पोर्टफोलियो प्रदान करता है, जो लागत को कम करने, मांग को पूरा करने और नवाचार की गति बढ़ाने के लिए बड़े डेटा का प्रबंधन करने में मदद करता है।

Amazon Web Services एक प्रदान करता है पूरी तरह से एकीकृत पोर्टफोलियो क्लाउड कंप्यूटिंग सेवाओं की। इसके अलावा, यह आपके बड़े डेटा अनुप्रयोगों को बनाने, सुरक्षित और तैनात करने में आपकी मदद करता है। इसके अलावा, एडब्ल्यूएस के साथ, आपको बनाए रखने और पैमाने के लिए खरीद और बुनियादी ढांचे के लिए हार्डवेयर की आवश्यकता नहीं है। इसके कारण, आप अपने संसाधनों को नई अंतर्दृष्टि को उजागर करने पर केंद्रित कर सकते हैं।चूंकि नई सुविधाओं को लगातार जोड़ा जाता है, आप हमेशा दीर्घकालिक निवेश प्रतिबद्धताओं की आवश्यकता के बिना नवीनतम तकनीकों का लाभ उठाने में सक्षम होंगे।

AWS बड़ी डेटा चुनौतियों को कैसे हल कर सकता है?

बिग डेटा के लिए AWS समाधान

AWS के पास सभी विकास और परिनियोजन उद्देश्यों के लिए कई समाधान हैं। इसके अलावा, डेटा साइंस और बिग डेटा के क्षेत्र में, एडब्ल्यूएस बिग डेटा हैंडलिंग के विभिन्न पहलुओं में हाल के घटनाक्रमों के साथ आया है। टूल्स पर कूदने से पहले, आइए बिग डेटा के विभिन्न पहलुओं को समझते हैं जिसके लिए AWS समाधान प्रदान कर सकते हैं।

डेटा अंतर्ग्रहण
कच्चे डेटा को इकट्ठा करना - लेनदेन, लॉग, मोबाइल डिवाइस और अधिक - बड़ी डेटा से निपटने के दौरान कई संगठनों के सामने पहली चुनौती है। एक अच्छा बड़ा डेटा प्लेटफ़ॉर्म इस कदम को आसान बनाता है, जिससे डेवलपर्स को विभिन्न प्रकार के डेटा को संरचित करने की अनुमति मिलती है - संरचित से असंरचित - किसी भी गति से - वास्तविक समय से बैच तक।
डेटा का भंडारण
किसी भी बड़े डेटा प्लेटफ़ॉर्म को प्रोसेसिंग कार्यों के पहले या बाद में भी डेटा स्टोर करने के लिए एक सुरक्षित, स्केलेबल और टिकाऊ भंडार की आवश्यकता होती है। आपकी विशिष्ट आवश्यकताओं के आधार पर, आपको डेटा-इन-ट्रांजिट के लिए अस्थायी स्टोर की भी आवश्यकता हो सकती है।
डाटा प्रासेसिंग
यह वह चरण है जहां डेटा परिवर्तन अपने कच्चे राज्य से एक उपभोग्य प्रारूप में होता है - आमतौर पर सॉर्टिंग, एकत्रीकरण, जुड़ने और यहां तक कि अधिक उन्नत कार्यों और एल्गोरिदम का प्रदर्शन करने के माध्यम से। परिणामी डेटा आगे की प्रक्रिया के लिए भंडारण से गुजरता है या व्यापार खुफिया और डेटा विज़ुअलाइज़ेशन उपकरण के माध्यम से खपत के लिए उपलब्ध कराया जाता है।
दृश्य

बिग डेटा सभी आपके डेटा परिसंपत्तियों से उच्च मूल्य, कार्रवाई करने योग्य अंतर्दृष्टि प्राप्त करने के बारे में है। आदर्श रूप से, डेटा स्व-सेवा व्यवसाय खुफिया और फुर्तीली डेटा विज़ुअलाइज़ेशन टूल के माध्यम से हितधारकों के लिए उपलब्ध है जो डेटासेट के तेज और आसान अन्वेषण की अनुमति देता है।

बिग डेटा के लिए एडब्ल्यूएस उपकरण

पिछले अनुभागों में, हमने बिग डेटा के उन क्षेत्रों को देखा, जहां AWS समाधान प्रदान कर सकता है। इसके अतिरिक्त, AWS के पास अपने शस्त्रागार में कई उपकरण और सेवाएँ हैं जो ग्राहकों को बिग डेटा की क्षमताओं के साथ सक्षम करते हैं।

आइए बिग डेटा को संभालने में शामिल विभिन्न चरणों को संभालने के लिए एडब्ल्यूएस द्वारा प्रदान किए गए विभिन्न समाधानों को देखें

अंतर्ग्रहण

काइनिस
अमेज़न Kinesis Firehose Amazon S3 पर सीधे वास्तविक समय स्ट्रीमिंग डेटा देने के लिए एक पूरी तरह से प्रबंधित सेवा है। Kinesis Firehose स्वचालित रूप से स्ट्रीमिंग डेटा के वॉल्यूम और थ्रूपुट से मेल खाता है और इसके लिए चल रहे प्रशासन की आवश्यकता नहीं है। Amazon S3 में स्टोर करने से पहले आप स्ट्रीमिंग डेटा को बदलने के लिए Kinesis Firehose को कॉन्फ़िगर कर सकते हैं।
स्नोबॉल
आप उपयोग कर सकते हैं एडब्ल्यूएस स्नोबॉल सुरक्षित रूप से और कुशलता से ऑन-प्रिमाइसेस स्टोरेज प्लेटफ़ॉर्म और Hadoop क्लस्टर्स से S3 बकेट्स में थोक डेटा माइग्रेट करें। AWS प्रबंधन कंसोल में नौकरी बनाने के बाद, आपको स्वचालित रूप से स्नोबॉल उपकरण मिल जाता है। स्नोबॉल आने के बाद, इसे अपने स्थानीय नेटवर्क से कनेक्ट करें, अपने ऑन-प्रिमाइसेस डेटा स्रोत पर स्नोबॉल क्लाइंट स्थापित करें, और फिर स्नोबॉल डिवाइस को फ़ाइल निर्देशिकाओं को चुनने और स्थानांतरित करने के लिए स्नोबॉल क्लाइंट का उपयोग करें।

भंडारण

अमेज़न S3

अमेज़न S3 डेटा एक्सेस के लिए मिलीसेकंड लेटेंसी के साथ एक सुरक्षित, अत्यधिक स्केलेबल, टिकाऊ ऑब्जेक्ट स्टोरेज है। S3 कहीं से भी किसी भी प्रकार के डेटा को स्टोर कर सकता है - वेबसाइट और मोबाइल ऐप, कॉर्पोरेट एप्लिकेशन और IoT सेंसर या डिवाइस से डेटा। यह बेजोड़ उपलब्धता के साथ, डेटा की किसी भी मात्रा को संग्रहीत और पुनः प्राप्त कर सकता है, और 99.999999999% (11 निन्स) स्थायित्व के लिए जमीन से निर्मित किया जा सकता है।

2. एडब्ल्यू ग्लू

गोंद पूरी तरह से प्रबंधित सेवा है जो डेटा झील को खोज योग्य बनाने के लिए डेटा कैटलॉग प्रदान करती है। इसके अतिरिक्त, इसमें विश्लेषण के लिए डेटा तैयार करने के लिए एक्सट्रैक्ट, ट्रांसफॉर्म और लोड (ETL) करने की क्षमता है। इसके अलावा, इनबिल्ट डेटा कैटलॉग सभी डेटा संपत्तियों के लिए एक स्थिर मेटाडेटा स्टोर की तरह है, जो सभी डेटा को खोज योग्य बनाता है, और एक दृश्य में क्वेरी योग्य है।

प्रसंस्करण

EMR
स्पार्क और Hadoop का उपयोग कर बड़े डेटा प्रोसेसिंग के लिए, अमेज़ॅन ईएमआर एक प्रबंधित सेवा प्रदान करता है जो बड़ी मात्रा में डेटा को संसाधित करने के लिए आसान, तेज़ और लागत प्रभावी बनाता है। इसके अलावा, EMR सहित 19 विभिन्न खुले स्रोत परियोजनाओं का समर्थन करता है Hadoop , चिंगारी , तथा इसके अलावा यह डेटा इंजीनियरिंग, डेटा विज्ञान विकास और सहयोग के लिए प्रबंधित EMR नोटबुक के साथ आता है।
लाल शिफ्ट
डेटा वेयरहाउसिंग के लिए, अमेज़ॅन Redshift संरचित डेटा के पेटाबाइट्स के खिलाफ जटिल, विश्लेषणात्मक प्रश्नों को चलाने की क्षमता प्रदान करता है। इसके अलावा, यह भी शामिल है रेडशिफ्ट स्पेक्ट्रम अनावश्यक डेटा आंदोलन की आवश्यकता के बिना एस 3 में संरचित या असंरचित डेटा के एक्सैबाइट्स के खिलाफ सीधे एसक्यूएल प्रश्न चलाता है।

दृश्य

अमेज़न क्विकसाइट

जावा में हैशमैप कैसे लागू करें
डैशबोर्ड और विज़ुअलाइज़ेशन के लिए, अमेज़ॅन क्विकसाइट आपको तेज, क्लाउड-संचालित व्यापार विश्लेषिकी सेवा प्रदान करता है। यह आश्चर्यजनक विज़ुअलाइज़ेशन और समृद्ध डैशबोर्ड बनाने में आसान बनाता है। इसके अतिरिक्त, आप उन्हें किसी भी ब्राउज़र या मोबाइल डिवाइस से एक्सेस कर सकते हैं।

डेमो - ऑस्ट्रेलिया में पौधों और जानवरों की लुप्तप्राय प्रजातियों का डेटा का विश्लेषण।

इस डेमो में, हम ऑस्ट्रेलिया के राज्यों और क्षेत्रों से लुप्तप्राय पौधों और जानवरों की प्रजातियों के नमूना डेटा का उपयोग करेंगे। यहां हम एक EMR क्लस्टर बनाएंगे और इसे मल्टी-स्टेप Apache Hive जॉब्स को चलाने के लिए कॉन्फ़िगर करेंगे। EMR क्लस्टर में अपाचे हाइव लगा होगा। यह क्लस्टर फ़ाइल सिस्टम के रूप में EMRFS का उपयोग करेगा, ताकि इसके डेटा इनपुट और आउटपुट स्थानों को S3 बाल्टी में मैप किया जा सके। लॉग फ़ाइलों को संग्रहीत करने के लिए क्लस्टर S3 बाल्टी का भी उपयोग करेगा।

अब हम डेटा का एक नमूना सेट संसाधित करने के लिए क्लस्टर में कई EMR चरण बनाएंगे। यहां इनमें से प्रत्येक चरण एक हाइव स्क्रिप्ट चलाएगा, और अंतिम आउटपुट S3 बाल्टी में सहेजा जाएगा। ये चरण MapReduce लॉग जेनरेट करेंगे और ऐसा इसलिए है क्योंकि Hive कमांड रन टाइम में MapReduce जॉब्स में ट्रांसलेट हो जाते हैं। प्रत्येक चरण के लिए लॉग फाइलें कंटेनरों से एकत्र की जाती हैं जो इसे स्पॉन बनाती हैं।

नमूना डेटा

इस उपयोग के मामले के लिए नमूना डेटा सार्वजनिक रूप से उपलब्ध है ऑस्ट्रेलियाई सरकार की खुली डेटा वेबसाइट । यह डेटा सेट ऑस्ट्रेलिया में विभिन्न राज्यों और क्षेत्रों के जानवरों और पौधों की प्रजातियों के लिए खतरा है। इस डेटा सेट और CSV फ़ाइल के क्षेत्रों का विवरण देखा और डाउनलोड किया जा सकता है यहाँ ।

प्रसंस्करण कदम

यहां पहले EMR जॉब स्टेप में S3 में अंतर्निहित स्रोत फ़ाइल के लिए स्कीमा के रूप में एक हाइव तालिका बनाना शामिल है। दूसरे कार्य चरण में, अब हम डेटा के खिलाफ एक सफल क्वेरी चलाएंगे। इसी तरह, हम फिर एक तीसरी और चौथी क्वेरी चलाएंगे।

हम एक घंटे में कई बार इन चार चरणों को दोहराएंगे, एक बहु-कदम बैच नौकरी के क्रमिक रन का अनुकरण करेंगे। हालाँकि, वास्तविक जीवन में, प्रत्येक बैच के चलने का समय अंतर सामान्य रूप से बहुत अधिक हो सकता है। क्रमिक रन के बीच छोटे समय का अंतर हमारे परीक्षण में तेजी लाने के लिए है।

S3 बाल्टी और फ़ोल्डर

हमारे EMR क्लस्टर बनाने से पहले, यहाँ हमें अपनी फ़ाइलों को होस्ट करने के लिए एक S3 बाल्टी बनाना था। हमारे उदाहरण में, हम इस बाल्टी को 'arvind1-bucket' नाम देते हैं। इस बाल्टी के नीचे के फ़ोल्डर को S3 के लिए AWS कंसोल में नीचे दिखाया गया है:

इनपुट फ़ोल्डर नमूना डेटा रखता है
स्क्रिप्ट फ़ोल्डर में EMR नौकरी चरणों के लिए हाइव स्क्रिप्ट फ़ाइलें होती हैं
आउटपुट फ़ोल्डर स्पष्ट रूप से हाइव प्रोग्राम आउटपुट को रखेगा
EMR क्लस्टर लॉग फ़ाइलों को सहेजने के लिए लॉग फ़ोल्डर का उपयोग करता है।

ईएमआर नौकरी चरणों के लिए हाइव लिपियों

1. यह जॉब स्टेप एक हाइव स्क्रिप्ट को चलाता हैएक बाहरी छत्ता तालिका बनाने के लिए। यह तालिका अंतर्निहित CSV डेटा फ़ाइल के सारणीबद्ध स्कीमा का वर्णन करती है। इसके लिए स्क्रिप्ट इस प्रकार है:

बनाएँ बाहरी तालिका `धमकी दी_स्पेकी` (` वैज्ञानिक नाम` स्ट्रिंग, `सामान्य नाम` स्ट्रिंग,` वर्तमान वैज्ञानिक नाम` स्ट्रिंग, `धमकी की स्थिति` स्ट्रिंग,` अधिनियम` स्ट्रिंग, `nsw` स्ट्रिंग,` n`` स्ट्रिंग, `qld` string, `sa` string,` tas` string, `vic` string,` wa` string, `aci` स्ट्रिंग,` cki` स्ट्रिंग, `ci` स्ट्रिंग, `csi` स्ट्रिंग,` jbt` स्ट्रिंग, `afi` string, `hmi` string,` anat` string, `cma` string,` सूचीबद्ध sprat taxonid` bigint, `current sprat taxonid` bigint,` किंगडम` स्ट्रिंग, `वर्ग` स्ट्रिंग,` प्रोफ़ाइल` स्ट्रिंग, `तिथि निकाली` string, `nsl name` string,` family` string, `genus` string,` प्रजाति` स्ट्रिंग, `infraspecific रैंक` स्ट्रिंग,` infraspecies` स्ट्रिंग, `प्रजाति लेखक` स्ट्रिंग, `infraspecific लेखक` स्ट्रिंग` ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STPED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.ive.gnIgnoreKeyTextOutputFormat' LOCATION 's3: // arind:

2. यह नौकरी कदम न्यू साउथ वेल्स (एनएसडब्ल्यू) के राज्य में शीर्ष पांच लुप्तप्राय प्रजातियों की गणना करने के लिए एक क्वेरी चलाता है। हाइव क्वेरी फ़ाइल नाम है endangeredSpeciesNSW.q और यह नीचे दिखाया गया है:

चयनित प्रजातियां, COUNT (nsw) AS नंबर_of_endangered_species से, धमकी दी गई_species WHERE (nsw = 'Yes' या nsw = 'लुप्तप्राय') और 'धमकी दी गई स्थिति' = 'लुप्तप्राय' ग्रुप प्रजाति HAVING COUNT (nsw)> 1 ORDER BY नंबर_ofendendendered द्वारा

३।यह नौकरी चरण ऑस्ट्रेलिया में प्रत्येक संयंत्र परिवार के लिए लुप्तप्राय पौधों की प्रजातियों की कुल संख्या की गणना करने के लिए एक क्वेरी चलाता है। हाइव क्वेरी फ़ाइल नाम हैendangeredPlantSpecies.qऔर नीचे दिखाया गया है

परिवार का चयन करें, COUNT (प्रजाति) AS नंबर_of_endangered_species से धमकी दी गई_species2 जहां से राज्य = 'प्लांटे' और 'धमकी की स्थिति' = परिवार द्वारा 'लुप्तप्राय' ग्रुप

4. यह कदम ऑस्ट्रेलिया के क्वींसलैंड राज्य में विलुप्त होती पशु प्रजातियों के वैज्ञानिक नामों को सूचीबद्ध करता है। स्क्रिप्ट फ़ाइल कहा जाता है extinctAnimalsQLD.q और नीचे दिखाया गया है:

'सामान्य नाम' का चयन करें, 'वैज्ञानिक नाम' FROM threatened_species WHERE किंगडम = 'एनिमिया' और (qld = 'Yes' OR qld = 'Extinct') और 'धमकी दी स्थिति' = 'Extinct'

लॉग एग्रीगेशन

यहाँ हमने S3 बाल्टी के स्क्रिप्ट फोल्डर में logAggregation.json नामक JSON फाइल भी अपलोड की है। हम इस फ़ाइल का उपयोग YARN लॉग फ़ाइलों को एकत्र करने के लिए करते हैं। क्लस्टर शुरू होने पर लॉग एकत्रीकरण यार्न- site.xml कॉन्फ़िगरेशन फ़ाइल में कॉन्फ़िगर किया गया है। LogAggregation.json फ़ाइल की सामग्री इस प्रकार है:

उदाहरण के साथ सूचनात्मक में परिवर्तन

[{'वर्गीकरण': 'यार्न-साइट', 'गुण': {'यार्न.लॉग-एकत्रीकरण-सक्षम': 'सच', 'यार्न.लॉग-एग्रीगेशन-सेकेंड-सेकंड': '-1', 'यार्न .nodemanager.remote-app-log-dir ':' s3: // arvind1-bucket / लॉग '}}]

आपके द्वारा S3 बाल्टी बनाने और उनके संबंधित फ़ोल्डरों में डेटा और स्क्रिप्ट फ़ाइलों की प्रतिलिपि बनाने के बाद अब EMR क्लस्टर सेट करने का समय है। निम्नलिखित स्नैपशॉट प्रक्रिया का वर्णन करते हैं क्योंकि हम क्लस्टर को अधिकतर डिफ़ॉल्ट सेटिंग्स के साथ बनाते हैं।

EMR क्लस्टर सेटअप

पहली छवि में, AWS कंसोल में क्लस्टर को कॉन्फ़िगर करने के लिए, हमने EMR द्वारा अनुशंसित सभी अनुप्रयोगों को रखा है, जिसमें Hive भी शामिल है। हमें हाइव मेटाडेटा के भंडारण के लिए AWS गोंद का उपयोग करने की आवश्यकता नहीं है, न ही हम इस समय कोई नौकरी कदम जोड़ रहे हैं। हालांकि, हमें हाइव के लिए एक सॉफ्टवेयर सेटिंग जोड़ने की आवश्यकता है। यहां आपको ध्यान से देखना चाहिए कि हम इस क्षेत्र में लॉग एकत्रीकरण JSON फ़ाइल के लिए पथ कैसे निर्दिष्ट कर रहे हैं।

अगले चरण में, हमने सभी डिफ़ॉल्ट सेटिंग्स रखी हैं। हमारे परीक्षण के लिए, क्लस्टर में एक मास्टर नोड और दो मुख्य नोड होंगे। यहाँ प्रत्येक नोड एक m3.xlarge उदाहरण है और इसमें 10 जीबी रूट वॉल्यूम है। हम अगले चरण में क्लस्टर arvind1-क्लस्टर का नामकरण कर रहे हैं, और इसकी लॉग फ़ाइलों के लिए कस्टम s3 स्थान निर्दिष्ट कर रहे हैं।

अंत में, हमने क्लस्टर के मास्टर नोड तक पहुँचने के उद्देश्य से एक EC2 कुंजी जोड़ी निर्दिष्ट की। EMR, EC2 उदाहरण प्रोफ़ाइल और ऑटो-स्केल विकल्पों के लिए डिफ़ॉल्ट IAM भूमिकाओं में कोई बदलाव नहीं हुआ है। इसके अलावा, मास्टर और कोर नोड्स डिफ़ॉल्ट रूप से उपलब्ध सुरक्षा समूहों द्वारा उपयोग कर रहे हैं। आम तौर पर, यह EMR क्लस्टर के लिए एक डिफ़ॉल्ट सेटअप है। सब कुछ तैयार होने के बाद, क्लस्टर 'प्रतीक्षा' स्थिति में है जैसा कि नीचे दिखाया गया है:

हाइव जॉब स्टेप्स जमा करें

इसके बाद, हमें एसएसएच तक पहुंचने की अनुमति देने की आवश्यकता है।

पर अमेज़न EMR कंसोल खोलें https://console.aws.amazon.com/elasticmapreduce/ ।
चुनें क्लस्टर ।
चुने नाम क्लस्टर का।
के अंतर्गत सुरक्षा और पहुंच चुने मास्टर के लिए सुरक्षा समूह संपर्क।
चुनें ElasticMapReduce- मास्टर सूची से।
चुनें भीतर का , संपादित करें ।
निम्नलिखित सेटिंग्स के साथ नियम का पता लगाएं और चुनें एक्स इसे हटाने के लिए आइकन:
- प्रकार एसएसएच
- बंदरगाह २२
- स्रोत कस्टम 0.0.0.0/0
नियमों की सूची के नीचे स्क्रॉल करें और चुनें नियम जोड़ें ।
के लिये प्रकार , चुनते हैं एसएसएच यह स्वचालित रूप से प्रवेश करता है टीसीपी के लिये मसविदा बनाना तथा २२ के लिये बंदरगाह सीमा ।
स्रोत के लिए, का चयन करें मेरा आईपी । यह स्वचालित रूप से स्रोत पते के रूप में आपके क्लाइंट कंप्यूटर का आईपी पता जोड़ता है। वैकल्पिक रूप से, आप एक श्रेणी जोड़ सकते हैं प्रथा विश्वसनीय ग्राहक आईपी पते और चुनने के लिए नियम जोड़ें अन्य ग्राहकों के लिए अतिरिक्त नियम बनाने के लिए। कई नेटवर्क वातावरणों में, आप गतिशील रूप से आईपी पते आवंटित करते हैं, इसलिए आपको विश्वसनीय ग्राहकों के आईपी पते को अपडेट करने के लिए समय-समय पर सुरक्षा समूह नियमों को संपादित करने की आवश्यकता हो सकती है।
चुनें सहेजें ।
वैकल्पिक रूप से, चुनें ElasticMapReduce- दास सूची से और एसएसएच ग्राहक को विश्वसनीय ग्राहकों से नोड और कार्य नोड्स तक पहुंच की अनुमति देने के लिए ऊपर दिए गए चरणों को दोहराएं।

चूंकि EMR क्लस्टर ऊपर और चल रहा है, इसलिए हमने चार नौकरी चरण जोड़े हैं। ये चरण हैं EMR एक के बाद एक चलाएंगे। निम्न छवि AWS EMR कंसोल से चरण दिखाती है:

एक बार जब हम चार चरणों को जोड़ लेते हैं, तो हम इन चरणों की स्थिति की जांच पूरी कर सकते हैं। यहां तक कि अगर इन चरणों के निष्पादन के साथ कुछ समस्या है, तो ऐसे मामलों में इन चरणों की लॉग फ़ाइलों का उपयोग करके इसे हल किया जा सकता है।

तो यह इस लेख में मेरी तरफ से AWS में बिग डेटा पर है। मुझे आशा है कि आपने यहां बताई गई हर बात को समझ लिया होगा।

यदि आपको AWS में यह बिग डेटा प्रासंगिक लगा, तो आप एडुर्का के लाइव और इंस्ट्रक्टर के नेतृत्व वाले पाठ्यक्रम की जांच कर सकते हैं , सह उद्योग चिकित्सकों द्वारा बनाया गया।

क्या आप हमसे कोई प्रश्न पूछना चाहते हैं? कृपया इस का उल्लेख अनुभाग में टिप्पणी करें कि AWS में जावा वेब एप्लिकेशन को कैसे नियुक्त करें और हम आपको वापस मिल जाएंगे।

AWS में बड़ा डेटा - बिग डेटा के लिए स्मार्ट समाधान

बिग डेटा क्या है?

AWS क्या है?

AWS में बिग डेटा क्यों?

AWS बड़ी डेटा चुनौतियों को कैसे हल कर सकता है?

बिग डेटा के लिए AWS समाधान

दृश्य

बिग डेटा के लिए एडब्ल्यूएस उपकरण

अंतर्ग्रहण

भंडारण

प्रसंस्करण

दृश्य

डेमो - ऑस्ट्रेलिया में पौधों और जानवरों की लुप्तप्राय प्रजातियों का डेटा का विश्लेषण।

नमूना डेटा

प्रसंस्करण कदम

S3 बाल्टी और फ़ोल्डर

ईएमआर नौकरी चरणों के लिए हाइव लिपियों

लॉग एग्रीगेशन

EMR क्लस्टर सेटअप

हाइव जॉब स्टेप्स जमा करें

श्रेणियाँ

Popular Articles

पायथन में एक लिंक्ड सूची को कैसे लागू किया जाए?

एसएएस ट्यूटोरियल: एसएएस के बारे में आप सभी को पता होना चाहिए

मशीन लर्निंग इंजीनियर बनने के लिए शीर्ष 10 कौशल

जावा बनाम जावास्क्रिप्ट: क्या अंतर हैं?

कैसे सर्वश्रेष्ठ लागू करने के लिए मूलांक क्रमबद्ध कार्यक्रम सी में?

पायथन में एक स्ट्रिंग को उल्टा कैसे करें?

पायथन में लॉजिस्टिक रिग्रेशन कैसे करें?

Git Reflog - एक हटाई गई शाखा को कैसे पुनर्प्राप्त करें जिसे विलय नहीं किया गया था

मशीन लर्निंग के लिए रैखिक प्रतिगमन कैसे लागू करें?

PHP में आपको Array Search के बारे में जानना होगा

स्विचिंग करियर: जावा से बिग डेटा / Hadoop तक

शुरुआती लोगों के लिए आईटीआईएल ट्यूटोरियल - आईटीआईएल वी 4 के साथ शुरुआत करने का तरीका जानें