Hadoop YARN ट्यूटोरियल - YARN वास्तुकला के मूल सिद्धांतों को जानें



यह ब्लॉग Apache Hadoop YARN पर केंद्रित है जिसे संसाधन प्रबंधन और नौकरी निर्धारण के लिए Hadoop संस्करण 2.0 में पेश किया गया था। यह अपने घटकों और उनमें से प्रत्येक द्वारा किए गए कर्तव्यों के साथ YARN वास्तुकला की व्याख्या करता है। यह Apache Hadoop YARN में एप्लिकेशन सबमिशन और वर्कफ़्लो का वर्णन करता है।

Hadoop YARN विभिन्न प्रोसेसिंग टूल्स के साथ Hadoop यानी HDFS (Hadoop Distributed File System) की स्टोरेज यूनिट को बुनती है। आप में से जो इस विषय के लिए पूरी तरह से नए हैं, उनके लिए YARN खड़ा है तथा सेवा मेरे नथेर आर स्रोत एन अहंकारी ”। मैं यह भी सुझाव दूंगा कि आप हमारे माध्यम से जाएं तथा इससे पहले कि आप Apache Hadoop YARN सीखने के साथ आगे बढ़ें। मैं यहाँ निम्नलिखित विषयों के बारे में बताऊंगा ताकि यह सुनिश्चित हो सके कि इस ब्लॉग के अंत में आपकी Hadoop YARN की समझ स्पष्ट हो।

क्यों यार?

Hadoop संस्करण 1.0 में जिसे MRV1 (MapReduce Version 1) भी कहा जाता है, MapReduce ने प्रसंस्करण और संसाधन प्रबंधन दोनों कार्य किए। इसमें एक जॉब ट्रैकर शामिल था जो सिंगल मास्टर था। जॉब ट्रैकर ने संसाधनों को आवंटित किया, शेड्यूलिंग का प्रदर्शन किया और प्रसंस्करण नौकरियों की निगरानी की। इसने टास्क ट्रैकर्स नामक कई अधीनस्थ प्रक्रियाओं पर नक्शा सौंपा और कार्यों को कम किया। टास्क ट्रैकर्स ने समय-समय पर नौकरी ट्रैकर को अपनी प्रगति की सूचना दी।





MapReduce 1.0 संस्करण - Hadoop YARN - Edureka

इस डिज़ाइन के कारण एकल जॉब ट्रैकर के कारण स्केलेबिलिटी की अड़चन पैदा हुई।आईबीएम ने अपने लेख में उल्लेख किया है कि याहू के अनुसार!, इस तरह की डिज़ाइन की व्यावहारिक सीमाएं 5000 नोड्स के क्लस्टर तक पहुंचती हैं और 40,000 कार्य समवर्ती रूप से चल रहे हैं।इस सीमा के अलावा, कम्प्यूटेशनल संसाधनों का उपयोग MRV1 में अक्षम है। इसके अलावा, Hadoop ढांचा केवल MapReduce प्रसंस्करण प्रतिमान तक सीमित हो गया।



इन सभी मुद्दों को दूर करने के लिए, याहू और हॉर्टनवर्क्स द्वारा वर्ष 2012 में Hadoop संस्करण 2.0 में YARN को पेश किया गया था। YARN के पीछे मूल विचार संसाधन प्रबंधन और नौकरी निर्धारण की जिम्मेदारी लेकर MapReduce को राहत देना है। YARN ने Hadoop को Hadoop ढांचे के भीतर गैर-MapReduce नौकरियों को चलाने की क्षमता देना शुरू कर दिया।

आप नीचे दिए गए वीडियो को भी देख सकते हैं जहां हमारे विशेषज्ञ YARN अवधारणाओं और इसकी वास्तुकला पर विस्तार से चर्चा कर रहे हैं।

Hadoop यार्न ट्यूटोरियल | Hadoop यार्न वास्तुकला | Edureka

YARN की शुरुआत के साथ, ए पूरी तरह से संशोधित किया गया था। यह अधिक लचीला, कुशल और स्केलेबल बन गया। जब याहू 2013 की पहली तिमाही में YARN के साथ लाइव हुआ, तो उसने कंपनी को अपने Hadoop क्लस्टर के आकार को 40,000 नोड्स से 32,000 नोड्स तक सिकोड़ने के लिए सहायता दी। लेकिन नौकरियों की संख्या दोगुनी होकर 26 मिलियन प्रति माह हो गई।



Hadoop YARN का परिचय

अब जब मैंने आपको YARN की आवश्यकता के बारे में बता दिया है, तो मैं आपको Hadoop v2.0 के मुख्य घटक से परिचित कराता हूं, यार । YARN विभिन्न डेटा प्रोसेसिंग विधियों जैसे ग्राफ़ प्रोसेसिंग, इंटरएक्टिव प्रोसेसिंग, स्ट्रीम प्रोसेसिंग के साथ-साथ एचडीएफएस में संग्रहीत डेटा को चलाने और संसाधित करने के लिए बैच प्रोसेसिंग की अनुमति देता है। इसलिए YARN अन्य प्रकार के वितरित अनुप्रयोगों के लिए Hadoop को MapReduce से परे खोलता है।

कैसे जावा में वस्तुओं की एक सरणी घोषित करने के लिए

यार्न ने विभिन्न प्रकार के उपकरणों का उपयोग करके उपयोगकर्ताओं को आवश्यकता के अनुसार संचालन करने में सक्षम बनाया वास्तविक समय प्रसंस्करण के लिए, छत्ता SQL के लिए, HBase NoSQL और अन्य के लिए।

संसाधन प्रबंधन के अलावा, YARN जॉब निर्धारण भी करता है। YARN संसाधनों और शेड्यूलिंग कार्यों को आवंटित करके आपकी सभी प्रसंस्करण गतिविधियाँ करता है। Apache Hadoop YARN आर्किटेक्चर में निम्नलिखित मुख्य घटक होते हैं:

  1. संसाधन प्रबंधक : एक मास्टर डेमॉन पर चलता है और क्लस्टर में संसाधन आवंटन का प्रबंधन करता है।
  2. नोड प्रबंधक: वे दास डेमोंस पर चलते हैं और हर एक डेटा नोड पर एक कार्य के निष्पादन के लिए जिम्मेदार हैं।
  3. आवेदन मास्टर: व्यक्तिगत अनुप्रयोगों के उपयोगकर्ता नौकरी जीवनचक्र और संसाधन आवश्यकताओं का प्रबंधन करता है। यह नोड मैनेजर के साथ काम करता है और कार्यों के निष्पादन की निगरानी करता है।
  4. कंटेनर: एक नोड पर रैम, सीपीयू, नेटवर्क, एचडीडी आदि संसाधनों का पैकेज।

YARN के घटक

आप YARN को अपने Hadoop Ecosystem के मस्तिष्क के रूप में मान सकते हैं। नीचे दी गई छवि YARN वास्तुकला का प्रतिनिधित्व करती है।

पहला घटक YARN आर्किटेक्चर का है,

संसाधन प्रबंधक

  • यह संसाधन आवंटन में अंतिम अधिकार है
  • प्रसंस्करण अनुरोध प्राप्त करने पर, यह तदनुसार संबंधित नोड प्रबंधकों को अनुरोधों के कुछ हिस्सों को पारित करता है, जहां वास्तविक प्रसंस्करण होता है।
  • यह क्लस्टर संसाधनों का मध्यस्थ है और प्रतिस्पर्धी अनुप्रयोगों के लिए उपलब्ध संसाधनों के आवंटन का निर्णय करता है।
  • क्षमता की गारंटी, निष्पक्षता और SLAs के रूप में विभिन्न बाधाओं के खिलाफ हर समय उपयोग में सभी संसाधनों को रखने की तरह क्लस्टर उपयोग का अनुकूलन करता है।
  • इसके दो प्रमुख घटक हैं:a) समयबद्धकबी)आवेदन प्रबंधंक

a) समयबद्धक

  • शेड्यूलर विभिन्न क्षमताओं के लिए संसाधनों को आवंटित करने के लिए जिम्मेदार है, जो क्षमता, कतार आदि की बाधाओं के अधीन हैं।
  • इसे संसाधन प्रबंधक में एक शुद्ध अनुसूचक कहा जाता है, जिसका अर्थ है कि यह अनुप्रयोगों के लिए स्थिति की निगरानी या ट्रैकिंग नहीं करता है।
  • यदि कोई अनुप्रयोग विफलता या हार्डवेयर विफलता है, तो शेड्यूलर विफल कार्यों को पुनरारंभ करने की गारंटी नहीं देता है।
  • अनुप्रयोगों की संसाधन आवश्यकताओं के आधार पर शेड्यूलिंग करता है।
  • इसमें एक प्लग करने योग्य नीति प्लग-इन है, जो विभिन्न अनुप्रयोगों के बीच क्लस्टर संसाधनों के विभाजन के लिए जिम्मेदार है। ऐसे दो प्लग-इन हैं: क्षमता अनुसूचक तथा निष्पक्ष अनुसूचक , जो वर्तमान में रिसोर्स मैनजर में शेड्यूलर के रूप में उपयोग किया जाता है।

बी) आवेदन प्रबंधक

  • यह नौकरी प्रस्तुतियाँ स्वीकार करने के लिए जिम्मेदार है।
  • अनुप्रयोग विशिष्ट अनुप्रयोग मास्टर को क्रियान्वित करने के लिए संसाधन प्रबंधक से पहले कंटेनर की बातचीत करता है।
  • एक क्लस्टर में एप्लिकेशन मास्टर्स चलाने का प्रबंधन करता है और विफलता पर एप्लिकेशन मास्टर कंटेनर को पुनरारंभ करने के लिए सेवा प्रदान करता है।

आ रहा है दूसरा घटक जो है:

नोड मैनेजर

  • यह एक Hadoop क्लस्टर और में व्यक्तिगत नोड्स का ख्याल रखता हैदिए गए नोड पर उपयोगकर्ता नौकरियों और वर्कफ़्लो का प्रबंधन करता है।
  • यह संसाधन प्रबंधक के साथ पंजीकृत है और नोड के स्वास्थ्य की स्थिति के साथ दिल की धड़कन भेजता है।
  • इसका प्राथमिक लक्ष्य रिसोर्स मैनेजर द्वारा इसे सौंपे गए एप्लिकेशन कंटेनरों का प्रबंधन करना है।
  • यह संसाधन प्रबंधक के साथ अद्यतित रहता है।
  • एप्लीकेशन मास्टर नोड मैनेजर से निर्दिष्ट कंटेनर को कंटेनर लॉन्च कॉन्टेक्स्ट (CLC) भेजकर अनुरोध करता है जिसमें चलाने के लिए एप्लिकेशन की जरूरत की सभी चीजें शामिल हैं। नोड प्रबंधक अनुरोधित कंटेनर प्रक्रिया बनाता है और इसे शुरू करता है।
  • व्यक्तिगत कंटेनर के संसाधन उपयोग (मेमोरी, सीपीयू) को मॉनिटर करता है।
  • लॉग प्रबंधन करता है।
  • यह कंटेनर को मारता है जैसा कि संसाधन प्रबंधक द्वारा निर्देशित है।

तीसरा घटक अपाचे के Hadoop YARN है,

एप्लीकेशन मास्टर
  • एक आवेदन फ्रेमवर्क के लिए प्रस्तुत एक एकल काम है। इस तरह के प्रत्येक एप्लिकेशन में एक अद्वितीय एप्लिकेशन मास्टर जुड़ा होता है जो एक फ्रेमवर्क विशिष्ट इकाई है।
  • यह प्रक्रिया है जो क्लस्टर में किसी एप्लिकेशन के निष्पादन को समन्वित करती है और दोषों का प्रबंधन भी करती है।
  • इसका कार्य संसाधन प्रबंधक से संसाधनों पर बातचीत करना और घटक कार्यों को निष्पादित और निगरानी करने के लिए नोड प्रबंधक के साथ काम करना है।
  • यह संसाधन प्रबंधक से उपयुक्त संसाधन कंटेनरों की बातचीत करने, उनकी स्थिति पर नज़र रखने और प्रगति की निगरानी के लिए जिम्मेदार है।
  • एक बार शुरू होने के बाद, यह समय-समय पर अपने स्वास्थ्य की पुष्टि करने और अपनी संसाधन मांगों के रिकॉर्ड को अपडेट करने के लिए संसाधन प्रबंधक को दिल की धड़कन भेजता है।

चौथा घटक है:

कंटेनर
  • यह एक नोड पर रैम, सीपीयू कोर और डिस्क जैसे भौतिक संसाधनों का एक संग्रह है।
  • YARN कंटेनरों को एक कंटेनर लॉन्च संदर्भ द्वारा प्रबंधित किया जाता है जो कंटेनर जीवन-चक्र (CLC) है। इस रिकॉर्ड में पर्यावरण चर का एक नक्शा, एक दूर से सुलभ भंडारण में संग्रहीत निर्भरता, सुरक्षा टोकन, नोड प्रबंधक सेवाओं के लिए पेलोड और प्रक्रिया बनाने के लिए आवश्यक कमांड शामिल हैं।
  • यह एक विशिष्ट मेजबान पर संसाधनों (मेमोरी, सीपीयू आदि) की एक विशिष्ट राशि का उपयोग करने के लिए एक आवेदन के अधिकार प्रदान करता है।

YARN में आवेदन जमा करना

चित्र देखें और Hadoop YARN के एप्लिकेशन सबमिशन में शामिल चरणों पर एक नज़र डालें:

1) नौकरी जमा करें

2)एप्लिकेशन आईडी प्राप्त करें

3) आवेदन प्रस्तुत करने का संदर्भ

4) कंटेनर शुरू करेंप्रक्षेपण

b) एप्लिकेशन मास्टर लॉन्च करें

5) संसाधन आवंटित करें

6) कंटेनर

b) लॉन्च

7) निष्पादित करें

Hadoop YARN में अनुप्रयोग वर्कफ़्लो

दिए गए चित्र का संदर्भ लें और अपाचे Hadoop YARN के एप्लिकेशन वर्कफ़्लो में शामिल निम्नलिखित चरणों को देखें:

  1. क्लाइंट एक एप्लिकेशन सबमिट करता है
  2. रिसोर्स मैनेजर एप्लिकेशन मैनेजर शुरू करने के लिए एक कंटेनर आवंटित करता है
  3. एप्लिकेशन मैनेजर रिसोर्स मैनेजर के साथ रजिस्टर करता है
  4. एप्लीकेशन मैनेजर रिसोर्स मैनेजर से कंटेनर मांगता है
  5. अनुप्रयोग प्रबंधक कंटेनर लॉन्च करने के लिए नोड प्रबंधक को सूचित करता है
  6. कंटेनर में एप्लिकेशन कोड निष्पादित किया जाता है
  7. ग्राहक संपर्क संसाधन प्रबंधक / अनुप्रयोग प्रबंधक आवेदन की स्थिति की निगरानी करने के लिए
  8. अनुप्रयोग प्रबंधक संसाधन प्रबंधक के साथ अपंजीकृत करता है

अब जब आप Apache Hadoop YARN को जानते हैं, तो देखें 250,000 से अधिक संतुष्ट शिक्षार्थियों के एक नेटवर्क के साथ एक विश्वसनीय ऑनलाइन शिक्षण कंपनी, एडुरेका द्वारा, दुनिया भर में फैली हुई है। Edureka Big Data Hadoop सर्टिफिकेशन ट्रेनिंग कोर्स शिक्षार्थियों को रिटेल, सोशल मीडिया, एविएशन, टूरिज्म, फाइनेंस डोमेन पर रियल-टाइम उपयोग के मामलों का उपयोग करके HDFS, यार्न, MapReduce, Pig, Hive, HBase, Oozie, Flume और Sqoop में निपुण बनने में मदद करता है।

क्या आप हमसे कोई प्रश्न पूछना चाहते हैं? कृपया टिप्पणी अनुभाग में इसका उल्लेख करें और हम आपके पास वापस आ जाएंगे।