एचडीएफएस ट्यूटोरियल: एचडीएफएस और इसकी विशेषताओं का परिचय



यह एचडीएफएस ट्यूटोरियल ब्लॉग आपको एचडीएफएस या हडोप डिस्ट्रीब्यूटेड फाइल सिस्टम और इसकी विशेषताओं को समझने में मदद करेगा। आप इसके मूल घटकों को भी संक्षेप में बताएंगे।

HDFS ट्यूटोरियल

इस एचडीएफएस ट्यूटोरियल ब्लॉग में आगे बढ़ने से पहले, मैं आपको एचडीएफएस से संबंधित कुछ पागल आंकड़ों के माध्यम से ले जाता हूं:

  • 2010 में, फेसबुक सबसे बड़े HDFS क्लस्टर भंडारण में से एक होने का दावा किया 21 पेटाबाइट्स आंकड़े का।
  • 2012 में, फेसबुक घोषित किया गया कि उनके पास सबसे बड़ा एकल एचडीएफएस क्लस्टर है, जिसकी तुलना में अधिक है 100 पीबी आंकड़े का
  • तथा याहू ! से अधिक है 100,000 सीपीयू में समाप्त हो गया 40,000 सर्वर Hadoop चल रहा है, इसके सबसे बड़े Hadoop क्लस्टर चल रहे हैं 4,500 नोड्स । सभी ने बताया, याहू! भंडार 455 पेटाबाइट्स HDFS में डेटा का।
  • वास्तव में, 2013 तक, फॉर्च्यून 50 में अधिकांश बड़े नामों ने हडोप का उपयोग करना शुरू कर दिया।

पचाने में भी मुश्किल? सही। जैसा कि चर्चा में है , Hadoop की दो मूलभूत इकाइयाँ हैं - एस ग़ुस्सा करना तथा प्रसंस्करण । जब मैं कहता हूं कि हडोप का भंडारण हिस्सा है, तो मैं इसका उल्लेख कर रहा हूं HDFS जो खड़ा है Hadoop वितरित फ़ाइल सिस्टम । तो, इस ब्लॉग में, मैं आपको मिलवाता हूँ HDFS





यहाँ, मैं इसके बारे में बात करूंगा:

  • HDFS क्या है?
  • एचडीएफएस के लाभ
  • एचडीएफएस की विशेषताएं

HDFS के बारे में बात करने से पहले, मैं आपको बता दूं कि एक डिस्ट्रीब्यूटेड फाइल सिस्टम क्या है?



DFS या वितरित फ़ाइल सिस्टम:

वितरित फ़ाइल सिस्टम के बारे में बात करता है प्रबंध करना डेटा , अर्थात। कई कंप्यूटर या सर्वर पर फ़ाइलें या फ़ोल्डर। दूसरे शब्दों में, डीएफएस एक फाइल सिस्टम है जो हमें क्लस्टर में कई नोड्स या मशीनों पर डेटा स्टोर करने की अनुमति देता है और कई उपयोगकर्ताओं को डेटा एक्सेस करने की अनुमति देता है। तो मूल रूप से, यह उसी उद्देश्य को पूरा करता है जैसे कि फाइल सिस्टम जो आपकी मशीन में उपलब्ध है, जैसे कि आपके पास विंडोज़ के लिए NTFS (न्यू टेक्नोलॉजी फाइल सिस्टम) या मैक के लिए आपके पास HFS (पदानुक्रमित फाइल सिस्टम) है। अंतर केवल इतना है कि, डिस्ट्रीब्यूटेड फाइल सिस्टम के मामले में, आप सिंगल मशीन के बजाय कई मशीनों में डेटा स्टोर करते हैं। भले ही फ़ाइलों को पूरे नेटवर्क में संग्रहीत किया जाता है, DFS आयोजन करता है और डेटा को इस तरह से प्रदर्शित करता है कि एक मशीन पर बैठा उपयोगकर्ता यह महसूस करेगा कि सभी डेटा उसी मशीन में संग्रहीत हैं।

रिटेल कोड c ++

HDFS क्या है?

Hadoop वितरित फ़ाइल सिस्टम या HDFS एक जावा आधारित वितरित फ़ाइल सिस्टम है जो आपको Hadoop क्लस्टर में कई नोड्स में बड़े डेटा को संग्रहीत करने की अनुमति देता है। इसलिए, यदि आप Hadoop स्थापित करते हैं, तो आपको वितरित वातावरण में डेटा संग्रहीत करने के लिए एक अंतर्निहित भंडारण प्रणाली के रूप में HDFS मिलता है।

आइए इसे समझने के लिए एक उदाहरण लें। कल्पना करें कि आपके पास प्रत्येक मशीन पर 1 टीबी की हार्ड ड्राइव के साथ दस मशीनें या दस कंप्यूटर हैं। अब, एचडीएफएस का कहना है कि यदि आप इन दस मशीनों के शीर्ष पर हाडोप को एक मंच के रूप में स्थापित करते हैं, तो आपको भंडारण सेवा के रूप में एचडीएफएस मिलेगा। Hadoop डिस्ट्रीब्यूटेड फाइल सिस्टम को इस तरह से वितरित किया जाता है कि हर मशीन किसी भी तरह के डेटा को स्टोर करने के लिए उनके अलग-अलग स्टोरेज का योगदान देती है।



एचडीएफएस ट्यूटोरियल: एचडीएफएस के लाभ

1. वितरित भंडारण:

वितरित भंडारण - एचडीएफएस ट्यूटोरियल - एडुरका

जब आप Hadoop क्लस्टर में दस मशीनों में से किसी से Hadoop वितरित फ़ाइल सिस्टम तक पहुँचते हैं, तो आपको ऐसा लगेगा जैसे आपने एक बड़ी मशीन में लॉग इन किया है जिसमें 10 TB की स्टोरेज क्षमता (दस मशीनों पर कुल संग्रहण) है। इसका क्या मतलब है? इसका मतलब है कि आप 10 टीबी की एक बड़ी फाइल को स्टोर कर सकते हैं जिसे दस मशीनों (1 टीबी प्रत्येक) पर वितरित किया जाएगा।सो है केवल भौतिक सीमाओं तक सीमित नहीं प्रत्येक व्यक्तिगत मशीन की।

2. वितरित और समानांतर गणना:

क्योंकि डेटा मशीनों में विभाजित है, यह हमें लाभ उठाने की अनुमति देता है वितरित और समानांतर संगणना । इस अवधारणा को उपरोक्त उदाहरण से समझते हैं। मान लीजिए, एक मशीन पर 1 टीबी फ़ाइल को संसाधित करने में 43 मिनट लगते हैं। तो, अब मुझे बताइए, जब आप एक समान विन्यास वाली 43 मशीनों या 43 मिनट या 4.3 मिनट में एक ही 1 टीबी फ़ाइल को संसाधित करने में कितना समय लेंगे? 4.3 मिनट, सही! यहाँ क्या हुआ? प्रत्येक नोड्स समानांतर में 1 टीबी फ़ाइल के एक भाग के साथ काम कर रहा है। इसलिए, जो काम 43 मिनट पहले हो रहा था, वह अब केवल 4.3 मिनट में समाप्त हो जाता है क्योंकि यह कार्य दस मशीनों में विभाजित हो गया है।

3. क्षैतिज स्केलेबिलिटी:

पिछले नहीं बल्कि कम से कम, हमें बात करते हैं क्षैतिज स्केलिंग या बाहर निकालना Hadoop में। स्केलिंग के दो प्रकार हैं: लंबवत तथा क्षैतिज । वर्टिकल स्केलिंग (स्केल अप) में, आप अपने सिस्टम की हार्डवेयर क्षमता को बढ़ाते हैं। दूसरे शब्दों में, आप अधिक रैम या सीपीयू खरीदते हैं और इसे और अधिक मजबूत और शक्तिशाली बनाने के लिए इसे अपने मौजूदा सिस्टम में जोड़ते हैं। लेकिन वर्टिकल स्केलिंग या स्केलिंग से जुड़ी चुनौतियाँ हैं:

  • हमेशा एक सीमा होती है जिससे आप अपनी हार्डवेयर क्षमता बढ़ा सकते हैं। इसलिए, आप मशीन के RAM या CPU को बढ़ाते नहीं रह सकते।
  • वर्टिकल स्केलिंग में आप अपनी मशीन को पहले बंद कर देते हैं। फिर आप इसे और अधिक मजबूत हार्डवेयर स्टैक बनाने के लिए रैम या सीपीयू बढ़ाते हैं। आपके द्वारा अपनी हार्डवेयर क्षमता बढ़ाने के बाद, आप मशीन को पुनः आरंभ करते हैं। यह डाउन टाइम जब आप अपने सिस्टम को रोक रहे हैं तो यह एक चुनौती बन जाता है।

के मामले में क्षैतिज स्केलिंग (स्केल आउट) , आप अलग-अलग मशीनों की हार्डवेयर क्षमता बढ़ाने के बजाय मौजूदा क्लस्टर में अधिक नोड जोड़ते हैं। और सबसे महत्वपूर्ण बात, आप कर सकते हैं जाने पर और मशीनें जोड़ें यानी सिस्टम को रोके बिना इसलिए, स्केलिंग करते समय हमारे पास कोई डाउन टाइम या ग्रीन ज़ोन नहीं है, इस तरह का कुछ भी नहीं है। दिन के अंत में, आपकी आवश्यकताओं को पूरा करने के लिए आपके पास समानांतर में काम करने वाली अधिक मशीनें होंगी।

HDFS ट्यूटोरियल वीडियो:

आप नीचे दिए गए वीडियो को देख सकते हैं, जहां एचडीएफएस से संबंधित सभी अवधारणाओं पर विस्तार से चर्चा की गई है:

sql सर्वर में पिवट और अनपिवेट

HDFS ट्यूटोरियल: एचडीएफएस की विशेषताएं

हम इन सुविधाओं को विस्तार से समझेंगे जब हम अपने अगले एचडीएफएस ट्यूटोरियल ब्लॉग में एचडीएफएस आर्किटेक्चर का पता लगाएंगे। लेकिन, अब, एचडीएफएस की विशेषताओं पर एक नज़र डालते हैं:

  • लागत: HDFS, सामान्य तौर पर, आपके डेस्कटॉप / लैपटॉप जैसे कमोडिटी हार्डवेयर पर तैनात किया जाता है, जिसे आप हर दिन इस्तेमाल करते हैं। इसलिए, यह परियोजना के स्वामित्व की लागत के मामले में बहुत ही किफायती है। चूंकि, हम कम लागत वाली कमोडिटी हार्डवेयर का उपयोग कर रहे हैं, इसलिए आपको अपने Hadoop क्लस्टर को स्केल करने के लिए बड़ी राशि खर्च करने की आवश्यकता नहीं है। दूसरे शब्दों में, अपने HDFS में अधिक नोड्स जोड़ना प्रभावी है।
  • विविधता और डेटा की मात्रा: जब हम HDFS के बारे में बात करते हैं तो हम विशाल डेटा यानी टेराबाइट्स और पेटाबाइट्स और विभिन्न प्रकार के डेटा को संग्रहीत करने के बारे में बात करते हैं। तो, आप किसी भी प्रकार के डेटा को एचडीएफएस में स्टोर कर सकते हैं, यह संरचित, असंरचित या अर्ध संरचित हो सकता है।
  • विश्वसनीयता और दोष सहिष्णुता: जब आप HDFS पर डेटा स्टोर करते हैं, तो यह दिए गए डेटा को आंतरिक रूप से डेटा ब्लॉक में विभाजित करता है और इसे आपके Hadoop क्लस्टर में वितरित फैशन में संग्रहीत करता है। डेटा ब्लॉक किस डेटा नोड पर स्थित है, इसकी जानकारी मेटाडेटा में दर्ज की जाती है। NameNode मेटा डेटा और प्रबंधन करता है DataNodes डेटा संग्रहीत करने के लिए जिम्मेदार हैं।
    नाम नोड भी डेटा की नकल करता है यानी डेटा की कई प्रतियाँ रखता है। डेटा की यह प्रतिकृति एचडीएफएस को बहुत विश्वसनीय और दोषपूर्ण सहनशील बनाती है। इसलिए, यदि कोई भी नोड विफल रहता है, तो भी हम अन्य डेटा नोड्स पर रहने वाले प्रतिकृतियों से डेटा को पुनः प्राप्त कर सकते हैं। डिफ़ॉल्ट रूप से, प्रतिकृति कारक 3 है। इसलिए, यदि आप HDFS में 1 जीबी फ़ाइल संग्रहीत करते हैं, तो यह अंततः 3 जीबी स्थान पर कब्जा कर लेगा। नाम नोड समय-समय पर मेटाडेटा को अद्यतन करता है और प्रतिकृति कारक को बनाए रखता है।
  • आंकड़ा शुचिता: डेटा इंटीग्रिटी के बारे में बात करता है कि मेरे एचडीएफएस में संग्रहीत डेटा सही है या नहीं। एचडीएफएस लगातार अपने चेकसम के खिलाफ संग्रहीत डेटा की अखंडता की जांच करता है। यदि यह कोई गलती पाता है, तो यह नाम नोड के बारे में रिपोर्ट करता है। फिर, नाम नोड अतिरिक्त नई प्रतिकृतियां बनाता है और इसलिए दूषित प्रतियाँ हटाता है।
  • उच्च थ्रूपुट: थ्रूपुट एक इकाई समय में किए गए कार्य की मात्रा है। यह इस बारे में बात करता है कि आप फ़ाइल सिस्टम से डेटा कितनी तेजी से एक्सेस कर सकते हैं। मूल रूप से, यह आपको सिस्टम प्रदर्शन के बारे में जानकारी देता है। जैसा कि आपने उपर्युक्त उदाहरण में देखा है कि हमने संगणना बढ़ाने के लिए सामूहिक रूप से दस मशीनों का उपयोग किया। वहां हम प्रसंस्करण समय को कम करने में सक्षम थे 43 मिनट मात्र तक 4.3 मिनट जैसा कि सभी मशीनें समानांतर में काम कर रही थीं। इसलिए, समानांतर में डेटा संसाधित करके, हमने प्रसंस्करण समय को बहुत कम कर दिया और इस प्रकार, उच्च थ्रूपुट हासिल किया।
  • डेटा स्थानीयता: डेटा स्थानीयता प्रसंस्करण इकाई के डेटा के बजाय डेटा के लिए प्रसंस्करण इकाई को स्थानांतरित करने के बारे में बात करती है। हमारे पारंपरिक सिस्टम में, हम डेटा को एप्लिकेशन लेयर में लाते थे और फिर इसे प्रोसेस करते थे। लेकिन अब, डेटा की वास्तुकला और विशाल मात्रा के कारण, डेटा को एप्लिकेशन परत तक लाया जाएगाध्यान देने योग्य सीमा तक नेटवर्क प्रदर्शन को कम करेंतो, एचडीएफएस में, हम गणना भाग को डेटा नोड्स में लाते हैं जहां डेटा निवास कर रहा है। इसलिए, आप डेटा को स्थानांतरित नहीं कर रहे हैं, आप प्रोग्राम या प्रक्रिया ला रहे हैंडेटा का हिस्सा है।

तो अब, आपके पास एचडीएफएस और इसकी विशेषताओं के बारे में एक संक्षिप्त विचार है। लेकिन मुझ पर भरोसा रखो, यह सिर्फ हिमशैल का सिरा है। मेरे अगले में , मैं गहरे में डुबकी लगाऊंगा HDFS वास्तुकला और मैं एचडीएफएस की सफलता के पीछे के रहस्यों का अनावरण करूंगा। साथ में हम उन सभी सवालों के जवाब देंगे जो आपके दिमाग में चल रहे हैं जैसे:

  • जब आप Hadoop Distributed File System में डेटा पढ़ते या लिखते हैं तो पर्दे के पीछे क्या होता है?
  • रैक जागरूकता जैसे एल्गोरिदम क्या हैं जो एचडीएफएस को इतना गलत सहिष्णु बनाते हैं?
  • कैसे Hadoop वितरित फ़ाइल सिस्टम प्रबंधित करता है और प्रतिकृति बनाता है?
  • ब्लॉक ऑपरेशन क्या हैं?

अब जब आप एचडीएफएस और इसकी विशेषताओं को समझ गए हैं, तो देखें 250,000 से अधिक संतुष्ट शिक्षार्थियों के एक नेटवर्क के साथ एक विश्वसनीय ऑनलाइन शिक्षण कंपनी, एडुरेका द्वारा, दुनिया भर में फैली हुई है। Edureka Big Data Hadoop सर्टिफिकेशन ट्रेनिंग कोर्स, शिक्षार्थियों को रिटेल, सोशल मीडिया, एविएशन, टूरिज्म, फाइनेंस डोमेन पर रियल-टाइम उपयोग मामलों का उपयोग करके HDFS, यार्न, MapReduce, Pig, Hive, HBase, Oozie, Flume और Sqoop में विशेषज्ञ बनने में मदद करता है।

क्या आप हमसे कोई प्रश्न पूछना चाहते हैं? कृपया टिप्पणी अनुभाग में इसका उल्लेख करें और हम आपके पास वापस आ जाएंगे।