आज, IT दुनिया में सबसे लोकप्रिय शब्द 'Hadoop' है। बहुत कम समय के भीतर, Hadoop बड़े पैमाने पर बढ़ी है और विभिन्न परियोजनाओं के एक बड़े संग्रह के लिए उपयोगी साबित हुई है। Hadoop समुदाय तेजी से विकसित हो रहा है और इसकी पारिस्थितिकी प्रणाली में एक प्रमुख भूमिका है।
यहाँ आवश्यक Hadoop टूल पर एक नज़र है जो बिग डेटा को संभालने के लिए उपयोग किया जाता है।
ubuntu पर हडूप स्थापित करना
अंबरी Hortonworks द्वारा समर्थित एक अपाचे परियोजना है। यह अधिकांश मानक घटकों के साथ क्लस्टर स्थापित करने के लिए विज़ार्ड स्क्रिप्ट के साथ एक वेब-आधारित जीयूआई (ग्राफिकल यूजर इंटरफेस) प्रदान करता है। अंबारी प्रावधान, हडपॉप नौकरियों के सभी समूहों का प्रबंधन और प्रबंधन करता है।
द HDFS , अपाचे लाइसेंस के तहत वितरित कई नोड्स के बीच डेटा संग्रह को विभाजित करने के लिए एक बुनियादी ढांचा प्रदान करता है। एचडीएफएस में, बड़ी फाइलें ब्लॉक में टूट जाती हैं, जहां कई नोड्स एक फाइल से सभी ब्लॉक पकड़ते हैं। फाइल सिस्टम को हाई थ्रूपुट के साथ फॉल्ट टॉलरेंस को मिक्स करने के लिए बनाया गया है। एचडीएफएस के ब्लॉक स्थिर स्ट्रीमिंग को बनाए रखने के लिए लोड किए गए हैं। वे आमतौर पर विलंबता को कम करने के लिए कैश्ड नहीं होते हैं।
HBase एक स्तंभ-उन्मुख डेटाबेस प्रबंधन प्रणाली है जो HDFS के शीर्ष पर चलती है। HBase अनुप्रयोगों को जावा में लिखा जाता है, बहुत अधिक MapReduce आवेदन की तरह। इसमें तालिकाओं का एक सेट शामिल होता है, जहाँ प्रत्येक तालिका में पारंपरिक डेटाबेस की तरह पंक्तियाँ और स्तंभ होते हैं। जब डेटा बड़ी तालिका में आता है, HBase डेटा संग्रहीत करेगा, इसे खोजें और स्वचालित रूप से तालिका को कई नोड्स में साझा करें ताकि MapReduce कार्य इसे स्थानीय रूप से चला सकें। HBase कुछ स्थानीय परिवर्तनों के लिए एक सीमित गारंटी प्रदान करता है। एक ही पंक्ति में होने वाले परिवर्तन उसी समय सफल या विफल हो सकते हैं।
यदि आप पहले से ही SQL के साथ धाराप्रवाह हैं, तो आप Hadoop का उपयोग कर लाभ उठा सकते हैं छत्ता । हाइव को फेसबुक पर कुछ लोगों द्वारा विकसित किया गया था। अपाचे हाइव HBase में सभी फाइलों से बिट्स निकालने की प्रक्रिया को नियंत्रित करता है। यह Hadoop के HDFS और संगत फ़ाइल सिस्टम में संग्रहीत बड़े डेटासेट के विश्लेषण का समर्थन करता है। यह एक SQL जैसी भाषा भी प्रदान करता है जिसे HSQL (HiveSQL) कहा जाता है जो फाइलों में पहुंच जाती है और कोड के लिए आवश्यक स्निपेट्स निकालती है।
अपाचे सकोप विशेष रूप से हाइव या HBase में पारंपरिक डेटाबेस से कुशलतापूर्वक बल्क डेटा स्थानांतरित करने के लिए डिज़ाइन किया गया है। इसका उपयोग Hadoop से डेटा निकालने और बाहरी संरचित डेटा-स्टोर जैसे रिलेशनल डेटाबेस और एंटरप्राइज़ डेटा वेयरहाउस में निर्यात करने के लिए भी किया जा सकता है। Sqoop एक कमांड लाइन टूल है, जो तालिकाओं और डेटा स्टोरेज लेयर के बीच मैपिंग करता है, तालिकाओं को HDFS, HBase या Hive के एक विन्यास संयोजन में अनुवाद करता है।
जब संग्रहीत डेटा Hadoop को दिखाई देता है, अपाचे सुअर डेटा में गोता लगाता है और अपनी भाषा में लिखे गए कोड को चलाता है, जिसे सुअर लैटिन कहा जाता है। सुअर लैटिन डेटा को संभालने के लिए सार से भरा है। सुअर औसत कार्यों जैसे औसत डेटा, तारीखों के साथ काम करने, या तार के बीच अंतर खोजने के लिए मानक कार्यों के साथ आता है। सुअर यूडीएफ (यूजर डिफाइंड फंक्शन) नामक अपने दम पर भाषाओं को लिखने की अनुमति देता है, जब मानक कार्य कम हो जाते हैं।
ज़ुकरदार एक केंद्रीकृत सेवा है जो जानकारी को बनाए रखती है, जानकारी को कॉन्फ़िगर करती है, एक नाम देती है और एक क्लस्टर में वितरित सिंक्रनाइज़ेशन प्रदान करती है। यह क्लस्टर पर एक फाइल सिस्टम जैसी पदानुक्रम लगाता है और मशीनों के लिए सभी मेटाडेटा को संग्रहीत करता है, इसलिए हम विभिन्न मशीनों के काम को सिंक्रनाइज़ कर सकते हैं।
NoSQL
कुछ Hadoop समूहों के साथ एकीकृत है NoSQL डेटा स्टोर जो नोड्स के एक समूह में डेटा संग्रहीत करने के लिए अपने स्वयं के तंत्र के साथ आते हैं। यह उन्हें NoSQL डेटाबेस की सभी विशेषताओं के साथ डेटा को संग्रहीत और पुनर्प्राप्त करने की अनुमति देता है, जिसके बाद Hadoop का उपयोग उसी क्लस्टर पर डेटा विश्लेषण नौकरियों को शेड्यूल करने के लिए किया जा सकता है।
महावत Hadoop क्लस्टर के लिए बड़ी संख्या में एल्गोरिदम, वर्गीकरण और डेटा विश्लेषण को फ़िल्टर करने के लिए डिज़ाइन किया गया है। के-माध्य, ड्यूरिचलेट, समानांतर पैटर्न और बेयसियन वर्गीकरण जैसे कई मानक एल्गोरिदम डेटा पर हाडोप स्टाइल मैप के साथ चलने और कम करने के लिए तैयार हैं।
ल्यूसीन, जावा में लिखा और Hadoop के साथ आसानी से एकीकृत, Hadoop के लिए एक प्राकृतिक साथी है। यह एक ऐसा उपकरण है जो बिना पढ़े हुए पाठ के बड़े ब्लॉक को अनुक्रमित करने के लिए है। ल्यूसीन इंडेक्सिंग को संभालता है, जबकि हडोप क्लस्टर में वितरित प्रश्नों को संभालता है। नई परियोजनाओं के विकसित होते ही ल्यूसिन-हडोप की विशेषताएं तेजी से विकसित हो रही हैं।
यूरो एक क्रमांकन प्रणाली है जो डेटा को समझने के लिए स्कीमा के साथ मिलकर बंडल करती है। प्रत्येक पैकेट एक JSON डेटा संरचना के साथ आता है। JSON बताता है कि डेटा को पार्स कैसे किया जा सकता है। JSON का हेडर डेटा के लिए संरचना को निर्दिष्ट करता है, जहां फ़ील्ड को चिह्नित करने के लिए डेटा में अतिरिक्त टैग लिखने की आवश्यकता से बचा जा सकता है। आउटपुट XML जैसे पारंपरिक प्रारूपों की तुलना में काफी अधिक कॉम्पैक्ट है।
किसी कार्य को चरणों में तोड़कर सरल बनाया जा सकता है। कई Hadoop नौकरियों के लिए परियोजना को तोड़ने पर, ऊजी उन्हें सही क्रम में संसाधित करना शुरू करता है। यह DAG द्वारा निर्देशित वर्कफ़्लो (डायरेक्टेड एसाइक्लिक ग्राफ) का प्रबंधन करता है और समय पर निगरानी की कोई आवश्यकता नहीं है।
जीआईएस उपकरण
Hadoop चलाने वाले क्लस्टर के लिए भौगोलिक मानचित्र के साथ काम करना एक बड़ा काम है। जीआईएस ( भौगोलिक सूचना प्रणाली ) Hadoop प्रोजेक्ट्स के लिए टूल्स ने Hadoop के साथ चलने के लिए भौगोलिक जानकारी को समझने के लिए सर्वश्रेष्ठ Java- आधारित टूल्स को अनुकूलित किया है। डेटाबेस अब निर्देशांक का उपयोग करके भौगोलिक प्रश्नों को संभाल सकते हैं और कोड जीआईएस उपकरण तैनात कर सकते हैं।
सभी डेटा इकट्ठा करना भंडारण और विश्लेषण करने के बराबर है। अपाचे फ्लूम एचडीएफएस में संग्रहीत जानकारी को इकट्ठा करने के लिए 'विशेष एजेंटों' को भेजती है। एकत्र की गई जानकारी लॉग फ़ाइल, ट्विटर एपीआई या वेबसाइट स्क्रैप हो सकती है। इन आंकड़ों को जंजीर और विश्लेषण के अधीन किया जा सकता है।
चिंगारी अगली पीढ़ी है कि बहुत हद तक Hadoop की तरह काम करता है जो डेटा को मेमोरी में कैश करता है। इसका उद्देश्य सामान्य निष्पादन मॉडल के साथ डेटा विश्लेषण को तेजी से चलाना और लिखना है। यह मध्यस्थ ऑपरेटर ग्राफ़ को अनुकूलित कर सकता है और इन-मेमोरी कंप्यूटिंग का समर्थन कर सकता है, जो इसे Hadoop जैसे डिस्क-आधारित इंजनों की तुलना में तेज़ी से डेटा क्वेरी करने देता है।
Hadoop पर एसक्यूएल
जब क्लस्टर में सभी डेटा की त्वरित तदर्थ क्वेरी चलाने की आवश्यकता होती है, तो एक नया Hadoop कार्य लिखा जा सकता है, लेकिन इसमें कुछ समय लगता है। जब प्रोग्रामर ने इसे अधिक बार करना शुरू किया, तो वे एसक्यूएल की सरल भाषा में लिखे गए टूल के साथ आए। ये उपकरण परिणामों की त्वरित पहुँच प्रदान करते हैं।
अपाचे ड्रिल
अपाचे ड्रिल नेड डेटा सहित कई और विभिन्न डेटा स्रोतों को कम विलंबता तदर्थ क्वेरी प्रदान करता है। Google के Dremel से प्रेरित Drill को 10,000 सर्वर और सेकंड में डेटा की क्वेरी पेटाबाइट के पैमाने पर डिज़ाइन किया गया है।
बिग डेटा crunching के लिए ये आवश्यक Hadoop उपकरण हैं!
क्या आप हमसे कोई प्रश्न पूछना चाहते हैं? कृपया टिप्पणी अनुभाग में उनका उल्लेख करें और हम आपके पास वापस आ जाएंगे।
संबंधित पोस्ट:
हाडोप 2.0 सीखने के लिए व्यावहारिक कारण