बिग डेटा क्रंच करने के लिए आवश्यक Hadoop टूल



Hadoop आज IT दुनिया में चर्चा का शब्द है, और यह पोस्ट बिग डेटा को क्रंच करने वाले आवश्यक Hadoop टूल्स का वर्णन करता है।

आज, IT दुनिया में सबसे लोकप्रिय शब्द 'Hadoop' है। बहुत कम समय के भीतर, Hadoop बड़े पैमाने पर बढ़ी है और विभिन्न परियोजनाओं के एक बड़े संग्रह के लिए उपयोगी साबित हुई है। Hadoop समुदाय तेजी से विकसित हो रहा है और इसकी पारिस्थितिकी प्रणाली में एक प्रमुख भूमिका है।





यहाँ आवश्यक Hadoop टूल पर एक नज़र है जो बिग डेटा को संभालने के लिए उपयोग किया जाता है।

ubuntu पर हडूप स्थापित करना

ambari



अंबरी Hortonworks द्वारा समर्थित एक अपाचे परियोजना है। यह अधिकांश मानक घटकों के साथ क्लस्टर स्थापित करने के लिए विज़ार्ड स्क्रिप्ट के साथ एक वेब-आधारित जीयूआई (ग्राफिकल यूजर इंटरफेस) प्रदान करता है। अंबारी प्रावधान, हडपॉप नौकरियों के सभी समूहों का प्रबंधन और प्रबंधन करता है।

hdfs-logo

HDFS , अपाचे लाइसेंस के तहत वितरित कई नोड्स के बीच डेटा संग्रह को विभाजित करने के लिए एक बुनियादी ढांचा प्रदान करता है। एचडीएफएस में, बड़ी फाइलें ब्लॉक में टूट जाती हैं, जहां कई नोड्स एक फाइल से सभी ब्लॉक पकड़ते हैं। फाइल सिस्टम को हाई थ्रूपुट के साथ फॉल्ट टॉलरेंस को मिक्स करने के लिए बनाया गया है। एचडीएफएस के ब्लॉक स्थिर स्ट्रीमिंग को बनाए रखने के लिए लोड किए गए हैं। वे आमतौर पर विलंबता को कम करने के लिए कैश्ड नहीं होते हैं।



hbaselogo

HBase एक स्तंभ-उन्मुख डेटाबेस प्रबंधन प्रणाली है जो HDFS के शीर्ष पर चलती है। HBase अनुप्रयोगों को जावा में लिखा जाता है, बहुत अधिक MapReduce आवेदन की तरह। इसमें तालिकाओं का एक सेट शामिल होता है, जहाँ प्रत्येक तालिका में पारंपरिक डेटाबेस की तरह पंक्तियाँ और स्तंभ होते हैं। जब डेटा बड़ी तालिका में आता है, HBase डेटा संग्रहीत करेगा, इसे खोजें और स्वचालित रूप से तालिका को कई नोड्स में साझा करें ताकि MapReduce कार्य इसे स्थानीय रूप से चला सकें। HBase कुछ स्थानीय परिवर्तनों के लिए एक सीमित गारंटी प्रदान करता है। एक ही पंक्ति में होने वाले परिवर्तन उसी समय सफल या विफल हो सकते हैं।

hive

यदि आप पहले से ही SQL के साथ धाराप्रवाह हैं, तो आप Hadoop का उपयोग कर लाभ उठा सकते हैं छत्ता । हाइव को फेसबुक पर कुछ लोगों द्वारा विकसित किया गया था। अपाचे हाइव HBase में सभी फाइलों से बिट्स निकालने की प्रक्रिया को नियंत्रित करता है। यह Hadoop के HDFS और संगत फ़ाइल सिस्टम में संग्रहीत बड़े डेटासेट के विश्लेषण का समर्थन करता है। यह एक SQL जैसी भाषा भी प्रदान करता है जिसे HSQL (HiveSQL) कहा जाता है जो फाइलों में पहुंच जाती है और कोड के लिए आवश्यक स्निपेट्स निकालती है।

sqoop

अपाचे सकोप विशेष रूप से हाइव या HBase में पारंपरिक डेटाबेस से कुशलतापूर्वक बल्क डेटा स्थानांतरित करने के लिए डिज़ाइन किया गया है। इसका उपयोग Hadoop से डेटा निकालने और बाहरी संरचित डेटा-स्टोर जैसे रिलेशनल डेटाबेस और एंटरप्राइज़ डेटा वेयरहाउस में निर्यात करने के लिए भी किया जा सकता है। Sqoop एक कमांड लाइन टूल है, जो तालिकाओं और डेटा स्टोरेज लेयर के बीच मैपिंग करता है, तालिकाओं को HDFS, HBase या Hive के एक विन्यास संयोजन में अनुवाद करता है।

Pig1

जब संग्रहीत डेटा Hadoop को दिखाई देता है, अपाचे सुअर डेटा में गोता लगाता है और अपनी भाषा में लिखे गए कोड को चलाता है, जिसे सुअर लैटिन कहा जाता है। सुअर लैटिन डेटा को संभालने के लिए सार से भरा है। सुअर औसत कार्यों जैसे औसत डेटा, तारीखों के साथ काम करने, या तार के बीच अंतर खोजने के लिए मानक कार्यों के साथ आता है। सुअर यूडीएफ (यूजर डिफाइंड फंक्शन) नामक अपने दम पर भाषाओं को लिखने की अनुमति देता है, जब मानक कार्य कम हो जाते हैं।

zookeper

ज़ुकरदार एक केंद्रीकृत सेवा है जो जानकारी को बनाए रखती है, जानकारी को कॉन्फ़िगर करती है, एक नाम देती है और एक क्लस्टर में वितरित सिंक्रनाइज़ेशन प्रदान करती है। यह क्लस्टर पर एक फाइल सिस्टम जैसी पदानुक्रम लगाता है और मशीनों के लिए सभी मेटाडेटा को संग्रहीत करता है, इसलिए हम विभिन्न मशीनों के काम को सिंक्रनाइज़ कर सकते हैं।

NoSQL

कुछ Hadoop समूहों के साथ एकीकृत है NoSQL डेटा स्टोर जो नोड्स के एक समूह में डेटा संग्रहीत करने के लिए अपने स्वयं के तंत्र के साथ आते हैं। यह उन्हें NoSQL डेटाबेस की सभी विशेषताओं के साथ डेटा को संग्रहीत और पुनर्प्राप्त करने की अनुमति देता है, जिसके बाद Hadoop का उपयोग उसी क्लस्टर पर डेटा विश्लेषण नौकरियों को शेड्यूल करने के लिए किया जा सकता है।

mahoutlogo

महावत Hadoop क्लस्टर के लिए बड़ी संख्या में एल्गोरिदम, वर्गीकरण और डेटा विश्लेषण को फ़िल्टर करने के लिए डिज़ाइन किया गया है। के-माध्य, ड्यूरिचलेट, समानांतर पैटर्न और बेयसियन वर्गीकरण जैसे कई मानक एल्गोरिदम डेटा पर हाडोप स्टाइल मैप के साथ चलने और कम करने के लिए तैयार हैं।

ल्यूसीन, जावा में लिखा और Hadoop के साथ आसानी से एकीकृत, Hadoop के लिए एक प्राकृतिक साथी है। यह एक ऐसा उपकरण है जो बिना पढ़े हुए पाठ के बड़े ब्लॉक को अनुक्रमित करने के लिए है। ल्यूसीन इंडेक्सिंग को संभालता है, जबकि हडोप क्लस्टर में वितरित प्रश्नों को संभालता है। नई परियोजनाओं के विकसित होते ही ल्यूसिन-हडोप की विशेषताएं तेजी से विकसित हो रही हैं।

Avro

यूरो एक क्रमांकन प्रणाली है जो डेटा को समझने के लिए स्कीमा के साथ मिलकर बंडल करती है। प्रत्येक पैकेट एक JSON डेटा संरचना के साथ आता है। JSON बताता है कि डेटा को पार्स कैसे किया जा सकता है। JSON का हेडर डेटा के लिए संरचना को निर्दिष्ट करता है, जहां फ़ील्ड को चिह्नित करने के लिए डेटा में अतिरिक्त टैग लिखने की आवश्यकता से बचा जा सकता है। आउटपुट XML जैसे पारंपरिक प्रारूपों की तुलना में काफी अधिक कॉम्पैक्ट है।

किसी कार्य को चरणों में तोड़कर सरल बनाया जा सकता है। कई Hadoop नौकरियों के लिए परियोजना को तोड़ने पर, ऊजी उन्हें सही क्रम में संसाधित करना शुरू करता है। यह DAG द्वारा निर्देशित वर्कफ़्लो (डायरेक्टेड एसाइक्लिक ग्राफ) का प्रबंधन करता है और समय पर निगरानी की कोई आवश्यकता नहीं है।

जीआईएस उपकरण

Hadoop चलाने वाले क्लस्टर के लिए भौगोलिक मानचित्र के साथ काम करना एक बड़ा काम है। जीआईएस ( भौगोलिक सूचना प्रणाली ) Hadoop प्रोजेक्ट्स के लिए टूल्स ने Hadoop के साथ चलने के लिए भौगोलिक जानकारी को समझने के लिए सर्वश्रेष्ठ Java- आधारित टूल्स को अनुकूलित किया है। डेटाबेस अब निर्देशांक का उपयोग करके भौगोलिक प्रश्नों को संभाल सकते हैं और कोड जीआईएस उपकरण तैनात कर सकते हैं।

सभी डेटा इकट्ठा करना भंडारण और विश्लेषण करने के बराबर है। अपाचे फ्लूम एचडीएफएस में संग्रहीत जानकारी को इकट्ठा करने के लिए 'विशेष एजेंटों' को भेजती है। एकत्र की गई जानकारी लॉग फ़ाइल, ट्विटर एपीआई या वेबसाइट स्क्रैप हो सकती है। इन आंकड़ों को जंजीर और विश्लेषण के अधीन किया जा सकता है।

Spark

चिंगारी अगली पीढ़ी है कि बहुत हद तक Hadoop की तरह काम करता है जो डेटा को मेमोरी में कैश करता है। इसका उद्देश्य सामान्य निष्पादन मॉडल के साथ डेटा विश्लेषण को तेजी से चलाना और लिखना है। यह मध्यस्थ ऑपरेटर ग्राफ़ को अनुकूलित कर सकता है और इन-मेमोरी कंप्यूटिंग का समर्थन कर सकता है, जो इसे Hadoop जैसे डिस्क-आधारित इंजनों की तुलना में तेज़ी से डेटा क्वेरी करने देता है।

Hadoop पर एसक्यूएल

जब क्लस्टर में सभी डेटा की त्वरित तदर्थ क्वेरी चलाने की आवश्यकता होती है, तो एक नया Hadoop कार्य लिखा जा सकता है, लेकिन इसमें कुछ समय लगता है। जब प्रोग्रामर ने इसे अधिक बार करना शुरू किया, तो वे एसक्यूएल की सरल भाषा में लिखे गए टूल के साथ आए। ये उपकरण परिणामों की त्वरित पहुँच प्रदान करते हैं।

अपाचे ड्रिल

अपाचे ड्रिल नेड डेटा सहित कई और विभिन्न डेटा स्रोतों को कम विलंबता तदर्थ क्वेरी प्रदान करता है। Google के Dremel से प्रेरित Drill को 10,000 सर्वर और सेकंड में डेटा की क्वेरी पेटाबाइट के पैमाने पर डिज़ाइन किया गया है।

बिग डेटा crunching के लिए ये आवश्यक Hadoop उपकरण हैं!

क्या आप हमसे कोई प्रश्न पूछना चाहते हैं? कृपया टिप्पणी अनुभाग में उनका उल्लेख करें और हम आपके पास वापस आ जाएंगे।

संबंधित पोस्ट:

हाडोप 2.0 सीखने के लिए व्यावहारिक कारण