Hadoop 2.0 - अक्सर पूछे जाने वाले प्रश्न



पिछले कुछ वर्षों में Hadoop में रुचि कई गुना तक बढ़ गई है। यह पोस्ट आपके प्रश्नों का उत्तर देती है और Hadoop 2.0 के बारे में कई शंकाओं को दूर करती है और इसका उपयोग करती है।

यह edure द्वारा सार्वजनिक वेबिनार के दौरान आमतौर पर पूछे जाने वाले प्रश्न के उत्तर के साथ एक अनुवर्ती पोस्ट है! पर ।

Hadoop के बारे में अक्सर पूछे जाने वाले प्रश्न

दीपक:





Hadoop क्या है?
Apache Hadoop एक ओपन सोर्स सॉफ्टवेयर फ्रेमवर्क है जिसमें कमोडिटी हार्डवेयर के क्लस्टर पर डेटा-सेट्स के भंडारण और बड़े पैमाने पर प्रोसेसिंग होती है। यह एक ओपन सोर्स डेटा मैनेजमेंट सॉफ्टवेयर फ्रेमवर्क है जिसमें स्केल-आउट स्टोरेज और डिस्ट्रीब्यूटेड प्रोसेसिंग है। यह योगदानकर्ताओं और उपयोगकर्ताओं के वैश्विक समुदाय द्वारा बनाया और उपयोग किया जा रहा है।

हमारे Hadoop ब्लॉग पोस्ट पर अधिक पढ़ें तथा ।



खोज:

यात्रा, परिवहन और एयरलाइंस उद्योग में बड़े डेटा उपयोग के मामले क्या हैं?

धूप:



क्या आप हमें Hadoop कार्यान्वयन के कुछ वास्तविक जीवन के नमूने की ओर इशारा कर सकते हैं जिनका हम अध्ययन कर सकते हैं?
हम लिवी हैंकाबढ़ती पीक-टाइम कंजेशन के दौर में। परिवहन ऑपरेटर लगातार अपनी शर्तों को पूरा करने के लिए अपनी शर्तों को पूरा करने के लिए लागत प्रभावी तरीके खोजने की कोशिश कर रहे हैं ताकि परिवहन की स्थिति अच्छी हो। इस डोमेन में बिग डेटा एनालिटिक्स का उपयोग संगठन के साथ मदद कर सकता है:

  • मार्ग अनुकूलन
  • भू-स्थानिक विश्लेषण
  • ट्रैफिक पैटर्न और भीड़भाड़
  • रखरखाव का काम करता है
  • राजस्व प्रबंधन (यानी एयरलाइन)
  • सूची प्रबंधन
  • ईंधन संरक्षण
  • लक्षित विपणन
  • ग्राहकों के प्रति वफादारी
  • क्षमता का पूर्वानुमान
  • नेटवर्क प्रदर्शन और अनुकूलन

कुछ वास्तविक दुनिया के उपयोग के मामले हैं:
सेवा मेरे) उड़ान की लागत का निर्धारण
बी) इन्वेंटरी लॉजिस्टिक्स के लिए भविष्यवाणी मॉडलिंग
सी) ऑर्बिट्ज़ वर्ल्डवाइड - ग्राहक ख़रीदना पैटर्न
घ) छह सुपर स्केल Hadoop तैनाती
है) Hadoop - Adds से अधिक
च) एंटरप्राइज में Hadoop

विधि ओवरलोडिंग और जावा में ओवरराइडिंग विधि

आप के बारे में अधिक Hadoop वास्तविक दुनिया कार्यान्वयन के बारे में जान सकते हैं:

हिरदेश:

क्या Hadoop डेटा हैंडलिंग और प्रोसेसिंग के बारे में है? हम रिपोर्टिंग और विज़ुअल एनालिटिक्स के लिए कैसे जाते हैं। क्या Qlikview, Tableau का उपयोग Hadoop के शीर्ष पर किया जा सकता है?
मुख्य Hadoop घटक HDFS और MapReduce सभी डेटा संग्रहण और प्रसंस्करण के बारे में हैं। भंडारण के लिए HDFS और प्रसंस्करण के लिए MapReduce। लेकिन Hadoop के मुख्य घटक जैसे Pig और Hive को एनालिटिक्स के लिए उपयोग किया जाता है। विज़ुअल रिपोर्ट्स की झांकी के लिए, QlikView को विजुअल रिपोर्टिंग के लिए Hadoop से जोड़ा जा सकता है।

अमित:

Hadoop बनाम। mongoDB
MongoDB का उपयोग 'ऑपरेशनल' रियल-टाइम डेटा स्टोर के रूप में किया जाता है जबकि Hadoop का उपयोग ऑफ़लाइन बैच डेटा प्रोसेसिंग और विश्लेषण के लिए किया जाता है।
mongoDB एक दस्तावेज उन्मुख, स्कीमा-कम डेटा स्टोर है जिसे आप MySQL जैसे RDBMS के बजाय एक बैकएंड के रूप में वेब एप्लिकेशन में उपयोग कर सकते हैं जबकि Hadoop का उपयोग मुख्य रूप से स्केल-आउट भंडारण के रूप में किया जाता है और बड़ी मात्रा में डेटा के लिए प्रसंस्करण वितरित किया जाता है।

हमारे यहां और पढ़ें mongoDB और Hadoop ब्लॉग पोस्ट

यहाँ:

Apache Spark Hadoop का एक हिस्सा है ?
अपाचे स्पार्क बड़े पैमाने पर डेटा प्रोसेसिंग के लिए एक तेज और सामान्य इंजन है। स्पार्क तेज़ है और इन-मेमोरी प्रोसेसिंग का समर्थन करता है। स्पार्क निष्पादन इंजन कंप्यूटिंग वर्कलोड के प्रकार को व्यापक करता है Hadoop हैंडल कर सकता है और Hadoop 2.0 YARN क्लस्टर पर चल सकता है। यह एक प्रोसेसिंग फ्रेमवर्क प्रणाली है जो इन वस्तुओं को स्केला क्लोजर का उपयोग करके संसाधित करने की क्षमता के साथ-इन-मेमोरी ऑब्जेक्ट्स (RDD) को संग्रहीत करने की अनुमति देती है। यह ग्राफ, डेटा वेयरहाउस, मशीन लर्निंग और स्ट्रीम प्रोसेसिंग का समर्थन करता है।

यदि आपके पास Hadoop 2 क्लस्टर है, तो आप स्पार्क को बिना किसी इंस्टॉलेशन के चला सकते हैं। अन्यथा, स्पार्क स्टैंडअलोन या ईसी 2 या मेसोस को चलाना आसान है। यह HDFS, HBase, कैसेंड्रा और किसी भी Hadoop डेटा स्रोत से पढ़ सकता है।

स्पार्क पर अधिक पढ़ें यहाँ

क्या रिश्ता है जावा में

प्रसाद:

अपाचे फ्लूम क्या है?
Apache Flume एक वितरित, विश्वसनीय और उपलब्ध प्रणाली है, जो कई अलग-अलग स्रोतों से केंद्रीकृत डेटा स्रोत में बड़ी मात्रा में लॉग डेटा एकत्र करने, एकत्र करने और स्थानांतरित करने के लिए है।

अमित:

SQL बनाम NO- SQL डेटाबेस
NoSQL डेटाबेस अगली पीढ़ी के डेटाबेस हैं और ज्यादातर कुछ बिंदुओं को संबोधित कर रहे हैं

  • गैर-संबंधपरक
  • वितरित
  • खुला स्त्रोत
  • क्षैतिज रूप से स्केलेबल

अक्सर अधिक विशेषताएँ स्कीमा-मुक्त, आसान प्रतिकृति समर्थन, सरल एपीआई, अंततः सुसंगत / आधार (एसीआईडी ​​नहीं), डेटा की एक बड़ी मात्रा और अधिक के रूप में लागू होती हैं। उदाहरण के लिए, विभेदकों में से कुछ हैं:

  • NoSQL डेटाबेस क्षैतिज रूप से बड़े पैमाने पर लोड से निपटने के लिए अधिक सर्वर जोड़ते हैं। दूसरी ओर, एसक्यूएल डेटाबेस आमतौर पर ट्रैफ़िक बढ़ने के साथ ही एक सर्वर में अधिक से अधिक संसाधनों को जोड़कर, लंबवत रूप से बढ़ जाता है।
  • SQL डेटाबेस को किसी भी जानकारी और डेटा को जोड़ने से पहले आपको अपने स्कीमा को परिभाषित करने की आवश्यकता होती है, लेकिन NoSQL डेटाबेस स्कीमा-मुक्त हैं अग्रिम में स्कीमा परिभाषा की आवश्यकता नहीं है।
  • SQL डेटाबेस RDBMS सिद्धांतों का पालन करते हुए पंक्तियों और स्तंभों के साथ तालिका आधारित हैं जबकि NoSQL डेटाबेस दस्तावेज़, कुंजी-मूल्य जोड़े, ग्राफ़ या विस्तृत-स्तंभ स्टोर हैं।
  • SQL डेटाबेस डेटा को परिभाषित करने और हेरफेर करने के लिए SQL (संरचित क्वेरी भाषा) का उपयोग करता है। NoSQL डेटाबेस में, क्वेरी एक डेटाबेस से दूसरे में भिन्न होती है।

लोकप्रिय SQL डेटाबेस: MySQL, Oracle, Postgres और MS-SQL
लोकप्रिय है NoSQL डेटाबेस: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j और CouchDB

हमारे ब्लॉगों की समीक्षा करें Hadoop और NoSQL डेटाबेस और इस तरह के एक डेटाबेस के लाभ:

कोटेश्वरराव:

क्या Hadoop में एक अंतर्निर्मित क्लस्टर तकनीक है?
हाडोप क्लस्टर एक मास्टर-स्लेव आर्किटेक्चर का उपयोग करता है। इसमें डेटा को संग्रहीत और संसाधित करने के लिए एकल मास्टर (NameNode) और दासों का एक क्लस्टर (DataNodes) शामिल है। Hadoop को बड़ी संख्या में मशीनों पर चलने के लिए डिज़ाइन किया गया है जो किसी भी मेमोरी या डिस्क को साझा नहीं करते हैं। इन DataNodes को क्लस्टर का उपयोग करके कॉन्फ़िगर किया गया है । Hadoop यह सुनिश्चित करने के लिए प्रतिकृति की अवधारणा का उपयोग करता है कि डेटा की कम से कम एक प्रति हर समय क्लस्टर में उपलब्ध है। क्योंकि डेटा की एक से अधिक कॉपी हैं, एक सर्वर पर संग्रहीत डेटा जो ऑफ़लाइन हो जाता है या मर जाता है, स्वचालित रूप से एक ज्ञात अच्छी कॉपी से दोहराया जा सकता है।

दिनेश:

Hadoop में एक नौकरी क्या है? एक नौकरी के माध्यम से सभी को क्या पूरा किया जा सकता है?
Hadoop में, डेटा को प्रोसेस / विश्लेषण करने के लिए एक Job एक MapReduce प्रोग्राम है। MapReduce शब्द वास्तव में दो अलग और अलग कार्यों को संदर्भित करता है जो Hadoop प्रोग्राम करता है। पहला नक्शा कार्य है, जो डेटा का एक सेट लेता है और इसे इंटरमीडिएट डेटा के दूसरे सेट में परिवर्तित करता है, जहां व्यक्तिगत तत्व कुंजी-मूल्य जोड़े में टूट जाते हैं। MapReduce Job का दूसरा भाग, Reduce task, आउटपुट को इनपुट के रूप में मैप से लेता है और कुंजी-वैल्यू जोड़े को एग्रीगेटेड की-वैल्यू पेयर के छोटे सेट में जोड़ता है। जैसा कि MapReduce के नाम के अनुक्रम का अर्थ है, Reduce कार्य हमेशा Map कार्यों के पूरा होने के बाद किया जाता है। MapReduce Job पर अधिक पढ़ें ।

सुकृ त:

NameNode के बारे में क्या खास है ?
NameNode एक HDFS फ़ाइल सिस्टम का दिल है। यह मेटाडेटा को रखता है जैसे कि फाइल सिस्टम में सभी फाइलों का डायरेक्टरी ट्री और फाइल डेटा रखा जाता है। वास्तविक डेटा को HDNs ब्लॉक के रूप में DataNodes पर संग्रहीत किया जाता है।
जब भी वे किसी फ़ाइल को खोजने की इच्छा रखते हैं, या जब भी वे किसी फ़ाइल को जोड़ना / कॉपी करना / स्थानांतरित करना / हटाना चाहते हैं, तो क्लाइंट एप्लिकेशन NameNode से बात करते हैं। NameNode प्रासंगिक DataNodes सर्वरों की सूची वापस करके सफल अनुरोधों का जवाब देता है जहाँ डेटा रहता है। एचडीएफएस आर्किटेक्चर पर अधिक पढ़ें ।

दिनेश:

Hadoop 2.0 को बाजार में कब पेश किया गया था?
अपाचे सॉफ्टवेयर फाउंडेशन (ASF), ओपन सोर्स ग्रुप जो कि Hadoop Development का प्रबंधन करता है, ने 15 अक्टूबर 2013 को अपने ब्लॉग में घोषणा की थी कि Hadoop 2.0 अब आम तौर पर उपलब्ध है (GA)। इस घोषणा का अर्थ है कि लंबे इंतजार के बाद, अपाचे हडॉप 2.0 और YARN अब प्रोडक्शन परिनियोजन के लिए तैयार हैं। अधिक ब्लॉग।

दिनेश:

गैर-MapReduce बिग डेटा अनुप्रयोग के कुछ उदाहरण क्या हैं?
बिग डेटा की समस्याओं को हल करने के लिए MapReduce कई अनुप्रयोगों के लिए बहुत अच्छा है, लेकिन अन्य सभी प्रोग्रामिंग मॉडल जैसे ग्राफ प्रसंस्करण (जैसे, Google Pregel / Apache Giraph) और संदेश पासिंग इंटरफेस (MPI) के साथ पुनरावृत्ति मॉडलिंग के लिए बेहतर सेवा आवश्यकताओं के लिए नहीं।

मारिश:

एचडीएफएस में डेटा को कैसे व्यवस्थित और अनुक्रमित किया जाता है?
डेटा 64 एमबी (एक पैरामीटर द्वारा विन्यास) के ब्लॉक में टूट गया है और एचडीएफएस में संग्रहीत है। NameNode इन ब्लॉकों की संग्रहण जानकारी को अपने RAM में ब्लॉक आईडी के रूप में संग्रहीत करता है (NameNode Metadata)। MapReduce नौकरियां NameNode RAM में संग्रहीत मेटाडेटा का उपयोग करके इन ब्लॉकों तक पहुंच सकती हैं।

Shashwat:

क्या हम एक ही क्लस्टर पर MapReduce (MRv1) और MRv2 (YARN के साथ) दोनों का उपयोग कर सकते हैं?
Hadoop 2.0 ने Hadoop पर विभिन्न अनुप्रयोगों को लिखने और निष्पादित करने के लिए एक नया ढांचा YARN पेश किया है। तो, YARN और MapReduce Hadoop 2.0 में दो अलग-अलग अवधारणाएं हैं और मिश्रित नहीं होना चाहिए और इसका उपयोग किया जाना चाहिए। सही सवाल है 'क्या YARN सक्षम Hadoop 2.0 क्लस्टर पर MRv1 और MRv2 दोनों को चलाना संभव है?' इस सवाल का जवाब एक है 'नहीं न' भले ही Hadoop क्लस्टर को MRv1 और MRv2 दोनों को चलाने के लिए कॉन्फ़िगर किया जा सकता है, लेकिन किसी भी समय डेमॉन के केवल एक सेट को चला सकते हैं। ये दोनों चौखटे अंततः एक ही विन्यास फाइल का उपयोग करती हैं ( यार्न- site.xml तथा mapred-site.xml ) डेमों को चलाने के लिए, इसलिए, केवल दो कॉन्फ़िगरेशन में से एक को Hadoop क्लस्टर पर सक्षम किया जा सकता है।

गुड़िया:

अगली पीढ़ी के MapReduce (MRv2) और YARN में क्या अंतर है?
Hadoop 2.0 में YARN और नेक्स्ट जेनरेशन MapReduce (MRv2) दो अलग-अलग अवधारणाएं और तकनीकें हैं। YARN एक सॉफ्टवेयर ढांचा है जिसका उपयोग न केवल MRv2 बल्कि अन्य एप्लिकेशन को भी चलाने के लिए किया जा सकता है। MRv2 एक एप्लीकेशन फ्रेमवर्क है जो YARN API का उपयोग करके लिखा गया है और यह YARN के भीतर चलता है।

Bharat:

जावा रिमोट विधि मंगलाचरण उदाहरण

क्या Hadoop 2.0 Hadoop 1.x अनुप्रयोगों के लिए पिछड़े संगतता प्रदान करता है?
नेहा:

क्या Hadoop 1.0 से 2.0 माइग्रेशन के लिए भारी एप्लिकेशन कोड की आवश्यकता है प्रवास?
नहीं, 'org.apache.hadoop.mapred' एपीआई का उपयोग करके विकसित किए गए अधिकांश एप्लिकेशन, बिना किसी पुन: प्राप्ति के YARN पर चल सकते हैं। YARN MRv1 अनुप्रयोगों के लिए बाइनरी संगत है और YARN पर इन अनुप्रयोगों को प्रस्तुत करने के लिए 'बिन / हडूप' का उपयोग किया जा सकता है। इस पर और पढ़ें यहाँ

शेरिन:

यदि संसाधन प्रबंधक नोड Hadoop 2.0 में विफल रहता है तो क्या होगा?
Hadoop रिलीज 2.4.0 से शुरू, संसाधन प्रबंधक के लिए उच्च उपलब्धता समर्थन भी उपलब्ध है। रिसोर्समैन फेल-ओवर के लिए अपाचे ज़ूकीपर का उपयोग करता है। जब संसाधन प्रबंधक नोड विफल हो जाता है, तो एक द्वितीयक नोड चिड़ियाघरकीपर में सहेजे गए क्लस्टर राज्य के माध्यम से जल्दी से ठीक हो सकता है। रिसोर्स मैनेजर, एक असफल-पर, कतारबद्ध और चल रहे सभी अनुप्रयोगों को पुनः आरंभ करता है।

साबिरबली:

क्या Apache का Hadoop फ्रेमवर्क Cloudera Hadoop पर काम करता है?
Apache Hadoop को 2005 में HDFS में संग्रहीत बड़े पैमाने पर डेटा वर्कलोड के वितरित प्रसंस्करण का समर्थन करने के लिए मुख्य MapReduce प्रसंस्करण इंजन के साथ पेश किया गया था। यह एक ओपन सोर्स प्रोजेक्ट है और इसमें कई वितरण (लिनक्स के समान) हैं। Cloudera Hadoop (CDH), Cloudera से एक ऐसा वितरण है। अन्य समान वितरण हॉर्टनवर्क्स, मैपआर, माइक्रोसॉफ्ट एचडीआईनाइट, आईबीएम इंफोस्फेयर बिगआईनाइट्स आदि हैं।

अरुलवदीवेल:

मेरे लैपटॉप पर Hadoop को स्थापित करने का कोई आसान तरीका और Oracle डेटाबेस के Hadoop में माइग्रेशन का प्रयास करें?
आप ऐसा कर सकते हैं शुरू साथ से आपके लैपटॉप पर एक HortonWorks Sandbox या Cloudera क्विक VM (कम से कम 4 जीबी रैम और i3 या अन्य प्रोसेसर के साथ)। जैसा कि समझाया गया है Oracle से Hadoop में डेटा ले जाने के लिए SQOOP का उपयोग करें यहाँ

बभनी:

Hadoop सीखने के लिए सबसे अच्छी किताबें कौन सी उपलब्ध हैं?
के साथ शुरू Hadoop: निश्चित गाइड टॉम व्हाइट द्वारा और Hadoop ऑपरेशंस एरिक सैमर द्वारा।

महेंद्र:

क्या Hadoop 2.0 के लिए कोई रीडिंग उपलब्ध है जैसे Hadoop निश्चित गाइड?
की समीक्षा करें नवीनतम आगमन Hadoop 2.0 के कुछ रचनाकारों द्वारा लिखित बुकशेल्व पर।

इस श्रृंखला में अधिक प्रश्नों के लिए बने रहें।