अपाचे ड्रिल पर ड्रिलिंग डाउन, न्यू-एज क्वेरी इंजन



यह अपाचे ड्रिल ट्यूटोरियल आपको अपाचे ड्रिल क्वेरी इंजन, हैडोप, बिग डेटा और अपाचे स्पार्क के साथ उपयोग के साथ आरंभ करने के लिए आवश्यक सभी जानकारी देता है।

Apache Drill उद्योग का पहला स्कीमा-मुक्त SQL इंजन है। ड्रिल दुनिया का पहला क्वेरी इंजन नहीं है, लेकिन यह पहला ऐसा है जो लचीलेपन और गति के बीच ठीक संतुलन बनाता है। ड्रिल को इंटरेक्टिव गति पर कई हजारों नोड्स और डेटा की क्वेरी पेटाबाइट्स के पैमाने के लिए डिज़ाइन किया गया है जो बीआई / विश्लेषिकी वातावरण की आवश्यकता होती है।





यह Hive, HBase, MongoDB, फ़ाइल सिस्टम, RDBMS जैसे कई डेटा स्रोतों के साथ एकीकृत कर सकता है। इसके अलावा, Avro, CSV, TSV, PSV, Parquet, Hadoop Sequence फ़ाइलों जैसे इनपुट फॉर्मेट और कई अन्य का उपयोग ड्रिल में आसानी से किया जा सकता है।

क्यों अपाचे ड्रिल?

Apache Drill का सबसे बड़ा फायदा यह है कि यह किसी भी डेटा को क्वेरी करते ही स्कीमा को मक्खी पर खोज सकता है। इसके अलावा, यह बेहतर विश्लेषण के लिए आपके बीआई उपकरण जैसे झांकी, Qlikview, MicroStrategy आदि के साथ काम कर सकता है।



यहां एक उद्योग विश्लेषक का एक उद्धरण है जो अपाचे ड्रिल के मूल्य को सारांशित करता है:

'ड्रिल केवल SQL-on-Hadoop के बारे में नहीं है। यह एसक्यूएल-ऑन-सुंदर-बहुत कुछ के बारे में, तुरंत और औपचारिकता के बिना। '

- एंड्रयू बर्स्ट, गिगाम रिसर्च, जनवरी 2015



Drillbit अपाचे ड्रिल का डेमन है जो क्लस्टर में प्रत्येक नोड पर चलता है। यह क्लस्टर और maintaisn क्लस्टर सदस्यता में सभी संचार के लिए ZooKeeper का उपयोग करता है। यह क्लाइंट से अनुरोध स्वीकार करने, प्रश्नों को संसाधित करने और क्लाइंट को परिणाम वापस करने के लिए जिम्मेदार है। ग्राहक से अनुरोध प्राप्त करने वाली ड्रिलबिट को 'फोरमैन' कहा जाता है। यह निष्पादन योजना बनाता है, निष्पादन टुकड़े क्लस्टर में चल रहे अन्य ड्रिलबिट्स को भेजे जाते हैं।

Drillbits-Apache-Drill

एक और लाभ यह है कि ड्रिल की स्थापना और सेटअप बहुत सरल है। आइए जानें कि अपाचे ड्रिल कैसे स्थापित करें।

पहला कदम ड्रिल पैकेज डाउनलोड करना है।

कैसे बिजली द्वि में डैशबोर्ड बनाने के लिए

आदेश: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

आदेश: tar -xvf अपाचे-ड्रिल-1.5.0.tar.gz

आदेश: ls

इसके बाद, परिवेश चर को .bashrc फ़ाइल में सेट करें।

आदेश: सूद gedit .bashrc

DRILL_HOME = / home / edureka / apache-drill-1.5.0 निर्यात करें

निर्यात PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

यह आदेश परिवर्तनों को अद्यतन करेगा:

आदेश: source .bashrc

अब गोपनीय निर्देशिका को ड्रिल करने और क्लस्टर आईडी और ज़ुकीपर होस्ट और पोर्ट के साथ ड्रिल-ओवरराइड.कॉन फ़ाइल को संपादित करने के लिए जाएं, हम इसे एक स्थानीय क्लस्टर पर चलाएंगे।

आदेश: सीडी अपाचे-ड्रिल -1.5.0

आदेश: सुडो गेडिट कॉन्फ / ड्रिल-ओवरराइड.कॉनफ

डिफ़ॉल्ट रूप से, DRILL_MAX_DIRECT_MEMORY ड्रिल-ENv.sh में 8 जीबी होगी, और हमें इसे हमारे पास मौजूद मेमोरी के अनुसार रखना होगा।

आदेश: सुडो गेडिट कॉन्फ / ड्रिल-env.sh

केवल एक नोड में ड्रिल स्थापित करने के लिए, आप एम्बेडेड मोड का उपयोग कर सकते हैं, जहां यह स्थानीय रूप से चलेगा। जब आप यह कमांड चलाते हैं तो यह स्वचालित रूप से ड्रिलबिट सेवा शुरू कर देगा।

आदेश: ./bin/drill-embedded

स्ट्रिंग दिनांक को दिनांक में बदलें

आप स्थापना की जाँच करने के लिए एक साधारण क्वेरी चला सकते हैं।

आदेश: चयन करें * sys.options से जहां प्रकार = ‘सिस्टम’ और like सुरक्षा% ’जैसे नाम

अपाचे ड्रिल के वेब कंसोल की जांच करने के लिए, हमें वेब ब्राउज़र में लोकलहोस्ट: 8047 पर जाना होगा।

आप क्वेरी टैब से अपनी क्वेरी भी चला सकते हैं।

वितरित मोड में ड्रिल चलाने के लिए, आपको क्लस्टर आईडी को संपादित करने और नीचे दिए गए अनुसार ड्रिल-ओवरराइड.कॉन्फ़ में ZooKeeper जानकारी जोड़ने की आवश्यकता है।

फिर हमें प्रत्येक नोड पर चिड़ियाघरकीपर सेवा शुरू करने की आवश्यकता है। उसके बाद आपको इस कमांड के साथ प्रत्येक नोड पर ड्रिलबिट सेवा शुरू करनी होगी।

आदेश: ./bin/drillbit.sh प्रारंभ

आदेश: कूदता है

अब, हम ड्रिल शेल शुरू करने के लिए कमांड का उपयोग करते हैं।

अब, हम वितरित मोड में क्लस्टर पर अपने प्रश्नों को निष्पादित कर सकते हैं।

यह दो-भाग की अपाचे ड्रिल ब्लॉग श्रृंखला की पहली ब्लॉग पोस्ट है। श्रृंखला में दूसरा ब्लॉग जल्द ही आ रहा है।

क्या आप हमसे कोई प्रश्न पूछना चाहते हैं? उन्हें टिप्पणी अनुभाग में उल्लेख करें और हम आपके पास वापस आ जाएंगे।

संबंधित पोस्ट:

अपाचे ड्रिल पर नीचे ड्रिलिंग भाग 2

अपाचे स्पार्क बनाम हडोप मैपराइड