R और Hadoop को एक साथ उपयोग करने के 4 तरीके



R और Hadoop बड़े डेटा के विज़ुअलाइज़ेशन और एनालिटिक्स के संदर्भ में एक दूसरे के काफी पूरक हैं। यह ब्लॉग पोस्ट उन्हें एक साथ उपयोग करने के 4 तरीकों के बारे में बात करता है।

Hadoop एक विघटनकारी जावा-आधारित प्रोग्रामिंग फ्रेमवर्क है जो वितरित कंप्यूटिंग वातावरण में बड़े डेटा सेट के प्रसंस्करण का समर्थन करता है, जबकि R सांख्यिकीय कंप्यूटिंग और ग्राफिक्स के लिए एक प्रोग्रामिंग भाषा और सॉफ्टवेयर वातावरण है। सांख्यिकीय सॉफ्टवेयर विकसित करने और डेटा विश्लेषण करने के लिए सांख्यिकीविदों और डेटा खनिकों के बीच R भाषा का व्यापक रूप से उपयोग किया जाता है। इंटरैक्टिव डेटा विश्लेषण, सामान्य उद्देश्य सांख्यिकी और भविष्य कहनेवाला मॉडलिंग के क्षेत्रों में, आर ने अपने वर्गीकरण, क्लस्टरिंग और रैंकिंग क्षमताओं के कारण बड़े पैमाने पर लोकप्रियता हासिल की है।

KM





एक गतिशील सरणी क्या है

Hadoop और R बड़े डेटा के विज़ुअलाइज़ेशन और एनालिटिक्स के मामले में एक-दूसरे के काफी पूरक हैं।

R और Hadoop का उपयोग करना

Hadoop और R को एक साथ उपयोग करने के चार अलग-अलग तरीके हैं:



1. रोडा

RHadoop तीन R संकुल का एक संग्रह है: rmr, rhdfs और rhbase। rmr पैकेज R में Hadoop MapReduce कार्यक्षमता प्रदान करता है, rhdfs R में HDFS फ़ाइल प्रबंधन प्रदान करता है और rhbase R के भीतर HBase डेटाबेस प्रबंधन प्रदान करता है। इनमें से प्रत्येक प्राथमिक पैकेज का उपयोग Hadoop फ्रेमवर्क को बेहतर ढंग से विश्लेषण और प्रबंधित करने के लिए किया जा सकता है।

२। ORCH



ORCH का अर्थ है Hadoop के लिए Oracle R कनेक्टर। यह R संकुल का संग्रह है जो Hive तालिकाओं, Apache Hadoop कंप्यूट इंफ्रास्ट्रक्चर, स्थानीय R वातावरण और Oracle डेटाबेस तालिकाओं के साथ काम करने के लिए प्रासंगिक इंटरफेस प्रदान करता है। इसके अतिरिक्त, ORCH भविष्य कहनेवाला विश्लेषणात्मक तकनीक भी प्रदान करता है जिसे HDFS फ़ाइलों में डेटा के लिए लागू किया जा सकता है।

३। RHIPE

RHIPE एक R पैकेज है जो Hadoop का उपयोग करने के लिए एक एपीआई प्रदान करता है। RHIPE का अर्थ R और Hadoop एकीकृत प्रोग्रामिंग पर्यावरण है, और अनिवार्य रूप से एक अलग API के साथ RHadoop है।

चार। Hadoop स्ट्रीमिंग

Hadoop स्ट्रीमिंग एक उपयोगिता है जो उपयोगकर्ताओं को मैपर और / या रिड्यूसर के रूप में किसी भी निष्पादनयोग्य के साथ नौकरियों को बनाने और चलाने की अनुमति देती है। स्ट्रीमिंग सिस्टम का उपयोग करके, कोई भी जावा के पर्याप्त ज्ञान के साथ Hadoop जॉब्स को विकसित कर सकता है जो दो शेल स्क्रिप्ट लिख सकता है जो मिलकर काम करते हैं।

R और Hadoop का संयोजन सांख्यिकी और बड़े डेटा सेट के साथ काम करने वाले लोगों के लिए एक टूलकिट के रूप में उभर रहा है। हालांकि, कुछ Hadoop के उत्साही लोगों ने बहुत बड़े बिग डेटा अंशों से निपटने के दौरान एक लाल झंडा उठाया है। उनका दावा है कि R का लाभ इसका सिंटैक्स नहीं है, बल्कि विज़ुअलाइज़ेशन और आँकड़ों के लिए आदिमों की संपूर्ण लाइब्रेरी है। ये पुस्तकालय मौलिक रूप से गैर-वितरित होते हैं, जो डेटा पुनर्प्राप्ति को समय लेने वाला मामला बनाते हैं। यह R के साथ एक अंतर्निहित दोष है, और यदि आप इसे अनदेखा करना चुनते हैं, तो R और Hadoop दोनों मिलकर काम कर सकते हैं।

अब, एक डेमो देखें:

क्या आप हमसे कोई प्रश्न पूछना चाहते हैं? कृपया टिप्पणी अनुभाग में उनका उल्लेख करें और हम आपके पास वापस आ जाएंगे।

संबंधित पोस्ट: