बिग डेटा ट्यूटोरियल: बिग डेटा के बारे में आप सभी को पता होना चाहिए!



बिग डेटा ट्यूटोरियल का यह ब्लॉग आपको बिग डेटा, इसकी विशेषताओं, अनुप्रयोगों के साथ-साथ बिग डेटा के साथ चुनौतियों का पूरा अवलोकन देता है।

बिग डेटा ट्यूटोरियल

बिग डेटा, क्या आपने यह शब्द पहले नहीं सुना है? मुझे यकीन है कि आपके पास है पिछले 4 से 5 वर्षों में, हर कोई बिग डेटा के बारे में बात कर रहा है। लेकिन क्या आप वास्तव में जानते हैं कि यह बिग डेटा क्या है, यह हमारे जीवन पर कैसे प्रभाव डाल रहा है और संगठन पेशेवरों के साथ शिकार क्यों कर रहे हैं ? इस बिग डेटा ट्यूटोरियल में, मैं आपको बिग डेटा के बारे में पूरी जानकारी दूंगा।

नीचे ऐसे विषय दिए गए हैं जिन्हें मैं इस बिग डेटा ट्यूटोरियल में शामिल करूंगा:





  • बिग डेटा की कहानी
  • बिग डेटा ड्राइविंग कारक
  • बिग डेटा क्या है?
  • बिग डेटा विशेषताएँ
  • बिग डेटा के प्रकार
  • बिग डेटा के उदाहरण
  • बिग डाटा के अनुप्रयोग
  • बिग डेटा के साथ चुनौतियां

बिग डेटा ट्यूटोरियल - एडुर्का

एक छोटी कहानी के साथ इस बिग डेटा ट्यूटोरियल को शुरू करता हूं।



बिग डेटा की कहानी

प्राचीन दिनों में, लोग एक घोड़े से चलने वाली गाड़ी पर एक गाँव से दूसरे गाँव की यात्रा करते थे, लेकिन जैसे-जैसे समय बीतता गया, गाँव कस्बे बन गए और लोग बाहर फैल गए। एक शहर से दूसरे शहर की यात्रा करने की दूरी भी बढ़ गई। इसलिए, सामान के साथ-साथ शहरों के बीच यात्रा करना एक समस्या बन गई। नीले रंग में से, एक स्मार्ट फैला ने सुझाव दिया, हमें इस समस्या को हल करने के लिए एक घोड़े को और अधिक खाना चाहिए और खिलाना चाहिए। जब मैं इस समाधान को देखता हूं, तो यह उतना बुरा नहीं है, लेकिन क्या आपको लगता है कि घोड़ा हाथी बन सकता है? मुझे ऐसा नहीं लगता। एक और स्मार्ट लड़के ने कहा, 1 घोड़े को गाड़ी खींचने के बजाय, हमारे पास एक ही गाड़ी खींचने के लिए 4 घोड़े हैं। आप लोग इस समाधान के बारे में क्या सोचते हैं? मुझे लगता है कि यह एक शानदार समाधान है। अब, लोग कम समय में बड़ी दूरी की यात्रा कर सकते हैं और सामान भी ले जा सकते हैं।

बिग डेटा पर भी यही अवधारणा लागू होती है। बिग डेटा कहता है, आज तक, हम डेटा को अपने सर्वर में संग्रहीत करने के साथ ठीक थे क्योंकि डेटा की मात्रा बहुत सीमित थी, और इस डेटा को संसाधित करने के लिए समय की मात्रा भी ठीक थी। लेकिन अब इस वर्तमान तकनीकी दुनिया में, डेटा बहुत तेजी से बढ़ रहा है और लोग कई बार डेटा पर भरोसा कर रहे हैं। साथ ही जिस गति से डेटा बढ़ रहा है, डेटा को किसी भी सर्वर में संग्रहीत करना असंभव हो रहा है।

बिग डेटा ट्यूटोरियल पर इस ब्लॉग के माध्यम से, हम बिग डेटा के स्रोतों का पता लगाते हैं, जो पारंपरिक सिस्टम स्टोर और प्रोसेस करने में विफल हो रहे हैं।



बिग डेटा ड्राइविंग कारक

ग्रह पृथ्वी पर डेटा की मात्रा कई कारणों से तेजी से बढ़ रही है। विभिन्न स्रोत और हमारी दिन-प्रतिदिन की गतिविधियाँ बहुत सारा डेटा उत्पन्न करती हैं। वेब के आविष्कार के साथ, पूरी दुनिया ऑनलाइन हो गई है, हर एक चीज जो हम करते हैं एक डिजिटल ट्रेस है। स्मार्ट वस्तुओं के ऑनलाइन होने के साथ, डेटा विकास दर में तेजी से वृद्धि हुई है। बिग डेटा के प्रमुख स्रोत सोशल मीडिया साइट्स, सेंसर नेटवर्क, डिजिटल इमेज / वीडियो, सेल फोन, खरीद लेनदेन रिकॉर्ड, वेब लॉग, मेडिकल रिकॉर्ड, अभिलेखागार, सैन्य निगरानी, ​​ईकामर्स, जटिल वैज्ञानिक अनुसंधान और इतने पर हैं। ये सभी जानकारी लगभग कुछ क्विंटिलियन बाइट्स डेटा के आसपास होती हैं। 2020 तक, डेटा वॉल्यूम लगभग 40 ज़ेटाबाइट्स होंगे जो ग्रह पर रेत के हर एक दाने को पचहत्तर गुणा करने के बराबर है।

बिग डेटा क्या है?

बिग डेटा एक ऐसा शब्द है जिसका उपयोग डेटा सेटों के संग्रह के लिए किया जाता है जो बड़े और जटिल होते हैं, जो उपलब्ध डेटाबेस प्रबंधन टूल या पारंपरिक डेटा प्रोसेसिंग एप्लिकेशन का उपयोग करके स्टोर और प्रोसेस करना मुश्किल होता है। चुनौती में कैप्चरिंग, क्यूरेटिंग, स्टोरिंग, सर्चिंग, शेयरिंग, ट्रांसफरिंग, एनालिसिस और विज़ुअलाइज़ेशन शामिल हैं।

विंडोज़ 10 पर php स्थापित करना

बिग डेटा विशेषताएँ

बिग डेटा को परिभाषित करने वाली पांच विशेषताएं हैं: वॉल्यूम, वेग, विविधता, सत्यापन और मूल्य।

  1. वोलुम

    वॉल्यूम 'डेटा की मात्रा' को संदर्भित करता है, जो दिन-प्रतिदिन बहुत तेज गति से बढ़ रहा है। सोशल मीडिया पर मनुष्यों, मशीनों और उनके इंटरैक्शन द्वारा उत्पन्न डेटा का आकार बड़े पैमाने पर है। शोधकर्ताओं ने भविष्यवाणी की है कि 40 ज़ेटाबाइट्स (40,000 एक्साबाइट्स) 2020 तक उत्पन्न होंगे, जो 2005 के बाद 300 गुना की वृद्धि है।

  2. वेलकम

    वेग को उस गति के रूप में परिभाषित किया जाता है जिस पर विभिन्न स्रोत हर दिन डेटा उत्पन्न करते हैं। डेटा का यह प्रवाह बड़े पैमाने पर और निरंतर है। अभी तक मोबाइल पर 1.03 बिलियन डेली एक्टिव यूजर्स (फेसबुक DAU) हैं, जो साल-दर-साल 22% की वृद्धि है। इससे पता चलता है कि सोशल मीडिया पर उपयोगकर्ताओं की संख्या कितनी तेजी से बढ़ रही है और डेटा कितनी तेजी से प्रतिदिन उत्पन्न हो रहा है। यदि आप वेग को संभालने में सक्षम हैं, तो आप वास्तविक समय के डेटा के आधार पर अंतर्दृष्टि उत्पन्न करने और निर्णय लेने में सक्षम होंगे।

  3. वरियता

    जैसे कि कई स्रोत हैं जो बिग डेटा में योगदान दे रहे हैं, उनके द्वारा बनाए जा रहे डेटा का प्रकार अलग है। यह संरचित, अर्ध-संरचित या असंरचित हो सकता है। इसलिए, विभिन्न प्रकार का डेटा है जो हर दिन उत्पन्न हो रहा है। पहले हम डेटा को एक्सेल और डेटाबेस से प्राप्त करते थे, अब डेटा इमेज, ऑडियो, वीडियो, सेंसर डेटा आदि के रूप में आ रहे हैं जैसा कि नीचे इमेज में दिखाया गया है। इसलिए, असंरचित डेटा की यह विविधता डेटा को कैप्चर करने, भंडारण, खनन और विश्लेषण करने में समस्याएं पैदा करती है।

  4. वैराग्य

    डेटा असंगति और अपूर्णता के कारण उपलब्ध डेटा में संदेह डेटा की अनिश्चितता को दर्शाता है। नीचे दी गई छवि में, आप देख सकते हैं कि तालिका में कुछ मान गायब हैं। इसके अलावा, कुछ मानों को स्वीकार करना मुश्किल है, उदाहरण के लिए - तीसरी पंक्ति में 15000 न्यूनतम मूल्य, यह संभव नहीं है। यह असंगति और अपूर्णता है वैराइटी।
    उपलब्ध डेटा कभी-कभी गड़बड़ हो सकता है और शायद भरोसा करना मुश्किल है। बड़े डेटा के कई रूपों के साथ, हैशटैग, संक्षिप्ताक्षर, टाइपो और बोलचाल की भाषा वाले ट्विटर पोस्ट की तरह गुणवत्ता और सटीकता को नियंत्रित करना मुश्किल है। वॉल्यूम अक्सर डेटा में गुणवत्ता और सटीकता की कमी का कारण होता है।

    • डेटा की अनिश्चितता के कारण, 3 व्यावसायिक नेताओं में से 1 निर्णय लेने के लिए उपयोग की जाने वाली जानकारी पर भरोसा नहीं करता है।
    • एक सर्वेक्षण में पाया गया कि 27% उत्तरदाता इस बात से अनिश्चित थे कि उनका डेटा कितना गलत था।
    • खराब डेटा गुणवत्ता के कारण अमेरिकी अर्थव्यवस्था की लागत लगभग 3.1 ट्रिलियन डॉलर प्रति वर्ष है।
  5. मूल्य है

    वॉल्यूम, वेलोसिटी, वैरायटी और वेरिअसिटी पर चर्चा करने के बाद, एक और वी है जिसे बिग डेटा यानी वैल्यू को देखते हुए ध्यान में रखा जाना चाहिए। यह सब अच्छी तरह से है और बड़े तक पहुंच के लिए अच्छा हैडेटालेकिन आजब तक हम इसे मूल्य में नहीं बदल सकते, तब तक यह बेकार है। इसे मूल्य में बदलकर मेरा मतलब है, क्या यह उन संगठनों के लाभों को जोड़ रहा है जो बड़े डेटा का विश्लेषण कर रहे हैं? क्या संगठन बिग डेटा पर काम कर रहा है जो उच्च आरओआई (निवेश पर रिटर्न) प्राप्त कर रहा है? जब तक, यह बिग डेटा पर काम करके अपने लाभ को जोड़ता है, यह बेकार है

बिग डेटा के बारे में अधिक जानने के लिए हमारे बिग डेटा वीडियो के माध्यम से जाने:

बिग डेटा ट्यूटोरियल शुरुआती के लिए | क्या है बिग डाटा | Edureka

जैसा कि वैराइटी में चर्चा की गई है, विभिन्न प्रकार के डेटा हैं जो हर दिन उत्पन्न हो रहे हैं। तो, आइए अब डेटा के प्रकारों को समझते हैं:

बिग डेटा के प्रकार

बिग डेटा तीन प्रकार के हो सकते हैं:

  • ढाँचा
  • अर्ध-संरचित
  • असंरचित

  1. ढाँचा

    एक निश्चित प्रारूप में संग्रहीत और संसाधित किए जा सकने वाले डेटा को संरचित डेटा कहा जाता है। एक रिलेशनल डेटाबेस मैनेजमेंट सिस्टम (RDBMS) में संग्रहीत डेटा ’संरचित’ डेटा का एक उदाहरण है। संरचित डेटा को संसाधित करना आसान है क्योंकि इसमें एक निश्चित स्कीमा है। संरचित क्वेरी लैंग्वेज (एसक्यूएल) का उपयोग अक्सर इस तरह के डेटा को प्रबंधित करने के लिए किया जाता है।

  2. अर्ध-संरचित

    सेमी-स्ट्रक्चर्ड डेटा एक प्रकार का डेटा है, जिसमें डेटा मॉडल की एक औपचारिक संरचना नहीं होती है, यानी संबंधपरक DBMS में एक तालिका परिभाषा, लेकिन फिर भी इसमें कुछ संगठनात्मक गुण जैसे टैग और अन्य मार्कर अलग अर्थ तत्व हैं जो इसे आसान बनाते हैं विश्लेषण करने के लिए। XML फ़ाइलें या JSON दस्तावेज़ अर्ध-संरचित डेटा के उदाहरण हैं।

  3. असंरचित

    जिन डेटा का अज्ञात रूप है, उन्हें RDBMS में संग्रहीत नहीं किया जा सकता है और उनका विश्लेषण तब तक नहीं किया जा सकता है जब तक कि इसे एक संरचित प्रारूप में परिवर्तित न किया जाए, इसे असंरचित डेटा कहा जाता है। चित्र, ऑडियो, वीडियो जैसी टेक्स्ट फाइलें और मल्टीमीडिया सामग्री असंरचित डेटा का उदाहरण हैं। असंरचित डेटा दूसरों की तुलना में तेजी से बढ़ रहा है, विशेषज्ञों का कहना है कि एक संगठन में 80 प्रतिशत डेटा असंरचित हैं।

अब तक, मैंने बिग डेटा की शुरूआत को कवर किया है। इसके अलावा, यह बिग डेटा ट्यूटोरियल बिग डेटा में उदाहरणों, अनुप्रयोगों और चुनौतियों के बारे में बात करता है।

बिग डेटा के उदाहरण

दैनिक हम लाखों बाइट डेटा अपलोड करते हैं। दुनिया का 90% डेटा पिछले दो वर्षों में बनाया गया है।

  • वॉलमार्ट से ज्यादा संभालती है एक अरब ग्राहक हर घंटे लेनदेन करता है।
  • फेसबुक स्टोर, एक्सेस और एनालिसिस करता है 30+ पेटाबाइट्स उपयोगकर्ता का डेटा जनरेट किया गया।
  • 230+ लाखों हर दिन ट्वीट्स बनाए जाते हैं।
  • इससे अधिक 5 बिलियन दुनिया भर में लोग मोबाइल फोन पर कॉल, टेक्सटिंग, ट्वीट और ब्राउजिंग कर रहे हैं।
  • YouTube उपयोगकर्ता अपलोड करते हैं 48 घंटे दिन के हर मिनट के नए वीडियो।
  • अमेज़न संभालता है 15 मिलियन ग्राहक उत्पादों की सिफारिश करने के लिए प्रति दिन स्ट्रीम उपयोगकर्ता डेटा पर क्लिक करते हैं।
  • 294 बिलियन है हर दिन ईमेल भेजे जाते हैं। सेवाएं स्पैम्स खोजने के लिए इस डेटा का विश्लेषण करती हैं।
  • आधुनिक कारों के करीब है 100 सेंसर जो ईंधन स्तर, टायर के दबाव आदि की निगरानी करता है, प्रत्येक वाहन सेंसर डेटा का एक बहुत उत्पन्न करता है।

बिग डाटा के अनुप्रयोग

हम लोगों के बारे में बात किए बिना डेटा के बारे में बात नहीं कर सकते हैं, जो लोग बिग डेटा एप्लिकेशन से लाभान्वित हो रहे हैं। आज लगभग सभी उद्योग एक या दूसरे तरीके से बिग डेटा अनुप्रयोगों का लाभ उठा रहे हैं।

  • होशियार हेल्थकेयर : रोगी के डेटा के पेटाबाइट्स का उपयोग करना, संगठन सार्थक जानकारी निकाल सकता है और फिर ऐसे अनुप्रयोगों का निर्माण कर सकता है जो रोगी की बिगड़ती स्थिति का पहले से अनुमान लगा सकते हैं।
  • टेलीकॉम : टेलीकॉम सेक्टर सूचना एकत्र करता है, उसका विश्लेषण करता है और विभिन्न समस्याओं का समाधान प्रदान करता है। बिग डेटा अनुप्रयोगों का उपयोग करके, टेलीकॉम कंपनियां डेटा पैकेट हानि को कम करने में सक्षम हैं, जो तब होता है जब नेटवर्क ओवरलोड होते हैं, और इस प्रकार, अपने ग्राहकों को एक सहज कनेक्शन प्रदान करते हैं।
  • खुदरा : रीटेल के कुछ सबसे ज्यादा मार्जिन हैं, और बड़े डेटा के सबसे बड़े लाभार्थियों में से एक है। खुदरा में बड़े डेटा का उपयोग करने की सुंदरता उपभोक्ता व्यवहार को समझना है। अमेज़ॅन का सिफारिश इंजन उपभोक्ता के ब्राउज़िंग इतिहास के आधार पर सुझाव प्रदान करता है।
  • यातायात नियंत्रण : विश्व स्तर पर कई शहरों के लिए यातायात भीड़ एक बड़ी चुनौती है। डेटा और सेंसर का प्रभावी उपयोग यातायात को बेहतर ढंग से प्रबंधित करने के लिए महत्वपूर्ण होगा क्योंकि शहर तेजी से घनी आबादी वाले हो जाते हैं।
  • विनिर्माण : विनिर्माण उद्योग में बड़े डेटा का विश्लेषण घटक दोषों को कम कर सकता है, उत्पाद की गुणवत्ता में सुधार कर सकता है, दक्षता बढ़ा सकता है और समय और धन बचा सकता है।
  • गुणवत्ता खोजें : हर बार जब हम Google से जानकारी निकाल रहे होते हैं, हम एक साथ इसके लिए डेटा उत्पन्न कर रहे होते हैं। Google इस डेटा को संग्रहीत करता है और इसका उपयोग इसकी खोज गुणवत्ता में सुधार करने के लिए करता है।

सच कहा है किसी ने: 'बगीचे में सब कुछ रोज़ी नहीं है!' अब तक इस बिग डेटा ट्यूटोरियल में, मैंने आपको बिग डेटा की गुलाबी तस्वीर दिखाई है। लेकिन अगर बिग डेटा का लाभ उठाना इतना आसान था, तो क्या आपको नहीं लगता कि सभी संगठन इसमें निवेश करेंगे? मैं आपको बता दूं कि यह मामला नहीं है। कई चुनौतियां हैं जो बिग डेटा के साथ काम करते समय आपके साथ आती हैं।

अब जब आप बिग डेटा और इसकी विभिन्न विशेषताओं से परिचित हैं, तो बिग डेटा ट्यूटोरियल पर इस ब्लॉग का अगला भाग बिग डेटा के सामने आने वाली कुछ प्रमुख चुनौतियों पर कुछ प्रकाश डालेगा।

बिग डेटा के साथ चुनौतियां

मैं आपको कुछ चुनौतियां बताता हूं जो बिग डेटा के साथ आती हैं:

  1. आँकड़े की गुणवत्ता - यहाँ समस्या 4 हैवी यानी वेरिसिटी। यहाँ डेटा बहुत गन्दा, असंगत और अपूर्ण है। संयुक्त राज्य अमेरिका में हर साल कंपनियों को गंदे डेटा की कीमत $ 600 बिलियन है।
  1. खोज - बिग डेटा पर अंतर्दृष्टि प्राप्त करना एक हिस्टैक में सुई खोजने की तरह है। पैटर्न और अंतर्दृष्टि खोजने के लिए बेहद शक्तिशाली एल्गोरिदम का उपयोग करके डेटा के पेटाबाइट का विश्लेषण करना बहुत मुश्किल है।
  1. भंडारण - किसी संगठन के पास जितना अधिक डेटा होगा, उसके प्रबंधन की समस्याएं उतनी ही जटिल होंगी। यहां जो सवाल उठता है, वह है 'इसे कहां स्टोर करें?'। हमें एक स्टोरेज सिस्टम की आवश्यकता है जो आसानी से ऑन-डिमांड को बढ़ा या घटा सके।
  1. विश्लेषिकी - बिग डेटा के मामले में, ज्यादातर समय हम जिस तरह के डेटा के साथ काम कर रहे हैं, उससे अनजान होते हैं, इसलिए उस डेटा का विश्लेषण करना और भी मुश्किल है।
  1. सुरक्षा - चूंकि डेटा आकार में विशाल है, इसलिए इसे सुरक्षित रखना दूसरी चुनौती है। इसमें उपयोगकर्ता प्रमाणीकरण, उपयोगकर्ता के आधार पर पहुंच को प्रतिबंधित करना, डेटा एक्सेस इतिहास को रिकॉर्ड करना, डेटा एन्क्रिप्शन का उचित उपयोग आदि शामिल हैं।
  1. प्रतिभा की कमी - प्रमुख संगठनों में बहुत सारी बिग डेटा परियोजनाएं हैं, लेकिन डेवलपर्स, डेटा वैज्ञानिकों और विश्लेषकों की एक परिष्कृत टीम, जिनके पास पर्याप्त मात्रा में डोमेन ज्ञान है, अभी भी एक चुनौती है।

बचाव के लिए Hadoop

बिग डाटा चुनौतियों से निपटने के लिए हमारे पास एक उद्धारक है - इसके Hadoop । Hadoop एक खुला स्रोत, जावा-आधारित प्रोग्रामिंग फ्रेमवर्क है जो एक वितरित कंप्यूटिंग वातावरण में अत्यंत बड़े डेटा सेटों के भंडारण और प्रसंस्करण का समर्थन करता है। यह अपाचे सॉफ्टवेयर फाउंडेशन द्वारा प्रायोजित अपाचे परियोजना का हिस्सा है।

अपने वितरित प्रसंस्करण के साथ Hadoop, पारंपरिक एंटरप्राइज़ डेटा वेयरहाउस की तुलना में अधिक कुशलता से संरचित और असंरचित डेटा की बड़ी मात्रा को संभालता है। Hadoop हजारों कमोडिटी हार्डवेयर नोड्स के साथ सिस्टम पर एप्लिकेशन चलाना और हजारों टेराबाइट डेटा को हैंडल करना संभव बनाता है। संगठन Hadoop को अपना रहे हैं क्योंकि यह एक ओपन सोर्स सॉफ्टवेयर है और कमोडिटी हार्डवेयर (आपका पर्सनल कंप्यूटर) पर चल सकता है।शुरुआती लागत बचत नाटकीय है क्योंकि कमोडिटी हार्डवेयर बहुत सस्ता है। जैसे ही संगठनात्मक डेटा बढ़ता है, आपको इसे संग्रहीत करने के लिए मक्खी पर अधिक से अधिक कमोडिटी हार्डवेयर जोड़ने की आवश्यकता होती है और इसलिए, Hadoop किफायती साबित होता है।इसके अतिरिक्त, Hadoop के पीछे एक मजबूत अपाचे समुदाय है जो इसकी प्रगति में योगदान देता है।

जैसा कि पहले भी वादा किया गया था, बिग डेटा ट्यूटोरियल पर इस ब्लॉग के माध्यम से, मैंने आपको बिग डेटा में अधिकतम जानकारी दी है। यह बिग डेटा ट्यूटोरियल का अंत है। अब, अगला कदम Hadoop को जानना और सीखना है। हमारे पास एक Hadoop ट्यूटोरियल की श्रृंखला ब्लॉग जो पूर्ण Hadoop पारिस्थितिकी तंत्र के बारे में विस्तार से जानकारी देंगे।

ऑल द बेस्ट, हैप्पी हडोपिंग!

अब जब आप समझ गए हैं कि बिग डेटा क्या है, तो देखें 250,000 से अधिक संतुष्ट शिक्षार्थियों के एक नेटवर्क के साथ एक विश्वसनीय ऑनलाइन शिक्षण कंपनी, एडुरेका द्वारा, दुनिया भर में फैली हुई है। Edureka Big Data Hadoop सर्टिफिकेशन ट्रेनिंग कोर्स शिक्षार्थियों को रिटेल, सोशल मीडिया, एविएशन, टूरिज्म, फाइनेंस डोमेन पर रियल-टाइम उपयोग के मामलों का उपयोग करके HDFS, यार्न, MapReduce, Pig, Hive, HBase, Oozie, Flume और Sqoop में निपुण बनने में मदद करता है।

क्या आप हमसे कोई प्रश्न पूछना चाहते हैं? कृपया टिप्पणी अनुभाग में इसका उल्लेख करें और हम आपके पास वापस आ जाएंगे।

संबंधित पोस्ट: