डेटा साइंस क्या है? एक शुरुआती गाइड करने के लिए डेटा विज्ञान

जैसे-जैसे दुनिया बड़े डेटा के युग में प्रवेश करती गई, इसके भंडारण की आवश्यकता भी बढ़ती गई। यह 2010 तक उद्यम उद्योगों के लिए मुख्य चुनौती और चिंता थी। मुख्य ध्यान डेटा स्टोर करने के लिए एक रूपरेखा और समाधान बनाने पर था। अब जब Hadoop और अन्य फ्रेमवर्क ने स्टोरेज की समस्या को सफलतापूर्वक हल कर लिया है, तो फोकस इस डेटा के प्रसंस्करण में स्थानांतरित हो गया है। डेटा साइंस यहाँ गुप्त चटनी है। वे सभी विचार जो आप हॉलीवुड की साई-फाई फिल्मों में देखते हैं, वास्तव में डेटा साइंस द्वारा वास्तविकता में बदल सकते हैं। डाटा साइंस आर्टिफिशियल इंटेलिजेंस का भविष्य है। इसलिए, यह समझना बहुत महत्वपूर्ण है कि डेटा साइंस क्या है और यह आपके व्यवसाय के लिए मूल्य कैसे जोड़ सकता है।

Edureka 2019 Tech Career Guide बाहर है! गाइड में सबसे नौकरी की भूमिका, सटीक सीखने के रास्ते, उद्योग के दृष्टिकोण और बहुत कुछ। डाउनलोड अभी।

इस ब्लॉग में, मैं निम्नलिखित विषयों को शामिल करूंगा।

डेटा साइंस क्या है?
डेटा साइंस क्यों?
डेटा साइंटिस्ट कौन है?
- डेटा साइंटिस्ट क्या करता है?
यह बिजनेस इंटेलिजेंस (BI) और डेटा साइंस से कैसे अलग है?
उपयोग के मामले की मदद से डेटा साइंस का जीवनचक्र

इस ब्लॉग के अंत तक, आप समझ पाएंगे कि डेटा साइंस क्या है और हमारे चारों ओर डेटा के जटिल और बड़े सेटों से सार्थक अंतर्दृष्टि निकालने में इसकी भूमिका क्या है।डेटा साइंस पर गहराई से ज्ञान प्राप्त करने के लिए, आप लाइव के लिए नामांकन कर सकते हैं 24/7 समर्थन और आजीवन पहुंच के साथ Edureka द्वारा।

डेटा साइंस क्या है?

डेटा साइंस विभिन्न टूल्स, एल्गोरिदम और मशीन लर्निंग सिद्धांतों का एक मिश्रण है, जो कच्चे डेटा से छिपे हुए पैटर्न की खोज करने के लक्ष्य के साथ है। लेकिन यह कैसा है जो कुछ वर्षों से सांख्यिकीविद् कर रहे हैं?

इसका उत्तर समझाने और भविष्यवाणी करने के बीच के अंतर में है।

डेटा विश्लेषक v / s डेटा विज्ञान - एडुर्का

जैसा कि आप ऊपर की छवि से देख सकते हैं, एक डेटा विश्लेषकआमतौर पर बताते हैं कि डेटा के इतिहास को संसाधित करके क्या हो रहा है। दूसरी तरफ, डेटा साइंटिस्ट न केवल इससे अंतर्दृष्टि प्राप्त करने के लिए खोजपूर्ण विश्लेषण करता है, बल्कि भविष्य में किसी विशेष घटना की घटना की पहचान करने के लिए विभिन्न उन्नत मशीन लर्निंग एल्गोरिदम का भी उपयोग करता है। एक डेटा साइंटिस्ट कई कोणों के डेटा को देखेगा, कभी-कभी ऐसे कोण जिन्हें पहले नहीं जाना जाता था।

तो, डेटा विज्ञान का उपयोग मुख्य रूप से निर्णय लेने और पूर्वानुमान करने के लिए किया जाता है ताकि भविष्य कहनेवाला विश्लेषणात्मक, प्रिस्क्रिप् टिव एनालिटिक्स (भविष्य कहनेवाला निर्णय विज्ञान) और मशीन सीखने का उपयोग किया जा सके।

भविष्य कहनेवाला विश्लेषण - यदि आप एक मॉडल चाहते हैं जो भविष्य में किसी विशेष घटना की संभावनाओं का अनुमान लगा सकता है, तो आपको भविष्य कहनेवाला विश्लेषण लागू करने की आवश्यकता है। कहते हैं, यदि आप क्रेडिट पर पैसा प्रदान कर रहे हैं, तो समय पर भविष्य में क्रेडिट भुगतान करने वाले ग्राहकों की संभावना आपके लिए चिंता का विषय है। यहां, आप एक मॉडल का निर्माण कर सकते हैं जो भविष्य के भुगतान समय पर होगा या नहीं, इसका अनुमान लगाने के लिए ग्राहक के भुगतान इतिहास पर भविष्य कहनेवाला विश्लेषण कर सकता है।

प्रिस्क्रिप्टिव एनालिटिक्स: यदि आप एक ऐसा मॉडल चाहते हैं, जिसमें अपने स्वयं के निर्णय लेने की क्षमता हो और इसे गतिशील मापदंडों के साथ संशोधित करने की क्षमता हो, तो आपको निश्चित रूप से इसके लिए प्रिस्क्रिप्टिव एनालिटिक्स की आवश्यकता है। यह अपेक्षाकृत नया क्षेत्र सलाह देने के बारे में है। अन्य शब्दों में, यह न केवल भविष्यवाणी करता है बल्कि निर्धारित कार्यों और संबंधित परिणामों की एक श्रृंखला का सुझाव देता है।
इसके लिए सबसे अच्छा उदाहरण Google की सेल्फ-ड्राइविंग कार है जिसकी मैंने पहले भी चर्चा की थी। वाहनों द्वारा एकत्र किए गए डेटा का उपयोग स्व-ड्राइविंग कारों को प्रशिक्षित करने के लिए किया जा सकता है। आप इस डेटा पर एल्गोरिदम चला सकते हैं ताकि इसमें बुद्धिमत्ता आ सके। यह आपकी कार को निर्णय लेने में सक्षम करेगा कि कब चालू करना है, कौन सा रास्ता लेना है,कब धीमा करना है या गति बढ़ानी है।

पूर्वानुमान बनाने के लिए मशीन सीखना - अगर आपके पास किसी फाइनेंस कंपनी का ट्रांजेक्शनल डेटा है और भविष्य के ट्रेंड को निर्धारित करने के लिए मॉडल बनाने की जरूरत है, तो मशीन लर्निंग एल्गोरिदम सबसे अच्छा दांव है। यह पर्यवेक्षित अधिगम के प्रतिमान के अंतर्गत आता है। इसे पर्यवेक्षित कहा जाता है क्योंकि आपके पास पहले से ही डेटा है जिसके आधार पर आप अपनी मशीनों को प्रशिक्षित कर सकते हैं। उदाहरण के लिए, एक धोखाधड़ी का पता लगाने वाले मॉडल को धोखाधड़ी के खरीद के ऐतिहासिक रिकॉर्ड का उपयोग करके प्रशिक्षित किया जा सकता है।

पैटर्न डिस्कवरी के लिए मशीन लर्निंग - यदि आपके पास ऐसे पैरामीटर नहीं हैं जिनके आधार पर आप भविष्यवाणियां कर सकते हैं, तो आपको सार्थक अनुमान लगाने में सक्षम होने के लिए डेटासेट के भीतर छिपे हुए पैटर्न का पता लगाने की आवश्यकता है। यह कुछ भी नहीं है लेकिन अनचाहे मॉडल के रूप में आपके पास समूह के लिए कोई पूर्वनिर्धारित लेबल नहीं है। पैटर्न की खोज के लिए उपयोग किया जाने वाला सबसे आम एल्गोरिथ्म क्लस्टरिंग है।
मान लीजिए कि आप एक टेलीफोन कंपनी में काम कर रहे हैं और आपको एक क्षेत्र में टॉवर लगाकर एक नेटवर्क स्थापित करना है। फिर, आप उन टॉवर स्थानों को खोजने के लिए क्लस्टरिंग तकनीक का उपयोग कर सकते हैं जो यह सुनिश्चित करेंगे कि सभी उपयोगकर्ता इष्टतम सिग्नल शक्ति प्राप्त करें।

आइए देखें कि डेटा विश्लेषण के साथ-साथ डेटा साइंस के लिए उपर्युक्त दृष्टिकोणों का अनुपात कैसे भिन्न होता है। जैसा कि आप नीचे दी गई छवि में देख सकते हैं, डेटा विश्लेषणइसमें कुछ हद तक वर्णनात्मक विश्लेषण और भविष्यवाणी शामिल है। दूसरी ओर, डेटा साइंस प्रीडिक्टिव कॉज़ल एनालिटिक्स और मशीन लर्निंग के बारे में अधिक है।

डेटा साइंस एनालिटिक्स - एडुर्का

अब जब आप जानते हैं कि डेटा साइंस वास्तव में क्या है, तो आइए अब इसका कारण जानें कि पहले इसकी आवश्यकता क्यों थी।

डेटा साइंस क्यों?

परंपरागत रूप से, हमारे पास मौजूद डेटा ज्यादातर संरचित और आकार में छोटा था, जिसका विश्लेषण सरल बीआई उपकरण का उपयोग करके किया जा सकता है।में डेटा के विपरीतपारंपरिक प्रणाली जो अधिकतर संरचित थी, आज अधिकांश डेटा असंरचित या अर्ध-संरचित है। आइए नीचे दी गई छवि में डेटा रुझानों पर एक नज़र डालें जो दर्शाता है कि 2020 तक, 80% से अधिक डेटा असंरचित हो जाएगा।

यह डेटा विभिन्न स्रोतों से उत्पन्न होता है जैसे वित्तीय लॉग, टेक्स्ट फ़ाइल, मल्टीमीडिया फॉर्म, सेंसर और इंस्ट्रूमेंट्स। सरल बीआई उपकरण इस विशाल मात्रा और डेटा की विविधता को संसाधित करने में सक्षम नहीं हैं। यही कारण है कि हमें अधिक जटिल और उन्नत विश्लेषणात्मक उपकरणों और प्रसंस्करण की आवश्यकता है, इसके लिए सार्थक अंतर्दृष्टि का विश्लेषण और विश्लेषण करना।

यह एकमात्र कारण नहीं है कि डेटा विज्ञान इतना लोकप्रिय हो गया है। आइए गहराई से देखें और देखें कि विभिन्न डोमेन में डेटा साइंस का उपयोग कैसे किया जा रहा है।

यदि आप मौजूदा डेटा से अपने ग्राहकों की सटीक आवश्यकताओं को समझ सकते हैं जैसे कि ग्राहक के पिछले ब्राउज़िंग इतिहास, खरीद इतिहास, आयु और आय। इसमें कोई संदेह नहीं है कि आपके पास यह सब डेटा पहले भी था, लेकिन अब बड़ी मात्रा और डेटा की विविधता के साथ, आप मॉडल को अधिक प्रभावी ढंग से प्रशिक्षित कर सकते हैं और अधिक सटीकता के साथ अपने ग्राहकों को उत्पाद की सिफारिश कर सकते हैं। क्या यह आश्चर्यजनक नहीं होगा क्योंकि यह आपके संगठन में अधिक व्यवसाय लाएगा?

डेटा विज्ञान की भूमिका को समझने के लिए आइए एक अलग परिदृश्य देखें निर्णय लेना।कैसे के बारे में अगर आपकी कार में आपको घर चलाने की बुद्धि थी? सेल्फ-ड्राइविंग कारें अपने परिवेश का मानचित्र बनाने के लिए सेंसरों से लाइव डेटा एकत्र करती हैं, जिसमें रडार, कैमरा और लेजर शामिल हैं। इस डेटा के आधार पर, यह निर्णय लेता है कि कब तेज करना है, कब गति करना है, कब ओवरटेक करना है, कहां मोड़ लेना है - उन्नत मशीन लर्निंग एल्गोरिदम का उपयोग करना।
आइए देखें कि डेटा साइंस का पूर्वानुमानात्मक विश्लेषण में कैसे उपयोग किया जा सकता है। उदाहरण के तौर पर मौसम के पूर्वानुमान को बताएं। मॉडल बनाने के लिए जहाजों, विमानों, रडार, उपग्रहों से डेटा एकत्र किया जा सकता है और उनका विश्लेषण किया जा सकता है। ये मॉडल न केवल मौसम का पूर्वानुमान लगाएंगे, बल्कि किसी भी प्राकृतिक आपदा की घटना की भविष्यवाणी करने में भी मदद करेंगे। यह आपको पहले से उचित उपाय करने और कई कीमती जीवन बचाने में मदद करेगा।

आइए उन सभी डोमेन को देखने के लिए नीचे के इन्फोग्राफिक पर एक नज़र डालें जहां डेटा साइंस अपनी छाप बना रहा है।

डेटा साइंस यूज़ केस - एडुर्का

डेटा साइंटिस्ट कौन है?

डेटा वैज्ञानिकों पर कई परिभाषाएँ उपलब्ध हैं। सरल शब्दों में, एक डेटा साइंटिस्ट वह है जो डेटा साइंस की कला का अभ्यास करता है।“डेटा साइंटिस्ट” शब्द रहा हैइस तथ्य पर विचार करने के बाद कि डेटा साइंटिस्ट वैज्ञानिक क्षेत्रों और अनुप्रयोगों से बहुत सारी जानकारी खींचता है, चाहे वह आंकड़े हों या गणित।

डेटा साइंटिस्ट क्या करता है?

डेटा वैज्ञानिक वे हैं जो कुछ वैज्ञानिक विषयों में अपनी मजबूत विशेषज्ञता के साथ जटिल डेटा समस्याओं को क्रैक करते हैं। वे गणित, सांख्यिकी, कंप्यूटर विज्ञान, आदि से संबंधित कई तत्वों के साथ काम करते हैं (हालांकि वे इन सभी क्षेत्रों में विशेषज्ञ नहीं हो सकते हैं)।वे समाधान खोजने और निष्कर्ष तक पहुंचने में नवीनतम तकनीकों का बहुत उपयोग करते हैं जो संगठन के विकास और विकास के लिए महत्वपूर्ण हैं। डेटा वैज्ञानिक संरचित के साथ-साथ असंरचित रूपों से उपलब्ध कच्चे डेटा की तुलना में डेटा को अधिक उपयोगी रूप में प्रस्तुत करते हैं।

डेटा साइंटिस्ट के बारे में अधिक जानने के लिए आप इस लेख को देख सकते हैं

आगे बढ़ते हुए, अब BI पर चर्चा करते हैं। मुझे यकीन है कि आपने बिजनेस इंटेलिजेंस (BI) के बारे में भी सुना होगा। अक्सर डेटा साइंस बीआई के साथ भ्रमित होता है। मैं कुछ संक्षिप्त और स्पष्ट बताऊंगादोनों के बीच विरोधाभास जो आपको एक बेहतर समझ पाने में मदद करेगा। चलो देखते हैं।

सी ++ में क्रमबद्ध सरणी

बिजनेस इंटेलिजेंस (बीआई) बनाम डेटा साइंस

बिजनेस इंटेलिजेंस (बीआई) मूल रूप से व्यापार के रुझान का वर्णन करने के लिए दृष्टि और अंतर्दृष्टि खोजने के लिए पिछले डेटा का विश्लेषण करता है। यहां BI आपको बाहरी और आंतरिक स्रोतों से डेटा लेने, उसे तैयार करने, उस पर क्वेरी चलाने और जैसे प्रश्नों के उत्तर देने के लिए डैशबोर्ड बनाने में सक्षम बनाता हैत्रैमासिक राजस्व विश्लेषणया व्यावसायिक समस्याएं। BI निकट भविष्य में कुछ घटनाओं के प्रभाव का मूल्यांकन कर सकता है।

डेटा साइंस एक अधिक अग्रगामी दृष्टिकोण है, अतीत या वर्तमान डेटा का विश्लेषण करने और सूचित निर्णय लेने के उद्देश्य से भविष्य के परिणामों की भविष्यवाणी करने पर ध्यान देने के साथ एक खोजपूर्ण तरीका। यह खुले प्रश्नों का उत्तर 'क्या' और 'कैसे' घटनाओं के रूप में देता है।

आइए कुछ विपरीत विशेषताओं पर एक नजर डालें।

विशेषताएं	बिजनेस इंटेलिजेंस (BI)	डाटा साइंस
डेटा स्रोत	ढाँचा (आमतौर पर एसक्यूएल, अक्सर डेटा वेयरहाउस)	संरचित और असंरचित दोनों (लॉग, क्लाउड डेटा, SQL, NoSQL, टेक्स्ट)
दृष्टिकोण	सांख्यिकी और दृश्य	सांख्यिकी, मशीन लर्निंग, ग्राफ विश्लेषण, न्यूरो भाषाई प्रोग्रामिंग (एनएलपी)
ध्यान दें	भूतकाल और वर्तमानकाल	वर्तमान और भविष्य
उपकरण	पेंटाहो, माइक्रोसॉफ्ट बीआई,QlikView, आर	रैपिडमाइनर, बिगएमएल, वीका, आर

यह सब डेटा साइंस क्या है, अब डेटा साइंस के जीवनचक्र को समझने दीजिए।

डेटा साइंस प्रोजेक्ट्स में की गई एक आम गलती डेटा संग्रह और विश्लेषण में भाग ले रही है, बिना आवश्यकताओं को समझने या व्यवसाय की समस्या को ठीक से समझे बिना। इसलिए, प्रोजेक्ट के सुचारू कामकाज को सुनिश्चित करने के लिए डेटा विज्ञान के पूरे जीवनकाल में सभी चरणों का पालन करना आपके लिए बहुत महत्वपूर्ण है।

डाटा साइंस का जीवनचक्र

यहाँ डेटा विज्ञान जीवनचक्र के मुख्य चरणों का संक्षिप्त विवरण दिया गया है:

डेटा साइंस का जीवनचक्र - एडुर्का

चरण 1-डिस्कवरी: परियोजना शुरू करने से पहले, विभिन्न विशिष्टताओं, आवश्यकताओं, प्राथमिकताओं और आवश्यक बजट को समझना महत्वपूर्ण है। आपके पास सही सवाल पूछने की क्षमता होनी चाहिए।यहां, आप आकलन करते हैं कि क्या आपके पास परियोजना के समर्थन के लिए लोगों, प्रौद्योगिकी, समय और डेटा के संदर्भ में आवश्यक संसाधन मौजूद हैं।इस चरण में, आपको व्यवसाय की समस्या को फ्रेम करने और परीक्षण करने के लिए प्रारंभिक परिकल्पना (IH) तैयार करने की भी आवश्यकता है।

चरण 2 - डेटा तैयारी: इस चरण में, आपको विश्लेषणात्मक सैंडबॉक्स की आवश्यकता होती है जिसमें आप प्रोजेक्ट की पूरी अवधि के लिए एनालिटिक्स प्रदर्शन कर सकते हैं। मॉडलिंग से पहले आपको पता लगाने, प्रीप्रोसेस और कंडीशन डेटा की आवश्यकता होती है। इसके अलावा, आप सैंडबॉक्स में डेटा प्राप्त करने के लिए ETLT (एक्सट्रैक्ट, ट्रांसफॉर्म, लोड और ट्रांसफॉर्म) का प्रदर्शन करेंगे। आइए नीचे दिए गए सांख्यिकीय विश्लेषण प्रवाह पर एक नजर डालें।

डाटा साइंस का जीवनचक्र
आप डेटा की सफाई, परिवर्तन और दृश्य के लिए R का उपयोग कर सकते हैं। यह आपको बाहरी लोगों को हाजिर करने और चर के बीच संबंध स्थापित करने में मदद करेगा।एक बार जब आप डेटा को साफ और तैयार कर लेते हैं, तो खोजपूर्ण करने का समय आ जाता हैविश्लेषणइस पर। आइए देखें कि आप इसे कैसे प्राप्त कर सकते हैं।

चरण 3 - मॉडल योजना: यहां, आप चर के बीच संबंधों को बनाने के लिए तरीकों और तकनीकों का निर्धारण करेंगे।ये रिश्ते एल्गोरिदम के लिए आधार निर्धारित करेंगे जिसे आप अगले चरण में लागू करेंगे।आप विभिन्न सांख्यिकीय फ़ार्मुलों और विज़ुअलाइज़ेशन टूल का उपयोग करके एक्सप्लोरेटरी डेटा एनालिटिक्स (EDA) लागू करेंगे।

आइए विभिन्न मॉडल नियोजन टूल पर एक नज़र डालें।

डेटा विज्ञान में मॉडल नियोजन उपकरण - एडुरका

आर मॉडलिंग क्षमताओं का एक पूरा सेट है और व्याख्यात्मक मॉडल के निर्माण के लिए एक अच्छा वातावरण प्रदान करता है।
SQL विश्लेषण सेवाएँ सामान्य डेटा माइनिंग फ़ंक्शंस और बेसिक प्रेडिक्टिव मॉडल का उपयोग करके इन-डेटाबेस एनालिटिक्स प्रदर्शन कर सकते हैं।
SAS / ACCESS Hadoop से डेटा एक्सेस करने के लिए इस्तेमाल किया जा सकता है और रिपीटेबल और पुन: प्रयोज्य मॉडल फ्लो आरेख बनाने के लिए उपयोग किया जाता है।

हालांकि, कई उपकरण बाजार में मौजूद हैं लेकिन आर सबसे अधिक इस्तेमाल किया जाने वाला उपकरण है।

अब जब आप अपने डेटा की प्रकृति में अंतर्दृष्टि प्राप्त कर चुके हैं और उपयोग किए जाने वाले एल्गोरिदम का फैसला कर चुके हैं। अगले चरण में, आप करेंगेलागूएल्गोरिथ्म और एक मॉडल का निर्माण।

चरण 4 - मॉडल भवन: इस चरण में, आप प्रशिक्षण और परीक्षण उद्देश्यों के लिए डेटासेट विकसित करेंगे। सुनो तोआपको यह विचार करने की आवश्यकता है कि क्या आपके मौजूदा उपकरण मॉडलों को चलाने के लिए पर्याप्त होंगे या इसके लिए अधिक मजबूत वातावरण (जैसे तेज़ और समानांतर प्रसंस्करण) की आवश्यकता होगी। आप मॉडल बनाने के लिए विभिन्न शिक्षण तकनीकों जैसे वर्गीकरण, संघ और क्लस्टरिंग का विश्लेषण करेंगे।

आप निम्नलिखित उपकरणों के माध्यम से मॉडल निर्माण प्राप्त कर सकते हैं।

डाटा साइंस में मॉडल बिल्डिंग टूल्स

चरण 5 - संचालन: इस चरण में, आप अंतिम रिपोर्ट, ब्रीफिंग, कोड और तकनीकी दस्तावेज वितरित करते हैं।इसके अलावा, कभी-कभी एक पायलट प्रोजेक्ट वास्तविक समय के उत्पादन वातावरण में भी लागू किया जाता है। यह आपको पूर्ण तैनाती से पहले छोटे पैमाने पर प्रदर्शन और अन्य संबंधित बाधाओं की एक स्पष्ट तस्वीर प्रदान करेगा।

चरण 6-संवाद परिणाम: अब यह मूल्यांकन करना महत्वपूर्ण है कि क्या आप अपने लक्ष्य को प्राप्त करने में सक्षम हैं जो आपने पहले चरण में योजना बनाई थी। इसलिए, अंतिम चरण में, आप सभी महत्वपूर्ण निष्कर्षों की पहचान करते हैं, हितधारकों से संवाद करते हैं और निर्धारित करते हैं कि क्या परिणाम हैंपरियोजना चरण 1 में विकसित मानदंडों के आधार पर एक सफलता या विफलता है।

अब, मैं आपको ऊपर वर्णित विभिन्न चरणों की व्याख्या करने के लिए एक केस अध्ययन करूंगा।

केस स्टडी: मधुमेह की रोकथाम

क्या होगा अगर हम मधुमेह की घटना की भविष्यवाणी कर सकते हैं और इसे रोकने के लिए पहले से उचित उपाय कर सकते हैं?
इस उपयोग के मामले में, हम मधुमेह के पूरे जीवन चक्र के उपयोग की घटना का अनुमान लगाएंगे जिसकी हमने पहले चर्चा की थी। विभिन्न चरणों से गुजरते हैं।

स्टेप 1:

प्रथम,हम मेडिकल इतिहास के आधार पर डेटा एकत्र करेंगेचरण 1 में चर्चा की गई रोगी के रूप में। आप नीचे दिए गए नमूना डेटा का उल्लेख कर सकते हैं।

डेटा साइंस नमूना डेटा - एडुर्का

जैसा कि आप देख सकते हैं, हमारे पास नीचे बताए गए विभिन्न गुण हैं।

विशेषताएँ:

npreg - गर्भवती होने की संख्या
ग्लूकोज - प्लाज्मा ग्लूकोज एकाग्रता
बीपी - रक्तचाप
त्वचा - ट्राइसेप्स त्वचा की मोटाई
बीएमआई - बॉडी मास इंडेक्स
पेड - डायबिटीज पेडिग्री फंक्शन
आयु - आयु
आय - आय

चरण 2:

अब, जब हमारे पास डेटा होता है, तो हमें डेटा विश्लेषण के लिए डेटा को साफ करने और तैयार करने की आवश्यकता होती है।
इस डेटा में बहुत सारी विसंगतियां हैं जैसे कि लापता मान, रिक्त कॉलम, अचानक मान और गलत डेटा प्रारूप जिसे साफ करने की आवश्यकता है।
यहां, हमने विभिन्न विशेषताओं के तहत डेटा को एक ही तालिका में व्यवस्थित किया है - जिससे यह अधिक संरचित दिखता है।
आइए नीचे दिए गए नमूना डेटा पर एक नज़र डालें।

डेटा साइंस असंगत डेटा - एडुर्का

इस डेटा में बहुत सारी विसंगतियां हैं।

कॉलम में npreg , 'एक' में लिखा हैशब्दों,जबकि यह 1 की तरह संख्यात्मक रूप में होना चाहिए।
कॉलम में बी.पी. मूल्यों में से एक 6600 है जो असंभव है (कम से कम मनुष्यों के लिए) क्योंकि bp इतने बड़े मूल्य तक नहीं जा सकता है।
जैसा कि आप देख सकते हैं आय स्तंभ रिक्त है और मधुमेह का अनुमान लगाने में भी कोई मतलब नहीं है। इसलिए, यह यहां होना बेमानी है और इसे तालिका से हटा दिया जाना चाहिए।

इसलिए, हम आउटलेर्स को हटाकर, शून्य मानों को भरने और डेटा प्रकार को सामान्य करके इस डेटा को साफ और प्रीप्रोसेस करेंगे। अगर आपको याद है, तो यह हमारा दूसरा चरण है जो डेटा प्रीप्रोसेसिंग है।
अंत में, हम नीचे दिखाए गए अनुसार स्वच्छ डेटा प्राप्त करते हैं जिसका उपयोग विश्लेषण के लिए किया जा सकता है।

डेटा साइंस लगातार डेटा - एडुर्का

चरण 3:

अब चरण 3 में पहले की तरह कुछ विश्लेषण करते हैं।

सबसे पहले, हम डेटा को विश्लेषणात्मक सैंडबॉक्स में लोड करेंगे और उस पर विभिन्न सांख्यिकीय कार्यों को लागू करेंगे। उदाहरण के लिए, R में फ़ंक्शंस हैं वर्णन करता है जो हमें लापता मूल्यों और अद्वितीय मूल्यों की संख्या प्रदान करता है। हम सारांश फ़ंक्शन का भी उपयोग कर सकते हैं जो हमें औसत, माध्यिका, श्रेणी, न्यूनतम और अधिकतम मान जैसी सांख्यिकीय जानकारी देगा।
फिर, हम डेटा के वितरण का एक उचित विचार प्राप्त करने के लिए हिस्टोग्राम, लाइन ग्राफ, बॉक्स प्लॉट जैसी विज़ुअलाइज़ेशन तकनीकों का उपयोग करते हैं।

डेटा साइंस विज़ुअलाइज़ेशन - एडुरका

चरण 4:

अब, पिछले चरण से प्राप्त अंतर्दृष्टि के आधार पर, इस तरह की समस्या के लिए सबसे अच्छा फिट निर्णय पेड़ है। आइए देखते हैं कैसे?

चूंकि, हमारे पास विश्लेषण के लिए पहले से ही प्रमुख विशेषताएं हैं npreg, बीएमआई , आदि, इसलिए हम उपयोग करेंगेपर्यवेक्षित शिक्षण तकनीक का निर्माण करनायहाँ मॉडल।
इसके अलावा, हमने विशेष रूप से निर्णय वृक्ष का उपयोग किया है क्योंकि यह सभी विशेषताओं को एक बार में ध्यान में रखता है, जैसे कि एकलीनियर रिलेशनशिप के साथ-साथ जिनका नॉन-लीनियर रिलेशनशिप है। हमारे मामले में, हमारे बीच एक रैखिक संबंध है npreg तथा आयु, जबकि बीच में गैर-संबंध npreg तथा पेड ।
निर्णय वृक्ष के मॉडल भी बहुत मजबूत हैं क्योंकि हम विभिन्न पेड़ों को बनाने के लिए विशेषताओं के विभिन्न संयोजन का उपयोग कर सकते हैं और फिर अंत में अधिकतम दक्षता के साथ एक को लागू कर सकते हैं।

आइए हमारे फैसले के पेड़ पर एक नज़र डालें।

डिजाइन ट्री डेटा सेट

यहां, सबसे महत्वपूर्ण पैरामीटर ग्लूकोज का स्तर है, इसलिए यह हमारी जड़ नोड है। अब, वर्तमान नोड और इसका मान लिया जाने वाला अगला महत्वपूर्ण पैरामीटर निर्धारित करता है। यह तब तक चलता है जब तक हमें परिणाम नहीं मिलता स्थिति या नकारात्मक । Pos का अर्थ है मधुमेह होने की प्रवृत्ति सकारात्मक है और नकारात्मक का अर्थ है मधुमेह होने की प्रवृत्ति नकारात्मक है।

यदि आप निर्णय ट्री के कार्यान्वयन के बारे में अधिक जानना चाहते हैं, तो इस ब्लॉग को देखें

चरण 5:

इस चरण में, हम जाँचने के लिए एक छोटा पायलट प्रोजेक्ट चलाएंगे कि क्या हमारे परिणाम उचित हैं। यदि कोई हो, तो हम प्रदर्शन की कमी भी देखेंगे। यदि परिणाम सटीक नहीं हैं, तो हमें मॉडल को फिर से बनाने और पुनर्निर्माण करने की आवश्यकता है।

चरण 6:

एक बार जब हम परियोजना को सफलतापूर्वक निष्पादित कर लेते हैं, तो हम पूर्ण परिनियोजन के लिए आउटपुट साझा करेंगे।

डेटा साइंटिस्ट होने के कारण काम करना ज्यादा आसान है। तो, आइए देखें कि आपको डेटा साइंटिस्ट होने के लिए क्या चाहिए।एक डेटा साइंटिस्ट को मूल रूप से कौशल की आवश्यकता होती हैनीचे दिखाए गए अनुसार तीन प्रमुख क्षेत्रों से।

डेटा साइंस स्किल्स - एडुर्का

जैसा कि आप उपरोक्त छवि में देख सकते हैं, आपको विभिन्न कठिन कौशल और नरम कौशल प्राप्त करने की आवश्यकता है। आपको अच्छा होना चाहिए आँकड़े तथा अंक शास्त्र डेटा का विश्लेषण और कल्पना करना। कहने की जरूरत नहीं, यंत्र अधिगम डाटा साइंस का दिल बनाता है और आपको इसमें अच्छा होना चाहिए। साथ ही, आपको इसकी ठोस समझ होनी चाहिए डोमेन आप व्यावसायिक समस्याओं को स्पष्ट रूप से समझने के लिए काम कर रहे हैं। आपका कार्य यहीं समाप्त नहीं होता है। आपको विभिन्न एल्गोरिदम को लागू करने में सक्षम होना चाहिए जिसमें अच्छे की आवश्यकता होती है कोडिंग कौशल। अंत में, एक बार जब आप कुछ महत्वपूर्ण निर्णय लेते हैं, तो आपके लिए उन्हें हितधारकों तक पहुंचाना महत्वपूर्ण होता है। कितना अच्छा संचार निश्चित रूप से आपके कौशल में ब्राउनी अंक जोड़ देगा।

मैं आपसे इस डेटा साइंस वीडियो ट्यूटोरियल को देखने का आग्रह करता हूं जो बताता है कि डेटा साइंस क्या है और यह सब हमने ब्लॉग में चर्चा की है। आगे बढ़ो, वीडियो का आनंद लें और मुझे बताएं कि आप क्या सोचते हैं।

जावा में tostring का उपयोग कैसे करें

डेटा साइंस क्या है? डाटा साइंस कोर्स - बिगिनर्स के लिए डेटा साइंस ट्यूटोरियल | Edureka

यह एडुर्का डेटा साइंस कोर्स वीडियो आपको डेटा विज्ञान की आवश्यकता के माध्यम से ले जाएगा, डेटा साइंस क्या है, डेटा साइंस व्यवसाय के लिए मामलों का उपयोग करता है, बीआई बनाम डेटा साइंस, डेटा एनालिटिक्स टूल, डेटा साइंस जीवनचक्र एक डेमो के साथ।

अंत में, यह कहना गलत नहीं होगा कि भविष्य डेटा वैज्ञानिकों का है। यह अनुमान लगाया जाता है कि वर्ष 2018 के अंत तक लगभग एक मिलियन डेटा वैज्ञानिकों की आवश्यकता होगी। अधिक से अधिक डेटा कुंजी व्यापार निर्णयों को चलाने के अवसर प्रदान करेगा। यह जल्द ही हमारे आसपास डेटा के साथ दुनिया को देखने के तरीके को बदलने जा रहा है। इसलिए, एक डेटा वैज्ञानिक को अत्यधिक जटिल समस्याओं को हल करने के लिए अत्यधिक कुशल और प्रेरित होना चाहिए।

आशा करता हूँ कि आपको मेरा ब्लॉग पढने में मज़ा आया होगा और समझ गया होगा कि Data Science क्या हैहमारी जाँच करें यहाँ, वह प्रशिक्षक के नेतृत्व वाले लाइव प्रशिक्षण और वास्तविक जीवन की परियोजना के अनुभव के साथ आता है।

डेटा साइंस क्या है? एक शुरुआती गाइड टू डेटा साइंस

डेटा साइंस क्या है?

डेटा साइंस क्यों?

डेटा साइंटिस्ट कौन है?

डेटा साइंटिस्ट क्या करता है?

बिजनेस इंटेलिजेंस (बीआई) बनाम डेटा साइंस

डाटा साइंस का जीवनचक्र

केस स्टडी: मधुमेह की रोकथाम

श्रेणियाँ

Popular Articles

DBMS क्या है? - डेटाबेस प्रबंधन प्रणालियों के लिए एक व्यापक गाइड

जानें आर के शीर्ष 10 कारण

पायथन में स्ट्रिंग्स के साथ कैसे लागू करें और खेलें

SQL दृश्य: SQL में दृश्य के साथ कैसे काम करें?

जावास्क्रिप्ट में स्ट्रिंग की लंबाई को कैसे लागू करें

कैसे जावा में विधि छिपाना लागू करने के लिए

सीएसएस सूचियों का सर्वश्रेष्ठ उपयोग कैसे करें?

आर प्रोग्रामिंग - शुरुआती गाइड टू आर प्रोग्रामिंग लैंग्वेज

उन्नत एक्सेल फ़ार्मुलों पर ट्यूटोरियल

जावा प्रोग्राम की मूल संरचना क्या है?

स्प्लंक नॉलेज ऑब्जेक्ट्स: स्प्लंक इवेंट्स, इवेंट टाइप्स एंड टैग

झरना बनाम चंचल: जो आपके लिए बेहतर है और क्यों?