झांकी में डाटा सम्मिश्रण | झांकी डाटा सम्मिश्रण

एक ऐसी दुनिया में, जो एक दिन में 2.5 क्विंटल बाइट्स उत्पन्न और उपभोग करती है, संगठन इष्टतम दक्षता प्राप्त करने के लिए डेटा को बदलने और संयोजित करने के लिए नए तरीकों की तलाश करने के लिए बाध्य हैं। डेटा के संयोजन की एक ऐसी विधि है झांकी में डाटा सम्मिश्रण ।

अब, क्योंकि यह किसी भी संगठन के डेटा चक्र में इस तरह के एक महत्वपूर्ण उद्देश्य को पूरा करता है, यह अधिकांश में एक बहुत ही आवश्यक मॉड्यूल के लिए बनाता है । इस ब्लॉग में, हम निम्नलिखित अवधारणाओं पर चर्चा करेंगे:

आपको झांकी में सम्मिश्रण की आवश्यकता क्यों है?
झांकी में डेटा सम्मिश्रण क्या है?
यह डेटा जॉइनिंग से कैसे अलग है?
जब सम्मिश्रण सम्मिश्रण करने के लिए?
झांकी में अपने डेटा सम्मिश्रण
झांकी में सम्मिश्रण की सीमाएं

आपको झांकी में डेटा सम्मिश्रण की आवश्यकता क्यों है?

मान लीजिए, आप ए डेवलपर तालिका जिसके पास Salesforce में संग्रहीत डेटा है और एक्सेस में संग्रहीत कोटा डेटा। आपके द्वारा संयोजित किए जाने वाले डेटा को अलग-अलग डेटाबेस में संग्रहीत किया जाता है, और प्रत्येक तालिका में कैप्चर किए गए डेटा की ग्रेन्युलिटी दो डेटा स्रोतों में भिन्न होती है, इसलिए डेटा सम्मिश्रण इस डेटा को संयोजित करने का सबसे अच्छा तरीका है।

प्रकार फ़ंक्शन c ++

निम्नलिखित स्थितियों में डेटा सम्मिश्रण उपयोगी है:

आप विभिन्न डेटाबेस से डेटा को संयोजित करना चाहते हैं जो क्रॉस-डेटाबेस जॉइन द्वारा समर्थित नहीं हैं।
क्रॉस-डेटाबेस जुड़ने से क्यूब्स (उदाहरण के लिए, ओरेकल एस्बेस) या कुछ एक्स्ट्रेक्ट-ओनली कनेक्शन (उदाहरण के लिए, Google Analytics) से कनेक्शन का समर्थन नहीं होता है। इस मामले में, जिस डेटा का आप विश्लेषण करना चाहते हैं, उसके लिए अलग-अलग डेटा स्रोत सेट करें, और फिर डेटा स्रोतों को एक ही शीट पर संयोजित करने के लिए डेटा सम्मिश्रण का उपयोग करें।
डेटा विस्तार के विभिन्न स्तरों पर है।
कभी-कभी एक डेटा सेट विभिन्न का उपयोग करके डेटा कैप्चर करता है विस्तार के स्तर यानी, अन्य डेटा सेट की तुलना में अधिक या कम ग्रैन्युलैरिटी।
उदाहरण के लिए, मान लें कि आप लेनदेन डेटा और कोटा डेटा का विश्लेषण कर रहे हैं। लेन-देन संबंधी डेटा सभी लेनदेन पर कब्जा कर सकते हैं। हालाँकि, कोटा डेटा तिमाही स्तर पर लेनदेन को एकत्र कर सकता है। क्योंकि प्रत्येक डेटा सेट में विभिन्न स्तरों पर लेन-देन के मूल्यों को कैप्चर किया जाता है, इसलिए आपको डेटा को संयोजित करने के लिए डेटा सम्मिश्रण का उपयोग करना चाहिए।

झांकी में डेटा सम्मिश्रण क्या है?

डेटा सम्मिश्रण में एक बहुत शक्तिशाली विशेषता है मंडल । कई डेटा स्रोतों में संबंधित डेटा होने पर इसका उपयोग किया जाता है, जिसे आप एक ही दृश्य में एक साथ विश्लेषण करना चाहते हैं। यह डेटा के संयोजन के लिए एक विधि है जो एक डेटा स्रोत से डेटा की तालिका को किसी अन्य डेटा स्रोत से डेटा के कॉलम के साथ पूरक करता है।

आमतौर पर, आप इस तरह के डेटा संयोजन को करने के लिए जॉइन का उपयोग करते हैं, लेकिन कई बार, डेटा के प्रकार और इसकी बारीकियों जैसे कारकों पर निर्भर करता है, जब डेटा सम्मिश्रण का उपयोग करना बेहतर होता है।

यह डेटा जॉइनिंग से कैसे अलग है?

डेटा सम्मिश्रण एक पारंपरिक बाएँ जुड़ने का अनुकरण करता है। दोनों के बीच मुख्य अंतर है कब अ जुड़ाव एकत्रीकरण के संबंध में किया जाता है।

बाँया जोड़

जब आप डेटा को संयोजित करने के लिए एक लेफ्ट जॉइन का उपयोग करते हैं, तो क्वेरी को डेटाबेस में भेजा जाता है जहां ज्वाइन किया जाता है। एक बाईं ओर का उपयोग करना बाईं तालिका से सभी पंक्तियों को वापस लौटाता है और दाएं तालिका से किसी भी पंक्ति में बाईं तालिका में एक समान पंक्ति मिलान होता है। शामिल होने के परिणामों को तब वापस भेज दिया जाता है और झांकी द्वारा एकत्र किया जाता है।

उदाहरण के लिए, मान लें कि आपके पास निम्न तालिकाएँ हैं। यदि आम कॉलम हैं प्रयोक्ता आईडी , एक बाईं ज्वाइन लेफ्ट टेबल से सारा डेटा लेती है, साथ ही राइट टेबल से सभी डेटा लेती है क्योंकि प्रत्येक पंक्ति में लेफ्ट टेबल में एक समान रो का मेल होता है।

डेटा सम्मिश्रण

जब आप डेटा को संयोजित करने के लिए डेटा सम्मिश्रण का उपयोग करते हैं, तो एक क्वेरी डेटाबेस पर प्रत्येक डेटा स्रोत के लिए भेजी जाती है जो शीट पर उपयोग किया जाता है। एकत्रित डेटा सहित प्रश्नों के परिणाम, वापस भेजे जाते हैं और झांकी द्वारा संयुक्त होते हैं। दृश्य प्राथमिक डेटा स्रोत से सभी पंक्तियों का उपयोग करता है, बाईं तालिका, और लिंकिंग फ़ील्ड के आयाम के आधार पर द्वितीयक डेटा स्रोत, सही तालिका से एकत्रित पंक्तियों का उपयोग करता है।

आप लिंकिंग फ़ील्ड को बदल सकते हैं या मिश्रण में द्वितीयक डेटा स्रोत से डेटा की विभिन्न या अतिरिक्त पंक्तियों को शामिल करने के लिए और अधिक लिंकिंग फ़ील्ड जोड़ सकते हैं, जो कुल मानों को बदल सकते हैं।

उदाहरण के लिए, मान लें कि आपके पास निम्न तालिकाएँ हैं। यदि लिंकिंग फ़ील्ड हैं प्रयोक्ता आईडी दोनों तालिकाओं में आपका डेटा सम्मिश्रण बाईं तालिका से सभी डेटा लेता है, और दाईं तालिका से डेटा के साथ बाईं तालिका को पूरक करता है। इस स्थिति में, सभी मान निम्न के कारण परिणामी तालिका का हिस्सा नहीं हो सकते हैं:

बाईं तालिका में एक पंक्ति में दाएं तालिका में एक समान पंक्ति मिलान नहीं है, जैसा कि शून्य मान द्वारा इंगित किया गया है।
सही तालिका में पंक्तियों में एकाधिक संबंधित मान हैं, जैसा कि तारांकन चिह्न (*) द्वारा दर्शाया गया है।

मान लें कि आपके पास ऊपर की तरह एक ही टेबल है, लेकिन द्वितीयक डेटा स्रोत में एक नया फ़ील्ड शामिल है जिसे कहा जाता है प्रयोजन । फिर, यदि लिंकिंग फ़ील्ड है प्रयोक्ता आईडी , आपके डेटा का सम्मिश्रण बाईं तालिका के सभी डेटा लेता है, और इसे दाईं तालिका के डेटा के साथ पूरक करता है। इस मामले में, आपको निम्न के अलावा पिछले उदाहरण में समान शून्य मान और तारांकन दिखाई देते हैं:

क्यों कि प्रयोजन फ़ील्ड एक माप है, आप पंक्ति मूल्यों को देखते हैंप्रयोजनदाएँ तालिका में डेटा से पहले एकत्रित फ़ील्ड को बाईं तालिका में डेटा के साथ जोड़ा जाता है।
पिछले उदाहरण के साथ, बाईं तालिका में एक पंक्ति के लिए संबंधित पंक्ति नहीं है प्रयोजन फ़ील्ड, जैसा कि दूसरे अशक्त मूल्य से संकेत मिलता है।

जब सब्स्टिट्यूट जॉइनिंग के लिए सम्मिश्रण

1. डेटा की सफाई की जरूरत है।

यदि आपकी तालिकाएँ जुड़ने के बाद एक-दूसरे के साथ सही तरीके से मेल नहीं खाती हैं, तो प्रत्येक तालिका के लिए डेटा स्रोत सेट करें, कोई भी आवश्यक अनुकूलन करें (जो स्तंभों का नाम बदलें, स्तंभ डेटा प्रकार बदलें, समूह बनाएं, गणना का उपयोग करें, आदि), और फिर डेटा को संयोजित करने के लिए डेटा सम्मिश्रण का उपयोग करें।

2. जुड़ने से डुप्लिकेट डेटा पैदा होता है।

जुड़ने के बाद डुप्लिकेट डेटा विस्तार के विभिन्न स्तरों पर डेटा का एक लक्षण है। यदि आप डुप्लिकेट डेटा को नोटिस करते हैं, तो शामिल होने के बजाय, एक सामान्य आयाम पर मिश्रण करने के लिए सम्मिश्रण डेटा का उपयोग करें।

3. आपके पास बहुत सारे डेटा हैं।

आमतौर पर एक ही डेटाबेस से डेटा के संयोजन के लिए जॉइन की सिफारिश की जाती है। जोड़ों को डेटाबेस द्वारा नियंत्रित किया जाता है, जो डेटाबेस की मूल क्षमताओं में से कुछ का लाभ उठाने की अनुमति देता है। हालाँकि, यदि आप डेटा के बड़े सेट के साथ काम कर रहे हैं, तो जॉइन्ट डेटाबेस पर दबाव डाल सकते हैं और प्रदर्शन को काफी प्रभावित कर सकते हैं। इस मामले में, डेटा सम्मिश्रण मदद कर सकता है। क्योंकि झांकी डेटा एकत्र होने के बाद डेटा के संयोजन को संभालती है, गठबंधन करने के लिए कम डेटा होते हैं। जब संयोजन करने के लिए कम डेटा होते हैं, तो आमतौर पर, प्रदर्शन में सुधार होता है।

झांकी में अपने डेटा सम्मिश्रण

आप डेटा सम्मिश्रण का उपयोग कर सकते हैं जब आपके पास अलग-अलग डेटा स्रोतों में डेटा होता है जिसे आप एक ही शीट पर एक साथ विश्लेषण करना चाहते हैं। झांकी में दो इनबिल्ट डेटा स्रोत हैं सैंपल-सुपरस्टोर तथा सैंपल कॉफ़ी चेन.mdb जिसका उपयोग डेटा सम्मिश्रण को दर्शाने के लिए किया जाएगा।

चरण 1: अपने डेटा से कनेक्ट करें और डेटा स्रोत सेट करें

डेटा के सेट से कनेक्ट करें और डेटा स्रोत पृष्ठ पर डेटा स्रोत सेट करें। एक मैंnbuilt data source सैंपल कॉफ़ी चेन.mdb ,जो एक MS Access डेटाबेस फ़ाइल है, का उपयोग डेटा सम्मिश्रण को दर्शाने के लिए किया जाएगा।
के लिए जाओ डेटा > नया डेटा स्रोत, डेटा के दूसरे सेट से कनेक्ट करें।यह उदाहरण उपयोग करता है नमूना - सुपरस्टोर डेटा स्रोत। टीमुर्गी ने डेटा स्रोत स्थापित किया।
अपना दृश्य बनाना शुरू करने के लिए शीट टैब पर क्लिक करें।

चरण 2: एक प्राथमिक डेटा स्रोत नामित करें

प्राथमिक डेटा स्रोत से प्राथमिक डेटा स्रोत के रूप में नामित करने के लिए अपने प्राथमिक डेटा स्रोत से कम से कम एक फ़ील्ड खींचें। में डेटा फलक, उस डेटा स्रोत पर क्लिक करें जिसे आप प्राथमिक डेटा स्रोत के रूप में निर्दिष्ट करना चाहते हैं। इस उदाहरण में, सैंपल कॉफी चेन चयनित है।
निम्न स्क्रीनशॉट फ़ाइल में उपलब्ध विभिन्न तालिकाओं और जुड़ावों को दिखाता है।

चरण 3: एक द्वितीयक डेटा स्रोत नामित करें

डेटा स्रोतों से दृश्य में उपयोग की जाने वाली फ़ील्ड प्राथमिक डेटा स्रोत या सक्रिय लिंक नहीं हैं जो स्वचालित रूप से बाद के डेटा स्रोतों को द्वितीयक डेटा स्रोत के रूप में नामित करती हैं। इस मामले में, नमूना सुपरस्टोर।

चरण 4: डेटा को ब्लेंड करें

अब आप एक आम आयाम के आधार पर दोनों स्रोतों से डेटा को एकीकृत कर सकते हैं ( राज्य , इस मामले में)। ध्यान दें कि आयाम के बगल में एक छोटी लिंक छवि दिखाई देती है - राज्य। यह दो डेटा स्रोतों के बीच सामान्य आयाम को इंगित करता है।
मान लीजिए कि आप एक बार चार्ट बनाते हैं लाभ का अनुपात कॉलम शेल्फ में और राज्य रो शेल्फ में, चार्ट दिखाता है कि सुपरस्टोर और कॉफी श्रृंखला की दुकानों में प्रत्येक राज्य के लिए लाभ अनुपात कैसे भिन्न होता है।

झांकी में सम्मिश्रण की सीमाएं

गैर-योगात्मक समुच्चय के आसपास कुछ डेटा सम्मिश्रण सीमाएँ हैं, जैसे कि मेडियन , तथा RAWSQLAGG ।
डेटा सम्मिश्रण उच्च ग्रेन्युलैरिटी में क्वेरी की गति से समझौता करता है।
जब आप परिकलित फ़ील्ड का उपयोग करने का प्रयास करते हैं जो मिश्रित डेटा का उपयोग करता है, तो परिकलित फ़ील्ड सॉर्ट संवाद बॉक्स के फ़ील्ड ड्रॉप-डाउन सूची में सूचीबद्ध नहीं है।
घन डेटा स्रोतों का उपयोग केवल झांकी में डेटा सम्मिश्रण के लिए प्राथमिक डेटा स्रोत के रूप में किया जा सकता है। उनका उपयोग द्वितीयक डेटा स्रोतों के रूप में नहीं किया जा सकता है।

मुझे उम्मीद है कि आप सभी अब इस बारे में सोचेंगे झांकी में डाटा सम्मिश्रण इस ब्लॉग से। अधिक ज्ञान की भूख? चिंता न करें, यह वीडियो आपको अवधारणा की बेहतर समझ देगा।

जब आप पहले से ही झांकी में शामिल हो सकते हैं तो आपको ब्लेंड क्यों करना चाहिए?

आपको झांकी में डेटा सम्मिश्रण की आवश्यकता क्यों है?

आप विभिन्न डेटाबेस से डेटा को संयोजित करना चाहते हैं जो क्रॉस-डेटाबेस जॉइन द्वारा समर्थित नहीं हैं।

डेटा विस्तार के विभिन्न स्तरों पर है।

झांकी में डेटा सम्मिश्रण क्या है?

यह डेटा जॉइनिंग से कैसे अलग है?

बाँया जोड़

डेटा सम्मिश्रण

जब सब्स्टिट्यूट जॉइनिंग के लिए सम्मिश्रण

1. डेटा की सफाई की जरूरत है।

2. जुड़ने से डुप्लिकेट डेटा पैदा होता है।

3. आपके पास बहुत सारे डेटा हैं।

झांकी में अपने डेटा सम्मिश्रण

झांकी में सम्मिश्रण की सीमाएं

श्रेणियाँ

Popular Articles

टॉप 10 मशीन लर्निंग फ्रेमवर्क जो आपको जानना जरूरी है

डायनेमिक मेमोरी आवंटन C ++ के साथ कैसे काम करें?

शीर्ष 10 कारण आपको जावा क्यों सीखना चाहिए

सुअर में एक गहरा गोता

जावा में पावर फंक्शन क्या है? - जानिए इसके उपयोग

सहायक हैडॉप शैल कमांड

Hadoop Career: बिग डेटा एनालिटिक्स में कैरियर

Ethereum Tutorial - एथेरम में एक गहरा लुक!

DevOps न तो एक विधि है और न ही एक उपकरण है, यह एक संस्कृति है

गहराई में जावा संरचना कैसे लागू करें?

जावा में लकड़हारा क्या है और आप इसका उपयोग क्यों करते हैं?

DevOps के पेशेवरों के लिए महत्वपूर्ण पूर्व-आवश्यकताएँ क्या हैं?