टैलेंट ईटीएल टूल - डेटा प्रोसेसिंग के लिए टैलेंड ओपन स्टूडियो



टैलेंट ईटीएल टूल पर यह ब्लॉग एक ओपन सोर्स ईटीएल टूल के बारे में बात करता है - डेटा इंटीग्रेशन के लिए टैलेंट, जो ईटीएल प्रक्रिया को करने के लिए उपयोगकर्ता के अनुकूल जीयूआई प्रदान करता है।

विषम डेटा से निपटना निश्चित रूप से एक थकाऊ काम है, लेकिन जैसे-जैसे डेटा की मात्रा बढ़ती है, यह केवल अधिक थकाऊ हो जाता है। यह वह जगह है जहाँ ETL उपकरण इस डेटा को सजातीय डेटा में बदलने में मदद करते हैं। अब, यह रूपांतरित डेटा आवश्यक जानकारी का विश्लेषण और व्युत्पन्न करना आसान है। टैलेंड ईटीएल पर इस ब्लॉग में, मैं बात करूंगा कि बिग डेटा से मूल्यवान अंतर्दृष्टि का दोहन करने के लिए ईटीएल टूल के रूप में टैलेंड असाधारण रूप से कैसे काम करता है।

इस टैलेंट ईटीएल ब्लॉग में, मैं निम्नलिखित विषयों पर चर्चा करूंगा:





आप इस विस्तृत वीडियो ट्यूटोरियल के माध्यम से भी जा सकते हैं जहाँ हमारे एक्सपर्ट टैलेंट ईटीएल और डेटा प्रोसेसिंग को विस्तृत रूप से कुरकुरा उदाहरण के साथ बताते हैं।

टैलेंट ETL ट्यूटोरियल | प्रतिभा ऑनलाइन प्रशिक्षण | Edureka

ईटीएल प्रक्रिया क्या है?



ETL का मतलब एक्सट्रैक्ट, ट्रांसफॉर्म और लोड है। यह उन प्रक्रियाओं की तिकड़ी को संदर्भित करता है, जो कच्चे स्रोत को डेटा स्रोत या डेटाबेस से कच्चे डेटा को स्थानांतरित करने के लिए आवश्यक होती हैं। मुझे इनमें से प्रत्येक प्रक्रिया के बारे में विस्तार से बताएं:

  1. अर्क

    डेटा का निष्कर्षण ETL का सबसे महत्वपूर्ण चरण है जिसमें सभी स्टोरेज सिस्टम से डेटा एक्सेस करना शामिल है। स्टोरेज सिस्टम RDBMS, एक्सेल फाइलें, एक्सएमएल फाइलें, फ्लैट फाइलें, ISAM (अनुक्रमित अनुक्रमिक एक्सेस विधि), पदानुक्रमित डेटाबेस (IMS), दृश्य जानकारी आदि हो सकती हैं। सबसे महत्वपूर्ण कदम होने के नाते, इसे इस तरह से डिजाइन करने की आवश्यकता है। यह स्रोत प्रणालियों को नकारात्मक रूप से प्रभावित नहीं करता है। निष्कर्षण प्रक्रिया यह भी सुनिश्चित करती है कि प्रत्येक आइटम के मापदंडों को उसके स्रोत प्रणाली की परवाह किए बिना विशिष्ट रूप से पहचाना जाए।

    जावा में यादृच्छिक स्ट्रिंग उत्पन्न करते हैं
  2. रूपांतरण

    परिवर्तन पाइपलाइन में अगली प्रक्रिया है। इस चरण में, संपूर्ण डेटा का विश्लेषण किया जाता है और इसे आवश्यक प्रारूप में बदलने के लिए विभिन्न कार्यों को लागू किया जाता है। आम तौर पर, डेटा के रूपांतरण के लिए उपयोग की जाने वाली प्रक्रियाएं रूपांतरण, फ़िल्टरिंग, सॉर्टिंग, मानकीकरण, डुप्लिकेट को साफ़ करना, विभिन्न डेटा स्रोतों की स्थिरता का अनुवाद और सत्यापन करना है।

  3. भार

    ईटीएल प्रक्रिया का अंतिम चरण लोड हो रहा है। इस चरण में, संसाधित डेटा, यानी निकाले गए और परिवर्तित किए गए डेटा को फिर एक लक्ष्य डेटा रिपॉजिटरी में लोड किया जाता है जो आमतौर पर डेटाबेस होता है। इस चरण को निष्पादित करते समय, यह सुनिश्चित किया जाना चाहिए कि लोड फ़ंक्शन सही तरीके से किया गया है, लेकिन न्यूनतम संसाधनों का उपयोग करके। साथ ही, लोड करते समय आपको संदर्भात्मक अखंडता को बनाए रखना होगा ताकि आप डेटा की स्थिरता खो न दें। डेटा लोड होने के बाद, आप डेटा के किसी भी भाग को चुन सकते हैं और आसानी से अन्य विखंडू के साथ तुलना कर सकते हैं।

ईटीएल प्रक्रिया - प्रतिभा ईटीएल - एडुर्का



अब जब आप ईटीएल प्रक्रिया के बारे में जानते हैं, तो आप सोच रहे होंगे कि इन सभी को कैसे किया जाए? खैर, ईटीएल टूल्स का उपयोग करके उत्तर सरल है। इस टैलेंट ईटीएल ब्लॉग के अगले भाग में, मैं उपलब्ध विभिन्न ईटीएल टूल्स के बारे में बात करूंगा।

विभिन्न ईटीएल उपकरण

लेकिन इससे पहले कि मैं ETL टूल के बारे में बात करूँ, पहले यह समझ लें कि वास्तव में ETL उपकरण क्या है।

जैसा कि मैंने पहले ही चर्चा की है, ईटीएल तीन अलग-अलग प्रक्रियाएं हैं जो अलग-अलग कार्य करती हैं। जब इन सभी प्रक्रियाओं को एक साथ जोड़ दिया जाता है एकल प्रोग्रामिंग उपकरण जो डेटा तैयार करने और विभिन्न डेटाबेस के प्रबंधन में मदद कर सकता है।इन उपकरणों में ग्राफिकल इंटरफेस होता है जिसके परिणामस्वरूप विभिन्न स्रोतों और लक्ष्य डेटाबेस के बीच तालिकाओं और स्तंभों की मैपिंग की पूरी प्रक्रिया को गति मिलती है।

ETL टूल्स के कुछ प्रमुख लाभ हैं:

  • ये तो बहुत प्रयोग करने में आसान क्योंकि यह प्रक्रियाओं और कोड लिखने की आवश्यकता को समाप्त करता है।
  • चूंकि ETL उपकरण GUI आधारित हैं इसलिए वे एक प्रदान करते हैं दृश्य प्रवाह सिस्टम के तर्क के
  • ETL उपकरण में अंतर्निहित त्रुटि-हैंडलिंग कार्यक्षमता है, जिसके कारण उनके पास है परिचालन लचीलापन
  • बड़े और जटिल डेटा के साथ काम करते समय, ETL उपकरण एक प्रदान करते हैं बेहतर डेटा प्रबंधन कार्यों को सरल बनाने और विभिन्न कार्यों में आपकी सहायता करने से।
  • ETL उपकरण पारंपरिक प्रणालियों की तुलना में सफाई कार्यों का एक उन्नत सेट प्रदान करते हैं।
  • ETL उपकरण एक है व्यापार खुफिया बढ़ाया जो सीधे रणनीतिक और परिचालन निर्णयों को प्रभावित करता है।
  • ETL टूल के उपयोग के कारण, खर्च कम हो जाता है बहुत से और व्यवसाय उच्च राजस्व उत्पन्न करने में सक्षम हैं।
  • प्रदर्शन ईटीएल उपकरण बहुत बेहतर है क्योंकि इसके प्लेटफ़ॉर्म की संरचना उच्च-गुणवत्ता वाले डेटा वेयरहाउसिंग सिस्टम के निर्माण को सरल बनाती है।

बाजार में विभिन्न ईटीएल उपकरण उपलब्ध हैं, जो काफी लोकप्रिय हैं। उनमें से कुछ हैं:

इन सभी टूल्स के बीच, इस टैलेंट ईटीएल ब्लॉग में, मैं बात करूंगा कि ईटीएल टूल के रूप में टैलेंड कैसे होता है।

टैल्ट ETL टूल

डेटा इंटीग्रेशन के लिए टैलेंड ओपन स्टूडियो बाजार में उपलब्ध सबसे शक्तिशाली डेटा एकीकरण ईटीएल टूल में से एक है। टीओएस आपको ईटीएल प्रक्रिया में शामिल सभी चरणों को आसानी से प्रबंधित करने देता है, जो प्रारंभिक ईटीएल डिजाइन से शुरू होकर ईटीएल डेटा लोड के निष्पादन तक होता है। यह उपकरण एक्लिप्स ग्राफिकल डेवलपमेंट एन्वायरमेंट पर विकसित किया गया है। टैलेंड ओपन स्टूडियो आपको ग्राफिकल वातावरण प्रदान करता है जिसके उपयोग से आप स्रोत के बीच डेटा को आसानी से गंतव्य प्रणाली में मैप कर सकते हैं। आपको केवल पैलेट से आवश्यक घटकों को कार्यक्षेत्र में खींचने और छोड़ने की आवश्यकता है, उन्हें कॉन्फ़िगर करें और अंत में उन्हें एक साथ कनेक्ट करें। यह आपको एक मेटाडेटा रिपॉजिटरी भी प्रदान करता है जहाँ से आप आसानी से अपने काम का पुन: उपयोग और पुन: प्रयोजन कर सकते हैं। यह निश्चित रूप से समय के साथ आपकी दक्षता और उत्पादकता बढ़ाने में आपकी मदद करेगा।

इसके साथ, आप यह निष्कर्ष निकाल सकते हैं कि DI के लिए टैलेंड ओपन स्टूडियो मजबूत कनेक्टिविटी, आसान अनुकूलन क्षमता और निष्कर्षण और परिवर्तन की प्रक्रिया के एक सुचारू प्रवाह के साथ-साथ एक तात्कालिक डेटा एकीकरण प्रदान करता है।

इस टैलेंट ईटीएल ब्लॉग के अगले भाग में, आइए देखें कि आप ईटीएल प्रक्रिया को टैलेंड में कैसे कर सकते हैं।

टैलेंड ओपन स्टूडियो: रनिंग एन ईटीएल जॉब

ईटीएल प्रक्रिया को प्रदर्शित करने के लिए, मैं एक एक्सेल फ़ाइल से डेटा निकाल रहा हूं, इसे एक फ़िल्टर लागू करके बदल देगासेवा मेरेडेटा और फिर एक डेटाबेस में नए डेटा लोड हो रहा है। निम्नलिखित मेरे एक्सेल डेटासेट का प्रारूप है:

इस डेटा सेट से, मैं ग्राहक प्रकार के आधार पर डेटा की पंक्तियों को फ़िल्टर करूँगा और उनमें से प्रत्येक को एक अलग डेटाबेस तालिका में संग्रहीत करूँगा। इसे करने के लिए नीचे दिए गए चरणों का पालन करें:

स्टेप 1: एक नई नौकरी बनाएँ और पैलेट से, निम्नलिखित घटकों को खींचें और छोड़ें:
  1. tMysqlConnection
  2. tFileExcelInput
  3. tReplicate
  4. () tFilterRow ) एक्स 4
  5. () tMysqlOutput ) एक्स 4

चरण 2: नीचे दिखाए गए अनुसार घटकों को एक साथ कनेक्ट करें:

चरण 3: TMysqlConnection के घटक टैब पर जाएं और ’संपत्ति प्रकार’ से चुनें कि आप किस प्रकार के कनेक्शन का उपयोग कर रहे हैं अंतर्निहित या रिपोजिटरी। यदि आप एक अंतर्निहित कनेक्शन का उपयोग कर रहे हैं तो आपको निम्नलिखित विवरण निर्दिष्ट करना होगा:
  1. मेज़बान
  2. बंदरगाह
  3. डेटाबेस
  4. उपयोगकर्ता नाम
  5. कुंजिका

लेकिन यदि आप एक रिपॉजिटरी कनेक्शन का उपयोग कर रहे हैं तो यह रिपॉजिटरी से डिफ़ॉल्ट रूप से विवरण लेगा।

चरण 4: TFileInputExcel पर डबल-क्लिक करें और इसके घटक टैब में अपनी स्रोत फ़ाइल का पथ निर्दिष्ट करें, 'हेडर' फ़ील्ड में हेडर के लिए उपयोग की जाने वाली पंक्तियों की संख्या और कॉलम की संख्या जहाँ से टैलेंड को 'पहले कॉलम' में अपना डेटा पढ़ना शुरू करना चाहिए ' खेत। । स्कीमा संपादित करें ’में अपने डेटासेट फ़ाइल के अनुसार स्कीमा डिज़ाइन करें।

कदम 5 :TReplicate के घटक टैब में, 'सिंक कॉलम' पर क्लिक करें।

चरण 6: पहले tFilterRow के घटक टैब पर जाएं और स्कीमा की जांच करें। अपनी स्थिति के अनुसार, आप कॉलम (एस) का चयन कर सकते हैं और फ़ंक्शन, ऑपरेटर और उस मूल्य को निर्दिष्ट कर सकते हैं जिस पर डेटा फ़िल्टर किया जाना चाहिए।

चरण 7: सभी tFilterRow घटकों के लिए समान दोहराएं।

चरण 8: अंत में, tMysqlOutput के घटक टैब में, the मौजूदा कनेक्शन का उपयोग करें ’पर चेक मार्क करें। फिर 'तालिका' फ़ील्ड में तालिका का नाम निर्दिष्ट करें और आवश्यकतानुसार 'तालिका पर कार्रवाई' और 'डेटा पर कार्रवाई' का चयन करें।

चरण 9: सभी tMysqlOutput घटकों के लिए समान दोहराएं।

चरण 10: एक बार हो जाने के बाद, ’रन’ टैब पर जाएं और कार्य निष्पादित करें।

यह हमें टैलेंट ईटीएल पर इस ब्लॉग के अंत में लाता है। मैं एक सरल विचार के साथ इस ब्लॉग को समाप्त करूंगा जिसका आपको अनुसरण करना चाहिए:

'भविष्य उन लोगों का है जो अपने डेटा को नियंत्रित कर सकते हैं'

अगर आपको यह Talend ETL मिला है ब्लॉग, प्रासंगिक, इसकी जाँच पड़ताल करो 250,000 से अधिक संतुष्ट शिक्षार्थियों के एक नेटवर्क के साथ एक विश्वसनीय ऑनलाइन शिक्षण कंपनी, एडुरेका द्वारा, दुनिया भर में फैली हुई है। DI और बिग डेटा सर्टिफिकेशन ट्रेनिंग कोर्स के लिए Edureka Talend आपको टैलेंड और बिग डेटा इंटीग्रेशन प्लेटफ़ॉर्म में महारत हासिल करने में मदद करता है और आपके डेटा वेयरहाउस और एप्लिकेशन के साथ आपके सभी डेटा को आसानी से एकीकृत करता है, या सिस्टम के बीच डेटा सिंक्रनाइज़ करता है। क्या आप हमसे कोई प्रश्न पूछना चाहते हैं? कृपया टिप्पणी अनुभाग में इसका उल्लेख करें और हम आपके पास वापस आ जाएंगे।