Apache Flink: स्ट्रीम और बैच डेटा प्रोसेसिंग के लिए अगला जनरल बिग डेटा एनालिटिक्स फ्रेमवर्क



इस ब्लॉग में Apache Flink & Flink क्लस्टर सेट करने के बारे में सभी जानें। फ्लिंक रियल-टाइम और बैच प्रोसेसिंग का समर्थन करता है और बिग डेटा एनालिटिक्स के लिए बिग डेटा टेक्नोलॉजी होना चाहिए।

Apache Flink वितरित स्ट्रीम और बैच डेटा प्रोसेसिंग के लिए एक खुला स्रोत प्लेटफ़ॉर्म है। यह विंडोज, मैक ओएस और लिनक्स ओएस पर चल सकता है। इस ब्लॉग पोस्ट में, आइए चर्चा करें कि स्थानीय रूप से फ्लिंक क्लस्टर कैसे स्थापित करें। यह कई मायनों में स्पार्क के समान है - इसमें एपीआई और ग्राफ सीखने की मशीन के लिए अपाचे स्पार्क जैसे एपीआई हैं - लेकिन अपाचे फ्लिंक और अपाचे स्पार्क बिल्कुल समान नहीं हैं।





फ्लिंक क्लस्टर स्थापित करने के लिए, आपके सिस्टम पर जावा 7.x या उच्चतर स्थापित होना चाहिए। चूँकि मेरे पास Hadoop-2.2.0 CentOS (Linux) पर मेरे अंत में स्थापित है, मैंने Flink पैकेज डाउनलोड किया है जो Hadoop 2.x के साथ संगत है। Flink पैकेज डाउनलोड करने के लिए नीचे कमांड चलाएं।

आदेश: भूल जाना http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

फ़ाइल को अनलिंक करने के लिए फ़्लिंक डायरेक्टरी प्राप्त करें।

आदेश: tar -xvf डाउनलोड / फ्लिंक-1.0.0-बिन-हडूप 2-scala_2.10.10g



आदेश: ls

.Bashrc फ़ाइल में फ्लिंक पर्यावरण चर जोड़ें।

आदेश: सूद gedit .bashrc

आपको नीचे कमांड चलाने की आवश्यकता है ताकि .bashrc फ़ाइल में परिवर्तन सक्रिय हों

आदेश: source .bashrc

अब फ्लिंच डायरेक्टरी पर जाएं और क्लस्टर को स्थानीय रूप से शुरू करें।

आदेश: सीडी हेफ्टी-1.0.0

आदेश: बिन / शुरू- local.sh

एक बार जब आपने क्लस्टर शुरू कर दिया है, तो आप एक नया डेमन जॉबमैन को चला पाएंगे।

आदेश: कूदता है

जावा उपयोग की तारीख को स्ट्रिंग

ब्राउज़र खोलें और Apache Flink web UI देखने के लिए http: // localhost: 8081 पर जाएँ।

आइए हम Apache Flink का उपयोग करके एक सरल वर्डकाउंट उदाहरण चलाते हैं।

उदाहरण चलाने से पहले अपने सिस्टम पर netcat स्थापित करें (sudo yum install nc)।

अब एक नए टर्मिनल में नीचे का कमांड चलाएं।

आदेश: nc -lk 9000

नीचे दिए गए कमांड को फ्लिंक टर्मिनल में चलाएं। यह कमांड एक प्रोग्राम चलाता है जो स्ट्रीम किए गए डेटा को इनपुट के रूप में लेता है और उस स्ट्रीम किए गए डेटा पर वर्डकाउंट ऑपरेशन करता है।

आदेश: बिन / पलक रन उदाहरण / स्ट्रीमिंग / सॉकेटटैक्स्ट्रीमवर्डवर्डकाउंट.जर -हस्टनेम लोकलहोस्ट -पोर्ट 9000

वेब यूआई में, आप रनिंग स्टेट में नौकरी देख पाएंगे।

एक नए टर्मिनल में कमांड के नीचे चलाएं, यह स्ट्रीम किए गए और संसाधित किए गए डेटा को प्रिंट करेगा।

आदेश: पूंछ -f लॉग / फ़्लिंक - * - जॉबमैनगर - *। आउट

अब उस टर्मिनल पर जाएं जहां आपने netcat शुरू किया था और कुछ टाइप करें।

जब आप netcat टर्मिनल पर कुछ डेटा टाइप करने के बाद अपने कीवर्ड पर एंटर बटन दबाते हैं, तो उस डेटा पर वर्डकाउंट ऑपरेशन को लागू किया जाएगा और मिलीसेकंड के भीतर आउटपुट को यहां प्रिंट किया जाएगा (पलक के जॉम्नेजर लॉग)!

बहुत कम समय के भीतर, डेटा प्रवाहित, संसाधित और मुद्रित हो जाएगा।

Apache Flink के बारे में जानने के लिए बहुत कुछ है। हम अपने आगामी ब्लॉग में अन्य फ्लिंक विषयों पर संपर्क करेंगे।

क्या आप हमसे कोई प्रश्न पूछना चाहते हैं? उन्हें टिप्पणी अनुभाग में उल्लेख करें और हम आपके पास वापस आ जाएंगे।

संबंधित पोस्ट:

कैसे इंजीनियर बनने के लिए

अपाचे फाल्कन: हडोप इकोसिस्टम के लिए नया डेटा मैनेजमेंट प्लेटफॉर्म