पायथन पंडस ट्यूटोरियल: डेटा विश्लेषण के लिए पंडों को जानें

इस पायथन पंडों के ट्यूटोरियल में, आप पंडों के विभिन्न कार्यों को जानेंगे। इसमें एक उपयोग-मामला भी शामिल है, जहां आप पंडों का उपयोग करके डेटा का विश्लेषण कर सकते हैं।

इस ब्लॉग में, हम पायथन में पंडों का उपयोग करके डेटा विश्लेषण पर चर्चा करेंगे।आज, उद्योग में एक गर्म कौशल है जो 2017 में पीएचपी और 2018 में सी # को समग्र लोकप्रियता और उपयोग के मामले में पीछे छोड़ दिया है।पंडों के बारे में बात करने से पहले, किसी को Numpy सरणियों की अवधारणा को समझना चाहिए। क्यों? क्योंकि पंडों एक ओपन सोर्स सॉफ्टवेयर लाइब्रेरी है जो सबसे ऊपर बनाया गया है । इस पायथन पंडस ट्यूटोरियल में, मैं आपको निम्नलिखित विषयों के माध्यम से ले जाऊंगा, जो आगामी ब्लॉग के लिए मूल सिद्धांतों के रूप में काम करेंगे:

आएँ शुरू करें। :-)



अजगर पंडों क्या है?

पंडों का उपयोग डेटा हेरफेर, विश्लेषण और सफाई के लिए किया जाता है। पायथन पांडा विभिन्न प्रकार के डेटा के लिए अच्छी तरह से अनुकूल है, जैसे:

  • विषम प्रकार के स्तंभों के साथ सारणीबद्ध डेटा
  • आदेशित और अनियंत्रित समय श्रृंखला डेटा
  • पंक्ति और स्तंभ लेबल के साथ मनमाना मैट्रिक्स डेटा
  • बिना डेटा के
  • अवलोकन या सांख्यिकीय डेटा सेट का कोई अन्य रूप

पंडों को कैसे स्थापित करें?

पायथन पंडों को स्थापित करने के लिए, अपने कमांड लाइन / टर्मिनल पर जाएं और 'पाइप इंस्टॉल पांडा' टाइप करें, अन्यथा, यदि आपके सिस्टम में एनाकोंडा स्थापित है, तो 'कॉन्डा इंस्टॉल पांडा' टाइप करें। एक बार इंस्टॉलेशन पूरा हो जाने के बाद, अपने IDE (Jupyter, PyCharm आदि) पर जाएं और बस इसे टाइप करके आयात करें: 'pand as pd'

पायथन पांडा ट्यूटोरियल में आगे बढ़ते हुए, आइए इसके कुछ ऑपरेशनों पर एक नज़र डालें:

पायथन पंडों का संचालन

पायथन पांडा का उपयोग करके, आप श्रृंखला, डेटा फ़्रेम, लापता डेटा, समूह आदि के साथ बहुत सारे ऑपरेशन कर सकते हैं। डेटा हेरफेर के कुछ सामान्य ऑपरेशन नीचे सूचीबद्ध हैं:

पांडासोपरेशन - पायथन पंडस ट्यूटोरियल - एडुर्का

अब, इन सभी ऑपरेशनों को एक-एक करके समझते हैं।

डेटा फ़्रेम को स्लाइस करना

डेटा पर स्लाइसिंग करने के लिए, आपको डेटा फ़्रेम की आवश्यकता होती है। चिंता न करें, डेटा फ़्रेम 2-आयामी डेटा संरचना और सबसे सामान्य पांडा ऑब्जेक्ट है। तो सबसे पहले, डेटा फ्रेम बनाते हैं।

PyCharm में इसके कार्यान्वयन के लिए नीचे दिए गए कोड का संदर्भ लें:

pd XYZ_web = {'Day': [1,2,3,4,5,6], 'आगंतुक': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [2020.20] के रूप में आयात पांडा 23,15,10,34]} df = pd.DataFrame (XYZ_web) प्रिंट (df)

आउटपुट :

Bounce_Rate दिन आगंतुक 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 6 350

ऊपर दिया गया कोड एक शब्दकोश को एक पांडस डेटा फ़्रेम में तब्दील करेगा साथ ही बाईं ओर। अब, इस डेटा फ़्रेम से एक विशेष कॉलम को स्लाइस करते हैं। नीचे दी गई छवि देखें:

प्रिंट (df.head (2))

आउटपुट:

Bounce_Rate दिन आगंतुक 0 20 1 1000 1 20 2 700

इसी प्रकार, यदि आप डेटा की अंतिम दो पंक्तियाँ चाहते हैं, तो नीचे कमांड में टाइप करें:

प्रिंट (df.tail (2))

आउटपुट:

Bounce_Rate दिन आगंतुक 4 10 5 400 5 34 6 350

पायथन पंडों के ट्यूटोरियल में अगला, हम मर्जिंग और जॉइनिंग करते हैं।

विलय और जुड़ना

विलय में, आप एकल डेटा फ़्रेम बनाने के लिए दो डेटा फ़्रेम को मर्ज कर सकते हैं। आप यह भी तय कर सकते हैं कि आप किस कॉलम को सामान्य बनाना चाहते हैं। मुझे व्यावहारिक रूप से लागू करने दें, पहले मैं तीन डेटा फ़्रेम बनाऊंगा, जिसमें कुछ कुंजी-मूल्य जोड़े होंगे और फिर डेटा फ़्रेम को एक साथ मर्ज करेंगे। नीचे दिए गए कोड को देखें:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

आउटपुट:

pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': 50,45,45, के रूप में आयात पांडा 67]}, इंडेक्स = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,199,3] , 'IND_GDP': [50,45,45,67]}, इंडेक्स = [2005, 2006,2007,2008]) मर्ज किया गया = pd.merge (df1, df2) प्रिंट (मर्ज)

जैसा कि आप ऊपर देख सकते हैं, दो डेटा फ़्रेम एकल डेटा फ़्रेम में विलय हो गए हैं। अब, आप उस कॉलम को भी निर्दिष्ट कर सकते हैं जिसे आप सामान्य बनाना चाहते हैं। उदाहरण के लिए, मैं चाहता हूं कि 'एचपीआई' कॉलम सामान्य हो और बाकी सभी चीजों के लिए, मैं अलग कॉलम चाहता हूं। इसलिए, मुझे उस पर अमल करने दें:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,6767},} सूचकांक = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [५०,४५,४५,६}]}, इंडेक्स = [२००५, २००५, २००200,२००]]) मर्ज = pd.merge (df1, df2, on = 'HPI') प्रिंट (मर्ज)

आउटपुट:

IND_GDP Int_Rate Low_Tier_HPI बेरोजगारी 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0

अगला, हमें समझने दें जुड़ रहा है अजगर पांडा ट्यूटोरियल में। यह एक और परिणामी डेटाफ्रेम में दो अलग-अलग अनुक्रमित डेटाफ़्रेम को संयोजित करने के लिए एक और सुविधाजनक तरीका है। यह काफी हद तक 'मर्ज' ऑपरेशन के समान है, सिवाय इसके कि ज्वाइनिंग ऑपरेशन 'कॉलम' के बजाय 'इंडेक्स' पर होगा। आइए हम इसे व्यावहारिक रूप से लागू करें।

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, सूचकांक = [2001, 2002,2003,2004) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'बेरोजगारी': [1,3,5,6]}, सूचकांक = [2001, 2003,2004,2004] = df1 शामिल हुए। ज्वाइन (df2) प्रिंट (शामिल)

आउटपुट:

IND_GDP Int_Rate Low_Tier_HPI बेरोजगारी 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0

जैसा कि आप उपरोक्त आउटपुट में देख सकते हैं, वर्ष 2002 (इंडेक्स) में, कॉलम 'low_tier_HPI' और 'बेरोजगारी' से जुड़ा कोई मूल्य नहीं है, इसलिए इसने NaN (संख्या नहीं) मुद्रित किया है। बाद में 2004 में, दोनों मूल्य उपलब्ध हैं, इसलिए इसने संबंधित मूल्यों को मुद्रित किया है।

आप पायथन पंडस ट्यूटोरियल की इस रिकॉर्डिंग के माध्यम से जा सकते हैं जहां हमारे प्रशिक्षक ने उदाहरणों के साथ विस्तृत तरीके से विषयों को समझाया है जो आपको इस अवधारणा को बेहतर ढंग से समझने में मदद करेगा।

डेटा विश्लेषण के लिए पायथन | पायथन पंडों ट्यूटोरियल | अजगर प्रशिक्षण | Edureka


पाइथन पंडों के ट्यूटोरियल में आगे बढ़ते हुए, आइए समझते हैं कि दो डेटा डेटा फ़्रेम को कैसे बदलना है।

समागम

कॉनटेनटेशन मूल रूप से डेटाफ्रेम को एक साथ जोड़ देता है। आप उस आयाम का चयन कर सकते हैं जिस पर आप सहमति देना चाहते हैं। उसके लिए, बस 'pd.concat' का उपयोग करें और एक साथ समवर्ती करने के लिए डेटाफ्रेम की सूची में पास करें। नीचे दिए गए उदाहरण पर विचार करें।

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,6767},} सूचकांक = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [५०,४५,४५,६}]}, इंडेक्स = [२००५, २००५,२००200,२००]]] कॉनकैट = pd.concat ([df1, df2]) प्रिंट (कॉनकट)

आउटपुट:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

जैसा कि आप ऊपर देख सकते हैं, दो डेटाफ़्रेम एक एकल डेटाफ़्रेम में एक साथ सरेस से जोड़ा हुआ है, जहां सूचकांक 2008 से 2008 तक शुरू होता है। इसके बाद, आप कॉलम के साथ शामिल होने, विलय करने या कैनेसेटेट करने के लिए अक्ष = 1 भी निर्दिष्ट कर सकते हैं। नीचे दिए गए कोड को देखें:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,6767},} सूचकांक = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [५०,४५,४५,६}]}, इंडेक्स = [२००५, २००५,२००200,२००]]] कॉनकैट = pd.concat ([df1, df2], एक्सिस = १) प्रिंट (कॉनकट)

आउटपुट:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80.0 50.0 2.0 NaN NaN NaN 2002 90.0 45.0 1.0 NaN NaN 2003 2003 70.0 45.0 2.0 NaN NaN NaN 60.0 67.0 3.0 NaN NaN 2005 2005 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 2003 NaN NaN 70.0 45.0 2.0 2008 NaN NaN NaN 60.0 67.0 3.0

जैसा कि आप ऊपर दे सकते हैं, लापता मूल्यों का गुच्छा है। ऐसा इसलिए होता है क्योंकि डेटाफ़्रेम में उन सभी अनुक्रमणिकाओं के लिए मान नहीं होते जिन्हें आप संक्षिप्त करना चाहते हैं। इसलिए, आपको यह सुनिश्चित करना चाहिए कि आपके पास सभी जानकारी सही तरीके से अस्तर हो रही है जब आप अक्ष पर जुड़ते हैं या समतल करते हैं।

सूचकांक बदलें

अजगर पांडा ट्यूटोरियल में, हम समझेंगे कि डेटाफ्रेम में सूचकांक मानों को कैसे बदला जाए। उदाहरण के लिए, आइए एक शब्दकोश में कुछ प्रमुख मूल्य युग्मों के साथ एक डेटाफ्रेम बनाएं और सूचकांक मानों को बदलें। नीचे दिए गए उदाहरण पर विचार करें:

आइए देखें कि वास्तव में ऐसा कैसे होता है:

pd df = pd.DataFrame ({'Day': [1,2,3,4], 'विज़िटर्स': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]} के रूप में आयात पांडा df.set_index ('दिवस', inplace = True) प्रिंट (df)

आउटपुट:

Bounce_Rate आगंतुक दिन 1 20 200 2 45 100 3 60 230 4 10 300

जैसा कि आप ऊपर दिए गए आउटपुट में देख सकते हैं, इंडेक्स वैल्यू को 'डे' कॉलम के संबंध में बदल दिया गया है।

कॉलम हेडर्स बदलें

आइए अब हम इस अजगर पांडा ट्यूटोरियल में कॉलम के हेडर बदलते हैं। आइए हम एक ही उदाहरण लेते हैं, जहां मैं 'उपयोगकर्ता' से कॉलम हेडर को 'उपयोगकर्ता' में बदल दूंगा। तो, मुझे इसे व्यावहारिक रूप से लागू करने दें।

pd df = pd.DataFrame ({'Day': [1,2,3,4], 'विज़िटर्स': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]} के रूप में आयात पांडा df = df.rename (कॉलम = {'आगंतुक': 'उपयोगकर्ता'}) प्रिंट (df)

आउटपुट:

Bounce_Rate दिवस उपयोगकर्ता 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300

जैसा कि आप ऊपर देखते हैं, कॉलम हेडर 'विज़िटर' को 'उपयोगकर्ता' में बदल दिया गया है। अजगर पंडों के ट्यूटोरियल में आगे, हम डेटा मंजन करते हैं।

डाटा मुंगिंग

डेटा मुंगिंग में, आप किसी विशेष डेटा को एक अलग प्रारूप में परिवर्तित कर सकते हैं। उदाहरण के लिए, यदि आपके पास .csv फ़ाइल है, तो आप इसे .html या किसी अन्य डेटा प्रारूप में भी रूपांतरित कर सकते हैं। तो, मुझे इसे व्यावहारिक रूप से लागू करने दें।

pd देश के रूप में आयात पांडा = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-युवा-बेरोजगारीAPI_ILO_country_YU.csv', index_col_ = 'country.to_html ('edu.html'))

इस कोड को चलाने के बाद, एक HTML फ़ाइल 'edu.html' नाम से बनाई जाएगी। आप सीधे फ़ाइल के पथ को कॉपी कर सकते हैं और अपने ब्राउज़र में पेस्ट कर सकते हैं जो HTML प्रारूप में डेटा प्रदर्शित करता है। नीचे स्क्रीनशॉट देखें:


अजगर पंडों के ट्यूटोरियल में अगला, आइए एक ऐसे उपयोग-मामले पर नजर डालें जो वैश्विक युवा बेरोजगारी के बारे में बात करता है।

पायथन पंडस ट्यूटोरियल: यूथ बेरोजगारी डेटा का विश्लेषण करने के लिए केस का उपयोग करें

समस्या का विवरण :आपको एक डेटासेट दिया जाता है 2010 से 2014 तक वैश्विक स्तर पर बेरोजगार युवाओं का प्रतिशत शामिल है। आपको इस डेटासेट का उपयोग करना होगा और 2010-2011 तक हर देश के युवाओं के प्रतिशत में बदलाव का पता लगाना होगा।

पहले, हम उन डेटासेट को समझें जिनमें देश का नाम, देश कोड और वर्ष 2010 से 2014 तक के वर्ष शामिल हैं। अब पांडा का उपयोग करते हुए, हम .csv फ़ाइल स्वरूप फ़ाइल को पढ़ने के लिए 'pd.read_csv' का उपयोग करेंगे।
नीचे स्क्रीनशॉट देखें:

जावा प्रोग्राम को कैसे समाप्त करें

आइए हम आगे बढ़ें और डेटा विश्लेषण करें जिसमें हम 2010 से 2011 के बीच बेरोजगार युवाओं में प्रतिशत परिवर्तन का पता लगाने जा रहे हैं। तब हम इसका उपयोग करने की कल्पना करेंगे पुस्तकालय, जो पाइथन में दृश्य के लिए एक शक्तिशाली पुस्तकालय है। इसका उपयोग पायथन स्क्रिप्ट, शेल, वेब एप्लिकेशन सर्वर और अन्य GUI टूलकिट में किया जा सकता है। आप यहाँ और अधिक पढ़ सकते हैं:

अब, PyCharm में कोड लागू करते हैं:

आयात पंडों को pd आयात के रूप में matplotlib.pyplot को plt से matplotlib आयात शैली style.use ('फाइवथ्राइट') देश = pd.read_csv ('D: UsersAayushiyownloadsworld- बैंक-युवा-बेरोजगारीI_ILO_country_YU.csv; इंडेक्स') के रूप में आयात करें। सिर (5) df = df.set_index (['देश कोड') sd = sd.reindex (कॉलम = ['2010', '2011']) db = sd.diff (धुरी = 1) db.plot (दयालु) = 'बार') plt.show ()

जैसा कि आप ऊपर देख सकते हैं, मैंने देश डेटाफ्रेम की शीर्ष 5 पंक्तियों पर विश्लेषण किया है। इसके बाद, मैंने एक इंडेक्स वैल्यू को 'कंट्री कोड' के रूप में परिभाषित किया है और फिर कॉलम को 2010 और 2011 में फिर से इंडेक्स किया है। फिर, हमारे पास एक और डेटाफ्रेम डीबी है, जो दो कॉलमों के बीच अंतर या बेरोजगार युवाओं के प्रतिशत में बदलाव करता है। 2010 से 2011 तक। अंत में, मैंने पायथन में मैटलपोटलिब लाइब्रेरी का उपयोग करके एक बारप्लॉट बनाया है।


अब अगर आपने उपरोक्त कथानक पर ध्यान दिया, तो अफगानिस्तान (एएफजी) में 2010 से 2011 के बीच, लगभग बेरोजगार युवाओं में वृद्धि हुई है। 0.25%। फिर अंगोला (एजीओ) में, एक नकारात्मक प्रवृत्ति है जिसका अर्थ है कि बेरोजगार युवाओं का प्रतिशत कम हो गया है। इसी तरह, आप डेटा के विभिन्न सेटों पर विश्लेषण कर सकते हैं।

मुझे आशा है कि 'पायथन पंडस ट्यूटोरियल' पर मेरा ब्लॉग आपके लिए प्रासंगिक था। अपने विभिन्न अनुप्रयोगों के साथ अजगर पर गहराई से ज्ञान प्राप्त करने के लिए, आप लाइव के लिए नामांकन कर सकते हैं 24/7 समर्थन और आजीवन पहुंच के साथ Edureka द्वारा।

क्या आप हमसे कोई प्रश्न पूछना चाहते हैं? कृपया इस 'पायथन पंडस ट्यूटोरियल' ब्लॉग के टिप्पणी अनुभाग में उल्लेख करें और हम जल्द से जल्द आपके पास वापस आ जाएंगे।