भाषण दुनिया भर में संचार का सबसे आम साधन है। दुनिया में अधिकांश आबादी एक-दूसरे के साथ संवाद करने के लिए भाषण पर निर्भर करती है। मान लीजिए हम एक मॉडल का निर्माण कर रहे हैं और एक लिखित दृष्टिकोण के बजाय हम चाहते हैं कि हमारी प्रणाली भाषण का जवाब दे, यह काफी कठिन हो जाता है और इसके लिए बहुत सारे डेटा की आवश्यकता होती है। एक भाषण मान्यता प्रणाली पाठ के लिए भाषण का अनुवाद करके इस बाधा को पार करती है। इस ब्लॉग में, हम भाषण मान्यता से गुजरेंगे अजगर में मॉड्यूल । यहाँ उसी की सूची है:
- भाषण मान्यता कैसे काम करती है?
- पायथन में भाषण मान्यता कैसे स्थापित करें?
- माइक्रोफोन से इनपुट लेना
- पायथन में पायडियो कैसे स्थापित करें?
- उदाहरण
भाषण मान्यता कैसे काम करती है?
वाक् पहचान प्रणाली मूल रूप से बोली जाने वाली उक्तियों का पाठ में अनुवाद करती है। भाषण मान्यता प्रणाली के विभिन्न वास्तविक जीवन उदाहरण हैं। उदाहरण के लिए- siri, जो भाषण को इनपुट के रूप में लेता है और इसे पाठ में अनुवाद करता है।
भाषण पहचान प्रणाली का उपयोग करने का लाभ यह है कि यह साक्षरता की बाधा को खत्म कर देता है। एक भाषण मान्यता मॉडल साक्षर और अनपढ़ दर्शकों दोनों की सेवा कर सकता है, क्योंकि यह बोली जाने वाली कथनों पर ध्यान केंद्रित करता है।
हम एक भाषण मान्यता प्रणाली का उपयोग करके दुनिया भर की सभी लुप्तप्राय भाषाओं की सूची भी बना सकते हैं। हालांकि यह बहुत पेचीदा और जटिल नहीं है, लेकिन एक भाषण मान्यता प्रणाली को बनाने में बहुत सारी चुनौतियों का सामना करना पड़ता है।
एक भाषण मान्यता द्वारा सामना चुनौतियां प्रणाली
एक भाषण मान्यता प्रणाली को बनाना मुश्किल हो जाता है क्योंकि जब भाषण की बात आती है तो हमारे पास परिवर्तनशीलता के इतने स्रोत होते हैं।
बोलने की शैली
हर व्यक्ति की बोलने की एक अलग शैली होती है, जिसमें उच्चारण भी शामिल है। जैसा कि हम सभी जानते हैं, हमारे पास अंग्रेजी बोलने के लिए भी अलग उच्चारण हैं। जब यह दुनिया में सबसे आम भाषा बोलने की बात आती है, तो अमेरिकी अंग्रेजी, ब्रिटिश अंग्रेजी और कई अन्य उच्चारण हैं। उच्चारण को भाषण मान्यता प्रणाली के लिए भाषण को पूरी तरह से अनुवाद करना मुश्किल हो जाता है।
वातावरण
पर्यावरण प्रणाली के साथ-साथ बहुत सारे पृष्ठभूमि शोर जोड़ता है। एक सभागार की तुलना में एक अलग कमरे में पृष्ठभूमि शोर में बहुत अधिक परिवर्तनशीलता होगी। यहां तक कि इको सिस्टम में बहुत अधिक शोर जोड़ सकता है।
स्पीकर की विशेषताएं
एक बूढ़े व्यक्ति की आवाज़ एक शिशु के समान नहीं हो सकती है। किसी व्यक्ति के भाषण की विशेषताएं कई कारकों पर निर्भर करती हैं, जिसमें कठोरता और स्पष्टता भी शामिल है।
भाषा की अड़चन
कुछ बोले जाने वाले उच्चारणों का अनुवाद में आने पर व्यवहार्य अर्थ नहीं हो सकता है।
इन चुनौतियों पर काबू पाने के बाद, किसी भी भाषण मान्यता प्रणाली के लिए भाषण से पाठ में अनुवाद करना काफी हद तक संभव है। अब जब हम जानते हैं कि वाक् पहचान कैसे काम करती है, तो अलग से देख सकते हैं कि अजगर में भाषण मान्यता के लिए उपलब्ध हैं।
अजगर में भाषण मान्यता के लिए उपलब्ध पैकेज
आपिया
वाक् पहचान
Google_speech_cloud
असेम्बली
पॉकेट्सफिंक्स
वॉटसन_डेवलपर_क्लाउड
सफेद
हम इस ब्लॉग में SpeechRecognition पैकेज के विवरण के माध्यम से जाएंगे, यह समझने के लिए कि स्मृति पहचान प्रणाली कैसे वर्षों से विकसित हुई है, यह देखने के लिए मेमोरी लेन पर एक नज़र डालें।
भाषण मान्यता का पहला प्रोटोटाइप वास्तव में एक खिलौना था, जिसका नाम था रेडियो रेक्स जो 1920 के आसपास आया था। इसके पास एक कुत्ता घर में एक कुत्ता बैठा था जो जैसे ही बाहर निकलता, किसी ने रेक्स शब्द बोल दिया।
मॉडल के साथ एकमात्र समस्या यह थी कि वसंत एक इलेक्ट्रोमैग्नेट से जुड़ा था जो लगभग 500 हर्ट्ज तक ऊर्जा के प्रति संवेदनशील था। विशुद्ध रूप से एक आवृत्ति डिटेक्टर होने के नाते, इसे दूरस्थ रूप से भाषण मान्यता मॉडल के रूप में कहा जा सकता है।
1962 में, IBM एक के साथ आया शोबॉक्स मॉडल जो अलग-थलग शब्दों को पहचानने में सक्षम था और साथ ही कुछ अंकगणितीय ऑपरेशन भी करता था।
उसके बाद आया हार्पी सीएमयू से, जो 1000 शब्द की शब्दावली से जुड़े भाषण को पहचानने में सक्षम था। 1980 के दशक के आसपास लोगों ने सांख्यिकीय मॉडल का उपयोग करना शुरू कर दिया था और सबसे अधिक इस्तेमाल की जाने वाली मशीन सीखने के प्रतिमानों में से एक छिपा हुआ मार्कोव मॉडल था।
गहरे तंत्रिका नेटवर्क की शुरुआत के बाद, अधिकांश भाषण मान्यता मॉडल तंत्रिका नेटवर्क पर काम करते हैं। संभावनाएं तंत्रिका नेटवर्क के साथ अकल्पनीय हैं, शब्दावली 10k शब्दों और अधिक तक जा सकती है।
पायथन में स्पीच रिकॉग्निशन कैसे स्थापित करें?
SpeechRecognition पैकेज स्थापित करने के लिए अजगर है, टर्मिनल में निम्नलिखित कमांड चलाएँ और यह आपके सिस्टम पर स्थापित किया जाएगा।
यदि आप उपयोग कर रहे हैं, तो प्रोजेक्ट इंटरप्रेटर से पैकेज को जोड़ा जा सकता है
पैकेज में एक रिकॉग्निज़र वर्ग होता है जो मूल रूप से जादू होता है। यह मूल रूप से एक वर्ग है जो भाषण को पहचानने के लिए उपयोग किया जाता है। निम्नलिखित सात तरीके हैं जो विभिन्न एपीआई का उपयोग करके विभिन्न ऑडियो स्रोतों को पढ़ सकते हैं।
- पहचान_बिंग ()
- पहचान_ओक ()
- पहचान_गू_क्लाउड ()
- पहचान_होन्डाइज़ ()
- पहचान_बिंब ()
- पहचान_वित ()
- पहचान_सफ़िंक्स ()
अब, speech_sphinx का उपयोग वाक् पहचान प्रणाली को ऑफ़लाइन चलाने के लिए भी किया जा सकता है। इसमें पॉकेटफिनक्स की स्थापना की आवश्यकता है।
पहचानकर्ता वर्ग r = sr.Recognizer के sr #instance के रूप में आयात भाषण पहचान
माइक्रोफोन से इनपुट लेना
माइक्रोफोन का उपयोग करने के लिए, हमें pyaudio मॉड्यूल भी स्थापित करना होगा। हम ऑडियो फ़ाइल की तरह किसी भी अन्य इनपुट विधि के बजाय माइक्रोफोन से इनपुट भाषण प्राप्त करने के लिए माइक्रोफोन वर्ग का उपयोग करते हैं।
अधिकांश परियोजनाओं के लिए, हम डिफ़ॉल्ट माइक्रोफोन का उपयोग कर सकते हैं। लेकिन अगर आप डिफ़ॉल्ट माइक्रोफोन का उपयोग नहीं करना चाहते हैं,आप list_microphone_names विधि का उपयोग करके माइक्रोफ़ोन नामों की सूची प्राप्त कर सकते हैं।
माइक्रोफोन से इनपुट कैप्चर करने के लिए हम सुन विधि का उपयोग करते हैं।
sr r = sr.Recognizer () sr.Microphone () स्रोत के रूप में: ऑडियो = sr.listen (स्रोत) के रूप में आयात भाषण पहचान
पायथन में पायडियो कैसे स्थापित करें?
पाइथन को पाइथन में स्थापित करने के लिए, टर्मिनल में निम्न कमांड को चलाएं या यदि आप pycharm का उपयोग कर रहे हैं तो सेटिंग्स में प्रोजेक्ट दुभाषिया से पैकेज जोड़ें।
उदाहरण
हम भाषण को पहचानने और निम्नलिखित पर अमल करने के लिए अजगर में स्पीचकोरेक्शन मॉड्यूल का उपयोग करके एक कार्यक्रम बनाएंगे:
- भाषण को पाठ में परिवर्तित करें
- Webbrowser मॉड्यूल का उपयोग करके एक URL खोलें
- url में खोज करने के लिए वाक् पहचान का उपयोग करके एक क्वेरी पास करें
उपरोक्त समस्या कथन का कार्यक्रम निम्नलिखित है:
आयात भाषण_ पहचान के रूप में sr आयात webbrowser के रूप में wb r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () के साथ sr.Micognphone () स्रोत के रूप में: प्रिंट ('[खोज edureka: search youtube]')। प्रिंट ('अब बोलो') ऑडियो = r3.listen (स्रोत) यदि r2.recognize_google (ऑडियो) में 'edureka': r2 = sr.Recognizer () url = 'https://www.eduref.co/' .Microphone () स्रोत के रूप में: प्रिंट ('अपनी क्वेरी खोजें') ऑडियो = r2.listen (स्रोत) का प्रयास करें: get = r2.recognize_google (ऑडियो) प्रिंट (प्राप्त करें) wb.get () (ओपन .new (url + get)) को छोड़कर। sr.UnognValueError: प्रिंट ('त्रुटि') sr.RequestError को e: print ('fail'.format (e)) को छोड़कर अगर r1.recognize -google (ऑडियो) में' वीडियो ': r1 = sr.Recognizer () url =' https://www.youtube.com/results?search_query= 'sr.Microphone () स्रोत के रूप में: प्रिंट (' एक वीडियो की खोज ') ऑडियो = r2.listen (स्रोत) प्रयास करें: get = r1.recognite_google (ऑडियो) ) प्रिंट (get) wb.get ()। Open_new (url + get) को छोड़कर sr.UnognValueError: Print ('समझ में नहीं आ रहा') e. प्रिंट के रूप में sr.RequestError को छोड़कर, प्रिंट (परिणाम प्राप्त करने में विफल) )
आपको आउटपुट मिलेगा जैसे कि यह इमेज में दिखाया गया है। यदि आप edureka कहते हैं, तो यह आपको उस क्वेरी को कहने के लिए प्रेरित करेगा, जिसे आप edureka url में खोजना चाहते हैं, जिसे हमने url चर में लिखा है। यदि आप अजगर कहते हैं, तो आपको ब्राउज़र में निम्न वेब पेज खुल जाएगा।
हैशमाप कैसे लागू करें
इस ब्लॉग में, हमने चर्चा की है कि हम भाषण पहचान का उपयोग भाषण के पाठ से भाषण का अनुवाद करने के लिए कैसे कर सकते हैं। के साथ वाक् पहचान या वस्तु अस्वीकृति जैसी अवधारणाओं के लिए समय की आवश्यकता बन गई है कि वाक् पहचान प्रणालियों के लिए अकल्पनीय संभावनाएं प्रदान करते हैं जहां हम एक प्रणाली बनाने के लिए विशाल भाषण डेटा को प्रशिक्षित और परीक्षण कर सकते हैं। आप इसमें दाखिला ले सकते हैं अपने कौशल में महारत हासिल करने के लिए गहरे तंत्रिका नेटवर्क के लिए और अपने सीखने को किकस्टार्ट करें।
कोई प्रश्न है? टिप्पणियों में उनका उल्लेख करें, हम आपके पास वापस आ जाएंगे।