वॉइस-यूज़र इंटरफ़ेस

एक वॉइस-यूज़र इंटरफ़ेस (VUI) कंप्यूटर के साथ बोली जाने वाली मानवीय बातचीत को संभव बनाता है, बोले गए आदेशों और प्रश्नों के उत्तर को समझने के लिए वाक् पहचान का उपयोग करता है, और सामान्यतः उत्तर को चलाने के लिए पाठ से वाक् तक का उपयोग करता है। वॉयस कमांड डिवाइस एक वॉयस यूजर इंटरफेस से नियंत्रित डिवाइस है।

वॉयस यूजर इंटरफेस को ऑटोमोबाइल, होम ऑटोमेशन सिस्टम, कंप्यूटर ऑपरेटिंग सिस्टम, वॉशिंग मशीन और माइक्रोवेव ओवन जैसे घरेलू उपकरणो और टेलीविजन रिमोट कंट्रोल में जोड़ा गया है। वे स्मार्टफोन्स और स्मार्ट स्पीकर पर वर्चुअल सहायकों के साथ बातचीत करने का प्राथमिक तरीका हैं। पुराने स्वचालित परिचारकों (जो फोन कॉल को सही एक्सटेंशन पर रूट करते हैं) और इंटरएक्टिव वॉयस रिस्पांस सिस्टम (जो फोन पर अधिक जटिल ट्रैन्ज़ैक्शन्ज़ करते हैं) DTMF टोन के माध्यम से कीपैड बटन दबाने पर प्रतिक्रिया दे सकते हैं, लेकिन पूर्ण वॉयस यूजर इंटरफेस वाले कॉलर्स को बिना किसी बटन दबाने के अनुरोध और जवाब बोलने की अनुमति देते हैं।

नए वॉयस कमांड डिवाइस स्पीकर-स्वतंत्र हैं, इसलिए वे उच्चारण या बोली संबंधी प्रभावों की परवाह किए बिना कई आवाजों पर प्रतिक्रिया दे सकते हैं। वे एक साथ कई आदेशों का जवाब देने, मौखिक संदेशों को अलग करने और प्राकृतिक बातचीत का सटीक अनुकरण करते हुए उचित प्रतिक्रिया प्रदान करने में भी सक्षम हैं।

अवलोकन
VUI किसी भी स्पीच एप्लिकेशन का इंटरफ़ेस (कंप्यूटिंग) है। किसी मशीन को केवल बात करके नियंत्रित करना कुछ समय पहले तक विज्ञान कथा थी। कुछ समय पहले तक इस क्षेत्र को कृत्रिम बुद्धिमत्ता माना जाता था। यद्यपि, टेक्स्ट-टू-स्पीच, स्पीच-टू-टेक्स्ट, नेचुरल लैंग्वेज प्रोसेसिंग और क्लाउड सेवाओं जैसी प्रौद्योगिकियों में प्रगति ने, सामान्यतः इस प्रकार के इंटरफेस को बड़े पैमाने पर अपनाने में योगदान दिया है। VUI अधिक सामान्य हो गए हैं, और लोग कई स्थितियों में ये हैंड्स-फ्री, आई-फ्री इंटरफेस द्वारा प्रदान किए जाने वाले मूल्य का लाभ उठा रहे हैं।

VUI को इनपुट पर विश्वसनीय रूप से प्रतिक्रिया देने की आवश्यकता है, अन्यथा उन्हें अस्वीकार कर दिया जाएगा और प्रायः उनके उपयोगकर्ताओं द्वारा उनका उपहास किया जाएगा। एक अच्छे VUI को डिज़ाइन करने के लिए कंप्यूटर विज्ञान, भाषा विज्ञान और मानव कारक मनोविज्ञान की अंतःविषय प्रतिभाओं की आवश्यकता होती है - ये सभी ऐसे कौशल हैं जो महंगे हैं और इन्हें प्राप्त करना कठिन है। उन्नत विकास उपकरणों के साथ भी, एक प्रभावी VUI के निर्माण के लिए निष्पादित किए जाने वाले कार्यों के साथ-साथ अंतिम प्रणाली का उपयोग करने वाले लक्षित दर्शकों की गहन समझ की आवश्यकता होती है। VUI कार्य के उपयोगकर्ता के मानसिक मॉडल से जितना नज़दीक से अनुकूल है, कम या बिना प्रशिक्षण के इसका उपयोग करना उतना ही आसान होगा, जिसके परिणामस्वरूप उच्च दक्षता और उच्च उपयोगकर्ता संतुष्टि दोनों होगी।

सामान्य जनता के लिए डिज़ाइन किए गए VUI को उपयोग में आसानी पर जोर देना चाहिए और पहली बार कॉल करने वालों के लिए बहुत अधिक सहायता और मार्गदर्शन प्रदान करना चाहिए। इसके विपरीत, बिजली उपयोगकर्ताओं के एक छोटे समूह (फ़ील्ड सेवा श्रमिकों सहित) के लिए डिज़ाइन किए गए VUI को उत्पादकता पर अधिक और सहायता और मार्गदर्शन पर कम ध्यान केंद्रित करना चाहिए। ऐसे अनुप्रयोगों को कॉल प्रवाह को सुव्यवस्थित, संकेतों को कम, अनावश्यक पुनरावृत्तियों को समाप्त करना चाहिए और विस्तृत मिश्रित पहल संवाद प्रणाली की अनुमति देनी चाहिए, जो कॉल करने वालों को एक ही उच्चारण में और किसी भी क्रम या संयोजन में जानकारी के कई टुकड़े प्रविष्ट करने में सक्षम बनाती है। संक्षेप में, स्वचालित होने वाली विशिष्ट व्यावसायिक प्रक्रिया के लिए भाषण अनुप्रयोगों को सावधानीपूर्वक तैयार किया जाना चाहिए।

सभी व्यावसायिक प्रक्रियाएँ वाक् स्वचालन के लिए स्वयं को समान रूप से प्रस्तुत नहीं करती हैं। सामान्यतः, पूछताछ और लेनदेन जितने अधिक जटिल होंगे, उन्हें स्वचालित करना उतना ही अधिक चुनौतीपूर्ण होगा, और सामान्य जनता के साथ उनके विफल होने की संभावना उतनी ही अधिक होगी। कुछ परिदृश्यों में, स्वचालन बिल्कुल लागू नहीं होता है, इसलिए लाइव एजेंट सहायता ही एकमात्र विकल्प है। उदाहरण के लिए, कानूनी सलाह हॉटलाइन को स्वचालित करना बहुत कठिन होगा। दूसरी ओर, भाषण त्वरित और नियमित लेनदेन को संभालने के लिए एकदम सही है, जैसे कार्य ऑर्डर की स्थिति बदलना, समय या व्यय प्रविष्टि को पूरा करना, या खातों के बीच धन स्थानांतरित करना।

इतिहास
VUI के प्रारंभी अनुप्रयोगों में सीधे या (सामान्यतः ब्लूटूथ) हेडसेट या वाहन ऑडियो सिस्टम के माध्यम से फोन की आवाज-सक्रिय डायलिंग (टेलीफोनी) सम्मिलित थी।

2007 में, CNN मनी बिजनेस लेख में बताया गया कि वॉयस कमांड एक अरब डॉलर से अधिक का उद्योग था और गूगल और Apple Inc. जैसी कंपनियां वाक् पहचान सुविधाओं को बनाने की कोशिश कर रही थीं। लेख को प्रकाशित हुए कई साल हो गए हैं, और तब से दुनिया ने विभिन्न प्रकार के वॉयस कमांड डिवाइस देखे हैं। इसके अतिरिक्त, गूगल ने Pico TTS नामक एक वाक् पहचान इंजन बनाया और Apple ने Siri जारी किया है। वॉयस कमांड डिवाइस अधिक व्यापक रूप से उपलब्ध हो रहे हैं, और मानव आवाज का उपयोग करने के लिए हमेशा नए तरीके बनाए जा रहे हैं। उदाहरण के लिए, बिजनेस वीक सुझाव देता है कि भविष्य का रिमोट कंट्रोलर इंसान की आवाज बनने जा रहा है। वर्तमान में Xbox Live ऐसी सुविधाओं की अनुमति देता है और स्टीव जॉब्स ने नए Apple TV पर ऐसी सुविधा का संकेत दिया है।

कंप्यूटिंग उपकरणों पर वॉयस कमांड सॉफ्टवेयर उत्पाद
ऐप्पल एप्पल मैकिंटोश और विंडोज PC निजी कंप्यूटर दोनों अपने नवीनतम ऑपरेटिंग सिस्टम के लिए अंतर्निहित वाक् पहचान सुविधाएँ प्रदान करते हैं।

माइक्रोसॉफ्ट विंडोज़
दो माइक्रोसॉफ्ट ऑपरेटिंग सिस्टम, विंडोज 7 और विंडोज़ विस्टा, वाक् पहचान क्षमताएँ प्रदान करते हैं। माइक्रोसॉफ्ट ने उन लोगों के लिए एक तंत्र प्रदान करने के लिए अपने ऑपरेटिंग सिस्टम में वॉयस कमांड को एकीकृत किया है जो माउस और कीबोर्ड के उपयोग को सीमित करना चाहते हैं, लेकिन फिर भी अपनी समग्र उत्पादकता को बनाए रखना या बढ़ाना चाहते हैं।

विंडोज विस्टा
विंडोज विस्टा वॉयस कंट्रोल के साथ, उपयोगकर्ता मुख्यधारा के अनुप्रयोगों में दस्तावेजों और ईमेल को निर्देशित कर सकता है, अनुप्रयोगों के बीच शुरू और स्विच कर सकता है, ऑपरेटिंग सिस्टम को नियंत्रित, दस्तावेजों को प्रारूपित और सहेज, फाइलों को संपादित, त्रुटियों को कुशलतापूर्वक ठीक और इंटरनेट पर फॉर्म भर सकता है। जब भी कोई उपयोगकर्ता इसका उपयोग करता है तो वाक् पहचान सॉफ्टवेयर स्वचालित रूप से सीखता है, और वाक् पहचान अंग्रेजी (U.S.), अंग्रेजी (U.K.), जर्मन (जर्मनी), फ्रेंच (फ्रांस), स्पेनिश (स्पेन), जापानी, चीनी (पारंपरिक) में उपलब्ध है। इसके अतिरिक्त, सॉफ्टवेयर एक इंटरैक्टिव ट्यूटोरियल के साथ आता है, जिसका उपयोग उपयोगकर्ता और वाक् पहचान इंजन दोनों को प्रशिक्षित करने के लिए किया जा सकता है।

विंडोज़ 7
विंडोज विस्टा में प्रदान की गई सभी सुविधाओं के अतिरिक्त, विंडोज 7 माइक्रोफ़ोन सेट करने के लिए एक विज़ार्ड और सुविधा का उपयोग करने के तरीके पर एक ट्यूटोरियल प्रदान करता है।

Mac OS X
सभी Mac OS सॉफ़्टवेयर उपयोगकर्ता-स्वतंत्र है, और यह उपयोगकर्ता को मेनू नेविगेट करने और कीबोर्ड शॉर्टकट दर्ज करने की अनुमति देता है; चेकबॉक्स नाम, रेडियो बटन नाम, सूची आइटम और बटन नाम बोलें; और अनुप्रयोगों के बीच खोलें, बंद करें, नियंत्रित करें और स्विच करें। यद्यपि, Apple वेबसाइट उपयोगकर्ता को MacSpeech Dictate नामक एक वाणिज्यिक उत्पाद खरीदने की सलाह देती है।

वाणिज्यिक उत्पाद
यदि कोई उपयोगकर्ता अंतर्निहित वाक् पहचान सॉफ़्टवेयर से संतुष्ट नहीं है या किसी उपयोगकर्ता के पास अपने OS के लिए निर्मित वाक् पहचान सॉफ़्टवेयर नहीं है, तो उपयोगकर्ता विंडोज़ पीसी के लिए Braina  या स्वाभाविक रूप से बोलना जैसे व्यावसायिक उत्पाद के साथ प्रयोग कर सकता है। डिक्टेट, मैक OS के लिए एक ही सॉफ्टवेयर का नाम है।

वॉइस कमांड मोबाइल डिवाइस
एंड्रॉइड OS, माइक्रोसॉफ्ट विंडोज फोन, iOS 9 या उसके बाद का संस्करण या ब्लैकबेरी OS चलाने वाला कोई भी मोबाइल डिवाइस वॉयस कमांड क्षमताएं प्रदान करता है। प्रत्येक मोबाइल फोन के ऑपरेटिंग सिस्टम के लिए निर्मित वाक् पहचान सॉफ्टवेयर के अतिरिक्त, एक उपयोगकर्ता प्रत्येक ऑपरेटिंग सिस्टम के एप्लिकेशन स्टोर से थर्ड पार्टी वॉयस कमांड एप्लिकेशन डाउनलोड कर सकता है: ऐप स्टोर (iOS), गूगल प्ले, विंडोज फोन मार्केटप्लेस (प्रारंभ में मोबाइल के लिए विंडोज़ मार्केटप्लेस), या ब्लैकबेरी ऐप वर्ल्ड।

एंड्रॉइड OS
गूगल ने एंड्रॉइड (ऑपरेटिंग सिस्टम) नामक एक ओपन सोर्स ऑपरेटिंग सिस्टम विकसित किया है, जो उपयोगकर्ता को वॉयस कमांड करने की अनुमति देता है जैसे: टेक्स्ट संदेश भेजना, संगीत सुनना, दिशानिर्देश प्राप्त करना, व्यवसायों को कॉल करना, संपर्कों को कॉल करना, ईमेल भेजना, मानचित्र देखना, वेबसाइटों पर जाएँ, एक नोट लिखें और गूगल पर खोजें। वाक् पहचान सॉफ़्टवेयर एंड्रॉइड Froyo|एंड्रॉइड 2.2 Froyo के बाद से सभी उपकरणों के लिए उपलब्ध है, लेकिन सेटिंग्स को अंग्रेजी पर सेट किया जाना चाहिए। गूगल उपयोगकर्ता को भाषा बदलने की अनुमति देता है, और जब उपयोगकर्ता पहली बार वाक् पहचान सुविधा का उपयोग करता है तो उसे संकेत दिया जाता है कि क्या वह चाहता है कि उसका ध्वनि डेटा उसके गूगल खाते से जुड़ा हो। यदि कोई उपयोगकर्ता इस सेवा को चुनने का निर्णय लेता है, तो यह गूगल को सॉफ़्टवेयर को उपयोगकर्ता की आवाज़ के अनुसार प्रशिक्षित करने की अनुमति देता है।

गूगल ने गूगल असिस्टेंट को एंड्रॉयड 7.0 Nougat के साथ प्रस्तुत किया। यह पुराने वर्जन से कहीं ज्यादा एडवांस है।

Amazon.com के पास Amazon Echo है जो वॉयस इंटरफ़ेस प्रदान करने के लिए अमेजन के एंड्रॉइड के कस्टम संस्करण का उपयोग करता है।

माइक्रोसॉफ्ट विंडोज़
विंडोज़ फोन माइक्रोसॉफ्ट के मोबाइल डिवाइस का ऑपरेटिंग सिस्टम है। विंडोज फोन 7.5 पर, स्पीच ऐप उपयोगकर्ता के लिए स्वतंत्र है और इसका उपयोग किया जा सकता है: अपनी संपर्क सूची से किसी को कॉल करें, किसी भी फोन नंबर पर कॉल करें, अंतिम नंबर को फिर से डायल करें, एक टेक्स्ट संदेश भेजें, अपने वॉयस मेल पर कॉल करें, एक एप्लिकेशन खोलें, अपॉइंटमेंट पढ़ें, फ़ोन की स्थिति पूछें, और वेब पर खोजें। इसके अतिरिक्त, फोन कॉल के दौरान भाषण का भी उपयोग किया जा सकता है, और फोन कॉल के दौरान निम्नलिखित क्रियाएं संभव हैं: एक नंबर दबाएं, स्पीकर फोन चालू करें, या किसी को कॉल करें, जो वर्तमान कॉल को रोक देता है।

विंडोज 10 ने कॉर्टाना (सॉफ्टवेयर) प्रस्तुत किया है, जो एक आवाज नियंत्रण प्रणाली है जो विंडोज फोन पर पहले उपयोग किए गए आवाज नियंत्रण को प्रतिस्थापित करती है।

iOS
एप्पल ने iPhone OS 3 की एक नई सुविधा के रूप में iOS उपकरणों की अपनी सूची में आवाज नियंत्रण (एप्पल) को जोड़ा। iPhone 4S, iPad (तीसरी पीढ़ी), iPad Mini (पहली पीढ़ी), iPad Air, iPad Pro, iPod Touch (5वीं पीढ़ी) ) और बाद में, सभी महोदय मै  नामक एक अधिक उन्नत वॉयस असिस्टेंट के साथ आते हैं। नए उपकरणों के सेटिंग मेनू के माध्यम से ध्वनि नियंत्रण को अभी भी सक्षम किया जा सकता है। सिरी एक उपयोगकर्ता स्वतंत्र अंतर्निहित वाक् पहचान सुविधा है जो उपयोगकर्ता को वॉयस कमांड जारी करने की अनुमति देती है। सिरी की सहायता से उपयोगकर्ता कमांड जारी कर सकता है, जैसे टेक्स्ट संदेश भेजना, मौसम की जांच करना, अनुस्मारक सेट करना, जानकारी ढूंढना, मीटिंग शेड्यूल करना, ईमेल भेजना, संपर्क ढूंढना, अलार्म सेट करना, दिशा-निर्देश प्राप्त करना, अपने स्टॉक को ट्रैक करना, एक टाइमर सेट करें, और नमूना वॉयस कमांड प्रश्नों के उदाहरण पूछें। इसके अतिरिक्त, सिरी ब्लूटूथ और वायर्ड हेडफ़ोन के साथ काम करता है।

अमेज़ॅन एलेक्सा
2014 में अमेज़न ने अमेज़न एलेक्सा प्रस्तुत किया। इसका मुख्य उद्देश्य सिर्फ एक स्मार्ट स्पीकर था, जो उपभोक्ता को अपनी आवाज से डिवाइस को नियंत्रित करने की अनुमति देता था। अंततः, यह एक नवीन उपकरण में बदल गया जिसमें आवाज से घरेलू उपकरण को नियंत्रित करने की क्षमता थी। अब प्रकाश बल्ब और तापमान सहित लगभग सभी उपकरण एलेक्सा से नियंत्रित किए जा सकते हैं। आवाज नियंत्रण की अनुमति देकर, एलेक्सा स्मार्ट होम तकनीक से जुड़ सकता है जिससे आप अपने घर को बंद कर सकते हैं, तापमान को नियंत्रित कर सकते हैं और विभिन्न उपकरणों को सक्रिय कर सकते हैं। A.I का यह रूप किसी को केवल एक प्रश्न पूछने की अनुमति देता है, और जवाब में एलेक्सा उत्तर खोजती है, ढूंढती है और आपको जवाब सुनाती है।

कारों में वाक् पहचान
जैसे-जैसे कार प्रौद्योगिकी में सुधार होगा, कारों में और अधिक सुविधाएँ जोड़ी जाएंगी और ये सुविधाएँ ड्राइवर का ध्यान भटका देंगी। CNET के अनुसार, कारों के लिए वॉयस कमांड से ड्राइवर को कमांड जारी करने की अनुमति मिलनी चाहिए और उसका ध्यान नहीं भटकना चाहिए। CNET ने कहा कि नुअंस सुझाव दे रहा था कि भविष्य में वे एक ऐसा सॉफ्टवेयर बनाएंगे जो सिरी जैसा होगा, लेकिन कारों के लिए। 2011 में बाज़ार में अधिकांश वाक् पहचान सॉफ़्टवेयर में केवल 50 से 60 वॉइस कमांड थे, लेकिन फोर्ड सिंक में 10,000 थे। यद्यपि, CNET ने सुझाव दिया कि 10,000 वॉयस कमांड भी जटिलता और उपयोगकर्ता द्वारा ड्राइविंग के दौरान किए जाने वाले कार्यों की विविधता को देखते हुए पर्याप्त नहीं थे। कारों के लिए वॉयस कमांड मोबाइल फोन और कंप्यूटर के लिए वॉयस कमांड से अलग है क्योंकि ड्राइवर इस सुविधा का उपयोग आस-पास के रेस्तरां, गैस, ड्राइविंग निर्देश, सड़क की स्थिति और निकटतम होटल के स्थान को देखने के लिए कर सकता है। वर्तमान में, प्रौद्योगिकी ड्राइवर को गार्मिन जैसे पोर्टेबल जीपीएस नेविगेशन डिवाइस और कार निर्माता नेविगेशन सिस्टम दोनों पर वॉयस कमांड जारी करने की अनुमति देती है।

मोटर निर्माताओं द्वारा उपलब्ध कराए गए वॉयस कमांड सिस्टम की सूची:
 * फोर्ड सिंक
 * लेक्सस वॉयस कमांड
 * क्रिसलर यूकनेक्ट
 * होंडा एकॉर्ड
 * GM इंटेलीलिंक
 * बीएमडब्लू
 * मर्सिडीज
 * पाइअनिर
 * हरमन
 * हुंडई

अशाब्दिक इनपुट
जबकि अधिकांश ध्वनि उपयोगकर्ता इंटरफ़ेस मौखिक मानव भाषा के माध्यम से बातचीत का समर्थन करने के लिए डिज़ाइन किए गए हैं, इंटरफ़ेस डिज़ाइन करने में हाल ही में अन्वेषण अशाब्दिक मानव ध्वनियों को इनपुट के रूप में लेते हैं। इन प्रणालियों में, उपयोगकर्ता गैर-वाक् ध्वनियाँ जैसे गुनगुनाना, सीटी बजाना या माइक्रोफ़ोन में फूंक मारकर इंटरफ़ेस को नियंत्रित करता है।

अशाब्दिक ध्वनि उपयोगकर्ता इंटरफ़ेस का ऐसा एक उदाहरण ब्लेंडी है, केली डॉब्सन द्वारा निर्मित एक इंटरैक्टिव आर्ट इंस्टॉलेशन। इस टुकड़े में 1950 के दशक का एक क्लासिक ब्लेंडर सम्मिलित था जिसे माइक्रोफ़ोन इनपुट पर प्रतिक्रिया देने के लिए रेट्रोफिट किया गया था। ब्लेंडर को नियंत्रित करने के लिए, उपयोगकर्ता को उन घूमने वाली यांत्रिक ध्वनियों की नकल करनी चाहिए जो एक ब्लेंडर सामान्यतः बनाता है: उपयोगकर्ता की कम आवाज वाली गुर्राहट के जवाब में ब्लेंडर धीरे-धीरे घूमेगा, और जैसे-जैसे उपयोगकर्ता उच्च स्वर वाली ध्वनि बनाता है, गति में वृद्धि होगी।

एक अन्य उदाहरण वॉइसड्रॉ है, एक अनुसंधान प्रणाली जो सीमित मोटर क्षमताओं वाले व्यक्तियों के लिए डिजिटल ड्राइंग को सक्षम बनाती है। वॉयसड्रा उपयोगकर्ताओं को स्वर ध्वनियों को संशोधित करके डिजिटल कैनवास पर स्ट्रोक पेंट करने की अनुमति देता है, जिन्हें ब्रश दिशाओं में मैप किया जाता है। अन्य पारभाषिक विशेषताओं (उदाहरण के लिए उनकी आवाज की तीव्रता) को संशोधित करने से उपयोगकर्ता को ड्राइंग की विभिन्न विशेषताओं को नियंत्रित करने की अनुमति मिलती है, जैसे ब्रश स्ट्रोक की मोटाई।

अन्य तरीकों में नए प्रकार के इशारों का समर्थन करने के लिए स्पर्श-आधारित इंटरफेस (उदाहरण के लिए मोबाइल फोन पर) को बढ़ाने के लिए अशाब्दिक ध्वनियों को अपनाना सम्मिलित है जो अकेले उंगली इनपुट के साथ संभव नहीं होगा।

डिज़ाइन चुनौतियाँ
वॉयस इंटरफेस प्रयोज्यता के लिए पर्याप्त संख्या में चुनौतियाँ प्रस्तुत करता है। ग्राफिकल यूजर इंटरफेस (GUIs) के विपरीत, वॉयस इंटरफेस डिजाइन के लिए सर्वोत्तम प्रथाएं अभी भी उभर रही हैं।

खोज योग्यता
पूरी तरह से ऑडियो-आधारित इंटरैक्शन के साथ, वॉयस यूजर इंटरफेस कम खोज क्षमता से ग्रस्त होते हैं: उपयोगकर्ताओं के लिए सिस्टम की क्षमताओं के दायरे को समझना मुश्किल है। सिस्टम को यह बताने के लिए कि दृश्य प्रदर्शन के बिना क्या संभव है, उसे उपलब्ध विकल्पों की गणना करने की आवश्यकता होगी, जो थकाऊ या असंभव हो सकते हैं। कम खोज योग्यता के परिणामस्वरूप प्रायः उपयोगकर्ता इस बात को लेकर भ्रम की स्थिति में होते हैं कि उन्हें क्या कहने की अनुमति है, या सिस्टम की समझ की चौड़ाई के बारे में अपेक्षाओं में बेमेल है।

प्रतिलेखन
यद्यपि हाल के वर्षों में वाक् पहचान तकनीक में काफी सुधार हुआ है, फिर भी ध्वनि उपयोगकर्ता इंटरफ़ेस अभी भी पार्सिंग या ट्रांसक्रिप्शन त्रुटियों से ग्रस्त है जिसमें उपयोगकर्ता के भाषण की सही ढंग से व्याख्या नहीं की जाती है। ये त्रुटियाँ विशेष रूप से तब प्रचलित होती हैं जब भाषण सामग्री तकनीकी शब्दावली (जैसे चिकित्सा शब्दावली) या अपरंपरागत वर्तनी जैसे संगीत कलाकार या गीत के नाम का उपयोग करती है।

समझ
प्राकृतिक-भाषा की समझ को अधिकतम करने के लिए प्रभावी सिस्टम डिज़ाइन अनुसंधान का एक खुला क्षेत्र बना हुआ है। वॉयस यूजर इंटरफेस जो बातचीत की स्थिति की व्याख्या और प्रबंधन करते हैं, संदर्भ, नामित-इकाई पहचान, सूचना पुनर्प्राप्ति और संवाद प्रबंधक  जैसे जटिल प्राकृतिक भाषा प्रसंस्करण कार्यों को एकीकृत करने की अंतर्निहित कठिनाई के कारण डिजाइन करना चुनौतीपूर्ण है। अधिकांश वॉयस असिस्टेंट आज एकल कमांड को बहुत अच्छी तरह से निष्पादित करने में सक्षम हैं, लेकिन एक संकीर्ण कार्य या बातचीत में कुछ बदलावों से परे संवाद को प्रबंधित करने की उनकी क्षमता सीमित है।

भविष्य में उपयोग
पॉकेट-आकार के उपकरण, जैसे व्यक्तिगत डिजिटल सहायक या चल दूरभाष, वर्तमान में उपयोगकर्ता इनपुट के लिए छोटे बटन पर निर्भर हैं। ये या तो डिवाइस में निर्मित होते हैं या टच-स्क्रीन इंटरफ़ेस का हिस्सा होते हैं, जैसे कि Apple iPod Touch और iPhone Siri एप्लिकेशन। ऐसे छोटे बटन वाले उपकरणों पर व्यापक बटन दबाना थकाऊ और गलत हो सकता है, इसलिए उपयोग में आसान, सटीक और विश्वसनीय VUI संभावित रूप से उनके उपयोग की आसानी में एक बड़ी सफलता होगी। बहरहाल, इस तरह के VUI से लैपटॉप और डेस्कटॉप आकार के कंप्यूटर के उपयोगकर्ताओं को भी लाभ होगा, क्योंकि यह वर्तमान में कीबोर्ड और माउस (कंप्यूटिंग) के उपयोग से जुड़ी कई समस्याओं का समाधान करेगा, जिसमें कार्पल टनल सिंड्रोम जैसी दोहराव-तनाव की चोटें सम्मिलित हैं। दृष्टिबाधितों द्वारा डिजिटल इंटरफेस के भीतर नेविगेट करने और टेक्स्ट इनपुट करने की चुनौतियाँ, और अनुभवहीन कीबोर्ड उपयोगकर्ताओं की टाइपिंग गति धीमी है। इसके अतिरिक्त, कीबोर्ड का उपयोग सामान्यतः कनेक्टेड डिस्प्ले के सामने बैठकर या खड़े होकर किया जाता है; इसके विपरीत, एक VUI उपयोगकर्ता को अधिक मोबाइल होने के लिए मुक्त कर देगा, क्योंकि भाषण इनपुट कीबोर्ड को देखने की आवश्यकता को समाप्त कर देता है।

इस तरह के विकास वस्तुतः वर्तमान मशीनों का चेहरा बदल सकते हैं और उपयोगकर्ता उनके साथ कैसे बातचीत करते हैं, इस पर दूरगामी प्रभाव पड़ सकता है। हाथ से पकड़े जाने वाले उपकरणों को बड़े, देखने में आसान स्क्रीन के साथ डिज़ाइन किया जाएगा, क्योंकि किसी कीबोर्ड की आवश्यकता नहीं होगी। टच-स्क्रीन उपकरणों को अब सामग्री और ऑन-स्क्रीन कीबोर्ड के बीच डिस्प्ले को विभाजित करने की आवश्यकता नहीं होगी, इस प्रकार सामग्री को पूर्ण-स्क्रीन देखने की सुविधा मिलेगी। लैपटॉप कंप्यूटर को आकार के आधार पर अनिवार्य रूप से आधा किया जा सकता है, क्योंकि कीबोर्ड का आधा हिस्सा हटा दिया जाएगा और सभी आंतरिक घटकों को डिस्प्ले के पीछे एकीकृत किया जाएगा, जिसके परिणामस्वरूप प्रभावी रूप से एक साधारण टैबलेट कंप्यूटर बनेगा। डेस्कटॉप कंप्यूटर में एक सीपीयू और स्क्रीन सम्मिलित होगी, जिससे डेस्कटॉप पर कीबोर्ड द्वारा कब्जा कर लिया गया स्थान बच जाएगा और डेस्क की सतह के नीचे बने स्लाइडिंग कीबोर्ड रेस्ट को खत्म कर दिया जाएगा। माइक्रोवेव ओवन से लेकर फोटोकॉपियर तक दर्जनों अन्य उपकरणों पर टेलीविजन रिमोट कंट्रोल और कीपैड को भी खत्म किया जा सकता है।

यद्यपि, इस तरह के विकास के लिए कई चुनौतियों से पार पाना होगा। सबसे पहले, VUI को इनपुट, जैसे कमांड और पृष्ठभूमि वार्तालाप के बीच अंतर करने के लिए पर्याप्त परिष्कृत होना होगा; अन्यथा, गलत इनपुट दर्ज किया जाएगा और कनेक्टेड डिवाइस गलत व्यवहार करेगा। एक मानक प्रॉम्प्ट, जैसे कि प्रसिद्ध कंप्यूटर! साइंस फिक्शन टीवी शो और स्टार ट्रेक जैसी फिल्मों में पात्रों द्वारा कॉल, VUI को सक्रिय कर सकता है और इसे उसी स्पीकर द्वारा आगे इनपुट प्राप्त करने के लिए तैयार कर सकता है। संभवतः, VUI में मानव जैसा प्रतिनिधित्व भी सम्मिलित हो सकता है: उदाहरण के लिए, एक आवाज या यहां तक ​​कि एक ऑन-स्क्रीन चरित्र, जो वापस प्रतिक्रिया करता है (उदाहरण के लिए, "हां, वामशी"?) और उपयोगकर्ता के साथ आगे और पीछे संवाद करना जारी रखता है। प्राप्त इनपुट को स्पष्ट करें और सटीकता सुनिश्चित करें।

दूसरा, VUI को जानकारी को सटीक रूप से संसाधित करने और खोजने/पुनर्प्राप्त करने या विशेष उपयोगकर्ता की प्राथमिकताओं के अनुसार कार्रवाई करने के लिए अत्यधिक परिष्कृत सॉफ़्टवेयर के साथ मिलकर काम करना होगा। उदाहरण के लिए, यदि सामंथा किसी विशेष समाचार पत्र से जानकारी पसंद करती है, और यदि वह चाहती है कि जानकारी को बिंदु-रूप में संक्षेपित किया जाए, तो वह कह सकती है, "कंप्यूटर, मुझे कल रात दक्षिणी चीन में आई बाढ़ के बारे में कुछ जानकारी ढूंढो"; जवाब में, VUI जो उसकी प्राथमिकताओं से परिचित है, उस स्रोत से "दक्षिणी चीन" में बाढ़ के बारे में तथ्य ढूंढेगा, इसे बिंदु-रूप में परिवर्तित करेगा, और इसे स्क्रीन पर और/या आवाज के रूप में, एक उद्धरण के साथ उसे वितरित करेगा। इसलिए, VUI से जुड़ी मशीन के हिस्से पर कुछ हद तक कृत्रिम बुद्धिमत्ता के साथ-साथ सटीक वाक्-पहचान सॉफ्टवेयर की आवश्यकता होगी।

गोपनीयता निहितार्थ
गोपनीयता संबंधी चिंताएँ इस तथ्य से उत्पन्न होती हैं कि वॉयस कमांड वॉयस-यूजर इंटरफेस के प्रदाताओं के लिए अनएन्क्रिप्टेड रूप में उपलब्ध हैं, और इस प्रकार इसे तीसरे पक्ष के साथ साझा किया जा सकता है और अनधिकृत या अप्रत्याशित तरीके से संसाधित किया जा सकता है। रिकॉर्ड किए गए भाषण की भाषाई सामग्री के अतिरिक्त, उपयोगकर्ता की अभिव्यक्ति के तरीके और आवाज की विशेषताओं में उसकी बायोमेट्रिक पहचान, व्यक्तित्व लक्षण, शरीर का आकार, शारीरिक और मानसिक स्वास्थ्य स्थिति, लिंग, मूड और भावनाओं, सामाजिक आर्थिक स्थिति और भौगोलिक मूल के बारे में जानकारी निहित हो सकती है।

यह भी देखें

 * वाक् पहचान
 * भाषा संकलन
 * वाक् पहचान सॉफ़्टवेयर की सूची
 * प्राकृतिक भाषा उपयोगकर्ता इंटरफ़ेस
 * यूजर इंटरफ़ेस डिज़ाइन
 * ध्वनि ब्राउज़र
 * आवाज़ से आदेश
 * लिनक्स में वाक् पहचान
 * लिंगुआट्रोनिक
 * घर स्वचालन
 * ध्वनि कंप्यूटिंग

बाहरी संबंध

 * Voice Interfaces: Assessing the Potential by Jakob Nielsen
 * The Rise of Voice: A Timeline
 * Voice First Glossary of Terms
 * Voice First A Reading List