मल्टीमॉडल इंटरेक्शन

मल्टीमॉडल इंटरैक्शन उपयोगकर्ता को किसी भी सिस्टम के साथ मल्टीपल मॉडेलिटी अर्ताथ मानव-कंप्यूटर इंटरैक्शन प्रदान करता है। इस प्रकार मल्टीमॉडल इंटरफ़ेस डेटा के इनपुट और आउटपुट के लिए कई अलग-अलग उपकरण प्रदान करता है।

परिचय
मल्टीमॉडल मानव-कंप्यूटर इंटरैक्शन संचार के प्राकृतिक विधियों के माध्यम से आभासी और भौतिक वातावरण के साथ बातचीत को संदर्भित करता है, इस प्रकार इसका तात्पर्य यह है कि मल्टीमॉडल इंटरैक्शन अधिक स्वतंत्र और प्राकृतिक संचार को सक्षम बनाता है, जो उपयोगकर्ताओं को इनपुट और आउटपुट दोनों में स्वचालित सिस्टम से संयोजित करता है। इस प्रकार विशेष रूप से मल्टीमॉडल सिस्टम लचीला, कुशल और प्रयोग करने योग्य वातावरण प्रदान कर सकते हैं जो उपयोगकर्ताओं को इनपुट के लिए विभिन्न विधियों जैसे कि भाषण पहचान, लिखावट पहचान, संकेत पहचान और आंखों आँख ट्रैकिंग के माध्यम से बातचीत करने की अनुमति देता है, और सिस्टम द्वारा भाषण संश्लेषण जैसे आउटपुट विधियों के माध्यम से जानकारी प्राप्त करने की अनुमति देता है। इसके आधार पर किसी स्मार्ट ग्राफिक्स और अन्य तौर-तरीके, अवसरपूर्वक संयुक्त होती हैं। इसके आधार पर पुनः मल्टीमॉडल सिस्टम को अस्थायी और प्रासंगिक बाधाओं के अनुसार संयोजन करने वाले विभिन्न विधियों से इनपुट को पहचानना होता है जिससे कि उनकी व्याख्या की जा सके। इस प्रक्रिया को मल्टीमॉडल फ़्यूज़न के रूप में जाना जाता है, और यह नब्बे के दशक से अब तक कई शोध कार्यों का उद्देश्य है।       फ़्यूज्ड इनपुट की व्याख्या सिस्टम द्वारा की जाती है। स्वाभाविकता और लचीलापन प्रत्येक अलग-अलग विधियों के लिए भिन्न-भिन्न चैनल और उनके साथ उपयोग के लिए से अधिक व्याख्या उत्पन्न कर सकते हैं, और इसके परिणामस्वरूप वे मल्टीमॉडल अस्पष्टता उत्पन्न कर सकते हैं सामान्यतः अशुद्धि, ध्वनि या अन्य समान कारकों के कारण हैं। इस प्रकार अस्पष्टताओं को हल करने के लिए, कई तरीके प्रस्तावित किए गए हैं।      इसके अंत में सिस्टम सुसंगत फीडबैक (विखंडन) के अनुसार व्यवस्थित विभिन्न मोडल चैनलों (अलग-अलग) के माध्यम से उपयोगकर्ता आउटपुट पर लौटता है।

मोबाइल उपकरणों, सेंसर और वेब प्रौद्योगिकियों का व्यापक उपयोग मल्टीमॉडल इंटरैक्शन द्वारा निहित जटिलता को प्रबंधित करने के लिए पर्याप्त कम्प्यूटेशनल संसाधन प्रदान कर सकता है। इसके आधार पर मल्टीमॉडल इंटरैक्शन की जटिलता के प्रबंधन में साझा कम्प्यूटेशनल संसाधनों को सम्मिलित करने के लिए क्लाउड का उपयोग करना अवसर का प्रतिनिधित्व करता है। वास्तव में, क्लाउड कंप्यूटिंग साझा स्केलेबल, कॉन्फ़िगर करने योग्य कंप्यूटिंग संसाधनों को वितरित करने की अनुमति देता है जिन्हें गतिशील और स्वचालित रूप से प्रावधानित और प्रस्तुत किया जा सकता है।

मल्टीमॉडल इनपुट
मल्टीमॉडल इंटरफेस के दो प्रमुख समूहों का विलय हो गया है, वैकल्पिक इनपुट विधियों से संबंधित है और दूसरा संयुक्त इनपुट/आउटपुट से संबंधित है। इंटरफेस के पहले समूह ने पारंपरिक कंप्यूटर कीबोर्ड और माउस (कंप्यूटिंग) इनपुट/आउटपुट से परे विभिन्न उपयोगकर्ता इनपुट मोड को संयोजित किया हैं, जैसे भाषण, पेन, स्पर्श, मैनुअल जेस्चर, और सिर और शरीर की हरकतें इसका प्रमुख उदाहरण हैं। इसके आधार पर सबसे साधारण इंटरफ़ेस दृश्य मोडैलिटी हैं, जैसे उदाहरण के लिए डिस्प्ले, कीबोर्ड और माउस को वॉयस मोडैलिटी जैसे इनपुट के लिए भाषण पहचान, भाषण संश्लेषण और आउटपुट के लिए रिकॉर्ड किए गए ऑडियों के साथ जोड़ता है। चूंकि अन्य तौर-तरीके, जैसे पेन-आधारित इनपुट या हैप्टिक प्रौद्योगिकी इनपुट/आउटपुट का उपयोग किया जा सकता है। मल्टीमॉडल यूजर इंटरफेस मानव-कंप्यूटर इंटरैक्शन (एचसीआई) में शोध क्षेत्र है।

एकाधिक इनपुट विधियों का लाभ उपयोगिता में वृद्धि है: विधियोंकी कमजोरियां दूसरे की पावर से दूर हो जाती हैं। इसके आधार पर छोटे विज़ुअल इंटरफ़ेस और कीपैड वाले मोबाइल डिवाइस पर, शब्द टाइप करना काफी कठिन हो सकता है अपितु कहना बहुत साधारण होता है, उदाहरण के लिए पॉकीप्सी, न्यूयॉर्क इसका प्रमुख उदाहरण हैं। इस पर विचार करें कि आप इन्हीं उपकरणों या सेट टॉप बॉक्स से डिजीटल मीडिया कैटलॉग तक कैसे पहुंच और खोज करेंगे। और वास्तविक दुनिया के उदाहरण में, एंटीसेप्टिक वातावरण बनाए रखने के लिए सर्जिकल टीम के सदस्यों द्वारा ऑपरेटिंग कमरे के वातावरण में रोगी की जानकारी को मौखिक रूप से एक्सेस किया जाता है, और अधिकतम समझ के लिए वास्तविक समय में श्रवण और दृष्टि से प्रस्तुत किया जाता है।

मल्टीमॉडल इनपुट यूजर इंटरफेस का अभिगम्यता पर प्रभाव पड़ता है। इसके आधार पर अच्छी तरह से डिज़ाइन किए गए मल्टीमॉडल एप्लिकेशन का उपयोग विभिन्न प्रकार की अक्षमताओं वाले लोगों द्वारा किया जा सकता है। इस प्रकार दृष्टिबाधित उपयोगकर्ता कुछ कीपैड इनपुट के साथ आवाज के विधियों पर विश्वास करते हैं। इस प्रकार श्रवण क्रिया को बाधित करने के लिए उपयोगकर्ता कुछ भाषण इनपुट के साथ दृश्य पद्धति पर विश्वास करते हैं। इस प्रकार अन्य उपयोगकर्ता स्थितिजन्य रूप से अक्षम होंगे, जैसे उदाहरण के लिए बहुत ध्वनि वाले वातावरण में दस्ताने पहनना, गाड़ी चलाना, या सार्वजनिक स्थान पर क्रेडिट कार्ड नंबर दर्ज करने की आवश्यकता और वे इच्छानुसार उचित विधियों का उपयोग करेंगे। इसी के आधार पर दूसरी ओर, मल्टीमॉडल एप्लिकेशन जिसके लिए उपयोगकर्ताओं को सभी विधियों को संचालित करने में सक्षम होना आवश्यक है, बहुत खराब तरीके से डिज़ाइन किया गया है।

बाजार में इनपुट मल्टीमॉडैलिटी का सबसे आम रूप एक्सएचटीएमएल+वॉयस (उर्फ एक्स+वी) वेब मार्कअप भाषा का उपयोग करता है, जो आईबीएम, MOTOROLA और ओपेरा सॉफ्टवेयर द्वारा विकसित खुला विनिर्देश है। इस प्रकार XHTML+Voice या X+V वर्तमान में विश्वव्यापी वेब संकाय द्वारा विचाराधीन है और इसमें विज़ुअल मार्कअप के लिए एक्स्टेंसिबल हाइपरटेक्स्ट मार्कअप लैंग्वेज, वॉयस मार्कअप के लिए VoiceXML और एक्सटेंसिबल मार्कअप लैंग्वेज भाषाओं को एकीकृत करने के लिए मानक XML इवेंट्स सहित कई W3C अनुशंसाओं को संयोजित किया गया है। इसके आधार पर XHTML+Voice|X+V को सपोर्ट करने वाले मल्टीमॉडल ब्राउज़र में आईबीएम वेबस्फीयर एवरीप्लेस मल्टीमॉडल एनवायरनमेंट, अंतः स्थापित प्रणाली लिनक्स और माइक्रोसॉफ़्ट विंडोज़ के लिए ओपेरा (वेब ​​ब्राउज़र), और विंडोज़ मोबाइल के लिए पहुंच प्रणाली नेटफ्रंट सम्मिलित हैं। इस प्रकार मल्टीमॉडल अनुप्रयोगों को विकसित करने के लिए, सॉफ्टवेयर डेवलपर्स सॉफ़्टवेयर विकास किट का उपयोग कर सकते हैं, जैसे कि आईबीएम वेबस्फीयर मल्टीमॉडल टूलकिट, जो खुला स्त्रोत ग्रहण (सॉफ्टवेयर) सॉफ्टवेयर ढांचा पर आधारित है, जिसमें एक्सएचटीएमएल+वॉयस या एक्स+वी डिबगर, स्रोत कोड संपादक और सिम्युलेटर सम्मिलित है।

मल्टीमॉडल आउटपुट
मल्टीमॉडल सिस्टम का दूसरा समूह उपयोगकर्ताओं को मल्टीमीडिया डिस्प्ले और मल्टीमॉडल आउटपुट प्रस्तुत करता है, इस प्रकार मुख्य रूप से दृश्य और श्रवण संकेतों के रूप में इसका उपयोग करते हैं। इस प्रकार इंटरफ़ेस डिजाइनरों ने स्पर्श और घ्राण जैसे अन्य विधियों का भी उपयोग करना प्रारंभ कर दिया है। इस प्रकार मल्टीमॉडल आउटपुट सिस्टम के प्रस्तावित लाभों में तालमेल और अतिरेक सम्मिलित हैं। जो जानकारी कई विधियों के माध्यम से प्रस्तुत की जाती है वह विलय हो जाती है और ही प्रक्रिया के विभिन्न पहलुओं को संदर्भित करती है। बिल्कुल ही जानकारी को संसाधित करने के लिए कई विधियों का उपयोग सूचना हस्तांतरण की बढ़ी हुई बैंडविड्थ प्रदान करता है।

वर्तमान समय में, मल्टीमॉडल आउटपुट का उपयोग मुख्य रूप से संचार माध्यम और सामग्री के बीच मैपिंग को उत्तम बनाने और डेटा-समृद्ध वातावरण में ध्यान प्रबंधन का समर्थन करने के लिए किया जाता है, जहां ऑपरेटरों को दृश्य ध्यान की काफी मांगों का सामना करना पड़ता है।

मल्टीमॉडल इंटरफ़ेस डिज़ाइन में महत्वपूर्ण कदम विधियों और सूचना और कार्यों के बीच प्राकृतिक मैपिंग का निर्माण है। इस प्रकार श्रवण चैनल कई पहलुओं में दृष्टि से भिन्न है। यह सर्वदिशात्मक, क्षणिक और सदैव आरक्षित है। जिसके आधार पर भाषण आउटपुट, श्रवण जानकारी का रूप, पर अत्यधिक ध्यान दिया गया हैं। इस प्रकार भाषण के उपयोग के लिए कई दिशानिर्देश विकसित किए गए हैं। माइकलिस और विगिन्स (1982) ने सुझाव दिया कि भाषण आउटपुट का उपयोग सरल लघु संदेशों के लिए किया जाना चाहिए जिन्हें बाद में संदर्भित नहीं किया जाएगा। यह भी सिफारिश की गई कि भाषण समय पर तैयार किया जाना चाहिए और तत्काल प्रतिक्रिया की आवश्यकता होती है।

स्पर्श की भावना का उपयोग पहली बार 1950 के दशक के अंत में संचार के माध्यम के रूप में किया गया था। इस प्रकार यह न केवल आशाजनक बल्कि अनोखा संचार माध्यम भी है। इसके आधार पर दृष्टि और श्रवण के विपरीत, एचसीआई में नियोजित दो पारंपरिक इंद्रियां, स्पर्श की भावना समीपस्थ है: इस प्रकार यह उन वस्तुओं को महसूस करती है जो शरीर के संपर्क में हैं, और यह द्विदिश है क्योंकि यह पर्यावरण पर धारणा और कार्य दोनों का समर्थन करती है।

श्रवण फीडबैक के उदाहरणों में कंप्यूटर ऑपरेटिंग सिस्टम में श्रवण चिह्न सम्मिलित हैं, जो इसके आधार पर उपयोगकर्ताओं के कार्यों को दर्शाते हैं, जैसे उदाहरण के लिए फ़ाइल हटाना, फ़ोल्डर खोलना, त्रुटि., वाहनों में नेविगेशनल मार्गदर्शन प्रस्तुत करने के लिए भाषण आउटपुट, और आधुनिक हवाई जहाज कॉकपिट पर चेतावनी पायलटों के लिए भाषण आउटपुट का उपयोग करते हैं। इस प्रकार स्पर्श संकेतों के उदाहरणों में अंधे स्थान पर कार के चालकों को चेतावनी देने के लिए टर्न-सिग्नल लीवर का कंपन, ड्राइवरों को चेतावनी के रूप में ऑटो सीट का कंपन, और आधुनिक विमान पर स्टिक शेकर पायलटों को आसन्न स्टाल के प्रति सचेत करना सम्मिलित है।

सेंसर प्रौद्योगिकी का उपयोग करके अदृश्य इंटरफ़ेस स्थान उपलब्ध हो गए हैं। इसके आधार पर इन्फ्रारेड, अल्ट्रासाउंड और कैमरे सभी अब आमतौर पर उपयोग किए जाते हैं। इस प्रकार सामग्री के साथ इंटरफेसिंग की पारदर्शिता को सार्थक मैपिंग के माध्यम से तत्काल और सीधा लिंक प्रदान करके बढ़ाया जाता है, इस प्रकार उपयोगकर्ता को इनपुट पर प्रत्यक्ष और तत्काल प्रतिक्रिया मिलती है और सामग्री प्रतिक्रिया (गिब्सन 1979) इंटरफ़ेस सामर्थ्य बन जाती है।

मल्टीमॉडल फ़्यूज़न
विभिन्न इनपुट विधियों से जानकारी को एकीकृत करने और उन्हें पूर्ण कमांड में संयोजित करने की प्रक्रिया को मल्टीमॉडल फ़्यूज़न कहा जाता है। साहित्य में, मुख्य वास्तुशिल्प स्तरों (मान्यता और निर्णय) के अनुसार, संलयन प्रक्रिया के लिए तीन मुख्य दृष्टिकोण प्रस्तावित किए गए हैं, जिस पर इनपुट संकेतों का संलयन किया जा सकता है: इसकी मान्यता पर आधारित, निर्णय आधारित,      और हाइब्रिड बहु-स्तरीय संलयन हैं।

मान्यता-आधारित संलयन जिसे प्रारंभिक संलयन के रूप में भी जाना जाता है, जिसमें एकीकरण तंत्र का उपयोग करके प्रत्येक मोडल पहचानकर्ता के परिणामों को विलय करना सम्मिलित है, जैसे, उदाहरण के लिए, सांख्यिकीय एकीकरण तकनीक, एजेंट सिद्धांत, छिपे हुए मार्कोव मॉडल, कृत्रिम तंत्रिका नेटवर्क, आदि। इस प्रकार उदाहरण के लिए मान्यता-आधारित फ़्यूज़न रणनीतियाँ एक्शन फ़्रेम हैं, जैसे इनपुट वैक्टर और स्लॉट इसका प्रमुख उदाहरण हैं।

निर्णय-आधारित फ़्यूज़न (जिसे लेट फ़्यूज़न के रूप में भी जाना जाता है) संपूर्ण व्याख्या प्राप्त करने के लिए विशिष्ट संवाद-संचालित फ़्यूज़न प्रक्रियाओं का उपयोग करके निकाली गई अर्थ संबंधी जानकारी को मर्ज करता है। इस प्रकार निर्णय लेने के अनुसार इस पर आधारित फ़्यूज़न रणनीतियों के उदाहरण टाइप की गई फ़ीचर संरचनाएँ हैं, इस प्रकार पिघलाने वाले बर्तन,  सिमेंटिक फ़्रेम,  और समय-मुद्रांकित फिल्टर इसका उदाहरण हैं।

मल्टीमॉडल फ़्यूज़न के संभावित अनुप्रयोगों में सीखने का वातावरण, उपभोक्ता संबंध, सुरक्षा/निगरानी, ​​कंप्यूटर एनीमेशन आदि सम्मिलित हैं। इसके आधार पर व्यक्तिगत रूप से, मोड को सरलता से परिभाषित किया जाता है, अपितु प्रौद्योगिकी द्वारा उन्हें संयुक्त फ़्यूज़न मानने में कठिनाई उत्पन्न होती है। इस कलन विधि के लिए आयामीता को ध्यान में रखना कठिन है; वर्तमान गणना क्षमताओं के बाहर चर मौजूद हैं। उदाहरण के लिए, अर्थ संबंधी अर्थ: दो वाक्यों का शाब्दिक अर्थ ही हो सकता है, अपितु भावनात्मक जानकारी अलग-अलग हो सकती है।

हाइब्रिड बहु-स्तरीय फ़्यूज़न में, इनपुट विधियों का एकीकरण मान्यता और निर्णय स्तरों के बीच वितरित किया जाता है। हाइब्रिड बहु-स्तरीय संलयन में निम्नलिखित तीन पद्धतियाँ सम्मिलित हैं: परिमित-अवस्था ट्रांसड्यूसर, मल्टीमॉडल व्याकरण     और संवाद चलता है.

अस्पष्टता
उपयोगकर्ता के कार्य या आदेश मल्टीमॉडल इनपुट मल्टीमॉडल संदेशो को उत्पन्न करते हैं, जिसकी व्याख्या सिस्टम द्वारा की जानी आवश्यक होती है। इस प्रकार मल्टीमॉडल संदेश वह माध्यम है जो उपयोगकर्ताओं और मल्टीमॉडल सिस्टम के बीच संचार को सक्षम बनाता है। यह कई विधियों के बीच विभिन्न प्रकार के सहयोग पर विचार करके कई विधियों के माध्यम से बताई गई जानकारी को मर्ज करके प्राप्त किया जाता है। समय से जुड़े सम्मिलित विधियों और इन विधियों से जुड़ी जानकारी के हिस्सों के बीच संबंधों के बीच स्थापित करती हैं। इस प्रकार मल्टीमॉडल इनपुट के बीच प्राकृतिक मैपिंग, जो कई इंटरैक्शन विधियों के लिए दृश्य और श्रवण चैनल और स्पर्श की भावना द्वारा प्रदान की जाती है, और सूचना और कार्यों का अर्थ मानव-मानव संचार की विशिष्ट समस्याओं, जैसे अस्पष्टता का प्रबंधन करना है। जब इनपुट की से अधिक व्याख्या संभव हो तो अस्पष्टता उत्पन्न होती है। जिसके लिए बहुविध अस्पष्टता दोनों उत्पन्न होते हैं, यदि तत्व, जो विधियोंद्वारा प्रदान किया जाता है, की से अधिक व्याख्या होती है, अर्थात अस्पष्टताएं मल्टीमॉडल स्तर पर प्रचारित होती हैं, और/या यदि प्रत्येक विधियोंसे जुड़े तत्वों के द्वारा इसकी व्याख्या की जाती है, अपितु इस जानकारी को अलग-अलग संदर्भित किया जाता है, जिसके अनुसार विधियोंवाक्य-विन्यास या अर्थ-संबंधी स्तर पर असंगत होते हैं, अर्थात मल्टीमॉडल वाक्य जिसका अलग-अलग अर्थ या अलग-अलग वाक्य-विन्यास संरचना होती है।

अस्पष्टताओं के प्रबंधन में, अस्पष्टताओं को हल करने और उपयोगकर्ता के इनपुट की सही व्याख्या प्रदान करने के तरीकों को तीन मुख्य वर्गों में व्यवस्थित किया गया है: रोकथाम, ए-पोस्टीरियर रिज़ॉल्यूशन और सन्निकटन रिज़ॉल्यूशन विधियाँ प्राप्त होती हैं।

रोकथाम के तरीके उपयोगकर्ताओं को इंटरैक्शन प्रक्रिया के विभिन्न अनुमत राज्यों के बीच संक्रमण के सेट के अनुसार पूर्वनिर्धारित इंटरैक्शन व्यवहार का पालन करने के लिए बाध्य करते हैं। रोकथाम के तरीकों के उदाहरण हैं: प्रक्रियात्मक विधि, भाषा व्याकरण की अभिव्यंजक शक्ति में कमी, भाषा व्याकरण की अभिव्यंजक शक्ति में सुधार किया जाता हैं। अस्पष्टताओं का ए-पोस्टीरियर समाधान मध्यस्थता दृष्टिकोण का उपयोग करता है। इस प्रकार मध्यस्थता तकनीकों के उदाहरण हैं: इसके दोहराव के लिए उदाहरण के लिए उक्त विधियों द्वारा पुनरावृत्ति, मरम्मत की सूक्ष्मता और पूर्ववत करें, और विकल्प प्राप्त होते हैं।

इस प्रकार के फलन के समाधान से जुड़ी विधियों को असंबद्धता प्रक्रिया में किसी भी उपयोगकर्ता की भागीदारी की आवश्यकता नहीं होती है। उन सभी को कुछ सिद्धांतों के उपयोग की आवश्यकता हो सकती है, जैसे फजी लॉजिक, मार्कोव यादृच्छिक क्षेत्र, बायेसियन नेटवर्क और छिपा हुआ मार्कोव मॉडल इसका प्रमुख उदाहरण हैं।

यह भी देखें

 * डिवाइस की स्वतंत्रता
 * मल्टीमॉडल बायोमेट्रिक सिस्टम
 * मल्टीमॉडल खोज
 * वाक पहचान
 * W3C MMI या W3C की मल्टीमॉडल इंटरेक्शन गतिविधि - W3C की पहल जिसका लक्ष्य वेब पर मल्टीमॉडल इंटरेक्शन परिदृश्यों का समर्थन करने के लिए साधन (ज्यादातर XML) प्रदान करना है।
 * वेब पहुंच
 * वायरलेस ग्लफ्स
 * एक्सएचटीएमएल+वॉयस

बाहरी संबंध

 * W3C Multimodal Interaction Activity
 * XHTML+Voice Profile 1.0, W3C Note 21 December 2001
 * Hoste, Lode, Dumas, Bruno and Signer, Beat: Mudra: A Unified Multimodal Interaction Framework, In Proceedings of the 13th International Conference on Multimodal Interaction (ICMI 2011), Alicante, Spain, November 2011.
 * Toselli, Alejandro Héctor, Vidal, Enrique, Casacuberta, Francisco: Multimodal Interactive Pattern Recognition and Applications, Springer, 2011.