मल्टीमॉडल इंटरेक्शन

मल्टीमॉडल इंटरैक्शन उपयोगकर्ता को एक सिस्टम के साथ मल्टीपल मॉडेलिटी (मानव-कंप्यूटर इंटरैक्शन) प्रदान करता है। एक मल्टीमॉडल इंटरफ़ेस डेटा के इनपुट और आउटपुट के लिए कई अलग-अलग उपकरण प्रदान करता है।

परिचय
मल्टीमॉडल मानव-कंप्यूटर इंटरैक्शन संचार के प्राकृतिक तरीकों के माध्यम से आभासी और भौतिक वातावरण के साथ बातचीत को संदर्भित करता है, इसका तात्पर्य यह है कि मल्टीमॉडल इंटरैक्शन अधिक स्वतंत्र और प्राकृतिक संचार को सक्षम बनाता है, जो उपयोगकर्ताओं को इनपुट और आउटपुट दोनों में स्वचालित सिस्टम से जोड़ता है। विशेष रूप से, मल्टीमॉडल सिस्टम एक लचीला, कुशल और प्रयोग करने योग्य वातावरण प्रदान कर सकते हैं जो उपयोगकर्ताओं को इनपुट तौर-तरीकों, जैसे कि भाषण पहचान, लिखावट पहचान, इशारा पहचान और आंखों आँख ट्रैकिंग के माध्यम से बातचीत करने की अनुमति देता है, और सिस्टम द्वारा भाषण संश्लेषण जैसे आउटपुट तौर-तरीकों के माध्यम से जानकारी प्राप्त करने की अनुमति देता है।, स्मार्ट ग्राफिक्स और अन्य तौर-तरीके, अवसरपूर्वक संयुक्त। फिर एक मल्टीमॉडल सिस्टम को अस्थायी और प्रासंगिक बाधाओं के अनुसार संयोजन करने वाले विभिन्न तौर-तरीकों से इनपुट को पहचानना होता है ताकि उनकी व्याख्या की जा सके। इस प्रक्रिया को मल्टीमॉडल फ़्यूज़न के रूप में जाना जाता है, और यह नब्बे के दशक से अब तक कई शोध कार्यों का उद्देश्य है।       फ़्यूज्ड इनपुट की व्याख्या सिस्टम द्वारा की जाती है। स्वाभाविकता और लचीलापन प्रत्येक अलग-अलग तौर-तरीके (चैनल) और उनके एक साथ उपयोग के लिए एक से अधिक व्याख्या उत्पन्न कर सकते हैं, और परिणामस्वरूप वे मल्टीमॉडल अस्पष्टता उत्पन्न कर सकते हैं आम तौर पर अशुद्धि, शोर या अन्य समान कारकों के कारण। अस्पष्टताओं को हल करने के लिए, कई तरीके प्रस्तावित किए गए हैं।      अंत में सिस्टम एक सुसंगत फीडबैक (विखंडन) के अनुसार व्यवस्थित विभिन्न मोडल चैनलों (अलग-अलग) के माध्यम से उपयोगकर्ता आउटपुट पर लौटता है। मोबाइल उपकरणों, सेंसर और वेब प्रौद्योगिकियों का व्यापक उपयोग मल्टीमॉडल इंटरैक्शन द्वारा निहित जटिलता को प्रबंधित करने के लिए पर्याप्त कम्प्यूटेशनल संसाधन प्रदान कर सकता है। मल्टीमॉडल इंटरैक्शन की जटिलता के प्रबंधन में साझा कम्प्यूटेशनल संसाधनों को शामिल करने के लिए क्लाउड का उपयोग करना एक अवसर का प्रतिनिधित्व करता है। वास्तव में, क्लाउड कंप्यूटिंग साझा स्केलेबल, कॉन्फ़िगर करने योग्य कंप्यूटिंग संसाधनों को वितरित करने की अनुमति देता है जिन्हें गतिशील और स्वचालित रूप से प्रावधानित और जारी किया जा सकता है।

मल्टीमॉडल इनपुट
मल्टीमॉडल इंटरफेस के दो प्रमुख समूहों का विलय हो गया है, एक वैकल्पिक इनपुट विधियों से संबंधित है और दूसरा संयुक्त इनपुट/आउटपुट से संबंधित है। इंटरफेस के पहले समूह ने पारंपरिक कंप्यूटर कीबोर्ड और माउस (कंप्यूटिंग) इनपुट/आउटपुट से परे विभिन्न उपयोगकर्ता इनपुट मोड को संयोजित किया, जैसे भाषण, पेन, स्पर्श, मैनुअल जेस्चर, टकटकी और सिर और शरीर की हरकतें। सबसे आम ऐसा इंटरफ़ेस एक दृश्य मोडैलिटी (उदाहरण के लिए एक डिस्प्ले, कीबोर्ड और माउस) को वॉयस मोडैलिटी (इनपुट के लिए भाषण पहचान, भाषण संश्लेषण और आउटपुट के लिए रिकॉर्ड किए गए ऑडियो) के साथ जोड़ता है। हालाँकि अन्य तौर-तरीके, जैसे पेन-आधारित इनपुट या हैप्टिक प्रौद्योगिकी इनपुट/आउटपुट का उपयोग किया जा सकता है। मल्टीमॉडल यूजर इंटरफेस मानव-कंप्यूटर इंटरैक्शन (एचसीआई) में एक शोध क्षेत्र है।

एकाधिक इनपुट तौर-तरीकों का लाभ उपयोगिता में वृद्धि है: एक तौर-तरीके की कमजोरियां दूसरे की ताकत से दूर हो जाती हैं। छोटे विज़ुअल इंटरफ़ेस और कीपैड वाले मोबाइल डिवाइस पर, एक शब्द टाइप करना काफी कठिन हो सकता है लेकिन कहना बहुत आसान है (उदाहरण के लिए पॉकीप्सी, न्यूयॉर्क)। विचार करें कि आप इन्हीं उपकरणों या सेट टॉप बॉक्स से डिजीटल मीडिया  कैटलॉग तक कैसे पहुंच और खोज करेंगे। और एक वास्तविक दुनिया के उदाहरण में, एक एंटीसेप्टिक वातावरण बनाए रखने के लिए सर्जिकल टीम के सदस्यों द्वारा एक ऑपरेटिंग कमरे के वातावरण में रोगी की जानकारी को मौखिक रूप से एक्सेस किया जाता है, और अधिकतम समझ के लिए वास्तविक समय में श्रवण और दृष्टि से प्रस्तुत किया जाता है।

मल्टीमॉडल इनपुट यूजर इंटरफेस का अभिगम्यता पर प्रभाव पड़ता है। एक अच्छी तरह से डिज़ाइन किए गए मल्टीमॉडल एप्लिकेशन का उपयोग विभिन्न प्रकार की अक्षमताओं वाले लोगों द्वारा किया जा सकता है। दृष्टिबाधित उपयोगकर्ता कुछ कीपैड इनपुट के साथ आवाज के तौर-तरीकों पर भरोसा करते हैं। श्रवण-बाधित उपयोगकर्ता कुछ भाषण इनपुट के साथ दृश्य पद्धति पर भरोसा करते हैं। अन्य उपयोगकर्ता स्थितिजन्य रूप से अक्षम होंगे (उदाहरण के लिए बहुत शोर वाले वातावरण में दस्ताने पहनना, गाड़ी चलाना, या सार्वजनिक स्थान पर क्रेडिट कार्ड नंबर दर्ज करने की आवश्यकता) और वे इच्छानुसार उचित तौर-तरीकों का उपयोग करेंगे। दूसरी ओर, एक मल्टीमॉडल एप्लिकेशन जिसके लिए उपयोगकर्ताओं को सभी तौर-तरीकों को संचालित करने में सक्षम होना आवश्यक है, बहुत खराब तरीके से डिज़ाइन किया गया है।

बाजार में इनपुट मल्टीमॉडैलिटी का सबसे आम रूप एक्सएचटीएमएल+वॉयस (उर्फ एक्स+वी) वेब मार्कअप भाषा का उपयोग करता है, जो आईबीएम, MOTOROLA  और ओपेरा सॉफ्टवेयर द्वारा विकसित एक खुला विनिर्देश है। XHTML+Voice|X+V वर्तमान में  विश्वव्यापी वेब संकाय  द्वारा विचाराधीन है और इसमें विज़ुअल मार्कअप के लिए एक्स्टेंसिबल हाइपरटेक्स्ट मार्कअप लैंग्वेज, वॉयस मार्कअप के लिए VoiceXML और  एक्सटेंसिबल मार्कअप लैंग्वेज  भाषाओं को एकीकृत करने के लिए एक मानक XML इवेंट्स सहित कई W3C अनुशंसाओं को संयोजित किया गया है। XHTML+Voice|X+V को सपोर्ट करने वाले मल्टीमॉडल ब्राउज़र में आईबीएम वेबस्फीयर एवरीप्लेस मल्टीमॉडल एनवायरनमेंट,  अंतः स्थापित प्रणाली  लिनक्स और  माइक्रोसॉफ़्ट विंडोज़  के लिए ओपेरा (वेब ​​ब्राउज़र), और  विंडोज़ मोबाइल  के लिए  पहुंच प्रणाली  नेटफ्रंट शामिल हैं। मल्टीमॉडल अनुप्रयोगों को विकसित करने के लिए, सॉफ्टवेयर डेवलपर्स एक  सॉफ़्टवेयर विकास किट  का उपयोग कर सकते हैं, जैसे कि आईबीएम वेबस्फीयर मल्टीमॉडल टूलकिट, जो  खुला स्त्रोत   ग्रहण (सॉफ्टवेयर)   सॉफ्टवेयर ढांचा  पर आधारित है, जिसमें एक एक्सएचटीएमएल+वॉयस|एक्स+वी डिबगर,  स्रोत कोड संपादक  और शामिल है। सिम्युलेटर.

मल्टीमॉडल आउटपुट
मल्टीमॉडल सिस्टम का दूसरा समूह उपयोगकर्ताओं को मल्टीमीडिया डिस्प्ले और मल्टीमॉडल आउटपुट प्रस्तुत करता है, मुख्य रूप से दृश्य और श्रवण संकेतों के रूप में। इंटरफ़ेस डिजाइनरों ने स्पर्श और घ्राण जैसे अन्य तौर-तरीकों का भी उपयोग करना शुरू कर दिया है। मल्टीमॉडल आउटपुट सिस्टम के प्रस्तावित लाभों में तालमेल और अतिरेक शामिल हैं। जो जानकारी कई तौर-तरीकों के माध्यम से प्रस्तुत की जाती है वह विलय हो जाती है और एक ही प्रक्रिया के विभिन्न पहलुओं को संदर्भित करती है। बिल्कुल एक ही जानकारी को संसाधित करने के लिए कई तौर-तरीकों का उपयोग सूचना हस्तांतरण की बढ़ी हुई बैंडविड्थ प्रदान करता है .  वर्तमान में, मल्टीमॉडल आउटपुट का उपयोग मुख्य रूप से संचार माध्यम और सामग्री के बीच मैपिंग को बेहतर बनाने और डेटा-समृद्ध वातावरण में ध्यान प्रबंधन का समर्थन करने के लिए किया जाता है, जहां ऑपरेटरों को दृश्य ध्यान की काफी मांगों का सामना करना पड़ता है। मल्टीमॉडल इंटरफ़ेस डिज़ाइन में एक महत्वपूर्ण कदम तौर-तरीकों और सूचना और कार्यों के बीच प्राकृतिक मैपिंग का निर्माण है। श्रवण चैनल कई पहलुओं में दृष्टि से भिन्न है। यह सर्वदिशात्मक, क्षणिक और सदैव आरक्षित है। भाषण आउटपुट, श्रवण जानकारी का एक रूप, पर काफी ध्यान दिया गया। भाषण के उपयोग के लिए कई दिशानिर्देश विकसित किए गए हैं। माइकलिस और विगिन्स (1982) ने सुझाव दिया कि भाषण आउटपुट का उपयोग सरल लघु संदेशों के लिए किया जाना चाहिए जिन्हें बाद में संदर्भित नहीं किया जाएगा। यह भी सिफारिश की गई कि भाषण समय पर तैयार किया जाना चाहिए और तत्काल प्रतिक्रिया की आवश्यकता होती है।

स्पर्श की भावना का उपयोग पहली बार 1950 के दशक के अंत में संचार के माध्यम के रूप में किया गया था। यह न केवल एक आशाजनक बल्कि एक अनोखा संचार माध्यम भी है। दृष्टि और श्रवण के विपरीत, एचसीआई में नियोजित दो पारंपरिक इंद्रियां, स्पर्श की भावना समीपस्थ है: यह उन वस्तुओं को महसूस करती है जो शरीर के संपर्क में हैं, और यह द्विदिश है क्योंकि यह पर्यावरण पर धारणा और कार्य दोनों का समर्थन करती है।

श्रवण फीडबैक के उदाहरणों में कंप्यूटर ऑपरेटिंग सिस्टम में श्रवण चिह्न शामिल हैं जो उपयोगकर्ताओं के कार्यों को दर्शाते हैं (उदाहरण के लिए फ़ाइल हटाना, फ़ोल्डर खोलना, त्रुटि), वाहनों में नेविगेशनल मार्गदर्शन प्रस्तुत करने के लिए भाषण आउटपुट, और आधुनिक हवाई जहाज कॉकपिट पर चेतावनी पायलटों के लिए भाषण आउटपुट। स्पर्श संकेतों के उदाहरणों में अंधे स्थान पर कार के चालकों को चेतावनी देने के लिए टर्न-सिग्नल लीवर का कंपन, ड्राइवरों को चेतावनी के रूप में ऑटो सीट का कंपन, और आधुनिक विमान पर स्टिक शेकर पायलटों को आसन्न स्टाल के प्रति सचेत करना शामिल है।

सेंसर प्रौद्योगिकी का उपयोग करके अदृश्य इंटरफ़ेस स्थान उपलब्ध हो गए। इन्फ्रारेड, अल्ट्रासाउंड और कैमरे सभी अब आमतौर पर उपयोग किए जाते हैं। सामग्री के साथ इंटरफेसिंग की पारदर्शिता को सार्थक मैपिंग के माध्यम से तत्काल और सीधा लिंक प्रदान करके बढ़ाया जाता है, इस प्रकार उपयोगकर्ता को इनपुट पर प्रत्यक्ष और तत्काल प्रतिक्रिया मिलती है और सामग्री प्रतिक्रिया इंटरफ़ेस सामर्थ्य बन जाती है (गिब्सन 1979)।

मल्टीमॉडल फ़्यूज़न
विभिन्न इनपुट तौर-तरीकों से जानकारी को एकीकृत करने और उन्हें एक पूर्ण कमांड में संयोजित करने की प्रक्रिया को मल्टीमॉडल फ़्यूज़न कहा जाता है। साहित्य में, मुख्य वास्तुशिल्प स्तरों (मान्यता और निर्णय) के अनुसार, संलयन प्रक्रिया के लिए तीन मुख्य दृष्टिकोण प्रस्तावित किए गए हैं, जिस पर इनपुट संकेतों का संलयन किया जा सकता है: मान्यता-आधारित, निर्णय आधारित,      और हाइब्रिड बहु-स्तरीय संलयन। मान्यता-आधारित संलयन (जिसे प्रारंभिक संलयन के रूप में भी जाना जाता है) में एकीकरण तंत्र का उपयोग करके प्रत्येक मोडल पहचानकर्ता के परिणामों को विलय करना शामिल है, जैसे, उदाहरण के लिए, सांख्यिकीय एकीकरण तकनीक, एजेंट सिद्धांत, छिपे हुए मार्कोव मॉडल, कृत्रिम तंत्रिका नेटवर्क, आदि। उदाहरण मान्यता-आधारित फ़्यूज़न रणनीतियाँ एक्शन फ़्रेम हैं, इनपुट वैक्टर और स्लॉट.

निर्णय-आधारित फ़्यूज़न (जिसे लेट फ़्यूज़न के रूप में भी जाना जाता है) संपूर्ण व्याख्या प्राप्त करने के लिए विशिष्ट संवाद-संचालित फ़्यूज़न प्रक्रियाओं का उपयोग करके निकाली गई अर्थ संबंधी जानकारी को मर्ज करता है। निर्णय-आधारित फ़्यूज़न रणनीतियों के उदाहरण टाइप की गई फ़ीचर संरचनाएँ हैं, पिघलाने वाले बर्तन,  सिमेंटिक फ़्रेम,  और समय-मुद्रांकित जाली।

मल्टीमॉडल फ़्यूज़न के संभावित अनुप्रयोगों में सीखने का वातावरण, उपभोक्ता संबंध, सुरक्षा/निगरानी, ​​कंप्यूटर एनीमेशन आदि शामिल हैं। व्यक्तिगत रूप से, मोड को आसानी से परिभाषित किया जाता है, लेकिन प्रौद्योगिकी द्वारा उन्हें एक संयुक्त फ़्यूज़न मानने में कठिनाई उत्पन्न होती है। एल्गोरिदम के लिए आयामीता को ध्यान में रखना कठिन है; वर्तमान गणना क्षमताओं के बाहर चर मौजूद हैं। उदाहरण के लिए, अर्थ संबंधी अर्थ: दो वाक्यों का शाब्दिक अर्थ एक ही हो सकता है लेकिन भावनात्मक जानकारी अलग-अलग हो सकती है।

हाइब्रिड बहु-स्तरीय फ़्यूज़न में, इनपुट तौर-तरीकों का एकीकरण मान्यता और निर्णय स्तरों के बीच वितरित किया जाता है। हाइब्रिड बहु-स्तरीय संलयन में निम्नलिखित तीन पद्धतियाँ शामिल हैं: परिमित-अवस्था ट्रांसड्यूसर, मल्टीमॉडल व्याकरण     और संवाद चलता है.

अस्पष्टता
उपयोगकर्ता के कार्य या आदेश मल्टीमॉडल इनपुट (मल्टीमॉडल संदेश) उत्पन्न करते हैं ), जिसकी व्याख्या सिस्टम द्वारा की जानी है। मल्टीमॉडल संदेश वह माध्यम है जो उपयोगकर्ताओं और मल्टीमॉडल सिस्टम के बीच संचार को सक्षम बनाता है। यह कई तौर-तरीकों के बीच विभिन्न प्रकार के सहयोग पर विचार करके कई तौर-तरीकों के माध्यम से बताई गई जानकारी को मर्ज करके प्राप्त किया जाता है। समय के रिश्ते शामिल तौर-तरीकों और इन तौर-तरीकों से जुड़ी जानकारी के हिस्सों के बीच संबंधों के बीच। मल्टीमॉडल इनपुट के बीच प्राकृतिक मैपिंग, जो कई इंटरैक्शन तौर-तरीकों (दृश्य और श्रवण चैनल और स्पर्श की भावना) द्वारा प्रदान की जाती है, और सूचना और कार्यों का अर्थ मानव-मानव संचार की विशिष्ट समस्याओं, जैसे अस्पष्टता का प्रबंधन करना है। जब इनपुट की एक से अधिक व्याख्या संभव हो तो अस्पष्टता उत्पन्न होती है। एक बहुविध अस्पष्टता दोनों उत्पन्न होते हैं, यदि एक तत्व, जो एक तौर-तरीके द्वारा प्रदान किया जाता है, की एक से अधिक व्याख्या होती है (अर्थात अस्पष्टताएं मल्टीमॉडल स्तर पर प्रचारित होती हैं), और/या यदि प्रत्येक तौर-तरीके से जुड़े तत्वों की एकतरफा व्याख्या की जाती है, लेकिन जानकारी को अलग-अलग संदर्भित किया जाता है तौर-तरीके वाक्य-विन्यास या अर्थ-संबंधी स्तर पर असंगत होते हैं (अर्थात एक मल्टीमॉडल वाक्य जिसका अलग-अलग अर्थ या अलग-अलग वाक्य-विन्यास संरचना होती है)।

अस्पष्टताओं के प्रबंधन में, अस्पष्टताओं को हल करने और उपयोगकर्ता के इनपुट की सही व्याख्या प्रदान करने के तरीकों को तीन मुख्य वर्गों में व्यवस्थित किया गया है: रोकथाम, ए-पोस्टीरियर रिज़ॉल्यूशन और सन्निकटन रिज़ॉल्यूशन विधियाँ।

रोकथाम के तरीके उपयोगकर्ताओं को इंटरैक्शन प्रक्रिया के विभिन्न अनुमत राज्यों के बीच संक्रमण के एक सेट के अनुसार पूर्वनिर्धारित इंटरैक्शन व्यवहार का पालन करने के लिए बाध्य करते हैं। रोकथाम के तरीकों के उदाहरण हैं: प्रक्रियात्मक विधि, भाषा व्याकरण की अभिव्यंजक शक्ति में कमी, भाषा व्याकरण की अभिव्यंजक शक्ति में सुधार। अस्पष्टताओं का ए-पोस्टीरियर समाधान मध्यस्थता दृष्टिकोण का उपयोग करता है। मध्यस्थता तकनीकों के उदाहरण हैं: दोहराव, उदा. तौर-तरीके द्वारा पुनरावृत्ति, मरम्मत की सूक्ष्मता और पूर्ववत करें, और विकल्प.

सन्निकटन समाधान विधियों को असंबद्धता प्रक्रिया में किसी भी उपयोगकर्ता की भागीदारी की आवश्यकता नहीं होती है। उन सभी को कुछ सिद्धांतों के उपयोग की आवश्यकता हो सकती है, जैसे फजी लॉजिक, मार्कोव यादृच्छिक क्षेत्र, बायेसियन नेटवर्क और छिपे छिपा हुआ मार्कोव मॉडल

यह भी देखें

 * डिवाइस की स्वतंत्रता
 * मल्टीमॉडल बायोमेट्रिक सिस्टम
 * मल्टीमॉडल खोज
 * वाक् पहचान
 * W3C MMI|W3C की मल्टीमॉडल इंटरेक्शन गतिविधि - W3C की एक पहल जिसका लक्ष्य वेब पर मल्टीमॉडल इंटरेक्शन परिदृश्यों का समर्थन करने के लिए साधन (ज्यादातर XML) प्रदान करना है।
 * वेब पहुंच
 * तार वाला दस्ताना
 * एक्सएचटीएमएल+वॉयस

बाहरी संबंध

 * W3C Multimodal Interaction Activity
 * XHTML+Voice Profile 1.0, W3C Note 21 December 2001
 * Hoste, Lode, Dumas, Bruno and Signer, Beat: Mudra: A Unified Multimodal Interaction Framework, In Proceedings of the 13th International Conference on Multimodal Interaction (ICMI 2011), Alicante, Spain, November 2011.
 * Toselli, Alejandro Héctor, Vidal, Enrique, Casacuberta, Francisco: Multimodal Interactive Pattern Recognition and Applications, Springer, 2011.