मल्टीमॉडल इंटरेक्शन

From Vigyanwiki

मल्टीमॉडल इंटरैक्शन उपयोगकर्ता को किसी भी सिस्टम के साथ मल्टीपल मॉडेलिटी अर्ताथ मानव-कंप्यूटर इंटरैक्शन प्रदान करता है। इस प्रकार मल्टीमॉडल इंटरफ़ेस डेटा के इनपुट और आउटपुट के लिए कई अलग-अलग उपकरण प्रदान करता है।

परिचय

मल्टीमॉडल मानव-कंप्यूटर इंटरैक्शन संचार के प्राकृतिक विधियों के माध्यम से आभासी और भौतिक वातावरण के साथ बातचीत को संदर्भित करता है,[1] इस प्रकार इसका तात्पर्य यह है कि मल्टीमॉडल इंटरैक्शन अधिक स्वतंत्र और प्राकृतिक संचार को सक्षम बनाता है, जो उपयोगकर्ताओं को इनपुट और आउटपुट दोनों में स्वचालित सिस्टम से संयोजित करता है।[2] इस प्रकार विशेष रूप से मल्टीमॉडल सिस्टम लचीला, कुशल और प्रयोग करने योग्य वातावरण प्रदान कर सकते हैं जो उपयोगकर्ताओं को इनपुट के लिए विभिन्न विधियों जैसे कि भाषण पहचान, लिखावट पहचान, संकेत पहचान और आंखों आँख ट्रैकिंग के माध्यम से बातचीत करने की अनुमति देता है, और सिस्टम द्वारा भाषण संश्लेषण जैसे आउटपुट विधियों के माध्यम से जानकारी प्राप्त करने की अनुमति देता है। इसके आधार पर किसी स्मार्ट ग्राफिक्स और अन्य तौर-तरीके, अवसरपूर्वक संयुक्त होती हैं। इसके आधार पर पुनः मल्टीमॉडल सिस्टम को अस्थायी और प्रासंगिक बाधाओं के अनुसार संयोजन करने वाले विभिन्न विधियों से इनपुट को पहचानना होता है[3] जिससे कि उनकी व्याख्या की जा सके। इस प्रक्रिया को मल्टीमॉडल फ़्यूज़न के रूप में जाना जाता है, और यह नब्बे के दशक से अब तक कई शोध कार्यों का उद्देश्य है।[4][5][6][7][8][9][10][11] फ़्यूज्ड इनपुट की व्याख्या सिस्टम द्वारा की जाती है। स्वाभाविकता और लचीलापन प्रत्येक अलग-अलग विधियों के लिए भिन्न-भिन्न चैनल और उनके साथ उपयोग के लिए से अधिक व्याख्या उत्पन्न कर सकते हैं, और इसके परिणामस्वरूप वे मल्टीमॉडल अस्पष्टता उत्पन्न कर सकते हैं[12] सामान्यतः अशुद्धि, ध्वनि या अन्य समान कारकों के कारण हैं। इस प्रकार अस्पष्टताओं को हल करने के लिए, कई तरीके प्रस्तावित किए गए हैं।[13][14][15][16][17][18] इसके अंत में सिस्टम सुसंगत फीडबैक (विखंडन) के अनुसार व्यवस्थित विभिन्न मोडल चैनलों (अलग-अलग) के माध्यम से उपयोगकर्ता आउटपुट पर लौटता है।[19]

मोबाइल उपकरणों, सेंसर और वेब प्रौद्योगिकियों का व्यापक उपयोग मल्टीमॉडल इंटरैक्शन द्वारा निहित जटिलता को प्रबंधित करने के लिए पर्याप्त कम्प्यूटेशनल संसाधन प्रदान कर सकता है। इसके आधार पर मल्टीमॉडल इंटरैक्शन की जटिलता के प्रबंधन में साझा कम्प्यूटेशनल संसाधनों को सम्मिलित करने के लिए क्लाउड का उपयोग करना अवसर का प्रतिनिधित्व करता है। वास्तव में, क्लाउड कंप्यूटिंग साझा स्केलेबल, कॉन्फ़िगर करने योग्य कंप्यूटिंग संसाधनों को वितरित करने की अनुमति देता है जिन्हें गतिशील और स्वचालित रूप से प्रावधानित और प्रस्तुत किया जा सकता है।[20]

मल्टीमॉडल इनपुट

मल्टीमॉडल इंटरफेस के दो प्रमुख समूहों का विलय हो गया है, वैकल्पिक इनपुट विधियों से संबंधित है और दूसरा संयुक्त इनपुट/आउटपुट से संबंधित है। इंटरफेस के पहले समूह ने पारंपरिक कंप्यूटर कीबोर्ड और माउस (कंप्यूटिंग) इनपुट/आउटपुट से परे विभिन्न उपयोगकर्ता इनपुट मोड को संयोजित किया हैं, जैसे भाषण, पेन, स्पर्श, मैनुअल जेस्चर,[21] और सिर और शरीर की हरकतें इसका प्रमुख उदाहरण हैं।[22] इसके आधार पर सबसे साधारण इंटरफ़ेस दृश्य मोडैलिटी हैं, जैसे उदाहरण के लिए डिस्प्ले, कीबोर्ड और माउस को वॉयस मोडैलिटी जैसे इनपुट के लिए भाषण पहचान, भाषण संश्लेषण और आउटपुट के लिए रिकॉर्ड किए गए ऑडियों के साथ जोड़ता है। चूंकि अन्य तौर-तरीके, जैसे पेन-आधारित इनपुट या हैप्टिक प्रौद्योगिकी इनपुट/आउटपुट का उपयोग किया जा सकता है। मल्टीमॉडल यूजर इंटरफेस मानव-कंप्यूटर इंटरैक्शन (एचसीआई) में शोध क्षेत्र है।

एकाधिक इनपुट विधियों का लाभ उपयोगिता में वृद्धि है: विधियोंकी कमजोरियां दूसरे की पावर से दूर हो जाती हैं। इसके आधार पर छोटे विज़ुअल इंटरफ़ेस और कीपैड वाले मोबाइल डिवाइस पर, शब्द टाइप करना काफी कठिन हो सकता है अपितु कहना बहुत साधारण होता है, उदाहरण के लिए पॉकीप्सी, न्यूयॉर्क इसका प्रमुख उदाहरण हैं। इस पर विचार करें कि आप इन्हीं उपकरणों या सेट टॉप बॉक्स से डिजीटल मीडिया कैटलॉग तक कैसे पहुंच और खोज करेंगे। और वास्तविक दुनिया के उदाहरण में, एंटीसेप्टिक वातावरण बनाए रखने के लिए सर्जिकल टीम के सदस्यों द्वारा ऑपरेटिंग कमरे के वातावरण में रोगी की जानकारी को मौखिक रूप से एक्सेस किया जाता है, और अधिकतम समझ के लिए वास्तविक समय में श्रवण और दृष्टि से प्रस्तुत किया जाता है।

मल्टीमॉडल इनपुट यूजर इंटरफेस का अभिगम्यता पर प्रभाव पड़ता है।[23] इसके आधार पर अच्छी तरह से डिज़ाइन किए गए मल्टीमॉडल एप्लिकेशन का उपयोग विभिन्न प्रकार की अक्षमताओं वाले लोगों द्वारा किया जा सकता है। इस प्रकार दृष्टिबाधित उपयोगकर्ता कुछ कीपैड इनपुट के साथ आवाज के विधियों पर विश्वास करते हैं। इस प्रकार श्रवण क्रिया को बाधित करने के लिए उपयोगकर्ता कुछ भाषण इनपुट के साथ दृश्य पद्धति पर विश्वास करते हैं। इस प्रकार अन्य उपयोगकर्ता स्थितिजन्य रूप से अक्षम होंगे, जैसे उदाहरण के लिए बहुत ध्वनि वाले वातावरण में दस्ताने पहनना, गाड़ी चलाना, या सार्वजनिक स्थान पर क्रेडिट कार्ड नंबर दर्ज करने की आवश्यकता और वे इच्छानुसार उचित विधियों का उपयोग करेंगे। इसी के आधार पर दूसरी ओर, मल्टीमॉडल एप्लिकेशन जिसके लिए उपयोगकर्ताओं को सभी विधियों को संचालित करने में सक्षम होना आवश्यक है, बहुत खराब तरीके से डिज़ाइन किया गया है।

बाजार में इनपुट मल्टीमॉडैलिटी का सबसे आम रूप एक्सएचटीएमएल+वॉयस (उर्फ एक्स+वी) वेब मार्कअप भाषा का उपयोग करता है, जो आईबीएम, MOTOROLA और ओपेरा सॉफ्टवेयर द्वारा विकसित खुला विनिर्देश है। इस प्रकार XHTML+Voice या X+V वर्तमान में विश्वव्यापी वेब संकाय द्वारा विचाराधीन है और इसमें विज़ुअल मार्कअप के लिए एक्स्टेंसिबल हाइपरटेक्स्ट मार्कअप लैंग्वेज, वॉयस मार्कअप के लिए VoiceXML और एक्सटेंसिबल मार्कअप लैंग्वेज भाषाओं को एकीकृत करने के लिए मानक XML इवेंट्स सहित कई W3C अनुशंसाओं को संयोजित किया गया है। इसके आधार पर XHTML+Voice|X+V को सपोर्ट करने वाले मल्टीमॉडल ब्राउज़र में आईबीएम वेबस्फीयर एवरीप्लेस मल्टीमॉडल एनवायरनमेंट, अंतः स्थापित प्रणाली लिनक्स और माइक्रोसॉफ़्ट विंडोज़ के लिए ओपेरा (वेब ​​ब्राउज़र), और विंडोज़ मोबाइल के लिए पहुंच प्रणाली नेटफ्रंट सम्मिलित हैं। इस प्रकार मल्टीमॉडल अनुप्रयोगों को विकसित करने के लिए, सॉफ्टवेयर डेवलपर्स सॉफ़्टवेयर विकास किट का उपयोग कर सकते हैं, जैसे कि आईबीएम वेबस्फीयर मल्टीमॉडल टूलकिट, जो खुला स्त्रोत ग्रहण (सॉफ्टवेयर) सॉफ्टवेयर ढांचा पर आधारित है, जिसमें एक्सएचटीएमएल+वॉयस या एक्स+वी डिबगर, स्रोत कोड संपादक और सिम्युलेटर सम्मिलित है।

मल्टीमॉडल भावना विश्लेषण

मल्टीमॉडल भाषा मॉडल

मल्टीमॉडल आउटपुट

मल्टीमॉडल सिस्टम का दूसरा समूह उपयोगकर्ताओं को मल्टीमीडिया डिस्प्ले और मल्टीमॉडल आउटपुट प्रस्तुत करता है, इस प्रकार मुख्य रूप से दृश्य और श्रवण संकेतों के रूप में इसका उपयोग करते हैं। इस प्रकार इंटरफ़ेस डिजाइनरों ने स्पर्श और घ्राण जैसे अन्य विधियों का भी उपयोग करना प्रारंभ कर दिया है। इस प्रकार मल्टीमॉडल आउटपुट सिस्टम के प्रस्तावित लाभों में तालमेल और अतिरेक सम्मिलित हैं। जो जानकारी कई विधियों के माध्यम से प्रस्तुत की जाती है वह विलय हो जाती है और ही प्रक्रिया के विभिन्न पहलुओं को संदर्भित करती है। बिल्कुल ही जानकारी को संसाधित करने के लिए कई विधियों का उपयोग सूचना हस्तांतरण की बढ़ी हुई बैंडविड्थ प्रदान करता है।[24][25][26]

वर्तमान समय में, मल्टीमॉडल आउटपुट का उपयोग मुख्य रूप से संचार माध्यम और सामग्री के बीच मैपिंग को उत्तम बनाने और डेटा-समृद्ध वातावरण में ध्यान प्रबंधन का समर्थन करने के लिए किया जाता है, जहां ऑपरेटरों को दृश्य ध्यान की काफी मांगों का सामना करना पड़ता है।[27]

मल्टीमॉडल इंटरफ़ेस डिज़ाइन में महत्वपूर्ण कदम विधियों और सूचना और कार्यों के बीच प्राकृतिक मैपिंग का निर्माण है। इस प्रकार श्रवण चैनल कई पहलुओं में दृष्टि से भिन्न है। यह सर्वदिशात्मक, क्षणिक और सदैव आरक्षित है।[27] जिसके आधार पर भाषण आउटपुट, श्रवण जानकारी का रूप, पर अत्यधिक ध्यान दिया गया हैं। इस प्रकार भाषण के उपयोग के लिए कई दिशानिर्देश विकसित किए गए हैं। माइकलिस और विगिन्स (1982) ने सुझाव दिया कि भाषण आउटपुट का उपयोग सरल लघु संदेशों के लिए किया जाना चाहिए जिन्हें बाद में संदर्भित नहीं किया जाएगा। यह भी सिफारिश की गई कि भाषण समय पर तैयार किया जाना चाहिए और तत्काल प्रतिक्रिया की आवश्यकता होती है।

स्पर्श की भावना का उपयोग पहली बार 1950 के दशक के अंत में संचार के माध्यम के रूप में किया गया था।[28] इस प्रकार यह न केवल आशाजनक बल्कि अनोखा संचार माध्यम भी है। इसके आधार पर दृष्टि और श्रवण के विपरीत, एचसीआई में नियोजित दो पारंपरिक इंद्रियां, स्पर्श की भावना समीपस्थ है: इस प्रकार यह उन वस्तुओं को महसूस करती है जो शरीर के संपर्क में हैं, और यह द्विदिश है क्योंकि यह पर्यावरण पर धारणा और कार्य दोनों का समर्थन करती है।

श्रवण फीडबैक के उदाहरणों में कंप्यूटर ऑपरेटिंग सिस्टम में श्रवण चिह्न सम्मिलित हैं, जो इसके आधार पर उपयोगकर्ताओं के कार्यों को दर्शाते हैं, जैसे उदाहरण के लिए फ़ाइल हटाना, फ़ोल्डर खोलना, त्रुटि., वाहनों में नेविगेशनल मार्गदर्शन प्रस्तुत करने के लिए भाषण आउटपुट, और आधुनिक हवाई जहाज कॉकपिट पर चेतावनी पायलटों के लिए भाषण आउटपुट का उपयोग करते हैं। इस प्रकार स्पर्श संकेतों के उदाहरणों में अंधे स्थान पर कार के चालकों को चेतावनी देने के लिए टर्न-सिग्नल लीवर का कंपन, ड्राइवरों को चेतावनी के रूप में ऑटो सीट का कंपन, और आधुनिक विमान पर स्टिक शेकर पायलटों को आसन्न स्टाल के प्रति सचेत करना सम्मिलित है।[27]

सेंसर प्रौद्योगिकी का उपयोग करके अदृश्य इंटरफ़ेस स्थान उपलब्ध हो गए हैं। इसके आधार पर इन्फ्रारेड, अल्ट्रासाउंड और कैमरे सभी अब आमतौर पर उपयोग किए जाते हैं।[29] इस प्रकार सामग्री के साथ इंटरफेसिंग की पारदर्शिता को सार्थक मैपिंग के माध्यम से तत्काल और सीधा लिंक प्रदान करके बढ़ाया जाता है, इस प्रकार उपयोगकर्ता को इनपुट पर प्रत्यक्ष और तत्काल प्रतिक्रिया मिलती है और सामग्री प्रतिक्रिया (गिब्सन 1979) इंटरफ़ेस सामर्थ्य बन जाती है।

मल्टीमॉडल फ़्यूज़न

विभिन्न इनपुट विधियों से जानकारी को एकीकृत करने और उन्हें पूर्ण कमांड में संयोजित करने की प्रक्रिया को मल्टीमॉडल फ़्यूज़न कहा जाता है।[5] साहित्य में, मुख्य वास्तुशिल्प स्तरों (मान्यता और निर्णय) के अनुसार, संलयन प्रक्रिया के लिए तीन मुख्य दृष्टिकोण प्रस्तावित किए गए हैं, जिस पर इनपुट संकेतों का संलयन किया जा सकता है: इसकी मान्यता पर आधारित,[9][10][30] निर्णय आधारित,[7][8][11][31][32][33][34] और हाइब्रिड बहु-स्तरीय संलयन हैं।[4][6][35][36][37][38][39][40]

मान्यता-आधारित संलयन जिसे प्रारंभिक संलयन के रूप में भी जाना जाता है, जिसमें एकीकरण तंत्र का उपयोग करके प्रत्येक मोडल पहचानकर्ता के परिणामों को विलय करना सम्मिलित है, जैसे, उदाहरण के लिए, सांख्यिकीय एकीकरण तकनीक, एजेंट सिद्धांत, छिपे हुए मार्कोव मॉडल, कृत्रिम तंत्रिका नेटवर्क, आदि। इस प्रकार उदाहरण के लिए मान्यता-आधारित फ़्यूज़न रणनीतियाँ एक्शन फ़्रेम हैं,[30] जैसे इनपुट वैक्टर[9] और स्लॉट इसका प्रमुख उदाहरण हैं।[10]

निर्णय-आधारित फ़्यूज़न (जिसे लेट फ़्यूज़न के रूप में भी जाना जाता है) संपूर्ण व्याख्या प्राप्त करने के लिए विशिष्ट संवाद-संचालित फ़्यूज़न प्रक्रियाओं का उपयोग करके निकाली गई अर्थ संबंधी जानकारी को मर्ज करता है। इस प्रकार निर्णय लेने के अनुसार इस पर आधारित फ़्यूज़न रणनीतियों के उदाहरण टाइप की गई फ़ीचर संरचनाएँ हैं,[31][36] इस प्रकार पिघलाने वाले बर्तन,[33][34]सिमेंटिक फ़्रेम,[7][11]और समय-मुद्रांकित फिल्टर इसका उदाहरण हैं।[8]

मल्टीमॉडल फ़्यूज़न के संभावित अनुप्रयोगों में सीखने का वातावरण, उपभोक्ता संबंध, सुरक्षा/निगरानी, ​​कंप्यूटर एनीमेशन आदि सम्मिलित हैं। इसके आधार पर व्यक्तिगत रूप से, मोड को सरलता से परिभाषित किया जाता है, अपितु प्रौद्योगिकी द्वारा उन्हें संयुक्त फ़्यूज़न मानने में कठिनाई उत्पन्न होती है।[41] इस कलन विधि के लिए आयामीता को ध्यान में रखना कठिन है; वर्तमान गणना क्षमताओं के बाहर चर मौजूद हैं। उदाहरण के लिए, अर्थ संबंधी अर्थ: दो वाक्यों का शाब्दिक अर्थ ही हो सकता है, अपितु भावनात्मक जानकारी अलग-अलग हो सकती है।[41]

हाइब्रिड बहु-स्तरीय फ़्यूज़न में, इनपुट विधियों का एकीकरण मान्यता और निर्णय स्तरों के बीच वितरित किया जाता है। हाइब्रिड बहु-स्तरीय संलयन में निम्नलिखित तीन पद्धतियाँ सम्मिलित हैं: परिमित-अवस्था ट्रांसड्यूसर,[36]मल्टीमॉडल व्याकरण[6][35][37][38][39][40][42] और संवाद चलता है.[43]

अस्पष्टता

उपयोगकर्ता के कार्य या आदेश मल्टीमॉडल इनपुट मल्टीमॉडल संदेशो को उत्पन्न करते हैं[3], जिसकी व्याख्या सिस्टम द्वारा की जानी आवश्यक होती है। इस प्रकार मल्टीमॉडल संदेश वह माध्यम है जो उपयोगकर्ताओं और मल्टीमॉडल सिस्टम के बीच संचार को सक्षम बनाता है। यह कई विधियों के बीच विभिन्न प्रकार के सहयोग पर विचार करके कई विधियों के माध्यम से बताई गई जानकारी को मर्ज करके प्राप्त किया जाता है।[44] समय से जुड़े [45] सम्मिलित विधियों और इन विधियों से जुड़ी जानकारी के हिस्सों के बीच संबंधों के बीच स्थापित करती हैं।[46] इस प्रकार मल्टीमॉडल इनपुट के बीच प्राकृतिक मैपिंग, जो कई इंटरैक्शन विधियों के लिए दृश्य और श्रवण चैनल और स्पर्श की भावना द्वारा प्रदान की जाती है, और सूचना और कार्यों का अर्थ मानव-मानव संचार की विशिष्ट समस्याओं, जैसे अस्पष्टता का प्रबंधन करना है। जब इनपुट की से अधिक व्याख्या संभव हो तो अस्पष्टता उत्पन्न होती है। जिसके लिए बहुविध अस्पष्टता[12] दोनों उत्पन्न होते हैं, यदि तत्व, जो विधियोंद्वारा प्रदान किया जाता है, की से अधिक व्याख्या होती है, अर्थात अस्पष्टताएं मल्टीमॉडल स्तर पर प्रचारित होती हैं, और/या यदि प्रत्येक विधियोंसे जुड़े तत्वों के द्वारा इसकी व्याख्या की जाती है, अपितु इस जानकारी को अलग-अलग संदर्भित किया जाता है, जिसके अनुसार विधियोंवाक्य-विन्यास या अर्थ-संबंधी स्तर पर असंगत होते हैं, अर्थात मल्टीमॉडल वाक्य जिसका अलग-अलग अर्थ या अलग-अलग वाक्य-विन्यास संरचना होती है।

अस्पष्टताओं के प्रबंधन में,[14]अस्पष्टताओं को हल करने और उपयोगकर्ता के इनपुट की सही व्याख्या प्रदान करने के तरीकों को तीन मुख्य वर्गों में व्यवस्थित किया गया है: रोकथाम, ए-पोस्टीरियर रिज़ॉल्यूशन और सन्निकटन रिज़ॉल्यूशन विधियाँ प्राप्त होती हैं।[13][15]

रोकथाम के तरीके उपयोगकर्ताओं को इंटरैक्शन प्रक्रिया के विभिन्न अनुमत राज्यों के बीच संक्रमण के सेट के अनुसार पूर्वनिर्धारित इंटरैक्शन व्यवहार का पालन करने के लिए बाध्य करते हैं। रोकथाम के तरीकों के उदाहरण हैं: प्रक्रियात्मक विधि,[47] भाषा व्याकरण की अभिव्यंजक शक्ति में कमी,[48] भाषा व्याकरण की अभिव्यंजक शक्ति में सुधार किया जाता हैं।[49] अस्पष्टताओं का ए-पोस्टीरियर समाधान मध्यस्थता दृष्टिकोण का उपयोग करता है।[16] इस प्रकार मध्यस्थता तकनीकों के उदाहरण हैं: इसके दोहराव के लिए उदाहरण के लिए उक्त विधियों द्वारा पुनरावृत्ति,[16]मरम्मत की सूक्ष्मता[50] और पूर्ववत करें,[17] और विकल्प प्राप्त होते हैं।[18]

इस प्रकार के फलन के समाधान से जुड़ी विधियों को असंबद्धता प्रक्रिया में किसी भी उपयोगकर्ता की भागीदारी की आवश्यकता नहीं होती है। उन सभी को कुछ सिद्धांतों के उपयोग की आवश्यकता हो सकती है, जैसे फजी लॉजिक, मार्कोव यादृच्छिक क्षेत्र, बायेसियन नेटवर्क और छिपा हुआ मार्कोव मॉडल इसका प्रमुख उदाहरण हैं।[13][15]

यह भी देखें

संदर्भ

  1. Bourguet, M.L. (2003). "Designing and Prototyping Multimodal Commands". Proceedings of Human-Computer Interaction (INTERACT'03), pp. 717-720.
  2. Stivers, T., Sidnell, J. Introduction: Multimodal interaction. Semiotica, 156(1/4), pp. 1-20. 2005.
  3. 3.0 3.1 Caschera M. C., Ferri F., Grifoni P. (2007). "Multimodal interaction systems: information and time features". International Journal of Web and Grid Services (IJWGS), Vol. 3 - Issue 1, pp 82-99.
  4. 4.0 4.1 D'Ulizia, A., Ferri, F. and Grifoni, P. (2010). "Generating Multimodal Grammars for Multimodal Dialogue Processing". IEEE Transactions on Systems, Man and Cybernetics, Part A: Systems and Humans, Vol 40, no 6, pp. 1130 – 1145.
  5. 5.0 5.1 D'Ulizia , A. (2009). "Exploring Multimodal Input Fusion Strategies". In: Grifoni P (ed) Handbook of Research on Multimodal Human Computer Interaction and Pervasive Services: Evolutionary Techniques for Improving Accessibility. IGI Publishing, pp. 34-57.
  6. 6.0 6.1 6.2 Sun, Y., Shi, Y., Chen, F. and Chung , V.(2007). "An Efficient Multimodal Language Processor for Parallel Input Strings in Multimodal Input Fusion," in Proc. of the international Conference on Semantic Computing, pp. 389-396.
  7. 7.0 7.1 7.2 Russ, G., Sallans, B., Hareter, H. (2005). "Semantic Based Information Fusion in a Multimodal Interface". International Conference on Human-Computer Interaction (HCI'05), Las Vegas, Nevada, USA, 20–23 June, pp 94-100.
  8. 8.0 8.1 8.2 Corradini, A., Mehta M., Bernsen, N.O., Martin, J.-C. (2003). "Multimodal Input Fusion in Human-Computer Interaction on the Example of the on-going NICE Project". In Proceedings of the NATO-ASI conference on Data Fusion for Situation Monitoring, Incident Detection, Alert and Response Management, Yerevan, Armenia.
  9. 9.0 9.1 9.2 Pavlovic, V.I., Berry, G.A., Huang, T.S. (1997). "Integration of audio/visual information for use in human-computer intelligent interaction". Proceedings of the 1997 International Conference on Image Processing (ICIP '97), Volume 1, pp. 121-124.
  10. 10.0 10.1 10.2 Andre, M., Popescu, V.G., Shaikh, A., Medl, A., Marsic, I., Kulikowski, C., Flanagan J.L. (1998). "Integration of Speech and Gesture for Multimodal Human-Computer Interaction". In Second International Conference on Cooperative Multimodal Communication. 28–30 January, Tilburg, The Netherlands.
  11. 11.0 11.1 11.2 Vo, M.T., Wood, C. (1996). "Building an application framework for speech and pen input integration in multimodal learning interfaces". In Proceedings of the Acoustics, Speech, and Signal Processing (ICASSP'96), May 7–10, IEEE Computer Society, Volume 06, pp. 3545-3548.
  12. 12.0 12.1 Caschera, M.C. , Ferri, F. , Grifoni, P. (2013). "From Modal to Multimodal Ambiguities: a Classification Approach", Journal of Next Generation Information Technology (JNIT), Vol. 4, No. 5, pp. 87 -109.
  13. 13.0 13.1 13.2 Caschera, M.C. , Ferri, F. , Grifoni, P. (2013). InteSe: An Integrated Model for Resolving Ambiguities in Multimodal Sentences". IEEE Transactions on Systems, Man, and Cybernetics: Systems, Volume: 43, Issue: 4, pp. 911 - 931.18. Spilker, J., Klarner, M., Görz, G. (2000). "Processing Self Corrections in a speech to speech system". COLING 2000. pp. 1116-1120.
  14. 14.0 14.1 Caschera M.C., Ferri F., Grifoni P., (2007). "The Management of ambiguities". In Visual Languages for Interactive Computing: Definitions and Formalizations. IGI Publishing. pp.129-140.
  15. 15.0 15.1 15.2 J. Chai, P. Hong, and M. X. Zhou, (2004 )."A probabilistic approach to reference resolution in multimodal user interface" in Proc. 9th Int. Conf. Intell. User Interf., Madeira, Portugal, Jan. 2004, pp. 70–77.
  16. 16.0 16.1 16.2 Dey, A. K. Mankoff , J., (2005). "Designing mediation for context-aware applications". ACM Trans. Comput.-Hum. Interact. 12(1), pp. 53-80.
  17. 17.0 17.1 Spilker, J., Klarner, M., Görz, G. (2000). "Processing Self Corrections in a speech to speech system". COLING 2000. pp. 1116-1120.
  18. 18.0 18.1 Mankoff, J., Hudson, S.E., Abowd, G.D. (2000). "Providing integrated toolkit-level support for ambiguity in recognition-based interfaces". Proceedings of ACM CHI'00 Conference on Human Factors in Computing Systems. pp. 368 – 375.
  19. Grifoni P (2009) Multimodal fission. In: Multimodal human computer interaction and pervasive services. IGI Global, pp 103–120
  20. Patrizia Grifoni, Fernando Ferri, Maria Chiara Caschera, Arianna D'Ulizia, Mauro Mazzei, "MIS: Multimodal Interaction Services in a cloud perspective", JNIT: Journal of Next Generation Information Technology, Vol. 5, No. 4, pp. 01 ~ 10, 2014
  21. Kettebekov, Sanshzar, and Rajeev Sharma (2001). "Toward Natural Gesture/Speech Control of a Large Display." ProceedingsEHCI '01 Proceedings of the 8th IFIP International Conference on Engineering for Human-Computer Interaction Pages 221-234
  22. Marius Vassiliou, V. Sundareswaran, S. Chen, R. Behringer, C. Tam, M. Chan, P. Bangayan, and J. McGee (2000), "Integrated Multimodal Human-Computer Interface and Augmented Reality for Interactive Display Applications," in Darrel G. Hopper (ed.) Cockpit Displays VII: Displays for Defense Applications (Proc. SPIE . 4022), 106-115. ISBN 0-8194-3648-8
  23. Vitense, H.S.; Jacko, J.A.; Emery, V.K. (2002). "Multimodal feedback: establishing a performance baseline for improved access by individuals with visual impairments". ACM Conf. on Assistive Technologies.
  24. Oviatt, S. (2002), "Multimodal interfaces", in Jacko, J.; Sears, A (eds.), The Human-Computer Interaction Handbook (PDF), Lawrence Erlbaum
  25. Bauckhage, C.; Fritsch, J.; Rohlfing, K.J.; Wachsmuth, S.; Sagerer, G. (2002). "एकीकृत भाषण-और छवि समझ का मूल्यांकन करना". Int. Conf. on Multimodal Interfaces. doi:10.1109/ICMI.2002.1166961.
  26. Ismail, N.A.; O'Brien, E.A. (2008). "वेब-आधारित व्यक्तिगत डिजिटल फोटो ब्राउजिंग में मल्टीमॉडल इंटरैक्शन सक्षम करना" (PDF). Int. Conf. on Computer and Communication Engineering. Archived from the original (PDF) on 2011-07-18. Retrieved 2010-03-03.
  27. 27.0 27.1 27.2 Sarter, N.B. (2006). "Multimodal information presentation: Design guidance and research challenges". International Journal of Industrial Ergonomics. 36 (5): 439–445. doi:10.1016/j.ergon.2006.01.007.
  28. Geldar, F.A. (1957). "स्पर्श संबंधी साक्षरता में रोमांच". American Psychologist. 12 (3): 115–124. doi:10.1037/h0040416.
  29. Brooks, A.; Petersson, E. (2007). "SoundScapes: non-formal learning potentials from interactive VEs". SIGGRAPH. doi:10.1145/1282040.1282059.
  30. 30.0 30.1 Vo, M.T. (1998). "A framework and Toolkit for the Construction of Multimodal Learning Interfaces", PhD. Thesis, Carnegie Mellon University, Pittsburgh, USA.
  31. 31.0 31.1 Cohen, P.R.; Johnston, M.; McGee, D.; Oviatt, S.L.; Pittman, J.; Smith, I.A.; Chen, L.; Clow, J. (1997). "Quickset: Multimodal interaction for distributed applications", ACM Multimedia, pp. 31-40.
  32. Johnston, M. (1998). "Unification-based Multimodal Parsing". Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics (COLING-ACL '98), August 10–14, Université de Montréal, Montreal, Quebec, Canada. pp. 624-630.
  33. 33.0 33.1 Nigay, L.; Coutaz, J. (1995). "A generic platform for addressing the multimodal challenge". Proceedings of the Conference on Human Factors in Computing Systems, ACM Press.
  34. 34.0 34.1 Bouchet, J.; Nigay, L.; Ganille, T. (2004). "Icare software components for rapidly developing multimodal interfaces". ICMI '04: Proceedings of the 6th international conference on Multimodal interfaces (New York, NY, USA), ACM, pp. 251-258.
  35. 35.0 35.1 D'Ulizia, A.; Ferri, F.; Grifoni P. (2007). "A Hybrid Grammar-Based Approach to Multimodal Languages Specification", OTM 2007 Workshop Proceedings, 25–30 November 2007, Vilamoura, Portugal, Springer-Verlag, Lecture Notes in Computer Science 4805, pp. 367-376.
  36. 36.0 36.1 36.2 Johnston, M.; Bangalore, S. (2000). "Finite-state Multimodal Parsing and Understanding", In Proceedings of the International Conference on Computational Linguistics, Saarbruecken, Germany.
  37. 37.0 37.1 Sun, Y.; Chen, F.; Shi, Y.D.; Chung, V. (2006). "A novel method for multi-sensory data fusion in multimodal human computer interaction". In Proceedings of the 20th conference of the computer-human interaction special interest group (CHISIG) of Australia on Computer-human interaction: design: activities, artefacts and environments, Sydney, Australia, pp. 401-404
  38. 38.0 38.1 Shimazu, H.; Takashima, Y. (1995). "Multimodal Definite Clause Grammar," Systems and Computers in Japan, vol. 26, no 3, pp. 93-102.
  39. 39.0 39.1 Johnston, M.; Bangalore, S. (2005). "Finite-state multimodal integration and understanding," Nat. Lang. Eng, Vol. 11, no. 2, pp. 159-187.
  40. 40.0 40.1 Reitter, D.; Panttaja, E. M.; Cummins, F. (2004). "UI on the fly: Generating a multimodal user interface," in Proc. of HLT-NAACL-2004, Boston, Massachusetts, USA.
  41. 41.0 41.1 Guan, Ling. "मल्टीमॉडल सूचना संलयन के लिए तरीके और तकनीकें" (PDF). Circuits & Systems Society.
  42. D'Ulizia, A.; Ferri, F.; Grifoni P. (2011). "A Learning Algorithm for Multimodal Grammar Inference", IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics, Vol. 41 (6), pp. 1495 - 1510.
  43. Pérez, G.; Amores, G.; Manchón, P. (2005). "Two strategies for multimodal fusion". In Proceedings of Multimodal Interaction for the Visualization and Exploration of Scientific Data, Trento, Italy, 26–32.
  44. Martin, J.C. (1997). "Toward intelligent cooperation between modalities: the example of a system enabling multimodal interaction with a map", Proceedings of International Joint Conference on Artificial Intelligence (IJCAI'97) Workshop on 'Intelligent Multimodal Systems', Nagoya, Japan
  45. Allen, J.F.; Ferguson, G. (1994). "Actions and events in interval temporal logic", Journal of Logic and Computation, Vol. 4, No. 5, pp.531–579
  46. Bellik, Y. (2001). "Technical requirements for a successful multimodal interaction", International Workshop on Information Presentation and Natural Multimodal Dialogue, Verona, Italy, 14–15 December
  47. Lee, Y.C.; Chin, F. (1995). "An Iconic Query Language for Topological Relationship in GIS". International Journal of geographical Information Systems 9(1). pp. 25-46
  48. Calcinelli, D.; Mainguenaud, M. (1994). "Cigales, a visual language for geographic information system: the user interface". Journal of Visual Languages and Computing 5(2). pp. 113-132
  49. Ferri, F.; Rafanelli, M. (2005). "GeoPQL: A Geographical Pictorial Query Language That Resolves Ambiguities in Query Interpretation". J. Data Semantics III. pp.50-80
  50. Suhm, B., Myers, B. and Waibel, A. (1999). "Model-based and empirical evaluation of multimodal interactive error correction". In Proc. Of CHI'99, May, 1999, pp. 584-591

बाहरी संबंध