हस्तलिपि अभिज्ञान

हस्तलिपि अभिज्ञान (HWR), जिसे हस्तलिपि पाठ्य पुस्तक अभिज्ञान के रूप में भी जाना जाता है, कागज़ी आलेखों, फोटोग्राफ, टच स्क्रीन और अन्य उपकरणों जैसे स्रोतों से सुगम हस्तलिखित इनपुट प्राप्त करने और व्याख्या करने की कंप्यूटर की क्षमता है। लिखित पाठ्य पुस्तक की छवि को दृक् रेखाचित्रण (ऑप्टिकल कैरेक्टर रिकग्निशन) या इंटेलीजेंट वर्ड रिकग्निशन द्वारा पेपर से "ऑफ लाइन" का अनुभव किया जा सकता है। वैकल्पिक रूप से, पेन टिप की गतिविधियों को "ऑन लाइन" से अनुभव किया जा सकता है, उदाहरण के लिए पेन-आधारित कंप्यूटर स्क्रीन सतह द्वारा, सामान्यतः उपलब्ध हैं। एक हस्तलिपि समरूपता प्रणाली स्वरूपण को संभालती है, वर्णों में सही विभाजन करती है, और सबसे प्रशंसनीय शब्द ढूंढती है।

ऑफ़लाइन मान्यता
ऑफ़लाइन हस्तलिपि समरूपता में एक छवि में विषय का स्वचालित रूप से अक्षर कोड में रूपांतरण सम्मलित होता है जो कंप्यूटर और पाठ-प्रसंस्करण अनुप्रयोगों में उपयोग करने योग्य होता है। इस फॉर्म द्वारा प्राप्त डेटा को लिखावट का स्थिर प्रतिनिधित्व माना जाता है। ऑफ़लाइन हस्तलिपि पहचानना तुलनात्मक रूप से कठिन है, चूंकि अलग-अलग लोगों की हस्तलिपि शैली अलग-अलग होती है। और, आज की स्थिति के अनुसार, OCR इंजन मुख्य रूप से मशीन मुद्रित विषय और ICR विषय पर केंद्रित हैं।

चरित्र निष्कर्षण
ऑफ़लाइन चरित्र पहचान में अधिकांशतः किसी प्रपत्र या आलेख को स्कैन करना सम्मलित होता है। इसका उद्देश्य है कि स्कैन की गई छवि में सम्मलित अलग-अलग स्वरूपों को निकालने की आवश्यकता होगी। ऐसे उपकरण सम्मलित हैं जो इस चरण को निष्पादित करने में सक्षम हैं। चूंकि, इस चरण में कई सामान्य निर्बलता हैं। सबसे सामान्यः तब होता है जब जुड़े हुए वर्ण दोनों वर्णों वाली एकल उप-छवि के रूप में लौटाए जाते हैं। यह समरूपता चरण में एक बड़ी समस्या का कारण बनता है। फिर भी कई कलनविधि उपलब्ध हैं जो जुड़े हुए स्वरूपों के विपत्ति को कम करते हैं।

चरित्र पहचान
अलग-अलग वर्ण निकाले जाने के बाद, संबंधित कंप्यूटर वर्ण की पहचान करने के लिए एक समरूपता यन्त्र का उपयोग किया जाता है। वर्तमान में कई अलग-अलग समरूपता तकनीकें उपलब्ध हैं।

सुविधा निष्कर्षण
रूपक निष्कर्षण तंत्रिका नेटवर्क पहचानकर्ताओं के समान ही काम करता है। चूंकि, प्रोग्रामर को उन गुणों को स्वतः रूप से निर्धारित करना होगा जो उन्हें महत्वपूर्ण लगते हैं। यह दृष्टिकोण पहचानकर्ता को समरूपता में प्रयुक्त गुणों पर अधिक नियंत्रण देता है। फिर भी इस दृष्टिकोण का उपयोग करने वाली किसी भी प्रणाली को तंत्रिका नेटवर्क की तुलना में काफी अधिक विकास समय की आवश्यकता होती है चूंकि गुण स्वचालित रूप से नहीं सीखे जाते हैं।

आधुनिक तकनीक
जहां पारंपरिक तकनीकें समरूपता के लिए अलग-अलग स्वरूपों को खंडित करने पर ध्यान केंद्रित करती हैं, वहीं आधुनिक तकनीकें विषय की खंडित पंक्ति में सभी स्वरूपों को पहचानने पर ध्यान केंद्रित करती हैं। विशेष रूप से वे मशीन लर्निंग तकनीकों पर ध्यान केंद्रित करते हैं जो पहले उपयोग की गई सीमित रूपलेख अभियांत्रिकी से बचते हुए दृश्य सुविधाओं को सीखने में सक्षम हैं। अत्याधुनिक विधियां पाठ्य प्रणाली छवि की कई ओवरलैपिंग विंडो पर दृश्य सुविधाओं को निकालने के लिए कन्वेन्शनल नेटवर्क का उपयोग करती हैं, जिसका उपयोग आवर्ती तंत्रिका नेटवर्क चरित्र संभावनाओं का उत्पादन करने के लिए करता है।

ऑनलाइन मान्यता
ऑनलाइन हस्तलिपि समरूपता में विषय का स्वचालित रूपांतरण सम्मलित होता है चूंकि यह एक विशेष डिजिटीज़ेर या PDA पर लिखा जाता है, जहां एक सेंसर पेन-टिप मूवमेंट के साथ-साथ पेन-अप/पेन-डाउन स्विचिंग को भी पकड़ लेता है। इस प्रकार के डेटा को डिजिटल स्याही के रूप में जाना जाता है और इसे हस्तलिपि का डिजिटल प्रतिनिधित्व माना जा सकता है। प्राप्त सिग्नल को अक्षर कोड में परिवर्तित किया जाता है जो कंप्यूटर और टेक्स्ट-प्रोसेसिंग अनुप्रयोगों में प्रयोग करने योग्य होते हैं।

ऑनलाइन हस्तलिपि समरूपता अंतरापृष्ठ के तत्वों में सामान्यतः सम्मलित हैं:


 * उपयोगकर्ता के लिखने के लिए एक कलम या लेखनी सम्मलित है।
 * एक स्पर्श संवेदनशील सतह, जिसे आउटपुट डिस्प्ले के साथ एकीकृत या उसके निकट किया जा सकता है।
 * एक सॉफ्टवेयर एप्लिकेशन जो लेखन सतह पर स्टाइलस की गतिविधियों की व्याख्या करता है, परिणामी रेखा को डिजिटल विषय में अनुवादित करता है।

ऑनलाइन हस्तलिपि समरूपता की प्रक्रिया को कुछ सामान्य चरणों में विभाजित किया जा सकता है:


 * प्रीप्रोसेसिंग,
 * सुविधा निष्कर्षण और
 * वर्गीकरण

प्रीप्रोसेसिंग का उद्देश्य इनपुट डेटा में अप्रासंगिक जानकारी को त्यागना है, जो मान्यता को नकारात्मक रूप से प्रभावित कर सकता है। यह गति और सटीकता से संबंधित है। प्रीप्रोसेसिंग में सामान्यतः बाइनराइज़ेशन, सामान्यीकरण, सैंपलिंग, स्मूथिंग और डीनोइज़िंग सम्मलित होते हैं। दूसरा चरण फीचर निष्कर्षण है। प्रीप्रोसेसिंग एल्गोरिदम से प्राप्त दो- या उच्च-आयामी वेक्टर फ़ील्ड में से, उच्च-आयामी डेटा निकाला जाता है। इस कदम का उद्देश्य मान्यता मॉडल के लिए महत्वपूर्ण जानकारी को उजागर करना है। इस डेटा में पेन का दबाव, वेग या लिखने की दिशा में बदलाव जैसी जानकारी सम्मलित हो सकती है। अंतिम बड़ा कदम वर्गीकरण है. इस चरण में, निकाले गए फीचर्स को अलग-अलग वर्गों में मैप करने के लिए विभिन्न मॉडलों का उपयोग किया जाता है और इस प्रकार उन वर्णों या शब्दों की पहचान की जाती है जो फीचर्स का प्रतिनिधित्व करते हैं।

हार्डवेयर
कीबोर्ड इनपुट के प्रतिस्थापन के रूप में हस्तलिपि समरूपता को सम्लित करने वाले वाणिज्यिक उत्पाद 1980 के दशक की आरंभ में पेश किए गए थे। उदाहरणों में पेंसेप्ट पेनपैड और इन्फोराइट पॉइंट-ऑफ-सेल टर्मिनल जैसे हस्तलेखन टर्मिनल सम्मलित हैं। पर्सनल कंप्यूटर के लिए बड़े उपभोक्ता बाजार के आगमन के साथ, पर्सनल कंप्यूटर पर कीबोर्ड और माउस को सिंगल पॉइंटिंग/हैंडराइटिंग सिस्टम से बदलने के लिए कई वाणिज्यिक उत्पाद पेश किए गए, जैसे कि पेंसेप्ट, CIC और अन्य. पहला व्यावसायिक रूप से उपलब्ध टैबलेट-प्रकार का पोर्टेबल कंप्यूटर GRID सिस्टम्स का GIRD पैड था, जिसे सितंबर 1989 में जारी किया गया था। इसका ऑपरेटिंग सिस्टम MS-डॉस पर आधारित था।

1990 के दशक की आरंभ में,NCR, IBM और EO सहित हार्डवेयर निर्माताओं ने GO कॉर्प द्वारा विकसित पेनप्वाइंट ऑपरेटिंग सिस्टम पर चलने वाले टैबलेट कंप्यूटर जारी किए है। पेनपॉइंट ने हस्तलिपि समरूपता और इशारों का उपयोग किया और तीसरे पक्ष के सॉफ़्टवेयर को सुविधाएं प्रदान कीं है। IBM का टैबलेट कंप्यूटर थिंकपैड नाम का उपयोग करने वाला पहला कंप्यूटर था और IBM की हस्तलिपि समरूपता का उपयोग करता था। इस पहचान प्रणाली को बाद में पेन कंप्यूटिंग के लिए माइक्रोसॉफ्ट विंडोज़ और OS/2 के लिए IBM के पेन में पोर्ट किया गया था। इनमें से कोई भी व्यावसायिक रूप से सफल नहीं था।

इलेक्ट्रॉनिक्स में प्रगति ने हस्तलिपि समरूपता के लिए आवश्यक कंप्यूटिंग शक्ति को टैबलेट कंप्यूटर की तुलना में छोटे फॉर्म फैक्टर में फिट करने की अनुमति दी, और हस्तलिपि समरूपता को अधिकांशतः हाथ से पकड़े गए PDA के लिए इनपुट विधि के रूप में उपयोग किया जाता है। लिखित इनपुट प्रदान करने वाला पहला PDA एप्पल न्यूटन था, जिसने जनता को एक सुव्यवस्थित उपयोगकर्ता इंटरफ़ेस के लाभ से अवगत कराया था। चूंकि, सॉफ्टवेयर की अविश्वसनीयता के कारण यह उपकरण व्यावसायिक रूप से सफल नहीं रहा, जो उपयोगकर्ता के लेखन पैटर्न को सीखने की कोशिश करता था। न्यूटन OS 2.0 के जारी होने तक, जिसमें हस्तलिपि की समरूपता में काफी सुधार हुआ था, जिसमें मॉडललेस त्रुटि सुधार जैसी वर्तमान पहचान प्रणालियों में अभी भी नहीं पाई जाने वाली अनूठी विशेषताएं सम्मलित थीं, बड़े पैमाने पर नकारात्मक पहली छाप बनी थी। ऐप्पल न्यूटन के बंद होने के बाद, इस सुविधा को मैक OS X 10.2 और बाद में इंकवेल के रूप में सम्मलित किया गया था।

पाम ने बाद में ग्रैफ़िटी समरूपता प्रणाली पर आधारित PDA की एक सफल श्रृंखला प्रारंभ की थी। ग्रैफ़िटी ने प्रत्येक वर्ण के लिए "यूनिस्ट्रोक्स", या एक-स्ट्रोक रूपों के एक सेट को परिभाषित करके प्रयोज्य में सुधार किया था। इससे गलत इनपुट की संभावना कम हो गई, चूंकि स्ट्रोक पैटर्न को याद रखने से उपयोगकर्ता के लिए सीखने की अवस्था में वृद्धि हुई थी। ग्रैफ़िटी लिखावट मान्यता को ज़ेरॉक्स द्वारा रखे गए पेटेंट का उल्लंघन करते हुए पाया गया, और पाम ने ग्रैफ़िटी को CIC हस्तलिपि समरूपता के लाइसेंस प्राप्त संस्करण के साथ बदल दिया, जो यूनिस्ट्रोक रूपों का समर्थन करते हुए, ज़ेरॉक्स पेटेंट से पहले का था। उल्लंघन में अदालती निष्कर्ष की अपीलों पर परिवर्तन कर दिया गया, और फिर बाद की अपील पर फिर से परिवर्तन किया गया था। बाद में इसमें सम्मलित पक्षों ने इस और अन्य पेटेंट से संबंधित समझौते पर बातचीत की थी।

टैबलेट PC एक नोटबुक कंप्यूटर है जिसमें एक डिजिटाइज़र टैबलेट और एक स्टाइलस होता है, जो उपयोगकर्ता को यूनिट की स्क्रीन पर हाथ से टेक्स्ट लिखने की अनुमति देता है। ऑपरेटिंग सिस्टम लिखावट को पहचानता है और उसे टेक्स्ट में परिवर्तित करता है। विंडोज विस्टा और विंडोज 7 में वैयक्तिकरण सुविधाएँ सम्मलित हैं जो उपयोगकर्ता के अंग्रेजी, जापानी, चीनी पारंपरिक, चीनी सरलीकृत और कोरियाई के लिए लेखन पैटर्न या शब्दावली सीखती हैं। सुविधाओं में एक "वैयक्तिकरण विज़ार्ड" सम्मलित है जो उपयोगकर्ता की हस्तलिपि के प्रतिरूपों के लिए संकेत देता है और उच्च सटीकता पहचान के लिए सिस्टम को फिर से प्रशिक्षित करने के लिए उनका उपयोग करता है। यह प्रणाली PDA के लिए विंडोज़ मोबाइल OS में नियोजित कम उन्नत हस्तलिपि समरूपता प्रणाली से अलग है।

चूंकि हस्तलिपि समरूपता एक इनपुट फॉर्म है जिसकी जनता आदी हो गई है, परंतु इसने डेस्कटॉप कंप्यूटर या लैपटॉप में व्यापक उपयोग हासिल नहीं किया है। यह अभी भी सामान्यतः स्वीकार किया जाता है कि अल्फ़ान्यूमेरिक कीबोर्ड इनपुट तेज़ और अधिक विश्वसनीय दोनों है। 2006 तक, कई PDA हस्तलिपि इनपुट की प्रस्तुत करते हैं, कभी-कभी प्राकृतिक कर्षण लिखावट को भी स्वीकार करते हैं, परंतु सटीकता अभी भी एक समस्या है, और कुछ लोगों को अभी भी एक साधारण ऑन-स्क्रीन कीबोर्ड भी अधिक कुशल लगता है।

सॉफ़्टवेयर
प्रारंभिक सॉफ़्टवेयर प्रिंट लिखावट को समझ सकता था जहाँ अक्षर अलग किए गए थे; चूंकि, जुड़े हुए स्वरूपों के साथ क्यूरसरी लिखावट ने विरोधाभास को प्रस्तुत किया, जो कि चरित्र विभाजन से जुड़ी एक कठिनाई है। 1962 में शेलिया गुबरमैन ने, जो उस समय मॉस्को में थीं, पहला एप्लाइड पैटर्न रिकग्निशन प्रोग्राम लिखा था। वाणिज्यिक उदाहरण कम्युनिकेशंस इंटेलिजेंस कॉर्पोरेशन और IBM जैसी कंपनियों से आए थी।

1990 के दशक की आरंभ में, दो कंपनियां - पैराग्राफ इंटरनेशनल और लेक्सिकस - ऐसी प्रणालियाँ लेकर आईं जो कर्सिव हस्तलिपि समरूप को समझ सकती थीं। पैराग्राफ रूस में स्थित था और इसकी स्थापना कंप्यूटर वैज्ञानिक स्टीफन पचिकोव ने की थी, जबकि लेक्सिकस की स्थापना रोंजोन नाग और क्रिस कॉर्टगे ने की थी, जो स्टैनफोर्ड विश्वविद्यालय के छात्र थे। पैराग्राफ कैलीग्राफर सिस्टम को ऐप्पल न्यूटन सिस्टम में तैनात किया गया था, और लेक्सिकस लॉन्गहैंड सिस्टम को पेनपॉइंट और विंडोज ऑपरेटिंग सिस्टम के लिए व्यावसायिक रूप से उपलब्ध कराया गया था। लेक्सिकस को 1993 में मोटोरोला द्वारा अधिग्रहित किया गया था और उसने मोटोरोला के लिए चीनी हस्तलिपि समरूप और पूर्वानुमानित पाठ प्रणाली विकसित की। पैराग्राफ को 1997 में SGI द्वारा अधिग्रहित किया गया था और इसकी हस्तलिपि समरूप टीम ने एक P&I डिवीजन का गठन किया था, जिसे बाद में वाडेम द्वारा SGI से अधिग्रहित किया गया था। माइक्रोसॉफ्ट ने 1999 में वादिम से P&I द्वारा विकसित सुलेखक हस्तलेखन समरूप और अन्य डिजिटल स्याही प्रौद्योगिकियों का अधिग्रहण कर लिया है।

वोल्फ्राम मैथमेटिका एक हस्तलिपि या विषय समरूप फ़ंक्शन पाठ्य पुस्तक स्वीकार करना भी प्रदान करता है।

अनुसंधान
हस्तलिपि समरूप का अध्ययन करने वाले शिक्षाविदों का एक सक्रिय समुदाय है। हस्तलिपि समरूप के लिए सबसे बड़े सम्मेलन सम-संख्या वाले वर्षों में आयोजित हस्तलिपि समरूप में सीमाओं पर अंतर्राष्ट्रीय सम्मेलन और विषम संख्या वाले वर्षों में आयोजित दस्तावेज़ विश्लेषण और मान्यता पर अंतर्राष्ट्रीय सम्मेलन हैं। इन दोनों सम्मेलनों को IEEE और IAPR द्वारा समर्थन प्राप्त है। 2021 में, ICDAR कार्यवाही कंप्यूटर साइंस, स्प्रिंगर में लेक्चर नोट्स द्वारा प्रकाशित की जाएगी।

अनुसंधान के सक्रिय क्षेत्रों में सम्मलित हैं:
 * ऑनलाइन मान्यता
 * ऑफ़लाइन मान्यता
 * हस्ताक्षर जांच
 * डाक पता व्याख्या
 * बैंक-चेक प्रसंस्करण
 * लेखक की पहचान

2009 से परिणाम
2009 के बाद से, स्विस AI लैब IDSIA में जुर्गन श्मिडहुबर के अनुसंधान समूह में विकसित आवर्ती तंत्रिका नेटवर्क और गहरे फीडफॉरवर्ड न्यूरल नेटवर्क ने कई अंतरराष्ट्रीय हस्तलेखन प्रतियोगिताएं जीती हैं। विशेष रूप से, द्वि-दिशात्मक और बहु-आयामी दीर्घकालिक अल्पकालिक मेमोरी (LSTM)  एलेक्स ग्रेव्स एट अल की सीखी जाने वाली 3 अलग-अलग भाषाओं (फ़्रेंच, अरबी, फ़ारसी भाषा) के बारे में किसी भी पूर्व ज्ञान के बिना, 2009 में आलेख विश्लेषण और मान्यता (ICDAR) पर अंतर्राष्ट्रीय सम्मेलन में कनेक्टेड हैंडराइटिंग रिकग्निशन में 3 प्रतियोगिताएं जीतीं थी। IDSIA में डैन सिरेसन और सहकर्मियों द्वारा हाल ही में फीडफॉरवर्ड नेटवर्क के लिए GPU-आधारित गहन शिक्षण विधियों ने ICDAR 2011 ऑफ़लाइन चीनी हस्तलिपि समरूप प्रतियोगिता जीती; उनके तंत्रिका नेटवर्क यान लेकुन और NYU के सहयोगियों की प्रसिद्ध MNIST हस्तलिखित अंक समस्या पर मानव-प्रतिस्पर्धी प्रदर्शन प्राप्त करने वाले पहले कृत्रिम पैटर्न पहचानकर्ता भी थे।

वारविक विश्वविद्यालय के बेंजामिन ग्राहम ने कन्वेन्शनल न्यूरल नेटवर्क के लिए एक दृष्टिकोण का उपयोग करके, केवल 2.61% त्रुटि दर के साथ 2013 की चीनी हस्तलिपि समरूप प्रतियोगिता जीती, जो (2017 तक) विरल कन्वेन्शनल न्यूरल नेटवर्क" में विकसित हुआ है।

यह भी देखें

 * AI प्रभाव
 * कृत्रिम बुद्धिमत्ता के अनुप्रयोग
 * इलेक्ट्रॉनिक हस्ताक्षर
 * लिखावट आंदोलन विश्लेषण
 * बुद्धिमान चरित्र पहचान
 * लाइव इंक कैरेक्टर रिकग्निशन सॉल्यूशन
 * नियोकोग्निट्रोन
 * ऑप्टिकल कैरेक्टर मान्यता
 * पेन कंप्यूटिंग
 * स्केच पहचान
 * स्टाइलस (कंप्यूटिंग)
 * टैबलेट कंप्यूटर

सूचियाँ

 * कृत्रिम बुद्धिमत्ता की रूपरेखा
 * उभरती प्रौद्योगिकियों की सूची

बाहरी संबंध

 * Annotated bibliography of references to gesture and pen computing
 * Notes on the History of Pen-based Computing – video on YouTube