हस्तलिपि अभिज्ञान

हस्तलिपि अभिज्ञान (HWR), जिसे हस्तलिखित पाठ के रूप में भी जाना जाता है, पेपर आलेखों, फोटोग्राफ, टच स्क्रीन और अन्य उपकरणों जैसे स्रोतों से सुगम हस्तलिखित इनपुट प्राप्त करने और व्याख्या करने की कंप्यूटर की क्षमता है। लिखित विषय की छवि को प्रकाशिक सूक्ष्म दर्शन द्वारा पेपर के एक टुकड़े से "ऑफ लाइन" का अनुभव किया जा सकता है। वैकल्पिक रूप से, पेन टिप की गतिविधियों को "ऑन लाइन" से अनुभव किया जा सकता है, उदाहरण के लिए पेन-आधारित कंप्यूटर स्क्रीन सतह द्वारा, सामान्यतः उपलब्ध हैं। जो एक लिखावट पहचान प्रणाली स्वरूपण को संभालती है, वर्णों में सही विभाजन करती है, और सबसे प्रशंसनीय शब्द ढूंढती है।

ऑफ़लाइन मान्यता
ऑफ़लाइन हस्तलेख मान्यता में एक छवि में पाठ का स्वचालित रूप से अक्षर कोड में रूपांतरण सम्मलित होता है जो कंप्यूटर और पाठ-प्रसंस्करण अनुप्रयोगों में उपयोग करने योग्य होता है। इस फॉर्म द्वारा प्राप्त डेटा को लिखावट का स्थिर प्रतिनिधित्व माना जाता है। ऑफ़लाइन हस्तलेख पहचानना तुलनात्मक रूप से कठिन है, चूंकि अलग-अलग लोगों की हस्तलेख शैली अलग-अलग होती है। और आज की स्थिति के अनुसार OCR इंजन मुख्य रूप से मशीन मुद्रित विषय और ICR विषय पर केंद्रित हैं।

चरित्र निष्कर्षण
ऑफ़लाइन चरित्र पहचान में अधिकांशतः किसी प्रपत्र या आलेख को स्कैन करना सम्मलित होता है। इसका उद्देश्य है कि स्कैन की गई छवि में सम्मलित अलग-अलग स्वरूपों को निकालने की आवश्यकता होगी। ऐसे उपकरण सम्मलित हैं जो इस चरण को निष्पादित करने में सक्षम हैं। चूंकि, इस चरण में कई सामान्य निर्बलता हैं। सबसे सामान्यः तब होता है जब जुड़े हुए वर्ण दोनों वर्णों वाली एकल उप-छवि के रूप में लौटाए जाते हैं। यह समरूपता चरण में एक बड़ी समस्या का कारण बनता है। फिर भी कई एल्गोरिदम उपलब्ध हैं जो जुड़े हुए स्वरूपों के विपत्ति को कम करते हैं।

चरित्र पहचान
अलग-अलग वर्ण निकाले जाने के बाद, संबंधित कंप्यूटर वर्ण की पहचान करने के लिए एक समरूपता यन्त्र का उपयोग किया जाता है। वर्तमान में कई अलग-अलग समरूपता तकनीकें उपलब्ध हैं।

सुविधा निष्कर्षण
रूपक निष्कर्षण तंत्रिका नेटवर्क पहचानकर्ताओं के समान ही काम करता है। चूंकि, प्रोग्रामर को उन गुणों को स्वतः रूप से निर्धारित करना होगा जो उन्हें महत्वपूर्ण लगते हैं। यह दृष्टिकोण पहचानकर्ता को समरूपता में प्रयुक्त गुणों पर अधिक नियंत्रण देता है। फिर भी इस दृष्टिकोण का उपयोग करने वाली किसी भी प्रणाली को तंत्रिका नेटवर्क की तुलना में काफी अधिक विकास समय की आवश्यकता होती है चूंकि गुण स्वचालित रूप से नहीं सीखे जाते हैं।

आधुनिक तकनीक
जहां पारंपरिक तकनीकें समरूपता के लिए अलग-अलग स्वरूपों को खंडित करने पर ध्यान केंद्रित करती हैं, वहीं आधुनिक तकनीकें विषय की खंडित पंक्ति में सभी स्वरूपों को पहचानने पर ध्यान केंद्रित करती हैं। विशेष रूप से वे मशीन लर्निंग तकनीकों पर ध्यान केंद्रित करते हैं जो पहले उपयोग की गई सीमित रूपलेख अभियांत्रिकी से बचते हुए दृश्य सुविधाओं को सीखने में सक्षम हैं। अत्याधुनिक विधियां पाठ्य प्रणाली छवि की कई ओवरलैपिंग विंडो पर दृश्य सुविधाओं को निकालने के लिए कन्वेन्शनल नेटवर्क का उपयोग करती हैं, जिसका उपयोग आवर्ती तंत्रिका नेटवर्क चरित्र संभावनाओं का उत्पादन करने के लिए करता है।

ऑनलाइन मान्यता
ऑनलाइन हस्तलेख मान्यता में पाठ का स्वचालित रूपांतरण सम्मलित होता है चूंकि यह एक विशेष डिजिटीज़ेर या PDA पर लिखा जाता है, जहां एक सेंसर पेन-टिप मूवमेंट के साथ-साथ पेन-अप/पेन-डाउन स्विचिंग को भी पकड़ लेता है। इस प्रकार के डेटा को डिजिटल स्याही के रूप में जाना जाता है और इसे हस्तलेख का डिजिटल प्रतिनिधित्व माना जा सकता है। प्राप्त सिग्नल को अक्षर कोड में परिवर्तित किया जाता है जो कंप्यूटर और टेक्स्ट-प्रोसेसिंग अनुप्रयोगों में प्रयोग करने योग्य होते हैं।

ऑनलाइन हस्तलेख मान्यता अंतरापृष्ठ के तत्वों में सामान्यतः सम्मलित हैं:


 * उपयोगकर्ता के लिखने के लिए एक कलम या लेखनी सम्मलित है।
 * एक स्पर्श संवेदनशील सतह, जिसे आउटपुट डिस्प्ले के साथ एकीकृत या उसके निकट किया जा सकता है।
 * एक सॉफ्टवेयर एप्लिकेशन जो लेखन सतह पर स्टाइलस की गतिविधियों की व्याख्या करता है, परिणामी रेखा को डिजिटल पाठ में अनुवादित करता है।

ऑनलाइन हस्तलेख मान्यता की प्रक्रिया को कुछ सामान्य चरणों में विभाजित किया जा सकता है:


 * प्रीप्रोसेसिंग,
 * सुविधा निष्कर्षण और
 * वर्गीकरण

प्रीप्रोसेसिंग का उद्देश्य इनपुट डेटा में अप्रासंगिक जानकारी को त्यागना है, जो मान्यता को नकारात्मक रूप से प्रभावित कर सकता है। यह गति और सटीकता से संबंधित है। प्रीप्रोसेसिंग में सामान्यतः बाइनराइज़ेशन, सामान्यीकरण, सैंपलिंग, स्मूथिंग और डीनोइज़िंग सम्मलित होते हैं। दूसरा चरण फीचर निष्कर्षण है। प्रीप्रोसेसिंग एल्गोरिदम से प्राप्त दो- या उच्च-आयामी वेक्टर फ़ील्ड में से, उच्च-आयामी डेटा निकाला जाता है। इस कदम का उद्देश्य मान्यता मॉडल के लिए महत्वपूर्ण जानकारी को उजागर करना है। इस डेटा में पेन का दबाव, वेग या लिखने की दिशा में बदलाव जैसी जानकारी सम्मलित हो सकती है। अंतिम बड़ा कदम वर्गीकरण है. इस चरण में, निकाले गए फीचर्स को अलग-अलग वर्गों में मैप करने के लिए विभिन्न मॉडलों का उपयोग किया जाता है और इस प्रकार उन वर्णों या शब्दों की पहचान की जाती है जो फीचर्स का प्रतिनिधित्व करते हैं।

हार्डवेयर
कीबोर्ड इनपुट के प्रतिस्थापन के रूप में हस्तलेख मान्यता को सम्लित करने वाले वाणिज्यिक उत्पाद 1980 के दशक की आरंभ में उपस्थित किए गए थे। उदाहरणों में पेंसेप्ट पेनपैड और इन्फोराइट पॉइंट-ऑफ-सेल टर्मिनल जैसे हस्तलेखन टर्मिनल सम्मलित हैं। पर्सनल कंप्यूटर के लिए बड़े उपभोक्ता बाजार के आगमन के साथ, पर्सनल कंप्यूटर पर कीबोर्ड और माउस को सिंगल पॉइंटिंग/हैंडराइटिंग सिस्टम से बदलने के लिए कई वाणिज्यिक उत्पाद उपस्थित किए गए, जैसे कि पेंसेप्ट, CIC और अन्य. पहला व्यावसायिक रूप से उपलब्ध टैबलेट-प्रकार का पोर्टेबल कंप्यूटर GRID सिस्टम्स का GIRD पैड था, जिसे सितंबर 1989 में जारी किया गया था। इसका ऑपरेटिंग सिस्टम MS-डॉस पर आधारित था।

1990 के दशक की आरंभ में,NCR, IBM और EO सहित हार्डवेयर निर्माताओं ने GO कॉर्प द्वारा विकसित पेनप्वाइंट ऑपरेटिंग सिस्टम पर चलने वाले टैबलेट कंप्यूटर जारी किए है। पेनपॉइंट ने हस्तलेख मान्यता और इशारों का उपयोग किया और तीसरे पक्ष के सॉफ़्टवेयर को सुविधाएं प्रदान कीं है। IBM का टैबलेट कंप्यूटर थिंकपैड नाम का उपयोग करने वाला पहला कंप्यूटर था और IBM की हस्तलेख मान्यता का उपयोग करता था। इस पहचान प्रणाली को बाद में पेन कंप्यूटिंग के लिए माइक्रोसॉफ्ट विंडोज़ और OS/2 के लिए IBM के पेन में पोर्ट किया गया था। इनमें से कोई भी व्यावसायिक रूप से सफल नहीं था।

इलेक्ट्रॉनिक्स में प्रगति ने हस्तलेख मान्यता के लिए आवश्यक कंप्यूटिंग शक्ति को टैबलेट कंप्यूटर की तुलना में छोटे फॉर्म फैक्टर में फिट करने की अनुमति दी, और हस्तलेख मान्यता को अधिकांशतः हाथ से पकड़े गए PDA के लिए इनपुट विधि के रूप में उपयोग किया जाता है। लिखित इनपुट प्रदान करने वाला पहला PDA एप्पल न्यूटन था, जिसने जनता को एक सुव्यवस्थित उपयोगकर्ता इंटरफ़ेस के लाभ से अवगत कराया था। चूंकि, सॉफ्टवेयर की अविश्वसनीयता के कारण यह उपकरण व्यावसायिक रूप से सफल नहीं रहा, जो उपयोगकर्ता के लेखन पैटर्न को सीखने की कोशिश करता था। न्यूटन OS 2.0 के जारी होने तक, जिसमें हस्तलेख की मान्यता में काफी सुधार हुआ था, जिसमें मॉडललेस त्रुटि सुधार जैसी वर्तमान पहचान प्रणालियों में अभी भी नहीं पाई जाने वाली अनूठी विशेषताएं सम्मलित थीं, बड़े पैमाने पर नकारात्मक पहली छाप बनी थी। ऐप्पल न्यूटन के बंद होने के बाद, इस सुविधा को मैक OS X 10.2 और बाद में इंकवेल के रूप में सम्मलित किया गया था।

पाम ने बाद में ग्रैफ़िटी समरूपता प्रणाली पर आधारित PDA की एक सफल श्रृंखला प्रारंभ की थी। ग्रैफ़िटी ने प्रत्येक वर्ण के लिए "यूनिस्ट्रोक्स", या एक-स्ट्रोक रूपों के एक सेट को परिभाषित करके प्रयोज्य में सुधार किया था। इससे गलत इनपुट की संभावना कम हो गई, चूंकि स्ट्रोक पैटर्न को याद रखने से उपयोगकर्ता के लिए सीखने की अवस्था में वृद्धि हुई थी। ग्रैफ़िटी लिखावट मान्यता को ज़ेरॉक्स द्वारा रखे गए पेटेंट का उल्लंघन करते हुए पाया गया, और पाम ने ग्रैफ़िटी को CIC हस्तलेख मान्यता के लाइसेंस प्राप्त संस्करण के साथ बदल दिया, जो यूनिस्ट्रोक रूपों का समर्थन करते हुए, ज़ेरॉक्स पेटेंट से पहले का था। उल्लंघन में अदालती निष्कर्ष की अपीलों पर परिवर्तन कर दिया गया, और फिर बाद की अपील पर फिर से परिवर्तन किया गया था। बाद में इसमें सम्मलित पक्षों ने इस और अन्य पेटेंट से संबंधित समझौते पर बातचीत की थी।

टैबलेट PC एक नोटबुक कंप्यूटर है जिसमें एक डिजिटाइज़र टैबलेट और एक स्टाइलस होता है, जो उपयोगकर्ता को यूनिट की स्क्रीन पर हाथ से टेक्स्ट लिखने की अनुमति देता है। ऑपरेटिंग सिस्टम लिखावट को पहचानता है और उसे टेक्स्ट में परिवर्तित करता है। विंडोज विस्टा और विंडोज 7 में वैयक्तिकरण सुविधाएँ सम्मलित हैं जो उपयोगकर्ता के अंग्रेजी, जापानी, चीनी पारंपरिक, चीनी सरलीकृत और कोरियाई के लिए लेखन पैटर्न या शब्दावली सीखती हैं। सुविधाओं में एक "वैयक्तिकरण विज़ार्ड" सम्मलित है जो उपयोगकर्ता की हस्तलेख के प्रतिरूपों के लिए संकेत देता है और उच्च सटीकता पहचान के लिए सिस्टम को फिर से प्रशिक्षित करने के लिए उनका उपयोग करता है। यह प्रणाली PDA के लिए विंडोज़ मोबाइल OS में नियोजित कम उन्नत हस्तलेख मान्यता प्रणाली से अलग है।

चूंकि हस्तलेख मान्यता एक इनपुट फॉर्म है जिसकी जनता आदी हो गई है, परंतु इसने डेस्कटॉप कंप्यूटर या लैपटॉप में व्यापक उपयोग हासिल नहीं किया है। यह अभी भी सामान्यतः स्वीकार किया जाता है कि अल्फ़ान्यूमेरिक कीबोर्ड इनपुट तेज़ और अधिक विश्वसनीय दोनों है। 2006 तक, कई PDA हस्तलेख इनपुट की प्रस्तुत करते हैं, कभी-कभी प्राकृतिक कर्षण लिखावट को भी स्वीकार करते हैं, परंतु सटीकता अभी भी एक समस्या है, और कुछ लोगों को अभी भी एक साधारण ऑन-स्क्रीन कीबोर्ड भी अधिक कुशल लगता है।

सॉफ़्टवेयर
प्रारंभिक सॉफ़्टवेयर प्रिंट लिखावट को समझ सकता था जहाँ अक्षर अलग किए गए थे; चूंकि, जुड़े हुए स्वरूपों के साथ क्यूरसरी लिखावट ने विरोधाभास को प्रस्तुत किया, जो कि चरित्र विभाजन से जुड़ी एक कठिनाई है। 1962 में शेलिया गुबरमैन ने, जो उस समय मॉस्को में थीं, पहला व्यावहारिक प्रतिरूप मान्यता प्रोग्राम लिखा था। वाणिज्यिक उदाहरण संचार सूचना निगम और IBM जैसी कंपनियों से आए थी।

1990 के दशक की आरंभ में, दो कंपनियां - पैराग्राफ इंटरनेशनल और लेक्सिकस - ऐसी प्रणालियाँ लेकर आईं जो कर्सिव हस्तलेख मान्यता को समझ सकती थीं। पैराग्राफ रूस में स्थित था और इसकी स्थापना कंप्यूटर वैज्ञानिक स्टीफन पचिकोव ने की थी, जबकि लेक्सिकस की स्थापना रोंजोन नाग और क्रिस कॉर्टगे ने की थी, जो स्टैनफोर्ड विश्वविद्यालय के छात्र थे। पैराग्राफ कैलीग्राफर सिस्टम को ऐप्पल न्यूटन सिस्टम में तैनात किया गया था, और लेक्सिकस लॉन्गहैंड सिस्टम को पेनपॉइंट और विंडोज ऑपरेटिंग सिस्टम के लिए व्यावसायिक रूप से उपलब्ध कराया गया था। लेक्सिकस को 1993 में मोटोरोला द्वारा अधिग्रहित किया गया था और उसने मोटोरोला के लिए चीनी हस्तलेख मान्यता और पूर्वानुमानित पाठ प्रणाली विकसित की। पैराग्राफ को 1997 में SGI द्वारा अधिग्रहित किया गया था और इसकी हस्तलेख मान्यता टीम ने एक P&I डिवीजन का गठन किया था, जिसे बाद में वाडेम द्वारा SGI से अधिग्रहित किया गया था। माइक्रोसॉफ्ट ने 1999 में वादिम से P&I द्वारा विकसित सुलेखक हस्तलेख मान्यता और अन्य डिजिटल स्याही प्रौद्योगिकियों का अधिग्रहण कर लिया है।

वोल्फ्राम मैथमेटिका एक हस्तलेख मान्यता या पाठ फ़ंक्शन स्वीकार करना भी प्रदान करता है।

अनुसंधान
हस्तलेख मान्यता का अध्ययन करने वाले शिक्षाविदों का एक सक्रिय समुदाय है। हस्तलेख मान्यता के लिए सबसे बड़े सम्मेलन सम-संख्या वाले वर्षों में आयोजित हस्तलेख मान्यता में सीमाओं पर अंतर्राष्ट्रीय सम्मेलन और विषम संख्या वाले वर्षों में आयोजित दस्तावेज़ विश्लेषण और मान्यता पर अंतर्राष्ट्रीय सम्मेलन हैं। इन दोनों सम्मेलनों को IEEE और IAPR द्वारा समर्थन प्राप्त है। 2021 में, ICDAR कार्यवाही कंप्यूटर साइंस, स्प्रिंगर में लेक्चर नोट्स द्वारा प्रकाशित की जाएगी।

अनुसंधान के सक्रिय क्षेत्रों में सम्मलित हैं:
 * ऑनलाइन मान्यता
 * ऑफ़लाइन मान्यता
 * हस्ताक्षर जांच
 * डाक पता व्याख्या
 * बैंक-चेक प्रसंस्करण
 * लेखक की पहचान

2009 से परिणाम
2009 के बाद से, स्विस AI लैब IDSIA में जुर्गन श्मिडहुबर के अनुसंधान समूह में विकसित आवर्ती तंत्रिका नेटवर्क और गहरे फीडफॉरवर्ड न्यूरल नेटवर्क ने कई अंतरराष्ट्रीय हस्तलेख प्रतियोगिताएं जीती हैं। विशेष रूप से, द्वि-दिशात्मक और बहु-आयामी दीर्घकालिक अल्पकालिक मेमोरी (LSTM)  एलेक्स ग्रेव्स एट अल की सीखी जाने वाली 3 अलग-अलग भाषाओं (फ़्रेंच, अरबी, फ़ारसी भाषा) के बारे में किसी भी पूर्व ज्ञान के बिना, 2009 में आलेख विश्लेषण और मान्यता (ICDAR) पर अंतर्राष्ट्रीय सम्मेलन में कनेक्टेड हस्तलेख मान्यता में 3 प्रतियोगिताएं जीतीं थी। IDSIA में डैन सिरेसन और सहकर्मियों द्वारा हाल ही में फीडफॉरवर्ड नेटवर्क के लिए GPU-आधारित गहन शिक्षण विधियों ने ICDAR 2011 ऑफ़लाइन चीनी  हस्तलेख मान्यता प्रतियोगिता जीती; उनके तंत्रिका नेटवर्क यान लेकुन और NYU के सहयोगियों की प्रसिद्ध MNIST  हस्तलेख अंक समस्या पर मानव-प्रतिस्पर्धी प्रदर्शन प्राप्त करने वाले पहले कृत्रिम पैटर्न पहचानकर्ता भी थे।

वारविक विश्वविद्यालय के बेंजामिन ग्राहम ने कन्वेन्शनल न्यूरल नेटवर्क के लिए एक दृष्टिकोण का उपयोग करके, केवल 2.61% त्रुटि दर के साथ 2013 की चीनी हस्तलेख मान्यता प्रतियोगिता जीती, जो (2017 तक) विरल कन्वेन्शनल न्यूरल नेटवर्क" में विकसित हुआ है।

यह भी देखें

 * AI प्रभाव
 * कृत्रिम बुद्धिमत्ता के अनुप्रयोग
 * इलेक्ट्रॉनिक हस्ताक्षर
 * हस्तलेख आंदोलन विश्लेषण
 * बुद्धिमान चरित्र पहचान
 * लाइव इंक कैरेक्टर रिकग्निशन सॉल्यूशन
 * नियोकोग्निट्रोन
 * ऑप्टिकल कैरेक्टर मान्यता
 * पेन कंप्यूटिंग
 * स्केच पहचान
 * स्टाइलस (कंप्यूटिंग)
 * टैबलेट कंप्यूटर

सूचियाँ

 * कृत्रिम बुद्धिमत्ता की रूपरेखा
 * उभरती प्रौद्योगिकियों की सूची

बाहरी संबंध

 * Annotated bibliography of references to gesture and pen computing
 * Notes on the History of Pen-based Computing – video on YouTube