हस्तलिपि अभिज्ञान

हस्तलिपि अभिज्ञान (HWR), जिसे हस्तलिपि पाठ्य पुस्तक अभिज्ञान के रूप में भी जाना जाता है, कागज़ी आलेखों, फोटोग्राफ, टच स्क्रीन और अन्य उपकरणों जैसे स्रोतों से सुगम हस्तलिखित इनपुट प्राप्त करने और व्याख्या करने की कंप्यूटर की क्षमता है। लिखित पाठ्य पुस्तक की छवि को दृक् रेखाचित्रण (ऑप्टिकल कैरेक्टर रिकग्निशन) या इंटेलीजेंट वर्ड रिकग्निशन द्वारा पेपर से "ऑफ लाइन" का अनुभव किया जा सकता है। वैकल्पिक रूप से, पेन टिप की गतिविधियों को "ऑन लाइन" से अनुभव किया जा सकता है, उदाहरण के लिए पेन-आधारित कंप्यूटर स्क्रीन सतह द्वारा, सामान्यतः उपलब्ध हैं। एक हस्तलिपि समरूपता प्रणाली स्वरूपण को संभालती है, वर्णों में सही विभाजन करती है, और सबसे प्रशंसनीय शब्द ढूंढती है।

ऑफ़लाइन मान्यता
ऑफ़लाइन लिखावट पहचान में एक छवि में पाठ का स्वचालित रूप से अक्षर कोड में रूपांतरण शामिल होता है जो कंप्यूटर और पाठ-प्रसंस्करण अनुप्रयोगों में उपयोग करने योग्य होता है। इस फॉर्म द्वारा प्राप्त डेटा को लिखावट का स्थिर प्रतिनिधित्व माना जाता है। ऑफ़लाइन लिखावट पहचानना तुलनात्मक रूप से कठिन है, क्योंकि अलग-अलग लोगों की लिखावट शैली अलग-अलग होती है। और, आज की स्थिति के अनुसार, ओसीआर इंजन मुख्य रूप से मशीन मुद्रित पाठ और ICR हाथ से "मुद्रित" (बड़े अक्षरों में लिखे गए) पाठ पर केंद्रित हैं।

चरित्र निष्कर्षण
ऑफ़लाइन चरित्र पहचान में अक्सर किसी प्रपत्र या दस्तावेज़ को स्कैन करना शामिल होता है। इसका मतलब है कि स्कैन की गई छवि में मौजूद अलग-अलग पात्रों को निकालने की आवश्यकता होगी। ऐसे उपकरण मौजूद हैं जो इस चरण को निष्पादित करने में सक्षम हैं। हालाँकि, इस चरण में कई सामान्य खामियाँ हैं। सबसे आम तब होता है जब जुड़े हुए वर्ण दोनों वर्णों वाली एकल उप-छवि के रूप में लौटाए जाते हैं। यह पहचान चरण में एक बड़ी समस्या का कारण बनता है। फिर भी कई एल्गोरिदम उपलब्ध हैं जो जुड़े हुए पात्रों के जोखिम को कम करते हैं।

चरित्र पहचान
अलग-अलग वर्ण निकाले जाने के बाद, संबंधित कंप्यूटर वर्ण की पहचान करने के लिए एक पहचान इंजन का उपयोग किया जाता है। वर्तमान में कई अलग-अलग पहचान तकनीकें उपलब्ध हैं।

सुविधा निष्कर्षण
फ़ीचर निष्कर्षण तंत्रिका नेटवर्क पहचानकर्ताओं के समान ही काम करता है। हालाँकि, प्रोग्रामर को उन गुणों को मैन्युअल रूप से निर्धारित करना होगा जो उन्हें महत्वपूर्ण लगते हैं। यह दृष्टिकोण पहचानकर्ता को पहचान में प्रयुक्त गुणों पर अधिक नियंत्रण देता है। फिर भी इस दृष्टिकोण का उपयोग करने वाली किसी भी प्रणाली को तंत्रिका नेटवर्क की तुलना में काफी अधिक विकास समय की आवश्यकता होती है क्योंकि गुण स्वचालित रूप से नहीं सीखे जाते हैं।

आधुनिक तकनीक
जहां पारंपरिक तकनीकें पहचान के लिए अलग-अलग पात्रों को खंडित करने पर ध्यान केंद्रित करती हैं, वहीं आधुनिक तकनीकें पाठ की खंडित पंक्ति में सभी पात्रों को पहचानने पर ध्यान केंद्रित करती हैं। विशेष रूप से वे मशीन लर्निंग तकनीकों पर ध्यान केंद्रित करते हैं जो पहले इस्तेमाल की गई सीमित फीचर इंजीनियरिंग से बचते हुए दृश्य सुविधाओं को सीखने में सक्षम हैं। अत्याधुनिक विधियां टेक्स्ट लाइन छवि की कई ओवरलैपिंग विंडो पर दृश्य सुविधाओं को निकालने के लिए कन्वेन्शनल नेटवर्क का उपयोग करती हैं, जिसका उपयोग आवर्ती तंत्रिका नेटवर्क चरित्र संभावनाओं का उत्पादन करने के लिए करता है।

ऑनलाइन मान्यता
ऑनलाइन लिखावट पहचान में पाठ का स्वचालित रूपांतरण शामिल होता है क्योंकि यह एक विशेष digitizer या पीडीए पर लिखा जाता है, जहां एक सेंसर पेन-टिप मूवमेंट के साथ-साथ पेन-अप/पेन-डाउन स्विचिंग को भी पकड़ लेता है। इस प्रकार के डेटा को डिजिटल स्याही के रूप में जाना जाता है और इसे लिखावट का डिजिटल प्रतिनिधित्व माना जा सकता है। प्राप्त सिग्नल को अक्षर कोड में परिवर्तित किया जाता है जो कंप्यूटर और टेक्स्ट-प्रोसेसिंग अनुप्रयोगों में प्रयोग करने योग्य होते हैं।

ऑनलाइन लिखावट पहचान इंटरफ़ेस के तत्वों में आम तौर पर शामिल हैं:


 * उपयोगकर्ता के लिखने के लिए एक कलम या लेखनी सम्मलित है।
 * एक स्पर्श संवेदनशील सतह, जिसे आउटपुट डिस्प्ले के साथ एकीकृत या उसके निकट किया जा सकता है।
 * एक सॉफ्टवेयर एप्लिकेशन जो लेखन सतह पर स्टाइलस की गतिविधियों की व्याख्या करता है, परिणामी स्ट्रोक्स को डिजिटल टेक्स्ट में अनुवादित करता है।

ऑनलाइन लिखावट पहचानने की प्रक्रिया को कुछ सामान्य चरणों में विभाजित किया जा सकता है:


 * प्रीप्रोसेसिंग,
 * सुविधा निष्कर्षण और
 * वर्गीकरण

प्रीप्रोसेसिंग का उद्देश्य इनपुट डेटा में अप्रासंगिक जानकारी को त्यागना है, जो मान्यता को नकारात्मक रूप से प्रभावित कर सकता है। यह गति और सटीकता से संबंधित है। प्रीप्रोसेसिंग में आमतौर पर बाइनराइज़ेशन, सामान्यीकरण, सैंपलिंग, स्मूथिंग और डीनोइज़िंग शामिल होते हैं। दूसरा चरण फीचर निष्कर्षण है। प्रीप्रोसेसिंग एल्गोरिदम से प्राप्त दो- या उच्च-आयामी वेक्टर फ़ील्ड में से, उच्च-आयामी डेटा निकाला जाता है। इस कदम का उद्देश्य मान्यता मॉडल के लिए महत्वपूर्ण जानकारी को उजागर करना है। इस डेटा में पेन का दबाव, वेग या लिखने की दिशा में बदलाव जैसी जानकारी शामिल हो सकती है। अंतिम बड़ा कदम वर्गीकरण है. इस चरण में, निकाले गए फीचर्स को अलग-अलग वर्गों में मैप करने के लिए विभिन्न मॉडलों का उपयोग किया जाता है और इस प्रकार उन वर्णों या शब्दों की पहचान की जाती है जो फीचर्स का प्रतिनिधित्व करते हैं।

हार्डवेयर
कीबोर्ड इनपुट के प्रतिस्थापन के रूप में लिखावट पहचान को शामिल करने वाले वाणिज्यिक उत्पाद 1980 के दशक की शुरुआत में पेश किए गए थे। उदाहरणों में पेंसेप्ट पेनपैड और इन्फोराइट पॉइंट-ऑफ-सेल टर्मिनल जैसे हस्तलेखन टर्मिनल शामिल हैं। पर्सनल कंप्यूटर के लिए बड़े उपभोक्ता बाजार के आगमन के साथ, पर्सनल कंप्यूटर पर कीबोर्ड और माउस को सिंगल पॉइंटिंग/हैंडराइटिंग सिस्टम से बदलने के लिए कई वाणिज्यिक उत्पाद पेश किए गए, जैसे कि पेंसेप्ट, CIC और अन्य. पहला व्यावसायिक रूप से उपलब्ध टैबलेट-प्रकार का पोर्टेबल कंप्यूटर GRID सिस्टम्स का GIRD पैड था, जिसे सितंबर 1989 में जारी किया गया था। इसका ऑपरेटिंग सिस्टम MS-डॉस पर आधारित था।

1990 के दशक की शुरुआत में,NCR, IBM और EO सहित हार्डवेयर निर्माताओं ने जीओ कॉर्प द्वारा विकसित पेनप्वाइंट ऑपरेटिंग सिस्टम पर चलने वाले टैबलेट कंप्यूटर जारी किए है। पेनपॉइंट ने लिखावट पहचान और इशारों का उपयोग किया और तीसरे पक्ष के सॉफ़्टवेयर को सुविधाएं प्रदान कीं। आईबीएम का टैबलेट कंप्यूटर थिंकपैड नाम का उपयोग करने वाला पहला कंप्यूटर था और आईबीएम की लिखावट पहचान का उपयोग करता था। इस पहचान प्रणाली को बाद में पेन कंप्यूटिंग के लिए माइक्रोसॉफ्ट विंडोज़ और ओएस/2 के लिए आईबीएम के पेन में पोर्ट किया गया। इनमें से कोई भी व्यावसायिक रूप से सफल नहीं था।

इलेक्ट्रॉनिक्स में प्रगति ने लिखावट पहचान के लिए आवश्यक कंप्यूटिंग शक्ति को टैबलेट कंप्यूटर की तुलना में छोटे फॉर्म फैक्टर में फिट करने की अनुमति दी, और लिखावट पहचान को अक्सर हाथ से पकड़े गए पीडीए के लिए इनपुट विधि के रूप में उपयोग किया जाता है। लिखित इनपुट प्रदान करने वाला पहला पीडीए एप्पल न्यूटन था, जिसने जनता को एक सुव्यवस्थित उपयोगकर्ता इंटरफ़ेस के लाभ से अवगत कराया। हालाँकि, सॉफ्टवेयर की अविश्वसनीयता के कारण यह उपकरण व्यावसायिक रूप से सफल नहीं रहा, जो उपयोगकर्ता के लेखन पैटर्न को सीखने की कोशिश करता था। न्यूटन ओएस 2.0 के जारी होने तक, जिसमें लिखावट की पहचान में काफी सुधार हुआ था, जिसमें मॉडललेस त्रुटि सुधार जैसी वर्तमान पहचान प्रणालियों में अभी भी नहीं पाई जाने वाली अनूठी विशेषताएं शामिल थीं, बड़े पैमाने पर नकारात्मक पहली छाप बनी थी। ऐप्पल न्यूटन के बंद होने के बाद, इस सुविधा को मैक ओएस एक्स 10.2 और बाद में इंकवेल के रूप में शामिल किया गया था।

पाम ने बाद में ग्रैफ़िटी पहचान प्रणाली पर आधारित पीडीए की एक सफल श्रृंखला शुरू की। ग्रैफ़िटी ने प्रत्येक वर्ण के लिए "यूनिस्ट्रोक्स", या एक-स्ट्रोक रूपों के एक सेट को परिभाषित करके प्रयोज्य में सुधार किया। इससे गलत इनपुट की संभावना कम हो गई, हालांकि स्ट्रोक पैटर्न को याद रखने से उपयोगकर्ता के लिए सीखने की अवस्था में वृद्धि हुई। ग्रैफ़िटी लिखावट मान्यता को ज़ेरॉक्स द्वारा रखे गए पेटेंट का उल्लंघन करते हुए पाया गया, और पाम ने ग्रैफ़िटी को सीआईसी लिखावट मान्यता के लाइसेंस प्राप्त संस्करण के साथ बदल दिया, जो यूनिस्ट्रोक रूपों का समर्थन करते हुए, ज़ेरॉक्स पेटेंट से पहले का था। उल्लंघन के अदालती निष्कर्ष को अपील पर उलट दिया गया, और फिर बाद की अपील पर फिर से उलट दिया गया। बाद में इसमें शामिल पक्षों ने इस और अन्य पेटेंट से संबंधित समझौते पर बातचीत की।

टैबलेट पीसी एक नोटबुक कंप्यूटर है जिसमें एक डिजिटाइज़र टैबलेट और एक स्टाइलस होता है, जो उपयोगकर्ता को यूनिट की स्क्रीन पर हाथ से टेक्स्ट लिखने की अनुमति देता है। ऑपरेटिंग सिस्टम लिखावट को पहचानता है और उसे टेक्स्ट में परिवर्तित करता है। विंडोज विस्टा और विंडोज 7 में वैयक्तिकरण सुविधाएँ शामिल हैं जो उपयोगकर्ता के अंग्रेजी, जापानी, चीनी पारंपरिक, चीनी सरलीकृत और कोरियाई के लिए लेखन पैटर्न या शब्दावली सीखती हैं। सुविधाओं में एक "वैयक्तिकरण विज़ार्ड" शामिल है जो उपयोगकर्ता की लिखावट के नमूनों के लिए संकेत देता है और उच्च सटीकता पहचान के लिए सिस्टम को फिर से प्रशिक्षित करने के लिए उनका उपयोग करता है। यह प्रणाली पीडीए के लिए विंडोज़ मोबाइल  ओएस में नियोजित कम उन्नत लिखावट पहचान प्रणाली से अलग है।

हालाँकि लिखावट पहचान एक इनपुट फॉर्म है जिसकी जनता आदी हो गई है, लेकिन इसने डेस्कटॉप कंप्यूटर या लैपटॉप में व्यापक उपयोग हासिल नहीं किया है। यह अभी भी आम तौर पर स्वीकार किया जाता है कि अल्फ़ान्यूमेरिक कीबोर्ड इनपुट तेज़ और अधिक विश्वसनीय दोनों है। 2006 तक, कई पीडीए लिखावट इनपुट की पेशकश करते हैं, कभी-कभी प्राकृतिक घसीट लिखावट को भी स्वीकार करते हैं, लेकिन सटीकता अभी भी एक समस्या है, और कुछ लोगों को अभी भी एक साधारण ऑन-स्क्रीन कीबोर्ड भी अधिक कुशल लगता है।

सॉफ़्टवेयर
प्रारंभिक सॉफ़्टवेयर प्रिंट लिखावट को समझ सकता था जहाँ अक्षर अलग किए गए थे; हालाँकि, जुड़े हुए पात्रों के साथ सरसरी लिखावट ने सायरे के विरोधाभास को प्रस्तुत किया, जो कि चरित्र विभाजन से जुड़ी एक कठिनाई है। 1962 में शेलिया गुबरमैन ने, जो उस समय मॉस्को में थीं, पहला एप्लाइड पैटर्न रिकग्निशन प्रोग्राम लिखा था। वाणिज्यिक उदाहरण कम्युनिकेशंस इंटेलिजेंस कॉर्पोरेशन और आईबीएम जैसी कंपनियों से आए थी।

1990 के दशक की शुरुआत में, दो कंपनियां - पैराग्राफ इंटरनेशनल और लेक्सिकस - ऐसी प्रणालियाँ लेकर आईं जो कर्सिव लिखावट पहचान को समझ सकती थीं। पैराग्राफ रूस में स्थित था और इसकी स्थापना कंप्यूटर वैज्ञानिक स्टीफन पचिकोव ने की थी, जबकि लेक्सिकस की स्थापना रोंजोन नाग और क्रिस कॉर्टगे ने की थी, जो स्टैनफोर्ड विश्वविद्यालय के छात्र थे। पैराग्राफ कैलीग्राफर सिस्टम को ऐप्पल न्यूटन सिस्टम में तैनात किया गया था, और लेक्सिकस लॉन्गहैंड सिस्टम को पेनपॉइंट और विंडोज ऑपरेटिंग सिस्टम के लिए व्यावसायिक रूप से उपलब्ध कराया गया था। लेक्सिकस को 1993 में मोटोरोला द्वारा अधिग्रहित किया गया था और उसने मोटोरोला के लिए चीनी लिखावट पहचान और पूर्वानुमानित पाठ प्रणाली विकसित की। पैराग्राफ को 1997 में एसजीआई द्वारा अधिग्रहित किया गया था और इसकी लिखावट पहचान टीम ने एक पी एंड आई डिवीजन का गठन किया था, जिसे बाद में वाडेम द्वारा एसजीआई से अधिग्रहित किया गया था। Microsoft ने 1999 में Vadem से P&I द्वारा विकसित CalliGrapher हस्तलेखन पहचान और अन्य डिजिटल स्याही प्रौद्योगिकियों का अधिग्रहण कर लिया है।

वोल्फ्राम मैथमेटिका (8.0 या बाद का संस्करण) एक लिखावट या पाठ पहचान फ़ंक्शन Text Recognize भी प्रदान करता है।

अनुसंधान
हस्तलेखन पहचान का अध्ययन करने वाले शिक्षाविदों का एक सक्रिय समुदाय है। हस्तलेखन पहचान के लिए सबसे बड़े सम्मेलन सम-संख्या वाले वर्षों में आयोजित हस्तलेखन पहचान में सीमाओं पर अंतर्राष्ट्रीय सम्मेलन (आईसीएफएचआर) और विषम संख्या वाले वर्षों में आयोजित दस्तावेज़ विश्लेषण और मान्यता पर अंतर्राष्ट्रीय सम्मेलन (आईसीडीएआर) हैं। इन दोनों सम्मेलनों को आईईईई और आईएपीआर द्वारा समर्थन प्राप्त है। 2021 में, ICDAR कार्यवाही कंप्यूटर साइंस, स्प्रिंगर में लेक्चर नोट्स द्वारा प्रकाशित की जाएगी।

अनुसंधान के सक्रिय क्षेत्रों में शामिल हैं:
 * ऑनलाइन मान्यता
 * ऑफ़लाइन मान्यता
 * हस्ताक्षर जांच
 * डाक पता व्याख्या
 * बैंक-चेक प्रसंस्करण
 * लेखक की पहचान

2009 से परिणाम
2009 के बाद से, स्विस एआई लैब IDSIA में जुर्गन श्मिडहुबर के अनुसंधान समूह में विकसित आवर्ती तंत्रिका नेटवर्क और गहरे फीडफॉरवर्ड न्यूरल नेटवर्क ने कई अंतरराष्ट्रीय हस्तलेखन प्रतियोगिताएं जीती हैं। विशेष रूप से, द्वि-दिशात्मक और बहु-आयामी दीर्घकालिक अल्पकालिक मेमोरी (LSTM)  एलेक्स ग्रेव्स एट अल की। सीखी जाने वाली तीन अलग-अलग भाषाओं (फ़्रेंच, अरबी, फ़ारसी भाषा) के बारे में किसी भी पूर्व ज्ञान के बिना, 2009 में दस्तावेज़ विश्लेषण और मान्यता (ICDAR) पर अंतर्राष्ट्रीय सम्मेलन में कनेक्टेड हैंडराइटिंग रिकग्निशन में तीन प्रतियोगिताएं जीतीं। आईडीएसआईए में डैन सिरेसन और सहकर्मियों द्वारा हाल ही में फीडफॉरवर्ड नेटवर्क के लिए जीपीयू-आधारित गहन शिक्षण विधियों ने आईसीडीएआर 2011 ऑफ़लाइन चीनी लिखावट पहचान प्रतियोगिता जीती; उनके तंत्रिका नेटवर्क यान लेकुन और एनवाईयू के सहयोगियों की प्रसिद्ध एमएनआईएसटी हस्तलिखित अंक समस्या पर मानव-प्रतिस्पर्धी प्रदर्शन प्राप्त करने वाले पहले कृत्रिम पैटर्न पहचानकर्ता भी थे।

वारविक विश्वविद्यालय के बेंजामिन ग्राहम ने कन्वेन्शनल न्यूरल नेटवर्क के लिए एक दृष्टिकोण का उपयोग करके, केवल 2.61% त्रुटि दर के साथ 2013 की चीनी लिखावट पहचान प्रतियोगिता जीती, जो (2017 तक) विरल कन्वेन्शनल न्यूरल नेटवर्क" में विकसित हुआ है।

यह भी देखें

 * AI प्रभाव
 * कृत्रिम बुद्धिमत्ता के अनुप्रयोग
 * इलेक्ट्रॉनिक हस्ताक्षर
 * लिखावट आंदोलन विश्लेषण
 * बुद्धिमान चरित्र पहचान
 * लाइव इंक कैरेक्टर रिकग्निशन सॉल्यूशन
 * नियोकोग्निट्रोन
 * ऑप्टिकल कैरेक्टर मान्यता
 * पेन कंप्यूटिंग
 * स्केच पहचान
 * स्टाइलस (कंप्यूटिंग)
 * टैबलेट कंप्यूटर

सूचियाँ

 * कृत्रिम बुद्धिमत्ता की रूपरेखा
 * उभरती प्रौद्योगिकियों की सूची

बाहरी संबंध

 * Annotated bibliography of references to gesture and pen computing
 * Notes on the History of Pen-based Computing – video on YouTube