वर्तनी जांचकर्ता (स्पेल चेकर)

सॉफ्टवेयर में, वर्तनी जांचकर्ता (या वर्तनी जांचकर्ता या वर्तनी जांच) एक सॉफ्टवेयर सुविधा है जो किसी टेक्स्ट में गलत वर्तनी की जांच करती है। वर्तनी-जाँच सुविधाएँ अधिकांशतः सॉफ़्टवेयर या सेवाओं जैसे वर्ड प्रोसेसर, ईमेल क्लाइंट, इलेक्ट्रॉनिक शब्दकोश या खोज इंजन में अंतर्निहित होती हैं।

डिज़ाइन
एक मूलभूत वर्तनी जाँचकर्ता निम्नलिखित प्रक्रियाएँ करता है:
 * यह टेक्स्ट को स्कैन करता है और उसमें उपस्थित शब्दों को निकालता है।
 * इसके बाद यह प्रत्येक शब्द की तुलना सही विधि से लिखे गए शब्दों की ज्ञात सूची (अथार्त एक शब्दकोश) से करता है। इसमें केवल शब्दों की एक सूची हो सकती है, या इसमें अतिरिक्त जानकारी भी हो सकती है, जैसे हाइफ़नेशन बिंदु या शाब्दिक और व्याकरण संबंधी विशेषताएँ है।
 * एक अतिरिक्त कदम आकृति विज्ञान (भाषा विज्ञान) को संभालने के लिए एक भाषा-निर्भर एल्गोरिदम है। यहां तक ​​कि अंग्रेजी भाषा जैसी हल्की विभक्ति वाली भाषा के लिए भी, वर्तनी जांचकर्ता को एक ही शब्द के विभिन्न रूपों, जैसे बहुवचन, मौखिक रूप, संकुचन (व्याकरण), और स्वामित्व (भाषाविज्ञान) पर विचार करने की आवश्यकता होती है। जो की कई अन्य भाषाओं के लिए, जैसे कि एग्लूटिनेशन और अधिक जटिल गिरावट और संयुग्मन की विशेषता वाली भाषाओं के लिए, प्रक्रिया का यह भाग अधिक जटिल है।

यह स्पष्ट नहीं है कि क्या रूपात्मक विश्लेषण - किसी शब्द की व्याकरणिक भूमिका के आधार पर उसके कई रूपों की अनुमति देना - अंग्रेजी के लिए एक महत्वपूर्ण लाभ प्रदान करता है, चूँकि जर्मन, हंगेरियन या तुर्की जैसी अत्यधिक सिंथेटिक भाषाओं के लिए इसके लाभ स्पष्ट हैं।

इन घटकों के सहायक के रूप में, प्रोग्राम का उपयोगकर्ता इंटरफ़ेस उपयोगकर्ताओं को प्रतिस्थापन को स्वीकृत या अस्वीकार करने और प्रोग्राम के संचालन को संशोधित करने की अनुमति देता है।

वर्तनी जांचकर्ता गलत वर्तनी वाले शब्दों की सही वर्तनी खोजने के लिए लेवेनशेटिन दूरी जैसे अनुमानित स्ट्रिंग मिलान एल्गोरिदम का उपयोग कर सकते हैं। एक वैकल्पिक प्रकार का वर्तनी जांचकर्ता सही वर्तनी वाले शब्दों के अतिरीक्त त्रुटियों को पहचानने के लिए केवल एन-ग्राम जैसी सांख्यिकीय जानकारी का उपयोग करता है। इस दृष्टिकोण में सामान्यतः पर्याप्त सांख्यिकीय जानकारी प्राप्त करने के लिए बहुत अधिक प्रयास की आवश्यकता होती है। मुख्य लाभों में कम रनटाइम संचयन की आवश्यकता और उन शब्दों में त्रुटियों को ठीक करने की क्षमता सम्मिलित है जो शब्दकोश में सम्मिलित नहीं हैं।

कुछ स्थिति में, वर्तनी जांचकर्ता गलत वर्तनी की एक निश्चित सूची और उन गलत वर्तनी के लिए वर्तनी सुझाव का उपयोग करते हैं; इस कम लचीले दृष्टिकोण का उपयोग अधिकांशतः कागज-आधारित सुधार विधियों में किया जाता है, जैसे कि विश्वकोश की प्रविष्टियाँ भी देखें।

क्लस्टरिंग एल्गोरिदम का उपयोग ध्वन्यात्मक जानकारी के साथ संयोजन में वर्तनी जांच के लिए भी किया गया है।

प्री-पीसी
1961 में, लेस अर्नेस्ट, जिन्होंने इस नवोदित तकनीक पर शोध का नेतृत्व किया, ने 10,000 स्वीकार्य शब्दों की सूची तक पहुंचने वाले पहले वर्तनी जांचकर्ता को सम्मिलित करना आवश्यक समझा जाता है। उस समय अर्नेस्ट के तहत स्नातक छात्र राल्फ गोरिन ने सामान्य अंग्रेजी टेक्स्ट के लिए एक एप्लिकेशन प्रोग्राम (शोध के अतिरिक्त) के रूप में लिखा गया पहला सच्चा वर्तनी जांच कार्य बनाया: फरवरी में स्टैनफोर्ड यूनिवर्सिटी की आर्टिफिशियल इंटेलिजेंस प्रयोगशाला में डीईसी पीडीपी -10 के लिए वर्तनी 1971. तेज़ कार्रवाई के लिए गोरिन ने असेंबली भाषा में वर्तनी लिखा गया था; उन्होंने शब्द सूची में एक अक्षर या आसन्न अक्षर स्थानान्तरण से भिन्न प्रशंसनीय सही वर्तनी की खोज करके और उन्हें उपयोगकर्ता के सामने प्रस्तुत करके पहला वर्तनी सुधारक बनाया था और गोरिन ने वर्तनी को सार्वजनिक रूप से सुलभ बना दिया जाता है, जैसा कि अधिकांश सैल (स्टैनफोर्ड आर्टिफिशियल इंटेलिजेंस लेबोरेटरी) कार्यक्रमों के साथ किया गया था, और यह जल्द ही नए अरपानेट के माध्यम से दुनिया भर में फैल गया था, जिसे पर्सनल कंप्यूटर के सामान्य उपयोग में आने से लगभग दस साल पहले। वर्तनी, इसके एल्गोरिदम और डेटा संरचनाओं ने यूनिक्स वर्तनी प्रोग्राम को प्रेरित किया था। पहले वर्तनी जांचकर्ता 1970 के दशक के अंत में मेनफ्रेम कंप्यूटरों पर व्यापक रूप से उपलब्ध थे। जॉर्जटाउन विश्वविद्यालय के छह भाषाविदों के एक समूह ने आईबीएम कॉर्पोरेशन के लिए पहली वर्तनी-जांच प्रणाली विकसित की थी।

हेनरी कुएसेरा ने 1981 में डिजिटल इक्विपमेंट कॉर्प की वैक्स मशीनों के लिए एक का आविष्कार किया था।

यूनिक्स
यूनिक्स में सामान्यतः उपयोग किया जाने वाला माय मैजिक प्रोग्राम आर. ई. गोरिन के स्पेल पर आधारित है। इसे एमआईटी में पेस विलिसन द्वारा सी में परिवर्तित किया गया था।

जीएनयू प्रोजेक्ट का अपना वर्तनी जांचकर्ता जीएनयू एस्पेल है। एस्पेल का मुख्य सुधार यह है कि यह गलत वर्तनी वाले अंग्रेजी शब्दों के लिए अधिक स्पष्ट रूप से सही विकल्प सुझा सकता है।

पारंपरिक वर्तनी जांचकर्ताओं की जटिल विभक्ति वाली भाषाओं में शब्दों की जांच करने में असमर्थता के कारण, हंगेरियन लास्ज़लो नेमेथ ने हन्सपेल विकसित किया, एक वर्तनी जांचकर्ता जो एग्लूटिनेटिव भाषाओं और जटिल यौगिक शब्दों का समर्थन करता है। हन्सपेल अपने शब्दकोशों में यूनिकोड का भी उपयोग करता है। संस्करण 2.0.2 में हन्सपेल ने ओपनऑफिस.ऑर्ग में पिछले माईस्पेल को प्रतिस्थापित कर दिया था।

एन्चांट (सॉफ्टवेयर) एक अन्य सामान्य वर्तनी जांचकर्ता है, जो अबीवर्ड से लिया गया है। इसका लक्ष्य विभिन्न भाषाओं जैसे एस्पेल, हन्सपेल, नुस्पेल, एचस्पेल (हिब्रू), वोइक्को (फिनिश), ज़ेम्बरेक (तुर्की) और ऐप्पलस्पेल को एक इंटरफ़ेस के तहत समर्थन करने वाले कार्यक्रमों को संयोजित करना है।

पीसी
पर्सनल कंप्यूटर के लिए पहला वर्तनी जांचकर्ता 1980 में सामने आया था, जैसे कि कमोडोर सिस्टम के लिए वर्डचेक जिसे 1980 के अंत में जनवरी 1981 में विज्ञापनों के प्रिंट होने के समय जारी किया गया था। मारिया मारिअथार्त जैसे डेवलपर्स और आकस्मिक घर मूल उपकरण निर्माता पैकेजों या अंतिम-उपयोगकर्ता उत्पादों को तेजी से बढ़ते सॉफ़्टवेयर बाज़ार में पहुँचाया था। जिसे प्री-विंडोज पीसी पर, ये वर्तनी जांचकर्ता स्टैंडअलोन प्रोग्राम थे, जिनमें से कई को पर्याप्त मेमोरी वाले पीसी पर वर्ड-प्रोसेसिंग पैकेज के अंदर से समाप्त करें-और-निवासी रहें मोड में चलाया जा सकता था।

चूँकि स्टैंडअलोन पैकेजों का बाजार अल्पकालिक था, क्योंकि 1980 के दशक के मध्य तक वर्डस्टार और वर्डपरफेक्ट जैसे लोकप्रिय वर्ड-प्रोसेसिंग पैकेजों के डेवलपर्स ने अपने पैकेजों में वर्तनी जांचकर्ताओं को सम्मिलित कर लिया था, जो अधिकत्तर उपरोक्त कंपनियों से लाइसेंस प्राप्त थे, जिन्होंने तेजी से समर्थन बढ़ाया। अंग्रेजी भाषा से लेकर कई यूरोपीय भाषाएँ और अंततः एशियाई भाषाएँ भी है चूँकि इसके लिए सॉफ़्टवेयर की आकृति विज्ञान दिनचर्या में बढ़ते परिष्कार की आवश्यकता थी, विशेष रूप से हंगेरियन भाषा और फ़िनिश भाषा जैसी भारी-समूहनात्मक भाषाओं के संबंध में चूँकि आइसलैंड जैसे देश में वर्ड-प्रोसेसिंग बाज़ार का आकार वर्तनी जाँचकर्ता को प्रयुक्त करने के निवेश को उचित नहीं ठहरा सकता है, फिर भी वर्डपरफेक्ट जैसी कंपनियाँ अपनी वैश्विक विपणन रणनीति के भाग के रूप में अपने सॉफ़्टवेयर को यथासंभव अधिक से अधिक राष्ट्रीय बाज़ारों के लिए स्थानीयकृत करने का प्रयास करती हैं।

जब एप्पल ने मैक ओएस यह पहली बार था: प्रत्येक कार्यक्रम के लिए एक अलग वर्तनी जांचकर्ता रखने की आवश्यकता नहीं थी। मैक ओएस एक्स के वर्तनी जांच कवरेज में वस्तुतः सभी बंडल और तृतीय पक्ष एप्लिकेशन सम्मिलित हैं।

दृश्य उपकरण का वीटी स्पेलर, 1994 में प्रस्तुत किया गया था, जो विंडोज़ का समर्थन करने वाले अनुप्रयोगों के डेवलपर्स के लिए डिज़ाइन किया गया था। यह एक शब्दकोश के साथ आया था किंतु इसमें द्वितीयक शब्दकोशों के निर्माण और उपयोग को सम्मिलित करने की क्षमता थी।

ब्राउज़र
फ़ायरफ़ॉक्स 2.0, एक वेब ब्राउज़र, उपयोगकर्ता-लिखित सामग्री के लिए वर्तनी जांच समर्थन प्रदान करता है, जैसे कि विकीटेक्स्ट को संपादित करते समय, कई वेबमेल साइटों, ब्लॉग और सामाजिक नेटवर्किंग वेबसाइटों पर लिखना वेब ब्राउज़र गूगल क्रोम,, कॉन्करर, और ओपेरा (वेब ​​​​ब्राउज़र), ईमेल क्लाइंट केमेल और तात्कालिक संदेशन क्लाइंट (कंप्यूटिंग) पिडगिन (सॉफ़्टवेयर) भी वर्तनी जाँच समर्थन प्रदान करते हैं, पारदर्शी रूप से पहले जीएनयू एस्पेल और वर्तमान में हनस्पेल को अपने इंजन के रूप में उपयोग करते हैं।

विशेषताएं
चिकित्सीय त्रुटियों को रोकने में सहायता के लिए कुछ वर्तनी जांचकर्ताओं के पास चिकित्सा शब्दकोशों के लिए अलग से समर्थन होता है।

कार्यक्षमता
पहले वर्तनी जांचकर्ता सुधारक के अतिरीक्त सत्यापनकर्ता थे। उन्होंने ग़लत वर्तनी वाले शब्दों के लिए कोई सुझाव नहीं दिया। यह लेखन संबंधी गलतियों के लिए तो साह्कृत था किंतु तार्किक या ध्वन्यात्मक त्रुटियों के लिए उतना साह्कृत नहीं था। डेवलपर्स को जिस चुनौती का सामना करना पड़ा वह गलत वर्तनी वाले शब्दों के लिए उपयोगी सुझाव देने में कठिनाई थी। इसके लिए शब्दों को स्केलेटल रूप में कम करना और पैटर्न-मिलान एल्गोरिदम प्रयुक्त करना आवश्यक है।

यह तर्कसंगत लग सकता है कि जहां तक ​​वर्तनी-जांच करने वाले शब्दकोशों का संबंध है, जितना बड़ा उतना उत्तम है जिससे सही शब्दों को गलत के रूप में चिह्नित न किया जाए। चूँकि वास्तव में, अंग्रेजी के लिए इष्टतम आकार लगभग 90,000 प्रविष्टियाँ प्रतीत होता है। यदि इससे अधिक हैं, तो गलत वर्तनी वाले शब्दों को छोड़ दिया जा सकता है क्योंकि उन्हें गलती से अन्य शब्द समझ लिया जाता है। उदाहरण के लिए, एक भाषाविद् कॉर्पस भाषाविज्ञान के आधार पर यह निर्धारित कर सकता है कि बाहत शब्द थाई मुद्रा के संदर्भ की तुलना में अधिकांशतः बाथ या बैट की गलत वर्तनी है। इसलिए, यह सामान्यतः अधिक उपयोगी होगा यदि थाई मुद्रा के बारे में लिखने वाले कुछ लोगों को थोड़ी असुविधा हुई हो, अतिरीक्त इसके कि स्नान पर चर्चा करने वाले कई लोगों की वर्तनी त्रुटियों को अनदेखा कर दिया जाता है। पहले एमएस-डॉस वर्तनी जांचकर्ताओं का उपयोग अधिकतर वर्ड प्रोसेसिंग पैकेज के अंदर से प्रूफ़िंग मोड में किया जाता था। दस्तावेज़ तैयार करने के बाद, एक उपयोगकर्ता ने गलत वर्तनी की खोज में टेक्स्ट को स्कैन किया जाता है। चूँकि बाद में, ओरेकल कारपोरेशन के अल्पकालिक कोऑथर जैसे पैकेजों में बैच प्रोसेसिंग की प्रस्तुति की गई और उपयोगकर्ता को दस्तावेज़ संसाधित होने के बाद परिणाम देखने और केवल उन शब्दों को सही करने की अनुमति दी गई जो गलत थे। जब मेमोरी और प्रसंस्करण शक्ति प्रचुर हो गई, तो पृष्ठभूमि में इंटरैक्टिव विधि से वर्तनी जांच की गई, जैसे कि 1987 में जारी सेक्टर सॉफ्टवेयर निर्मित स्पेलबाउंड प्रोग्राम और वर्ड 95 के बाद से माइक्रोसॉफ्ट वर्ड के स्थिति में हुआ है।

वर्तनी जांचकर्ता तेजी से परिष्कृत होते गए; अब व्याकरण संबंधी त्रुटियों को पहचानने में सक्षम था चूँकि अपनी सर्वश्रेष्ठ स्थिति में भी, वे संभवतः ही किसी टेक्स्ट में सभी त्रुटियों को पकड़ पाते हैं (जैसे कि होमोफ़ोन त्रुटियाँ) और नवविज्ञान और विदेशी शब्दों को गलत वर्तनी के रूप में चिह्नित करेंगे। तथापि, वर्तनी जांचकर्ताओं को एक प्रकार की विदेशी भाषा लेखन सहायता के रूप में माना जा सकता है, जिस पर गैर-देशी भाषा सीखने वाले लक्ष्य भाषा में अपनी गलत वर्तनी का पता लगाने और उसे ठीक करने के लिए विश्वाश कर सकते हैं।

अंग्रेजी के अतिरिक्त अन्य भाषाओं के लिए वर्तनी-जांच
अंग्रेजी इस तात्पर्य में असामान्य है कि औपचारिक लेखन में उपयोग किए जाने वाले अधिकांश शब्दों में एक ही वर्तनी होती है जो कि कुछ शब्दजाल और संशोधित शब्दों के अपवाद के साथ, एक विशिष्ट शब्दकोश में पाई जा सकती है। कई भाषाओं में, शब्दों को अधिकांशतः शब्दों के नए संयोजनों में संयोजित किया जाता है। जर्मन में, यौगिक संज्ञाएं अधिकांशतः अन्य उपस्थित संज्ञाओं से बनाई जाती हैं। कुछ स्क्रिप्ट स्पष्ट रूप से एक शब्द को दूसरे से अलग नहीं करती हैं, जिसके लिए शब्द-विभाजन एल्गोरिदम की आवश्यकता होती है। इनमें से प्रत्येक गैर-अंग्रेजी भाषा वर्तनी जांचकर्ताओं के लिए अद्वितीय चुनौतियां प्रस्तुत करता है।

संदर्भ-संवेदनशील वर्तनी जांचकर्ता
ऐसे एल्गोरिदम विकसित करने पर शोध किया गया है जो गलत वर्तनी वाले शब्द को पहचानने में सक्षम हैं, तथापि वह शब्द आसपास के शब्दों के संदर्भ (भाषा उपयोग) के आधार पर शब्दावली में ही क्यों न हो और यह न केवल उपरोक्त कविता जैसे शब्दों को पकड़ने की अनुमति देता है, किंतु यह शब्दकोशों को बड़ा करने के हानिकारक प्रभाव को कम करता है, जिससे अधिक शब्दों को पहचाना जा सकता है। उदाहरण के लिए, थाई या थाईलैंड के समान पैराग्राफ में बहत को बाथ की गलत वर्तनी के रूप में मान्यता नहीं दी जाएगी। ऐसी प्रणाली द्वारा पकड़ी गई त्रुटियों का सबसे समान्य उदाहरण होमोफ़ोन त्रुटियां हैं, जैसे कि निम्नलिखित वाक्य में बोल्ड शब्द है:
 *  'उनका ' आ रहा है 'भी' 'समुद्र ' यदि 'यह' है 'रील '।

आज तक का सबसे सफल एल्गोरिदम एंड्रयू गोल्डिंग और डैन रोथ का विन्नो (एल्गोरिदम)-आधारित वर्तनी सुधार एल्गोरिदम है, 1999 में प्रकाशित, जो सामान्य गैर-शब्द वर्तनी त्रुटियों के अतिरिक्त, लगभग 96% संदर्भ-संवेदनशील वर्तनी त्रुटियों को पहचानने में सक्षम है। संदर्भ-संवेदनशील वर्तनी जांचकर्ता अब बंद हो चुके अनुप्रयोगों माइक्रोसॉफ्ट ऑफिस 2007 में और गूगल वेव. दिखाई दिए थे

व्याकरण जांचकर्ता शब्दों के गलत चयन सहित वर्तनी त्रुटियों से परे व्याकरण संबंधी समस्याओं को ठीक करने का प्रयास करते हैं।

यह भी देखें

 * क्यूपर्टिनो प्रभाव
 * व्याकरण जांचकर्ता
 * रिकॉर्ड लिंकेज समस्या
 * वर्तनी सुझाव
 * शब्द (यूनिक्स)
 * स्वतः सुधार
 * भाषा उपकरण

बाहरी संबंध

 * Norvig.com, "How to Write a वर्तनी ing Corrector", by Peter Norvig
 * BBK.ac.uk, "वर्तनी checking by computer", by Roger Mitton
 * CBSNews.com, वर्तनी -Check Crutch Curtails Correctness, by Lloyd de Vries
 * History and text of "Candidate for a Pullet Surprise" by Mark Eckman and Jerrold H. Zar
 * History and text of "Candidate for a Pullet Surprise" by Mark Eckman and Jerrold H. Zar