वर्तनी जांचकर्ता (स्पेल चेकर)

सॉफ्टवेयर में, वर्तनी जांचकर्ता (या वर्तनी जांचकर्ता या वर्तनी जांच) एक सॉफ्टवेयर सुविधा है जो पाठ फ़ाइल में गलत वर्तनी की जांच करती है। वर्तनी-जाँच सुविधाएँ अक्सर सॉफ़्टवेयर या सेवाओं में अंतर्निहित होती हैं, जैसे शब्द संसाधक, ईमेल क्लाइंट, इलेक्ट्रॉनिक शब्दकोश या खोज इंजन।



डिज़ाइन
एक बुनियादी वर्तनी जाँचकर्ता निम्नलिखित प्रक्रियाएँ करता है:
 * यह टेक्स्ट को स्कैन करता है और उसमें मौजूद शब्दों को निकालता है।
 * इसके बाद यह प्रत्येक शब्द की तुलना सही ढंग से लिखे गए शब्दों की ज्ञात सूची (यानी एक शब्दकोश) से करता है। इसमें केवल शब्दों की एक सूची हो सकती है, या इसमें अतिरिक्त जानकारी भी हो सकती है, जैसे हाइफ़नेशन बिंदु या शाब्दिक और व्याकरण संबंधी विशेषताएँ।
 * एक अतिरिक्त कदम आकृति विज्ञान (भाषा विज्ञान) को संभालने के लिए एक भाषा-निर्भर एल्गोरिदम है। यहां तक ​​कि अंग्रेजी भाषा जैसी हल्की विभक्ति वाली भाषा के लिए भी, वर्तनी जांचकर्ता को एक ही शब्द के विभिन्न रूपों, जैसे बहुवचन, मौखिक रूप, संकुचन (व्याकरण), और स्वामित्व (भाषाविज्ञान) पर विचार करने की आवश्यकता होगी। कई अन्य भाषाओं के लिए, जैसे कि एग्लूटिनेशन और अधिक जटिल गिरावट और संयुग्मन की विशेषता वाली भाषाओं के लिए, प्रक्रिया का यह हिस्सा अधिक जटिल है।

यह स्पष्ट नहीं है कि क्या रूपात्मक विश्लेषण - किसी शब्द की व्याकरणिक भूमिका के आधार पर उसके कई रूपों की अनुमति देना - अंग्रेजी के लिए एक महत्वपूर्ण लाभ प्रदान करता है, हालांकि जर्मन, हंगेरियन या तुर्की जैसी अत्यधिक सिंथेटिक भाषाओं के लिए इसके लाभ स्पष्ट हैं।

इन घटकों के सहायक के रूप में, प्रोग्राम का उपयोगकर्ता इंटरफ़ेस उपयोगकर्ताओं को प्रतिस्थापन को स्वीकृत या अस्वीकार करने और प्रोग्राम के संचालन को संशोधित करने की अनुमति देता है।

वर्तनी जांचकर्ता गलत वर्तनी वाले शब्दों की सही वर्तनी खोजने के लिए लेवेनशेटिन दूरी जैसे अनुमानित स्ट्रिंग मिलान एल्गोरिदम का उपयोग कर सकते हैं। एक वैकल्पिक प्रकार का वर्तनी जांचकर्ता सही वर्तनी वाले शब्दों के बजाय त्रुटियों को पहचानने के लिए केवल एन-ग्राम जैसी सांख्यिकीय जानकारी का उपयोग करता है। इस दृष्टिकोण में आमतौर पर पर्याप्त सांख्यिकीय जानकारी प्राप्त करने के लिए बहुत अधिक प्रयास की आवश्यकता होती है। मुख्य लाभों में कम रनटाइम स्टोरेज की आवश्यकता और उन शब्दों में त्रुटियों को ठीक करने की क्षमता शामिल है जो शब्दकोश में शामिल नहीं हैं।

कुछ मामलों में, वर्तनी जांचकर्ता गलत वर्तनी की एक निश्चित सूची और उन गलत वर्तनी के लिए वर्तनी सुझाव का उपयोग करते हैं; इस कम लचीले दृष्टिकोण का उपयोग अक्सर कागज-आधारित सुधार विधियों में किया जाता है, जैसे कि विश्वकोश की प्रविष्टियाँ भी देखें।

वर्तनी जाँच के लिए क्लस्टरिंग एल्गोरिदम का भी उपयोग किया गया है ध्वन्यात्मक जानकारी के साथ संयुक्त।

प्री-पीसी
1961 में, लेस अर्नेस्ट, जिन्होंने इस नवोदित तकनीक पर शोध का नेतृत्व किया, ने 10,000 स्वीकार्य शब्दों की सूची तक पहुंचने वाले पहले वर्तनी जांचकर्ता को शामिल करना आवश्यक समझा। उस समय अर्नेस्ट के तहत स्नातक छात्र राल्फ गोरिन ने सामान्य अंग्रेजी पाठ के लिए एक एप्लिकेशन प्रोग्राम (शोध के बजाय) के रूप में लिखा गया पहला सच्चा वर्तनी जांच कार्यक्रम बनाया: फरवरी में स्टैनफोर्ड यूनिवर्सिटी की आर्टिफिशियल इंटेलिजेंस प्रयोगशाला में डीईसी पीडीपी -10 के लिए वर्तनी 1971. तेज़ कार्रवाई के लिए गोरिन ने असेंबली भाषा में SPELL लिखा; उन्होंने शब्द सूची में एक अक्षर या आसन्न अक्षर स्थानान्तरण से भिन्न प्रशंसनीय सही वर्तनी की खोज करके और उन्हें उपयोगकर्ता के सामने प्रस्तुत करके पहला वर्तनी सुधारक बनाया। गोरिन ने SPELL को सार्वजनिक रूप से सुलभ बना दिया, जैसा कि अधिकांश SAIL (स्टैनफोर्ड आर्टिफिशियल इंटेलिजेंस लेबोरेटरी) कार्यक्रमों के साथ किया गया था, और यह जल्द ही नए ARPAnet के माध्यम से दुनिया भर में फैल गया, पर्सनल कंप्यूटर के सामान्य उपयोग में आने से लगभग दस साल पहले। SPELL, इसके एल्गोरिदम और डेटा संरचनाओं ने Unix ispell प्रोग्राम को प्रेरित किया। पहले वर्तनी जांचकर्ता 1970 के दशक के अंत में मेनफ्रेम कंप्यूटरों पर व्यापक रूप से उपलब्ध थे। जॉर्जटाउन विश्वविद्यालय के छह भाषाविदों के एक समूह ने आईबीएम कॉर्पोरेशन के लिए पहली वर्तनी-जांच प्रणाली विकसित की। हेनरी कुएसेरा ने 1981 में डिजिटल इक्विपमेंट कॉर्प की VAX मशीनों के लिए एक का आविष्कार किया।

यूनिक्स
यूनिक्स में आमतौर पर उपयोग किया जाने वाला मेरा जादू प्रोग्राम आर. ई. गोरिन के स्पेल पर आधारित है। इसे एमआईटी में पेस विलिसन द्वारा सी में परिवर्तित किया गया था। जीएनयू प्रोजेक्ट का अपना वर्तनी जांचकर्ता जीएनयू एस्पेल है। एस्पेल का मुख्य सुधार यह है कि यह गलत वर्तनी वाले अंग्रेजी शब्दों के लिए अधिक सटीक रूप से सही विकल्प सुझा सकता है। पारंपरिक वर्तनी जांचकर्ताओं की जटिल विभक्ति वाली भाषाओं में शब्दों की जांच करने में असमर्थता के कारण, हंगेरियन लास्ज़लो नेमेथ ने हन्सपेल विकसित किया, एक वर्तनी जांचकर्ता जो एग्लूटिनेटिव भाषाओं और जटिल यौगिक शब्दों का समर्थन करता है। हन्सपेल अपने शब्दकोशों में यूनिकोड का भी उपयोग करता है। संस्करण 2.0.2 में हन्सपेल ने OpenOffice.org में पिछले MySpell को प्रतिस्थापित कर दिया।

एन्चांट (सॉफ्टवेयर) एक अन्य सामान्य वर्तनी जांचकर्ता है, जो अबीवर्ड से लिया गया है। इसका लक्ष्य विभिन्न भाषाओं जैसे एस्पेल, हन्सपेल, नुस्पेल, एचस्पेल (हिब्रू), वोइक्को (फिनिश), ज़ेम्बरेक (तुर्की) और ऐप्पलस्पेल को एक इंटरफ़ेस के तहत समर्थन करने वाले कार्यक्रमों को संयोजित करना है।

पीसी
पर्सनल कंप्यूटर के लिए पहला वर्तनी जांचकर्ता 1980 में सामने आया, जैसे कि कमोडोर सिस्टम के लिए वर्डचेक जिसे 1980 के अंत में जनवरी 1981 में विज्ञापनों के प्रिंट होने के समय जारी किया गया था। मारिया मारियानी जैसे डेवलपर्स और आकस्मिक घर मूल उपकरण निर्माता पैकेजों या अंतिम-उपयोगकर्ता उत्पादों को तेजी से बढ़ते सॉफ़्टवेयर बाज़ार में पहुँचाया। प्री-विंडोज पीसी पर, ये वर्तनी जांचकर्ता स्टैंडअलोन प्रोग्राम थे, जिनमें से कई को पर्याप्त मेमोरी वाले पीसी पर वर्ड-प्रोसेसिंग पैकेज के भीतर से समाप्त करें-और-निवासी रहें मोड में चलाया जा सकता था।

हालाँकि, स्टैंडअलोन पैकेजों का बाजार अल्पकालिक था, क्योंकि 1980 के दशक के मध्य तक वर्डस्टार और वर्डपरफेक्ट जैसे लोकप्रिय वर्ड-प्रोसेसिंग पैकेजों के डेवलपर्स ने अपने पैकेजों में वर्तनी जांचकर्ताओं को शामिल कर लिया था, जो ज्यादातर उपरोक्त कंपनियों से लाइसेंस प्राप्त थे, जिन्होंने तेजी से समर्थन बढ़ाया। अंग्रेजी भाषा से लेकर कई यूरोपीय भाषाएँ और अंततः एशियाई भाषाएँ भी। हालाँकि, इसके लिए सॉफ़्टवेयर की आकृति विज्ञान दिनचर्या में बढ़ते परिष्कार की आवश्यकता थी, विशेष रूप से हंगेरियन भाषा और फ़िनिश भाषा जैसी भारी-समूहनात्मक भाषाओं के संबंध में। हालाँकि आइसलैंड जैसे देश में वर्ड-प्रोसेसिंग बाज़ार का आकार वर्तनी जाँचकर्ता को लागू करने के निवेश को उचित नहीं ठहरा सकता है, फिर भी WordPerfect जैसी कंपनियाँ अपनी वैश्विक विपणन रणनीति के हिस्से के रूप में अपने सॉफ़्टवेयर को यथासंभव अधिक से अधिक राष्ट्रीय बाज़ारों के लिए स्थानीयकृत करने का प्रयास करती हैं।

जब Apple ने Mac OS यह पहली बार था: प्रत्येक कार्यक्रम के लिए एक अलग वर्तनी जांचकर्ता रखने की आवश्यकता नहीं थी। Mac OS X के वर्तनी जांच कवरेज में वस्तुतः सभी बंडल और तृतीय पक्ष एप्लिकेशन शामिल हैं।

विज़ुअल टूल्स का वीटी स्पेलर, 1994 में पेश किया गया था, जो विंडोज़ का समर्थन करने वाले अनुप्रयोगों के डेवलपर्स के लिए डिज़ाइन किया गया था। यह एक शब्दकोश के साथ आया था लेकिन इसमें द्वितीयक शब्दकोशों के निर्माण और उपयोग को शामिल करने की क्षमता थी।

ब्राउज़र
फ़ायरफ़ॉक्स 2.0, एक वेब ब्राउज़र, उपयोगकर्ता-लिखित सामग्री के लिए वर्तनी जांच समर्थन प्रदान करता है, जैसे कि विकीटेक्स्ट को संपादित करते समय, कई वेबमेल साइटों, ब्लॉगों और सामाजिक नेटवर्किंग वेबसाइटों पर लिखना। वेब ब्राउज़र Google Chrome, Konqueror, और ओपेरा (वेब ​​​​ब्राउज़र), ईमेल क्लाइंट Kmail और तात्कालिक संदेशन क्लाइंट (कंप्यूटिंग) पिडगिन (सॉफ़्टवेयर) भी वर्तनी जाँच समर्थन प्रदान करते हैं, पारदर्शी रूप से पहले GNU एस्पेल और वर्तमान में हनस्पेल को अपने इंजन के रूप में उपयोग करते हैं।

विशेषताएं
चिकित्सीय त्रुटियों को रोकने में मदद के लिए कुछ वर्तनी जांचकर्ताओं के पास चिकित्सा शब्दकोशों के लिए अलग से समर्थन होता है।

कार्यक्षमता
पहले वर्तनी जांचकर्ता सुधारक के बजाय सत्यापनकर्ता थे। उन्होंने ग़लत वर्तनी वाले शब्दों के लिए कोई सुझाव नहीं दिया। यह लेखन संबंधी गलतियों के लिए तो मददगार था लेकिन तार्किक या ध्वन्यात्मक त्रुटियों के लिए उतना मददगार नहीं था। डेवलपर्स को जिस चुनौती का सामना करना पड़ा वह गलत वर्तनी वाले शब्दों के लिए उपयोगी सुझाव देने में कठिनाई थी। इसके लिए शब्दों को कंकाल रूप में कम करना और पैटर्न-मिलान एल्गोरिदम लागू करना आवश्यक है।

यह तर्कसंगत लग सकता है कि जहां तक ​​वर्तनी-जांच करने वाले शब्दकोशों का संबंध है, जितना बड़ा उतना बेहतर, ताकि सही शब्दों को गलत के रूप में चिह्नित न किया जाए। हालाँकि, व्यवहार में, अंग्रेजी के लिए इष्टतम आकार लगभग 90,000 प्रविष्टियाँ प्रतीत होता है। यदि इससे अधिक हैं, तो गलत वर्तनी वाले शब्दों को छोड़ दिया जा सकता है क्योंकि उन्हें गलती से अन्य शब्द समझ लिया जाता है। उदाहरण के लिए, एक भाषाविद् कॉर्पस भाषाविज्ञान के आधार पर यह निर्धारित कर सकता है कि बाट शब्द थाई मुद्रा के संदर्भ की तुलना में अक्सर बाथ या बैट की गलत वर्तनी है। इसलिए, यह आमतौर पर अधिक उपयोगी होगा यदि थाई मुद्रा के बारे में लिखने वाले कुछ लोगों को थोड़ी असुविधा हुई हो, बजाय इसके कि स्नान पर चर्चा करने वाले कई लोगों की वर्तनी त्रुटियों को नजरअंदाज कर दिया जाए। पहले MS-DOS वर्तनी जांचकर्ताओं का उपयोग अधिकतर वर्ड प्रोसेसिंग पैकेज के भीतर से प्रूफ़िंग मोड में किया जाता था। दस्तावेज़ तैयार करने के बाद, एक उपयोगकर्ता ने गलत वर्तनी की तलाश में पाठ को स्कैन किया। हालाँकि, बाद में, Oracle Corporation के अल्पकालिक CoAuthor जैसे पैकेजों में बैच प्रोसेसिंग की पेशकश की गई और उपयोगकर्ता को दस्तावेज़ संसाधित होने के बाद परिणाम देखने और केवल उन शब्दों को सही करने की अनुमति दी गई जो गलत थे। जब मेमोरी और प्रसंस्करण शक्ति प्रचुर हो गई, तो पृष्ठभूमि में इंटरैक्टिव तरीके से वर्तनी जांच की गई, जैसे कि 1987 में जारी सेक्टर सॉफ्टवेयर निर्मित स्पेलबाउंड प्रोग्राम और वर्ड 95 के बाद से माइक्रोसॉफ्ट वर्ड के मामले में हुआ है।

वर्तनी जांचकर्ता तेजी से परिष्कृत होते गए; अब व्याकरण संबंधी त्रुटियों को पहचानने में सक्षम। हालाँकि, अपनी सर्वश्रेष्ठ स्थिति में भी, वे शायद ही किसी पाठ में सभी त्रुटियों को पकड़ पाते हैं (जैसे कि होमोफ़ोन त्रुटियाँ) और नवविज्ञान और विदेशी शब्दों को गलत वर्तनी के रूप में चिह्नित करेंगे। बहरहाल, वर्तनी जांचकर्ताओं को एक प्रकार की विदेशी भाषा लेखन सहायता के रूप में माना जा सकता है, जिस पर गैर-देशी भाषा सीखने वाले लक्ष्य भाषा में अपनी गलत वर्तनी का पता लगाने और उसे ठीक करने के लिए भरोसा कर सकते हैं।

अंग्रेजी के अलावा अन्य भाषाओं के लिए वर्तनी-जांच
अंग्रेजी इस मायने में असामान्य है कि औपचारिक लेखन में उपयोग किए जाने वाले अधिकांश शब्दों में एक ही वर्तनी होती है जो कि कुछ शब्दजाल और संशोधित शब्दों के अपवाद के साथ, एक विशिष्ट शब्दकोश में पाई जा सकती है। कई भाषाओं में, शब्दों को अक्सर शब्दों के नए संयोजनों में संयोजित किया जाता है। जर्मन में, यौगिक संज्ञाएं अक्सर अन्य मौजूदा संज्ञाओं से बनाई जाती हैं। कुछ स्क्रिप्ट स्पष्ट रूप से एक शब्द को दूसरे से अलग नहीं करती हैं, जिसके लिए शब्द-विभाजन एल्गोरिदम की आवश्यकता होती है। इनमें से प्रत्येक गैर-अंग्रेजी भाषा वर्तनी जांचकर्ताओं के लिए अद्वितीय चुनौतियां प्रस्तुत करता है।

संदर्भ-संवेदनशील वर्तनी जांचकर्ता
ऐसे एल्गोरिदम विकसित करने पर शोध किया गया है जो गलत वर्तनी वाले शब्द को पहचानने में सक्षम हैं, भले ही वह शब्द आसपास के शब्दों के संदर्भ (भाषा उपयोग) के आधार पर शब्दावली में ही क्यों न हो। यह न केवल उपरोक्त कविता जैसे शब्दों को पकड़ने की अनुमति देता है, बल्कि यह शब्दकोशों को बड़ा करने के हानिकारक प्रभाव को कम करता है, जिससे अधिक शब्दों को पहचाना जा सकता है। उदाहरण के लिए, थाई या थाईलैंड के समान पैराग्राफ में baht को बाथ की गलत वर्तनी के रूप में मान्यता नहीं दी जाएगी। ऐसी प्रणाली द्वारा पकड़ी गई त्रुटियों का सबसे आम उदाहरण होमोफ़ोन त्रुटियां हैं, जैसे कि निम्नलिखित वाक्य में बोल्ड शब्द:
 * 'उनका' आ रहा है 'भी' 'समुद्र' अगर 'यह' है 'रील'।

आज तक का सबसे सफल एल्गोरिदम एंड्रयू गोल्डिंग और डैन रोथ का विन्नो (एल्गोरिदम)-आधारित वर्तनी सुधार एल्गोरिदम है, 1999 में प्रकाशित, जो सामान्य गैर-शब्द वर्तनी त्रुटियों के अलावा, लगभग 96% संदर्भ-संवेदनशील वर्तनी त्रुटियों को पहचानने में सक्षम है। संदर्भ-संवेदनशील वर्तनी जांचकर्ता अब बंद हो चुके अनुप्रयोगों Microsoft Office 2007 में दिखाई दिए और गूगल वेव. व्याकरण जांचकर्ता शब्दों के गलत चयन सहित वर्तनी त्रुटियों से परे व्याकरण संबंधी समस्याओं को ठीक करने का प्रयास करते हैं।

यह भी देखें

 * क्यूपर्टिनो प्रभाव
 * व्याकरण जांचकर्ता
 * रिकॉर्ड लिंकेज समस्या
 * वर्तनी सुझाव
 * शब्द (यूनिक्स)
 * स्वतः सुधार
 * भाषा उपकरण

बाहरी संबंध

 * Norvig.com, "How to Write a Spelling Corrector", by Peter Norvig
 * BBK.ac.uk, "Spellchecking by computer", by Roger Mitton
 * CBSNews.com, Spell-Check Crutch Curtails Correctness, by Lloyd de Vries
 * History and text of "Candidate for a Pullet Surprise" by Mark Eckman and Jerrold H. Zar
 * History and text of "Candidate for a Pullet Surprise" by Mark Eckman and Jerrold H. Zar