योगात्मक चौरसाई

आंकड़ों में, एडिटिव स्मूथिंग, जिसे लाप्लास स्मूथिंग या लिडस्टोन स्मूथिंग भी कहा जाता है, ऐसी तकनीक है जिसका उपयोग श्रेणीबद्ध डेटा को सुचारू करने के लिए किया जाता है। $\textstyle {N}$  परीक्षणों के साथ $\textstyle  {d}$ -आयामी बहुपद वितरण से अवलोकन गणनाओं के समुच्चय  $\textstyle  { \mathbf{x}\ =\ \left\langle x_1,\, x_2,\, \ldots,\, x_d \right\rangle}$  को देखते हुए, गणनाओं का "सुचारू" संस्करण अनुमानक देता है:


 * $$\hat\theta_i= \frac{x_i + \alpha}{N + \alpha d} \qquad (i=1,\ldots,d),

$$ जहां स्मूथ काउंट $\textstyle { \hat{x}_i=N\hat{\theta}_i}$  और "स्यूडोकाउंट" α > 0 स्मूथिंग पैरामीटर है। α = 0 कोई स्मूथिंग नहीं है। (यह पैरामीटर नीचे § स्यूडोकाउंट में समझाया गया है।) एडिटिव स्मूथिंग प्रकार का संकोचन अनुमानक है, क्योंकि परिणामी अनुमान अनुभवजन्य संभाव्यता (सापेक्ष आवृत्ति) $\textstyle  {x_i/ N}$, और समान संभावना $\textstyle {1/d}$  के बीच होगा। लाप्लास के उत्तराधिकार के नियम का आह्वान करते हुए, कुछ लेखकों ने तर्क दिया है कि α 1 होना चाहिए (इस स्थिति में ऐड-वन स्मूथिंग'  शब्द का भी उपयोग किया जाता है), चूँकि वास्तव में समान्यत: छोटा मान चुना जाता है.

बायेसियन अनुमान के दृष्टिकोण से, यह पूर्व वितरण के रूप में पैरामीटर α के साथ सममित डिरिचलेट वितरण का उपयोग करते हुए, पश्च वितरण के अपेक्षित मूल्य से मेल खाता है। विशेष स्थिति में जहां श्रेणियों की संख्या 2 है, यह द्विपद वितरण के मापदंडों के लिए संयुग्म पूर्व के रूप में बीटा वितरण का उपयोग करने के समान है।

इतिहास
लाप्लास इस स्मूथिंग तकनीक के साथ तब आए जब उन्होंने इस संभावना का अनुमान लगाने का प्रयाश करते है की कि कल सूरज उगेगा। उनका तर्क यह था कि उगते सूरज के साथ दिनों का बड़ा नमूना देने पर भी हम अभी भी पूरी तरह से आश्वस्त नहीं हो सकते हैं कि सूरज कल भी उगेगा (जिसे सूर्योदय समस्या के रूप में जाना जाता है)।

स्यूडोकाउंट
छद्म गणना राशि है (समान्यत: पूर्णांक नहीं, इसके नाम के अतिरक्त ) उन डेटा के मॉडल में अपेक्षित संभावना को बदलने के लिए देखे गए स्थितियों की संख्या में जोड़ा जाता है, जब शून्य ज्ञात नहीं होता है। इसका यह नाम इसलिए रखा गया है क्योंकि समान्य रूप से कहें तो, मूल्य $\textstyle {\alpha}$  की छद्म गणना, प्रत्येक श्रेणी के समान ही, जिसमें $\textstyle  { \alpha }$  की अतिरिक्त गिनती होती है, पश्च वितरण में वजन करती है। यदि प्रत्येक आइटम $\textstyle  { i }$  की आवृत्ति $$\textstyle  {x_i}$$ नमूनों में से $\textstyle  {N}$  है, तो घटना की अनुभवजन्य संभावना $\textstyle  { i }$  है


 * $$p_{i,\ \mathrm{empirical}} = \frac{x_i}{N}$$

किंतु जब योगात्मक रूप से चिकना किया जाता है तो पिछली संभावना होती है


 * $$p_{i,\ \alpha\text{-smoothed}} = \frac{x_i + \alpha}{N + \alpha d},$$

मानो प्रत्येक गिनती को $$\textstyle {x_i}$$ को प्राथमिकता से $$\textstyle  {\alpha}$$ तक बढ़ाना हो।

पूर्व ज्ञान के आधार पर, जो कभी-कभी व्यक्तिपरक मूल्य होता है, छद्मगणना में कोई भी गैर-ऋणात्मक परिमित मूल्य हो सकता है। यदि परिभाषा के अनुसार यह असंभव है तो यह केवल शून्य हो सकता है (या संभावना को अनदेखा कर दिया जा सकता है) जैसे कि पाई के दशमलव अंक के अक्षर होने की संभावना या भौतिक संभावना जिसे अस्वीकार कर दिया जाएगा और इसलिए गिना नहीं जाएगा जैसे कि कंप्यूटर द्वारा किसी अक्षर को प्रिंट करना जब पीआई के लिए वैध कार्यक्रम चलाया जाता है, या बाहर रखा जाता है और कोई रुचि नहीं होने के कारण गिना नहीं जाता है, जैसे कि केवल शून्य और में रुचि हो। समान्यत: ऐसी भी संभावना है कि कोई भी मूल्य सीमित समय में गणना योग्य या देखने योग्य नहीं हो सकता है (रोकने की समस्या देखें)। किंतु कम से कम संभावना में गैर-शून्य छद्मगणना होनी चाहिए, अन्यथा पहले अवलोकन से पहले किसी भी भविष्यवाणी की गणना नहीं की जा सकती है। छद्मगणना के सापेक्ष मूल्य उनकी संभावनाओं की सापेक्ष पूर्व अपेक्षित संभावनाओं का प्रतिनिधित्व करते हैं। छद्मगणना का योग है जो बहुत बड़ा हो सकता है, अपेक्षित संभावना का निर्धारण करते समय सभी वास्तविक टिप्पणियों (प्रत्येक के लिए ) की तुलना में पूर्व ज्ञान के अनुमानित वजन का प्रतिनिधित्व करता है।

किसी भी देखे गए डेटा समुच्चय या नमूने (सांख्यिकी) में, विशेष रूप से कम-संभावना वाली घटना (संभावना सिद्धांत) और छोटे डेटा समुच्चय  के साथ, संभावित घटना के घटित न होने की संभावना होती है। इसलिए इसकी प्रेक्षित आवृत्ति शून्य है, जो स्पष्ट रूप से शून्य की संभावना दर्शाती है। यह अतिसरलीकरण गलत और अधिकांशतः अनुपयोगी है,विशेष रूप से कृत्रिम तंत्रिका नेटवर्क और छिपे हुए मार्कोव मॉडल जैसी संभाव्यता-आधारित मशीन सीखने की तकनीकों में यह दुर्लभ (किंतु असंभव नहीं) घटनाओं की संभावना को कृत्रिम रूप से समायोजित करके जिससे वे संभावनाएं बिल्कुल शून्य न हों जिससे पीपीएम संपीड़न एल्गोरिदम या शून्य-आवृत्ति समस्याओं से बचा जाता है। क्रॉमवेल का नियम भी देखें।

सबसे सरल विधि शून्य-गणना संभावनाओं सहित प्रत्येक देखी गई घटनाओं की संख्या में जोड़ना है। इसे कभी-कभी लाप्लास का उत्तराधिकार का नियम भी कहा जाता है। यह दृष्टिकोण प्रत्येक संभावित घटना के लिए संभावनाओं पर समान पूर्व वितरण मानने के समान है (सिम्पलेक्स को फैलाते हुए जहां प्रत्येक संभावना 0 और 1 के बीच है, और उन सभी का योग 1 है)।

जेफ़्रीज़ पूर्व दृष्टिकोण का उपयोग करते हुए, प्रत्येक संभावित परिणाम में आधे की छद्म गणना जोड़ी जानी चाहिए।

स्यूडोकाउंट को केवल तभी समुच्चय किया जाना चाहिए जब कोई पूर्व ज्ञान न हो - उदासीनता का सिद्धांत देखें। चूँकि, उचित पूर्व ज्ञान को देखते हुए, राशि को इस अपेक्षा के अनुपात में समायोजित किया जाना चाहिए कि पूर्व संभावनाओं को सही माना जाना चाहिए, इसके विपरीत साक्ष्य के अतिरक्त - उत्तराधिकार का नियम या उसके आगे का विश्लेषण देखें। उच्च मूल्य उचित हैं क्योंकि वास्तविक मूल्यों का पूर्व ज्ञान है (  टकसाल स्थिति सिक्के के लिए, मान लीजिए); कम मूल्य क्योंकि पूर्व ज्ञान है कि संभावित पूर्वाग्रह है, किंतु अज्ञात डिग्री (  मुड़े हुए सिक्के के लिए, मान लीजिए)।

अधिक सम्मिश्र दृष्टिकोण अन्य कारकों से घटनाओं के घनत्व का अनुमान लगाना और इसलिए समायोजित करना है।

उदाहरण
छद्मगणना को प्रेरित करने का विधि विशेष रूप से द्विपद डेटा के लिए अंतराल अनुमान के मध्यबिंदु के लिए सूत्र के माध्यम से है, विशेष रूप से द्विपद अनुपात विश्वास अंतराल सबसे प्रसिद्ध में एडविन बिडवेल विल्सन के कारण है: दोनों तरफ $z$ मानक विचलन के अनुरूप विल्सन स्कोर अंतराल का मध्यबिंदु है:
 * $$\frac{n_S + z}{n + 2z}.$$

लगभग 95% विश्वास अंतराल $$\textstyle z = 2$$ के लिए {$z \approx 1.96$} मानक विचलन लेने से प्रत्येक परिणाम के लिए 2 की छद्म गणना प्राप्त होती है, इसलिए कुल मिलाकर 4, जिसे बोलचाल की भाषा में "प्लस फोर नियम" के रूप में जाना जाता है:
 * $$\frac{n_S + 2}{n + 4}.$$

यह एग्रेस्टी-कूल अंतराल का मध्यबिंदु भी है,.

ज्ञात घटना दर के स्थिति में सामान्यीकृत
अधिकांशतः आप ज्ञात मापदंडों (घटना दर) $\textstyle { \mathbf{\mu}\ =\ \left\langle \mu_1,\, \mu_2,\, \ldots,\, \mu_d \right\rangle}$ के साथ नियंत्रण संख्या के विरुद्ध अज्ञात परीक्षण संख्या के पूर्वाग्रह का परीक्षण कर रहे हैं। इस स्थिति में सुचारू अनुमानक की गणना करने के लिए समान संभाव्यता $\textstyle  {\frac{1}{d}}$  को नियंत्रण जनसंख्या की ज्ञात घटना दर $$\textstyle  {\mu_i}$$ से प्रतिस्थापित किया जाना चाहिए:


 * $$\hat\theta_i= \frac{x_i + \mu_i \alpha d }{N + \alpha d } \qquad (i=1,\ldots,d),$$

सुसंगतता जांच के रूप में, यदि अनुभवजन्य अनुमानक घटना दर के समान होता है, अर्थात $$\textstyle {\mu_i} = \frac{x_i}{N}$$, तो सुचारू अनुमानक $\textstyle  {\alpha}$  से स्वतंत्र होता है और घटना दर के समान भी होता है।

वर्गीकरण
एडिटिव स्मूथिंग समान्यत: अनुभवहीन बेयस क्लासिफायर का घटक है।

सांख्यिकीय भाषा मॉडलिंग
प्राकृतिक भाषा प्रसंस्करण और सूचना पुनर्प्राप्ति के शब्दों के बैग मॉडल में, डेटा में दस्तावेज़ में प्रत्येक शब्द की घटनाओं की संख्या सम्मिलित होती है। एडिटिव स्मूथिंग उन शब्दों के लिए गैर-शून्य संभावनाओं को निर्दिष्ट करने की अनुमति देता है जो नमूने में नहीं होते हैं। वर्तमान के अध्ययनों से सिद्ध हुआ है कि भाषा-मॉडल-आधारित छद्म-प्रासंगिक प्रतिक्रिया और अनुशंसा प्रणाली जैसे कई पुनर्प्राप्ति कार्यों में एडिटिव स्मूथिंग अन्य संभाव्यता स्मूथिंग विधियों की तुलना में अधिक प्रभावी है। ।

यह भी देखें

 * बायेसियन औसत
 * आंशिक मिलान द्वारा भविष्यवाणी
 * श्रेणीबद्ध वितरण

बाहरी संबंध

 * SF Chen, J Goodman (1996). "An empirical study of smoothing techniques for language modeling". Proceedings of the 34th annual meeting on Association for Computational Linguistics.
 * Pseudocounts
 * Bayesian interpretation of pseudocount regularizers