योगात्मक चौरसाई

आंकड़ों में, एडिटिव स्मूथिंग, जिसे पियरे-साइमन लाप्लास स्मूथिंग भी कहा जाता है या जॉर्ज जेम्स लिडस्टोन चौरसाई, एक तकनीक है जिसका उपयोग श्रेणीबद्ध डेटा को स्मूथ करने के लिए किया जाता है। अवलोकन गणनाओं का एक सेट दिया गया $\textstyle  { \mathbf{x}\ =\ \left\langle x_1,\, x_2,\, \ldots,\, x_d \right\rangle}$  एक से $\textstyle  {d}$ -आयामी बहुपद वितरण के साथ $\textstyle  {N}$  परीक्षण, गिनती का एक सुचारु संस्करण अनुमानक को देता है:


 * $$\hat\theta_i= \frac{x_i + \alpha}{N + \alpha d} \qquad (i=1,\ldots,d),$$

जहां चिकनी गिनती $\textstyle { \hat{x}_i=N\hat{\theta}_i}$  और छद्मगणना α > 0 एक स्मूथिंग पैरामीटर है। α = 0 कोई स्मूथिंग नहीं है। (यह पैरामीटर इसमें समझाया गया है नीचे।) एडिटिव स्मूथिंग एक प्रकार का संकोचन अनुमानक है, क्योंकि परिणामी अनुमान अनुभवजन्य संभाव्यता (सापेक्ष आवृत्ति) के बीच होगा। $\textstyle  {x_i/ N}$, और असतत समान वितरण $\textstyle {1/d}$. लाप्लास के उत्तराधिकार के नियम का हवाला देते हुए, कुछ लेखकों ने तर्क दिया है वह α 1 होना चाहिए (जिस स्थिति में शब्द 'ऐड-वन स्मूथिंग' भी प्रयोग किया जाता है), हालांकि व्यवहार में आम तौर पर छोटा मान चुना जाता है।

बायेसियन अनुमान के दृष्टिकोण से, यह पूर्व वितरण के रूप में पैरामीटर α के साथ एक सममित डिरिचलेट वितरण का उपयोग करते हुए, पश्च वितरण के अपेक्षित मूल्य से मेल खाता है। विशेष मामले में जहां श्रेणियों की संख्या 2 है, यह द्विपद वितरण के मापदंडों के लिए संयुग्म पूर्व के रूप में बीटा वितरण का उपयोग करने के बराबर है।

इतिहास
लाप्लास इस स्मूथिंग तकनीक के साथ तब आए जब उन्होंने इस संभावना का अनुमान लगाने की कोशिश की कि कल सूरज उगेगा। उनका तर्क यह था कि उगते सूरज के साथ दिनों का एक बड़ा नमूना देने पर भी, हम अभी भी पूरी तरह से आश्वस्त नहीं हो सकते हैं कि सूरज कल भी उगेगा (जिसे सूर्योदय समस्या के रूप में जाना जाता है)।

छद्मगणना
एक छद्म गणना एक राशि है (आम तौर पर एक पूर्णांक नहीं, इसके नाम के बावजूद) उन डेटा के मॉडल (सार) में अपेक्षित संभावना को बदलने के लिए देखे गए मामलों की संख्या में जोड़ा जाता है, जब शून्य ज्ञात नहीं होता है। इसका यह नाम इसलिए रखा गया है, क्योंकि मोटे तौर पर कहें तो यह मूल्य की एक छद्म गणना है $\textstyle {\alpha}$  प्रत्येक श्रेणी की अतिरिक्त गिनती के समान ही पश्च वितरण में वजन होता है $\textstyle  { \alpha }$. यदि प्रत्येक आइटम की आवृत्ति $\textstyle { i }$  है $$\textstyle  {x_i}$$ से बाहर $\textstyle  {N}$  नमूने, घटना की अनुभवजन्य संभावना $\textstyle  { i }$  है


 * $$p_{i,\ \mathrm{empirical}} = \frac{x_i}{N}$$

लेकिन जब योगात्मक रूप से चिकना किया जाता है तो पिछली संभावना होती है


 * $$p_{i,\ \alpha\text{-smoothed}} = \frac{x_i + \alpha}{N + \alpha d},$$

मानो प्रत्येक गिनती को बढ़ाना हो $$\textstyle {x_i}$$ द्वारा $$\textstyle  {\alpha}$$ संभवतः।

पूर्व ज्ञान के आधार पर, जो कभी-कभी एक व्यक्तिपरक मूल्य होता है, एक छद्मगणना में कोई भी गैर-नकारात्मक परिमित मूल्य हो सकता है। यदि परिभाषा के अनुसार यह असंभव है तो यह केवल शून्य हो सकता है (या संभावना को नजरअंदाज कर दिया जा सकता है), जैसे कि पाई के दशमलव अंक के एक अक्षर होने की संभावना, या एक भौतिक संभावना जिसे अस्वीकार कर दिया जाएगा और इसलिए गिना नहीं जाएगा, जैसे कि कंप्यूटर द्वारा किसी अक्षर को प्रिंट करना जब पीआई के लिए एक वैध कार्यक्रम चलाया जाता है, या बाहर रखा जाता है और कोई रुचि नहीं होने के कारण गिना नहीं जाता है, जैसे कि केवल शून्य और एक में रुचि हो। आम तौर पर, ऐसी भी संभावना है कि कोई भी मूल्य एक सीमित समय में गणना योग्य या देखने योग्य नहीं हो सकता है (रोकने की समस्या देखें)। लेकिन कम से कम एक संभावना में गैर-शून्य छद्मगणना होनी चाहिए, अन्यथा पहले अवलोकन से पहले किसी भी भविष्यवाणी की गणना नहीं की जा सकती। छद्मगणना के सापेक्ष मूल्य उनकी संभावनाओं की सापेक्ष पूर्व अपेक्षित संभावनाओं का प्रतिनिधित्व करते हैं। छद्मगणना का योग, जो बहुत बड़ा हो सकता है, अपेक्षित संभावना का निर्धारण करते समय सभी वास्तविक टिप्पणियों (प्रत्येक के लिए एक) की तुलना में पूर्व ज्ञान के अनुमानित वजन का प्रतिनिधित्व करता है।

किसी भी देखे गए डेटा सेट या नमूने (सांख्यिकी) में, विशेष रूप से कम-संभावना वाली घटना (संभावना सिद्धांत) और छोटे डेटा सेट के साथ, एक संभावित घटना के घटित न होने की संभावना होती है। इसलिए इसकी प्रेक्षित आवृत्ति शून्य है, जो स्पष्ट रूप से शून्य की संभावना दर्शाती है। यह अतिसरलीकरण गलत और अक्सर अनुपयोगी है, विशेष रूप से कृत्रिम तंत्रिका नेटवर्क और छिपे छिपा हुआ मार्कोव मॉडल जैसी संभाव्यता-आधारित मशीन सीखने की तकनीकों में। दुर्लभ (लेकिन असंभव नहीं) घटनाओं की संभावना को कृत्रिम रूप से समायोजित करके ताकि वे संभावनाएं बिल्कुल शून्य न हों, पीपीएम संपीड़न एल्गोरिदम|शून्य-आवृत्ति समस्याओं से बचा जाता है। क्रॉमवेल का नियम भी देखें।

सबसे सरल तरीका शून्य-गणना संभावनाओं सहित प्रत्येक देखी गई घटनाओं की संख्या में एक जोड़ना है। इसे कभी-कभी लाप्लास का उत्तराधिकार का नियम भी कहा जाता है। यह दृष्टिकोण प्रत्येक संभावित घटना के लिए संभावनाओं पर एक समान पूर्व वितरण मानने के बराबर है (सिम्पलेक्स को फैलाते हुए जहां प्रत्येक संभावना 0 और 1 के बीच है, और उन सभी का योग 1 है)।

पक्षपातपूर्ण संभाव्यता दृष्टिकोण के साथ जेफ़रीज़ पूर्व#एन-पक्षीय पासे का उपयोग करते हुए, प्रत्येक संभावित परिणाम में एक आधे की छद्म गणना जोड़ी जानी चाहिए।

स्यूडोकाउंट को केवल तभी सेट किया जाना चाहिए जब कोई पूर्व ज्ञान न हो - उदासीनता का सिद्धांत देखें। हालाँकि, उचित पूर्व ज्ञान को देखते हुए, राशि को इस अपेक्षा के अनुपात में समायोजित किया जाना चाहिए कि पूर्व संभावनाओं को सही माना जाना चाहिए, इसके विपरीत साक्ष्य के बावजूद - उत्तराधिकार का नियम#आगे का विश्लेषण देखें। उच्च मूल्य उचित हैं क्योंकि वास्तविक मूल्यों का पूर्व ज्ञान है (एक टकसाल स्थिति सिक्के के लिए, मान लीजिए); कम मूल्य क्योंकि पूर्व ज्ञान है कि संभावित पूर्वाग्रह है, लेकिन अज्ञात डिग्री (एक मुड़े हुए सिक्के के लिए, मान लीजिए)।

एक अधिक जटिल दृष्टिकोण अन्य कारकों से घटनाओं के घनत्व का अनुमान लगाना और तदनुसार समायोजित करना है।

उदाहरण
छद्मगणना को प्रेरित करने का एक तरीका, विशेष रूप से द्विपद डेटा के लिए, एक अंतराल अनुमान के मध्यबिंदु के लिए एक सूत्र के माध्यम से है, विशेष रूप से एक द्विपद अनुपात विश्वास अंतराल। सबसे प्रसिद्ध एडविन बिडवेल विल्सन के कारण है : विल्सन स्कोर अंतराल के मध्यबिंदु के अनुरूप $z$ दोनों तरफ मानक विचलन है:
 * $$\frac{n_S + z}{n + 2z}.$$

ले रहा $$\textstyle z = 2$$ 95% विश्वास अंतराल का अनुमान लगाने के लिए मानक विचलन ($z \approx 1.96$) प्रत्येक परिणाम के लिए 2 की छद्म गणना उत्पन्न करता है, इसलिए कुल मिलाकर 4, बोलचाल की भाषा में प्लस चार नियम के रूप में जाना जाता है:
 * $$\frac{n_S + 2}{n + 4}.$$

यह एग्रेस्टी-कूल अंतराल का मध्यबिंदु भी है,.

ज्ञात घटना दर के मामले में सामान्यीकृत
अक्सर आप ज्ञात मापदंडों (घटना दर) के साथ एक नियंत्रण आबादी के खिलाफ एक अज्ञात परीक्षण आबादी के पूर्वाग्रह का परीक्षण कर रहे हैं $\textstyle { \mathbf{\mu}\ =\ \left\langle \mu_1,\, \mu_2,\, \ldots,\, \mu_d \right\rangle}$. इस मामले में एक समान संभावना $\textstyle {\frac{1}{d}}$  नियंत्रण जनसंख्या की ज्ञात घटना दर द्वारा प्रतिस्थापित किया जाना चाहिए $$\textstyle  {\mu_i}$$ सुचारू अनुमानक की गणना करने के लिए:


 * $$\hat\theta_i= \frac{x_i + \mu_i \alpha d }{N + \alpha d } \qquad (i=1,\ldots,d),$$

एक सुसंगतता जांच के रूप में, यदि अनुभवजन्य अनुमानक घटना दर के बराबर होता है, यानी। $$\textstyle {\mu_i} = \frac{x_i}{N}$$, सुचारू अनुमानक स्वतंत्र है$\textstyle  {\alpha}$ और घटना दर के बराबर भी है।

वर्गीकरण
एडिटिव स्मूथिंग आमतौर पर अनुभवहीन बेयस क्लासिफायर का एक घटक है।

सांख्यिकीय भाषा मॉडलिंग
प्राकृतिक भाषा प्रसंस्करण और सूचना पुनर्प्राप्ति के शब्दों के एक बैग मॉडल में, डेटा में दस्तावेज़ में प्रत्येक शब्द की घटनाओं की संख्या शामिल होती है। एडिटिव स्मूथिंग उन शब्दों के लिए गैर-शून्य संभावनाओं को निर्दिष्ट करने की अनुमति देता है जो नमूने में नहीं होते हैं। हाल के अध्ययनों से साबित हुआ है कि भाषा-मॉडल-आधारित प्रासंगिकता फीडबैक#ब्लाइंड फीडबैक|छद्म-प्रासंगिक फीडबैक और अनुशंसा प्रणाली जैसे कई पुनर्प्राप्ति कार्यों में एडिटिव स्मूथिंग अन्य संभाव्यता स्मूथिंग विधियों की तुलना में अधिक प्रभावी है।

यह भी देखें

 * बायेसियन औसत
 * आंशिक मिलान द्वारा भविष्यवाणी
 * श्रेणीबद्ध वितरण

बाहरी संबंध

 * SF Chen, J Goodman (1996). "An empirical study of smoothing techniques for language modeling". Proceedings of the 34th annual meeting on Association for Computational Linguistics.
 * Pseudocounts
 * Bayesian interpretation of pseudocount regularizers