महत्व नमूनाकरण

महत्व नमूनाकरण एक विशेष संभाव्यता वितरण के गुणों का मूल्यांकन करने के लिए एक मोंटे कार्लो विधि है, जबकि ब्याज के वितरण की तुलना में केवल एक अलग वितरण से उत्पन्न नमूने होते हैं। सांख्यिकी में इसकी शुरूआत का श्रेय आम तौर पर 1978 में तेन क्लोएक और हरमन के. वैन डिज्क के एक पेपर को दिया जाता है, लेकिन इसके अग्रदूत मोंटे कार्लो पद्धति में सांख्यिकीय भौतिकी में 1949 की शुरुआत में पाए जा सकते हैं। कम्प्यूटेशनल भौतिकी में महत्वपूर्ण नमूनाकरण छाता नमूनाकरण से भी संबंधित है। आवेदन के आधार पर, शब्द इस वैकल्पिक वितरण, अनुमान की प्रक्रिया, या दोनों से नमूनाकरण की प्रक्रिया को संदर्भित कर सकता है।

मूल सिद्धांत
होने देना $$X\colon \Omega\to \mathbb{R}$$ कुछ संभाव्यता स्थान में एक यादृच्छिक चर बनें $$(\Omega,\mathcal{F},P)$$. हम पी के तहत एक्स के अपेक्षित मूल्य का अनुमान लगाना चाहते हैं, जिसे 'ई' [एक्स; पी] दर्शाया गया है। यदि हमारे पास सांख्यिकीय रूप से स्वतंत्र यादृच्छिक नमूने हैं $$x_1, \ldots, x_n$$, पी के अनुसार उत्पन्न, तो 'ई' [एक्स; पी] का एक अनुभवजन्य अनुमान है



\widehat{\mathbf{E}}_{n}[X;P] = \frac{1}{n} \sum_{i=1}^n x_i \quad \mathrm{where}\; x_i \sim P(X) $$ और इस अनुमान की सटीकता X के प्रसरण पर निर्भर करती है:



\operatorname{var}[\widehat{\mathbf{E}}_{n};P] = \frac{\operatorname{var}[X;P]} n. $$ महत्व नमूनाकरण का मूल विचार ई[एक्स;पी] के अनुमान के विचरण को कम करने के लिए एक अलग वितरण से राज्यों का नमूना लेना है, या जब पी से नमूना लेना मुश्किल है। यह पहले एक यादृच्छिक चर चुनकर पूरा किया जाता है $$L\geq 0$$ ऐसा कि E[L;P] = 1 और वह P-लगभग हर जगह $$L(\omega)\neq 0$$. चर L के साथ हम प्रायिकता को परिभाषित करते हैं $$P^{(L)}$$ जो संतुष्ट करता है

\mathbf{E}[X;P] = \mathbf{E}\left[\frac{X}{L};P^{(L)}\right]. $$ इस प्रकार चर X/L को P के अंतर्गत प्रतिदर्शित किया जाएगा(एल) उपरोक्त के अनुसार 'ई' [एक्स; पी] का अनुमान लगाने के लिए और यह अनुमान तब सुधारा जाता है जब $$\operatorname{var}\left[\frac{X}{L};P^{(L)}\right] < \operatorname{var}[X;P]$$.

जब X Ω पर स्थिर चिह्न का है, तो सबसे अच्छा चर L स्पष्ट रूप से होगा $$L^*=\frac{X}{\mathbf{E}[X;P]}\geq 0$$, ताकि X/L* खोजा गया स्थिरांक 'E'[X;P] हो और P के अंतर्गत एक एकल नमूना हो(L*) इसका मूल्य बताने के लिए पर्याप्त है। दुर्भाग्य से हम वह विकल्प नहीं ले सकते, क्योंकि 'ई' [एक्स; पी] ठीक वही मूल्य है जिसकी हम तलाश कर रहे हैं! हालाँकि यह सैद्धांतिक सर्वोत्तम मामला L* हमें इस बात की जानकारी देता है कि नमूनाकरण का क्या महत्व है:



\begin{align}\forall a\in\mathbb{R}, \; P^{(L^*)}(X\in[a;a+da]) &= \int_{\omega\in\{X\in[a;a+da]\}} \frac{X(\omega)}{E[X;P]} \, dP(\omega) \\[6pt] &= \frac{1}{E[X;P]}\; a\,P(X\in[a;a+da]) \end{align}$$ दांई ओर, $$a\,P(X\in[a;a+da])$$ E[X;P] तक योग करने वाले अत्यल्प तत्वों में से एक है:


 * $$E[X;P] = \int_{a=-\infty}^{+\infty} a\,P(X\in[a;a+da]) $$

इसलिए, एक अच्छी संभावना परिवर्तन पी(एल) महत्वपूर्ण नमूनाकरण एक्स के कानून को पुनर्वितरित करेगा ताकि इसके नमूनों की आवृत्तियों को 'ई' [एक्स; पी] में उनके वजन के अनुसार सीधे क्रमबद्ध किया जा सके। इसलिए नाम महत्व नमूनाकरण।

महत्व नमूनाकरण अक्सर मोंटे कार्लो एकीकरण के रूप में उपयोग किया जाता है। कब $$P$$ समान वितरण है और $$\Omega =\mathbb{R}$$, E[X;P] वास्तविक फ़ंक्शन के अभिन्न अंग से मेल खाता है $$X\colon \mathbb{R}\to\mathbb{R}$$.

संभाव्य अनुमान के लिए आवेदन
इस तरह के तरीकों का उपयोग अक्सर राज्य में पश्च घनत्व या अपेक्षाओं का अनुमान लगाने के लिए किया जाता है और / या संभाव्य मॉडल में पैरामीटर अनुमान समस्याओं का विश्लेषण किया जाता है जो कि विश्लेषणात्मक रूप से व्यवहार करने के लिए बहुत कठिन हैं, उदाहरण के लिए बायेसियन नेटवर्क में।

सिमुलेशन के लिए आवेदन
महत्व नमूनाकरण एक विचरण कमी तकनीक है जिसका उपयोग मोंटे कार्लो पद्धति में किया जा सकता है। महत्व नमूनाकरण के पीछे विचार यह है कि सिमुलेशन में इनपुट यादृच्छिक चर के कुछ मूल्यों का दूसरों की तुलना में अनुमानित पैरामीटर पर अधिक प्रभाव पड़ता है। यदि इन महत्वपूर्ण मूल्यों पर अधिक बार नमूनाकरण करके जोर दिया जाता है, तो अनुमानक विचरण को कम किया जा सकता है। इसलिए, महत्व नमूनाकरण में मूल पद्धति एक वितरण का चयन करना है जो महत्वपूर्ण मूल्यों को प्रोत्साहित करती है। पक्षपाती वितरण के इस उपयोग के परिणामस्वरूप एक पक्षपाती अनुमानक होगा यदि इसे सीधे अनुकरण में लागू किया जाता है। हालांकि, पक्षपाती वितरण के उपयोग के लिए सिमुलेशन आउटपुट को सही करने के लिए भारित किया जाता है, और यह सुनिश्चित करता है कि नया महत्व नमूना अनुमानक निष्पक्ष है। वजन संभावना-अनुपात परीक्षण द्वारा दिया जाता है, अर्थात, पक्षपाती सिमुलेशन वितरण के संबंध में सही अंतर्निहित वितरण का रेडॉन-निकोडिम व्युत्पन्न।

महत्व नमूनाकरण सिमुलेशन को लागू करने में मौलिक मुद्दा पक्षपातपूर्ण वितरण का विकल्प है जो इनपुट चर के महत्वपूर्ण क्षेत्रों को प्रोत्साहित करता है। एक अच्छे पक्षपाती वितरण को चुनना या डिजाइन करना महत्व के नमूने की कला है। एक अच्छे वितरण का प्रतिफल बहुत बड़ी समय-समय पर बचत हो सकता है; एक खराब वितरण के लिए जुर्माना एक सामान्य मोंटे कार्लो सिमुलेशन की तुलना में महत्वपूर्ण नमूने के बिना लंबे समय तक चलाया जा सकता है।

विचार करना $$X$$ नमूना होना और $$\frac{f(X)}{g(X)}$$ संभावना अनुपात होने के लिए, जहां $$f$$ वांछित वितरण की संभाव्यता घनत्व (द्रव्यमान) कार्य है और $$g$$ पक्षपाती/प्रस्ताव/नमूना वितरण का प्रायिकता घनत्व (द्रव्यमान) फलन है। फिर नमूना वितरण को चुनकर समस्या का वर्णन किया जा सकता है $$g$$ जो स्केल किए गए नमूने के विचरण को कम करता है:


 * $$g^* = \min_g \operatorname{var}_g \left( X \frac{f(X)}{g(X)} \right).$$

यह दिखाया जा सकता है कि निम्नलिखित वितरण उपरोक्त भिन्नता को कम करता है:

g^*(X) = \frac{|X| f(X)}{ \int |x| f(x) \, dx}. $$ ध्यान दें कि कब $$X\ge 0$$, यह भिन्नता 0 हो जाती है।

गणितीय दृष्टिकोण
सिमुलेशन द्वारा संभाव्यता का अनुमान लगाने पर विचार करें $$p_t\,$$ किसी घटना का $$X \ge t$$, कहाँ $$X$$ संभाव्यता वितरण के साथ एक यादृच्छिक चर है $$F$$ और संभाव्यता घनत्व समारोह $$f(x)= F'(x)\,$$, जहां प्राइम यौगिक  को दर्शाता है। ए $$K$$लंबाई स्वतंत्र और समान रूप से वितरित (i.i.d.) अनुक्रम $$X_i\,$$ वितरण से उत्पन्न होता है $$F$$, और संख्या $$k_t$$ रैंडम वेरिएबल्स जो दहलीज से ऊपर हैं $$t$$ गिने जाते हैं। यादृच्छिक चर $$k_t$$ द्विपद वितरण द्वारा विशेषता है


 * $$P(k_t = k)={K\choose k}p_t^k(1-p_t)^{K-k},\,\quad \quad k=0,1,\dots,K.$$

कोई यह दिखा सकता है $$\operatorname{E} [k_t/K] = p_t$$, और $$\operatorname{var} [k_t/K] = p_t(1-p_t)/K$$, तो सीमा में $$K \to \infty$$ हम प्राप्त करने में सक्षम हैं $$p_t$$. ध्यान दें कि यदि विचरण कम है $$p_t \approx 1$$. महत्व नमूनाकरण एक वैकल्पिक घनत्व समारोह के निर्धारण और उपयोग से संबंधित है $$f_*\,$$(के लिए $$X$$), आमतौर पर सिमुलेशन प्रयोग के लिए एक पूर्वाग्रह घनत्व के रूप में जाना जाता है। यह घनत्व घटना की अनुमति देता है $${ X \ge t\ }$$ अधिक बार होने के लिए, इसलिए अनुक्रम की लंबाई $$K$$ किसी दिए गए अनुमानक प्रसरण के लिए छोटा हो जाता है। वैकल्पिक रूप से, दिए गए के लिए $$K$$, पारंपरिक मोंटे कार्लो अनुमान की तुलना में छोटे विचरण में बायसिंग घनत्व के उपयोग का परिणाम है। की परिभाषा से $$p_t\,$$, हम परिचय दे सकते हैं $$f_*\,$$ नीचे के अनुसार।



\begin{align} p_t & = {E} [1(X \ge t)] \\[6pt] & = \int 1(x \ge t) \frac{f(x)}{f_*(x)} f_*(x) \,dx \\[6pt] & = E_* [1(X \ge t) W(X)] \end{align} $$ कहाँ


 * $$W(\cdot) \equiv \frac{f(\cdot)}{f_*(\cdot)} $$

एक संभावना अनुपात है और इसे वेटिंग फ़ंक्शन के रूप में संदर्भित किया जाता है। उपरोक्त समीकरण में अंतिम समानता अनुमानक को प्रेरित करती है


 * $$ \hat p_t = \frac{1}{K}\,\sum_{i=1}^K 1(X_i \ge t) W(X_i),\,\quad \quad X_i \sim f_*$$

यह महत्व नमूना अनुमानक है $$p_t\,$$ और निष्पक्ष है। यानी, अनुमान लगाने की प्रक्रिया i.i.d. उत्पन्न करने के लिए है। से नमूने $$f_*\,$$ और प्रत्येक नमूने के लिए जो इससे अधिक है $$t\,$$, अनुमान भार द्वारा बढ़ाया जाता है $$W\,$$ नमूना मूल्य पर मूल्यांकन किया गया। परिणाम औसत से अधिक हैं $$K\,$$ परीक्षण। महत्व नमूनाकरण अनुमानक का विचरण आसानी से दिखाया गया है



\begin{align} \operatorname{var}_*\widehat p_t & = \frac{1}{K}\operatorname{var}_* [1(X \ge t)W(X)] \\[5pt] & = \frac{1}{K}\left\{{E_*}[1(X \ge t)^2 W^2(X)] - p_t^2\right\} \\[5pt] & = \frac{1}{K}\left\{{E}[1(X \ge t) W(X)] - p_t^2\right\} \end{align} $$ अब, महत्व नमूनाकरण समस्या तब एक पूर्वाग्रह घनत्व खोजने पर केंद्रित है $$f_*\,$$ ऐसा है कि महत्व नमूनाकरण अनुमानक का विचलन सामान्य मोंटे कार्लो अनुमान के भिन्नता से कम है। कुछ पूर्वाग्रह घनत्व समारोह के लिए, जो भिन्नता को कम करता है, और कुछ शर्तों के तहत इसे शून्य तक कम कर देता है, इसे इष्टतम पूर्वाग्रह घनत्व समारोह कहा जाता है।

पारंपरिक पूर्वाग्रह के तरीके
यद्यपि कई प्रकार की पूर्वाग्रह विधियाँ हैं, महत्व नमूनाकरण के अनुप्रयोगों में निम्नलिखित दो विधियों का व्यापक रूप से उपयोग किया जाता है।

स्केलिंग
संभावना द्रव्यमान को घटना क्षेत्र में स्थानांतरित करना $${ X \ge t\ }$$ यादृच्छिक चर के सकारात्मक स्केलिंग द्वारा $$X\,$$ एक से अधिक संख्या के साथ घनत्व समारोह के भिन्नता (मतलब भी) को बढ़ाने का प्रभाव होता है। इसका परिणाम घनत्व की एक भारी पूंछ में होता है, जिससे घटना की संभावना में वृद्धि होती है। स्केलिंग शायद सबसे पहले ज्ञात बायसिंग विधियों में से एक है और व्यवहार में बड़े पैमाने पर इसका उपयोग किया गया है। इसे लागू करना आसान है और आमतौर पर अन्य तरीकों की तुलना में रूढ़िवादी सिमुलेशन लाभ प्रदान करता है।

स्केलिंग द्वारा महत्वपूर्ण नमूनाकरण में, सिमुलेशन घनत्व को स्केल किए गए यादृच्छिक चर के घनत्व फ़ंक्शन के रूप में चुना जाता है $$aX\,$$, जहां आमतौर पर $$a>1$$ पूंछ संभाव्यता अनुमान के लिए। परिवर्तन से,


 * $$ f_*(x)=\frac{1}{a} f \bigg( \frac{x}{a} \bigg)\,$$

और वेटिंग फंक्शन है


 * $$ W(x)= a \frac{f(x)}{f(x/a)} \,$$

जबकि स्केलिंग संभाव्यता द्रव्यमान को वांछित घटना क्षेत्र में स्थानांतरित करता है, यह द्रव्यमान को पूरक क्षेत्र में भी धकेलता है $$X<t\,$$ जो अवांछनीय है। अगर $$X\,$$ का योग है $$n\,$$ यादृच्छिक चर, द्रव्यमान का प्रसार एक में होता है $$n\,$$ आयामी स्थान। इसका नतीजा यह है कि बढ़ने के लिए सैंपलिंग का महत्व घटता जा रहा है $$n\,$$, और इसे आयामीता प्रभाव कहा जाता है। स्केलिंग द्वारा महत्व नमूनाकरण का एक आधुनिक संस्करण है उदा। तथाकथित सिग्मा-स्केल्ड सैंपलिंग (SSS) जो विभिन्न स्केलिंग कारकों के साथ कई मोंटे कार्लो (MC) विश्लेषण चला रहा है। कई अन्य उच्च उपज आकलन विधियों (जैसे सबसे खराब स्थिति WCD) के विपरीत SSS आयामी समस्या से ज्यादा पीड़ित नहीं है। साथ ही कई एमसी आउटपुट को संबोधित करने से दक्षता में कोई गिरावट नहीं आती है। दूसरी ओर, WCD के रूप में, SSS केवल गाऊसी सांख्यिकीय चर के लिए डिज़ाइन किया गया है, और WCD के विपरीत, SSS विधि को सटीक सांख्यिकीय कोने प्रदान करने के लिए डिज़ाइन नहीं किया गया है। एक और एसएसएस नुकसान यह है कि एमसी बड़े पैमाने पर कारकों के साथ चलता है, मुश्किल हो सकता है, उदा। जी। मॉडल और सिम्युलेटर अभिसरण समस्याओं के कारण। इसके अलावा, SSS में हम एक मजबूत पूर्वाग्रह-विचरण व्यापार बंद का सामना करते हैं: बड़े पैमाने के कारकों का उपयोग करके, हम काफी स्थिर उपज परिणाम प्राप्त करते हैं, लेकिन पैमाने के कारक जितने बड़े होते हैं, पूर्वाग्रह त्रुटि उतनी ही बड़ी होती है। यदि ब्याज के आवेदन में SSS के फायदे ज्यादा मायने नहीं रखते हैं, तो अक्सर अन्य तरीके अधिक कुशल होते हैं।

अनुवाद
एक अन्य सरल और प्रभावी बायसिंग तकनीक घनत्व समारोह (और इसलिए यादृच्छिक चर) के अनुवाद को दुर्लभ घटना क्षेत्र में इसकी संभावना द्रव्यमान को रखने के लिए नियोजित करती है। अनुवाद एक आयाम प्रभाव से ग्रस्त नहीं है और डिजिटल संचार प्रणालियों के अनुकरण से संबंधित कई अनुप्रयोगों में सफलतापूर्वक उपयोग किया गया है। यह अक्सर स्केलिंग की तुलना में बेहतर सिमुलेशन लाभ प्रदान करता है। अनुवाद द्वारा पूर्वाग्रह में, सिमुलेशन घनत्व किसके द्वारा दिया जाता है


 * $$ f_*(x)= f(x-c), \quad c>0 \,$$

कहाँ $$c\,$$ बदलाव की मात्रा है और महत्व नमूना अनुमानक के भिन्नता को कम करने के लिए चुना जाना है।

सिस्टम जटिलता के प्रभाव
महत्व के नमूने के साथ मूलभूत समस्या यह है कि अच्छे पक्षपाती वितरण को डिजाइन करना और अधिक जटिल हो जाता है क्योंकि सिस्टम की जटिलता बढ़ जाती है। कॉम्प्लेक्स सिस्टम लंबी मेमोरी वाले सिस्टम होते हैं क्योंकि कुछ इनपुट के जटिल प्रसंस्करण को संभालना बहुत आसान होता है। यह आयाम या स्मृति तीन तरह से समस्याएं पैदा कर सकती है:


 * लंबी स्मृति (गंभीर अंतरप्रतीक हस्तक्षेप (ISI))
 * अज्ञात मेमोरी (विटरबी डिकोडर्स)
 * संभवतः अनंत स्मृति (अनुकूली तुल्यकारक)

सिद्धांत रूप में, इन स्थितियों में महत्व के नमूने के विचार समान रहते हैं, लेकिन डिजाइन बहुत कठिन हो जाता है। इस समस्या से निपटने के लिए एक सफल दृष्टिकोण अनिवार्य रूप से एक सिमुलेशन को कई छोटे, अधिक स्पष्ट रूप से परिभाषित उप-समस्याओं में तोड़ रहा है। फिर महत्व नमूनाकरण रणनीतियों का उपयोग प्रत्येक सरल उप-समस्याओं को लक्षित करने के लिए किया जाता है। सिमुलेशन को तोड़ने के लिए तकनीकों के उदाहरण कंडीशनिंग और एरर-इवेंट सिमुलेशन (ईईएस) और पुनर्योजी सिमुलेशन हैं।

महत्व नमूनाकरण का मूल्यांकन
सफल महत्व नमूनाकरण तकनीकों की पहचान करने के लिए, महत्व नमूनाकरण दृष्टिकोण के उपयोग के कारण रन-टाइम बचत को मापने में सक्षम होना उपयोगी होता है। आमतौर पर इस्तेमाल किया जाने वाला प्रदर्शन माप है $$\sigma^2_{MC} / \sigma^2_{IS} \,$$, और इसे स्पीड-अप कारक के रूप में व्याख्या किया जा सकता है जिसके द्वारा महत्व नमूना अनुमानक एमसी अनुमानक के समान सटीकता प्राप्त करता है। इसकी आनुभविक रूप से गणना की जानी चाहिए क्योंकि अनुमानक प्रसरण के विश्लेषणात्मक रूप से संभव नहीं होने की संभावना है, जब उनका माध्य दुरूह हो। महत्व नमूनाकरण अनुमानक को परिमाणित करने में अन्य उपयोगी अवधारणाएं विचरण सीमाएं और स्पर्शोन्मुख दक्षता की धारणा हैं। एक संबंधित उपाय तथाकथित प्रभावी नमूना आकार (ईएसएस) है।

भिन्नता लागत समारोह
सिमुलेशन के लिए भिन्नता एकमात्र संभव हानि कार्य नहीं है, और अन्य लागत कार्यों, जैसे औसत पूर्ण विचलन, विभिन्न सांख्यिकीय अनुप्रयोगों में उपयोग किए जाते हैं। फिर भी, भिन्नता प्राथमिक लागत कार्य है जिसे साहित्य में संबोधित किया गया है, शायद विश्वास अंतराल में भिन्नता के उपयोग और प्रदर्शन माप में $$\sigma^2_{MC} / \sigma^2_{IS} \,$$.

एक संबंधित मुद्दा यह तथ्य है कि अनुपात $$\sigma^2_{MC} / \sigma^2_{IS} \,$$ महत्व के नमूने के कारण रन-टाइम बचत को कम करके आंका जाता है क्योंकि इसमें वजन फ़ंक्शन की गणना करने के लिए आवश्यक अतिरिक्त कंप्यूटिंग समय शामिल नहीं होता है। इसलिए, कुछ लोग विभिन्न माध्यमों से नेट रन-टाइम सुधार का मूल्यांकन करते हैं। शायद महत्व नमूनाकरण के लिए एक अधिक गंभीर ओवरहेड तकनीक को तैयार करने और प्रोग्राम करने और वांछित वजन समारोह को विश्लेषणात्मक रूप से प्राप्त करने में लगने वाला समय है।

एकाधिक और अनुकूली महत्व नमूनाकरण
जब विभिन्न प्रस्ताव वितरण, $$g_n(x)$$, $$n=1,\ldots,N,$$ नमूने लेने के लिए संयुक्त रूप से उपयोग किया जाता है $$x_1, \ldots, x_N, $$ विभिन्न उचित भार कार्यों को नियोजित किया जा सकता है (उदाहरण के लिए देखें   ). अनुकूल सेटिंग में, प्रस्ताव वितरण, $$g_{n,t}(x)$$, $$n=1,\ldots,N,$$ और $$t=1,\ldots,T,$$ प्रत्येक पुनरावृत्ति को अद्यतन किया जाता है $$t$$ अनुकूली महत्व नमूनाकरण एल्गोरिथम। इसलिए, चूंकि प्रस्ताव घनत्व की आबादी का उपयोग किया जाता है, नमूनाकरण और भार योजनाओं के कई उपयुक्त संयोजनों को नियोजित किया जा सकता है।

यह भी देखें

 * मोंटे कार्लो विधि
 * भिन्नता में कमी
 * स्तरीकृत प्रतिचयन
 * मोंटे कार्लो एकीकरण # पुनरावर्ती स्तरीकृत नमूनाकरण
 * वेगास एल्गोरिथम
 * कण फिल्टर - एक अनुक्रमिक मोंटे कार्लो विधि, जो महत्वपूर्ण नमूनाकरण का उपयोग करती है
 * सहायक क्षेत्र मोंटे कार्लो
 * अस्वीकृति नमूनाकरण
 * परिवर्तनीय बिटरेट - महत्व नमूनाकरण का एक सामान्य ऑडियो अनुप्रयोग

बाहरी संबंध

 * Sequential Monte Carlo Methods (Particle Filtering) homepage on University of Cambridge
 * Introduction to importance sampling in rare-event simulations European journal of Physics. PDF document.
 * Adaptive monte carlo methods for rare event simulation: adaptive monte carlo methods for rare event simulations Winter Simulation Conference