विचरण-स्थिरीकरण परिवर्तन

लागू आँकड़ों में, एक विचरण-स्थिरीकरण परिवर्तन एक डेटा परिवर्तन (सांख्यिकी) है जिसे विशेष रूप से ग्राफिकल खोजपूर्ण डेटा विश्लेषण में विचारों को सरल बनाने या सरल प्रतिगमन-आधारित या विचरण तकनीकों के विश्लेषण की अनुमति देने के लिए चुना जाता है।

सिंहावलोकन
विचरण-स्थिरीकरण परिवर्तन को चुनने के पीछे का उद्देश्य नए मान बनाने के लिए डेटा सेट में मान x पर लागू करने के लिए एक सरल फ़ंक्शन ढूंढना है। $y = ƒ(x)$ जैसे कि मान y की परिवर्तनशीलता उनके माध्य मान से संबंधित नहीं है। उदाहरण के लिए, मान लीजिए कि मान x अलग-अलग पॉइसन वितरण से प्राप्तियां हैं: यानी प्रत्येक वितरण का अलग-अलग माध्य मान μ है। फिर, क्योंकि पॉइसन वितरण के लिए प्रसरण माध्य के समान है, प्रसरण माध्य के साथ बदलता रहता है। हालाँकि, यदि सरल विचरण-स्थिरीकरण परिवर्तन


 * $$y=\sqrt{x} \, $$

लागू किया जाता है, तो अवलोकन से जुड़ा नमूनाकरण विचरण लगभग स्थिर रहेगा: विवरण और कुछ वैकल्पिक परिवर्तनों के लिए Anscombe परिवर्तन देखें।

जबकि विचरण-स्थिरीकरण परिवर्तन वितरण के कुछ पैरामीट्रिक परिवारों के लिए अच्छी तरह से जाने जाते हैं, जैसे कि पॉइसन और द्विपद वितरण, कुछ प्रकार के डेटा विश्लेषण अधिक अनुभवजन्य रूप से आगे बढ़ते हैं: उदाहरण के लिए एक उपयुक्त निश्चित परिवर्तन खोजने के लिए बिजली परिवर्तनों के बीच खोज करके। वैकल्पिक रूप से, यदि डेटा विश्लेषण विचरण और माध्य के बीच संबंध के लिए एक कार्यात्मक रूप सुझाता है, तो इसका उपयोग विचरण-स्थिरीकरण परिवर्तन निकालने के लिए किया जा सकता है। इस प्रकार यदि, एक माध्य μ के लिए,


 * $$\operatorname{var}(X)=h(\mu), \,$$

विचरण स्थिरीकरण परिवर्तन के लिए एक उपयुक्त आधार होगा


 * $$y \propto \int^x \frac{1}{\sqrt{h(\mu)}} \, d\mu, $$

जहां सुविधा के लिए एकीकरण के मनमाने स्थिरांक और मनमाने स्केलिंग कारक को चुना जा सकता है।

उदाहरण: सापेक्ष विचरण
अगर $X$ एक सकारात्मक यादृच्छिक चर है और विचरण इस प्रकार दिया गया है $h(μ) = s^{2}μ^{2}$ तो मानक विचलन माध्य के समानुपाती होता है, जिसे निश्चित सापेक्ष त्रुटि कहते हैं। इस मामले में, विचरण-स्थिरीकरण परिवर्तन है
 * $$y = \int^x \frac{d\mu}{\sqrt{s^2\mu^2}} = \frac{1}{s} \ln(x) \propto \log(x)\,.$$

अर्थात्, विचरण-स्थिरीकरण परिवर्तन लघुगणकीय परिवर्तन है।

उदाहरण: निरपेक्ष प्लस सापेक्ष विचरण
यदि विचरण इस प्रकार दिया गया है $h(μ) = σ^{2} + s^{2}μ^{2}$ तो विचरण पर एक निश्चित विचरण का प्रभुत्व होता है $σ^{2}$ कब $|μ|$ काफी छोटा है और सापेक्ष भिन्नता पर हावी है $s^{2}μ^{2}$ कब $|μ|$ काफी बड़ा है. इस मामले में, विचरण-स्थिरीकरण परिवर्तन है
 * $$y = \int^x \frac{d\mu}{\sqrt{\sigma^2 + s^2\mu^2}}

= \frac{1}{s} \operatorname{asinh} \frac{x}{\sigma / s} \propto \operatorname{asinh} \frac{x}{\lambda}\,.$$ अर्थात्, विचरण-स्थिरीकरण परिवर्तन स्केल किए गए मान का व्युत्क्रम अतिपरवलयिक ज्या है $x / λ$ के लिए $λ = σ / s$.

डेल्टा विधि से संबंध
यहां, डेल्टा विधि को मोटे तौर पर प्रस्तुत किया गया है, लेकिन यह विचरण-स्थिरीकरण परिवर्तनों के साथ संबंध देखने के लिए पर्याप्त है। अधिक औपचारिक दृष्टिकोण देखने के लिए डेल्टा विधि देखें।

होने देना $$ X $$ एक यादृच्छिक चर बनें, साथ में $$ E[X]=\mu $$ और $$ \operatorname{Var}(X)=\sigma^2 $$. परिभाषित करना $$ Y=g(X) $$, कहाँ $$g$$ एक नियमित कार्य है. टेलर के लिए पहला ऑर्डर सन्निकटन $$ Y=g(x) $$ है:

$$ Y=g(X)\approx g(\mu)+g'(\mu)(X-\mu) $$ उपरोक्त समीकरण से, हम प्राप्त करते हैं:


 * $$ E[Y] = g(\mu)$$ और $$\operatorname{Var}[Y]=\sigma^2g'(\mu)^2 $$

इस सन्निकटन विधि को डेल्टा विधि कहा जाता है।

अब एक यादृच्छिक चर पर विचार करें $$ X $$ ऐसा है कि $$ E[X]=\mu $$ और $$ \operatorname{Var}[X]=h(\mu) $$. विचरण और माध्य के बीच संबंध पर ध्यान दें, जिसका तात्पर्य है, उदाहरण के लिए, एक रैखिक मॉडल में विषमलैंगिकता। इसलिए, लक्ष्य एक फ़ंक्शन ढूंढना है $$ g $$ ऐसा है कि $$ Y=g(X) $$ इसकी अपेक्षा से स्वतंत्र (कम से कम लगभग) भिन्नता है।

शर्त थोपना $$ \operatorname{Var}[Y]\approx h(\mu)g'(\mu)^2=\text{constant} $$, यह समानता अंतर समीकरण को दर्शाती है:



\frac{dg}{d\mu}=\frac{C}{\sqrt{h(\mu)}} $$ चरों को अलग करके इस साधारण अवकल समीकरण का निम्नलिखित समाधान है:



g(\mu)=\int \frac{C\,d\mu}{\sqrt{h(\mu)}} $$ यह अंतिम अभिव्यक्ति पहली बार एम. एस. बार्टलेट पेपर में छपी।