पॉइसन प्रतिगमन

आंकड़ों में, पॉइसन प्रतिगमन प्रतिगमन विश्लेषण का एक सामान्यीकृत रैखिक मॉडल रूप है जिसका उपयोग गणना डेटा और आकस्मिक तालिकाओं को मॉडल करने के लिए किया जाता है। पॉइसन प्रतिगमन मानता है कि प्रतिक्रिया चर Y में पॉइसन वितरण है, और मानता है कि इसके अपेक्षित मूल्य के लघुगणक को अज्ञात मापदंडों के रैखिक संयोजन द्वारा मॉडल किया जा सकता है। एक पॉइसन प्रतिगमन मॉडल को कभी-कभी लॉग-रैखिक मॉडल के रूप में जाना जाता है, खासकर जब आकस्मिक तालिकाओं को मॉडल करने के लिए उपयोग किया जाता है।

नकारात्मक द्विपद प्रतिगमन पॉइसन प्रतिगमन का एक लोकप्रिय सामान्यीकरण है क्योंकि यह अत्यधिक प्रतिबंधात्मक धारणा को ढीला करता है कि विचरण पॉइसन मॉडल द्वारा बनाए गए माध्य के बराबर है। पारंपरिक नकारात्मक द्विपद प्रतिगमन मॉडल पॉइसन-गामा मिश्रण वितरण पर आधारित है। यह मॉडल लोकप्रिय है क्योंकि यह गामा वितरण के साथ पॉइसन विषमता का मॉडल तैयार करता है।

पॉइसन प्रतिगमन मॉडल (कैनोनिकल) लिंक फ़ंक्शन के रूप में लघुगणक के साथ सामान्यीकृत रैखिक मॉडल हैं, और प्रतिक्रिया की अनुमानित संभाव्यता वितरण के रूप में पॉइसन वितरण फ़ंक्शन है।

प्रतिगमन मॉडल
अगर $$\mathbf{x} \in \mathbb{R}^n$$ स्वतंत्र चरों का एक वेक्टर है, तो मॉडल रूप लेता है


 * $$\log (\operatorname{E}(Y\mid\mathbf{x}))=\alpha + \mathbf{\beta}' \mathbf{x},$$

कहाँ $$\alpha \in \mathbb{R}$$ और $$\mathbf{\beta} \in \mathbb{R}^n$$. कभी-कभी इसे अधिक संक्षिप्त रूप में लिखा जाता है


 * $$\log (\operatorname{E}(Y\mid\mathbf{x}))=\boldsymbol{\theta}' \mathbf{x},\,$$

कहाँ $$\mathbf{x}$$ अब एक (n+1)-आयामी वेक्टर है जिसमें नंबर एक से जुड़े n स्वतंत्र चर शामिल हैं। यहाँ $$\theta$$ सादा है $$\alpha$$ से संबद्ध $$\beta$$.

इस प्रकार, जब एक पॉइसन प्रतिगमन मॉडल दिया जाता है $$\theta$$ और एक इनपुट वेक्टर $$\mathbf{x}$$, संबद्ध पॉइसन वितरण का अनुमानित माध्य किसके द्वारा दिया गया है


 * $$\operatorname{E}(Y\mid\mathbf{x})=e^{\boldsymbol{\theta}' \mathbf{x}}.\,$$

अगर $$Y_i$$ संगत मूल्यों के साथ सांख्यिकीय स्वतंत्रता अवलोकन हैं $$\mathbf{x}_i$$ फिर, भविष्यवक्ता चर का $$\theta$$ अधिकतम संभावना से अनुमान लगाया जा सकता है। अधिकतम-संभावना अनुमानों में बंद-रूप अभिव्यक्ति का अभाव है और इसे संख्यात्मक तरीकों से पाया जाना चाहिए। अधिकतम-संभावना पॉइसन प्रतिगमन के लिए संभाव्यता सतह हमेशा अवतल होती है, जिससे न्यूटन-रेफसन या अन्य ग्रेडिएंट-आधारित विधियाँ उपयुक्त अनुमान तकनीक बन जाती हैं।

अधिकतम संभावना-आधारित पैरामीटर अनुमान
मापदंडों के एक सेट और एक इनपुट वेक्टर x को देखते हुए, जैसा कि ऊपर बताया गया है, अनुमानित पॉइसन वितरण का माध्य इस प्रकार दिया गया है


 * $$\lambda := \operatorname{E}(Y\mid x)=e^{\theta'x},\,$$

और इस प्रकार, पॉइसन वितरण की संभाव्यता द्रव्यमान फ़ंक्शन द्वारा दी गई है


 * $$p(y\mid x;\theta) = \frac{\lambda^y}{y!} e^{-\lambda} = \frac{e^{y \theta' x} e^{-e^{\theta' x}}}{y!}$$

अब मान लीजिए कि हमें m वैक्टर वाला एक डेटा सेट दिया गया है $$x_i \in \mathbb{R}^{n+1}, \, i = 1,\ldots,m$$, एम मानों के एक सेट के साथ $$y_1,\ldots,y_m \in \mathbb{N}$$. फिर, मापदंडों के दिए गए सेट के लिए θ, डेटा के इस विशेष सेट को प्राप्त करने की संभावना इस प्रकार दी गई है


 * $$p(y_1,\ldots,y_m\mid x_1,\ldots,x_m;\theta) = \prod_{i=1}^m \frac{e^{y_i \theta' x_i} e^{-e^{\theta' x_i}}}{y_i!}.$$

अधिकतम संभावना की विधि से, हम पैरामीटर θ का सेट ढूंढना चाहते हैं जो इस संभावना को यथासंभव बड़ा बनाता है। ऐसा करने के लिए, समीकरण को पहले θ के संदर्भ में एक संभावना फ़ंक्शन के रूप में फिर से लिखा जाता है:


 * $$L(\theta\mid X,Y) = \prod_{i=1}^m \frac{e^{y_i \theta' x_i} e^{-e^{\theta' x_i}}}{y_i!}.$$

ध्यान दें कि समीकरण की भुजाओं का व्यंजक वास्तव में नहीं बदला है। इस रूप में किसी सूत्र के साथ काम करना आम तौर पर कठिन होता है; इसके बजाय, कोई लॉग-संभावना का उपयोग करता है:


 * $$\ell(\theta\mid X,Y) = \log L(\theta\mid X,Y) = \sum_{i=1}^m \left( y_i \theta' x_i - e^{\theta' x_i} - \log(y_i!)\right). $$

ध्यान दें कि पैरामीटर θ केवल योग में प्रत्येक पद के पहले दो पदों में दिखाई देते हैं। इसलिए, यह देखते हुए कि हम केवल θ के लिए सर्वोत्तम मान खोजने में रुचि रखते हैं, हम y को छोड़ सकते हैंi ! और बस लिखें


 * $$\ell(\theta\mid X,Y) = \sum_{i=1}^m \left( y_i \theta' x_i - e^{\theta' x_i} \right). $$

अधिकतम ज्ञात करने के लिए, हमें एक समीकरण को हल करना होगा $$\frac{\partial \ell(\theta\mid X,Y)}{\partial \theta} = 0 $$ जिसका कोई बंद-रूप समाधान नहीं है। हालाँकि, नकारात्मक लॉग-संभावना, $$-\ell(\theta\mid X,Y)$$, एक उत्तल फ़ंक्शन है, और इसलिए ढतला हुआ वंश  जैसी मानक उत्तल अनुकूलन तकनीकों को θ का इष्टतम मान खोजने के लिए लागू किया जा सकता है।

व्यवहार में पॉइसन प्रतिगमन
पॉइसन प्रतिगमन उपयुक्त हो सकता है जब आश्रित चर एक गिनती है, उदाहरण के लिए पॉइसन वितरण#घटना जैसे कॉल सेंटर पर टेलीफोन कॉल का आगमन। घटनाएँ इस अर्थ में स्वतंत्र होनी चाहिए कि एक कॉल के आने से दूसरी कॉल की संभावना कम या ज्यादा नहीं होगी, लेकिन घटनाओं की प्रति इकाई समय की संभावना को दिन के समय जैसे सहसंयोजकों से संबंधित माना जाता है।

एक्सपोज़र और ऑफसेट
पॉइसन प्रतिगमन दर डेटा के लिए भी उपयुक्त हो सकता है, जहां दर उस इकाई के एक्सपोज़र (अवलोकन की एक विशेष इकाई) के कुछ माप से विभाजित घटनाओं की गिनती है। उदाहरण के लिए, जीवविज्ञानी किसी जंगल में वृक्ष प्रजातियों की संख्या की गणना कर सकते हैं: घटनाएँ वृक्ष अवलोकन होंगी, एक्सपोज़र इकाई क्षेत्र होगा, और दर प्रति इकाई क्षेत्र में प्रजातियों की संख्या होगी। जनसांख्यिकी विशेषज्ञ भौगोलिक क्षेत्रों में मृत्यु दर को व्यक्ति-वर्ष से विभाजित मौतों की संख्या के रूप में मॉडल कर सकते हैं। अधिक आम तौर पर, घटना दरों की गणना प्रति इकाई समय की घटनाओं के रूप में की जा सकती है, जो प्रत्येक इकाई के लिए अवलोकन विंडो को अलग-अलग करने की अनुमति देती है। इन उदाहरणों में, एक्सपोज़र क्रमशः इकाई क्षेत्र, व्यक्ति-वर्ष और इकाई समय है। पॉइसन प्रतिगमन में इसे 'ऑफ़सेट' के रूप में संभाला जाता है। यदि दर गणना/एक्सपोज़र है, तो समीकरण के दोनों पक्षों को एक्सपोज़र से गुणा करने पर यह समीकरण के दाईं ओर चला जाता है। जब समीकरण के दोनों पक्षों को लॉग किया जाता है, तो अंतिम मॉडल में एक शब्द के रूप में लॉग (एक्सपोज़र) होता है जो प्रतिगमन गुणांक में जोड़ा जाता है। इस लॉग वेरिएबल, लॉग (एक्सपोज़र) को ऑफसेट वेरिएबल कहा जाता है और समीकरण के दाईं ओर एक पैरामीटर अनुमान (लॉग (एक्सपोज़र) के लिए) 1 तक सीमित होता है।
 * $$\log(\operatorname{E}(Y\mid x)) = \theta' x$$

जो ये दर्शाता हे
 * $$\log\left(\frac{\operatorname{E}(Y\mid x)}{\text{exposure}}\right) = \log(\operatorname{E}(Y\mid x)) - \log(\text{exposure}) =

\theta' x - \log(\text{exposure}) $$ आर (प्रोग्रामिंग भाषा) में एक सामान्यीकृत रैखिक मॉडल के मामले में ऑफसेट का उपयोग करके प्राप्त किया जा सकता है  समारोह:

अति फैलाव और शून्य मुद्रास्फीति
पॉइसन वितरण की एक विशेषता यह है कि इसका माध्य इसके विचरण के बराबर है। कुछ परिस्थितियों में, यह पाया जाएगा कि देखा गया विचरण माध्य से अधिक है; इसे अति फैलाव के रूप में जाना जाता है और यह इंगित करता है कि मॉडल उपयुक्त नहीं है। एक सामान्य कारण प्रासंगिक व्याख्यात्मक चर, या आश्रित टिप्पणियों का चूक है। कुछ परिस्थितियों में, अति-विक्षेपण की समस्या को अर्ध-संभावना अनुमान या इसके बजाय नकारात्मक द्विपद वितरण का उपयोग करके हल किया जा सकता है। वेर होफ और बोवेंग ने अर्ध-पॉइसन (जिसे अर्ध-संभावना के साथ अति-फैलाव भी कहा जाता है) और नकारात्मक द्विपद (गामा-पॉइसन के बराबर) के बीच अंतर का वर्णन इस प्रकार किया: यदि ई (वाई) = μ, अर्ध-पॉइसन मॉडल var (Y) मानता है ) = θμ जबकि गामा-पॉइसन var(Y) = μ(1+ κμ) मानता है, जहां θ अर्ध-पॉइसन अतिफैलाव पैरामीटर है, और κ नकारात्मक द्विपद वितरण का आकार पैरामीटर है। दोनों मॉडलों के लिए, मापदंडों का अनुमान पुनरावृत्तीय रूप से पुनः भारित न्यूनतम वर्गों का उपयोग करके लगाया जाता है। अर्ध-पॉइसन के लिए, भार μ/θ हैं। ऋणात्मक द्विपद के लिए, भार μ/(1 + κμ) हैं। बड़े μ और पर्याप्त अतिरिक्त-पॉइसन भिन्नता के साथ, नकारात्मक द्विपद भार 1/κ पर सीमित हैं। वेर होफ और बोवेंग ने एक उदाहरण पर चर्चा की जहां उन्होंने माध्य बनाम माध्य वर्ग अवशिष्टों को आलेखित करके दोनों के बीच चयन किया। पॉइसन प्रतिगमन के साथ एक और आम समस्या अतिरिक्त शून्य है: यदि काम पर दो प्रक्रियाएं हैं, एक यह निर्धारित करती है कि शून्य घटनाएं हैं या कोई घटना है, और एक पॉइसन प्रक्रिया यह निर्धारित करती है कि कितनी घटनाएं हैं, तो पॉइसन प्रतिगमन की तुलना में अधिक शून्य होंगे भविष्यवाणी करना। एक उदाहरण उस समूह के सदस्यों द्वारा एक घंटे में पी गई सिगरेट का वितरण होगा जहां कुछ व्यक्ति धूम्रपान नहीं करते हैं।

अन्य सामान्यीकृत रैखिक मॉडल जैसे नकारात्मक द्विपद वितरण मॉडल या शून्य-फुलाया मॉडल इन मामलों में बेहतर कार्य कर सकते हैं।

इसके विपरीत, कम फैलाव पैरामीटर अनुमान के लिए एक समस्या पैदा कर सकता है।

उत्तरजीविता विश्लेषण में उपयोग
पॉइसन प्रतिगमन आनुपातिक खतरों के मॉडल बनाता है, अस्तित्व विश्लेषण का एक वर्ग: कॉक्स मॉडल के विवरण के लिए आनुपातिक खतरों के मॉडल देखें।

नियमित पॉइसन प्रतिगमन
पॉइसन प्रतिगमन के लिए मापदंडों का अनुमान लगाते समय, कोई आम तौर पर θ के लिए मान ढूंढने का प्रयास करता है जो फॉर्म की अभिव्यक्ति की संभावना को अधिकतम करता है


 * $$\sum_{i=1}^m \log(p(y_i;e^{\theta' x_i})),$$

जहां m डेटा सेट में उदाहरणों की संख्या है, और $$p(y_i;e^{\theta' x_i})$$ माध्य सेट के साथ पॉइसन वितरण की संभाव्यता द्रव्यमान फ़ंक्शन है $$e^{\theta' x_i}$$. अधिकतमीकरण के बजाय इस अनुकूलन समस्या में नियमितीकरण जोड़ा जा सकता है


 * $$\sum_{i=1}^m \log(p(y_i;e^{\theta' x_i})) - \lambda \left\|\theta\right\|_2^2,$$

कुछ सकारात्मक स्थिरांक के लिए $$\lambda$$. रिज प्रतिगमन के समान यह तकनीक, ओवरफिटिंग को कम कर सकती है।

यह भी देखें

 * शून्य-फुलाया हुआ मॉडल
 * पॉसों वितरण
 * निश्चित-प्रभाव पॉइसन मॉडल