सामान्यीकृत रैखिक मॉडल: Difference between revisions

From Vigyanwiki
No edit summary
 
(24 intermediate revisions by 3 users not shown)
Line 2: Line 2:
{{Regression bar}}
{{Regression bar}}


सांख्यिकी में, एक सामान्यीकृत रेखीय मॉडल (जीएलएम) साधारण [[रेखीय प्रतिगमन]] का एक नमन्शील व्यापकीकरण है। जीएलएम रैखिक प्रतिगमन को 'संबंध फलन' के माध्यम से प्रतिक्रिया चर से संबंधित होने के लिए रैखिक मॉडल की अनुमति देकर और प्रत्येक माप के विचरण के परिमाण को उसके अनुमानित मूल्य के कार्य होने की अनुमति देकर सामान्यीकृत करता है।
सांख्यिकी में, एक सामान्यीकृत रेखीय मॉडल (जीएलएम) साधारण [[रेखीय प्रतिगमन]] का एक नमन्शील सामान्यीकरण है। जीएलएम रैखिक प्रतिगमन को 'संबंध फलन' के माध्यम से प्रतिक्रिया चर से संबंधित होने के लिए रैखिक मॉडल और प्रत्येक माप के विचरण के परिमाण को उसके अनुमानित मूल्य के कार्य होने की अनुमति देकर सामान्यीकृत करता है।


[[जॉन नेल्डर]] और रॉबर्ट वेडरबर्न द्वारा रैखिक प्रतिगमन, लॉजिस्टिक प्रतिगमन और पॉइसन प्रतिगमन सहित कई अन्य सांख्यिकीय मॉडल को एकीकृत करने के तरीके के रूप में सामान्यीकृत रैखिक मॉडल सूत्रित किए गए थे।<ref>{{cite journal | last1= Nelder | first1 = John |author-link = John Nelder | first2 = Robert |last2 = Wedderburn | s2cid = 14154576 |author-link2 = Robert Wedderburn (statistician) | title = सामान्यीकृत रैखिक मॉडल| year=1972 | journal = Journal of the Royal Statistical Society. Series A (General) | volume= 135 |issue=3 | pages=370–384 | doi= 10.2307/2344614 | publisher= Blackwell Publishing | jstor= 2344614 }}</ref> उन्होंने मॉडल मापदंडों के [[अधिकतम संभावना अनुमान|अधिकतम संभाविता आकलन]] (एमएलई) के लिए पुनरावृत्त रूप से न्यूनतम वर्ग विधि का प्रस्ताव दिया। अनेक सांख्यिकीय अभिकलन संकुल (कंप्यूटिंग पैकेज) पर डिफ़ॉल्ट विधि है इसलिए अधिकतम संभाविता आकलन लोकप्रिय बना हुआ है। [[बायेसियन प्रतिगमन]] और [[विचरण-स्थिरीकरण परिवर्तन]] प्रतिक्रियाओं के लिए न्यूनतम वर्ग अन्वायोजन सहित अन्य दृष्टिकोण विकसित किए गए हैं।
[[जॉन नेल्डर]] और रॉबर्ट वेडरबर्न द्वारा रैखिक प्रतिगमन, लॉजिस्टिक प्रतिगमन और पॉइसन प्रतिगमन सहित कई अन्य सांख्यिकीय मॉडल को एकीकृत करने के तरीके के रूप में सामान्यीकृत रैखिक मॉडल सूत्रित किए गए थे।<ref>{{cite journal | last1= Nelder | first1 = John |author-link = John Nelder | first2 = Robert |last2 = Wedderburn | s2cid = 14154576 |author-link2 = Robert Wedderburn (statistician) | title = सामान्यीकृत रैखिक मॉडल| year=1972 | journal = Journal of the Royal Statistical Society. Series A (General) | volume= 135 |issue=3 | pages=370–384 | doi= 10.2307/2344614 | publisher= Blackwell Publishing | jstor= 2344614 }}</ref>उन्होंने मॉडल मापदंडों के [[अधिकतम संभावना अनुमान|अधिकतम संभाविता आकलन]] (एमएलई) के लिए पुनरावृत्त रूप से न्यूनतम वर्ग विधि का प्रस्ताव दिया। अनेक सांख्यिकीय अभिकलन संवेष्टन (कंप्यूटिंग पैकेज) पर डिफ़ॉल्ट विधि है इसलिए अधिकतम संभाविता आकलन लोकप्रिय बना हुआ है। [[बायेसियन प्रतिगमन]] और [[विचरण-स्थिरीकरण परिवर्तन]] प्रतिक्रियाओं के लिए न्यूनतम वर्ग अन्वायोजन सहित अन्य दृष्टिकोण विकसित किए गए हैं।


== अन्तर्ज्ञान ==
== अन्तर्ज्ञान ==
साधारण रेखीय प्रतिगमन प्रेक्षित मानों (भविष्यवक्ताओं) के एक समुच्चय के [[रैखिक संयोजन]] के रूप में दी गई अज्ञात मात्रा (प्रतिक्रिया चर, एक यादृच्छिक चर) के [[अपेक्षित मूल्य]] की पूर्वानुमान करता है। इसका तात्पर्य है कि प्राग्सूचक में निरंतर परिवर्तन से प्रतिक्रिया चर (अर्थात एक रैखिक-प्रतिक्रिया मॉडल) में निरंतर परिवर्तन होता है। यह उचित है जब प्रतिक्रिया चर किसी भी दिशा में अनिश्चित काल के लिए या किसी भी मात्रा के लिए सामान्यतः एक अच्छे सन्निकटन में भिन्न हो सकता है जो केवल अनुमानित चर जैसे मानव ऊंचाई में भिन्नता की तुलना में अपेक्षाकृत छोटी राशि से भिन्न होता है।
साधारण रेखीय प्रतिगमन प्रेक्षित मानों (भविष्यवक्ताओं) के एक समुच्चय के [[रैखिक संयोजन]] के रूप में दी गई अज्ञात मात्रा (प्रतिक्रिया चर, एक यादृच्छिक चर) के [[अपेक्षित मूल्य]] की पूर्वानुमान करता है। इसका तात्पर्य है कि प्राग्सूचक में निरंतर परिवर्तन से प्रतिक्रिया चर (अर्थात एक रैखिक-प्रतिक्रिया मॉडल) में निरंतर परिवर्तन होता है। यह उचित है जब प्रतिक्रिया चर किसी भी दिशा में अनिश्चित काल के लिए या किसी भी मात्रा के लिए सामान्यतः एक अच्छे सन्निकटन में भिन्न हो सकता है जो केवल अनुमानित चर जैसे मानव ऊंचाई में भिन्नता की तुलना में अपेक्षाकृत छोटी राशि से भिन्न होता है।


हालाँकि, ये धारणाएँ कुछ प्रकार के प्रतिक्रिया चर के लिए अनुपयुक्त हैं। उदाहरण के लिए, ऐसे मामलों में जहां प्रतिक्रिया चर हमेशा सकारात्मक होने की उम्मीद की जाती है और एक विस्तृत श्रृंखला में बदलती रहती है, निरंतर इनपुट परिवर्तनों से ज्यामितीय रूप से (अर्थात घातीय रूप से) भिन्नता होती है, बजाय निरंतर भिन्न होने के, आउटपुट में परिवर्तन होता है। एक उदाहरण के रूप में, मान लीजिए कि एक रेखीय भविष्यवाणी मॉडल कुछ डेटा (शायद मुख्य रूप से बड़े समुद्र तटों से खींचा गया) से सीखता है कि 10 डिग्री तापमान में कमी से समुद्र तट पर 1,000 कम [[logit]] आएंगे। यह मॉडल विभिन्न आकार के समुद्र तटों पर अच्छी तरह से सामान्यीकृत होने की संभावना नहीं है। अधिक विशेष रूप से, समस्या यह है कि यदि आप समुद्र तट के लिए 10 की तापमान गिरावट के साथ नई उपस्थिति की भविष्यवाणी करने के लिए मॉडल का उपयोग करते हैं जो नियमित रूप से 50 समुद्र तट प्राप्त करता है, तो आप -950 के एक असंभव उपस्थिति मूल्य की भविष्यवाणी करेंगे। तार्किक रूप से, एक अधिक यथार्थवादी मॉडल इसके बजाय बढ़ी हुई समुद्र तट की उपस्थिति की निरंतर दर की भविष्यवाणी करेगा (उदाहरण के लिए 10 डिग्री की वृद्धि से समुद्र तट की उपस्थिति दोगुनी हो जाती है, और 10 डिग्री की गिरावट उपस्थिति में कमी की ओर ले जाती है)। इस तरह के एक मॉडल को एक घातीय-प्रतिक्रिया मॉडल (या [[लॉग-लीनियर मॉडल]] कहा जाता है, क्योंकि प्रतिक्रिया के लघुगणक को रैखिक रूप से भिन्न होने की भविष्यवाणी की जाती है)
हालाँकि, ये धारणाएँ कुछ प्रकार के प्रतिक्रिया चर के लिए अनुपयुक्त हैं। उदाहरण के लिए ऐसी स्थितियों में जहां प्रतिक्रिया चर के सदैव सकारात्मक और विस्तृत श्रृंखला में परिवर्तित होने की अपेक्षा की जाती है वहां निरंतर इनपुट परिवर्तनों से ज्यामितीय रूप द्वारा (अर्थात घातीय रूप से) भिन्नता होती है यद्यपि निरंतर भिन्न होने के आउटपुट में परिवर्तन होता है। एक उदाहरण के रूप में, मान लीजिए कि एक रेखीय भविष्यवाणी मॉडल कुछ डेटा (शायद मुख्य रूप से बड़े समुद्र तटों से खींचा गया) से सीखता है कि 10 डिग्री तापमान में न्यूनता से समुद्र तट पर 1,000 कम [[logit|लोग]] आएंगे। यह मॉडल विभिन्न आकार के समुद्र तटों पर अच्छी तरह से सामान्यीकृत होने की संभावना नहीं है। अधिक विशेष रूप से, समस्या यह है कि यदि आप समुद्र तट के लिए 10 की तापमान गिरावट के साथ नई उपस्थिति की भविष्यवाणी करने के लिए मॉडल का उपयोग करते हैं जो नियमित रूप से 50 समुद्र तट दर्शक प्राप्त करता है, तो आप -950 के एक असंभव उपस्थिति की भविष्यवाणी करेंगे। इसके स्थान पर एक अधिक यथार्थवादी मॉडल शुद्ध रूप से बढ़ी हुई समुद्र तट की उपस्थिति की निरंतर दर का अनुमान लगाएगा (उदाहरण के लिए 10 डिग्री की वृद्धि से समुद्र तट की उपस्थिति दोगुनी हो जाती है, और 10 डिग्री के पतन से उपस्थिति में कमी आती है)। इस तरह के एक मॉडल को एक घातीय-प्रतिक्रिया मॉडल (क्योंकि प्रतिक्रिया के लघुगणक को रैखिक रूप से भिन्न होने की भविष्यवाणी की जाती है) या [[लॉग-लीनियर मॉडल]] कहा जाता है।


इसी तरह, एक मॉडल जो हां/नहीं विकल्प (एक बर्नौली वितरण) बनाने की संभावना की भविष्यवाणी करता है, रैखिक-प्रतिक्रिया मॉडल के रूप में भी कम उपयुक्त है, क्योंकि संभावनाएं दोनों सिरों पर बंधी हैं (वे 0 और 1 के बीच होनी चाहिए)। उदाहरण के लिए, एक मॉडल की कल्पना करें जो किसी दिए गए व्यक्ति के समुद्र तट पर तापमान के कार्य के रूप में जाने की संभावना की भविष्यवाणी करता है। उदाहरण के लिए, एक उचित मॉडल भविष्यवाणी कर सकता है कि 10 डिग्री में बदलाव से किसी व्यक्ति के समुद्र तट पर जाने की संभावना दो गुना अधिक या कम हो जाती है। लेकिन संभाव्यता के मामले में दुगनी संभावना का क्या मतलब है? इसका शाब्दिक अर्थ संभाव्यता मान को दोगुना करना नहीं हो सकता (उदाहरण के लिए 50% 100% हो जाता है, 75% 150% हो जाता है, आदि)। बल्कि, यह ऑड्स अनुपात है जो दोगुना हो रहा है: 2:1 ऑड्स से, 4:1 ऑड्स से, 8:1 ऑड्स, आदि। ऐसा मॉडल लॉग-ऑड्स या लॉजिस्टिक रिग्रेशन मॉडल है।
इसी तरह, एक मॉडल जो हां/नहीं विकल्प (एक बर्नौली वितरण) बनाने की संभावना की भविष्यवाणी करता है, रैखिक-प्रतिक्रिया मॉडल के रूप में भी कम उपयुक्त है, क्योंकि संभावनाएं दोनों सिरों पर बंधी हैं (वे 0 और 1 के बीच होनी चाहिए)। उदाहरण के लिए, एक मॉडल की कल्पना करें जो किसी व्यक्ति के समुद्र तट पर तापमान के फलन के रूप में जाने की संभावना की भविष्यवाणी करता है। उदाहरण के लिए, एक उचित मॉडल भविष्यवाणी कर सकता है कि तापमान में 10 डिग्री के परिवर्तन से किसी व्यक्ति के समुद्र तट पर जाने की संभावना दो गुना अधिक या कम हो जाती है। किन्तु संभाव्यता की स्थिति में "दोगुनी संभावना" का क्या अर्थ है? इसका शाब्दिक अर्थ संभाव्यता मान को दोगुना करना नहीं हो सकता। (उदाहरण के लिए 50% का 100% तथा 75% का 150% हो जाता है।) अपितु, यह अनुपात है जो 2:1 अनुपात से, 4:1 अनुपात से, 8:1 अनुपात दोगुना हो रहा है। ऐसा मॉडल लॉग-अनुपात या लॉजिस्टिक रिग्रेशन मॉडल है।


सामान्यीकृत रेखीय मॉडल इन सभी स्थितियों को प्रतिक्रिया चर के लिए अनुमति देकर कवर करते हैं, जिसमें मनमाना वितरण होता है ([[सामान्य वितरण]] के बजाय), और प्रतिक्रिया चर के एक मनमाना कार्य के लिए (संबंध फलन) भविष्यवाणियों के साथ रैखिक रूप से भिन्न होता है (यह मानने के बजाय कि प्रतिक्रिया स्वयं रैखिक रूप से भिन्न होनी चाहिए)। उदाहरण के लिए, समुद्र तट पर उपस्थित लोगों की अनुमानित संख्या के ऊपर के मामले को आमतौर पर पॉइसन वितरण और एक लॉग लिंक के साथ तैयार किया जाएगा, जबकि समुद्र तट उपस्थिति की अनुमानित संभावना के मामले को आमतौर पर बर्नौली वितरण (या [[द्विपद वितरण]], बिल्कुल के आधार पर) के साथ तैयार किया जाएगा। समस्या को कैसे व्यक्त किया जाता है) और एक लॉग-ऑड्स (या लॉगिट) संबंध फलन।
सामान्यीकृत रेखीय मॉडल इन सभी स्थितियों को प्रतिक्रिया चर के लिए अनुमति देकर आच्छादित करते हैं, जिसमें यादृच्छिक वितरण होता है ([[सामान्य वितरण]] के स्थान पर) और प्रतिक्रिया चर के एक यादृच्छिक कार्य के लिए (संबंध फलन) प्राग्सूचक के साथ रैखिक रूप से भिन्न होता है (यह कल्पना करने स्थान पर कि प्रतिक्रिया स्वयं रैखिक रूप से भिन्न होनी चाहिए)। उदाहरण के लिए, समुद्र तट पर उपस्थित लोगों की अनुमानित संख्या की उपर्युक्त स्थिति को विशिष्ट रूप से पॉइसन वितरण और एक लॉग फलन के साथ तैयार किया जाएगा, जबकि समुद्र तट उपस्थिति की अनुमानित संभावना की स्थिति को सामान्यतः बर्नौली वितरण (या [[द्विपद वितरण]], इस बात पर निर्भर करता है कि वास्तव में समस्या को कैसे व्यक्त किया गया है) और एक लॉग-अनुपात (या लॉगिट) संबंध फलन के साथ तैयार किया जाएगा।


== सिंहावलोकन ==
== सिंहावलोकन ==


एक सामान्यीकृत रैखिक मॉडल (जीएलएम) में निर्भर चर के प्रत्येक परिणाम '''Y''' को एक [[घातीय परिवार]] में एक विशेष [[संभाव्यता वितरण|वितरण]] से उत्पन्न माना जाता है, [[प्रायिकता वितरण]] का एक बड़ा वर्ग जिसमें सामान्य वितरण, द्विपद वितरण, पॉइसन वितरण और गामा सम्मिलित होते हैं। वितरण का माध्य μ, स्वतंत्र चर X पर निर्भर करता है, इसके माध्यम से:
सामान्यीकृत रैखिक मॉडल (जीएलएम) में आश्रित चर के प्रत्येक परिणाम '''Y''' को एक [[घातीय परिवार|घातीय समूह]] में एक विशेष [[संभाव्यता वितरण|वितरण]] से जनित माना जाता है एवं [[प्रायिकता वितरण]] का एक बड़ा वर्ग माना जाता है जिसमें सामान्य वितरण, द्विपद वितरण, पॉइसन वितरण और गामा सम्मिलित होते हैं। वितरण का माध्य μ, स्वतंत्र चर X पर निर्भर करता है, इसके माध्यम से:


: <math>\operatorname{E}(\mathbf{Y}|\mathbf{X}) = \boldsymbol{\mu} = g^{-1}(\mathbf{X}\boldsymbol{\beta}) </math>
: <math>\operatorname{E}(\mathbf{Y}|\mathbf{X}) = \boldsymbol{\mu} = g^{-1}(\mathbf{X}\boldsymbol{\beta}) </math>
जहां E(Y|X) X पर [[सशर्त अपेक्षा|सशर्त]] Y का अपेक्षित मान है; X''β'' ''रैखिक प्राग्सूचक'' है, अज्ञात पैरामीटर्स का एक रैखिक संयोजन β; ''g'' संबंध फलन है।
जहां E(Y|X) X पर [[सशर्त अपेक्षा|सशर्त]] Y का अपेक्षित मान है; X''β'' ''रैखिक प्राग्सूचक'' है, अज्ञात पैरामीटर्स का एक रैखिक संयोजन β; ''g'' संबंध फलन है।


इस संरचना में प्रसरण आमतौर पर माध्य का एक कार्य V होता है:
सामान्यतः इस संरचना में प्रसरण माध्य का एक कार्य V होता है:


:<math> \operatorname{Var}(\mathbf{Y}|\mathbf{X})  = \operatorname{V}(g^{-1}(\mathbf{X}\boldsymbol{\beta})). </math>
:<math> \operatorname{Var}(\mathbf{Y}|\mathbf{X})  = \operatorname{V}(g^{-1}(\mathbf{X}\boldsymbol{\beta})). </math>
यह सुविधाजनक है यदि वी वितरण के एक घातीय समूह से आता है परंतु यह हो सकता है कि भिन्नता अनुमानित माप का फंक्शन है।
यह सुविधाजनक है यदि वी वितरण के एक घातीय समूह से आता है परंतु यह हो सकता है कि भिन्नता अनुमानित माप का फंक्शन है।


सामान्यतः अज्ञात पैरामीटर β, अधिकतम संभावना, अधिकतम [[अर्ध-संभावना]] या बायेसियन तकनीकों के साथ अनुमान लगाया जाता है।
सामान्यतः अज्ञात पैरामीटर β, अधिकतम संभावना, अधिकतम [[अर्ध-संभावना]] या बायेसियन तकनीकों के साथ अनुमानित हैं।


== मॉडल घटक ==
== मॉडल घटक ==
Line 37: Line 37:


=== प्रायिकता वितरण ===
=== प्रायिकता वितरण ===
वितरणों का विस्तारित घातीय समूह एक घातीय समूह का सामान्यीकरण है तथा वितरणों का घातीय विस्तार मॉडल है और इसमें संभाव्यता वितरण के वे समूह सम्मिलित हैं जिन्हें <math>\boldsymbol\theta</math> और <math>\tau</math>, द्वारा परिचालित किया गया है एवं जिनके घनत्व कार्य को f के रूप में व्यक्त किया जा सकता है
वितरणों का विस्तारित एक घातीय समूह का सामान्यीकरण है तथा वितरणों का घातीय विस्तार मॉडल है और इसमें संभाव्यता वितरण के वे समूह सम्मिलित हैं जिन्हें <math>\boldsymbol\theta</math> और <math>\tau</math> द्वारा परिचालित किया गया है एवं जिनके घनत्व कार्य को f के रूप में व्यक्त किया जा सकता है
:<math> f_Y(\mathbf{y} \mid \boldsymbol\theta, \tau) = h(\mathbf{y},\tau) \exp \left(\frac{\mathbf{b}(\boldsymbol\theta)^{\rm T}\mathbf{T}(\mathbf{y}) - A(\boldsymbol\theta)} {d(\tau)} \right). \,\!</math>
:<math> f_Y(\mathbf{y} \mid \boldsymbol\theta, \tau) = h(\mathbf{y},\tau) \exp \left(\frac{\mathbf{b}(\boldsymbol\theta)^{\rm T}\mathbf{T}(\mathbf{y}) - A(\boldsymbol\theta)} {d(\tau)} \right). \,\!</math>
सामान्यतः परिक्षेपण पैरामीटर <math>\tau</math>, ज्ञात होता है और वितरण के प्रसरण से संबंधित होता है। कार्य <math>h(\mathbf{y},\tau)</math>, <math>\mathbf{b}(\boldsymbol\theta)</math>, <math>\mathbf{T}(\mathbf{y})</math>, <math>A(\boldsymbol\theta)</math> और <math>d(\tau)</math> ज्ञात हैं। इस परिवार में सामान्य, घातीय, गामा, पॉसॉन, बर्नौली और (परीक्षणों की निश्चित संख्या के लिए) द्विपद, बहुपद और ऋणात्मक द्विपद सहित कई सामान्य वितरण हैं।
सामान्यतः परिक्षेपण पैरामीटर <math>\tau</math> ज्ञात होता है और वितरण के प्रसरण से संबंधित होता है। कार्य <math>h(\mathbf{y},\tau)</math>, <math>\mathbf{b}(\boldsymbol\theta)</math>, <math>\mathbf{T}(\mathbf{y})</math>, <math>A(\boldsymbol\theta)</math> और <math>d(\tau)</math> ज्ञात हैं। इस परिवार में सामान्य, घातीय, गामा, पॉसॉन, बर्नौली और (परीक्षणों की निश्चित संख्या के लिए) द्विपद, बहुपद और ऋणात्मक द्विपद सहित अनेक सामान्य वितरण हैं।


यह अदिश <math>\mathbf{y}</math> और <math>\boldsymbol\theta</math> के लिए( इस स्थिति में <math>y</math> और <math>\theta</math> को किया गया है) कम हो जाता है
यह अदिश <math>\mathbf{y}</math> और <math>\boldsymbol\theta</math> के लिए( इस स्थिति में <math>y</math> और <math>\theta</math> को किया गया है) कम हो जाता है
: <math> f_Y(y \mid \theta, \tau) = h(y,\tau) \exp \left(\frac{b(\theta)T(y) - A(\theta)}{d(\tau)} \right). \,\!</math>
: <math> f_Y(y \mid \theta, \tau) = h(y,\tau) \exp \left(\frac{b(\theta)T(y) - A(\theta)}{d(\tau)} \right). \,\!</math>


Line 63: Line 63:




=== लिंक समारोह ===
=== '''संबंध फलन''' ===


संबंध फलन रैखिक प्राग्सूचक और वितरण फलन के माध्य के बीच संबंध प्रदान करता है। सामान्य रूप से उपयोग किए जाने वाले अनेक संबंध फलन हैं और उनके विकल्प को अनेक कारणों से सूचित किया जाता है। '''सदैव पूर्णतः स्पष्ट रूप से परिभाषित कैनोनिकल संबंध फलन होता है जो प्रतिक्रिया के घनत्व फ़ंक्शन के घातांक से प्राप्त होता है।''' हालाँकि कुछ स्थितियों में यह बोध होता है कि संबंध फलन के डोमेन को वितरण फलन के माध्य की सीमा से मिलान करने का प्रयास करें या एल्गोरिथम उद्देश्यों के लिए गैर विहित संबंध फलन का उपयोग करें, उदाहरण के लिए बायेसियन प्रोबिट रिग्रेशन।
संबंध फलन रैखिक प्राग्सूचक और वितरण फलन के माध्य के बीच संबंध प्रदान करता है। सामान्य रूप से उपयोग किए जाने वाले अनेक संबंध फलन हैं और उनके विकल्प को अनेक कारणों से सूचित किया जाता है। सदैव स्पष्ट एवं पूर्ण रूप से परिभाषित विहित संबंध जो प्रतिक्रिया के घनत्व फ़ंक्शन के घातांक से प्राप्त होता है, फलन कहलाता है। हालाँकि कुछ स्थितियों में यह बोध होता है कि संबंध फलन के डोमेन को वितरण फलन के माध्य की सीमा से मिलान करने का प्रयास करें या एल्गोरिथम उद्देश्यों के लिए गैर विहित संबंध फलन का उपयोग करें, उदाहरण के लिए बायेसियन प्रोबिट रिग्रेशन।


कैननिकल पैरामीटर <math>\theta</math> के साथ वितरण फलन का उपयोग करते समय कैनोनिकल संबंध फलन वह फलन है जो <math>\mu</math>, के संदर्भ में <math>\theta</math> को व्यक्त करता है अर्थात <math>\theta = b(\mu)</math>। '''सबसे आम वितरण के लिए, माध्य <math>\mu</math> वितरण के घनत्व समारोह के मानक रूप में मापदंडों में से एक है, और फिर <math>b(\mu)</math> जैसा कि ऊपर परिभाषित किया गया है, वह फ़ंक्शन है जो घनत्व फ़ंक्शन को उसके विहित रूप में मैप करता है।''' कैननिकल संबंध फलन <math>b(\mu) = \theta = \mathbf{X}\boldsymbol{\beta}</math>, का उपयोग करते समय जो <math>\mathbf{X}^{\rm T} \mathbf{Y}</math> को <math>\boldsymbol{\beta}</math> के लिए पर्याप्त आंकड़ा होने की अनुमति देता है।
विहित पैरामीटर <math>\theta</math> के साथ वितरण फलन का उपयोग करते समय विहित संबंध फलन वह फलन है जो <math>\mu</math>, के संदर्भ में <math>\theta</math> को व्यक्त करता है अर्थात <math>\theta = b(\mu)</math>। अधिकतर सामान्य वितरणों हेतु माध्य <math>\mu</math> वितरण के घनत्व फलन के मानक रूप के मापदंडों में से एक है और इसके पश्चात <math>b(\mu)</math> वह फ़ंक्शन है जो घनत्व फलन को उसके विहित रूप में योजित करता है, जैसा कि ऊपर परिभाषित किया गया है। विहित संबंध फलन <math>b(\mu) = \theta = \mathbf{X}\boldsymbol{\beta}</math>, का उपयोग करते समय जो <math>\mathbf{X}^{\rm T} \mathbf{Y}</math> को <math>\boldsymbol{\beta}</math> के लिए पर्याप्त आंकड़ा होने की अनुमति देता है।


सामान्य उपयोग में कई घातीय-पारिवारिक वितरणों की निम्नलिखित तालिका है और सामान्यत: वे डेटा जो विहित संबंध फलन और उनके व्युत्क्रमों के साथ उपयोग किए जाते हैं (कभी-कभी यहां किए गए माध्य फलन के रूप में संदर्भित होते हैं)।
सामान्य उपयोग में कई घातीय-पारिवारिक वितरणों की निम्नलिखित तालिका है और सामान्यत: वे डेटा जो विहित संबंध फलन और उनके व्युत्क्रमों के साथ उपयोग किए जाते हैं (कभी-कभी यहां किए गए माध्य फलन के रूप में संदर्भित होते हैं)।
Line 115: Line 115:
घातांकी और गामा वितरण के स्थिति में, विहित संबंध फलन का प्रक्षेत्र माध्य की अनुमत सीमा के समान नहीं है। विशेष रूप से, रैखिक प्राग्वक्ता सकारात्मक हो सकता है, जो एक असंभव नकारात्मक माध्य देगा। संभाव्यता को अधिकतम करते समय, परिवर्जन के लिए सावधानी रखनी चाहिए। गैर-विहित संबंध फलन का उपयोग करना एक विकल्प है।
घातांकी और गामा वितरण के स्थिति में, विहित संबंध फलन का प्रक्षेत्र माध्य की अनुमत सीमा के समान नहीं है। विशेष रूप से, रैखिक प्राग्वक्ता सकारात्मक हो सकता है, जो एक असंभव नकारात्मक माध्य देगा। संभाव्यता को अधिकतम करते समय, परिवर्जन के लिए सावधानी रखनी चाहिए। गैर-विहित संबंध फलन का उपयोग करना एक विकल्प है।


बर्नौली, द्विपद, श्रेणीबद्ध और बहुपद वितरण के स्थिति में, वितरण का समर्थन उसी प्रकार का डेटा नहीं है जैसा कि प्राचल की प्रागुक्त की जा रही है। इन सभी स्थितियों में, प्रागुक्त प्राचल एक या अधिक संभावनाएँ हैं, यानी वास्तविक संख्याएँ परिसर [0,1] में हैं। परिणामी प्रतिदर्श को लॉजिस्टिक रिग्रेशन (या [[ बहुराष्ट्रीय रसद प्रतिगमन |बहुराष्ट्रीय रसद प्रतिगमन]] के रूप में जाना जाता है, जिसमें बाइनरी वैल्यू के स्थान पर के-वे की प्रागुक्त की जा रही है)।
बर्नौली, द्विपद, श्रेणीबद्ध और बहुपद वितरण के स्थिति में, वितरण का समर्थन उसी प्रकार का डेटा नहीं है जैसा कि प्राचल की प्रागुक्त की जा रही है। इन सभी स्थितियों में, प्रागुक्त प्राचल एक या अधिक संभावनाएँ हैं,अर्थात वास्तविक संख्याएँ परिसर [0,1] में हैं। परिणामी प्रतिदर्श को लॉजिस्टिक रिग्रेशन (या [[ बहुराष्ट्रीय रसद प्रतिगमन |बहुराष्ट्रीय रसद प्रतिगमन]] के रूप में जाना जाता है, जिसमें बाइनरी वैल्यू के स्थान पर के-वे की प्रागुक्त की जा रही है)।


बर्नौली और द्विपद वितरण के लिए, प्राचल एकल संभावना है, जो एकल वृत्तांत के घटित होने की संभावना को दर्शाता है। बर्नौली सामान्यीकृत रैखिक मॉडल की आधारिक स्थिति को भी संतुष्ट करता है, चाहे एकल परिणाम सदैव 0 या 1 हो, फिर भी अपेक्षित मूल्य एक वास्तविक-मूल्यवान प्रायिकता होगा, अर्थात "हाँ" (या 1) परिणाम की प्राप्ति की संभावना। इसी तरह, द्विपद वितरण में, अपेक्षित मान एनपी है , यानी "हाँ" परिणामों के अपेक्षित अनुपात प्रागुक्त की जाने वाली संभावना होगी।
बर्नौली और द्विपद वितरण के लिए, प्राचल एकल संभावना है, जो एकल वृत्तांत के घटित होने की संभावना को दर्शाता है। बर्नौली सामान्यीकृत रैखिक मॉडल की आधारिक स्थिति को भी संतुष्ट करता है, यद्यपि एकल परिणाम सदैव 0 या 1 हो, फिर भी अपेक्षित मूल्य एक वास्तविक-मूल्यवान प्रायिकता होगा, अर्थात "हाँ" (या 1) परिणाम की प्राप्ति की संभावना अधिक होगी। इसी तरह द्विपद वितरण में, अपेक्षित मान एनपी है, अर्थात "हाँ" परिणामों के अपेक्षित अनुपात प्रागुक्त की जाने वाली संभावना होगी।


श्रेणीबद्ध और बहुपदी वितरण के लिए, प्रागुक्त प्राचल संभावनाओं का  के -सदिश है, अतिरिक्त प्रतिबंध के साथ कि सभी संभावनाओं को 1 तक योग किया जाना चाहिए। प्रत्येक संभावना के संभावित मूल्यों में से एक की प्राप्ति की संभावना को इंगित करती है। बहुपदी वितरण के लिए, और श्रेणीबद्ध वितरण के सदिश रूप के लिए, सदिश के तत्वों के अपेक्षित मूल्यों को द्विपद और बर्नौली वितरण के समान प्रागुक्त संभावनाओं से संबंधित किया जा सकता है।
श्रेणीबद्ध और बहुपदी वितरण के लिए, भविष्यवाणी की जाने वाली पैरामीटर संभावनाओं का एक के-वेक्टर है, जिसमें आगे प्रतिबंध है कि सभी संभावनाओं को 1 तक जोड़ना चाहिए। प्रत्येक संभावना के संभावित मूल्यों में से एक की प्राप्ति की संभावना को इंगित करती है। बहुपदी वितरण के लिए और श्रेणीबद्ध वितरण के सदिश रूप के लिए, सदिश के तत्वों के अपेक्षित मूल्यों को द्विपद और बर्नौली वितरण के समान प्रागुक्त संभावनाओं से संबंधित किया जा सकता है।


== अन्वायोजन ==
== अन्वायोजन ==


=== अधिकतम संभाविता ===
=== अधिकतम संभाविता ===
प्ररूप के अद्यतन के साथ पुनरावृत्त रूप से भारित न्यूनतम वर्ग कलनविधि या न्यूटन की विधि का उपयोग करके अधिकतम संभाव्यता का अनुमान लगाया जा सकता है :
प्ररूप के अद्यतन के साथ पुनरावृत्त रूप से भारित न्यूनतम वर्ग कलनविधि या न्यूटन की विधि का उपयोग करके अधिकतम संभाव्यता का अनुमान लगाया जा सकता है:
: <math> \boldsymbol\beta^{(t+1)} = \boldsymbol\beta^{(t)} + \mathcal{J}^{-1}(\boldsymbol\beta^{(t)}) u(\boldsymbol\beta^{(t)}), </math>
: <math> \boldsymbol\beta^{(t+1)} = \boldsymbol\beta^{(t)} + \mathcal{J}^{-1}(\boldsymbol\beta^{(t)}) u(\boldsymbol\beta^{(t)}), </math>
जहाँ <math>\mathcal{J}(\boldsymbol\beta^{(t)})</math> अवलोकित सूचना आव्यूह ([[हेसियन मैट्रिक्स|हेसियन आव्यूह]] नकारात्मक) है और <math>u(\boldsymbol\beta^{(t)})</math> [[स्कोर (सांख्यिकी)|स्कोर फलन (सांख्यिकी)]] या फ़िशर की स्कोरिंग विधि है:
जहाँ <math>\mathcal{J}(\boldsymbol\beta^{(t)})</math>अवलोकित सूचना आव्यूह ([[हेसियन मैट्रिक्स|हेसियन आव्यूह]] नकारात्मक) है और <math>u(\boldsymbol\beta^{(t)})</math> [[स्कोर (सांख्यिकी)|स्कोर फलन (सांख्यिकी)]] या फ़िशर की स्कोरिंग विधि है:
: <math> \boldsymbol\beta^{(t+1)} = \boldsymbol\beta^{(t)} + \mathcal{I}^{-1}(\boldsymbol\beta^{(t)}) u(\boldsymbol\beta^{(t)}), </math>
: <math> \boldsymbol\beta^{(t+1)} = \boldsymbol\beta^{(t)} + \mathcal{I}^{-1}(\boldsymbol\beta^{(t)}) u(\boldsymbol\beta^{(t)}), </math>
जहाँ <math>\mathcal{I}(\boldsymbol\beta^{(t)})</math> फिशर सूचना आव्यूह है। ध्यान दें कि यदि विहित संबंध फलन का उपयोग किया जाता है तो वे समान होते हैं।
जहाँ <math>\mathcal{I}(\boldsymbol\beta^{(t)})</math> फिशर सूचना आव्यूह है। ध्यान दें कि यदि विहित संबंध फलन का उपयोग किया जाता है तो वे समान होते हैं।
Line 142: Line 142:
सामान्य रेखीय मॉडल को सामान्यीकृत रेखीय मॉडल के एक विशेष स्थिति के रूप में देखा जा सकता है जिसमें पहचान संबंध और सामान्य रूप से वितरित प्रतिक्रियाएं होती हैं। जैसा कि सबसे सटीक प्रेरित परिणाम केवल सामान्य रेखीय मॉडल के लिए प्राप्त होते हैं, सामान्य रेखीय मॉडल में कुछ अधिक समय से ऐतिहासिक विकास हुआ है। गैर-पहचान संबंध वाले सामान्यीकृत रैखिक मॉडल के परिणाम स्पर्शोन्मुख हैं (बड़े नमूनों के साथ सटीकता से काम करने की प्रवृत्ति)।
सामान्य रेखीय मॉडल को सामान्यीकृत रेखीय मॉडल के एक विशेष स्थिति के रूप में देखा जा सकता है जिसमें पहचान संबंध और सामान्य रूप से वितरित प्रतिक्रियाएं होती हैं। जैसा कि सबसे सटीक प्रेरित परिणाम केवल सामान्य रेखीय मॉडल के लिए प्राप्त होते हैं, सामान्य रेखीय मॉडल में कुछ अधिक समय से ऐतिहासिक विकास हुआ है। गैर-पहचान संबंध वाले सामान्यीकृत रैखिक मॉडल के परिणाम स्पर्शोन्मुख हैं (बड़े नमूनों के साथ सटीकता से काम करने की प्रवृत्ति)।


=== रेखीय समाश्रयण ===
=== रेखीय प्रतिगमन ===


सामान्यीकृत रैखिक मॉडल का एक सरल, अधिक महत्वपूर्ण उदाहरण (सामान्य रैखिक मॉडल का भी एक उदाहरण) रैखिक समाश्रयण है । रैखिक समाश्रयण में, गॉस-मार्कोव प्रमेय द्वारा न्यूनतम-वर्ग अनुमानक का उपयोग उचित है , जो यह नहीं मानता है कि वितरण सामान्य है।
सामान्यीकृत रैखिक मॉडल का एक सरल अधिक महत्वपूर्ण उदाहरण (सामान्य रैखिक मॉडल का भी एक उदाहरण) रेखीय प्रतिगमन है। रेखीय प्रतिगमन में गॉस-मार्कोव प्रमेय द्वारा न्यूनतम-वर्ग अनुमानक का उपयोग उचित है, जो यह नहीं मानता है कि वितरण सामान्य है।


यद्यपि, सामान्यीकृत रैखिक मॉडल के परिप्रेक्ष्य से, यह मान लेना उपयोगी है कि वितरण फलन निरंतर विचरण के साथ सामान्य वितरण है और संबंध फलन पहचान है, जो विचरण ज्ञात होने पर विहित संबंध है। इन मान्यताओं के अंतर्गत, न्यूनतम-वर्ग अनुमानक को अधिकतम-संभावना प्राचल अनुमान के रूप में प्राप्त किया जाता है।
यद्यपि, सामान्यीकृत रैखिक मॉडल के परिप्रेक्ष्य से यह मान लेना उपयोगी है कि वितरण फलन निरंतर विचरण के साथ सामान्य वितरण है और संबंध फलन पहचान है, जो विचरण ज्ञात होने पर विहित संबंध है। इन मान्यताओं के अंतर्गत, न्यूनतम-वर्ग अनुमानक को अधिकतम-संभावना प्राचल अनुमान के रूप में प्राप्त किया जाता है।


सामान्य वितरण के लिए, सामान्यीकृत रैखिक मॉडल में अधिकतम-संभावना अनुमानों के लिए एक सुविधाजनक संवृत रूप अभिव्यक्ति है। अधिकांश अन्य जीएलएम में संवृत रूप अनुमानों का अभाव होता है।
सामान्य वितरण के लिए, सामान्यीकृत रैखिक मॉडल में अधिकतम-संभावना अनुमानों के लिए एक सुविधाजनक संवृत रूप अभिव्यक्ति है। अधिकांश अन्य जीएलएम में संवृत रूप अनुमानों का अभाव होता है।
Line 152: Line 152:
=== बाइनरी डेटा ===
=== बाइनरी डेटा ===
{{See also|युग्मक प्रतिगमन}}
{{See also|युग्मक प्रतिगमन}}
जब प्रतिक्रिया डेटा, वाई , द्विआधारी होते हैं (केवल मान 0 और 1 लेते हैं), वितरण फलन को सामान्यतः बर्नौली वितरण के रूप में चुना जाता है और ''μ''<sub>i</sub> की व्याख्या तब ''Y''<sub>i</sub> की प्रायिकता, p मान एक पर ले जाती है।
जब प्रतिक्रिया डेटा ''Y'' बाइनरी होते हैं (केवल मान 0 और 1 लेते हैं), तो वितरण फलन को सामान्यतः बर्नौली वितरण के रूप में चुना जाता है और ''μ''<sub>i</sub> की व्याख्या तब ''Y''<sub>i</sub> की प्रायिकता, p मान एक पर ले जाती है।


द्विपद फलन के लिए कई लोकप्रिय संबंध फलन हैं।
द्विपद फलन के लिए कई लोकप्रिय संबंध फलन हैं।
Line 163: Line 163:


==== प्रतिलोम संचयी बंटन फलन के लोकप्रिय विकल्प के रूप में प्रॉबिट संबंध फलन ====
==== प्रतिलोम संचयी बंटन फलन के लोकप्रिय विकल्प के रूप में प्रॉबिट संबंध फलन ====
वैकल्पिक रूप से, किसी भी निरंतर संचयी वितरण फलन (सीडीएफ) के व्युत्क्रम को संबंध के लिए उपयोग किया जा सकता है क्योंकि सीडीएफ की परिसर, द्विपद माध्य की परिसर <math>[0,1]</math>,हैं। सामान्य सीडीएफ <math>\Phi</math> एक लोकप्रिय विकल्प है और प्रोबिट मॉडल प्रतिफलन करता है । इसके संबंध है
वैकल्पिक रूप से, किसी भी निरंतर संचयी वितरण फलन (सीडीएफ) के व्युत्क्रम को संबंध के लिए उपयोग किया जा सकता है क्योंकि सीडीएफ की परिसर, द्विपद माध्य की परिसर <math>[0,1]</math> हैं। सामान्य सीडीएफ <math>\Phi</math> एक लोकप्रिय विकल्प है और प्रोबिट मॉडल प्रतिफलन करता है। इसके संबंध है


:<math>g(p) = \Phi^{-1}(p).\,\!</math>
:<math>g(p) = \Phi^{-1}(p).\,\!</math>
प्रोबिट मॉडल के उपयोग का कारण यह है कि एक सामान्य सीडीएफ (जो सभी मापदंडों के समतुल्य मापन के माध्यम से अवशोषित किया जा सकता है) के लिए निवेश चर का निरंतर मापन एक फलन उत्पन्न करता है जो व्यावहारिक रूप से लॉगिट फलन के समान है, लेकिन प्रोबिट मॉडल लॉगिट मॉडल की तुलना में कुछ स्थितियों में अधिक सुविधाजनक होते हैं। (बायेसियन समायोजन में जिसमें सामान्य रूप से वितरित [[पूर्व वितरण]] को मापदंडों पर रखा जाता है, सामान्य प्रथम और सामान्य सीडीएफ संबंध फलन के बीच संबंध का अर्थ है कि गिब्स नमूनाकरण का उपयोग करके प्रोबिट मॉडल की गणना की जा सकती है , जबकि एक लॉगिट मॉडल सामान्यतः नहीं।)
प्रोबिट मॉडल के उपयोग का कारण यह है कि एक सामान्य सीडीएफ (जो सभी मापदंडों के समतुल्य मापन के माध्यम से अवशोषित किया जा सकता है) के लिए निवेश चर का निरंतर मापन एक फलन उत्पन्न करता है जो व्यावहारिक रूप से लॉगिट फलन के समान है, लेकिन प्रोबिट मॉडल लॉगिट मॉडल की तुलना में कुछ स्थितियों में अधिक सुविधाजनक होते हैं। (बायेसियन समायोजन में जिसमें सामान्य रूप से वितरित [[पूर्व वितरण]] को मापदंडों पर रखा जाता है, सामान्य प्रथम और सामान्य सीडीएफ संबंध फलन के बीच संबंध का अर्थ है कि गिब्स नमूनाकरण का उपयोग करके प्रोबिट मॉडल की गणना की जा सकती है, जबकि एक लॉगिट मॉडल सामान्यतः नहीं।)


==== समपूरक लॉग-लॉग (सी लॉग-लॉग) ====
==== समपूरक लॉग-लॉग (सी लॉग-लॉग) ====
Line 192: Line 192:


:<math>\operatorname{Var}(Y_i)= \tau\mu_i (1-\mu_i)\,\!</math>
:<math>\operatorname{Var}(Y_i)= \tau\mu_i (1-\mu_i)\,\!</math>
जहां वितरण मापदण्ड τ द्विपद वितरण के लिए यथार्थतः 1 है। वास्तव में, मानक द्विपद संभावना τ विलोपित कर देती है। इसकी उपस्थिति में, मॉडल को "अर्ध द्विपद" कहा जाता है, और संशोधित संभावना को अर्ध -संभावना कहा जाता है , क्योंकि यह सामान्यतः संभाव्यता वितरण के किसी भी वास्तविक परिवार से संबंधित संभावना नहीं है। यदि τ 1 से अधिक है, तो मॉडल [[अतिफैलाव|अतिवितरण]] प्रदर्शित करता है।
जहां वितरण मापदण्ड τ द्विपद वितरण के लिए यथार्थतः 1 है। वास्तव में, मानक द्विपद संभावना τ विलोपित कर देती है। इसकी उपस्थिति में, मॉडल को "अर्ध द्विपद" कहा जाता है, और संशोधित संभावना को अर्ध -संभावना कहा जाता है, क्योंकि यह सामान्यतः संभाव्यता वितरण के किसी भी वास्तविक परिवार से संबंधित संभावना नहीं है। यदि τ1 से अधिक है, तो मॉडल [[अतिफैलाव|अतिवितरण]] प्रदर्शित करता है।


=== बहुपद प्रतिगमन ===
=== बहुपद प्रतिगमन ===
Line 207: Line 207:


:<math> g(\mu_m) = \eta_m = \beta_{m,0} + X_1 \beta_{m,1} + \cdots + X_p \beta_{m,p} \text{ where } \mu_m = \mathrm{P}(Y = m \mid Y \in \{1,m\} ). \,</math>
:<math> g(\mu_m) = \eta_m = \beta_{m,0} + X_1 \beta_{m,1} + \cdots + X_p \beta_{m,p} \text{ where } \mu_m = \mathrm{P}(Y = m \mid Y \in \{1,m\} ). \,</math>
m > 2 के लिए। विभिन्न संबंध g बहुपदि लॉगिट या बहुपदि प्रोबिट मॉडल की ओर ले जाते हैं। ये क्रमित प्रतिक्रिया मॉडल की तुलना में अधिक सामान्य हैं, और अधिक मापदण्ड अनुमानित किया जाता हैं।
m > 2 के लिए। विभिन्न संबंध g बहुपदि लॉगिट या बहुपदि प्रोबिट मॉडल की ओर ले जाते हैं। ये क्रमित प्रतिक्रिया मॉडल की तुलना में अधिक सामान्य और पैरामीटर अनुमानित हैं।


=== [[डेटा गिनें|डेटा गणना]] ===
=== [[डेटा गिनें|डेटा गणना]] ===
Line 213: Line 213:


:<math>\operatorname{var}(Y_i) = \tau\mu_i,\, </math>
:<math>\operatorname{var}(Y_i) = \tau\mu_i,\, </math>
जहां वितरण मापदण्ड τ विशेष रूप से ठीक एक पर तय किया जाता है। जब यह नहीं होता है, तो परिणामी अर्ध-संभावना मॉडल को प्रायः अतिवितरण के साथ पॉसों या अर्ध-पॉसों  के रूप में वर्णित किया जाता है ।
जहां वितरण मापदण्ड τ विशेष रूप से ठीक एक पर तय किया जाता है। इसके ना होने पर परिणामी अर्ध-संभावना मॉडल को प्रायः अतिवितरण के साथ पॉसों या अर्ध-पॉसों के रूप में वर्णित किया जाता है ।


== विस्तारण (एक्सटेंशन) ==
== विस्तारण (एक्सटेंशन) ==
Line 226: Line 226:
  |jstor = 2531734  
  |jstor = 2531734  
}}</ref><ref>{{cite book |last1 = Hardin |first1 = James |last2 = Hilbe |first2 = Joseph |author2-link = Joseph Hilbe |title = सामान्यीकृत अनुमान समीकरण|url = https://archive.org/details/generalizedestim0000hard |url-access = registration |location = London, England |publisher = Chapman and Hall/CRC |year = 2003 |isbn = 1-58488-307-3 }}</ref>
}}</ref><ref>{{cite book |last1 = Hardin |first1 = James |last2 = Hilbe |first2 = Joseph |author2-link = Joseph Hilbe |title = सामान्यीकृत अनुमान समीकरण|url = https://archive.org/details/generalizedestim0000hard |url-access = registration |location = London, England |publisher = Chapman and Hall/CRC |year = 2003 |isbn = 1-58488-307-3 }}</ref>
* [[सामान्यीकृत रैखिक [[मिश्रित मॉडल]]]] जीएलएम का एक विस्तार है जिसमें रैखिक प्राग्वक्ता में यादृच्छिक प्रभाव सम्मिलित हैं, जो एक स्पष्ट संभाव्यता मॉडल देता है जो सहसंबंधों की उत्पत्ति की व्याख्या करता है। परिणामी "विषय-विशिष्ट" मापदण्ड अनुमान तब उपयुक्त होते हैं जब केंद्र किसी वैयक्तिक पर एक्स के एक या अधिक घटकों को परिवर्तन करने के प्रभाव का आकलन करने पर होता है। जीएलएमएम को [[बहुस्तरीय मॉडल]] और मिश्रित मॉडल भी कहा जाता है। सामान्यतः, जीईई की तुलना में जीएलएमएम को उपयुक्त करना अभिकलनीयतः अधिक जटिल और गहन है।
* [[सामान्यीकृत रैखिक [[मिश्रित मॉडल]]]] जीएलएम का एक विस्तार है जिसमें रैखिक पूर्वसूचक में अनियमित प्रभाव सम्मिलित हैं जो स्पष्ट संभाव्यता मॉडल देता है जो सहसंबंधों की उत्पत्ति की व्याख्या करता है। परिणामी "विषय-विशिष्ट" पैरामीटर अनुमान तब उपयुक्त होते हैं जब किसी दिए गए व्यक्ति पर एक्स के एक या अधिक घटकों  के परिवर्तन के प्रभाव का आकलन करने पर होता केंद्रित होता है। जीएलएमएम को [[बहुस्तरीय मॉडल]] और मिश्रित मॉडल भी कहा जाता है। सामान्यतः जीएलएमएम को फिट करना जीईई को फिट करने की तुलना में अभिकलनात्मक रूप से अधिक जटिल और गहन है।


=== [[सामान्यीकृत योगात्मक मॉडल]] ===
=== [[सामान्यीकृत योगात्मक मॉडल]] ===
सामान्यीकृत योगात्मक मॉडल (जीएएम) जीएलएम का एक और विस्तार है जिसमें रैखिक प्राग्वक्ता η सहसंयोजक 'X' में रैखिक होने के लिए प्रतिबंधित नहीं है, लेकिन ''x<sub>i</sub>''s पर प्रयुक्त मसृणकारी फलन का योग है :
सामान्यीकृत योगात्मक मॉडल (जीएएम) जीएलएम का एक और विस्तार है जिसमें रैखिक प्राग्वक्ता η सहसंयोजक 'X' में रैखिक होने के लिए प्रतिबंधित नहीं है, लेकिन ''x<sub>i</sub>''s पर प्रयुक्त मसृणकारी फलन का योग है:
: <math>\eta = \beta_0 + f_1(x_1) + f_2(x_2) + \cdots \,\!</math>
: <math>\eta = \beta_0 + f_1(x_1) + f_2(x_2) + \cdots \,\!</math>
मसृणकारी फलन f<sub>i</sub> का अनुमान डेटा से लगाया जाता है। सामान्यतः  इसके लिए बड़ी संख्या में डेटा बिंदुओं की आवश्यकता होती है और यह अभिकलनीयतः गहन है।{{sfn|Wood|2006}}
मसृणकारी फलन f<sub>i</sub> का अनुमान डेटा से लगाया जाता है। सामान्यतः इसके लिए बड़ी संख्या में डेटा बिंदुओं की आवश्यकता होती है और यह अभिकलनीयतः गहन है।{{sfn|Wood|2006}}


== यह भी देखें ==
== यह भी देखें ==
Line 272: Line 272:
{{Authority control}}
{{Authority control}}


{{DEFAULTSORT:Generalized Linear Model}}[[Category: जिवानांकिकी]] [[Category: सामान्यीकृत रैखिक मॉडल | सामान्यीकृत रैखिक मॉडल ]] [[Category: प्रतिगमन मॉडल]]
{{DEFAULTSORT:Generalized Linear Model}}


 
[[Category:Articles with hatnote templates targeting a nonexistent page|Generalized Linear Model]]
 
[[Category:CS1 English-language sources (en)]]
[[Category: Machine Translated Page]]
[[Category:Created On 21/03/2023|Generalized Linear Model]]
[[Category:Created On 21/03/2023]]
[[Category:Lua-based templates|Generalized Linear Model]]
[[Category:Machine Translated Page|Generalized Linear Model]]
[[Category:Pages with empty portal template|Generalized Linear Model]]
[[Category:Pages with script errors|Generalized Linear Model]]
[[Category:Portal-inline template with redlinked portals|Generalized Linear Model]]
[[Category:Templates Vigyan Ready|Generalized Linear Model]]
[[Category:Templates that add a tracking category|Generalized Linear Model]]
[[Category:Templates that generate short descriptions|Generalized Linear Model]]
[[Category:Templates using TemplateData|Generalized Linear Model]]
[[Category:जिवानांकिकी|Generalized Linear Model]]
[[Category:प्रतिगमन मॉडल|Generalized Linear Model]]
[[Category:सामान्यीकृत रैखिक मॉडल| सामान्यीकृत रैखिक मॉडल ]]

Latest revision as of 16:46, 26 April 2023

सांख्यिकी में, एक सामान्यीकृत रेखीय मॉडल (जीएलएम) साधारण रेखीय प्रतिगमन का एक नमन्शील सामान्यीकरण है। जीएलएम रैखिक प्रतिगमन को 'संबंध फलन' के माध्यम से प्रतिक्रिया चर से संबंधित होने के लिए रैखिक मॉडल और प्रत्येक माप के विचरण के परिमाण को उसके अनुमानित मूल्य के कार्य होने की अनुमति देकर सामान्यीकृत करता है।

जॉन नेल्डर और रॉबर्ट वेडरबर्न द्वारा रैखिक प्रतिगमन, लॉजिस्टिक प्रतिगमन और पॉइसन प्रतिगमन सहित कई अन्य सांख्यिकीय मॉडल को एकीकृत करने के तरीके के रूप में सामान्यीकृत रैखिक मॉडल सूत्रित किए गए थे।[1]उन्होंने मॉडल मापदंडों के अधिकतम संभाविता आकलन (एमएलई) के लिए पुनरावृत्त रूप से न्यूनतम वर्ग विधि का प्रस्ताव दिया। अनेक सांख्यिकीय अभिकलन संवेष्टन (कंप्यूटिंग पैकेज) पर डिफ़ॉल्ट विधि है इसलिए अधिकतम संभाविता आकलन लोकप्रिय बना हुआ है। बायेसियन प्रतिगमन और विचरण-स्थिरीकरण परिवर्तन प्रतिक्रियाओं के लिए न्यूनतम वर्ग अन्वायोजन सहित अन्य दृष्टिकोण विकसित किए गए हैं।

अन्तर्ज्ञान

साधारण रेखीय प्रतिगमन प्रेक्षित मानों (भविष्यवक्ताओं) के एक समुच्चय के रैखिक संयोजन के रूप में दी गई अज्ञात मात्रा (प्रतिक्रिया चर, एक यादृच्छिक चर) के अपेक्षित मूल्य की पूर्वानुमान करता है। इसका तात्पर्य है कि प्राग्सूचक में निरंतर परिवर्तन से प्रतिक्रिया चर (अर्थात एक रैखिक-प्रतिक्रिया मॉडल) में निरंतर परिवर्तन होता है। यह उचित है जब प्रतिक्रिया चर किसी भी दिशा में अनिश्चित काल के लिए या किसी भी मात्रा के लिए सामान्यतः एक अच्छे सन्निकटन में भिन्न हो सकता है जो केवल अनुमानित चर जैसे मानव ऊंचाई में भिन्नता की तुलना में अपेक्षाकृत छोटी राशि से भिन्न होता है।

हालाँकि, ये धारणाएँ कुछ प्रकार के प्रतिक्रिया चर के लिए अनुपयुक्त हैं। उदाहरण के लिए ऐसी स्थितियों में जहां प्रतिक्रिया चर के सदैव सकारात्मक और विस्तृत श्रृंखला में परिवर्तित होने की अपेक्षा की जाती है वहां निरंतर इनपुट परिवर्तनों से ज्यामितीय रूप द्वारा (अर्थात घातीय रूप से) भिन्नता होती है यद्यपि निरंतर भिन्न होने के आउटपुट में परिवर्तन होता है। एक उदाहरण के रूप में, मान लीजिए कि एक रेखीय भविष्यवाणी मॉडल कुछ डेटा (शायद मुख्य रूप से बड़े समुद्र तटों से खींचा गया) से सीखता है कि 10 डिग्री तापमान में न्यूनता से समुद्र तट पर 1,000 कम लोग आएंगे। यह मॉडल विभिन्न आकार के समुद्र तटों पर अच्छी तरह से सामान्यीकृत होने की संभावना नहीं है। अधिक विशेष रूप से, समस्या यह है कि यदि आप समुद्र तट के लिए 10 की तापमान गिरावट के साथ नई उपस्थिति की भविष्यवाणी करने के लिए मॉडल का उपयोग करते हैं जो नियमित रूप से 50 समुद्र तट दर्शक प्राप्त करता है, तो आप -950 के एक असंभव उपस्थिति की भविष्यवाणी करेंगे। इसके स्थान पर एक अधिक यथार्थवादी मॉडल शुद्ध रूप से बढ़ी हुई समुद्र तट की उपस्थिति की निरंतर दर का अनुमान लगाएगा (उदाहरण के लिए 10 डिग्री की वृद्धि से समुद्र तट की उपस्थिति दोगुनी हो जाती है, और 10 डिग्री के पतन से उपस्थिति में कमी आती है)। इस तरह के एक मॉडल को एक घातीय-प्रतिक्रिया मॉडल (क्योंकि प्रतिक्रिया के लघुगणक को रैखिक रूप से भिन्न होने की भविष्यवाणी की जाती है) या लॉग-लीनियर मॉडल कहा जाता है।

इसी तरह, एक मॉडल जो हां/नहीं विकल्प (एक बर्नौली वितरण) बनाने की संभावना की भविष्यवाणी करता है, रैखिक-प्रतिक्रिया मॉडल के रूप में भी कम उपयुक्त है, क्योंकि संभावनाएं दोनों सिरों पर बंधी हैं (वे 0 और 1 के बीच होनी चाहिए)। उदाहरण के लिए, एक मॉडल की कल्पना करें जो किसी व्यक्ति के समुद्र तट पर तापमान के फलन के रूप में जाने की संभावना की भविष्यवाणी करता है। उदाहरण के लिए, एक उचित मॉडल भविष्यवाणी कर सकता है कि तापमान में 10 डिग्री के परिवर्तन से किसी व्यक्ति के समुद्र तट पर जाने की संभावना दो गुना अधिक या कम हो जाती है। किन्तु संभाव्यता की स्थिति में "दोगुनी संभावना" का क्या अर्थ है? इसका शाब्दिक अर्थ संभाव्यता मान को दोगुना करना नहीं हो सकता। (उदाहरण के लिए 50% का 100% तथा 75% का 150% हो जाता है।) अपितु, यह अनुपात है जो 2:1 अनुपात से, 4:1 अनुपात से, 8:1 अनुपात दोगुना हो रहा है। ऐसा मॉडल लॉग-अनुपात या लॉजिस्टिक रिग्रेशन मॉडल है।

सामान्यीकृत रेखीय मॉडल इन सभी स्थितियों को प्रतिक्रिया चर के लिए अनुमति देकर आच्छादित करते हैं, जिसमें यादृच्छिक वितरण होता है (सामान्य वितरण के स्थान पर) और प्रतिक्रिया चर के एक यादृच्छिक कार्य के लिए (संबंध फलन) प्राग्सूचक के साथ रैखिक रूप से भिन्न होता है (यह कल्पना करने स्थान पर कि प्रतिक्रिया स्वयं रैखिक रूप से भिन्न होनी चाहिए)। उदाहरण के लिए, समुद्र तट पर उपस्थित लोगों की अनुमानित संख्या की उपर्युक्त स्थिति को विशिष्ट रूप से पॉइसन वितरण और एक लॉग फलन के साथ तैयार किया जाएगा, जबकि समुद्र तट उपस्थिति की अनुमानित संभावना की स्थिति को सामान्यतः बर्नौली वितरण (या द्विपद वितरण, इस बात पर निर्भर करता है कि वास्तव में समस्या को कैसे व्यक्त किया गया है) और एक लॉग-अनुपात (या लॉगिट) संबंध फलन के साथ तैयार किया जाएगा।

सिंहावलोकन

सामान्यीकृत रैखिक मॉडल (जीएलएम) में आश्रित चर के प्रत्येक परिणाम Y को एक घातीय समूह में एक विशेष वितरण से जनित माना जाता है एवं प्रायिकता वितरण का एक बड़ा वर्ग माना जाता है जिसमें सामान्य वितरण, द्विपद वितरण, पॉइसन वितरण और गामा सम्मिलित होते हैं। वितरण का माध्य μ, स्वतंत्र चर X पर निर्भर करता है, इसके माध्यम से:

जहां E(Y|X) X पर सशर्त Y का अपेक्षित मान है; Xβ रैखिक प्राग्सूचक है, अज्ञात पैरामीटर्स का एक रैखिक संयोजन β; g संबंध फलन है।

सामान्यतः इस संरचना में प्रसरण माध्य का एक कार्य V होता है:

यह सुविधाजनक है यदि वी वितरण के एक घातीय समूह से आता है परंतु यह हो सकता है कि भिन्नता अनुमानित माप का फंक्शन है।

सामान्यतः अज्ञात पैरामीटर β, अधिकतम संभावना, अधिकतम अर्ध-संभावना या बायेसियन तकनीकों के साथ अनुमानित हैं।

मॉडल घटक

जीएलएम में तीन तत्व होते हैं:

1. मॉडलिंग के लिए उनमें से एक विशेष वितरण जिन्हें संभाव्यता वितरण के घातीय परिवार माना जाता है,
2. एक रैखिक प्राग्सूचक , और
3. एक शृंखला बंध फलन ऐसा है कि .

प्रायिकता वितरण

वितरणों का विस्तारित एक घातीय समूह का सामान्यीकरण है तथा वितरणों का घातीय विस्तार मॉडल है और इसमें संभाव्यता वितरण के वे समूह सम्मिलित हैं जिन्हें और द्वारा परिचालित किया गया है एवं जिनके घनत्व कार्य को f के रूप में व्यक्त किया जा सकता है

सामान्यतः परिक्षेपण पैरामीटर ज्ञात होता है और वितरण के प्रसरण से संबंधित होता है। कार्य , , , और ज्ञात हैं। इस परिवार में सामान्य, घातीय, गामा, पॉसॉन, बर्नौली और (परीक्षणों की निश्चित संख्या के लिए) द्विपद, बहुपद और ऋणात्मक द्विपद सहित अनेक सामान्य वितरण हैं।

यह अदिश और के लिए( इस स्थिति में और को किया गया है) कम हो जाता है

वितरण के माध्य से संबंधित है। अगर तत्समक फलन है, तो वितरण को विहित रूप (या प्राकृतिक रूप) में कहा जाता है। ध्यान दें कि किसी भी वितरण को के रूप में पुनर्लेखन और पुनः रूपांतरण अनप्रयुक्‍त करके विहित रूप में परिवर्तित किया जा सकता है। को नए पैरामीट्रिजेशन के संदर्भ में परिवर्तित करना हमेशा संभव होता है, यद्यपि एकैक फलन नहीं है; घातीय परिवारों पर पृष्ठ में टिप्पणियाँ देखें। यदि, इसके अतिरिक्त तत्समक और ज्ञात है, तो को विहित पैरामीटर (या प्राकृतिक पैरामीटर) कहा जाता है और माध्य से संबंधित होता है।

यह अदिश और के लिए कम हो जाता है

इस परिदृश्य के अंतर्गत वितरण के प्रसरण को प्रदर्शित किया जा सकता है[2]

यह अदिश और के लिए कम हो जाता है


रैखिक प्राग्सूचक

रैखिक प्राग्सूचक वह मात्रा है जो मॉडल में स्वतंत्र चर के विषय में सूचना सम्मिलित करती है। प्रतीक η (ग्रीक वर्णमाला ईटीए(अक्षर)) एक रेखीय प्राग्सूचक को दर्शाता है। यह संबंध फलन के माध्यम से डेटा के अपेक्षित मान से संबंधित है।

η को अज्ञात पैरामीटर 'β' के रैखिक संयोजनों (इस प्रकार "रैखिक") के रूप में व्यक्त किया जाता है। रैखिक संयोजन के गुणांकों को स्वतंत्र चर 'X' के आव्यूह के रूप में दर्शाया जाता है। η इस प्रकार व्यक्त किया जा सकता है


संबंध फलन

संबंध फलन रैखिक प्राग्सूचक और वितरण फलन के माध्य के बीच संबंध प्रदान करता है। सामान्य रूप से उपयोग किए जाने वाले अनेक संबंध फलन हैं और उनके विकल्प को अनेक कारणों से सूचित किया जाता है। सदैव स्पष्ट एवं पूर्ण रूप से परिभाषित विहित संबंध जो प्रतिक्रिया के घनत्व फ़ंक्शन के घातांक से प्राप्त होता है, फलन कहलाता है। हालाँकि कुछ स्थितियों में यह बोध होता है कि संबंध फलन के डोमेन को वितरण फलन के माध्य की सीमा से मिलान करने का प्रयास करें या एल्गोरिथम उद्देश्यों के लिए गैर विहित संबंध फलन का उपयोग करें, उदाहरण के लिए बायेसियन प्रोबिट रिग्रेशन।

विहित पैरामीटर के साथ वितरण फलन का उपयोग करते समय विहित संबंध फलन वह फलन है जो , के संदर्भ में को व्यक्त करता है अर्थात । अधिकतर सामान्य वितरणों हेतु माध्य वितरण के घनत्व फलन के मानक रूप के मापदंडों में से एक है और इसके पश्चात वह फ़ंक्शन है जो घनत्व फलन को उसके विहित रूप में योजित करता है, जैसा कि ऊपर परिभाषित किया गया है। विहित संबंध फलन , का उपयोग करते समय जो को के लिए पर्याप्त आंकड़ा होने की अनुमति देता है।

सामान्य उपयोग में कई घातीय-पारिवारिक वितरणों की निम्नलिखित तालिका है और सामान्यत: वे डेटा जो विहित संबंध फलन और उनके व्युत्क्रमों के साथ उपयोग किए जाते हैं (कभी-कभी यहां किए गए माध्य फलन के रूप में संदर्भित होते हैं)।

विशिष्ट उपयोगों और विहित संबंध कार्यों के साथ सामान्य वितरण
वितरण वितरण सहायता विशिष्ट उपयोग लिंक नाम संबंध फलन, माध्य फलन
सामान्य वास्तविक: रैखिक-प्रतिक्रिया तथ्य तत्समक
घातीय वास्तविक: घातीय-प्रतिक्रिया तथ्य, स्केल पैरामीटर नकारात्मक व्युत्क्रमण
गामा
गाउसी

व्युत्क्रमण

वास्तविक: व्युत्क्रमण
वर्ग
प्वासों पूर्णांक: समय/स्थान की निश्चित मात्रा में घटनाओं की गणना लॉग
बर्नूली पूर्णांक: एकल घटना का परिणाम हाँ/नहीं लॉगआईटी
द्विपद पूर्णांक: N घटनाओं में से हां/नहीं में "हां" की घटनाओं की गणना
श्रेणीकृत पूर्णांक: एकल घटना के-पथ का परिणाम
पूर्णांक का K-वेक्टर: , जहां वेक्टर में ठीक एक तत्व का मान 1 है
बहुपदी पूर्णांक का K-वेक्टर: के-वे घटनाओं में से विभिन्न प्रकार (1 .. के) की कुल N घटनाओं की संख्या

घातांकी और गामा वितरण के स्थिति में, विहित संबंध फलन का प्रक्षेत्र माध्य की अनुमत सीमा के समान नहीं है। विशेष रूप से, रैखिक प्राग्वक्ता सकारात्मक हो सकता है, जो एक असंभव नकारात्मक माध्य देगा। संभाव्यता को अधिकतम करते समय, परिवर्जन के लिए सावधानी रखनी चाहिए। गैर-विहित संबंध फलन का उपयोग करना एक विकल्प है।

बर्नौली, द्विपद, श्रेणीबद्ध और बहुपद वितरण के स्थिति में, वितरण का समर्थन उसी प्रकार का डेटा नहीं है जैसा कि प्राचल की प्रागुक्त की जा रही है। इन सभी स्थितियों में, प्रागुक्त प्राचल एक या अधिक संभावनाएँ हैं,अर्थात वास्तविक संख्याएँ परिसर [0,1] में हैं। परिणामी प्रतिदर्श को लॉजिस्टिक रिग्रेशन (या बहुराष्ट्रीय रसद प्रतिगमन के रूप में जाना जाता है, जिसमें बाइनरी वैल्यू के स्थान पर के-वे की प्रागुक्त की जा रही है)।

बर्नौली और द्विपद वितरण के लिए, प्राचल एकल संभावना है, जो एकल वृत्तांत के घटित होने की संभावना को दर्शाता है। बर्नौली सामान्यीकृत रैखिक मॉडल की आधारिक स्थिति को भी संतुष्ट करता है, यद्यपि एकल परिणाम सदैव 0 या 1 हो, फिर भी अपेक्षित मूल्य एक वास्तविक-मूल्यवान प्रायिकता होगा, अर्थात "हाँ" (या 1) परिणाम की प्राप्ति की संभावना अधिक होगी। इसी तरह द्विपद वितरण में, अपेक्षित मान एनपी है, अर्थात "हाँ" परिणामों के अपेक्षित अनुपात प्रागुक्त की जाने वाली संभावना होगी।

श्रेणीबद्ध और बहुपदी वितरण के लिए, भविष्यवाणी की जाने वाली पैरामीटर संभावनाओं का एक के-वेक्टर है, जिसमें आगे प्रतिबंध है कि सभी संभावनाओं को 1 तक जोड़ना चाहिए। प्रत्येक संभावना के संभावित मूल्यों में से एक की प्राप्ति की संभावना को इंगित करती है। बहुपदी वितरण के लिए और श्रेणीबद्ध वितरण के सदिश रूप के लिए, सदिश के तत्वों के अपेक्षित मूल्यों को द्विपद और बर्नौली वितरण के समान प्रागुक्त संभावनाओं से संबंधित किया जा सकता है।

अन्वायोजन

अधिकतम संभाविता

प्ररूप के अद्यतन के साथ पुनरावृत्त रूप से भारित न्यूनतम वर्ग कलनविधि या न्यूटन की विधि का उपयोग करके अधिकतम संभाव्यता का अनुमान लगाया जा सकता है:

जहाँ अवलोकित सूचना आव्यूह (हेसियन आव्यूह नकारात्मक) है और स्कोर फलन (सांख्यिकी) या फ़िशर की स्कोरिंग विधि है:

जहाँ फिशर सूचना आव्यूह है। ध्यान दें कि यदि विहित संबंध फलन का उपयोग किया जाता है तो वे समान होते हैं।

बायेसियन तरीके

सामान्यतः पश्च वितरण संवृत रूप में नहीं पाया जा सकता है और इसलिए इसे सामान्यतः लाप्लास सन्निकटन या कुछ प्रकार की मार्कोव श्रृंखला मोंटे कार्लो विधि जैसे गिब्स प्रतिचयन का उपयोग करके अनुमानित किया जाना चाहिए।

उदाहरण

सामान्य रैखिक मॉडल

संभ्रम का एक संभावित बिंदु सामान्यीकृत रैखिक मॉडल और सामान्य रैखिक मॉडल, दो व्यापक सांख्यिकीय मॉडल के बीच अंतर के साथ करना है। सह-प्रवर्तक जॉन नेल्डर ने इस शब्दावली पर खेद व्यक्त किया है।[3]

सामान्य रेखीय मॉडल को सामान्यीकृत रेखीय मॉडल के एक विशेष स्थिति के रूप में देखा जा सकता है जिसमें पहचान संबंध और सामान्य रूप से वितरित प्रतिक्रियाएं होती हैं। जैसा कि सबसे सटीक प्रेरित परिणाम केवल सामान्य रेखीय मॉडल के लिए प्राप्त होते हैं, सामान्य रेखीय मॉडल में कुछ अधिक समय से ऐतिहासिक विकास हुआ है। गैर-पहचान संबंध वाले सामान्यीकृत रैखिक मॉडल के परिणाम स्पर्शोन्मुख हैं (बड़े नमूनों के साथ सटीकता से काम करने की प्रवृत्ति)।

रेखीय प्रतिगमन

सामान्यीकृत रैखिक मॉडल का एक सरल अधिक महत्वपूर्ण उदाहरण (सामान्य रैखिक मॉडल का भी एक उदाहरण) रेखीय प्रतिगमन है। रेखीय प्रतिगमन में गॉस-मार्कोव प्रमेय द्वारा न्यूनतम-वर्ग अनुमानक का उपयोग उचित है, जो यह नहीं मानता है कि वितरण सामान्य है।

यद्यपि, सामान्यीकृत रैखिक मॉडल के परिप्रेक्ष्य से यह मान लेना उपयोगी है कि वितरण फलन निरंतर विचरण के साथ सामान्य वितरण है और संबंध फलन पहचान है, जो विचरण ज्ञात होने पर विहित संबंध है। इन मान्यताओं के अंतर्गत, न्यूनतम-वर्ग अनुमानक को अधिकतम-संभावना प्राचल अनुमान के रूप में प्राप्त किया जाता है।

सामान्य वितरण के लिए, सामान्यीकृत रैखिक मॉडल में अधिकतम-संभावना अनुमानों के लिए एक सुविधाजनक संवृत रूप अभिव्यक्ति है। अधिकांश अन्य जीएलएम में संवृत रूप अनुमानों का अभाव होता है।

बाइनरी डेटा

जब प्रतिक्रिया डेटा Y बाइनरी होते हैं (केवल मान 0 और 1 लेते हैं), तो वितरण फलन को सामान्यतः बर्नौली वितरण के रूप में चुना जाता है और μi की व्याख्या तब Yi की प्रायिकता, p मान एक पर ले जाती है।

द्विपद फलन के लिए कई लोकप्रिय संबंध फलन हैं।

लॉगिट संबंध फलन

सबसे विशिष्ट संबंध फलन विहित लॉगिट संबंध है:

इस व्यवस्था के साथ जीएलएम लॉजिस्टिक रिग्रेशन मॉडल (या लॉगिट मॉडल) हैं।

प्रतिलोम संचयी बंटन फलन के लोकप्रिय विकल्प के रूप में प्रॉबिट संबंध फलन

वैकल्पिक रूप से, किसी भी निरंतर संचयी वितरण फलन (सीडीएफ) के व्युत्क्रम को संबंध के लिए उपयोग किया जा सकता है क्योंकि सीडीएफ की परिसर, द्विपद माध्य की परिसर हैं। सामान्य सीडीएफ एक लोकप्रिय विकल्प है और प्रोबिट मॉडल प्रतिफलन करता है। इसके संबंध है

प्रोबिट मॉडल के उपयोग का कारण यह है कि एक सामान्य सीडीएफ (जो सभी मापदंडों के समतुल्य मापन के माध्यम से अवशोषित किया जा सकता है) के लिए निवेश चर का निरंतर मापन एक फलन उत्पन्न करता है जो व्यावहारिक रूप से लॉगिट फलन के समान है, लेकिन प्रोबिट मॉडल लॉगिट मॉडल की तुलना में कुछ स्थितियों में अधिक सुविधाजनक होते हैं। (बायेसियन समायोजन में जिसमें सामान्य रूप से वितरित पूर्व वितरण को मापदंडों पर रखा जाता है, सामान्य प्रथम और सामान्य सीडीएफ संबंध फलन के बीच संबंध का अर्थ है कि गिब्स नमूनाकरण का उपयोग करके प्रोबिट मॉडल की गणना की जा सकती है, जबकि एक लॉगिट मॉडल सामान्यतः नहीं।)

समपूरक लॉग-लॉग (सी लॉग-लॉग)

समपूरक लॉग-लॉग फलन का भी उपयोग किया जा सकता है:

यह संबंध फलन असममित है और प्रायः लॉगिट और प्रोबिट संबंध फलन से भिन्न परिणाम देगा।[4] सी लॉग-लॉग मॉडल उन अनुप्रयोगों के अनुरूप होता है जहां हम या तो शून्य परिघटनाओं (जैसे, त्रुटि) या एक या अधिक का निरीक्षण करते हैं, जहां पॉसों वितरण का पालन करने के लिए परिघटनाओं की संख्या मान ली जाती है।[5] पॉसों अवधारणा का अर्थ है कि

जहां μ एक सकारात्मक संख्या है जो परिघटनाओं की अपेक्षित संख्या को दर्शाती है। यदि पी कम से कम एक परिघटना के साथ टिप्पणियों के अनुपात का प्रतिनिधित्व करता है, तो इसका समपूरक

और तब

एक रैखिक मॉडल को संपूर्ण वास्तविक रेखा पर मान लेने के लिए प्रतिक्रिया चर की आवश्यकता होती है। चूँकि μ धनात्मक होना चाहिए, हम इसे लघुगणक लेकर लागू कर सकते हैं, और log(μ) को एक रेखीय मॉडल बना सकते हैं। यह "सी लॉग-लॉग" परिवर्तन उत्पन्न करता है


तत्समक संबंध

तत्समक संबंध g(p) = p का उपयोग कभी-कभी द्विपद डेटा के लिए रेखीय संभावना मॉडल प्राप्त करने के लिए भी किया जाता है। यद्यपि, तत्समक संबंध शून्य से कम या एक से अधिक निरर्थक "संभावनाओं" का प्रागुक्त कर सकता है। इसे सी लॉग-लॉग, प्रोबिट या लॉगिट (या किसी व्युत्क्रम संचयी वितरण फलन) जैसे परिवर्तन का उपयोग करके परिहार किया जा सकता है। तत्समक संबंध का एक प्राथमिक गुण यह है कि इसे रेखीय गणित का उपयोग करके अनुमान लगाया जा सकता है - और अन्य मानक संबंध फलन  पी = 0.5 के निकट तत्समक संबंध से प्रायः रैखिक अनुकूल होते हैं।

प्रसरण फलन

"अर्ध द्विपद" डेटा के लिए प्रसरण फलन है:

जहां वितरण मापदण्ड τ द्विपद वितरण के लिए यथार्थतः 1 है। वास्तव में, मानक द्विपद संभावना τ विलोपित कर देती है। इसकी उपस्थिति में, मॉडल को "अर्ध द्विपद" कहा जाता है, और संशोधित संभावना को अर्ध -संभावना कहा जाता है, क्योंकि यह सामान्यतः संभाव्यता वितरण के किसी भी वास्तविक परिवार से संबंधित संभावना नहीं है। यदि τ1 से अधिक है, तो मॉडल अतिवितरण प्रदर्शित करता है।

बहुपद प्रतिगमन

प्रतिक्रिया के रूप में एक बहुपदि वितरण की अनुमति देने के लिए द्विपद स्थिति को सरलता से बढ़ाया जा सकता है (साथ ही, सीमित कुल के साथ गणना के लिए एक सामान्यीकृत रैखिक मॉडल)। यह प्रायः दो तरीकों से किया जाता है:

क्रमित प्रतिक्रिया

यदि प्रतिक्रिया चर क्रमिक है, तो मॉडल फलन को इस प्रारूप में रखा जा सकता है:

m > 2 के लिए। विभिन्न संबंध g क्रमिक प्रतिगमन की ओर ले जाते हैं जैसे आनुपातिक ऑड्स मॉडल या क्रमित प्रोबिट मॉडल।

अक्रमित प्रतिक्रिया

यदि प्रतिक्रिया चर एक नाममात्र माप है, या डेटा एक क्रमित मॉडल की धारणाओं को पूरा नहीं करता है, तो निम्न प्रारूप का एक मॉडल उपयुक्त हो सकता है:

m > 2 के लिए। विभिन्न संबंध g बहुपदि लॉगिट या बहुपदि प्रोबिट मॉडल की ओर ले जाते हैं। ये क्रमित प्रतिक्रिया मॉडल की तुलना में अधिक सामान्य और पैरामीटर अनुमानित हैं।

डेटा गणना

सामान्यीकृत रेखीय मॉडलों के एक अन्य उदाहरण में पॉसों प्रतिगमन सम्मिलित है, जो पॉसों वितरण का उपयोग करके डेटा गणना का प्रतिरूपण करते हैं। संबंध विशेष रूप से लघुगणक, विहित संबंध है। विचरण फलन माध्य के समानुपाती होता है

जहां वितरण मापदण्ड τ विशेष रूप से ठीक एक पर तय किया जाता है। इसके ना होने पर परिणामी अर्ध-संभावना मॉडल को प्रायः अतिवितरण के साथ पॉसों या अर्ध-पॉसों के रूप में वर्णित किया जाता है ।

विस्तारण (एक्सटेंशन)

सहसंबद्ध या संकुल डेटा

मानक जीएलएम मानता है कि अवलोकन असंबद्ध हैं। अवलोकनों के बीच सहसंबंध की अनुमति देने के लिए एक्सटेंशन विकसित किए गए हैं, उदाहरण के लिए अनुदैर्ध्य अध्ययन और गुच्छ अभिकल्पनाओं में होता है:

  • सामान्यीकृत अनुमान समीकरण (जीईई) सहसंबंधों की उत्पत्ति के लिए एक स्पष्ट संभाव्यता मॉडल के उपयोग के बिना टिप्पणियों के बीच सहसंबंध की अनुमति देते हैं, इसलिए कोई स्पष्ट संभावना नहीं है। वे तब उपयुक्त होते हैं जब यादृच्छिक प्रभाव और उनके प्रसरण अंतर्निहित रुचि के नहीं होते हैं, क्योंकि वे इसकी उत्पत्ति की व्याख्या किए बिना सहसंबंध की अनुमति देते हैं। प्रतिगमन मापदंडों के बजाय जनसंख्या पर औसत प्रतिक्रिया ("जनसंख्या-औसत" प्रभाव) का अनुमान लगाने पर ध्यान केंद्रित किया गया है जो किसी वैयक्तिक पर एक्स के एक या अधिक घटकों को परिवर्तन करने के प्रभाव की प्रागुक्ति को सक्षम करेगा। जीईई का उपयोग प्रायः ह्यूबर-व्हाइट मानक त्रुटियों के संयोजन में किया जाता है।[6][7]
  • [[सामान्यीकृत रैखिक मिश्रित मॉडल]] जीएलएम का एक विस्तार है जिसमें रैखिक पूर्वसूचक में अनियमित प्रभाव सम्मिलित हैं जो स्पष्ट संभाव्यता मॉडल देता है जो सहसंबंधों की उत्पत्ति की व्याख्या करता है। परिणामी "विषय-विशिष्ट" पैरामीटर अनुमान तब उपयुक्त होते हैं जब किसी दिए गए व्यक्ति पर एक्स के एक या अधिक घटकों  के परिवर्तन के प्रभाव का आकलन करने पर होता केंद्रित होता है। जीएलएमएम को बहुस्तरीय मॉडल और मिश्रित मॉडल भी कहा जाता है। सामान्यतः जीएलएमएम को फिट करना जीईई को फिट करने की तुलना में अभिकलनात्मक रूप से अधिक जटिल और गहन है।

सामान्यीकृत योगात्मक मॉडल

सामान्यीकृत योगात्मक मॉडल (जीएएम) जीएलएम का एक और विस्तार है जिसमें रैखिक प्राग्वक्ता η सहसंयोजक 'X' में रैखिक होने के लिए प्रतिबंधित नहीं है, लेकिन xis पर प्रयुक्त मसृणकारी फलन का योग है:

मसृणकारी फलन fi का अनुमान डेटा से लगाया जाता है। सामान्यतः इसके लिए बड़ी संख्या में डेटा बिंदुओं की आवश्यकता होती है और यह अभिकलनीयतः गहन है।[8]

यह भी देखें

संदर्भ

उद्धरण

  1. Nelder, John; Wedderburn, Robert (1972). "सामान्यीकृत रैखिक मॉडल". Journal of the Royal Statistical Society. Series A (General). Blackwell Publishing. 135 (3): 370–384. doi:10.2307/2344614. JSTOR 2344614. S2CID 14154576.
  2. McCullagh & Nelder 1989, Chapter 2.
  3. Senn, Stephen (2003). "जॉन नेल्डर के साथ बातचीत". Statistical Science. 18 (1): 118–131. doi:10.1214/ss/1056397489. मुझे संदेह है कि हमें इसके लिए कुछ और फैंसी नाम मिलना चाहिए था जो अटक गया होगा और सामान्य रैखिक मॉडल के साथ भ्रमित नहीं होगा, हालांकि सामान्य और सामान्यीकृत काफी समान नहीं हैं। मैं देख सकता हूं कि क्यों कुछ और सोचना बेहतर होता।
  4. "Complementary Log-log Model" (PDF).
  5. "Which Link Function — Logit, Probit, or Cloglog?". Bayesium Analytics (in English). 2015-08-14. Retrieved 2019-03-17.
  6. Zeger, Scott L.; Liang, Kung-Yee; Albert, Paul S. (1988). "Models for Longitudinal Data: A Generalized Estimating Equation Approach". Biometrics. International Biometric Society. 44 (4): 1049–1060. doi:10.2307/2531734. JSTOR 2531734. PMID 3233245.
  7. Hardin, James; Hilbe, Joseph (2003). सामान्यीकृत अनुमान समीकरण. London, England: Chapman and Hall/CRC. ISBN 1-58488-307-3.
  8. Wood 2006.


ग्रन्थसूची


अग्रिम पठन


बाहरी संबंध