सामान्यीकृत रैखिक मॉडल

From Vigyanwiki

सांख्यिकी में, एक सामान्यीकृत रेखीय मॉडल (जीएलएम) साधारण रेखीय प्रतिगमन का एक नमन्शील व्यापकीकरण है। जीएलएम रैखिक प्रतिगमन को 'संबंध फलन' के माध्यम से प्रतिक्रिया चर से संबंधित होने के लिए रैखिक मॉडल की अनुमति देकर और प्रत्येक माप के विचरण के परिमाण को उसके अनुमानित मूल्य के कार्य होने की अनुमति देकर सामान्यीकृत करता है।

जॉन नेल्डर और रॉबर्ट वेडरबर्न द्वारा रैखिक प्रतिगमन, लॉजिस्टिक प्रतिगमन और पॉइसन प्रतिगमन सहित कई अन्य सांख्यिकीय मॉडल को एकीकृत करने के तरीके के रूप में सामान्यीकृत रैखिक मॉडल सूत्रित किए गए थे।[1] उन्होंने मॉडल मापदंडों के अधिकतम संभाविता आकलन (एमएलई) के लिए पुनरावृत्त रूप से न्यूनतम वर्ग विधि का प्रस्ताव दिया। अनेक सांख्यिकीय अभिकलन संकुल (कंप्यूटिंग पैकेज) पर डिफ़ॉल्ट विधि है इसलिए अधिकतम संभाविता आकलन लोकप्रिय बना हुआ है। बायेसियन प्रतिगमन और विचरण-स्थिरीकरण परिवर्तन प्रतिक्रियाओं के लिए न्यूनतम वर्ग अन्वायोजन सहित अन्य दृष्टिकोण विकसित किए गए हैं।

अन्तर्ज्ञान

साधारण रेखीय प्रतिगमन प्रेक्षित मानों (भविष्यवक्ताओं) के एक समुच्चय के रैखिक संयोजन के रूप में दी गई अज्ञात मात्रा (प्रतिक्रिया चर, एक यादृच्छिक चर) के अपेक्षित मूल्य की पूर्वानुमान करता है। इसका तात्पर्य है कि प्राग्सूचक में निरंतर परिवर्तन से प्रतिक्रिया चर (अर्थात एक रैखिक-प्रतिक्रिया मॉडल) में निरंतर परिवर्तन होता है। यह उचित है जब प्रतिक्रिया चर किसी भी दिशा में अनिश्चित काल के लिए या किसी भी मात्रा के लिए सामान्यतः एक अच्छे सन्निकटन में भिन्न हो सकता है जो केवल अनुमानित चर जैसे मानव ऊंचाई में भिन्नता की तुलना में अपेक्षाकृत छोटी राशि से भिन्न होता है।

हालाँकि, ये धारणाएँ कुछ प्रकार के प्रतिक्रिया चर के लिए अनुपयुक्त हैं। उदाहरण के लिए, ऐसे मामलों में जहां प्रतिक्रिया चर हमेशा सकारात्मक होने की उम्मीद की जाती है और एक विस्तृत श्रृंखला में बदलती रहती है, निरंतर इनपुट परिवर्तनों से ज्यामितीय रूप से (अर्थात घातीय रूप से) भिन्नता होती है, बजाय निरंतर भिन्न होने के, आउटपुट में परिवर्तन होता है। एक उदाहरण के रूप में, मान लीजिए कि एक रेखीय भविष्यवाणी मॉडल कुछ डेटा (शायद मुख्य रूप से बड़े समुद्र तटों से खींचा गया) से सीखता है कि 10 डिग्री तापमान में कमी से समुद्र तट पर 1,000 कम logit आएंगे। यह मॉडल विभिन्न आकार के समुद्र तटों पर अच्छी तरह से सामान्यीकृत होने की संभावना नहीं है। अधिक विशेष रूप से, समस्या यह है कि यदि आप समुद्र तट के लिए 10 की तापमान गिरावट के साथ नई उपस्थिति की भविष्यवाणी करने के लिए मॉडल का उपयोग करते हैं जो नियमित रूप से 50 समुद्र तट प्राप्त करता है, तो आप -950 के एक असंभव उपस्थिति मूल्य की भविष्यवाणी करेंगे। तार्किक रूप से, एक अधिक यथार्थवादी मॉडल इसके बजाय बढ़ी हुई समुद्र तट की उपस्थिति की निरंतर दर की भविष्यवाणी करेगा (उदाहरण के लिए 10 डिग्री की वृद्धि से समुद्र तट की उपस्थिति दोगुनी हो जाती है, और 10 डिग्री की गिरावट उपस्थिति में कमी की ओर ले जाती है)। इस तरह के एक मॉडल को एक घातीय-प्रतिक्रिया मॉडल (या लॉग-लीनियर मॉडल कहा जाता है, क्योंकि प्रतिक्रिया के लघुगणक को रैखिक रूप से भिन्न होने की भविष्यवाणी की जाती है)।

इसी तरह, एक मॉडल जो हां/नहीं विकल्प (एक बर्नौली वितरण) बनाने की संभावना की भविष्यवाणी करता है, रैखिक-प्रतिक्रिया मॉडल के रूप में भी कम उपयुक्त है, क्योंकि संभावनाएं दोनों सिरों पर बंधी हैं (वे 0 और 1 के बीच होनी चाहिए)। उदाहरण के लिए, एक मॉडल की कल्पना करें जो किसी दिए गए व्यक्ति के समुद्र तट पर तापमान के कार्य के रूप में जाने की संभावना की भविष्यवाणी करता है। उदाहरण के लिए, एक उचित मॉडल भविष्यवाणी कर सकता है कि 10 डिग्री में बदलाव से किसी व्यक्ति के समुद्र तट पर जाने की संभावना दो गुना अधिक या कम हो जाती है। लेकिन संभाव्यता के मामले में दुगनी संभावना का क्या मतलब है? इसका शाब्दिक अर्थ संभाव्यता मान को दोगुना करना नहीं हो सकता (उदाहरण के लिए 50% 100% हो जाता है, 75% 150% हो जाता है, आदि)। बल्कि, यह ऑड्स अनुपात है जो दोगुना हो रहा है: 2:1 ऑड्स से, 4:1 ऑड्स से, 8:1 ऑड्स, आदि। ऐसा मॉडल लॉग-ऑड्स या लॉजिस्टिक रिग्रेशन मॉडल है।

सामान्यीकृत रेखीय मॉडल इन सभी स्थितियों को प्रतिक्रिया चर के लिए अनुमति देकर कवर करते हैं, जिसमें मनमाना वितरण होता है (सामान्य वितरण के बजाय), और प्रतिक्रिया चर के एक मनमाना कार्य के लिए (संबंध फलन) भविष्यवाणियों के साथ रैखिक रूप से भिन्न होता है (यह मानने के बजाय कि प्रतिक्रिया स्वयं रैखिक रूप से भिन्न होनी चाहिए)। उदाहरण के लिए, समुद्र तट पर उपस्थित लोगों की अनुमानित संख्या के ऊपर के मामले को आमतौर पर पॉइसन वितरण और एक लॉग लिंक के साथ तैयार किया जाएगा, जबकि समुद्र तट उपस्थिति की अनुमानित संभावना के मामले को आमतौर पर बर्नौली वितरण (या द्विपद वितरण, बिल्कुल के आधार पर) के साथ तैयार किया जाएगा। समस्या को कैसे व्यक्त किया जाता है) और एक लॉग-ऑड्स (या लॉगिट) संबंध फलन।

सिंहावलोकन

एक सामान्यीकृत रैखिक मॉडल (जीएलएम) में निर्भर चर के प्रत्येक परिणाम Y को एक घातीय परिवार में एक विशेष वितरण से उत्पन्न माना जाता है, प्रायिकता वितरण का एक बड़ा वर्ग जिसमें सामान्य वितरण, द्विपद वितरण, पॉइसन वितरण और गामा सम्मिलित होते हैं। वितरण का माध्य μ, स्वतंत्र चर X पर निर्भर करता है, इसके माध्यम से:

जहां E(Y|X) X पर सशर्त Y का अपेक्षित मान है; Xβ रैखिक प्राग्सूचक है, अज्ञात पैरामीटर्स का एक रैखिक संयोजन β; g संबंध फलन है।

इस संरचना में प्रसरण आमतौर पर माध्य का एक कार्य V होता है:

यह सुविधाजनक है यदि वी वितरण के एक घातीय समूह से आता है परंतु यह हो सकता है कि भिन्नता अनुमानित माप का फंक्शन है।

सामान्यतः अज्ञात पैरामीटर β, अधिकतम संभावना, अधिकतम अर्ध-संभावना या बायेसियन तकनीकों के साथ अनुमान लगाया जाता है।

मॉडल घटक

जीएलएम में तीन तत्व होते हैं:

1. मॉडलिंग के लिए उनमें से एक विशेष वितरण जिन्हें संभाव्यता वितरण के घातीय परिवार माना जाता है,
2. एक रैखिक प्राग्सूचक , और
3. एक शृंखला बंध फलन ऐसा है कि .

प्रायिकता वितरण

वितरणों का विस्तारित घातीय समूह एक घातीय समूह का सामान्यीकरण है तथा वितरणों का घातीय विस्तार मॉडल है और इसमें संभाव्यता वितरण के वे समूह सम्मिलित हैं जिन्हें और , द्वारा परिचालित किया गया है एवं जिनके घनत्व कार्य को f के रूप में व्यक्त किया जा सकता है

सामान्यतः परिक्षेपण पैरामीटर , ज्ञात होता है और वितरण के प्रसरण से संबंधित होता है। कार्य , , , और ज्ञात हैं। इस परिवार में सामान्य, घातीय, गामा, पॉसॉन, बर्नौली और (परीक्षणों की निश्चित संख्या के लिए) द्विपद, बहुपद और ऋणात्मक द्विपद सहित कई सामान्य वितरण हैं।

यह अदिश और के लिए( इस स्थिति में और को किया गया है) कम हो जाता है

वितरण के माध्य से संबंधित है। अगर तत्समक फलन है, तो वितरण को विहित रूप (या प्राकृतिक रूप) में कहा जाता है। ध्यान दें कि किसी भी वितरण को के रूप में पुनर्लेखन और पुनः रूपांतरण अनप्रयुक्‍त करके विहित रूप में परिवर्तित किया जा सकता है। को नए पैरामीट्रिजेशन के संदर्भ में परिवर्तित करना हमेशा संभव होता है, यद्यपि एकैक फलन नहीं है; घातीय परिवारों पर पृष्ठ में टिप्पणियाँ देखें। यदि, इसके अतिरिक्त तत्समक और ज्ञात है, तो को विहित पैरामीटर (या प्राकृतिक पैरामीटर) कहा जाता है और माध्य से संबंधित होता है।

यह अदिश और के लिए कम हो जाता है

इस परिदृश्य के अंतर्गत वितरण के प्रसरण को प्रदर्शित किया जा सकता है[2]

यह अदिश और के लिए कम हो जाता है


रैखिक प्राग्सूचक

रैखिक प्राग्सूचक वह मात्रा है जो मॉडल में स्वतंत्र चर के विषय में सूचना सम्मिलित करती है। प्रतीक η (ग्रीक वर्णमाला ईटीए(अक्षर)) एक रेखीय प्राग्सूचक को दर्शाता है। यह संबंध फलन के माध्यम से डेटा के अपेक्षित मान से संबंधित है।

η को अज्ञात पैरामीटर 'β' के रैखिक संयोजनों (इस प्रकार "रैखिक") के रूप में व्यक्त किया जाता है। रैखिक संयोजन के गुणांकों को स्वतंत्र चर 'X' के आव्यूह के रूप में दर्शाया जाता है। η इस प्रकार व्यक्त किया जा सकता है


लिंक समारोह

संबंध फलन रैखिक प्राग्सूचक और वितरण फलन के माध्य के बीच संबंध प्रदान करता है। सामान्य रूप से उपयोग किए जाने वाले अनेक संबंध फलन हैं और उनके विकल्प को अनेक कारणों से सूचित किया जाता है। सदैव पूर्णतः स्पष्ट रूप से परिभाषित कैनोनिकल संबंध फलन होता है जो प्रतिक्रिया के घनत्व फ़ंक्शन के घातांक से प्राप्त होता है। हालाँकि कुछ स्थितियों में यह बोध होता है कि संबंध फलन के डोमेन को वितरण फलन के माध्य की सीमा से मिलान करने का प्रयास करें या एल्गोरिथम उद्देश्यों के लिए गैर विहित संबंध फलन का उपयोग करें, उदाहरण के लिए बायेसियन प्रोबिट रिग्रेशन।

कैननिकल पैरामीटर के साथ वितरण फलन का उपयोग करते समय कैनोनिकल संबंध फलन वह फलन है जो , के संदर्भ में को व्यक्त करता है अर्थात सबसे आम वितरण के लिए, माध्य वितरण के घनत्व समारोह के मानक रूप में मापदंडों में से एक है, और फिर जैसा कि ऊपर परिभाषित किया गया है, वह फ़ंक्शन है जो घनत्व फ़ंक्शन को उसके विहित रूप में मैप करता है। कैननिकल संबंध फलन , का उपयोग करते समय जो को के लिए पर्याप्त आंकड़ा होने की अनुमति देता है।

सामान्य उपयोग में कई घातीय-पारिवारिक वितरणों की निम्नलिखित तालिका है और सामान्यत: वे डेटा जो विहित संबंध फलन और उनके व्युत्क्रमों के साथ उपयोग किए जाते हैं (कभी-कभी यहां किए गए माध्य फलन के रूप में संदर्भित होते हैं)।

विशिष्ट उपयोगों और विहित संबंध कार्यों के साथ सामान्य वितरण
वितरण वितरण सहायता विशिष्ट उपयोग लिंक नाम संबंध फलन, माध्य फलन
सामान्य वास्तविक: रैखिक-प्रतिक्रिया तथ्य तत्समक
घातीय वास्तविक: घातीय-प्रतिक्रिया तथ्य, स्केल पैरामीटर नकारात्मक व्युत्क्रमण
गामा
गाउसी

व्युत्क्रमण

वास्तविक: व्युत्क्रमण
वर्ग
प्वासों पूर्णांक: समय/स्थान की निश्चित मात्रा में घटनाओं की गणना लॉग
बर्नूली पूर्णांक: एकल घटना का परिणाम हाँ/नहीं लॉगआईटी
द्विपद पूर्णांक: N घटनाओं में से हां/नहीं में "हां" की घटनाओं की गणना
श्रेणीकृत पूर्णांक: एकल घटना के-पथ का परिणाम
पूर्णांक का K-वेक्टर: , जहां वेक्टर में ठीक एक तत्व का मान 1 है
बहुपदी पूर्णांक का K-वेक्टर: के-वे घटनाओं में से विभिन्न प्रकार (1 .. के) की कुल N घटनाओं की संख्या

घातांकी और गामा वितरण के स्थिति में, विहित संबंध फलन का प्रक्षेत्र माध्य की अनुमत सीमा के समान नहीं है। विशेष रूप से, रैखिक प्राग्वक्ता सकारात्मक हो सकता है, जो एक असंभव नकारात्मक माध्य देगा। संभाव्यता को अधिकतम करते समय, परिवर्जन के लिए सावधानी रखनी चाहिए। गैर-विहित संबंध फलन का उपयोग करना एक विकल्प है।

बर्नौली, द्विपद, श्रेणीबद्ध और बहुपद वितरण के स्थिति में, वितरण का समर्थन उसी प्रकार का डेटा नहीं है जैसा कि प्राचल की प्रागुक्त की जा रही है। इन सभी स्थितियों में, प्रागुक्त प्राचल एक या अधिक संभावनाएँ हैं, यानी वास्तविक संख्याएँ परिसर [0,1] में हैं। परिणामी प्रतिदर्श को लॉजिस्टिक रिग्रेशन (या बहुराष्ट्रीय रसद प्रतिगमन के रूप में जाना जाता है, जिसमें बाइनरी वैल्यू के स्थान पर के-वे की प्रागुक्त की जा रही है)।

बर्नौली और द्विपद वितरण के लिए, प्राचल एकल संभावना है, जो एकल वृत्तांत के घटित होने की संभावना को दर्शाता है। बर्नौली सामान्यीकृत रैखिक मॉडल की आधारिक स्थिति को भी संतुष्ट करता है, चाहे एकल परिणाम सदैव 0 या 1 हो, फिर भी अपेक्षित मूल्य एक वास्तविक-मूल्यवान प्रायिकता होगा, अर्थात "हाँ" (या 1) परिणाम की प्राप्ति की संभावना। इसी तरह, द्विपद वितरण में, अपेक्षित मान एनपी है , यानी "हाँ" परिणामों के अपेक्षित अनुपात प्रागुक्त की जाने वाली संभावना होगी।

श्रेणीबद्ध और बहुपदी वितरण के लिए, प्रागुक्त प्राचल संभावनाओं का  के -सदिश है, अतिरिक्त प्रतिबंध के साथ कि सभी संभावनाओं को 1 तक योग किया जाना चाहिए। प्रत्येक संभावना के संभावित मूल्यों में से एक की प्राप्ति की संभावना को इंगित करती है। बहुपदी वितरण के लिए, और श्रेणीबद्ध वितरण के सदिश रूप के लिए, सदिश के तत्वों के अपेक्षित मूल्यों को द्विपद और बर्नौली वितरण के समान प्रागुक्त संभावनाओं से संबंधित किया जा सकता है।

अन्वायोजन

अधिकतम संभाविता

प्ररूप के अद्यतन के साथ पुनरावृत्त रूप से भारित न्यूनतम वर्ग कलनविधि या न्यूटन की विधि का उपयोग करके अधिकतम संभाव्यता का अनुमान लगाया जा सकता है :

जहाँ अवलोकित सूचना आव्यूह (हेसियन आव्यूह नकारात्मक) है और स्कोर फलन (सांख्यिकी) या फ़िशर की स्कोरिंग विधि है:

जहाँ फिशर सूचना आव्यूह है। ध्यान दें कि यदि विहित संबंध फलन का उपयोग किया जाता है तो वे समान होते हैं।

बायेसियन तरीके

सामान्यतः पश्च वितरण संवृत रूप में नहीं पाया जा सकता है और इसलिए इसे सामान्यतः लाप्लास सन्निकटन या कुछ प्रकार की मार्कोव श्रृंखला मोंटे कार्लो विधि जैसे गिब्स प्रतिचयन का उपयोग करके अनुमानित किया जाना चाहिए।

उदाहरण

सामान्य रैखिक मॉडल

संभ्रम का एक संभावित बिंदु सामान्यीकृत रैखिक मॉडल और सामान्य रैखिक मॉडल, दो व्यापक सांख्यिकीय मॉडल के बीच अंतर के साथ करना है। सह-प्रवर्तक जॉन नेल्डर ने इस शब्दावली पर खेद व्यक्त किया है।[3]

सामान्य रेखीय मॉडल को सामान्यीकृत रेखीय मॉडल के एक विशेष स्थिति के रूप में देखा जा सकता है जिसमें पहचान संबंध और सामान्य रूप से वितरित प्रतिक्रियाएं होती हैं। जैसा कि सबसे सटीक प्रेरित परिणाम केवल सामान्य रेखीय मॉडल के लिए प्राप्त होते हैं, सामान्य रेखीय मॉडल में कुछ अधिक समय से ऐतिहासिक विकास हुआ है। गैर-पहचान संबंध वाले सामान्यीकृत रैखिक मॉडल के परिणाम स्पर्शोन्मुख हैं (बड़े नमूनों के साथ सटीकता से काम करने की प्रवृत्ति)।

रेखीय समाश्रयण

सामान्यीकृत रैखिक मॉडल का एक सरल, अधिक महत्वपूर्ण उदाहरण (सामान्य रैखिक मॉडल का भी एक उदाहरण) रैखिक समाश्रयण है । रैखिक समाश्रयण में, गॉस-मार्कोव प्रमेय द्वारा न्यूनतम-वर्ग अनुमानक का उपयोग उचित है , जो यह नहीं मानता है कि वितरण सामान्य है।

यद्यपि, सामान्यीकृत रैखिक मॉडल के परिप्रेक्ष्य से, यह मान लेना उपयोगी है कि वितरण फलन निरंतर विचरण के साथ सामान्य वितरण है और संबंध फलन पहचान है, जो विचरण ज्ञात होने पर विहित संबंध है। इन मान्यताओं के अंतर्गत, न्यूनतम-वर्ग अनुमानक को अधिकतम-संभावना प्राचल अनुमान के रूप में प्राप्त किया जाता है।

सामान्य वितरण के लिए, सामान्यीकृत रैखिक मॉडल में अधिकतम-संभावना अनुमानों के लिए एक सुविधाजनक संवृत रूप अभिव्यक्ति है। अधिकांश अन्य जीएलएम में संवृत रूप अनुमानों का अभाव होता है।

बाइनरी डेटा

जब प्रतिक्रिया डेटा, वाई, द्विआधारी होते हैं (केवल मान 0 और 1 लेते हैं), वितरण फ़ंक्शन को आम तौर पर बर्नौली वितरण और μ की व्याख्या के लिए चुना जाता हैi तब Y की प्रायिकता, p, हैi मान एक ले रहा है।

द्विपद कार्यों के लिए कई लोकप्रिय लिंक कार्य हैं।

लॉग इन संबंध फलन

सबसे विशिष्ट संबंध फलन कैनोनिकल लॉगिट लिंक है:

इस सेटअप के साथ जीएलएम लॉजिस्टिक रिग्रेशन मॉडल (या लॉगिट मॉडल) हैं।

प्रतिलोम संचयी बंटन फलन के लोकप्रिय विकल्प के रूप में प्रोबिट लिंक फंक्शन

वैकल्पिक रूप से, किसी भी निरंतर संचयी वितरण समारोह (सीडीएफ) के व्युत्क्रम को लिंक के लिए इस्तेमाल किया जा सकता है क्योंकि सीडीएफ की सीमा है , द्विपद माध्य की सीमा। सामान्य वितरण#संचयी वितरण फ़ंक्शन एक लोकप्रिय विकल्प है और प्रोबिट मॉडल देता है। इसकी कड़ी है

प्रोबिट मॉडल के उपयोग का कारण यह है कि एक सामान्य सीडीएफ (जो सभी मापदंडों के समतुल्य स्केलिंग के माध्यम से अवशोषित किया जा सकता है) के लिए इनपुट चर का एक निरंतर स्केलिंग एक फ़ंक्शन उत्पन्न करता है जो व्यावहारिक रूप से लॉगिट फ़ंक्शन के समान है, लेकिन प्रोबिट लॉग मॉडल की तुलना में कुछ स्थितियों में मॉडल अधिक ट्रैक्टेबल होते हैं। (एक बायेसियन सेटिंग में जिसमें सामान्य रूप से वितरित पूर्व वितरण को मापदंडों पर रखा जाता है, सामान्य पुरोहितों और सामान्य सीडीएफ संबंध फलन के बीच संबंध का अर्थ है कि गिब्स नमूने का उपयोग करके एक प्रोबिट मॉडल की गणना की जा सकती है, जबकि एक लॉगिट मॉडल आमतौर पर नहीं हो सकता है।)

पूरक लॉग-लॉग (क्लॉगलॉग)

पूरक लॉग-लॉग फ़ंक्शन का भी उपयोग किया जा सकता है:

यह संबंध फलन असममित है और अक्सर लॉग और प्रोबिट लिंक फ़ंक्शंस से भिन्न परिणाम देगा।[4] क्लॉलॉग मॉडल उन अनुप्रयोगों से मेल खाता है जहां हम शून्य घटनाओं (जैसे, दोष) या एक या अधिक का निरीक्षण करते हैं, जहां प्वासों वितरण का पालन करने के लिए घटनाओं की संख्या मान ली जाती है।[5] पोइसन धारणा का मतलब है

जहां μ एक सकारात्मक संख्या है जो घटनाओं की अपेक्षित संख्या को दर्शाती है। यदि पी कम से कम एक घटना के साथ टिप्पणियों के अनुपात का प्रतिनिधित्व करता है, तो इसका पूरक

और तब

एक रैखिक मॉडल को संपूर्ण वास्तविक रेखा पर मान लेने के लिए प्रतिक्रिया चर की आवश्यकता होती है। चूँकि μ सकारात्मक होना चाहिए, हम इसे लघुगणक लेकर लागू कर सकते हैं, और log(μ) को एक रैखिक मॉडल बना सकते हैं। यह क्लॉलॉग परिवर्तन पैदा करता है


पहचान की कड़ी

पहचान लिंक g(p) = p का उपयोग कभी-कभी द्विपद डेटा के लिए एक रेखीय संभाव्यता मॉडल प्राप्त करने के लिए भी किया जाता है। हालाँकि, पहचान लिंक शून्य से कम या एक से अधिक की निरर्थक संभावनाओं का अनुमान लगा सकता है। इसे क्लॉलॉग, प्रोबिट या लॉगिट (या किसी व्युत्क्रम संचयी वितरण फ़ंक्शन) जैसे परिवर्तन का उपयोग करके टाला जा सकता है। पहचान लिंक का एक प्राथमिक गुण यह है कि इसे रेखीय गणित का उपयोग करके अनुमान लगाया जा सकता है - और अन्य मानक संबंध फलन पी = 0.5 के पास पहचान लिंक से लगभग रैखिक मेल खाते हैं।

विचरण समारोह

के लिए विचरण समारोहquasibinomial डेटा है:

जहां फैलाव पैरामीटर τ द्विपद वितरण के लिए बिल्कुल 1 है। दरअसल, मानक द्विपद संभावना τ को छोड़ देती है। जब यह मौजूद होता है, तो मॉडल को अर्ध-संभावना कहा जाता है, और संशोधित संभावना को अर्ध-संभावना कहा जाता है, क्योंकि यह आम तौर पर संभाव्यता वितरण के किसी भी वास्तविक परिवार से संबंधित संभावना नहीं है। यदि τ 1 से अधिक है, तो कहा जाता है कि मॉडल अतिफैलाव प्रदर्शित करता है।

बहुपद प्रतिगमन

प्रतिक्रिया के रूप में एक बहुराष्ट्रीय वितरण की अनुमति देने के लिए द्विपद मामले को आसानी से बढ़ाया जा सकता है (साथ ही, सीमित कुल के साथ गणना के लिए एक सामान्यीकृत रैखिक मॉडल)। यह आमतौर पर दो तरीकों से किया जाता है:

आदेशित प्रतिक्रिया

यदि प्रतिक्रिया चर क्रमिक डेटा है, तो कोई फॉर्म के मॉडल फ़ंक्शन में फिट हो सकता है:

m > 2 के लिए। अलग-अलग लिंक g ऑर्डर्ड लॉग्स या ऑर्डर किए गए प्रोबिट मॉडल जैसे क्रमिक प्रतिगमन मॉडल की ओर ले जाते हैं।

अव्यवस्थित प्रतिक्रिया

यदि प्रतिक्रिया चर माप का स्तर # नाममात्र स्तर है, या डेटा एक आदेशित मॉडल की धारणाओं को पूरा नहीं करता है, तो कोई निम्न रूप का मॉडल फिट कर सकता है:

m > 2 के लिए। विभिन्न लिंक g बहुराष्ट्रीय लॉगिट या बहुराष्ट्रीय प्रोबिट मॉडल की ओर ले जाते हैं। ये आदेशित प्रतिक्रिया मॉडल की तुलना में अधिक सामान्य हैं, और अधिक पैरामीटर अनुमानित हैं।

डेटा गिनें

सामान्यीकृत रेखीय मॉडलों के एक अन्य उदाहरण में पोइसन प्रतिगमन शामिल है, जो मॉडल पॉइसन वितरण का उपयोग करके डेटा की गणना करते हैं। लिंक आमतौर पर लघुगणक, विहित लिंक है।

विचरण फलन माध्य के समानुपाती होता है

जहां फैलाव पैरामीटर τ आमतौर पर ठीक एक पर तय किया जाता है। जब यह नहीं होता है, तो परिणामी अर्ध-संभावना मॉडल को अक्सर अतिफैलाव या अर्ध-पॉइसन के साथ पॉइसन के रूप में वर्णित किया जाता है।

विस्तारण (एक्सटेंशन)

सहसंबद्ध या संकुल डेटा

मानक जीएलएम मानता है कि अवलोकन असंबद्ध हैं। अवलोकनों के बीच सहसंबंध की अनुमति देने के लिए एक्सटेंशन विकसित किए गए हैं, उदाहरण के लिए अनुदैर्ध्य अध्ययन और क्लस्टर डिज़ाइन में होता है:

  • सामान्यीकृत अनुमान समीकरण (जीईई) सहसंबंधों की उत्पत्ति के लिए स्पष्ट संभाव्यता मॉडल के उपयोग के बिना अवलोकनों के बीच सहसंबंध की अनुमति देते हैं, इसलिए कोई स्पष्ट संभावना नहीं है। वे तब उपयुक्त होते हैं जब यादृच्छिक प्रभाव और उनके प्रसरण अंतर्निहित रुचि के नहीं होते हैं, क्योंकि वे इसकी उत्पत्ति की व्याख्या किए बिना सहसंबंध की अनुमति देते हैं। प्रतिगमन मापदंडों के बजाय जनसंख्या पर औसत प्रतिक्रिया (जनसंख्या-औसत प्रभाव) का अनुमान लगाने पर ध्यान केंद्रित किया जाता है जो किसी दिए गए व्यक्ति पर एक्स के एक या अधिक घटकों को बदलने के प्रभाव की भविष्यवाणी को सक्षम करेगा। जीईई आमतौर पर ह्यूबर-व्हाइट मानक त्रुटियों के संयोजन में उपयोग किया जाता है।[6][7]
  • [[सामान्यीकृत रैखिक मिश्रित मॉडल]] (जीएलएमएम) जीएलएम का एक विस्तार है जिसमें रैखिक भविष्यवक्ता में यादृच्छिक प्रभाव शामिल हैं, जो एक स्पष्ट संभावना मॉडल देता है जो सहसंबंधों की उत्पत्ति की व्याख्या करता है। परिणामी विषय-विशिष्ट पैरामीटर अनुमान तब उपयुक्त होते हैं जब किसी व्यक्ति पर X के एक या अधिक घटकों को बदलने के प्रभाव का अनुमान लगाने पर ध्यान केंद्रित किया जाता है। जीएलएमएम को बहुस्तरीय मॉडल और मिश्रित मॉडल भी कहा जाता है। सामान्य तौर पर, GLMMs को फिट करना GEEs को फिट करने की तुलना में कम्प्यूटेशनल रूप से अधिक जटिल और गहन है।

सामान्यीकृत योगात्मक मॉडल

सामान्यीकृत योगात्मक मॉडल (GAMs) GLMs का एक और विस्तार है जिसमें रैखिक भविष्यवक्ता η सहसंयोजक 'X' में रैखिक होने के लिए प्रतिबंधित नहीं है, लेकिन x पर लागू चौरसाई का योग हैiएस:

चौरसाई कार्य fiआंकड़ों से अनुमान लगाया गया है। सामान्य तौर पर इसके लिए बड़ी संख्या में डेटा बिंदुओं की आवश्यकता होती है और यह कम्प्यूटेशनल रूप से गहन है।[8][9]

यह भी देखें

संदर्भ

उद्धरण

  1. Nelder, John; Wedderburn, Robert (1972). "सामान्यीकृत रैखिक मॉडल". Journal of the Royal Statistical Society. Series A (General). Blackwell Publishing. 135 (3): 370–384. doi:10.2307/2344614. JSTOR 2344614. S2CID 14154576.
  2. McCullagh & Nelder 1989, Chapter 2.
  3. Senn, Stephen (2003). "जॉन नेल्डर के साथ बातचीत". Statistical Science. 18 (1): 118–131. doi:10.1214/ss/1056397489. मुझे संदेह है कि हमें इसके लिए कुछ और फैंसी नाम मिलना चाहिए था जो अटक गया होगा और सामान्य रैखिक मॉडल के साथ भ्रमित नहीं होगा, हालांकि सामान्य और सामान्यीकृत काफी समान नहीं हैं। मैं देख सकता हूं कि क्यों कुछ और सोचना बेहतर होता।
  4. "Complementary Log-log Model" (PDF).
  5. "Which Link Function — Logit, Probit, or Cloglog?". Bayesium Analytics (in English). 2015-08-14. Retrieved 2019-03-17.
  6. Zeger, Scott L.; Liang, Kung-Yee; Albert, Paul S. (1988). "Models for Longitudinal Data: A Generalized Estimating Equation Approach". Biometrics. International Biometric Society. 44 (4): 1049–1060. doi:10.2307/2531734. JSTOR 2531734. PMID 3233245.
  7. Hardin, James; Hilbe, Joseph (2003). सामान्यीकृत अनुमान समीकरण. London, England: Chapman and Hall/CRC. ISBN 1-58488-307-3.
  8. Hastie & Tibshirani 1990.
  9. Wood 2006.


ग्रन्थसूची


अग्रिम पठन


बाहरी संबंध