बहुपद तार्किक प्रतिगमन: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 18: Line 18:


== अनुमान ==
== अनुमान ==
बहुराष्ट्रीय रसद मॉडल मानता है कि डेटा केस-विशिष्ट हैं; अर्थात्, प्रत्येक स्वतंत्र चर का प्रत्येक विषय के लिए एक मान होता है। बहुराष्ट्रीय रसद मॉडल यह भी मानता है कि आश्रित चर को किसी भी विषय के लिए स्वतंत्र चर से पूर्ण रूप  से भविष्यवाणी नहीं की जा सकती है। अन्य प्रकार के प्रतिगमन के साथ, स्वतंत्र चर को एक दूसरे से [[सांख्यिकीय रूप से स्वतंत्र]] होने की कोई आवश्यकता नहीं है (उदाहरण के लिए, बेयस वर्गीकरणकर्ता के विपरीत); हालाँकि, बहुसंरेखता को अपेक्षाकृत कम माना जाता है, क्योंकि यदि ऐसा नहीं है तो कई चरों के प्रभाव के बीच अंतर करना मुश्किल हो जाता है।<ref>{{cite book | last = Belsley | first = David | title = Conditioning diagnostics : collinearity and weak data in regression | publisher = Wiley | location = New York | year = 1991 | isbn = 9780471528890 }}</ref>
बहुराष्ट्रीय रसद मॉडल मानता है कि डेटा केस-विशिष्ट हैं; अर्थात्, प्रत्येक स्वतंत्र चर का प्रत्येक विषय के लिए एक मान होता है। बहुराष्ट्रीय रसद मॉडल यह भी मानता है कि आश्रित चर को किसी भी विषय के लिए स्वतंत्र चर से पूर्ण रूप  से भविष्यवाणी नहीं की जा सकती है। अन्य प्रकार के प्रतिगमन के साथ, स्वतंत्र चर को एक दूसरे से [[सांख्यिकीय रूप से स्वतंत्र]] होने की कोई आवश्यकता नहीं है (उदाहरण के लिए, बेयस वर्गीकरणकर्ता के विपरीत); यद्यपि, बहुसंरेखता को अपेक्षाकृत कम माना जाता है, क्योंकि यदि ऐसा नहीं है तो कई चरों के प्रभाव के बीच अंतर करना जटिल  हो जाता है।<ref>{{cite book | last = Belsley | first = David | title = Conditioning diagnostics : collinearity and weak data in regression | publisher = Wiley | location = New York | year = 1991 | isbn = 9780471528890 }}</ref>
यदि बहुपद लॉगिट का उपयोग मॉडल विकल्पों के लिए किया जाता है, तो यह अप्रासंगिक विकल्पों (IIA) की स्वतंत्रता की धारणा पर निर्भर करता है, जो हमेशा वांछनीय नहीं होता है। यह धारणा बताती है कि एक वर्ग को दूसरे पर वरीयता देने की संभावना अन्य अप्रासंगिक विकल्पों की उपस्थिति या अनुपस्थिति पर निर्भर नहीं करती है। उदाहरण के लिए, यदि साइकिल को अतिरिक्त संभावना के रूप में जोड़ा जाता है तो कार या बस को काम पर ले जाने की सापेक्ष संभावनाएँ नहीं बदलतीं। यह K-1 स्वतंत्र द्विचर विकल्पों के एक समूह के रूप में K विकल्पों की पसंद को मॉडल करने की अनुमति देता है, जिसमें एक विकल्प को धुरी के रूप में चुना जाता है और दूसरे K-1 की तुलना में, एक समय में एक। IIA परिकल्पना तर्कसंगत विकल्प सिद्धांत में एक मुख्य परिकल्पना है; हालांकि मनोविज्ञान में कई अध्ययनों से पता चलता है कि चुनाव करते समय व्यक्ति अक्सर इस धारणा का उल्लंघन करते हैं। यदि विकल्प में एक कार और एक नीली बस सम्मिलित  है तो समस्या का एक उदाहरण सामने आता है। मान लीजिए कि दोनों के बीच विषम अनुपात 1:1 है। अब यदि लाल बस का विकल्प पेश किया जाता है, तो एक व्यक्ति लाल और नीली बस के बीच उदासीन हो सकता है, और इसलिए एक कार प्रदर्शित कर सकता है: नीली बस: लाल बस अंतर अनुपात 1: 0.5: 0.5 का, इस प्रकार कार का 1: 1 अनुपात बनाए रखना: एक परिवर्तित कार को अपनाने के दौरान कोई भी बस: 1: 0.5 का नीली बस अनुपात। यहां लाल बस का विकल्प वास्तव में अप्रासंगिक नहीं था, क्योंकि लाल बस नीले रंग की बस का सही विकल्प थी।
 
यदि बहुपद लॉगिट का उपयोग मॉडल विकल्पों के लिए किया जाता है, तो यह अप्रासंगिक विकल्पों (आईआईए) की स्वतंत्रता की धारणा पर निर्भर करता है, जो सदैव वांछनीय नहीं होता है। यह धारणा बताती है कि एक वर्ग को दूसरे पर वरीयता देने की संभावना अन्य अप्रासंगिक विकल्पों की उपस्थिति या अनुपस्थिति पर निर्भर नहीं करती है। उदाहरण के लिए, यदि साइकिल को अतिरिक्त संभावना के रूप में जोड़ा जाता है तो कार या बस को कार्य पर ले जाने की सापेक्ष संभावनाएँ नहीं बदलतीं। यह K-1 स्वतंत्र द्विचर विकल्पों के एक समूह के रूप में K विकल्पों की पसंद को मॉडल करने की अनुमति देती है, जिसमें एक विकल्प को धुरी के रूप में चुना जाता है और दूसरे K-1 की तुलना में, एक समय में एक। आईआईए परिकल्पना तर्कसंगत विकल्प सिद्धांत में एक मुख्य परिकल्पना है; यद्यपि  मनोविज्ञान में कई अध्ययनों से पता चलता है कि चुनाव करते समय व्यक्ति प्रायः  इस धारणा का उल्लंघन करते हैं। यदि विकल्प में एक कार और एक नीली बस सम्मिलित  है तो समस्या का एक उदाहरण सामने आता है। मान लीजिए कि दोनों के बीच विषम अनुपात 1:1 है। अब यदि लाल बस का विकल्प प्रस्तुत किया जाता है, तो एक व्यक्ति लाल और नीली बस के बीच निरपेक्ष हो सकता है, और इसलिए एक कार: नीली बस: लाल बस का अनुपात 1: 0.5: 0.5 का प्रदर्शन कर सकता है, इस प्रकार एक 1: 1 अनुपात रखता है: किसी भी बस को परिवर्तित कार को अपनाने के समय: नीली बस का  अनुपात 1: 0.5 है। यहां लाल बस का विकल्प यथार्थ अप्रासंगिक नहीं था, क्योंकि लाल बस नीले रंग की बस का सही विकल्प थी।
 
यदि बहुपद लॉगिट का उपयोग विकल्पों को मॉडल करने के लिए किया जाता है, तो यह कुछ स्थितियों में विभिन्न विकल्पों के बीच सापेक्ष प्राथमिकताओं पर बहुत अधिक प्रतिबंध लगा सकता है। यह बिंदु विशेष रूप से ध्यान में रखना महत्वपूर्ण है यदि विश्लेषण का उद्देश्य भविष्यवाणी करना है कि यदि एक विकल्प अंतर्हित हो जाता है तो विकल्प कैसे बदलेंगे (उदाहरण के लिए यदि एक राजनीतिक उम्मीदवार तीन उम्मीदवारों की दौड़ से हट जाता है)। अन्य मॉडल जैसे [[नेस्टेड लॉग|नीडन लॉगिट]] या [[ बहुराष्ट्रीय संभावना | बहुराष्ट्रीय संभावना]] का उपयोग ऐसे विषयों में किया जा सकता है क्योंकि वे आईआईए के उल्लंघन की अनुमति देते हैं।<ref>{{cite journal |last1=Baltas |first1=G. |last2=Doyle |first2=P. |year=2001 |title=Random Utility Models in Marketing Research: A Survey |journal=[[Journal of Business Research]] |volume=51 |issue=2 |pages=115–125 |doi=10.1016/S0148-2963(99)00058-2 }}</ref>


यदि बहुपद लॉगिट का उपयोग विकल्पों को मॉडल करने के लिए किया जाता है, तो यह कुछ स्थितियों में विभिन्न विकल्पों के बीच सापेक्ष प्राथमिकताओं पर बहुत अधिक प्रतिबंध लगा सकता है। यह बिंदु विशेष रूप से ध्यान में रखना महत्वपूर्ण है यदि विश्लेषण का उद्देश्य भविष्यवाणी करना है कि यदि एक विकल्प गायब हो जाता है तो विकल्प कैसे बदलेंगे (उदाहरण के लिए यदि एक राजनीतिक उम्मीदवार तीन उम्मीदवारों की दौड़ से हट जाता है)। अन्य मॉडल जैसे [[नेस्टेड लॉग]]िट या [[ बहुराष्ट्रीय संभावना ]] का उपयोग ऐसे मामलों में किया जा सकता है क्योंकि वे IIA के उल्लंघन की अनुमति देते हैं।<ref>{{cite journal |last1=Baltas |first1=G. |last2=Doyle |first2=P. |year=2001 |title=Random Utility Models in Marketing Research: A Survey |journal=[[Journal of Business Research]] |volume=51 |issue=2 |pages=115–125 |doi=10.1016/S0148-2963(99)00058-2 }}</ref>




== मॉडल ==
== मॉडल ==
{{See also|Logistic regression}}
{{See also|रसद प्रतिगमन}}


=== परिचय ===
=== परिचय ===
बहुराष्ट्रीय रसद प्रतिगमन अंतर्निहित गणितीय मॉडल का वर्णन करने के लिए कई समान रूप  हैं। इससे विभिन्न पाठों में विषय के विभिन्न उपचारों की तुलना करना कठिन हो सकता है। लॉजिस्टिक  प्रतिगमन पर लेख सरल लॉजिस्टिक  प्रतिगमन के कई समतुल्य फॉर्मूलेशन प्रस्तुत करता है, और इनमें से कई बहुपद लॉगिट मॉडल में एनालॉग हैं।
बहुराष्ट्रीय रसद प्रतिगमन अंतर्निहित गणितीय मॉडल का वर्णन करने के लिए कई समान रूप  हैं। इससे विभिन्न पाठों में विषय के विभिन्न उपचारों की तुलना करना कठिन हो सकता है। लॉजिस्टिक  प्रतिगमन पर लेख सरल लॉजिस्टिक  प्रतिगमन के कई समतुल्य सूत्रीकरण प्रस्तुत करता है, और इनमें से कई बहुपद लॉगिट मॉडल में अनुरूप हैं।


उन सभी के पीछे का विचार, जैसा कि कई अन्य सांख्यिकीय वर्गीकरण तकनीकों में है, एक रैखिक भविष्यवक्ता फ़ंक्शन का निर्माण करना है जो वजन के एक समूह से एक अंक बनाता है जो एक [[डॉट उत्पाद]] का उपयोग करके दिए गए अवलोकन के व्याख्यात्मक चर (विशेषताओं) के साथ [[रैखिक संयोजन]] होता है। :
उन सभी के पीछे का विचार, जैसा कि कई अन्य सांख्यिकीय वर्गीकरण तकनीकों में है, एक रैखिक भविष्यवक्ता फलन का निर्माण करना है जो भार के एक समूह से एक अंक बनाता है जो एक [[डॉट उत्पाद|बिंदु उत्पाद]] का उपयोग करके दिए गए प्रेक्षण  के व्याख्यात्मक चर (विशेषताओं) के साथ [[रैखिक संयोजन]] होता है। :


:<math>\operatorname{score}(\mathbf{X}_i,k) = \boldsymbol\beta_k \cdot \mathbf{X}_i,</math>
:<math>\operatorname{score}(\mathbf{X}_i,k) = \boldsymbol\beta_k \cdot \mathbf{X}_i,</math>
जहां एक्स<sub>''i''</sub> प्रेक्षण i, 'β' का वर्णन करने वाले व्याख्यात्मक चरों का सदिश है<sub>''k''</sub> परिणाम k, और स्कोर ('X') के अनुरूप वजन (या [[प्रतिगमन गुणांक]]) का एक सदिश है<sub>''i''</sub>, k) श्रेणी k को अवलोकन i निर्दिष्ट करने से जुड़ा स्कोर है। [[असतत पसंद]] सिद्धांत में, जहां अवलोकन लोगों का प्रतिनिधित्व करते हैं और परिणाम विकल्पों का प्रतिनिधित्व करते हैं, स्कोर को उस व्यक्ति से जुड़ी [[उपयोगिता]] माना जाता है जिसे मैं परिणाम k चुन रहा हूं। अनुमानित परिणाम उच्चतम स्कोर वाला है।
जहां X<sub>''i''</sub> प्रेक्षण i का वर्णन करने वाले व्याख्यात्मक चरों का सदिश है β<sub>''k''</sub> भार (या [[प्रतिगमन गुणांक]]) का एक सदिश है जो परिणाम k के अनुरूप है, और अंक (X<sub>''i''</sub> , k) श्रेणी k को प्रेक्षण  i निर्दिष्ट करने से जुड़ा अंक है। [[असतत पसंद|असतत विकल्प]] सिद्धांत में, जहां प्रेक्षण  लोगों का प्रतिनिधित्व करते हैं और परिणाम विकल्पों का प्रतिनिधित्व करते हैं, अंक को व्यक्ति i चुनने वाले परिणाम  k से जुड़ी [[उपयोगिता]] माना जाता है। अनुमानित परिणाम उच्चतम अंक वाला है।


बहुपद लॉगिट मॉडल और कई अन्य तरीकों, मॉडल, एल्गोरिदम, आदि के बीच एक ही मूल सेटअप ([[परसेप्ट्रॉन]] एल्गोरिथ्म, [[ समर्थन वेक्टर यंत्र ]], [[रैखिक विभेदक विश्लेषण]], आदि) के बीच का अंतर इष्टतम वजन निर्धारित (प्रशिक्षण) करने की प्रक्रिया है। / गुणांक और जिस तरह से स्कोर की व्याख्या की जाती है। विशेष रूप से, बहुपद लॉगिट मॉडल में, स्कोर को सीधे प्रायिकता मान में परिवर्तित किया जा सकता है, जो अवलोकन की मापित विशेषताओं को देखते हुए परिणाम k चुनने की [[संभावना]] को दर्शाता है। यह एक विशेष बहुराष्ट्रीय लॉगिट मॉडल की भविष्यवाणी को एक बड़ी प्रक्रिया में सम्मिलित  करने का एक सैद्धांतिक तरीका प्रदान करता है जिसमें त्रुटि की संभावना के साथ प्रत्येक ऐसी कई भविष्यवाणियां सम्मिलित  हो सकती हैं। भविष्यवाणियों के संयोजन के ऐसे साधनों के बिना, त्रुटियाँ कई गुना बढ़ जाती हैं। उदाहरण के लिए, एक बड़े [[भविष्य कहनेवाला मॉडलिंग]] की कल्पना करें, जो सबमॉडल्स की एक श्रृंखला में टूट जाता है, जहां एक दिए गए सबमॉडल की भविष्यवाणी को दूसरे सबमॉडल के इनपुट के रूप में उपयोग किया जाता है, और उस भविष्यवाणी को तीसरे सबमॉडल में इनपुट के रूप में उपयोग किया जाता है, आदि। यदि प्रत्येक उपमॉडल की भविष्यवाणी में 90% सटीकता है, और श्रृंखला में पांच उपमॉडल हैं, तो समग्र मॉडल में केवल 0.9 है<sup>5</sup> = 59% सटीकता। यदि प्रत्येक सबमॉडल में 80% सटीकता है, तो समग्र सटीकता 0.8 तक गिर जाती है<sup>5</sup> = 33% सटीकता। इस मुद्दे को [[त्रुटि प्रसार]] के रूप में जाना जाता है और यह वास्तविक दुनिया के भविष्य कहनेवाला मॉडल में एक गंभीर समस्या है, जो सामान्यतः  कई भागों से बना होता है। केवल एक इष्टतम भविष्यवाणी करने के बजाय प्रत्येक संभावित परिणाम की संभावनाओं की भविष्यवाणी करना, इस मुद्दे को कम करने का एक साधन है।{{Citation needed|reason=Source needed for how exactly the probability estimates of each outcome can help|date=September 2017}}
बहुपद लॉगिट मॉडल और कई अन्य तरीकों, मॉडल, एल्गोरिदम, आदि के बीच एक ही मूल सेटअप ([[परसेप्ट्रॉन]] एल्गोरिथ्म, [[ समर्थन वेक्टर यंत्र ]], [[रैखिक विभेदक विश्लेषण]], आदि) के बीच का अंतर इष्टतम भार निर्धारित (प्रशिक्षण) करने की प्रक्रिया है। / गुणांक और जिस तरह से अंक की व्याख्या की जाती है। विशेष रूप से, बहुपद लॉगिट मॉडल में, अंक को सीधे प्रायिकता मान में परिवर्तित किया जा सकता है, जो प्रेक्षण  की मापित विशेषताओं को देखते हुए परिणाम k चुनने की [[संभावना]] को दर्शाता है। यह एक विशेष बहुराष्ट्रीय लॉगिट मॉडल की भविष्यवाणी को एक बड़ी प्रक्रिया में सम्मिलित  करने का एक सैद्धांतिक तरीका प्रदान करता है जिसमें त्रुटि की संभावना के साथ प्रत्येक ऐसी कई भविष्यवाणियां सम्मिलित  हो सकती हैं। भविष्यवाणियों के संयोजन के ऐसे साधनों के बिना, त्रुटियाँ कई गुना बढ़ जाती हैं। उदाहरण के लिए, एक बड़े [[भविष्य कहनेवाला मॉडलिंग]] की कल्पना करें, जो सबमॉडल्स की एक श्रृंखला में टूट जाता है, जहां एक दिए गए सबमॉडल की भविष्यवाणी को दूसरे सबमॉडल के इनपुट के रूप में उपयोग किया जाता है, और उस भविष्यवाणी को तीसरे सबमॉडल में इनपुट के रूप में उपयोग किया जाता है, आदि। यदि प्रत्येक उपमॉडल की भविष्यवाणी में 90% सटीकता है, और श्रृंखला में पांच उपमॉडल हैं, तो समग्र मॉडल में केवल 0.9 है<sup>5</sup> = 59% सटीकता। यदि प्रत्येक सबमॉडल में 80% सटीकता है, तो समग्र सटीकता 0.8 तक गिर जाती है<sup>5</sup> = 33% सटीकता। इस मुद्दे को [[त्रुटि प्रसार]] के रूप में जाना जाता है और यह वास्तविक दुनिया के भविष्य कहनेवाला मॉडल में एक गंभीर समस्या है, जो सामान्यतः  कई भागों से बना होता है। केवल एक इष्टतम भविष्यवाणी करने के बजाय प्रत्येक संभावित परिणाम की संभावनाओं की भविष्यवाणी करना, इस मुद्दे को कम करने का एक साधन है।{{Citation needed|reason=Source needed for how exactly the probability estimates of each outcome can help|date=September 2017}}


=== सेटअप ===
=== सेटअप ===
Line 41: Line 43:


==== डेटा बिंदु ====
==== डेटा बिंदु ====
विशेष रूप से, यह माना जाता है कि हमारे पास एन देखे गए डेटा बिंदुओं की एक श्रृंखला है। प्रत्येक डेटा बिंदु i (1 से N तक) में M व्याख्यात्मक चर x का एक समूह होता है<sub>''1,i''</sub> ... एक्स<sub>''M,i''</sub> (उर्फ स्वतंत्र चर, पूर्वसूचक चर, सुविधाएँ, आदि), और एक संबद्ध श्रेणीबद्ध चर परिणाम Y<sub>''i''</sub> (उर्फ आश्रित चर, प्रतिक्रिया चर), जो K संभावित मानों में से एक पर ले सकता है। ये संभावित मान तार्किक रूप से अलग-अलग श्रेणियों (जैसे विभिन्न राजनीतिक दलों, रक्त प्रकार, आदि) का प्रतिनिधित्व करते हैं, और अक्सर गणितीय रूप से प्रत्येक को 1 से K तक मनमाने ढंग से निर्दिष्ट करके वर्णित किया जाता है। व्याख्यात्मक चर और परिणाम डेटा बिंदुओं के देखे गए गुणों का प्रतिनिधित्व करते हैं, और अक्सर एन प्रयोगों की टिप्पणियों में उत्पन्न होने के बारे में सोचा जाता है - हालांकि एक प्रयोग में डेटा एकत्र करने से ज्यादा कुछ नहीं हो सकता है। बहुराष्ट्रीय रसद प्रतिगमन का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो व्याख्यात्मक चर और परिणाम के बीच संबंध की व्याख्या करता है, ताकि एक नए प्रयोग के परिणाम को एक नए डेटा बिंदु के लिए सही ढंग से भविष्यवाणी की जा सके, जिसके लिए व्याख्यात्मक चर, लेकिन परिणाम नहीं , उपलब्ध हैं। इस प्रक्रिया में, मॉडल परिणाम पर अलग-अलग व्याख्यात्मक चर के सापेक्ष प्रभाव को समझाने का प्रयास करता है।
विशेष रूप से, यह माना जाता है कि हमारे पास एन देखे गए डेटा बिंदुओं की एक श्रृंखला है। प्रत्येक डेटा बिंदु i (1 से N तक) में M व्याख्यात्मक चर x का एक समूह होता है<sub>''1,i''</sub> ... X<sub>''M,i''</sub> (उर्फ स्वतंत्र चर, पूर्वसूचक चर, सुविधाएँ, आदि), और एक संबद्ध श्रेणीबद्ध चर परिणाम Y<sub>''i''</sub> (उर्फ आश्रित चर, प्रतिक्रिया चर), जो K संभावित मानों में से एक पर ले सकता है। ये संभावित मान तार्किक रूप से अलग-अलग श्रेणियों (जैसे विभिन्न राजनीतिक दलों, रक्त प्रकार, आदि) का प्रतिनिधित्व करते हैं, और प्रायः  गणितीय रूप से प्रत्येक को 1 से K तक मनमाने ढंग से निर्दिष्ट करके वर्णित किया जाता है। व्याख्यात्मक चर और परिणाम डेटा बिंदुओं के देखे गए गुणों का प्रतिनिधित्व करते हैं, और प्रायः  एन प्रयोगों की टिप्पणियों में उत्पन्न होने के बारे में सोचा जाता है - यद्यपि  एक प्रयोग में डेटा एकत्र करने से ज्यादा कुछ नहीं हो सकता है। बहुराष्ट्रीय रसद प्रतिगमन का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो व्याख्यात्मक चर और परिणाम के बीच संबंध की व्याख्या करता है, ताकि एक नए प्रयोग के परिणाम को एक नए डेटा बिंदु के लिए सही ढंग से भविष्यवाणी की जा सके, जिसके लिए व्याख्यात्मक चर, लेकिन परिणाम नहीं , उपलब्ध हैं। इस प्रक्रिया में, मॉडल परिणाम पर अलग-अलग व्याख्यात्मक चर के सापेक्ष प्रभाव को समझाने का प्रयास करता है।


कुछ उदाहरण:
कुछ उदाहरण:
Line 48: Line 50:


==== रैखिक भविष्यवक्ता ====
==== रैखिक भविष्यवक्ता ====
रेखीय प्रतिगमन के अन्य रूपों की तरह, बहुराष्ट्रीय रसद प्रतिगमन एक रेखीय भविष्यवक्ता फ़ंक्शन का उपयोग करता है <math>f(k,i)</math> संभावना की भविष्यवाणी करने के लिए कि अवलोकन i का परिणाम k है, निम्नलिखित रूप में:
रेखीय प्रतिगमन के अन्य रूपों की तरह, बहुराष्ट्रीय रसद प्रतिगमन एक रेखीय भविष्यवक्ता फलन का उपयोग करता है <math>f(k,i)</math> संभावना की भविष्यवाणी करने के लिए कि प्रेक्षण  i का परिणाम k है, निम्नलिखित रूप में:


:<math>f(k,i) = \beta_{0,k} + \beta_{1,k} x_{1,i}  + \beta_{2,k} x_{2,i} + \cdots + \beta_{M,k} x_{M,i},</math>
:<math>f(k,i) = \beta_{0,k} + \beta_{1,k} x_{1,i}  + \beta_{2,k} x_{2,i} + \cdots + \beta_{M,k} x_{M,i},</math>
कहाँ <math>\beta_{m,k}</math> mth व्याख्यात्मक चर और kth परिणाम से जुड़ा एक प्रतिगमन गुणांक है। जैसा कि रसद प्रतिगमन लेख में समझाया गया है, प्रतिगमन गुणांक और व्याख्यात्मक चर सामान्यतः  आकार एम + 1 के वैक्टर में समूहीकृत होते हैं, ताकि भविष्यवक्ता फ़ंक्शन को अधिक कॉम्पैक्ट रूप से लिखा जा सके:
कहाँ <math>\beta_{m,k}</math> mth व्याख्यात्मक चर और kth परिणाम से जुड़ा एक प्रतिगमन गुणांक है। जैसा कि रसद प्रतिगमन लेख में समझाया गया है, प्रतिगमन गुणांक और व्याख्यात्मक चर सामान्यतः  आकार एम + 1 के वैक्टर में समूहीकृत होते हैं, ताकि भविष्यवक्ता फलन को अधिक कॉम्पैक्ट रूप से लिखा जा सके:


:<math>f(k,i) = \boldsymbol\beta_k \cdot \mathbf{x}_i,</math>
:<math>f(k,i) = \boldsymbol\beta_k \cdot \mathbf{x}_i,</math>
कहाँ <math>\boldsymbol\beta_k</math> परिणाम के साथ जुड़े प्रतिगमन गुणांक का समूह है, और <math>\mathbf{x}_i</math> (एक पंक्ति वेक्टर) अवलोकन i से जुड़े व्याख्यात्मक चर का समूह है।
कहाँ <math>\boldsymbol\beta_k</math> परिणाम के साथ जुड़े प्रतिगमन गुणांक का समूह है, और <math>\mathbf{x}_i</math> (एक पंक्ति वेक्टर) प्रेक्षण  i से जुड़े व्याख्यात्मक चर का समूह है।


=== स्वतंत्र द्विचर प्रतिगमन के एक समूह के रूप में ===
=== स्वतंत्र द्विचर प्रतिगमन के एक समूह के रूप में ===
Line 63: Line 65:
</math>.
</math>.


इस फॉर्मूलेशन को कंपोज़िशनल_डेटा # एडिटिव_लोग्रेटियो_ट्रांसफ़ॉर्म ट्रांसफ़ॉर्म के रूप में भी जाना जाता है, जो सामान्यतः  कंपोज़िशनल डेटा विश्लेषण में उपयोग किया जाता है। यदि हम दोनों पक्षों को प्रतिपादित करते हैं और संभावनाओं को हल करते हैं, तो हमें मिलता है:
इस सूत्रीकरण को कंपोज़िशनल_डेटा # एडिटिव_लोग्रेटियो_ट्रांसफ़ॉर्म ट्रांसफ़ॉर्म के रूप में भी जाना जाता है, जो सामान्यतः  कंपोज़िशनल डेटा विश्लेषण में उपयोग किया जाता है। यदि हम दोनों पक्षों को प्रतिपादित करते हैं और संभावनाओं को हल करते हैं, तो हमें मिलता है:


: <math>
: <math>
Line 82: Line 84:
=== गुणांक का आकलन ===
=== गुणांक का आकलन ===


प्रत्येक सदिश ''β' में अज्ञात पैरामीटर<sub>k</sub>सामान्यतः  संयुक्त रूप से अधिकतम पोस्टीरियरी (एमएपी) अनुमान द्वारा अनुमान लगाया जाता है, जो रोग संबंधी हलों को रोकने के लिए वजन के [[नियमितीकरण (गणित)]] का उपयोग करके अधिकतम संभावना का विस्तार है (सामान्यतः  एक स्क्वायर रेगुलराइजिंग फ़ंक्शन, जो शून्य-माध्य गॉसियन वितरण रखने के बराबर है भार पर [[पूर्व वितरण]], लेकिन अन्य वितरण भी संभव हैं)। हल सामान्यतः  पुनरावृत्त प्रक्रिया जैसे सामान्यीकृत पुनरावृत्त स्केलिंग का उपयोग करके पाया जाता है,<ref>{{Cite journal |title=लॉग-लीनियर मॉडल के लिए सामान्यीकृत पुनरावृत्ति स्केलिंग|author1=Darroch, J.N.  |author2=Ratcliff, D.  |name-list-style=amp |journal=The Annals of Mathematical Statistics |volume=43 |issue=5 |pages=1470–1480 |year=1972 |url=http://projecteuclid.org/download/pdf_1/euclid.aoms/1177692379 |doi=10.1214/aoms/1177692379|doi-access=free }}</ref> पुनरावृत्त रूप से कम से कम वर्ग (आईआरएलएस),<ref>{{cite book |first=Christopher M. |last=Bishop |year=2006 |title=पैटर्न मान्यता और मशीन प्रवीणता|publisher=Springer |pages=206–209}}</ref> [[एल-बीएफजीएस]] जैसे [[ढाल-आधारित अनुकूलन]] एल्गोरिदम के माध्यम से,<ref name="malouf"/>या विशेष [[समन्वय वंश]] एल्गोरिदम द्वारा।<ref>{{cite journal |first1=Hsiang-Fu |last1=Yu |first2=Fang-Lan |last2=Huang |first3=Chih-Jen |last3=Lin |year=2011 |title=रसद प्रतिगमन और अधिकतम एन्ट्रापी मॉडल के लिए दोहरी समन्वय वंश पद्धति|journal=Machine Learning |volume=85 |issue=1–2 |pages=41–75 |url=http://www.csie.ntu.edu.tw/~cjlin/papers/maxent_dual.pdf |doi=10.1007/s10994-010-5221-8|doi-access=free }}</ref>''
प्रत्येक सदिश ''β' में अज्ञात पैरामीटर<sub>k</sub>सामान्यतः  संयुक्त रूप से अधिकतम पोस्टीरियरी (एमएपी) अनुमान द्वारा अनुमान लगाया जाता है, जो रोग संबंधी हलों को रोकने के लिए भार के [[नियमितीकरण (गणित)]] का उपयोग करके अधिकतम संभावना का विस्तार है (सामान्यतः  एक स्क्वायर रेगुलराइजिंग फलन, जो शून्य-माध्य गॉसियन वितरण रखने के बराबर है भार पर [[पूर्व वितरण]], लेकिन अन्य वितरण भी संभव हैं)। हल सामान्यतः  पुनरावृत्त प्रक्रिया जैसे सामान्यीकृत पुनरावृत्त स्केलिंग का उपयोग करके पाया जाता है,<ref>{{Cite journal |title=लॉग-लीनियर मॉडल के लिए सामान्यीकृत पुनरावृत्ति स्केलिंग|author1=Darroch, J.N.  |author2=Ratcliff, D.  |name-list-style=amp |journal=The Annals of Mathematical Statistics |volume=43 |issue=5 |pages=1470–1480 |year=1972 |url=http://projecteuclid.org/download/pdf_1/euclid.aoms/1177692379 |doi=10.1214/aoms/1177692379|doi-access=free }}</ref> पुनरावृत्त रूप से कम से कम वर्ग (आईआरएलएस),<ref>{{cite book |first=Christopher M. |last=Bishop |year=2006 |title=पैटर्न मान्यता और मशीन प्रवीणता|publisher=Springer |pages=206–209}}</ref> [[एल-बीएफजीएस]] जैसे [[ढाल-आधारित अनुकूलन]] एल्गोरिदम के माध्यम से,<ref name="malouf"/>या विशेष [[समन्वय वंश]] एल्गोरिदम द्वारा।<ref>{{cite journal |first1=Hsiang-Fu |last1=Yu |first2=Fang-Lan |last2=Huang |first3=Chih-Jen |last3=Lin |year=2011 |title=रसद प्रतिगमन और अधिकतम एन्ट्रापी मॉडल के लिए दोहरी समन्वय वंश पद्धति|journal=Machine Learning |volume=85 |issue=1–2 |pages=41–75 |url=http://www.csie.ntu.edu.tw/~cjlin/papers/maxent_dual.pdf |doi=10.1007/s10994-010-5221-8|doi-access=free }}</ref>''




=== लॉग-लीनियर मॉडल === के रूप में
=== लॉग-लीनियर मॉडल === के रूप में


लॉजिस्टिक  प्रतिगमन#लॉग-लीनियर मॉडल|लॉग-लीनियर मॉडल के रूप में द्विचर लॉजिस्टिक  प्रतिगमन का सूत्रीकरण सीधे मल्टी-वे  प्रतिगमन तक बढ़ाया जा सकता है। अर्थात्, हम रैखिक भविष्यवक्ता के साथ-साथ एक अतिरिक्त [[सामान्यीकरण कारक]], विभाजन फ़ंक्शन (गणित) के लघुगणक का उपयोग करके दिए गए आउटपुट को देखने की संभावना के लघुगणक को मॉडल करते हैं:
लॉजिस्टिक  प्रतिगमन#लॉग-लीनियर मॉडल|लॉग-लीनियर मॉडल के रूप में द्विचर लॉजिस्टिक  प्रतिगमन का सूत्रीकरण सीधे मल्टी-वे  प्रतिगमन तक बढ़ाया जा सकता है। अर्थात्, हम रैखिक भविष्यवक्ता के साथ-साथ एक अतिरिक्त [[सामान्यीकरण कारक]], विभाजन फलन (गणित) के लघुगणक का उपयोग करके दिए गए आउटपुट को देखने की संभावना के लघुगणक को मॉडल करते हैं:


: <math>
: <math>
Line 102: Line 104:
</math>.
</math>.


वितरण के लिए मात्रा Z को विभाजन फ़ंक्शन (गणित) कहा जाता है। हम उपरोक्त बाधा को लागू करके विभाजन फ़ंक्शन के मान की गणना कर सकते हैं जिसके लिए सभी संभावनाओं को 1 तक जमा करने की आवश्यकता होती है:
वितरण के लिए मात्रा Z को विभाजन फलन (गणित) कहा जाता है। हम उपरोक्त बाधा को लागू करके विभाजन फलन के मान की गणना कर सकते हैं जिसके लिए सभी संभावनाओं को 1 तक जमा करने की आवश्यकता होती है:


:<math>
:<math>
Line 110: Line 112:


:<math>Z = \sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}</math>
:<math>Z = \sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}</math>
ध्यान दें कि यह कारक इस अर्थ में स्थिर है कि यह Y का कार्य नहीं है<sub>''i''</sub>, जो कि वह चर है जिस पर संभाव्यता वितरण परिभाषित किया गया है। हालांकि, यह निश्चित रूप से व्याख्यात्मक चर के संबंध में स्थिर नहीं है, या महत्वपूर्ण रूप से, अज्ञात प्रतिगमन गुणांक ''β'' के संबंध में<sub>''k''</sub>, जिसे हमें किसी प्रकार की [[गणितीय अनुकूलन]] प्रक्रिया के माध्यम से निर्धारित करने की आवश्यकता होगी।
ध्यान दें कि यह कारक इस अर्थ में स्थिर है कि यह Y का कार्य नहीं है<sub>''i''</sub>, जो कि वह चर है जिस पर संभाव्यता वितरण परिभाषित किया गया है। यद्यपि , यह निश्चित रूप से व्याख्यात्मक चर के संबंध में स्थिर नहीं है, या महत्वपूर्ण रूप से, अज्ञात प्रतिगमन गुणांक ''β'' के संबंध में<sub>''k''</sub>, जिसे हमें किसी प्रकार की [[गणितीय अनुकूलन]] प्रक्रिया के माध्यम से निर्धारित करने की आवश्यकता होगी।


संभावनाओं के लिए परिणामी समीकरण हैं
संभावनाओं के लिए परिणामी समीकरण हैं
Line 124: Line 126:


:<math>\operatorname{softmax}(k,x_1,\ldots,x_n) = \frac{e^{x_k}}{\sum_{i=1}^n e^{x_i}}</math>
:<math>\operatorname{softmax}(k,x_1,\ldots,x_n) = \frac{e^{x_k}}{\sum_{i=1}^n e^{x_i}}</math>
[[सॉफ्टमैक्स फ़ंक्शन]] के रूप में जाना जाता है। इसका कारण यह है कि मानों को प्रतिपादित करने का प्रभाव <math>x_1,\ldots,x_n</math> उनके बीच मतभेदों को बढ़ा-चढ़ाकर पेश करना है। नतीजतन, <math>\operatorname{softmax}(k,x_1,\ldots,x_n)</math> जब भी 0 के करीब का मान लौटाएगा<math>x_k</math>सभी मानों के अधिकतम से काफी कम है, और अधिकतम मान पर लागू होने पर 1 के करीब मान लौटाएगा, जब तक कि यह अगले-सबसे बड़े मान के बेहद करीब न हो। इस प्रकार, सॉफ्टमैक्स फ़ंक्शन का उपयोग [[भारित औसत]] बनाने के लिए किया जा सकता है जो एक चिकनी फ़ंक्शन के रूप में व्यवहार करता है (जो आसानी से भेदभाव (गणित), आदि हो सकता है) और जो संकेतक फ़ंक्शन का अनुमान लगाता है
[[सॉफ्टमैक्स फ़ंक्शन|सॉफ्टमैक्स फलन]] के रूप में जाना जाता है। इसका कारण यह है कि मानों को प्रतिपादित करने का प्रभाव <math>x_1,\ldots,x_n</math> उनके बीच मतभेदों को बढ़ा-चढ़ाकर प्रस्तुत करना है। नतीजतन, <math>\operatorname{softmax}(k,x_1,\ldots,x_n)</math> जब भी 0 के करीब का मान लौटाएगा<math>x_k</math>सभी मानों के अधिकतम से काफी कम है, और अधिकतम मान पर लागू होने पर 1 के करीब मान लौटाएगा, जब तक कि यह अगले-सबसे बड़े मान के बेहद करीब न हो। इस प्रकार, सॉफ्टमैक्स फलन का उपयोग [[भारित औसत]] बनाने के लिए किया जा सकता है जो एक चिकनी फलन के रूप में व्यवहार करता है (जो आसानी से भेदभाव (गणित), आदि हो सकता है) और जो संकेतक फलन का अनुमान लगाता है


:<math>f(k) = \begin{cases}
:<math>f(k) = \begin{cases}
Line 134: Line 136:


:<math>\Pr(Y_i=c) = \operatorname{softmax}(c, \boldsymbol\beta_1 \cdot \mathbf{X}_i, \ldots, \boldsymbol\beta_K \cdot \mathbf{X}_i)</math>
:<math>\Pr(Y_i=c) = \operatorname{softmax}(c, \boldsymbol\beta_1 \cdot \mathbf{X}_i, \ldots, \boldsymbol\beta_K \cdot \mathbf{X}_i)</math>
सॉफ्टमैक्स फ़ंक्शन इस प्रकार द्विचर लॉजिस्टिक  प्रतिगमन में [[रसद समारोह]] के समतुल्य के रूप में कार्य करता है।
सॉफ्टमैक्स फलन इस प्रकार द्विचर लॉजिस्टिक  प्रतिगमन में [[रसद समारोह]] के समतुल्य के रूप में कार्य करता है।


ध्यान दें कि सभी नहीं <math>\beta_k</math> गुणांक के वैक्टर विशिष्ट [[पहचान]] योग्य हैं। यह इस तथ्य के कारण है कि सभी संभावनाओं का योग 1 होना चाहिए, बाकी सभी ज्ञात होने के बाद उनमें से एक पूर्ण रूप  से निर्धारित हो जाती है। नतीजतन, ही हैं <math>k-1</math> अलग से निर्दिष्ट संभावनाएँ, और इसलिए <math>k-1</math> गुणांक के अलग-अलग पहचाने जाने योग्य वैक्टर। इसे देखने का एक तरीका यह है कि यदि हम सभी गुणांक सदिशों में एक स्थिर सदिश जोड़ते हैं, तो समीकरण समान होते हैं:
ध्यान दें कि सभी नहीं <math>\beta_k</math> गुणांक के वैक्टर विशिष्ट [[पहचान]] योग्य हैं। यह इस तथ्य के कारण है कि सभी संभावनाओं का योग 1 होना चाहिए, बाकी सभी ज्ञात होने के बाद उनमें से एक पूर्ण रूप  से निर्धारित हो जाती है। नतीजतन, ही हैं <math>k-1</math> अलग से निर्दिष्ट संभावनाएँ, और इसलिए <math>k-1</math> गुणांक के अलग-अलग पहचाने जाने योग्य वैक्टर। इसे देखने का एक तरीका यह है कि यदि हम सभी गुणांक सदिशों में एक स्थिर सदिश जोड़ते हैं, तो समीकरण समान होते हैं:
Line 162: Line 164:
=== एक अव्यक्त-चर मॉडल === के रूप में
=== एक अव्यक्त-चर मॉडल === के रूप में


लॉजिस्टिक  प्रतिगमन#टू-वे लेटेंट-वैरिएबल मॉडल|द्विचर लॉजिस्टिक  प्रतिगमन के लिए वर्णित टू-वे लेटेंट वेरिएबल मॉडल का पालन करते हुए एक लेटेंट वेरिएबल मॉडल के रूप में बहुपद लॉजिस्टिक  प्रतिगमन तैयार करना भी संभव है। यह सूत्रीकरण असतत पसंद मॉडल के सिद्धांत में सामान्य है, और बहुराष्ट्रीय रसद प्रतिगमन की तुलना संबंधित बहुराष्ट्रीय प्रोबिट मॉडल के साथ-साथ इसे और अधिक जटिल मॉडल तक विस्तारित करना आसान बनाता है।
लॉजिस्टिक  प्रतिगमन#टू-वे लेटेंट-वैरिएबल मॉडल|द्विचर लॉजिस्टिक  प्रतिगमन के लिए वर्णित टू-वे लेटेंट वेरिएबल मॉडल का पालन करते हुए एक लेटेंट वेरिएबल मॉडल के रूप में बहुपद लॉजिस्टिक  प्रतिगमन तैयार करना भी संभव है। यह सूत्रीकरण असतत विकल्प मॉडल के सिद्धांत में सामान्य है, और बहुराष्ट्रीय रसद प्रतिगमन की तुलना संबंधित बहुराष्ट्रीय प्रोबिट मॉडल के साथ-साथ इसे और अधिक जटिल मॉडल तक विस्तारित करना आसान बनाता है।


कल्पना करें कि, प्रत्येक डेटा बिंदु i और संभावित परिणाम k=1,2,...,K के लिए, एक सतत [[अव्यक्त चर]] Y है<sub>''i,k''</sub><sup>*</sup> (अर्थात् एक बिना अवलोकन वाला यादृच्छिक चर) जिसे निम्नानुसार वितरित किया गया है:
कल्पना करें कि, प्रत्येक डेटा बिंदु i और संभावित परिणाम k=1,2,...,K के लिए, एक सतत [[अव्यक्त चर]] Y है<sub>''i,k''</sub><sup>*</sup> (अर्थात् एक बिना प्रेक्षण  वाला यादृच्छिक चर) जिसे निम्नानुसार वितरित किया गया है:


: <math>
: <math>
Line 171: Line 173:
कहाँ <math>\varepsilon_k \sim \operatorname{EV}_1(0,1),</math> यानी एक मानक प्रकार -1 [[चरम मूल्य वितरण|चरम मान वितरण]]।
कहाँ <math>\varepsilon_k \sim \operatorname{EV}_1(0,1),</math> यानी एक मानक प्रकार -1 [[चरम मूल्य वितरण|चरम मान वितरण]]।


इस अव्यक्त चर को डेटा बिंदु से जुड़ी उपयोगिता के रूप में माना जा सकता है, मैं परिणाम k चुन रहा हूं, जहां प्राप्त उपयोगिता की वास्तविक मात्रा में कुछ यादृच्छिकता है, जो पसंद में जाने वाले अन्य अप्रतिबंधित कारकों के लिए जिम्मेदार है। वास्तविक चर का मान <math>Y_i</math> तब इन अव्यक्त चरों से एक गैर-यादृच्छिक फैशन में निर्धारित किया जाता है (अर्थात यादृच्छिकता को देखे गए परिणामों से अव्यक्त चर में ले जाया गया है), जहां परिणाम k को चुना जाता है यदि और केवल यदि संबद्ध उपयोगिता (का मान) <math>Y_{i,k}^{\ast}</math>) अन्य सभी विकल्पों की उपयोगिताओं से अधिक है, अर्थात यदि परिणाम k से जुड़ी उपयोगिता सभी उपयोगिताओं में से अधिकतम है। चूँकि अव्यक्त चर निरंतर परिवर्तनशील होते हैं, दो के बिल्कुल समान मान होने की संभावना 0 होती है, इसलिए हम परिदृश्य को अनदेखा कर देते हैं। वह है:
इस अव्यक्त चर को डेटा बिंदु से जुड़ी उपयोगिता के रूप में माना जा सकता है, मैं परिणाम k चुन रहा हूं, जहां प्राप्त उपयोगिता की वास्तविक मात्रा में कुछ यादृच्छिकता है, जो विकल्प में जाने वाले अन्य अप्रतिबंधित कारकों के लिए जिम्मेदार है। वास्तविक चर का मान <math>Y_i</math> तब इन अव्यक्त चरों से एक गैर-यादृच्छिक फैशन में निर्धारित किया जाता है (अर्थात यादृच्छिकता को देखे गए परिणामों से अव्यक्त चर में ले जाया गया है), जहां परिणाम k को चुना जाता है यदि और केवल यदि संबद्ध उपयोगिता (का मान) <math>Y_{i,k}^{\ast}</math>) अन्य सभी विकल्पों की उपयोगिताओं से अधिक है, अर्थात यदि परिणाम k से जुड़ी उपयोगिता सभी उपयोगिताओं में से अधिकतम है। चूँकि अव्यक्त चर निरंतर परिवर्तनशील होते हैं, दो के बिल्कुल समान मान होने की संभावना 0 होती है, इसलिए हम परिदृश्य को अनदेखा कर देते हैं। वह है:


: <math>
: <math>
Line 197: Line 199:
</math>
</math>
यहां समझने के लिए कुछ चीजें हैं:
यहां समझने के लिए कुछ चीजें हैं:
# सामान्य तौर पर, अगर <math>X \sim \operatorname{EV}_1(a,b)</math> और <math>Y \sim \operatorname{EV}_1(a,b)</math> तब <math>X - Y \sim \operatorname{Logistic}(0,b).</math> यही है, दो [[स्वतंत्र समान रूप से वितरित]] चरम-मान-वितरित चर का अंतर [[रसद वितरण]] का अनुसरण करता है, जहां पहला पैरामीटर महत्वहीन है। यह समझ में आता है क्योंकि पहला पैरामीटर एक [[स्थान पैरामीटर]] है, यानी यह माध्य को एक निश्चित राशि से बदलता है, और यदि दो मानों को एक ही राशि से स्थानांतरित किया जाता है, तो उनका अंतर समान रहता है। इसका मतलब यह है कि किसी दिए गए विकल्प की संभावना के अंतर्गत आने वाले सभी संबंधपरक बयानों में रसद वितरण सम्मिलित  है, जो चरम-मान वितरण की प्रारंभिक पसंद बनाता है, जो कि मनमाना लगता है, कुछ हद तक अधिक समझने योग्य है।
# सामान्य तौर पर, अगर <math>X \sim \operatorname{EV}_1(a,b)</math> और <math>Y \sim \operatorname{EV}_1(a,b)</math> तब <math>X - Y \sim \operatorname{Logistic}(0,b).</math> यही है, दो [[स्वतंत्र समान रूप से वितरित]] चरम-मान-वितरित चर का अंतर [[रसद वितरण]] का अनुसरण करता है, जहां पहला पैरामीटर महत्वहीन है। यह समझ में आता है क्योंकि पहला पैरामीटर एक [[स्थान पैरामीटर]] है, यानी यह माध्य को एक निश्चित राशि से बदलता है, और यदि दो मानों को एक ही राशि से स्थानांतरित किया जाता है, तो उनका अंतर समान रहता है। इसका मतलब यह है कि किसी दिए गए विकल्प की संभावना के अंतर्गत आने वाले सभी संबंधपरक बयानों में रसद वितरण सम्मिलित  है, जो चरम-मान वितरण की प्रारंभिक विकल्प बनाता है, जो कि मनमाना लगता है, कुछ हद तक अधिक समझने योग्य है।
# एक्सट्रीम-वैल्यू या लॉजिस्टिक डिस्ट्रीब्यूशन में दूसरा पैरामीटर एक [[स्केल पैरामीटर]] है, जैसे कि यदि <math>X \sim \operatorname{Logistic}(0,1)</math> तब <math>bX \sim \operatorname{Logistic}(0,b).</math> इसका मतलब यह है कि स्केल 1 के स्थान पर एक मनमाने पैमाने के पैरामीटर के साथ एक त्रुटि चर का उपयोग करने के प्रभाव को सभी प्रतिगमन वैक्टरों को उसी पैमाने से गुणा करके मुआवजा दिया जा सकता है। पिछले बिंदु के साथ, यह दर्शाता है कि त्रुटि चर के लिए मानक चरम-मान वितरण (स्थान 0, स्केल 1) का उपयोग मनमाने ढंग से चरम-मान वितरण का उपयोग करने पर सामान्यता का कोई नुकसान नहीं करता है। वास्तव में, यदि अधिक सामान्य वितरण का उपयोग किया जाता है तो मॉडल गैर-पहचान योग्य (इष्टतम गुणांक का कोई एकल समूह नहीं) है।
# Xट्रीम-वैल्यू या लॉजिस्टिक डिस्ट्रीब्यूशन में दूसरा पैरामीटर एक [[स्केल पैरामीटर]] है, जैसे कि यदि <math>X \sim \operatorname{Logistic}(0,1)</math> तब <math>bX \sim \operatorname{Logistic}(0,b).</math> इसका मतलब यह है कि स्केल 1 के स्थान पर एक मनमाने पैमाने के पैरामीटर के साथ एक त्रुटि चर का उपयोग करने के प्रभाव को सभी प्रतिगमन वैक्टरों को उसी पैमाने से गुणा करके मुआवजा दिया जा सकता है। पिछले बिंदु के साथ, यह दर्शाता है कि त्रुटि चर के लिए मानक चरम-मान वितरण (स्थान 0, स्केल 1) का उपयोग मनमाने ढंग से चरम-मान वितरण का उपयोग करने पर सामान्यता का कोई नुकसान नहीं करता है। यथार्थ, यदि अधिक सामान्य वितरण का उपयोग किया जाता है तो मॉडल गैर-पहचान योग्य (इष्टतम गुणांक का कोई एकल समूह नहीं) है।
# क्योंकि केवल प्रतिगमन गुणांक के वैक्टर के अंतर का उपयोग किया जाता है, सभी गुणांक वैक्टरों के लिए एक मनमाना स्थिरांक जोड़ने से मॉडल पर कोई प्रभाव नहीं पड़ता है। इसका मतलब यह है कि, लॉग-लीनियर मॉडल की तरह, गुणांक वैक्टरों में से केवल K-1 की पहचान की जा सकती है, और अंतिम वाले को मनमाने मान पर समूह किया जा सकता है (उदाहरण के लिए 0)।
# क्योंकि केवल प्रतिगमन गुणांक के वैक्टर के अंतर का उपयोग किया जाता है, सभी गुणांक वैक्टरों के लिए एक मनमाना स्थिरांक जोड़ने से मॉडल पर कोई प्रभाव नहीं पड़ता है। इसका मतलब यह है कि, लॉग-लीनियर मॉडल की तरह, गुणांक वैक्टरों में से केवल K-1 की पहचान की जा सकती है, और अंतिम वाले को मनमाने मान पर समूह किया जा सकता है (उदाहरण के लिए 0)।


वास्तव में उपरोक्त संभावनाओं के मानों को खोजना कुछ कठिन है, और मानों के एक समूह के एक विशेष [[आदेश आँकड़ा|अनुक्रमित आँकड़ा]] (पहला, यानी अधिकतम) की गणना करने की समस्या है। हालाँकि, यह दिखाया जा सकता है कि परिणामी अभिव्यक्तियाँ उपरोक्त योगों के समान हैं, अर्थात दोनों समान हैं।
यथार्थ उपरोक्त संभावनाओं के मानों को खोजना कुछ कठिन है, और मानों के एक समूह के एक विशेष [[आदेश आँकड़ा|अनुक्रमित आँकड़ा]] (पहला, यानी अधिकतम) की गणना करने की समस्या है। यद्यपि, यह दिखाया जा सकता है कि परिणामी अभिव्यक्तियाँ उपरोक्त योगों के समान हैं, अर्थात दोनों समान हैं।


== अवरोधन का अनुमान ==
== अवरोधन का अनुमान ==
Line 207: Line 209:


== [[प्राकृतिक भाषा प्रसंस्करण]] == में आवेदन
== [[प्राकृतिक भाषा प्रसंस्करण]] == में आवेदन
प्राकृतिक भाषा प्रसंस्करण में, बहुराष्ट्रीय LR वर्गीकारकों का उपयोग सामान्यतः  सहज बेयस वर्गीकारकों के विकल्प के रूप में किया जाता है क्योंकि वे भविष्यवाणियों के रूप में सेवा करने वाले यादृच्छिक चर (सामान्यतः  सुविधाओं के रूप में जाना जाता है) की [[सांख्यिकीय स्वतंत्रता]] नहीं मानते हैं। हालांकि, इस तरह के एक मॉडल में सीखना एक सरल बेयस वर्गीकरणकर्ता की तुलना में धीमा है, और इस प्रकार सीखने के लिए बहुत बड़ी संख्या में उपयुक्त नहीं हो सकता है। विशेष रूप से, Naive Bayes वर्गीकरणकर्ता में सीखना सुविधाओं और कक्षाओं की सह-घटनाओं की संख्या को गिनने का एक साधारण मामला है, जबकि अधिकतम एन्ट्रॉपी वर्गीकरणकर्ता में वज़न, जो सामान्यतः  अधिकतम पोस्टीरियरी (MAP) अनुमान का उपयोग करके अधिकतम किया जाता है, होना चाहिए पुनरावृत्त प्रक्रिया का उपयोग करके सीखा जा सकता है; देखें #गुणांकों का अनुमान लगाना।
प्राकृतिक भाषा प्रसंस्करण में, बहुराष्ट्रीय LR वर्गीकारकों का उपयोग सामान्यतः  सहज बेयस वर्गीकारकों के विकल्प के रूप में किया जाता है क्योंकि वे भविष्यवाणियों के रूप में सेवा करने वाले यादृच्छिक चर (सामान्यतः  सुविधाओं के रूप में जाना जाता है) की [[सांख्यिकीय स्वतंत्रता]] नहीं मानते हैं। यद्यपि , इस तरह के एक मॉडल में सीखना एक सरल बेयस वर्गीकरणकर्ता की तुलना में धीमा है, और इस प्रकार सीखने के लिए बहुत बड़ी संख्या में उपयुक्त नहीं हो सकता है। विशेष रूप से, Naive Bayes वर्गीकरणकर्ता में सीखना सुविधाओं और कक्षाओं की सह-घटनाओं की संख्या को गिनने का एक साधारण मामला है, जबकि अधिकतम एन्ट्रॉपी वर्गीकरणकर्ता में वज़न, जो सामान्यतः  अधिकतम पोस्टीरियरी (MAP) अनुमान का उपयोग करके अधिकतम किया जाता है, होना चाहिए पुनरावृत्त प्रक्रिया का उपयोग करके सीखा जा सकता है; देखें #गुणांकों का अनुमान लगाना।


== यह भी देखें ==
== यह भी देखें ==

Revision as of 16:25, 11 March 2023

आँकड़ों में, बहुराष्ट्रीय रसद प्रतिगमन एक सांख्यिकीय वर्गीकरण पद्धति है जो बहुवर्गीय वर्गीकरण के लिए रसद प्रतिगमन को सामान्यीकृत करता है, अर्थात दो से अधिक संभावित असतत परिणामों के साथ।[1] यही है, यह एक मॉडल है जिसका उपयोग एक श्रेणीबद्ध वितरण आश्रित चर के विभिन्न संभावित परिणामों की संभावनाओं की भविष्यवाणी करने के लिए किया जाता है, स्वतंत्र चर का एक समूह दिया जाता है (जो वास्तविक-मानित, द्विचर-मानित, श्रेणीबद्ध-मानित आदि हो सकता है।).

बहुराष्ट्रीय रसद प्रतिगमन को कई अन्य नामों से जाना जाता है, जिसमें बहुभाजी LR,[2][3] बहुकक्ष LR, सॉफ्टमैक्स प्रतिगमन, बहुपद लॉगिट (एमलॉगिट), अधिकतम एन्ट्रॉपी ( मैक्सएंट) वर्गीकरणकर्ता, और सशर्त अधिकतम एन्ट्रापी मॉडल सम्मिलित है।[4]


पृष्ठाधार

बहुराष्ट्रीय रसद प्रतिगमन का उपयोग तब किया जाता है जब प्रश्न में आश्रित चर नाममात्र होता है (समतुल्य श्रेणीबद्ध, जिसका अर्थ है कि यह श्रेणियों के किसी भी एक समूह में आता है जिसे किसी भी सार्थक रूप से अनुक्रमित नहीं किया जा सकता है) और जिसके लिए दो से अधिक श्रेणियां हैं। कुछ उदाहरण होंगे:

  • एक महाविद्यालय के छात्र अपनी श्रेणी, बताई गई पसंद और नापसंद आदि को देखते हुए कौन सा विषय चुनेंगे?
  • विभिन्न नैदानिक ​​परीक्षणों के परिणामों को देखते हुए, एक व्यक्ति का रक्त प्रकार कौन सा है?
  • एक हैंड्-फ़्री मोबाइल फ़ोन डायलिंग एप्लिकेशन में, किस व्यक्ति का नाम बोला गया था, भाषण संकेत के विभिन्न गुण दिए गए थे?
  • विशेष जनसांख्यिकीय विशेषताओं को देखते हुए कोई व्यक्ति किस उम्मीदवार को वोट देगा?
  • व्यवसाय की और विभिन्न उम्मीदवार देशों की विशेषताओं को देखते हुए, एक व्यवसाय किस देश में अपना कार्यालय स्थापित करेगी?

ये सभी सांख्यिकीय वर्गीकरण की समस्याएं हैं। उन सभी में सामान्यतः भविष्यवाणी करने के लिए एक आश्रित चर होता है जो कि वस्तुओं के एक सीमित समूह से आता है जिसे सार्थक रूप से अनुक्रमित नहीं किया जा सकता है, साथ ही साथ स्वतंत्र चर का एक समूह (जिसे सुविधाओं, स्पष्टीकरण आदि के रूप में भी जाना जाता है), जिसका उपयोग आश्रित चर की भविष्यवाणी करने के लिए किया जाता है। बहुराष्ट्रीय रसद प्रतिगमन वर्गीकरण समस्याओं का एक विशेष हल है जो आश्रित चर के प्रत्येक विशेष मान की संभावना का अनुमान लगाने के लिए देखी गई विशेषताओं और कुछ समस्या-विशिष्ट मापदंडों के एक रैखिक संयोजन का उपयोग करता है। किसी दी गई समस्या के लिए मापदंडों के सर्वोत्तम मानों को सामान्यतः कुछ प्रशिक्षण डेटा से निर्धारित किया जाता है (उदाहरण के लिए कुछ लोग जिनके लिए नैदानिक ​​​​परीक्षण के परिणाम और रक्त प्रकार दोनों ज्ञात हैं, या ज्ञात शब्दों के कुछ उदाहरण बोले जा रहे हैं)।

अनुमान

बहुराष्ट्रीय रसद मॉडल मानता है कि डेटा केस-विशिष्ट हैं; अर्थात्, प्रत्येक स्वतंत्र चर का प्रत्येक विषय के लिए एक मान होता है। बहुराष्ट्रीय रसद मॉडल यह भी मानता है कि आश्रित चर को किसी भी विषय के लिए स्वतंत्र चर से पूर्ण रूप से भविष्यवाणी नहीं की जा सकती है। अन्य प्रकार के प्रतिगमन के साथ, स्वतंत्र चर को एक दूसरे से सांख्यिकीय रूप से स्वतंत्र होने की कोई आवश्यकता नहीं है (उदाहरण के लिए, बेयस वर्गीकरणकर्ता के विपरीत); यद्यपि, बहुसंरेखता को अपेक्षाकृत कम माना जाता है, क्योंकि यदि ऐसा नहीं है तो कई चरों के प्रभाव के बीच अंतर करना जटिल हो जाता है।[5]

यदि बहुपद लॉगिट का उपयोग मॉडल विकल्पों के लिए किया जाता है, तो यह अप्रासंगिक विकल्पों (आईआईए) की स्वतंत्रता की धारणा पर निर्भर करता है, जो सदैव वांछनीय नहीं होता है। यह धारणा बताती है कि एक वर्ग को दूसरे पर वरीयता देने की संभावना अन्य अप्रासंगिक विकल्पों की उपस्थिति या अनुपस्थिति पर निर्भर नहीं करती है। उदाहरण के लिए, यदि साइकिल को अतिरिक्त संभावना के रूप में जोड़ा जाता है तो कार या बस को कार्य पर ले जाने की सापेक्ष संभावनाएँ नहीं बदलतीं। यह K-1 स्वतंत्र द्विचर विकल्पों के एक समूह के रूप में K विकल्पों की पसंद को मॉडल करने की अनुमति देती है, जिसमें एक विकल्प को धुरी के रूप में चुना जाता है और दूसरे K-1 की तुलना में, एक समय में एक। आईआईए परिकल्पना तर्कसंगत विकल्प सिद्धांत में एक मुख्य परिकल्पना है; यद्यपि मनोविज्ञान में कई अध्ययनों से पता चलता है कि चुनाव करते समय व्यक्ति प्रायः इस धारणा का उल्लंघन करते हैं। यदि विकल्प में एक कार और एक नीली बस सम्मिलित है तो समस्या का एक उदाहरण सामने आता है। मान लीजिए कि दोनों के बीच विषम अनुपात 1:1 है। अब यदि लाल बस का विकल्प प्रस्तुत किया जाता है, तो एक व्यक्ति लाल और नीली बस के बीच निरपेक्ष हो सकता है, और इसलिए एक कार: नीली बस: लाल बस का अनुपात 1: 0.5: 0.5 का प्रदर्शन कर सकता है, इस प्रकार एक 1: 1 अनुपात रखता है: किसी भी बस को परिवर्तित कार को अपनाने के समय: नीली बस का अनुपात 1: 0.5 है। यहां लाल बस का विकल्प यथार्थ अप्रासंगिक नहीं था, क्योंकि लाल बस नीले रंग की बस का सही विकल्प थी।

यदि बहुपद लॉगिट का उपयोग विकल्पों को मॉडल करने के लिए किया जाता है, तो यह कुछ स्थितियों में विभिन्न विकल्पों के बीच सापेक्ष प्राथमिकताओं पर बहुत अधिक प्रतिबंध लगा सकता है। यह बिंदु विशेष रूप से ध्यान में रखना महत्वपूर्ण है यदि विश्लेषण का उद्देश्य भविष्यवाणी करना है कि यदि एक विकल्प अंतर्हित हो जाता है तो विकल्प कैसे बदलेंगे (उदाहरण के लिए यदि एक राजनीतिक उम्मीदवार तीन उम्मीदवारों की दौड़ से हट जाता है)। अन्य मॉडल जैसे नीडन लॉगिट या बहुराष्ट्रीय संभावना का उपयोग ऐसे विषयों में किया जा सकता है क्योंकि वे आईआईए के उल्लंघन की अनुमति देते हैं।[6]


मॉडल

परिचय

बहुराष्ट्रीय रसद प्रतिगमन अंतर्निहित गणितीय मॉडल का वर्णन करने के लिए कई समान रूप हैं। इससे विभिन्न पाठों में विषय के विभिन्न उपचारों की तुलना करना कठिन हो सकता है। लॉजिस्टिक प्रतिगमन पर लेख सरल लॉजिस्टिक प्रतिगमन के कई समतुल्य सूत्रीकरण प्रस्तुत करता है, और इनमें से कई बहुपद लॉगिट मॉडल में अनुरूप हैं।

उन सभी के पीछे का विचार, जैसा कि कई अन्य सांख्यिकीय वर्गीकरण तकनीकों में है, एक रैखिक भविष्यवक्ता फलन का निर्माण करना है जो भार के एक समूह से एक अंक बनाता है जो एक बिंदु उत्पाद का उपयोग करके दिए गए प्रेक्षण के व्याख्यात्मक चर (विशेषताओं) के साथ रैखिक संयोजन होता है। :

जहां Xi प्रेक्षण i का वर्णन करने वाले व्याख्यात्मक चरों का सदिश है βk भार (या प्रतिगमन गुणांक) का एक सदिश है जो परिणाम k के अनुरूप है, और अंक (Xi , k) श्रेणी k को प्रेक्षण i निर्दिष्ट करने से जुड़ा अंक है। असतत विकल्प सिद्धांत में, जहां प्रेक्षण लोगों का प्रतिनिधित्व करते हैं और परिणाम विकल्पों का प्रतिनिधित्व करते हैं, अंक को व्यक्ति i चुनने वाले परिणाम k से जुड़ी उपयोगिता माना जाता है। अनुमानित परिणाम उच्चतम अंक वाला है।

बहुपद लॉगिट मॉडल और कई अन्य तरीकों, मॉडल, एल्गोरिदम, आदि के बीच एक ही मूल सेटअप (परसेप्ट्रॉन एल्गोरिथ्म, समर्थन वेक्टर यंत्र , रैखिक विभेदक विश्लेषण, आदि) के बीच का अंतर इष्टतम भार निर्धारित (प्रशिक्षण) करने की प्रक्रिया है। / गुणांक और जिस तरह से अंक की व्याख्या की जाती है। विशेष रूप से, बहुपद लॉगिट मॉडल में, अंक को सीधे प्रायिकता मान में परिवर्तित किया जा सकता है, जो प्रेक्षण की मापित विशेषताओं को देखते हुए परिणाम k चुनने की संभावना को दर्शाता है। यह एक विशेष बहुराष्ट्रीय लॉगिट मॉडल की भविष्यवाणी को एक बड़ी प्रक्रिया में सम्मिलित करने का एक सैद्धांतिक तरीका प्रदान करता है जिसमें त्रुटि की संभावना के साथ प्रत्येक ऐसी कई भविष्यवाणियां सम्मिलित हो सकती हैं। भविष्यवाणियों के संयोजन के ऐसे साधनों के बिना, त्रुटियाँ कई गुना बढ़ जाती हैं। उदाहरण के लिए, एक बड़े भविष्य कहनेवाला मॉडलिंग की कल्पना करें, जो सबमॉडल्स की एक श्रृंखला में टूट जाता है, जहां एक दिए गए सबमॉडल की भविष्यवाणी को दूसरे सबमॉडल के इनपुट के रूप में उपयोग किया जाता है, और उस भविष्यवाणी को तीसरे सबमॉडल में इनपुट के रूप में उपयोग किया जाता है, आदि। यदि प्रत्येक उपमॉडल की भविष्यवाणी में 90% सटीकता है, और श्रृंखला में पांच उपमॉडल हैं, तो समग्र मॉडल में केवल 0.9 है5 = 59% सटीकता। यदि प्रत्येक सबमॉडल में 80% सटीकता है, तो समग्र सटीकता 0.8 तक गिर जाती है5 = 33% सटीकता। इस मुद्दे को त्रुटि प्रसार के रूप में जाना जाता है और यह वास्तविक दुनिया के भविष्य कहनेवाला मॉडल में एक गंभीर समस्या है, जो सामान्यतः कई भागों से बना होता है। केवल एक इष्टतम भविष्यवाणी करने के बजाय प्रत्येक संभावित परिणाम की संभावनाओं की भविष्यवाणी करना, इस मुद्दे को कम करने का एक साधन है।[citation needed]

सेटअप

मूल सेटअप रसद प्रतिगमन के समान है, केवल अंतर यह है कि आश्रित चर द्विआधारी चर के बजाय श्रेणीबद्ध चर हैं, अर्थात केवल दो के बजाय K संभावित परिणाम हैं। निम्नलिखित विवरण कुछ छोटा है; अधिक जानकारी के लिए, रसद प्रतिगमन लेख देखें।

डेटा बिंदु

विशेष रूप से, यह माना जाता है कि हमारे पास एन देखे गए डेटा बिंदुओं की एक श्रृंखला है। प्रत्येक डेटा बिंदु i (1 से N तक) में M व्याख्यात्मक चर x का एक समूह होता है1,i ... XM,i (उर्फ स्वतंत्र चर, पूर्वसूचक चर, सुविधाएँ, आदि), और एक संबद्ध श्रेणीबद्ध चर परिणाम Yi (उर्फ आश्रित चर, प्रतिक्रिया चर), जो K संभावित मानों में से एक पर ले सकता है। ये संभावित मान तार्किक रूप से अलग-अलग श्रेणियों (जैसे विभिन्न राजनीतिक दलों, रक्त प्रकार, आदि) का प्रतिनिधित्व करते हैं, और प्रायः गणितीय रूप से प्रत्येक को 1 से K तक मनमाने ढंग से निर्दिष्ट करके वर्णित किया जाता है। व्याख्यात्मक चर और परिणाम डेटा बिंदुओं के देखे गए गुणों का प्रतिनिधित्व करते हैं, और प्रायः एन प्रयोगों की टिप्पणियों में उत्पन्न होने के बारे में सोचा जाता है - यद्यपि एक प्रयोग में डेटा एकत्र करने से ज्यादा कुछ नहीं हो सकता है। बहुराष्ट्रीय रसद प्रतिगमन का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो व्याख्यात्मक चर और परिणाम के बीच संबंध की व्याख्या करता है, ताकि एक नए प्रयोग के परिणाम को एक नए डेटा बिंदु के लिए सही ढंग से भविष्यवाणी की जा सके, जिसके लिए व्याख्यात्मक चर, लेकिन परिणाम नहीं , उपलब्ध हैं। इस प्रक्रिया में, मॉडल परिणाम पर अलग-अलग व्याख्यात्मक चर के सापेक्ष प्रभाव को समझाने का प्रयास करता है।

कुछ उदाहरण:

  • देखे गए परिणाम मरीजों के एक समूह में हेपेटाइटिस (संभवत: कोई बीमारी और/या अन्य संबंधित बीमारियों सहित) जैसी बीमारी के विभिन्न प्रकार हैं, और व्याख्यात्मक चर उन रोगियों की विशेषताएं हो सकती हैं जिन्हें उचित माना जाता है (लिंग, जाति, आयु, रक्तचाप, विभिन्न यकृत-कार्य परीक्षणों के परिणाम, आदि)। लक्ष्य तब भविष्यवाणी करना है कि कौन सी बीमारी एक नए रोगी में यकृत से संबंधित लक्षणों का कारण बन रही है।
  • देखे गए परिणाम एक चुनाव में लोगों के एक समूह द्वारा चुनी गई पार्टी हैं, और व्याख्यात्मक चर प्रत्येक व्यक्ति की जनसांख्यिकीय विशेषताएं हैं (जैसे लिंग, जाति, आयु, आय, आदि)। लक्ष्य तब दी गई विशेषताओं के साथ एक नए मतदाता के संभावित वोट की भविष्यवाणी करना है।

रैखिक भविष्यवक्ता

रेखीय प्रतिगमन के अन्य रूपों की तरह, बहुराष्ट्रीय रसद प्रतिगमन एक रेखीय भविष्यवक्ता फलन का उपयोग करता है संभावना की भविष्यवाणी करने के लिए कि प्रेक्षण i का परिणाम k है, निम्नलिखित रूप में:

कहाँ mth व्याख्यात्मक चर और kth परिणाम से जुड़ा एक प्रतिगमन गुणांक है। जैसा कि रसद प्रतिगमन लेख में समझाया गया है, प्रतिगमन गुणांक और व्याख्यात्मक चर सामान्यतः आकार एम + 1 के वैक्टर में समूहीकृत होते हैं, ताकि भविष्यवक्ता फलन को अधिक कॉम्पैक्ट रूप से लिखा जा सके:

कहाँ परिणाम के साथ जुड़े प्रतिगमन गुणांक का समूह है, और (एक पंक्ति वेक्टर) प्रेक्षण i से जुड़े व्याख्यात्मक चर का समूह है।

स्वतंत्र द्विचर प्रतिगमन के एक समूह के रूप में

बहुपद लॉगिट मॉडल पर पहुंचने के लिए, K संभावित परिणामों के लिए, K-1 स्वतंत्र द्विचर लॉजिस्टिक प्रतिगमन मॉडल चलाने की कल्पना की जा सकती है, जिसमें एक परिणाम को पिवट के रूप में चुना जाता है और फिर अन्य K-1 परिणामों को पिवट के खिलाफ अलग से रिग्रेस किया जाता है। नतीजा। यदि परिणाम K (अंतिम परिणाम) को धुरी के रूप में चुना जाता है, तो K-1 प्रतिगमन समीकरण हैं:

.

इस सूत्रीकरण को कंपोज़िशनल_डेटा # एडिटिव_लोग्रेटियो_ट्रांसफ़ॉर्म ट्रांसफ़ॉर्म के रूप में भी जाना जाता है, जो सामान्यतः कंपोज़िशनल डेटा विश्लेषण में उपयोग किया जाता है। यदि हम दोनों पक्षों को प्रतिपादित करते हैं और संभावनाओं को हल करते हैं, तो हमें मिलता है:

इस तथ्य का उपयोग करते हुए कि सभी K संभावनाओं का योग एक होना चाहिए, हम पाते हैं:

.

हम इसका उपयोग अन्य संभावनाओं को खोजने के लिए कर सकते हैं:

.

तथ्य यह है कि हम कई प्रतिगमन चलाते हैं, यह बताता है कि मॉडल ऊपर वर्णित अप्रासंगिक विकल्पों की स्वतंत्रता की धारणा पर क्यों निर्भर करता है।

गुणांक का आकलन

प्रत्येक सदिश β' में अज्ञात पैरामीटरkसामान्यतः संयुक्त रूप से अधिकतम पोस्टीरियरी (एमएपी) अनुमान द्वारा अनुमान लगाया जाता है, जो रोग संबंधी हलों को रोकने के लिए भार के नियमितीकरण (गणित) का उपयोग करके अधिकतम संभावना का विस्तार है (सामान्यतः एक स्क्वायर रेगुलराइजिंग फलन, जो शून्य-माध्य गॉसियन वितरण रखने के बराबर है भार पर पूर्व वितरण, लेकिन अन्य वितरण भी संभव हैं)। हल सामान्यतः पुनरावृत्त प्रक्रिया जैसे सामान्यीकृत पुनरावृत्त स्केलिंग का उपयोग करके पाया जाता है,[7] पुनरावृत्त रूप से कम से कम वर्ग (आईआरएलएस),[8] एल-बीएफजीएस जैसे ढाल-आधारित अनुकूलन एल्गोरिदम के माध्यम से,[4]या विशेष समन्वय वंश एल्गोरिदम द्वारा।[9]


=== लॉग-लीनियर मॉडल === के रूप में

लॉजिस्टिक प्रतिगमन#लॉग-लीनियर मॉडल|लॉग-लीनियर मॉडल के रूप में द्विचर लॉजिस्टिक प्रतिगमन का सूत्रीकरण सीधे मल्टी-वे प्रतिगमन तक बढ़ाया जा सकता है। अर्थात्, हम रैखिक भविष्यवक्ता के साथ-साथ एक अतिरिक्त सामान्यीकरण कारक, विभाजन फलन (गणित) के लघुगणक का उपयोग करके दिए गए आउटपुट को देखने की संभावना के लघुगणक को मॉडल करते हैं:

.

जैसा कि द्विचर विषय में होता है, हमें एक अतिरिक्त पद की आवश्यकता होती है यह सुनिश्चित करने के लिए कि संभावनाओं का पूरा समूह एक प्रायिकता वितरण बनाता है, यानी कि वे सभी एक के लिए योग करें:

सामान्य रूप से गुणा करने के बजाय हमें सामान्यीकरण सुनिश्चित करने के लिए एक शब्द जोड़ने की आवश्यकता है, इसका कारण यह है कि हमने संभावनाओं का लघुगणक लिया है। दोनों पक्षों का घातांक योगात्मक शब्द को गुणक कारक में बदल देता है, जिससे कि संभावना सिर्फ गिब्स उपाय है:

.

वितरण के लिए मात्रा Z को विभाजन फलन (गणित) कहा जाता है। हम उपरोक्त बाधा को लागू करके विभाजन फलन के मान की गणना कर सकते हैं जिसके लिए सभी संभावनाओं को 1 तक जमा करने की आवश्यकता होती है:

इसलिए:

ध्यान दें कि यह कारक इस अर्थ में स्थिर है कि यह Y का कार्य नहीं हैi, जो कि वह चर है जिस पर संभाव्यता वितरण परिभाषित किया गया है। यद्यपि , यह निश्चित रूप से व्याख्यात्मक चर के संबंध में स्थिर नहीं है, या महत्वपूर्ण रूप से, अज्ञात प्रतिगमन गुणांक β के संबंध मेंk, जिसे हमें किसी प्रकार की गणितीय अनुकूलन प्रक्रिया के माध्यम से निर्धारित करने की आवश्यकता होगी।

संभावनाओं के लिए परिणामी समीकरण हैं

.

या सामान्यतः :

निम्नलिखित कार्य:

सॉफ्टमैक्स फलन के रूप में जाना जाता है। इसका कारण यह है कि मानों को प्रतिपादित करने का प्रभाव उनके बीच मतभेदों को बढ़ा-चढ़ाकर प्रस्तुत करना है। नतीजतन, जब भी 0 के करीब का मान लौटाएगासभी मानों के अधिकतम से काफी कम है, और अधिकतम मान पर लागू होने पर 1 के करीब मान लौटाएगा, जब तक कि यह अगले-सबसे बड़े मान के बेहद करीब न हो। इस प्रकार, सॉफ्टमैक्स फलन का उपयोग भारित औसत बनाने के लिए किया जा सकता है जो एक चिकनी फलन के रूप में व्यवहार करता है (जो आसानी से भेदभाव (गणित), आदि हो सकता है) और जो संकेतक फलन का अनुमान लगाता है

इस प्रकार, हम संभाव्यता समीकरणों को इस प्रकार लिख सकते हैं

सॉफ्टमैक्स फलन इस प्रकार द्विचर लॉजिस्टिक प्रतिगमन में रसद समारोह के समतुल्य के रूप में कार्य करता है।

ध्यान दें कि सभी नहीं गुणांक के वैक्टर विशिष्ट पहचान योग्य हैं। यह इस तथ्य के कारण है कि सभी संभावनाओं का योग 1 होना चाहिए, बाकी सभी ज्ञात होने के बाद उनमें से एक पूर्ण रूप से निर्धारित हो जाती है। नतीजतन, ही हैं अलग से निर्दिष्ट संभावनाएँ, और इसलिए गुणांक के अलग-अलग पहचाने जाने योग्य वैक्टर। इसे देखने का एक तरीका यह है कि यदि हम सभी गुणांक सदिशों में एक स्थिर सदिश जोड़ते हैं, तो समीकरण समान होते हैं:

नतीजतन, यह समूह करने के लिए पारंपरिक है (या वैकल्पिक रूप से, अन्य गुणांक वैक्टरों में से एक)। अनिवार्य रूप से, हम स्थिरांक समूह करते हैं ताकि एक सदिश 0 हो जाए, और अन्य सभी सदिश उन सदिशों और हमारे द्वारा चुने गए सदिश के बीच के अंतर में रूपांतरित हो जाएं। यह K विकल्पों में से किसी एक के आस-पास पिवोट करने के बराबर है, और यह जांचना कि अन्य सभी K-1 विकल्प कितने बेहतर या खराब हैं, उस विकल्प के सापेक्ष जो हम घूम रहे हैं। गणितीय रूप से, हम गुणांकों को निम्नानुसार रूपांतरित करते हैं:

यह निम्नलिखित समीकरणों की ओर जाता है:

प्रतिगमन गुणांकों पर प्रमुख प्रतीकों के अलावा, यह K-1 स्वतंत्र दो-तरफ़ा प्रतिगमन के संदर्भ में ऊपर वर्णित मॉडल के रूप में बिल्कुल वैसा ही है।

=== एक अव्यक्त-चर मॉडल === के रूप में

लॉजिस्टिक प्रतिगमन#टू-वे लेटेंट-वैरिएबल मॉडल|द्विचर लॉजिस्टिक प्रतिगमन के लिए वर्णित टू-वे लेटेंट वेरिएबल मॉडल का पालन करते हुए एक लेटेंट वेरिएबल मॉडल के रूप में बहुपद लॉजिस्टिक प्रतिगमन तैयार करना भी संभव है। यह सूत्रीकरण असतत विकल्प मॉडल के सिद्धांत में सामान्य है, और बहुराष्ट्रीय रसद प्रतिगमन की तुलना संबंधित बहुराष्ट्रीय प्रोबिट मॉडल के साथ-साथ इसे और अधिक जटिल मॉडल तक विस्तारित करना आसान बनाता है।

कल्पना करें कि, प्रत्येक डेटा बिंदु i और संभावित परिणाम k=1,2,...,K के लिए, एक सतत अव्यक्त चर Y हैi,k* (अर्थात् एक बिना प्रेक्षण वाला यादृच्छिक चर) जिसे निम्नानुसार वितरित किया गया है:

कहाँ यानी एक मानक प्रकार -1 चरम मान वितरण

इस अव्यक्त चर को डेटा बिंदु से जुड़ी उपयोगिता के रूप में माना जा सकता है, मैं परिणाम k चुन रहा हूं, जहां प्राप्त उपयोगिता की वास्तविक मात्रा में कुछ यादृच्छिकता है, जो विकल्प में जाने वाले अन्य अप्रतिबंधित कारकों के लिए जिम्मेदार है। वास्तविक चर का मान तब इन अव्यक्त चरों से एक गैर-यादृच्छिक फैशन में निर्धारित किया जाता है (अर्थात यादृच्छिकता को देखे गए परिणामों से अव्यक्त चर में ले जाया गया है), जहां परिणाम k को चुना जाता है यदि और केवल यदि संबद्ध उपयोगिता (का मान) ) अन्य सभी विकल्पों की उपयोगिताओं से अधिक है, अर्थात यदि परिणाम k से जुड़ी उपयोगिता सभी उपयोगिताओं में से अधिकतम है। चूँकि अव्यक्त चर निरंतर परिवर्तनशील होते हैं, दो के बिल्कुल समान मान होने की संभावना 0 होती है, इसलिए हम परिदृश्य को अनदेखा कर देते हैं। वह है:

या समतुल्य :

आइए पहले समीकरण को अधिक बारीकी से देखें, जिसे हम इस प्रकार लिख सकते हैं:

यहां समझने के लिए कुछ चीजें हैं:

  1. सामान्य तौर पर, अगर और तब यही है, दो स्वतंत्र समान रूप से वितरित चरम-मान-वितरित चर का अंतर रसद वितरण का अनुसरण करता है, जहां पहला पैरामीटर महत्वहीन है। यह समझ में आता है क्योंकि पहला पैरामीटर एक स्थान पैरामीटर है, यानी यह माध्य को एक निश्चित राशि से बदलता है, और यदि दो मानों को एक ही राशि से स्थानांतरित किया जाता है, तो उनका अंतर समान रहता है। इसका मतलब यह है कि किसी दिए गए विकल्प की संभावना के अंतर्गत आने वाले सभी संबंधपरक बयानों में रसद वितरण सम्मिलित है, जो चरम-मान वितरण की प्रारंभिक विकल्प बनाता है, जो कि मनमाना लगता है, कुछ हद तक अधिक समझने योग्य है।
  2. Xट्रीम-वैल्यू या लॉजिस्टिक डिस्ट्रीब्यूशन में दूसरा पैरामीटर एक स्केल पैरामीटर है, जैसे कि यदि तब इसका मतलब यह है कि स्केल 1 के स्थान पर एक मनमाने पैमाने के पैरामीटर के साथ एक त्रुटि चर का उपयोग करने के प्रभाव को सभी प्रतिगमन वैक्टरों को उसी पैमाने से गुणा करके मुआवजा दिया जा सकता है। पिछले बिंदु के साथ, यह दर्शाता है कि त्रुटि चर के लिए मानक चरम-मान वितरण (स्थान 0, स्केल 1) का उपयोग मनमाने ढंग से चरम-मान वितरण का उपयोग करने पर सामान्यता का कोई नुकसान नहीं करता है। यथार्थ, यदि अधिक सामान्य वितरण का उपयोग किया जाता है तो मॉडल गैर-पहचान योग्य (इष्टतम गुणांक का कोई एकल समूह नहीं) है।
  3. क्योंकि केवल प्रतिगमन गुणांक के वैक्टर के अंतर का उपयोग किया जाता है, सभी गुणांक वैक्टरों के लिए एक मनमाना स्थिरांक जोड़ने से मॉडल पर कोई प्रभाव नहीं पड़ता है। इसका मतलब यह है कि, लॉग-लीनियर मॉडल की तरह, गुणांक वैक्टरों में से केवल K-1 की पहचान की जा सकती है, और अंतिम वाले को मनमाने मान पर समूह किया जा सकता है (उदाहरण के लिए 0)।

यथार्थ उपरोक्त संभावनाओं के मानों को खोजना कुछ कठिन है, और मानों के एक समूह के एक विशेष अनुक्रमित आँकड़ा (पहला, यानी अधिकतम) की गणना करने की समस्या है। यद्यपि, यह दिखाया जा सकता है कि परिणामी अभिव्यक्तियाँ उपरोक्त योगों के समान हैं, अर्थात दोनों समान हैं।

अवरोधन का अनुमान

बहुराष्ट्रीय रसद प्रतिगमन का उपयोग करते समय, आश्रित चर की एक श्रेणी को संदर्भ श्रेणी के रूप में चुना जाता है। संदर्भ श्रेणी के अपवाद के साथ आश्रित चर की प्रत्येक श्रेणी के लिए सभी स्वतंत्र चर के लिए अलग-अलग विषम अनुपात निर्धारित किए जाते हैं, जिसे विश्लेषण से हटा दिया जाता है। घातीय बीटा गुणांक संबंधित स्वतंत्र चर के एक इकाई परिवर्तन से जुड़े संदर्भ श्रेणी की तुलना में एक विशेष श्रेणी में होने वाले आश्रित चर के अंतर में परिवर्तन का प्रतिनिधित्व करता है।

== प्राकृतिक भाषा प्रसंस्करण == में आवेदन प्राकृतिक भाषा प्रसंस्करण में, बहुराष्ट्रीय LR वर्गीकारकों का उपयोग सामान्यतः सहज बेयस वर्गीकारकों के विकल्प के रूप में किया जाता है क्योंकि वे भविष्यवाणियों के रूप में सेवा करने वाले यादृच्छिक चर (सामान्यतः सुविधाओं के रूप में जाना जाता है) की सांख्यिकीय स्वतंत्रता नहीं मानते हैं। यद्यपि , इस तरह के एक मॉडल में सीखना एक सरल बेयस वर्गीकरणकर्ता की तुलना में धीमा है, और इस प्रकार सीखने के लिए बहुत बड़ी संख्या में उपयुक्त नहीं हो सकता है। विशेष रूप से, Naive Bayes वर्गीकरणकर्ता में सीखना सुविधाओं और कक्षाओं की सह-घटनाओं की संख्या को गिनने का एक साधारण मामला है, जबकि अधिकतम एन्ट्रॉपी वर्गीकरणकर्ता में वज़न, जो सामान्यतः अधिकतम पोस्टीरियरी (MAP) अनुमान का उपयोग करके अधिकतम किया जाता है, होना चाहिए पुनरावृत्त प्रक्रिया का उपयोग करके सीखा जा सकता है; देखें #गुणांकों का अनुमान लगाना।

यह भी देखें

  • संभार तन्त्र परावर्तन
  • बहुराष्ट्रीय संभावना

संदर्भ

  1. Greene, William H. (2012). अर्थमितीय विश्लेषण (Seventh ed.). Boston: Pearson Education. pp. 803–806. ISBN 978-0-273-75356-8.
  2. Engel, J. (1988). "पॉलीटॉमस लॉजिस्टिक रिग्रेशन". Statistica Neerlandica. 42 (4): 233–252. doi:10.1111/j.1467-9574.1988.tb01238.x.
  3. Menard, Scott (2002). एप्लाइड लॉजिस्टिक रिग्रेशन एनालिसिस. SAGE. p. 91. ISBN 9780761922087.
  4. 4.0 4.1 Malouf, Robert (2002). अधिकतम एंट्रॉपी पैरामीटर आकलन के लिए एल्गोरिदम की तुलना (PDF). Sixth Conf. on Natural Language Learning (CoNLL). pp. 49–55.
  5. Belsley, David (1991). Conditioning diagnostics : collinearity and weak data in regression. New York: Wiley. ISBN 9780471528890.
  6. Baltas, G.; Doyle, P. (2001). "Random Utility Models in Marketing Research: A Survey". Journal of Business Research. 51 (2): 115–125. doi:10.1016/S0148-2963(99)00058-2.
  7. Darroch, J.N. & Ratcliff, D. (1972). "लॉग-लीनियर मॉडल के लिए सामान्यीकृत पुनरावृत्ति स्केलिंग". The Annals of Mathematical Statistics. 43 (5): 1470–1480. doi:10.1214/aoms/1177692379.
  8. Bishop, Christopher M. (2006). पैटर्न मान्यता और मशीन प्रवीणता. Springer. pp. 206–209.
  9. Yu, Hsiang-Fu; Huang, Fang-Lan; Lin, Chih-Jen (2011). "रसद प्रतिगमन और अधिकतम एन्ट्रापी मॉडल के लिए दोहरी समन्वय वंश पद्धति" (PDF). Machine Learning. 85 (1–2): 41–75. doi:10.1007/s10994-010-5221-8.