बहुपद तार्किक प्रतिगमन

आँकड़ों में, बहुराष्ट्रीय रसद प्रतिगमन एक सांख्यिकीय वर्गीकरण पद्धति है जो बहुवर्गीय वर्गीकरण के लिए रसद प्रतिगमन को सामान्यीकृत करता है, अर्थात दो से अधिक संभावित असतत परिणामों के साथ। यही है, यह एक मॉडल है जिसका उपयोग एक श्रेणीबद्ध वितरण निर्भर चर के विभिन्न संभावित परिणामों की संभावनाओं की भविष्यवाणी करने के लिए किया जाता है, स्वतंत्र चर का एक समूह दिया जाता है (जो वास्तविक-मानित, द्विचर-मानित, श्रेणीबद्ध-मानित आदि हो सकता है।).

बहुराष्ट्रीय रसद प्रतिगमन को कई अन्य नामों से जाना जाता है, जिसमें बहुपत्नी LR सम्मिलित है,  मल्टीक्लास LR, सॉफ्टमैक्स एक्टिवेशन फंक्शन रिग्रेशन, मल्टीनोमियल लॉगिट (mlogit), अधिकतम एन्ट्रॉपी (MaxEnt) क्लासिफायरियर, और सशर्त अधिकतम एन्ट्रापी मॉडल।

पृष्ठभूमि
बहुराष्ट्रीय रसद प्रतिगमन का उपयोग तब किया जाता है जब प्रश्न में आश्रित चर माप का स्तर # नाममात्र माप होता है (समकक्ष श्रेणीबद्ध, जिसका अर्थ है कि यह किसी भी श्रेणी के समूह में आता है जिसे किसी भी सार्थक तरीके से आदेश नहीं दिया जा सकता है) और जिसके लिए इससे अधिक हैं दो श्रेणियां। कुछ उदाहरण होंगे: ये सभी सांख्यिकीय वर्गीकरण की समस्याएं हैं। उन सभी में आम तौर पर भविष्यवाणी करने के लिए एक निर्भर चर होता है जो कि वस्तुओं के एक सीमित समूह से आता है जिसे सार्थक रूप से आदेश नहीं दिया जा सकता है, साथ ही साथ स्वतंत्र चर का एक समूह (जिसे सुविधाओं, स्पष्टीकरण आदि के रूप में भी जाना जाता है), जिसका उपयोग किया जाता है निर्भर चर की भविष्यवाणी करने के लिए। बहुराष्ट्रीय रसद प्रतिगमन वर्गीकरण समस्याओं का एक विशेष समाधान है जो आश्रित चर के प्रत्येक विशेष मूल्य की संभावना का अनुमान लगाने के लिए देखी गई विशेषताओं और कुछ समस्या-विशिष्ट मापदंडों के एक रैखिक संयोजन का उपयोग करता है। किसी दी गई समस्या के लिए मापदंडों के सर्वोत्तम मूल्यों को आमतौर पर कुछ प्रशिक्षण डेटा से निर्धारित किया जाता है (उदाहरण के लिए कुछ लोग जिनके लिए नैदानिक ​​​​परीक्षण के परिणाम और रक्त प्रकार दोनों ज्ञात हैं, या ज्ञात शब्दों के कुछ उदाहरण बोले जा रहे हैं)।
 * एक कॉलेज के छात्र अपने ग्रेड, बताई गई पसंद और नापसंद आदि को देखते हुए कौन सा विषय चुनेंगे?
 * विभिन्न नैदानिक ​​परीक्षणों के परिणामों को देखते हुए, एक व्यक्ति का रक्त प्रकार कौन सा है?
 * एक हैंड्स-फ़्री मोबाइल फ़ोन डायलिंग एप्लिकेशन में, किस व्यक्ति का नाम बोला गया था, स्पीच सिग्नल के विभिन्न गुण दिए गए थे?
 * विशेष जनसांख्यिकीय विशेषताओं को देखते हुए कोई व्यक्ति किस उम्मीदवार को वोट देगा?
 * फर्म की और विभिन्न उम्मीदवार देशों की विशेषताओं को देखते हुए, एक फर्म किस देश में अपना कार्यालय स्थापित करेगी?

अनुमान
बहुराष्ट्रीय रसद मॉडल मानता है कि डेटा केस-विशिष्ट हैं; अर्थात्, प्रत्येक स्वतंत्र चर का प्रत्येक मामले के लिए एक मान होता है। बहुराष्ट्रीय रसद मॉडल यह भी मानता है कि निर्भर चर को किसी भी मामले के लिए स्वतंत्र चर से पूरी तरह से भविष्यवाणी नहीं की जा सकती है। अन्य प्रकार के प्रतिगमन के साथ, स्वतंत्र चर को एक दूसरे से सांख्यिकीय रूप से स्वतंत्र होने की कोई आवश्यकता नहीं है (उदाहरण के लिए, बेयस क्लासिफायरियर के विपरीत); हालाँकि, बहुसंरेखता को अपेक्षाकृत कम माना जाता है, क्योंकि यदि ऐसा नहीं है तो कई चरों के प्रभाव के बीच अंतर करना मुश्किल हो जाता है। यदि मल्टीनोमियल लॉगिट का उपयोग मॉडल विकल्पों के लिए किया जाता है, तो यह अप्रासंगिक विकल्पों (IIA) की स्वतंत्रता की धारणा पर निर्भर करता है, जो हमेशा वांछनीय नहीं होता है। यह धारणा बताती है कि एक वर्ग को दूसरे पर वरीयता देने की संभावना अन्य अप्रासंगिक विकल्पों की उपस्थिति या अनुपस्थिति पर निर्भर नहीं करती है। उदाहरण के लिए, यदि साइकिल को अतिरिक्त संभावना के रूप में जोड़ा जाता है तो कार या बस को काम पर ले जाने की सापेक्ष संभावनाएँ नहीं बदलतीं। यह K-1 स्वतंत्र द्विचर विकल्पों के एक समूह के रूप में K विकल्पों की पसंद को मॉडल करने की अनुमति देता है, जिसमें एक विकल्प को धुरी के रूप में चुना जाता है और दूसरे K-1 की तुलना में, एक समय में एक। IIA परिकल्पना तर्कसंगत विकल्प सिद्धांत में एक मुख्य परिकल्पना है; हालांकि मनोविज्ञान में कई अध्ययनों से पता चलता है कि चुनाव करते समय व्यक्ति अक्सर इस धारणा का उल्लंघन करते हैं। यदि विकल्प में एक कार और एक नीली बस सम्मिलित है तो समस्या का एक उदाहरण सामने आता है। मान लीजिए कि दोनों के बीच विषम अनुपात 1:1 है। अब यदि लाल बस का विकल्प पेश किया जाता है, तो एक व्यक्ति लाल और नीली बस के बीच उदासीन हो सकता है, और इसलिए एक कार प्रदर्शित कर सकता है: नीली बस: लाल बस अंतर अनुपात 1: 0.5: 0.5 का, इस प्रकार कार का 1: 1 अनुपात बनाए रखना: एक परिवर्तित कार को अपनाने के दौरान कोई भी बस: 1: 0.5 का नीली बस अनुपात। यहां लाल बस का विकल्प वास्तव में अप्रासंगिक नहीं था, क्योंकि लाल बस नीले रंग की बस का सही विकल्प थी।

यदि मल्टीनोमियल लॉगिट का उपयोग विकल्पों को मॉडल करने के लिए किया जाता है, तो यह कुछ स्थितियों में विभिन्न विकल्पों के बीच सापेक्ष प्राथमिकताओं पर बहुत अधिक प्रतिबंध लगा सकता है। यह बिंदु विशेष रूप से ध्यान में रखना महत्वपूर्ण है यदि विश्लेषण का उद्देश्य भविष्यवाणी करना है कि यदि एक विकल्प गायब हो जाता है तो विकल्प कैसे बदलेंगे (उदाहरण के लिए यदि एक राजनीतिक उम्मीदवार तीन उम्मीदवारों की दौड़ से हट जाता है)। अन्य मॉडल जैसे नेस्टेड लॉगिट या बहुराष्ट्रीय संभावना  का उपयोग ऐसे मामलों में किया जा सकता है क्योंकि वे IIA के उल्लंघन की अनुमति देते हैं।

परिचय
बहुराष्ट्रीय रसद प्रतिगमन अंतर्निहित गणितीय मॉडल का वर्णन करने के लिए कई समान तरीके हैं। इससे विभिन्न पाठों में विषय के विभिन्न उपचारों की तुलना करना कठिन हो सकता है। लॉजिस्टिक रिग्रेशन पर लेख सरल लॉजिस्टिक रिग्रेशन के कई समतुल्य फॉर्मूलेशन प्रस्तुत करता है, और इनमें से कई मल्टीनोमियल लॉगिट मॉडल में एनालॉग हैं।

उन सभी के पीछे का विचार, जैसा कि कई अन्य सांख्यिकीय वर्गीकरण तकनीकों में है, एक रैखिक भविष्यवक्ता फ़ंक्शन का निर्माण करना है जो वजन के एक समूह से एक अंक बनाता है जो एक डॉट उत्पाद का उपयोग करके दिए गए अवलोकन के व्याख्यात्मक चर (विशेषताओं) के साथ रैखिक संयोजन होता है। :


 * $$\operatorname{score}(\mathbf{X}_i,k) = \boldsymbol\beta_k \cdot \mathbf{X}_i,$$

जहां एक्सi प्रेक्षण i, 'β' का वर्णन करने वाले व्याख्यात्मक चरों का सदिश हैk परिणाम k, और स्कोर ('X') के अनुरूप वजन (या प्रतिगमन गुणांक) का एक सदिश हैi, k) श्रेणी k को अवलोकन i निर्दिष्ट करने से जुड़ा स्कोर है। असतत पसंद सिद्धांत में, जहां अवलोकन लोगों का प्रतिनिधित्व करते हैं और परिणाम विकल्पों का प्रतिनिधित्व करते हैं, स्कोर को उस व्यक्ति से जुड़ी उपयोगिता माना जाता है जिसे मैं परिणाम k चुन रहा हूं। अनुमानित परिणाम उच्चतम स्कोर वाला है।

मल्टीनोमियल लॉगिट मॉडल और कई अन्य तरीकों, मॉडल, एल्गोरिदम, आदि के बीच एक ही मूल सेटअप (परसेप्ट्रॉन एल्गोरिथ्म, समर्थन वेक्टर यंत्र, रैखिक विभेदक विश्लेषण, आदि) के बीच का अंतर इष्टतम वजन निर्धारित (प्रशिक्षण) करने की प्रक्रिया है। / गुणांक और जिस तरह से स्कोर की व्याख्या की जाती है। विशेष रूप से, मल्टीनोमियल लॉगिट मॉडल में, स्कोर को सीधे प्रायिकता मान में परिवर्तित किया जा सकता है, जो अवलोकन की मापित विशेषताओं को देखते हुए परिणाम k चुनने की संभावना को दर्शाता है। यह एक विशेष बहुराष्ट्रीय लॉगिट मॉडल की भविष्यवाणी को एक बड़ी प्रक्रिया में सम्मिलित  करने का एक सैद्धांतिक तरीका प्रदान करता है जिसमें त्रुटि की संभावना के साथ प्रत्येक ऐसी कई भविष्यवाणियां सम्मिलित  हो सकती हैं। भविष्यवाणियों के संयोजन के ऐसे साधनों के बिना, त्रुटियाँ कई गुना बढ़ जाती हैं। उदाहरण के लिए, एक बड़े भविष्य कहनेवाला मॉडलिंग की कल्पना करें, जो सबमॉडल्स की एक श्रृंखला में टूट जाता है, जहां एक दिए गए सबमॉडल की भविष्यवाणी को दूसरे सबमॉडल के इनपुट के रूप में उपयोग किया जाता है, और उस भविष्यवाणी को तीसरे सबमॉडल में इनपुट के रूप में उपयोग किया जाता है, आदि। यदि प्रत्येक उपमॉडल की भविष्यवाणी में 90% सटीकता है, और श्रृंखला में पांच उपमॉडल हैं, तो समग्र मॉडल में केवल 0.9 है5 = 59% सटीकता। यदि प्रत्येक सबमॉडल में 80% सटीकता है, तो समग्र सटीकता 0.8 तक गिर जाती है5 = 33% सटीकता। इस मुद्दे को त्रुटि प्रसार के रूप में जाना जाता है और यह वास्तविक दुनिया के भविष्य कहनेवाला मॉडल में एक गंभीर समस्या है, जो आमतौर पर कई भागों से बना होता है। केवल एक इष्टतम भविष्यवाणी करने के बजाय प्रत्येक संभावित परिणाम की संभावनाओं की भविष्यवाणी करना, इस मुद्दे को कम करने का एक साधन है।

सेटअप
मूल सेटअप रसद प्रतिगमन के समान है, केवल अंतर यह है कि आश्रित चर द्विआधारी चर के बजाय श्रेणीबद्ध चर हैं, अर्थात केवल दो के बजाय K संभावित परिणाम हैं। निम्नलिखित विवरण कुछ छोटा है; अधिक जानकारी के लिए, रसद प्रतिगमन लेख देखें।

डेटा बिंदु
विशेष रूप से, यह माना जाता है कि हमारे पास एन देखे गए डेटा बिंदुओं की एक श्रृंखला है। प्रत्येक डेटा बिंदु i (1 से N तक) में M व्याख्यात्मक चर x का एक समूह होता है1,i ... एक्सM,i (उर्फ स्वतंत्र चर, पूर्वसूचक चर, सुविधाएँ, आदि), और एक संबद्ध श्रेणीबद्ध चर परिणाम Yi (उर्फ आश्रित चर, प्रतिक्रिया चर), जो K संभावित मानों में से एक पर ले सकता है। ये संभावित मान तार्किक रूप से अलग-अलग श्रेणियों (जैसे विभिन्न राजनीतिक दलों, रक्त प्रकार, आदि) का प्रतिनिधित्व करते हैं, और अक्सर गणितीय रूप से प्रत्येक को 1 से K तक मनमाने ढंग से निर्दिष्ट करके वर्णित किया जाता है। व्याख्यात्मक चर और परिणाम डेटा बिंदुओं के देखे गए गुणों का प्रतिनिधित्व करते हैं, और अक्सर एन प्रयोगों की टिप्पणियों में उत्पन्न होने के बारे में सोचा जाता है - हालांकि एक प्रयोग में डेटा एकत्र करने से ज्यादा कुछ नहीं हो सकता है। बहुराष्ट्रीय रसद प्रतिगमन का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो व्याख्यात्मक चर और परिणाम के बीच संबंध की व्याख्या करता है, ताकि एक नए प्रयोग के परिणाम को एक नए डेटा बिंदु के लिए सही ढंग से भविष्यवाणी की जा सके, जिसके लिए व्याख्यात्मक चर, लेकिन परिणाम नहीं, उपलब्ध हैं। इस प्रक्रिया में, मॉडल परिणाम पर अलग-अलग व्याख्यात्मक चर के सापेक्ष प्रभाव को समझाने का प्रयास करता है।

कुछ उदाहरण:
 * देखे गए परिणाम मरीजों के एक समूह में हेपेटाइटिस (संभवत: कोई बीमारी और/या अन्य संबंधित बीमारियों सहित) जैसी बीमारी के विभिन्न प्रकार हैं, और व्याख्यात्मक चर उन रोगियों की विशेषताएं हो सकती हैं जिन्हें उचित माना जाता है (लिंग, जाति, आयु, रक्तचाप, विभिन्न यकृत-कार्य परीक्षणों के परिणाम, आदि)। लक्ष्य तब भविष्यवाणी करना है कि कौन सी बीमारी एक नए रोगी में यकृत से संबंधित लक्षणों का कारण बन रही है।
 * देखे गए परिणाम एक चुनाव में लोगों के एक समूह द्वारा चुनी गई पार्टी हैं, और व्याख्यात्मक चर प्रत्येक व्यक्ति की जनसांख्यिकीय विशेषताएं हैं (जैसे लिंग, जाति, आयु, आय, आदि)। लक्ष्य तब दी गई विशेषताओं के साथ एक नए मतदाता के संभावित वोट की भविष्यवाणी करना है।

रैखिक भविष्यवक्ता
रेखीय प्रतिगमन के अन्य रूपों की तरह, बहुराष्ट्रीय रसद प्रतिगमन एक रेखीय भविष्यवक्ता फ़ंक्शन का उपयोग करता है $$f(k,i)$$ संभावना की भविष्यवाणी करने के लिए कि अवलोकन i का परिणाम k है, निम्नलिखित रूप में:


 * $$f(k,i) = \beta_{0,k} + \beta_{1,k} x_{1,i} + \beta_{2,k} x_{2,i} + \cdots + \beta_{M,k} x_{M,i},$$

कहाँ $$\beta_{m,k}$$ mth व्याख्यात्मक चर और kth परिणाम से जुड़ा एक प्रतिगमन गुणांक है। जैसा कि रसद प्रतिगमन लेख में समझाया गया है, प्रतिगमन गुणांक और व्याख्यात्मक चर आम तौर पर आकार एम + 1 के वैक्टर में समूहीकृत होते हैं, ताकि भविष्यवक्ता फ़ंक्शन को अधिक कॉम्पैक्ट रूप से लिखा जा सके:


 * $$f(k,i) = \boldsymbol\beta_k \cdot \mathbf{x}_i,$$

कहाँ $$\boldsymbol\beta_k$$ परिणाम के साथ जुड़े प्रतिगमन गुणांक का समूह है, और $$\mathbf{x}_i$$ (एक पंक्ति वेक्टर) अवलोकन i से जुड़े व्याख्यात्मक चर का समूह है।

स्वतंत्र द्विचर प्रतिगमन के एक समूह के रूप में
मल्टीनोमियल लॉगिट मॉडल पर पहुंचने के लिए, K संभावित परिणामों के लिए, K-1 स्वतंत्र द्विचर लॉजिस्टिक रिग्रेशन मॉडल चलाने की कल्पना की जा सकती है, जिसमें एक परिणाम को पिवट के रूप में चुना जाता है और फिर अन्य K-1 परिणामों को पिवट के खिलाफ अलग से रिग्रेस किया जाता है। नतीजा। यदि परिणाम K (अंतिम परिणाम) को धुरी के रूप में चुना जाता है, तो K-1 प्रतिगमन समीकरण हैं:



\ln \frac{\Pr(Y_i=k)}{\Pr(Y_i=K)} \,=\, \boldsymbol\beta_k \cdot \mathbf{X}_i \;\;\;\;,\;\;k < K $$.

इस फॉर्मूलेशन को कंपोज़िशनल_डेटा # एडिटिव_लोग्रेटियो_ट्रांसफ़ॉर्म ट्रांसफ़ॉर्म के रूप में भी जाना जाता है, जो आमतौर पर कंपोज़िशनल डेटा विश्लेषण में उपयोग किया जाता है। यदि हम दोनों पक्षों को प्रतिपादित करते हैं और संभावनाओं को हल करते हैं, तो हमें मिलता है:



\Pr(Y_i=k) \,=\, {\Pr(Y_i=K)}\;e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} \;\;\;\;,\;\;k < K $$ इस तथ्य का उपयोग करते हुए कि सभी K संभावनाओं का योग एक होना चाहिए, हम पाते हैं:


 * $$\Pr(Y_i=K) \,=\, 1- \sum_{k=1}^{K-1} \Pr (Y_i = k) \,=\, 1 - \sum_{k=1}^{K-1}{\Pr(Y_i=K)}\;e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} \;\;\Rightarrow\;\; \Pr(Y_i=K) \,=\, \frac{1}{1 + \sum_{k=1}^{K-1} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}}$$.

हम इसका उपयोग अन्य संभावनाओं को खोजने के लिए कर सकते हैं:



\Pr(Y_i=k) = \frac{e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}}{1 + \sum_{k=1}^{K-1} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}} \;\;\;\;,\;\;k < K $$.

तथ्य यह है कि हम कई प्रतिगमन चलाते हैं, यह बताता है कि मॉडल ऊपर वर्णित अप्रासंगिक विकल्पों की स्वतंत्रता की धारणा पर क्यों निर्भर करता है।

गुणांक का आकलन
प्रत्येक सदिश ''β' में अज्ञात पैरामीटरkआम तौर पर संयुक्त रूप से अधिकतम पोस्टीरियरी (एमएपी) अनुमान द्वारा अनुमान लगाया जाता है, जो रोग संबंधी समाधानों को रोकने के लिए वजन के नियमितीकरण (गणित) का उपयोग करके अधिकतम संभावना का विस्तार है (आमतौर पर एक स्क्वायर रेगुलराइजिंग फ़ंक्शन, जो शून्य-माध्य गॉसियन वितरण रखने के बराबर है भार पर पूर्व वितरण, लेकिन अन्य वितरण भी संभव हैं)। समाधान आमतौर पर पुनरावृत्त प्रक्रिया जैसे सामान्यीकृत पुनरावृत्त स्केलिंग का उपयोग करके पाया जाता है, पुनरावृत्त रूप से कम से कम वर्ग (आईआरएलएस), एल-बीएफजीएस जैसे ढाल-आधारित अनुकूलन एल्गोरिदम के माध्यम से, या विशेष समन्वय वंश एल्गोरिदम द्वारा।

लॉग-लीनियर मॉडल
के रूप में

लॉजिस्टिक रिग्रेशन#लॉग-लीनियर मॉडल|लॉग-लीनियर मॉडल के रूप में द्विचर लॉजिस्टिक रिग्रेशन का सूत्रीकरण सीधे मल्टी-वे रिग्रेशन तक बढ़ाया जा सकता है। अर्थात्, हम रैखिक भविष्यवक्ता के साथ-साथ एक अतिरिक्त सामान्यीकरण कारक, विभाजन फ़ंक्शन (गणित) के लघुगणक का उपयोग करके दिए गए आउटपुट को देखने की संभावना के लघुगणक को मॉडल करते हैं:



\ln \Pr(Y_i=k) = \boldsymbol\beta_k \cdot \mathbf{X}_i - \ln Z \;\;\;\;,\;\;k \le K $$.

जैसा कि द्विचर मामले में होता है, हमें एक अतिरिक्त पद की आवश्यकता होती है $$- \ln Z$$ यह सुनिश्चित करने के लिए कि संभावनाओं का पूरा समूह एक प्रायिकता वितरण बनाता है, यानी कि वे सभी एक के लिए योग करें:


 * $$\sum_{k=1}^{K} \Pr(Y_i=k) = 1$$

सामान्य रूप से गुणा करने के बजाय हमें सामान्यीकरण सुनिश्चित करने के लिए एक शब्द जोड़ने की आवश्यकता है, इसका कारण यह है कि हमने संभावनाओं का लघुगणक लिया है। दोनों पक्षों का घातांक योगात्मक शब्द को गुणक कारक में बदल देता है, जिससे कि संभावना सिर्फ गिब्स उपाय है:



\Pr(Y_i=k) = \frac{1}{Z} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} \;\;\;\;,\;\;k \le K $$.

वितरण के लिए मात्रा Z को विभाजन फ़ंक्शन (गणित) कहा जाता है। हम उपरोक्त बाधा को लागू करके विभाजन फ़ंक्शन के मान की गणना कर सकते हैं जिसके लिए सभी संभावनाओं को 1 तक जमा करने की आवश्यकता होती है:



1 = \sum_{k=1}^{K} \Pr(Y_i=k) \;=\; \sum_{k=1}^{K} \frac{1}{Z} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} \;=\; \frac{1}{Z} \sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} $$ इसलिए:


 * $$Z = \sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}$$

ध्यान दें कि यह कारक इस अर्थ में स्थिर है कि यह Y का कार्य नहीं हैi, जो कि वह चर है जिस पर संभाव्यता वितरण परिभाषित किया गया है। हालांकि, यह निश्चित रूप से व्याख्यात्मक चर के संबंध में स्थिर नहीं है, या महत्वपूर्ण रूप से, अज्ञात प्रतिगमन गुणांक β के संबंध मेंk, जिसे हमें किसी प्रकार की गणितीय अनुकूलन प्रक्रिया के माध्यम से निर्धारित करने की आवश्यकता होगी।

संभावनाओं के लिए परिणामी समीकरण हैं



\Pr(Y_i=k) = \frac{e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}}{\sum_{j=1}^{K} e^{\boldsymbol\beta_j \cdot \mathbf{X}_i}} \;\;\;\;,\;\;k \le K $$.

या आम तौर पर:


 * $$\Pr(Y_i=c) = \frac{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}{\sum_{j=1}^{K} e^{\boldsymbol\beta_j \cdot \mathbf{X}_i}}$$

निम्नलिखित कार्य:


 * $$\operatorname{softmax}(k,x_1,\ldots,x_n) = \frac{e^{x_k}}{\sum_{i=1}^n e^{x_i}}$$

सॉफ्टमैक्स फ़ंक्शन के रूप में जाना जाता है। इसका कारण यह है कि मूल्यों को प्रतिपादित करने का प्रभाव $$x_1,\ldots,x_n$$ उनके बीच मतभेदों को बढ़ा-चढ़ाकर पेश करना है। नतीजतन, $$\operatorname{softmax}(k,x_1,\ldots,x_n)$$ जब भी 0 के करीब का मान लौटाएगा$$x_k$$सभी मूल्यों के अधिकतम से काफी कम है, और अधिकतम मूल्य पर लागू होने पर 1 के करीब मान लौटाएगा, जब तक कि यह अगले-सबसे बड़े मूल्य के बेहद करीब न हो। इस प्रकार, सॉफ्टमैक्स फ़ंक्शन का उपयोग भारित औसत बनाने के लिए किया जा सकता है जो एक चिकनी फ़ंक्शन के रूप में व्यवहार करता है (जो आसानी से भेदभाव (गणित), आदि हो सकता है) और जो संकेतक फ़ंक्शन का अनुमान लगाता है


 * $$f(k) = \begin{cases}

1 \; \textrm{ if } \; k = \operatorname{\arg\max}(x_1, \ldots, x_n), \\ 0 \; \textrm{ otherwise}. \end{cases} $$ इस प्रकार, हम संभाव्यता समीकरणों को इस प्रकार लिख सकते हैं


 * $$\Pr(Y_i=c) = \operatorname{softmax}(c, \boldsymbol\beta_1 \cdot \mathbf{X}_i, \ldots, \boldsymbol\beta_K \cdot \mathbf{X}_i)$$

सॉफ्टमैक्स फ़ंक्शन इस प्रकार द्विचर लॉजिस्टिक रिग्रेशन में रसद समारोह के समतुल्य के रूप में कार्य करता है।

ध्यान दें कि सभी नहीं $$\beta_k$$ गुणांक के वैक्टर विशिष्ट पहचान योग्य हैं। यह इस तथ्य के कारण है कि सभी संभावनाओं का योग 1 होना चाहिए, बाकी सभी ज्ञात होने के बाद उनमें से एक पूरी तरह से निर्धारित हो जाती है। नतीजतन, ही हैं $$k-1$$ अलग से निर्दिष्ट संभावनाएँ, और इसलिए $$k-1$$ गुणांक के अलग-अलग पहचाने जाने योग्य वैक्टर। इसे देखने का एक तरीका यह है कि यदि हम सभी गुणांक सदिशों में एक स्थिर सदिश जोड़ते हैं, तो समीकरण समान होते हैं:



\begin{align} \frac{e^{(\boldsymbol\beta_c + C) \cdot \mathbf{X}_i}}{\sum_{k=1}^{K} e^{(\boldsymbol\beta_k + C) \cdot \mathbf{X}_i}} &= \frac{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i} e^{C \cdot \mathbf{X}_i}}{\sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} e^{C \cdot \mathbf{X}_i}} \\ &= \frac{e^{C \cdot \mathbf{X}_i} e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}{e^{C \cdot \mathbf{X}_i} \sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}} \\ &= \frac{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}{\sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}} \end{align} $$ नतीजतन, यह समूह करने के लिए पारंपरिक है $$C = -\boldsymbol\beta_K$$ (या वैकल्पिक रूप से, अन्य गुणांक वैक्टरों में से एक)। अनिवार्य रूप से, हम स्थिरांक समूह करते हैं ताकि एक सदिश 0 हो जाए, और अन्य सभी सदिश उन सदिशों और हमारे द्वारा चुने गए सदिश के बीच के अंतर में रूपांतरित हो जाएं। यह K विकल्पों में से किसी एक के आस-पास पिवोट करने के बराबर है, और यह जांचना कि अन्य सभी K-1 विकल्प कितने बेहतर या खराब हैं, उस विकल्प के सापेक्ष जो हम घूम रहे हैं। गणितीय रूप से, हम गुणांकों को निम्नानुसार रूपांतरित करते हैं:



\begin{align} \boldsymbol\beta'_k &= \boldsymbol\beta_k - \boldsymbol\beta_K \;\;\;,\;k < K \\ \boldsymbol\beta'_K &= 0 \end{align} $$ यह निम्नलिखित समीकरणों की ओर जाता है:



\Pr(Y_i=k) = \frac{e^{\boldsymbol\beta'_k \cdot \mathbf{X}_i}}{1 + \sum_{j=1}^{K-1} e^{\boldsymbol\beta'_j \cdot \mathbf{X}_i}} \;\;\;\;,\;\;k \le K $$ प्रतिगमन गुणांकों पर प्रमुख प्रतीकों के अलावा, यह K-1 स्वतंत्र दो-तरफ़ा प्रतिगमन के संदर्भ में ऊपर वर्णित मॉडल के रूप में बिल्कुल वैसा ही है।

एक अव्यक्त-चर मॉडल
के रूप में

लॉजिस्टिक रिग्रेशन#टू-वे लेटेंट-वैरिएबल मॉडल|द्विचर लॉजिस्टिक रिग्रेशन के लिए वर्णित टू-वे लेटेंट वेरिएबल मॉडल का पालन करते हुए एक लेटेंट वेरिएबल मॉडल के रूप में मल्टीनोमियल लॉजिस्टिक रिग्रेशन तैयार करना भी संभव है। यह सूत्रीकरण असतत पसंद मॉडल के सिद्धांत में आम है, और बहुराष्ट्रीय रसद प्रतिगमन की तुलना संबंधित बहुराष्ट्रीय प्रोबिट मॉडल के साथ-साथ इसे और अधिक जटिल मॉडल तक विस्तारित करना आसान बनाता है।

कल्पना करें कि, प्रत्येक डेटा बिंदु i और संभावित परिणाम k=1,2,...,K के लिए, एक सतत अव्यक्त चर Y हैi,k* (अर्थात् एक बिना अवलोकन वाला यादृच्छिक चर) जिसे निम्नानुसार वितरित किया गया है:



Y_{i,k}^{\ast} = \boldsymbol\beta_k \cdot \mathbf{X}_i + \varepsilon_k \;\;\;\;,\;\;k \le K $$ कहाँ $$\varepsilon_k \sim \operatorname{EV}_1(0,1),$$ यानी एक मानक प्रकार -1 चरम मूल्य वितरण।

इस अव्यक्त चर को डेटा बिंदु से जुड़ी उपयोगिता के रूप में माना जा सकता है, मैं परिणाम k चुन रहा हूं, जहां प्राप्त उपयोगिता की वास्तविक मात्रा में कुछ यादृच्छिकता है, जो पसंद में जाने वाले अन्य अप्रतिबंधित कारकों के लिए जिम्मेदार है। वास्तविक चर का मान $$Y_i$$ तब इन अव्यक्त चरों से एक गैर-यादृच्छिक फैशन में निर्धारित किया जाता है (अर्थात यादृच्छिकता को देखे गए परिणामों से अव्यक्त चर में ले जाया गया है), जहां परिणाम k को चुना जाता है यदि और केवल यदि संबद्ध उपयोगिता (का मान) $$Y_{i,k}^{\ast}$$) अन्य सभी विकल्पों की उपयोगिताओं से अधिक है, अर्थात यदि परिणाम k से जुड़ी उपयोगिता सभी उपयोगिताओं में से अधिकतम है। चूँकि अव्यक्त चर निरंतर परिवर्तनशील होते हैं, दो के बिल्कुल समान मान होने की संभावना 0 होती है, इसलिए हम परिदृश्य को अनदेखा कर देते हैं। वह है:



\begin{align} \Pr(Y_i = 1) &= \Pr(Y_{i,1}^{\ast} > Y_{i,2}^{\ast} \text{ and } Y_{i,1}^{\ast} > Y_{i,3}^{\ast}\text{ and } \cdots \text{ and } Y_{i,1}^{\ast} > Y_{i,K}^{\ast}) \\ \Pr(Y_i = 2) &= \Pr(Y_{i,2}^{\ast} > Y_{i,1}^{\ast} \text{ and } Y_{i,2}^{\ast} > Y_{i,3}^{\ast}\text{ and } \cdots \text{ and } Y_{i,2}^{\ast} > Y_{i,K}^{\ast}) \\ \cdots & \\ \Pr(Y_i = K) &= \Pr(Y_{i,K}^{\ast} > Y_{i,1}^{\ast} \text{ and } Y_{i,K}^{\ast} > Y_{i,2}^{\ast}\text{ and } \cdots \text{ and } Y_{i,K}^{\ast} > Y_{i,K-1}^{\ast}) \\ \end{align} $$ या समकक्ष:



\Pr(Y_i = k) \;=\; \Pr(\max(Y_{i,1}^{\ast},Y_{i,2}^{\ast},\ldots,Y_{i,K}^{\ast})=Y_{i,k}^{\ast}) \;\;\;\;,\;\;k \le K $$ आइए पहले समीकरण को अधिक बारीकी से देखें, जिसे हम इस प्रकार लिख सकते हैं:



\begin{align} \Pr(Y_i = 1) &= \Pr(Y_{i,1}^{\ast} > Y_{i,k}^{\ast}\ \forall\ k=2,\ldots,K) \\ &= \Pr(Y_{i,1}^{\ast} - Y_{i,k}^{\ast} > 0\ \forall\ k=2,\ldots,K) \\ &= \Pr(\boldsymbol\beta_1 \cdot \mathbf{X}_i + \varepsilon_1 - (\boldsymbol\beta_k \cdot \mathbf{X}_i + \varepsilon_k) > 0\ \forall\ k=2,\ldots,K) \\ &= \Pr((\boldsymbol\beta_1 - \boldsymbol\beta_k) \cdot \mathbf{X}_i > \varepsilon_k - \varepsilon_1\ \forall\ k=2,\ldots,K) \end{align} $$ यहां समझने के लिए कुछ चीजें हैं:
 * 1) सामान्य तौर पर, अगर $$X \sim \operatorname{EV}_1(a,b)$$ और $$Y \sim \operatorname{EV}_1(a,b)$$ तब $$X - Y \sim \operatorname{Logistic}(0,b).$$ यही है, दो स्वतंत्र समान रूप से वितरित चरम-मूल्य-वितरित चर का अंतर रसद वितरण का अनुसरण करता है, जहां पहला पैरामीटर महत्वहीन है। यह समझ में आता है क्योंकि पहला पैरामीटर एक स्थान पैरामीटर है, यानी यह माध्य को एक निश्चित राशि से बदलता है, और यदि दो मानों को एक ही राशि से स्थानांतरित किया जाता है, तो उनका अंतर समान रहता है। इसका मतलब यह है कि किसी दिए गए विकल्प की संभावना के अंतर्गत आने वाले सभी संबंधपरक बयानों में रसद वितरण सम्मिलित  है, जो चरम-मूल्य वितरण की प्रारंभिक पसंद बनाता है, जो कि मनमाना लगता है, कुछ हद तक अधिक समझने योग्य है।
 * 2) एक्सट्रीम-वैल्यू या लॉजिस्टिक डिस्ट्रीब्यूशन में दूसरा पैरामीटर एक स्केल पैरामीटर है, जैसे कि यदि $$X \sim \operatorname{Logistic}(0,1)$$ तब $$bX \sim \operatorname{Logistic}(0,b).$$ इसका मतलब यह है कि स्केल 1 के स्थान पर एक मनमाने पैमाने के पैरामीटर के साथ एक त्रुटि चर का उपयोग करने के प्रभाव को सभी प्रतिगमन वैक्टरों को उसी पैमाने से गुणा करके मुआवजा दिया जा सकता है। पिछले बिंदु के साथ, यह दर्शाता है कि त्रुटि चर के लिए मानक चरम-मूल्य वितरण (स्थान 0, स्केल 1) का उपयोग मनमाने ढंग से चरम-मूल्य वितरण का उपयोग करने पर सामान्यता का कोई नुकसान नहीं करता है। वास्तव में, यदि अधिक सामान्य वितरण का उपयोग किया जाता है तो मॉडल गैर-पहचान योग्य (इष्टतम गुणांक का कोई एकल समूह नहीं) है।
 * 3) क्योंकि केवल प्रतिगमन गुणांक के वैक्टर के अंतर का उपयोग किया जाता है, सभी गुणांक वैक्टरों के लिए एक मनमाना स्थिरांक जोड़ने से मॉडल पर कोई प्रभाव नहीं पड़ता है। इसका मतलब यह है कि, लॉग-लीनियर मॉडल की तरह, गुणांक वैक्टरों में से केवल K-1 की पहचान की जा सकती है, और अंतिम वाले को मनमाने मूल्य पर समूह किया जा सकता है (उदाहरण के लिए 0)।

वास्तव में उपरोक्त संभावनाओं के मूल्यों को खोजना कुछ कठिन है, और मूल्यों के एक समूह के एक विशेष आदेश आँकड़ा (पहला, यानी अधिकतम) की गणना करने की समस्या है। हालाँकि, यह दिखाया जा सकता है कि परिणामी अभिव्यक्तियाँ उपरोक्त योगों के समान हैं, अर्थात दोनों समान हैं।

अवरोधन का अनुमान
बहुराष्ट्रीय रसद प्रतिगमन का उपयोग करते समय, आश्रित चर की एक श्रेणी को संदर्भ श्रेणी के रूप में चुना जाता है। संदर्भ श्रेणी के अपवाद के साथ आश्रित चर की प्रत्येक श्रेणी के लिए सभी स्वतंत्र चर के लिए अलग-अलग विषम अनुपात निर्धारित किए जाते हैं, जिसे विश्लेषण से हटा दिया जाता है। घातीय बीटा गुणांक संबंधित स्वतंत्र चर के एक इकाई परिवर्तन से जुड़े संदर्भ श्रेणी की तुलना में एक विशेष श्रेणी में होने वाले आश्रित चर के अंतर में परिवर्तन का प्रतिनिधित्व करता है।

प्राकृतिक भाषा प्रसंस्करण
में आवेदन प्राकृतिक भाषा प्रसंस्करण में, बहुराष्ट्रीय LR वर्गीकारकों का उपयोग आमतौर पर सहज बेयस वर्गीकारकों के विकल्प के रूप में किया जाता है क्योंकि वे भविष्यवाणियों के रूप में सेवा करने वाले यादृच्छिक चर (आमतौर पर सुविधाओं के रूप में जाना जाता है) की सांख्यिकीय स्वतंत्रता नहीं मानते हैं। हालांकि, इस तरह के एक मॉडल में सीखना एक सरल बेयस क्लासिफायरियर की तुलना में धीमा है, और इस प्रकार सीखने के लिए बहुत बड़ी संख्या में उपयुक्त नहीं हो सकता है। विशेष रूप से, Naive Bayes क्लासिफायरियर में सीखना सुविधाओं और कक्षाओं की सह-घटनाओं की संख्या को गिनने का एक साधारण मामला है, जबकि अधिकतम एन्ट्रॉपी क्लासिफायरियर में वज़न, जो आमतौर पर अधिकतम पोस्टीरियरी (MAP) अनुमान का उपयोग करके अधिकतम किया जाता है, होना चाहिए पुनरावृत्त प्रक्रिया का उपयोग करके सीखा जा सकता है; देखें #गुणांकों का अनुमान लगाना।

यह भी देखें

 * संभार तन्त्र परावर्तन
 * बहुराष्ट्रीय संभावना