बहुपद तार्किक प्रतिगमन

आँकड़ों में, बहुराष्ट्रीय रसद प्रतिगमन एक सांख्यिकीय वर्गीकरण पद्धति है जो बहुवर्गीय वर्गीकरण के लिए रसद प्रतिगमन को सामान्यीकृत करता है, अर्थात दो से अधिक संभावित असतत परिणामों के साथ। यही है, यह एक मॉडल है जिसका उपयोग एक श्रेणीबद्ध वितरण आश्रित चर के विभिन्न संभावित परिणामों की संभावनाओं की भविष्यवाणी करने के लिए किया जाता है, स्वतंत्र चर का एक समूह दिया जाता है (जो वास्तविक-मानित, द्विचर-मानित, श्रेणीबद्ध-मानित आदि हो सकता है।).

बहुराष्ट्रीय रसद प्रतिगमन को कई अन्य नामों से जाना जाता है, जिसमें बहुभाजी LR,  बहुकक्ष LR, सॉफ्टमैक्स  प्रतिगमन, बहुपद लॉगिट (mलॉगिट), अधिकतम एन्ट्रॉपी ( मैक्सएंट) वर्गीकरणकर्ता, और सशर्त अधिकतम एन्ट्रापी मॉडल सम्मिलित  है।

पृष्ठाधार
बहुराष्ट्रीय रसद प्रतिगमन का उपयोग तब किया जाता है जब प्रश्न में आश्रित चर नाममात्र होता है (समतुल्य  श्रेणीबद्ध, जिसका अर्थ है कि यह श्रेणियों के किसी भी एक समूह में आता है जिसे किसी भी सार्थक रूप  से अनुक्रमित नहीं किया जा सकता है) और जिसके लिए दो से अधिक श्रेणियां हैं। कुछ उदाहरण होंगे: ये सभी सांख्यिकीय वर्गीकरण की समस्याएं हैं। उन सभी में सामान्यतः भविष्यवाणी करने के लिए एक आश्रित चर होता है जो कि वस्तुओं के एक सीमित समूह से आता है जिसे सार्थक रूप से अनुक्रमित नहीं किया जा सकता है, साथ ही साथ स्वतंत्र चर का एक समूह (जिसे सुविधाओं, स्पष्टीकरण आदि के रूप में भी जाना जाता है), जिसका उपयोग आश्रित चर की भविष्यवाणी करने के लिए किया जाता है। बहुराष्ट्रीय रसद प्रतिगमन वर्गीकरण समस्याओं का एक विशेष हल है जो आश्रित चर के प्रत्येक विशेष मान की संभावना का अनुमान लगाने के लिए देखी गई विशेषताओं और कुछ समस्या-विशिष्ट मापदंडों के एक रैखिक संयोजन का उपयोग करता है। किसी दी गई समस्या के लिए मापदंडों के सर्वोत्तम मानों को सामान्यतः  कुछ प्रशिक्षण डेटा से निर्धारित किया जाता है (उदाहरण के लिए कुछ लोग जिनके लिए नैदानिक ​​​​परीक्षण के परिणाम और रक्त प्रकार दोनों ज्ञात हैं, या ज्ञात शब्दों के कुछ उदाहरण बोले जा रहे हैं)।
 * एक महाविद्यालय के छात्र अपनी श्रेणी, बताई गई पसंद और नापसंद आदि को देखते हुए कौन सा विषय चुनेंगे?
 * विभिन्न नैदानिक ​​परीक्षणों के परिणामों को देखते हुए, एक व्यक्ति का रक्त प्रकार कौन सा है?
 * एक हैंड्-फ़्री मोबाइल फ़ोन डायलिंग एप्लिकेशन में, किस व्यक्ति का नाम बोला गया था, भाषण संकेत के विभिन्न गुण दिए गए थे?
 * विशेष जनसांख्यिकीय विशेषताओं को देखते हुए कोई व्यक्ति किस उम्मीदवार को वोट देगा?
 * व्यवसाय की और विभिन्न उम्मीदवार देशों की विशेषताओं को देखते हुए, एक व्यवसाय किस देश में अपना कार्यालय स्थापित करेगी?

अनुमान
बहुराष्ट्रीय रसद मॉडल मानता है कि डेटा केस-विशिष्ट हैं; अर्थात्, प्रत्येक स्वतंत्र चर का प्रत्येक विषय के लिए एक मान होता है। बहुराष्ट्रीय रसद मॉडल यह भी मानता है कि आश्रित चर को किसी भी विषय के लिए स्वतंत्र चर से पूर्ण रूप से भविष्यवाणी नहीं की जा सकती है। अन्य प्रकार के प्रतिगमन के साथ, स्वतंत्र चर को एक दूसरे से सांख्यिकीय रूप से स्वतंत्र होने की कोई आवश्यकता नहीं है (उदाहरण के लिए, बेयस वर्गीकरणकर्ता के विपरीत); यद्यपि, बहुसंरेखता को अपेक्षाकृत कम माना जाता है, क्योंकि यदि ऐसा नहीं है तो कई चरों के प्रभाव के बीच अंतर करना जटिल  हो जाता है।

यदि बहुपद लॉगिट का उपयोग मॉडल विकल्पों के लिए किया जाता है, तो यह अप्रासंगिक विकल्पों (आईआईए) की स्वतंत्रता की धारणा पर निर्भर करता है, जो सदैव वांछनीय नहीं होता है। यह धारणा बताती है कि एक वर्ग को दूसरे पर वरीयता देने की संभावना अन्य अप्रासंगिक विकल्पों की उपस्थिति या अनुपस्थिति पर निर्भर नहीं करती है। उदाहरण के लिए, यदि साइकिल को अतिरिक्त संभावना के रूप में जोड़ा जाता है तो कार या बस को कार्य पर ले जाने की सापेक्ष संभावनाएँ नहीं बदलतीं। यह K-1 स्वतंत्र द्विचर विकल्पों के एक समूह के रूप में K विकल्पों की पसंद को मॉडल करने की अनुमति देती है, जिसमें एक विकल्प को धुरी के रूप में चुना जाता है और दूसरे K-1 की तुलना में, एक समय में एक। आईआईए परिकल्पना तर्कसंगत विकल्प सिद्धांत में एक मुख्य परिकल्पना है; यद्यपि मनोविज्ञान में कई अध्ययनों से पता चलता है कि चुनाव करते समय व्यक्ति प्रायः  इस धारणा का उल्लंघन करते हैं। यदि विकल्प में एक कार और एक नीली बस सम्मिलित  है तो समस्या का एक उदाहरण सामने आता है। मान लीजिए कि दोनों के बीच विषम अनुपात 1:1 है। अब यदि लाल बस का विकल्प प्रस्तुत किया जाता है, तो एक व्यक्ति लाल और नीली बस के बीच निरपेक्ष हो सकता है, और इसलिए एक कार:  नीली बस: लाल बस का अनुपात 1: 0.5: 0.5 का प्रदर्शन कर सकता है,  इस प्रकार एक 1: 1 अनुपात रखता है: किसी भी बस को परिवर्तित कार को अपनाने के समय: नीली बस का  अनुपात 1: 0.5  है। यहां लाल बस का विकल्प यथार्थ अप्रासंगिक नहीं था, क्योंकि लाल बस नीले रंग की बस का सही विकल्प थी।

यदि बहुपद लॉगिट का उपयोग विकल्पों को मॉडल करने के लिए किया जाता है, तो यह कुछ स्थितियों में विभिन्न विकल्पों के बीच सापेक्ष प्राथमिकताओं पर बहुत अधिक प्रतिबंध लगा सकता है। यह बिंदु विशेष रूप से ध्यान में रखना महत्वपूर्ण है यदि विश्लेषण का उद्देश्य भविष्यवाणी करना है कि यदि एक विकल्प अंतर्हित हो जाता है तो विकल्प कैसे बदलेंगे (उदाहरण के लिए यदि एक राजनीतिक उम्मीदवार तीन उम्मीदवारों की दौड़ से हट जाता है)। अन्य मॉडल जैसे नीडन लॉगिट या बहुराष्ट्रीय संभावना का उपयोग ऐसे विषयों में किया जा सकता है क्योंकि वे आईआईए के उल्लंघन की अनुमति देते हैं।

परिचय
बहुराष्ट्रीय रसद प्रतिगमन अंतर्निहित गणितीय मॉडल का वर्णन करने के लिए कई समान रूप हैं। इससे विभिन्न पाठों में विषय के विभिन्न उपचारों की तुलना करना कठिन हो सकता है। लॉजिस्टिक  प्रतिगमन पर लेख सरल लॉजिस्टिक  प्रतिगमन के कई समतुल्य सूत्रीकरण प्रस्तुत करता है, और इनमें से कई बहुपद लॉगिट मॉडल में अनुरूप हैं।

उन सभी के पीछे का विचार, जैसा कि कई अन्य सांख्यिकीय वर्गीकरण तकनीकों में है, एक रैखिक भविष्यवक्ता फलन का निर्माण करना है जो भार के एक समूह से एक अंक बनाता है जो एक बिंदु उत्पाद का उपयोग करके दिए गए प्रेक्षण के व्याख्यात्मक चर (विशेषताओं) के साथ रैखिक संयोजन होता है। :


 * $$\operatorname{score}(\mathbf{X}_i,k) = \boldsymbol\beta_k \cdot \mathbf{X}_i,$$

जहां Xi प्रेक्षण  i का वर्णन करने वाले व्याख्यात्मक चरों का सदिश है  βk  भार (या प्रतिगमन गुणांक) का एक सदिश है जो परिणाम k के अनुरूप है, और अंक (Xi, k) श्रेणी k को प्रेक्षण   i निर्दिष्ट करने से जुड़ा अंक है। असतत विकल्प सिद्धांत में, जहां प्रेक्षण  लोगों का प्रतिनिधित्व करते हैं और परिणाम विकल्पों का प्रतिनिधित्व करते हैं, अंक को व्यक्ति i चुनने वाले परिणाम  k से जुड़ी उपयोगिता माना जाता है। अनुमानित परिणाम उच्चतम अंक वाला है।

बहुपद लॉगिट मॉडल और कई अन्य विधियों, मॉडल, एल्गोरिदम, आदि के बीच एक ही मूल व्यवस्था (परसेप्ट्रॉन एल्गोरिथ्म, समर्थन सदिश यंत्र, रैखिक विभेदक विश्लेषण, आदि) के बीच का अंतर इष्टतम भार निर्धारित (प्रशिक्षण) करने की प्रक्रिया है। / गुणांक और जिस तरह से अंक की व्याख्या की जाती है। विशेष रूप से, बहुपद लॉगिट मॉडल में, अंक को सीधे प्रायिकता मान में परिवर्तित किया जा सकता है, जो प्रेक्षण  की मापित विशेषताओं को देखते हुए परिणाम k चुनने की संभावना को दर्शाता है। यह एक विशेष बहुराष्ट्रीय लॉगिट मॉडल की भविष्यवाणी को एक बड़ी प्रक्रिया में सम्मिलित  करने की एक सैद्धांतिक विधि प्रदान करती है जिसमें त्रुटि की संभावना के साथ प्रत्येक ऐसी कई भविष्यवाणियां सम्मिलित  हो सकती हैं। भविष्यवाणियों के संयोजन के ऐसे साधनों के बिना, त्रुटियाँ कई गुना बढ़ जाती हैं। उदाहरण के लिए, एक बड़े भविष्य कहनेवाला मॉडलिंग की कल्पना करें, जो उपमाडलों की एक श्रृंखला में टूट जाता है, जहां एक दिए गए उपमाडल की भविष्यवाणी को दूसरे उपमाडल के निवेश के रूप में उपयोग किया जाता है, और उस भविष्यवाणी को तीसरे उपमाडल में निवेश के रूप में उपयोग किया जाता है, आदि। यदि प्रत्येक उपमॉडल की भविष्यवाणी में 90% यथार्थता है, और श्रृंखला में पांच उपमॉडल हैं, तो समग्र मॉडल में मात्र  0.95 = 59% यथार्थता है। यदि प्रत्येक उपमाडल में 80% यथार्थता है, तो समग्र यथार्थता 0.85 = 33% यथार्थता तक गिर जाती है। इस निर्गम को त्रुटि प्रसार के रूप में जाना जाता है और यह वास्तविक संसार के भविष्य कहनेवाला मॉडल में एक गंभीर समस्या है, जो सामान्यतः  कई भागों से बना होता है। मात्र  एक इष्टतम भविष्यवाणी करने के अतिरिक्त प्रत्येक संभावित परिणाम की संभावनाओं की भविष्यवाणी करना, इस निर्गम को कम करने का एक साधन है।

व्यवस्था
मूल व्यवस्था रसद प्रतिगमन के समान है, मात्र अंतर यह है कि आश्रित चर द्विआधारी चर के अतिरिक्त श्रेणीबद्ध चर हैं, अर्थात मात्र  दो के अतिरिक्त K संभावित परिणाम हैं। निम्नलिखित विवरण कुछ छोटा है; अधिक जानकारी के लिए, रसद प्रतिगमन लेख देखें।

डेटा बिंदु
विशेष रूप से, यह माना जाता है कि हमारे समीप N देखे गए डेटा बिंदुओं की एक श्रृंखला है। प्रत्येक डेटा बिंदु i (1 से N तक) में M व्याख्यात्मक चर x1,i ... XM,i (उर्फ स्वतंत्र चर, पूर्वसूचक चर, सुविधाएँ, आदि) का एक समूह होता है, और एक संबद्ध श्रेणीबद्ध चर परिणाम Yi (उर्फ आश्रित चर, प्रतिक्रिया चर), जो K संभावित मानों में से एक पर ले सकता है। ये संभावित मान तार्किक रूप से अलग-अलग श्रेणियों (जैसे विभिन्न राजनीतिक दलों, रक्त प्रकार, आदि) का प्रतिनिधित्व करते हैं, और प्रायः  गणितीय रूप से प्रत्येक को 1 से K तक  अव्यवस्थिततः रूप  से निर्दिष्ट करके वर्णित किया जाता है। व्याख्यात्मक चर और परिणाम डेटा बिंदुओं के देखे गए गुणों का प्रतिनिधित्व करते हैं, और प्रायः  N प्रयोगों की टिप्पणियों में उत्पन्न होने के विषय में सोचा जाता है - यद्यपि  एक प्रयोग में डेटा एकत्र करने से अधिक कुछ नहीं हो सकता है। बहुराष्ट्रीय रसद प्रतिगमन का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो व्याख्यात्मक चर और परिणाम के बीच संबंध की व्याख्या करता है, ताकि एक नवीन  प्रयोग के परिणाम को एक नवीन  डेटा बिंदु के लिए सही रूप  से भविष्यवाणी की जा सके, जिसके लिए व्याख्यात्मक चर, परन्तु नहीं परिणाम, उपलब्ध हैं। इस प्रक्रिया में, मॉडल परिणाम पर अलग-अलग व्याख्यात्मक चर के सापेक्ष प्रभाव को समझाने का प्रयास करता है।

कुछ उदाहरण:
 * देखे गए परिणाम रोगियों के एक समूह में यकृत शोथ (संभवत: कोई रोग और/या अन्य संबंधित रोगों सहित) जैसे रोग के विभिन्न प्रकार हैं, और व्याख्यात्मक चर उन रोगियों की विशेषताएं हो सकती हैं जिन्हें उचित माना जाता है (लिंग, जाति, आयु, रक्तचाप, विभिन्न यकृत-कार्य परीक्षणों के परिणाम, आदि)। लक्ष्य तब भविष्यवाणी करना है कि कौन सा रोग एक नवीन  रोगी में यकृत से संबंधित लक्षणों का कारण बन रही है।
 * देखे गए परिणाम एक चुनाव में लोगों के एक समूह द्वारा चुनी गई दल हैं, और व्याख्यात्मक चर प्रत्येक व्यक्ति की जनसांख्यिकीय विशेषताएं हैं (जैसे लिंग, जाति, आयु, आय, आदि)। लक्ष्य तब दी गई विशेषताओं के साथ एक नवीन मतदाता के संभावित वोट की भविष्यवाणी करना है।

रैखिक भविष्यवक्ता
रेखीय प्रतिगमन के अन्य रूपों की तरह, बहुराष्ट्रीय रसद प्रतिगमन एक रेखीय भविष्यवक्ता फलन $$f(k,i)$$ का उपयोग करता है ताकि का अनुमान लगाया जा सके कि प्रेक्षण i का परिणाम k है, निम्नलिखित रूप में:


 * $$f(k,i) = \beta_{0,k} + \beta_{1,k} x_{1,i} + \beta_{2,k} x_{2,i} + \cdots + \beta_{M,k} x_{M,i},$$

जहाँ$$\beta_{m,k}$$ mवां व्याख्यात्मक चर और kवां परिणाम से जुड़ा एक प्रतिगमन गुणांक है। जैसा कि रसद प्रतिगमन लेख में समझाया गया है, प्रतिगमन गुणांक और व्याख्यात्मक चर सामान्यतः आकार m + 1 के सदिश में समूहीकृत होते हैं, ताकि भविष्यवक्ता फलन को अधिक दृढ़तापूर्वक लिखा जा सके:


 * $$f(k,i) = \boldsymbol\beta_k \cdot \mathbf{x}_i,$$

जहाँ$$\boldsymbol\beta_k$$ परिणाम के साथ जुड़े प्रतिगमन गुणांक का समूह है, और $$\mathbf{x}_i$$ (एक पंक्ति सदिश) प्रेक्षण i से जुड़े व्याख्यात्मक चर का समूह है।

स्वतंत्र द्विचर प्रतिगमन के एक समूह के रूप में
बहुपद लॉगिट मॉडल पर पहुंचने के लिए, K संभावित परिणामों के लिए, K-1 स्वतंत्र द्विचर लॉजिस्टिक प्रतिगमन मॉडल चलाने की कल्पना की जा सकती है, जिसमें एक परिणाम को  केंद्रबिंदु के रूप में चुना जाता है और फिर अन्य K-1 परिणामों को  केंद्रबिंदु के विरुद्ध अलग से प्रत्यावर्तित किया जाता है। यदि परिणाम K (अंतिम परिणाम) को धुरी के रूप में चुना जाता है, तो K-1 प्रतिगमन समीकरण हैं:



\ln \frac{\Pr(Y_i=k)}{\Pr(Y_i=K)} \,=\, \boldsymbol\beta_k \cdot \mathbf{X}_i \;\;\;\;,\;\;k < K $$

इस सूत्रीकरण को सामान्य रूप से संरचनागत डेटा विश्लेषण में उपयोग होने वाले संरचनागत डेटा परिवर्तन के रूप में भी जाना जाता है। यदि हम दोनों पक्षों को प्रतिपादित करते हैं और संभावनाओं को हल करते हैं, तो हमें मिलता है:



\Pr(Y_i=k) \,=\, {\Pr(Y_i=K)}\;e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} \;\;\;\;,\;\;k < K $$ इस तथ्य का उपयोग करते हुए कि सभी K संभावनाओं का योग एक होना चाहिए, हम पाते हैं:


 * $$\Pr(Y_i=K) \,=\, 1- \sum_{k=1}^{K-1} \Pr (Y_i = k) \,=\, 1 - \sum_{k=1}^{K-1}{\Pr(Y_i=K)}\;e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} \;\;\Rightarrow\;\; \Pr(Y_i=K) \,=\, \frac{1}{1 + \sum_{k=1}^{K-1} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}}$$

हम इसका उपयोग अन्य संभावनाओं को खोजने के लिए कर सकते हैं:



\Pr(Y_i=k) = \frac{e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}}{1 + \sum_{k=1}^{K-1} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}} \;\;\;\;,\;\;k < K $$.

तथ्य यह है कि हम कई प्रतिगमन चलाते हैं, यह बताता है कि मॉडल ऊपर वर्णित अप्रासंगिक विकल्पों की स्वतंत्रता की धारणा पर क्यों निर्भर करता है।

गुणांक का आकलन
प्रत्येक सदिश βk में अज्ञात पैरामीटर सामान्यतः संयुक्त रूप से अधिकतम परवर्ती (प्रतिचित्र) अनुमान द्वारा अनुमान लगाया जाता है, जो रोग संबंधी हलों को रोकने के लिए भार के नियमितीकरण (गणित) का उपयोग करके अधिकतम संभावना का विस्तार है (सामान्यतः  एक वर्ग  नियमित फलन, जो शून्य-माध्य गॉसियन वितरण रखने के बराबर है भार पर पूर्व वितरण, परन्तु अन्य वितरण भी संभव हैं)। हल सामान्यतः  पुनरावृत्त प्रक्रिया जैसे सामान्यीकृत पुनरावृत्त स्केलिंग का उपयोग करके पाया जाता है, पुनरावृत्त रूप से कम से कम वर्ग (आईआरएलएस), एल-बीएफजीएस जैसे ढाल-आधारित अनुकूलन एल्गोरिदम के माध्यम से, या विशेष समन्वय वंश एल्गोरिदम द्वारा। 

लॉग-लीनियर मॉडल
के रूप में

लॉजिस्टिक प्रतिगमन#लॉग-लीनियर मॉडल|लॉग-लीनियर मॉडल के रूप में द्विचर लॉजिस्टिक  प्रतिगमन का सूत्रीकरण सीधे मल्टी-वे  प्रतिगमन तक बढ़ाया जा सकता है। अर्थात्, हम रैखिक भविष्यवक्ता के साथ-साथ एक अतिरिक्त सामान्यीकरण कारक, विभाजन फलन (गणित) के लघुगणक का उपयोग करके दिए गए आउटपुट को देखने की संभावना के लघुगणक को मॉडल करते हैं:



\ln \Pr(Y_i=k) = \boldsymbol\beta_k \cdot \mathbf{X}_i - \ln Z \;\;\;\;,\;\;k \le K $$.

जैसा कि द्विचर विषय में होता है, हमें एक अतिरिक्त पद की आवश्यकता होती है $$- \ln Z$$ यह सुनिश्चित करने के लिए कि संभावनाओं का पूरा समूह एक प्रायिकता वितरण बनाता है, यानी कि वे सभी एक के लिए योग करें:


 * $$\sum_{k=1}^{K} \Pr(Y_i=k) = 1$$

सामान्य रूप से गुणा करने के अतिरिक्त हमें सामान्यीकरण सुनिश्चित करने के लिए एक शब्द जोड़ने की आवश्यकता है, इसका कारण यह है कि हमने संभावनाओं का लघुगणक लिया है। दोनों पक्षों का घातांक योगात्मक शब्द को गुणक कारक में बदल देता है, जिससे कि संभावना सिर्फ गिब्स उपाय है:



\Pr(Y_i=k) = \frac{1}{Z} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} \;\;\;\;,\;\;k \le K $$.

वितरण के लिए मात्रा Z को विभाजन फलन (गणित) कहा जाता है। हम उपरोक्त बाधा को लागू करके विभाजन फलन के मान की गणना कर सकते हैं जिसके लिए सभी संभावनाओं को 1 तक जमा करने की आवश्यकता होती है:



1 = \sum_{k=1}^{K} \Pr(Y_i=k) \;=\; \sum_{k=1}^{K} \frac{1}{Z} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} \;=\; \frac{1}{Z} \sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} $$ इसलिए:


 * $$Z = \sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}$$

ध्यान दें कि यह कारक इस अर्थ में स्थिर है कि यह Y का कार्य नहीं हैi, जो कि वह चर है जिस पर संभाव्यता वितरण परिभाषित किया गया है। यद्यपि, यह निश्चित रूप से व्याख्यात्मक चर के संबंध में स्थिर नहीं है, या महत्वपूर्ण रूप से, अज्ञात प्रतिगमन गुणांक β के संबंध मेंk, जिसे हमें किसी प्रकार की गणितीय अनुकूलन प्रक्रिया के माध्यम से निर्धारित करने की आवश्यकता होगी।

संभावनाओं के लिए परिणामी समीकरण हैं



\Pr(Y_i=k) = \frac{e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}}{\sum_{j=1}^{K} e^{\boldsymbol\beta_j \cdot \mathbf{X}_i}} \;\;\;\;,\;\;k \le K $$.

या सामान्यतः :


 * $$\Pr(Y_i=c) = \frac{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}{\sum_{j=1}^{K} e^{\boldsymbol\beta_j \cdot \mathbf{X}_i}}$$

निम्नलिखित कार्य:


 * $$\operatorname{softmax}(k,x_1,\ldots,x_n) = \frac{e^{x_k}}{\sum_{i=1}^n e^{x_i}}$$

सॉफ्टमैक्स फलन के रूप में जाना जाता है। इसका कारण यह है कि मानों को प्रतिपादित करने का प्रभाव $$x_1,\ldots,x_n$$ उनके बीच मतभेदों को बढ़ा-चढ़ाकर प्रस्तुत करना है। नतीजतन, $$\operatorname{softmax}(k,x_1,\ldots,x_n)$$ जब भी 0 के करीब का मान लौटाएगा $$x_k$$सभी मानों के अधिकतम से काफी कम है, और अधिकतम मान पर लागू होने पर 1 के करीब मान लौटाएगा, जब तक कि यह अगले-सबसे बड़े मान के बेहद करीब न हो। इस प्रकार, सॉफ्टमैक्स फलन का उपयोग भारित औसत बनाने के लिए किया जा सकता है जो एक चिकनी फलन के रूप में व्यवहार करता है (जो आसानी से भेदभाव (गणित), आदि हो सकता है) और जो संकेतक फलन का अनुमान लगाता है


 * $$f(k) = \begin{cases}

1 \; \textrm{ if } \; k = \operatorname{\arg\max}(x_1, \ldots, x_n), \\ 0 \; \textrm{ otherwise}. \end{cases} $$ इस प्रकार, हम संभाव्यता समीकरणों को इस प्रकार लिख सकते हैं


 * $$\Pr(Y_i=c) = \operatorname{softmax}(c, \boldsymbol\beta_1 \cdot \mathbf{X}_i, \ldots, \boldsymbol\beta_K \cdot \mathbf{X}_i)$$

सॉफ्टमैक्स फलन इस प्रकार द्विचर लॉजिस्टिक प्रतिगमन में रसद समारोह के समतुल्य के रूप में कार्य करता है।

ध्यान दें कि सभी नहीं $$\beta_k$$ गुणांक के सदिश विशिष्ट पहचान योग्य हैं। यह इस तथ्य के कारण है कि सभी संभावनाओं का योग 1 होना चाहिए, बाकी सभी ज्ञात होने के बाद उनमें से एक पूर्ण रूप से निर्धारित हो जाती है। नतीजतन, ही हैं $$k-1$$ अलग से निर्दिष्ट संभावनाएँ, और इसलिए $$k-1$$ गुणांक के अलग-अलग पहचाने जाने योग्य सदिश। इसे देखने की एक विधि यह है कि यदि हम सभी गुणांक सदिशों में एक स्थिर सदिश जोड़ते हैं, तो समीकरण समान होते हैं:



\begin{align} \frac{e^{(\boldsymbol\beta_c + C) \cdot \mathbf{X}_i}}{\sum_{k=1}^{K} e^{(\boldsymbol\beta_k + C) \cdot \mathbf{X}_i}} &= \frac{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i} e^{C \cdot \mathbf{X}_i}}{\sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} e^{C \cdot \mathbf{X}_i}} \\ &= \frac{e^{C \cdot \mathbf{X}_i} e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}{e^{C \cdot \mathbf{X}_i} \sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}} \\ &= \frac{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}{\sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}} \end{align} $$ नतीजतन, यह समूह करने के लिए पारंपरिक है $$C = -\boldsymbol\beta_K$$ (या वैकल्पिक रूप से, अन्य गुणांक सदिशों में से एक)। अनिवार्य रूप से, हम स्थिरांक समूह करते हैं ताकि एक सदिश 0 हो जाए, और अन्य सभी सदिश उन सदिशों और हमारे द्वारा चुने गए सदिश के बीच के अंतर में रूपांतरित हो जाएं। यह K विकल्पों में से किसी एक के समीप पिवोट करने के बराबर है, और यह जांचना कि अन्य सभी K-1 विकल्प कितने बेहतर या खराब हैं, उस विकल्प के सापेक्ष जो हम घूम रहे हैं। गणितीय रूप से, हम गुणांकों को निम्नानुसार रूपांतरित करते हैं:



\begin{align} \boldsymbol\beta'_k &= \boldsymbol\beta_k - \boldsymbol\beta_K \;\;\;,\;k < K \\ \boldsymbol\beta'_K &= 0 \end{align} $$ यह निम्नलिखित समीकरणों की ओर जाता है:



\Pr(Y_i=k) = \frac{e^{\boldsymbol\beta'_k \cdot \mathbf{X}_i}}{1 + \sum_{j=1}^{K-1} e^{\boldsymbol\beta'_j \cdot \mathbf{X}_i}} \;\;\;\;,\;\;k \le K $$ प्रतिगमन गुणांकों पर प्रमुख प्रतीकों के अलावा, यह K-1 स्वतंत्र दो-तरफ़ा प्रतिगमन के संदर्भ में ऊपर वर्णित मॉडल के रूप में बिल्कुल वैसा ही है।

एक अव्यक्त-चर मॉडल
के रूप में

लॉजिस्टिक प्रतिगमन#टू-वे लेटेंट-वैरिएबल मॉडल|द्विचर लॉजिस्टिक  प्रतिगमन के लिए वर्णित टू-वे लेटेंट वेरिएबल मॉडल का पालन करते हुए एक लेटेंट वेरिएबल मॉडल के रूप में बहुपद लॉजिस्टिक  प्रतिगमन तैयार करना भी संभव है। यह सूत्रीकरण असतत विकल्प मॉडल के सिद्धांत में सामान्य है, और बहुराष्ट्रीय रसद प्रतिगमन की तुलना संबंधित बहुराष्ट्रीय प्रोबिट मॉडल के साथ-साथ इसे और अधिक जटिल मॉडल तक विस्तारित करना आसान बनाता है।

कल्पना करें कि, प्रत्येक डेटा बिंदु i और संभावित परिणाम k=1,2,...,K के लिए, एक सतत अव्यक्त चर Y हैi,k* (अर्थात् एक बिना प्रेक्षण वाला यादृच्छिक चर) जिसे निम्नानुसार वितरित किया गया है:



Y_{i,k}^{\ast} = \boldsymbol\beta_k \cdot \mathbf{X}_i + \varepsilon_k \;\;\;\;,\;\;k \le K $$ जहाँ$$\varepsilon_k \sim \operatorname{EV}_1(0,1),$$ यानी एक मानक प्रकार -1 चरम मान वितरण।

इस अव्यक्त चर को डेटा बिंदु से जुड़ी उपयोगिता के रूप में माना जा सकता है, मैं परिणाम k चुन रहा हूं, जहां प्राप्त उपयोगिता की वास्तविक मात्रा में कुछ यादृच्छिकता है, जो विकल्प में जाने वाले अन्य अप्रतिबंधित कारकों के लिए जिम्मेदार है। वास्तविक चर का मान $$Y_i$$ तब इन अव्यक्त चरों से एक गैर-यादृच्छिक फैशन में निर्धारित किया जाता है (अर्थात यादृच्छिकता को देखे गए परिणामों से अव्यक्त चर में ले जाया गया है), जहां परिणाम k को चुना जाता है यदि और मात्र यदि संबद्ध उपयोगिता (का मान) $$Y_{i,k}^{\ast}$$) अन्य सभी विकल्पों की उपयोगिताओं से अधिक है, अर्थात यदि परिणाम k से जुड़ी उपयोगिता सभी उपयोगिताओं में से अधिकतम है। चूँकि अव्यक्त चर निरंतर परिवर्तनशील होते हैं, दो के बिल्कुल समान मान होने की संभावना 0 होती है, इसलिए हम परिदृश्य को अनदेखा कर देते हैं। वह है:



\begin{align} \Pr(Y_i = 1) &= \Pr(Y_{i,1}^{\ast} > Y_{i,2}^{\ast} \text{ and } Y_{i,1}^{\ast} > Y_{i,3}^{\ast}\text{ and } \cdots \text{ and } Y_{i,1}^{\ast} > Y_{i,K}^{\ast}) \\ \Pr(Y_i = 2) &= \Pr(Y_{i,2}^{\ast} > Y_{i,1}^{\ast} \text{ and } Y_{i,2}^{\ast} > Y_{i,3}^{\ast}\text{ and } \cdots \text{ and } Y_{i,2}^{\ast} > Y_{i,K}^{\ast}) \\ \cdots & \\ \Pr(Y_i = K) &= \Pr(Y_{i,K}^{\ast} > Y_{i,1}^{\ast} \text{ and } Y_{i,K}^{\ast} > Y_{i,2}^{\ast}\text{ and } \cdots \text{ and } Y_{i,K}^{\ast} > Y_{i,K-1}^{\ast}) \\ \end{align} $$ या समतुल्य :



\Pr(Y_i = k) \;=\; \Pr(\max(Y_{i,1}^{\ast},Y_{i,2}^{\ast},\ldots,Y_{i,K}^{\ast})=Y_{i,k}^{\ast}) \;\;\;\;,\;\;k \le K $$ आइए पहले समीकरण को अधिक बारीकी से देखें, जिसे हम इस प्रकार लिख सकते हैं:



\begin{align} \Pr(Y_i = 1) &= \Pr(Y_{i,1}^{\ast} > Y_{i,k}^{\ast}\ \forall\ k=2,\ldots,K) \\ &= \Pr(Y_{i,1}^{\ast} - Y_{i,k}^{\ast} > 0\ \forall\ k=2,\ldots,K) \\ &= \Pr(\boldsymbol\beta_1 \cdot \mathbf{X}_i + \varepsilon_1 - (\boldsymbol\beta_k \cdot \mathbf{X}_i + \varepsilon_k) > 0\ \forall\ k=2,\ldots,K) \\ &= \Pr((\boldsymbol\beta_1 - \boldsymbol\beta_k) \cdot \mathbf{X}_i > \varepsilon_k - \varepsilon_1\ \forall\ k=2,\ldots,K) \end{align} $$ यहां समझने के लिए कुछ चीजें हैं:
 * 1) सामान्य तौर पर, अगर $$X \sim \operatorname{EV}_1(a,b)$$ और $$Y \sim \operatorname{EV}_1(a,b)$$ तब $$X - Y \sim \operatorname{Logistic}(0,b).$$ यही है, दो स्वतंत्र समान रूप से वितरित चरम-मान-वितरित चर का अंतर रसद वितरण का अनुसरण करता है, जहां पहला पैरामीटर महत्वहीन है। यह समझ में आता है क्योंकि पहला पैरामीटर एक स्थान पैरामीटर है, यानी यह माध्य को एक निश्चित राशि से बदलता है, और यदि दो मानों को एक ही राशि से स्थानांतरित किया जाता है, तो उनका अंतर समान रहता है। इसका मतलब यह है कि किसी दिए गए विकल्प की संभावना के अंतर्गत आने वाले सभी संबंधपरक बयानों में रसद वितरण सम्मिलित  है, जो चरम-मान वितरण की प्रारंभिक विकल्प बनाता है, जो कि मनमाना लगता है, कुछ हद तक अधिक समझने योग्य है।
 * 2) Xट्रीम-वैल्यू या लॉजिस्टिक डिस्ट्रीब्यूशन में दूसरा पैरामीटर एक स्केल पैरामीटर है, जैसे कि यदि $$X \sim \operatorname{Logistic}(0,1)$$ तब $$bX \sim \operatorname{Logistic}(0,b).$$ इसका मतलब यह है कि स्केल 1 के स्थान पर एक  अव्यवस्थिततः पैमाने के पैरामीटर के साथ एक त्रुटि चर का उपयोग करने के प्रभाव को सभी प्रतिगमन सदिशों को उसी पैमाने से गुणा करके मुआवजा दिया जा सकता है। पिछले बिंदु के साथ, यह दर्शाता है कि त्रुटि चर के लिए मानक चरम-मान वितरण (स्थान 0, स्केल 1) का उपयोग  अव्यवस्थिततः रूप  से चरम-मान वितरण का उपयोग करने पर सामान्यता का कोई नुकसान नहीं करता है। यथार्थ, यदि अधिक सामान्य वितरण का उपयोग किया जाता है तो मॉडल गैर-पहचान योग्य (इष्टतम गुणांक का कोई एकल समूह नहीं) है।
 * 3) क्योंकि मात्र  प्रतिगमन गुणांक के सदिश के अंतर का उपयोग किया जाता है, सभी गुणांक सदिशों के लिए एक मनमाना स्थिरांक जोड़ने से मॉडल पर कोई प्रभाव नहीं पड़ता है। इसका मतलब यह है कि, लॉग-लीनियर मॉडल की तरह, गुणांक सदिशों में से मात्र  K-1 की पहचान की जा सकती है, और अंतिम वाले को  अव्यवस्थिततः मान पर समूह किया जा सकता है (उदाहरण के लिए 0)।

यथार्थ उपरोक्त संभावनाओं के मानों को खोजना कुछ कठिन है, और मानों के एक समूह के एक विशेष अनुक्रमित आँकड़ा (पहला, यानी अधिकतम) की गणना करने की समस्या है। यद्यपि, यह दिखाया जा सकता है कि परिणामी अभिव्यक्तियाँ उपरोक्त योगों के समान हैं, अर्थात दोनों समान हैं।

अवरोधन का अनुमान
बहुराष्ट्रीय रसद प्रतिगमन का उपयोग करते समय, आश्रित चर की एक श्रेणी को संदर्भ श्रेणी के रूप में चुना जाता है। संदर्भ श्रेणी के अपवाद के साथ आश्रित चर की प्रत्येक श्रेणी के लिए सभी स्वतंत्र चर के लिए अलग-अलग विषम अनुपात निर्धारित किए जाते हैं, जिसे विश्लेषण से हटा दिया जाता है। घातीय बीटा गुणांक संबंधित स्वतंत्र चर के एक इकाई परिवर्तन से जुड़े संदर्भ श्रेणी की तुलना में एक विशेष श्रेणी में होने वाले आश्रित चर के अंतर में परिवर्तन का प्रतिनिधित्व करता है।

प्राकृतिक भाषा प्रसंस्करण
में आवेदन प्राकृतिक भाषा प्रसंस्करण में, बहुराष्ट्रीय LR वर्गीकारकों का उपयोग सामान्यतः सहज बेयस वर्गीकारकों के विकल्प के रूप में किया जाता है क्योंकि वे भविष्यवाणियों के रूप में सेवा करने वाले यादृच्छिक चर (सामान्यतः  सुविधाओं के रूप में जाना जाता है) की सांख्यिकीय स्वतंत्रता नहीं मानते हैं। यद्यपि, इस तरह के एक मॉडल में सीखना एक सरल बेयस वर्गीकरणकर्ता की तुलना में धीमा है, और इस प्रकार सीखने के लिए बहुत बड़ी संख्या में उपयुक्त नहीं हो सकता है। विशेष रूप से, Naive Bayes वर्गीकरणकर्ता में सीखना सुविधाओं और कक्षाओं की सह-घटनाओं की संख्या को गिनने का एक साधारण मामला है, जबकि अधिकतम एन्ट्रॉपी वर्गीकरणकर्ता में वज़न, जो सामान्यतः  अधिकतम  परवर्ती (MAP) अनुमान का उपयोग करके अधिकतम किया जाता है, होना चाहिए पुनरावृत्त प्रक्रिया का उपयोग करके सीखा जा सकता है; देखें #गुणांकों का अनुमान लगाना।

यह भी देखें

 * संभार तन्त्र परावर्तन
 * बहुराष्ट्रीय संभावना