बहुपद तार्किक प्रतिगमन

आँकड़ों में, बहुराष्ट्रीय रसद प्रतिगमन एक सांख्यिकीय वर्गीकरण पद्धति है जो बहुवर्गीय वर्गीकरण के लिए रसद प्रतिगमन को सामान्यीकृत करता है, अर्थात दो से अधिक संभावित असतत परिणामों के साथ। यही है, यह एक मॉडल है जिसका उपयोग एक श्रेणीबद्ध वितरण आश्रित चर के विभिन्न संभावित परिणामों की संभावनाओं की भविष्यवाणी करने के लिए किया जाता है, स्वतंत्र चर का एक समूह दिया जाता है(जो वास्तविक-मानित, द्विचर-मानित, श्रेणीबद्ध-मानित आदि हो सकता है।).

बहुराष्ट्रीय रसद प्रतिगमन को कई अन्य नामों से जाना जाता है, जिसमें बहुभाजी LR, बहुकक्ष LR, सॉफ्टमैक्स प्रतिगमन, बहुपद लॉगिट(mलॉगिट), अधिकतम एन्ट्रॉपी( मैक्सएंट) वर्गीकरणकर्ता, और सशर्त अधिकतम एन्ट्रापी मॉडल सम्मिलित है।

पृष्ठाधार
बहुराष्ट्रीय रसद प्रतिगमन का उपयोग तब किया जाता है जब प्रश्न में आश्रित चर नाममात्र होता है(समतुल्य श्रेणीबद्ध, जिसका अर्थ है कि यह श्रेणियों के किसी भी एक समूह में आता है जिसे किसी भी सार्थक रूप से अनुक्रमित नहीं किया जा सकता है) और जिसके लिए दो से अधिक श्रेणियां हैं। कुछ उदाहरण होंगे: ये सभी सांख्यिकीय वर्गीकरण की समस्याएं हैं। उन सभी में सामान्यतः भविष्यवाणी करने के लिए एक आश्रित चर होता है जो कि वस्तुओं के एक सीमित समूह से आता है जिसे सार्थक रूप से अनुक्रमित नहीं किया जा सकता है, साथ ही साथ स्वतंत्र चर का एक समूह(जिसे सुविधाओं, स्पष्टीकरण आदि के रूप में भी जाना जाता है), जिसका उपयोग आश्रित चर की भविष्यवाणी करने के लिए किया जाता है। बहुराष्ट्रीय रसद प्रतिगमन वर्गीकरण समस्याओं का एक विशेष हल है जो आश्रित चर के प्रत्येक विशेष मान की संभावना का अनुमान लगाने के लिए देखी गई विशेषताओं और कुछ समस्या-विशिष्ट मापदंडों के एक रैखिक संयोजन का उपयोग करता है। किसी दी गई समस्या के लिए मापदंडों के सर्वोत्तम मानों को सामान्यतः कुछ प्रशिक्षण डेटा से निर्धारित किया जाता है(उदाहरण के लिए कुछ लोग जिनके लिए नैदानिक ​​​​परीक्षण के परिणाम और रक्त प्रकार दोनों ज्ञात हैं, या ज्ञात शब्दों के कुछ उदाहरण बोले जा रहे हैं)।
 * एक महाविद्यालय के छात्र अपनी श्रेणी, बताई गई पसंद और नापसंद आदि को देखते हुए कौन सा विषय चुनेंगे?
 * विभिन्न नैदानिक ​​परीक्षणों के परिणामों को देखते हुए, एक व्यक्ति का रक्त प्रकार कौन सा है?
 * एक हैंड्-फ़्री मोबाइल फ़ोन डायलिंग एप्लिकेशन में, किस व्यक्ति का नाम बोला गया था, भाषण संकेत के विभिन्न गुण दिए गए थे?
 * विशेष जनसांख्यिकीय विशेषताओं को देखते हुए कोई व्यक्ति किस उम्मीदवार को वोट देगा?
 * व्यवसाय की और विभिन्न उम्मीदवार देशों की विशेषताओं को देखते हुए, एक व्यवसाय किस देश में अपना कार्यालय स्थापित करेगी?

अनुमान
बहुराष्ट्रीय रसद मॉडल मानता है कि डेटा केस-विशिष्ट हैं; अर्थात्, प्रत्येक स्वतंत्र चर का प्रत्येक विषय के लिए एक मान होता है। बहुराष्ट्रीय रसद मॉडल यह भी मानता है कि आश्रित चर को किसी भी विषय के लिए स्वतंत्र चर से पूर्ण रूप से भविष्यवाणी नहीं की जा सकती है। अन्य प्रकार के प्रतिगमन के साथ, स्वतंत्र चर को एक दूसरे से सांख्यिकीय रूप से स्वतंत्र होने की कोई आवश्यकता नहीं है(उदाहरण के लिए, बेयस वर्गीकरणकर्ता के विपरीत); यद्यपि, बहुसंरेखता को अपेक्षाकृत कम माना जाता है, क्योंकि यदि ऐसा नहीं है तो कई चरों के प्रभाव के बीच अंतर करना जटिल हो जाता है।

यदि बहुपद लॉगिट का उपयोग मॉडल विकल्पों के लिए किया जाता है, तो यह अप्रासंगिक विकल्पों(आईआईए) की स्वतंत्रता की धारणा पर निर्भर करता है, जो सदैव वांछनीय नहीं होता है। यह धारणा बताती है कि एक वर्ग को दूसरे पर वरीयता देने की संभावना अन्य अप्रासंगिक विकल्पों की उपस्थिति या अनुपस्थिति पर निर्भर नहीं करती है। उदाहरण के लिए, यदि साइकिल को अतिरिक्त संभावना के रूप में जोड़ा जाता है तो कार या बस को कार्य पर ले जाने की सापेक्ष संभावनाएँ नहीं बदलतीं। यह K-1 स्वतंत्र द्विचर विकल्पों के एक समूह के रूप में K विकल्पों की पसंद को मॉडल करने की अनुमति देती है, जिसमें एक विकल्प को धुरी के रूप में चुना जाता है और दूसरे K-1 की तुलना में, एक समय में एक। आईआईए परिकल्पना तर्कसंगत विकल्प सिद्धांत में एक मुख्य परिकल्पना है; यद्यपि मनोविज्ञान में कई अध्ययनों से पता चलता है कि चुनाव करते समय व्यक्ति प्रायः इस धारणा का उल्लंघन करते हैं। यदि विकल्प में एक कार और एक नीली बस सम्मिलित है तो समस्या का एक उदाहरण सामने आता है। मान लीजिए कि दोनों के बीच विषम अनुपात 1:1 है। अब यदि लाल बस का विकल्प प्रस्तुत किया जाता है, तो एक व्यक्ति लाल और नीली बस के बीच निरपेक्ष हो सकता है, और इसलिए एक कार: नीली बस: लाल बस का अनुपात 1: 0.5: 0.5 का प्रदर्शन कर सकता है, इस प्रकार एक 1: 1 अनुपात रखता है: किसी भी बस को परिवर्तित कार को अपनाने के समय: नीली बस का अनुपात 1: 0.5 है। यहां लाल बस का विकल्प यथार्थ अप्रासंगिक नहीं था, क्योंकि लाल बस नीले रंग की बस का सही विकल्प थी।

यदि बहुपद लॉगिट का उपयोग विकल्पों को मॉडल करने के लिए किया जाता है, तो यह कुछ स्थितियों में विभिन्न विकल्पों के बीच सापेक्ष प्राथमिकताओं पर बहुत अधिक प्रतिबंध लगा सकता है। यह बिंदु विशेष रूप से ध्यान में रखना महत्वपूर्ण है यदि विश्लेषण का उद्देश्य भविष्यवाणी करना है कि यदि एक विकल्प अंतर्हित हो जाता है तो विकल्प कैसे बदलेंगे(उदाहरण के लिए यदि एक राजनीतिक उम्मीदवार तीन उम्मीदवारों की दौड़ से हट जाता है)। अन्य मॉडल जैसे नीडन लॉगिट या बहुराष्ट्रीय संभावना का उपयोग ऐसे विषयों में किया जा सकता है क्योंकि वे आईआईए के उल्लंघन की अनुमति देते हैं।

परिचय
बहुराष्ट्रीय रसद प्रतिगमन अंतर्निहित गणितीय मॉडल का वर्णन करने के लिए कई समान रूप हैं। इससे विभिन्न पाठों में विषय के विभिन्न उपचारों की तुलना करना कठिन हो सकता है। रसद प्रतिगमन पर लेख सरल रसद प्रतिगमन के कई समतुल्य सूत्रीकरण प्रस्तुत करता है, और इनमें से कई बहुपद लॉगिट मॉडल में अनुरूप हैं।

उन सभी के पीछे का विचार, जैसा कि कई अन्य सांख्यिकीय वर्गीकरण तकनीकों में है, एक रैखिक भविष्यवक्ता फलन का निर्माण करना है जो भार के एक समूह से एक अंक बनाता है जो एक बिंदु उत्पाद का उपयोग करके दिए गए प्रेक्षण के व्याख्यात्मक चर(विशेषताओं) के साथ रैखिक संयोजन होता है। :


 * $$\operatorname{score}(\mathbf{X}_i,k) = \boldsymbol\beta_k \cdot \mathbf{X}_i,$$

जहां Xi प्रेक्षण i का वर्णन करने वाले व्याख्यात्मक चरों का सदिश है βk भार(या प्रतिगमन गुणांक) का एक सदिश है जो परिणाम k के अनुरूप है, और अंक(Xi, k) श्रेणी k को प्रेक्षण i निर्दिष्ट करने से जुड़ा अंक है। असतत विकल्प सिद्धांत में, जहां प्रेक्षण लोगों का प्रतिनिधित्व करते हैं और परिणाम विकल्पों का प्रतिनिधित्व करते हैं, अंक को व्यक्ति i चुनने वाले परिणाम k से जुड़ी उपयोगिता माना जाता है। अनुमानित परिणाम उच्चतम अंक वाला है।

बहुपद लॉगिट मॉडल और कई अन्य विधियों, मॉडल, एल्गोरिदम, आदि के बीच एक ही मूल व्यवस्था(परसेप्ट्रॉन एल्गोरिथ्म, समर्थन सदिश यंत्र, रैखिक विभेदक विश्लेषण, आदि) के बीच का अंतर इष्टतम भार निर्धारित(प्रशिक्षण) करने की प्रक्रिया है। / गुणांक और जिस प्रकार से अंक की व्याख्या की जाती है। विशेष रूप से, बहुपद लॉगिट मॉडल में, अंक को सीधे प्रायिकता मान में परिवर्तित किया जा सकता है, जो प्रेक्षण की मापित विशेषताओं को देखते हुए परिणाम k चुनने की संभावना को दर्शाता है। यह एक विशेष बहुराष्ट्रीय लॉगिट मॉडल की भविष्यवाणी को एक बड़ी प्रक्रिया में सम्मिलित करने की एक सैद्धांतिक विधि प्रदान करती है जिसमें त्रुटि की संभावना के साथ प्रत्येक ऐसी कई भविष्यवाणियां सम्मिलित हो सकती हैं। भविष्यवाणियों के संयोजन के ऐसे साधनों के बिना, त्रुटियाँ कई गुना बढ़ जाती हैं। उदाहरण के लिए, एक बड़े भविष्य कहनेवाला मॉडलिंग की कल्पना करें, जो उपमाडलों की एक श्रृंखला में टूट जाता है, जहां एक दिए गए उपमाडल की भविष्यवाणी को दूसरे उपमाडल के निवेश के रूप में उपयोग किया जाता है, और उस भविष्यवाणी को तीसरे उपमाडल में निवेश के रूप में उपयोग किया जाता है, आदि। यदि प्रत्येक उपमॉडल की भविष्यवाणी में 90% यथार्थता है, और श्रृंखला में पांच उपमॉडल हैं, तो समग्र मॉडल में मात्र 0.95 = 59% यथार्थता है। यदि प्रत्येक उपमाडल में 80% यथार्थता है, तो समग्र यथार्थता 0.85 = 33% यथार्थता तक गिर जाती है। इस निर्गम को त्रुटि प्रसार के रूप में जाना जाता है और यह वास्तविक संसार के भविष्य कहनेवाला मॉडल में एक गंभीर समस्या है, जो सामान्यतः कई भागों से बना होता है। मात्र एक इष्टतम भविष्यवाणी करने के अतिरिक्त प्रत्येक संभावित परिणाम की संभावनाओं की भविष्यवाणी करना, इस निर्गम को कम करने का एक साधन है।

व्यवस्था
मूल व्यवस्था रसद प्रतिगमन के समान है, मात्र अंतर यह है कि आश्रित चर द्विआधारी चर के अतिरिक्त श्रेणीबद्ध चर हैं, अर्थात मात्र दो के अतिरिक्त K संभावित परिणाम हैं। निम्नलिखित विवरण कुछ छोटा है; अधिक जानकारी के लिए, रसद प्रतिगमन लेख देखें।

डेटा बिंदु
विशेष रूप से, यह माना जाता है कि हमारे समीप N देखे गए डेटा बिंदुओं की एक श्रृंखला है। प्रत्येक डेटा बिंदु i(1 से N तक) में M व्याख्यात्मक चर x1,i ... XM,i(उर्फ स्वतंत्र चर, पूर्वसूचक चर, सुविधाएँ, आदि) का एक समूह होता है, और एक संबद्ध श्रेणीबद्ध चर परिणाम Yi(उर्फ आश्रित चर, प्रतिक्रिया चर), जो K संभावित मानों में से एक पर ले सकता है। ये संभावित मान तार्किक रूप से अलग-अलग श्रेणियों(जैसे विभिन्न राजनीतिक दलों, रक्त प्रकार, आदि) का प्रतिनिधित्व करते हैं, और प्रायः गणितीय रूप से प्रत्येक को 1 से K तक अव्यवस्थिततः रूप से निर्दिष्ट करके वर्णित किया जाता है। व्याख्यात्मक चर और परिणाम डेटा बिंदुओं के देखे गए गुणों का प्रतिनिधित्व करते हैं, और प्रायः N प्रयोगों की टिप्पणियों में उत्पन्न होने के विषय में सोचा जाता है - यद्यपि एक प्रयोग में डेटा एकत्र करने से अधिक कुछ नहीं हो सकता है। बहुराष्ट्रीय रसद प्रतिगमन का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो व्याख्यात्मक चर और परिणाम के बीच संबंध की व्याख्या करता है, ताकि एक नवीन प्रयोग के परिणाम को एक नवीन डेटा बिंदु के लिए सही रूप से भविष्यवाणी की जा सके, जिसके लिए व्याख्यात्मक चर, परन्तु नहीं परिणाम, उपलब्ध हैं। इस प्रक्रिया में, मॉडल परिणाम पर अलग-अलग व्याख्यात्मक चर के सापेक्ष प्रभाव को समझाने का प्रयास करता है।

कुछ उदाहरण:
 * देखे गए परिणाम रोगियों के एक समूह में यकृत शोथ(संभवत: कोई रोग और/या अन्य संबंधित रोगों सहित) जैसे रोग के विभिन्न प्रकार हैं, और व्याख्यात्मक चर उन रोगियों की विशेषताएं हो सकती हैं जिन्हें उचित माना जाता है(लिंग, जाति, आयु, रक्तचाप, विभिन्न यकृत-कार्य परीक्षणों के परिणाम, आदि)। लक्ष्य तब भविष्यवाणी करना है कि कौन सा रोग एक नवीन रोगी में यकृत से संबंधित लक्षणों का कारण बन रही है।
 * देखे गए परिणाम एक चुनाव में लोगों के एक समूह द्वारा चुनी गई दल हैं, और व्याख्यात्मक चर प्रत्येक व्यक्ति की जनसांख्यिकीय विशेषताएं हैं(जैसे लिंग, जाति, आयु, आय, आदि)। लक्ष्य तब दी गई विशेषताओं के साथ एक नवीन मतदाता के संभावित वोट की भविष्यवाणी करना है।

रैखिक भविष्यवक्ता
रेखीय प्रतिगमन के अन्य रूपों के जैसे, बहुराष्ट्रीय रसद प्रतिगमन एक रेखीय भविष्यवक्ता फलन $$f(k,i)$$ का उपयोग करता है ताकि का अनुमान लगाया जा सके कि प्रेक्षण i का परिणाम k है, निम्नलिखित रूप में:


 * $$f(k,i) = \beta_{0,k} + \beta_{1,k} x_{1,i} + \beta_{2,k} x_{2,i} + \cdots + \beta_{M,k} x_{M,i},$$

जहाँ$$\beta_{m,k}$$ mवां व्याख्यात्मक चर और kवां परिणाम से जुड़ा एक प्रतिगमन गुणांक है। जैसा कि रसद प्रतिगमन लेख में समझाया गया है, प्रतिगमन गुणांक और व्याख्यात्मक चर सामान्यतः आकार m + 1 के सदिश में समूहीकृत होते हैं, ताकि भविष्यवक्ता फलन को अधिक दृढ़तापूर्वक लिखा जा सके:


 * $$f(k,i) = \boldsymbol\beta_k \cdot \mathbf{x}_i,$$

जहाँ$$\boldsymbol\beta_k$$ परिणाम के साथ जुड़े प्रतिगमन गुणांक का समूह है, और $$\mathbf{x}_i$$(एक पंक्ति सदिश) प्रेक्षण i से जुड़े व्याख्यात्मक चर का समूह है।

स्वतंत्र द्विचर प्रतिगमन के एक समूह के रूप में
बहुपद लॉगिट मॉडल पर पहुंचने के लिए, K संभावित परिणामों के लिए, K-1 स्वतंत्र द्विचर रसद प्रतिगमन मॉडल चलाने की कल्पना की जा सकती है, जिसमें एक परिणाम को केंद्रबिंदु के रूप में चुना जाता है और फिर अन्य K-1 परिणामों को केंद्रबिंदु के विरुद्ध अलग से प्रत्यावर्तित किया जाता है। यदि परिणाम K(अंतिम परिणाम) को धुरी के रूप में चुना जाता है, तो K-1 प्रतिगमन समीकरण हैं:



\ln \frac{\Pr(Y_i=k)}{\Pr(Y_i=K)} \,=\, \boldsymbol\beta_k \cdot \mathbf{X}_i \;\;\;\;,\;\;k < K $$

इस सूत्रीकरण को सामान्य रूप से संरचनागत डेटा विश्लेषण में उपयोग होने वाले संरचनागत डेटा परिवर्तन के रूप में भी जाना जाता है। यदि हम दोनों पक्षों को प्रतिपादित करते हैं और संभावनाओं को हल करते हैं, तो हमें मिलता है:



\Pr(Y_i=k) \,=\, {\Pr(Y_i=K)}\;e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} \;\;\;\;,\;\;k < K $$ इस तथ्य का उपयोग करते हुए कि सभी K संभावनाओं का योग एक होना चाहिए, हम पाते हैं:


 * $$\Pr(Y_i=K) \,=\, 1- \sum_{k=1}^{K-1} \Pr (Y_i = k) \,=\, 1 - \sum_{k=1}^{K-1}{\Pr(Y_i=K)}\;e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} \;\;\Rightarrow\;\; \Pr(Y_i=K) \,=\, \frac{1}{1 + \sum_{k=1}^{K-1} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}}$$

हम इसका उपयोग अन्य संभावनाओं को खोजने के लिए कर सकते हैं:



\Pr(Y_i=k) = \frac{e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}}{1 + \sum_{k=1}^{K-1} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}} \;\;\;\;,\;\;k < K $$.

तथ्य यह है कि हम कई प्रतिगमन चलाते हैं, यह बताता है कि मॉडल ऊपर वर्णित अप्रासंगिक विकल्पों की स्वतंत्रता की धारणा पर क्यों निर्भर करता है।

गुणांक का आकलन
प्रत्येक सदिश βk में अज्ञात पैरामीटर सामान्यतः संयुक्त रूप से अधिकतम परवर्ती(प्रतिचित्र) अनुमान द्वारा अनुमान लगाया जाता है, जो रोग संबंधी हलों को रोकने के लिए भार के नियमितीकरण(गणित) का उपयोग करके अधिकतम संभावना का विस्तार है(सामान्यतः एक वर्ग नियमित फलन, जो शून्य-माध्य गॉसियन वितरण रखने के बराबर है भार पर पूर्व वितरण, परन्तु अन्य वितरण भी संभव हैं)। हल सामान्यतः पुनरावृत्त प्रक्रिया जैसे सामान्यीकृत पुनरावृत्त प्रवर्धन का उपयोग करके पाया जाता है, पुनरावृत्त रूप से कम से कम वर्ग(आईआरएलएस), एल-बीएफजीएस जैसे ढाल-आधारित अनुकूलन एल्गोरिदम के माध्यम से, या विशेष समन्वय अवरोहण एल्गोरिदम द्वारा। 

लॉग-रेखीय मॉडल के रूप में
लॉग-रेखीय मॉडल के रूप में द्विचर रसद प्रतिगमन का सूत्रीकरण सीधे बहु-मार्गी प्रतिगमन तक बढ़ाया जा सकता है। अर्थात्, हम रैखिक भविष्यवक्ता के साथ-साथ एक अतिरिक्त सामान्यीकरण कारक, विभाजन फलन(गणित) के लघुगणक का उपयोग करके दिए गए निर्गम को देखने की संभावना के लघुगणक को मॉडल करते हैं:



\ln \Pr(Y_i=k) = \boldsymbol\beta_k \cdot \mathbf{X}_i - \ln Z \;\;\;\;,\;\;k \le K $$.

जैसा कि द्विचर विषय में होता है, हमें एक अतिरिक्त पद की आवश्यकता होती है $$- \ln Z$$ यह सुनिश्चित करने के लिए कि संभावनाओं का पूरा समूह प्रायिकता वितरण बनाता है, अर्थात् वे सभी एक के लिए योग करें:


 * $$\sum_{k=1}^{K} \Pr(Y_i=k) = 1$$

सामान्य रूप से गुणा करने के अतिरिक्त हमें सामान्यीकरण सुनिश्चित करने के लिए एक शब्द जोड़ने की आवश्यकता है, इसका कारण यह है कि हमने संभावनाओं का लघुगणक लिया है। दोनों पक्षों का घातांक योगात्मक शब्द को गुणक कारक में बदल देता है, जिससे कि संभावना सिर्फ गिब्स उपाय है:



\Pr(Y_i=k) = \frac{1}{Z} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} \;\;\;\;,\;\;k \le K $$.

वितरण के लिए मात्रा Z को विभाजन फलन(गणित) कहा जाता है। हम उपरोक्त बाधा को लागू करके विभाजन फलन के मान की गणना कर सकते हैं जिसके लिए सभी संभावनाओं को 1 तक जमा करने की आवश्यकता होती है:



1 = \sum_{k=1}^{K} \Pr(Y_i=k) \;=\; \sum_{k=1}^{K} \frac{1}{Z} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} \;=\; \frac{1}{Z} \sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} $$ इसलिए:


 * $$Z = \sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}$$

ध्यान दें कि यह कारक "निरंतर" इस ​​अर्थ में है कि यह Yi का कार्य नहीं है, जो चर है जिस पर संभाव्यता वितरण परिभाषित किया गया है। यद्यपि, यह निश्चित रूप से अज्ञात प्रतिगमन गुणांक βk के संबंध में व्याख्यात्मक चर के संबंध में स्थिर नहीं है, या महत्वपूर्ण रूप से, जिसे हमें किसी प्रकार की गणितीय अनुकूलन प्रक्रिया के माध्यम से निर्धारित करने की आवश्यकता होगी।

संभावनाओं के लिए परिणामी समीकरण हैं



\Pr(Y_i=k) = \frac{e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}}{\sum_{j=1}^{K} e^{\boldsymbol\beta_j \cdot \mathbf{X}_i}} \;\;\;\;,\;\;k \le K $$.

या सामान्यतः :


 * $$\Pr(Y_i=c) = \frac{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}{\sum_{j=1}^{K} e^{\boldsymbol\beta_j \cdot \mathbf{X}_i}}$$

निम्नलिखित कार्य:


 * $$\operatorname{softmax}(k,x_1,\ldots,x_n) = \frac{e^{x_k}}{\sum_{i=1}^n e^{x_i}}$$

सॉफ्टमैक्स फलन के रूप में जाना जाता है। इसका कारण यह है कि $$x_1,\ldots,x_n$$ मानों को प्रतिपादित करने का प्रभाव उनके बीच अंतरों को बढ़ा-चढ़ाकर प्रस्तुत करना है। फलस्वरूप, $$\operatorname{softmax}(k,x_1,\ldots,x_n)$$ 0 के समीप मान लौटाएगा जब भी $$x_k$$सभी मानों के अधिकतम से अत्यधिक कम होगा, और अधिकतम मान पर लागू होने पर 1 के समीप मान लौटाएगा, जब तक कि यह अगले-सबसे बड़े मान के अत्यंत समीप न हो। इस प्रकार, सॉफ्टमैक्स फलन का उपयोग भारित औसत बनाने के लिए किया जा सकता है जो एक चिकने फलन के रूप में व्यवहार करता है(जो सरली से विभेदित(गणित), आदि हो सकता है) और जो संकेतक फलन का अनुमान लगाता है


 * $$f(k) = \begin{cases}

1 \; \textrm{ if } \; k = \operatorname{\arg\max}(x_1, \ldots, x_n), \\ 0 \; \textrm{ otherwise}. \end{cases} $$ इस प्रकार, हम संभाव्यता समीकरणों को इस प्रकार लिख सकते हैं


 * $$\Pr(Y_i=c) = \operatorname{softmax}(c, \boldsymbol\beta_1 \cdot \mathbf{X}_i, \ldots, \boldsymbol\beta_K \cdot \mathbf{X}_i)$$

सॉफ्टमैक्स फलन इस प्रकार द्विचर रसद प्रतिगमन में रसद फलन के समतुल्य के रूप में कार्य करता है।

ध्यान दें कि गुणांक के सभी $$\beta_k$$ सदिश विशिष्ट रूप से अभिज्ञेय योग्य नहीं हैं। यह इस तथ्य के कारण है कि सभी संभावनाओं का योग 1 होना चाहिए, शेष सभी ज्ञात होने के बाद उनमें से एक पूर्ण रूप से निर्धारित हो जाती है। फलस्वरूप, मात्र $$k-1$$ अलग-अलग निर्दिष्ट संभावनाएं हैं, और इसलिए गुणांक के $$k-1$$ गुणांक के अलग-अलग अभिज्ञेय योग्य सदिश हैं। इसे देखने की विधि यह है कि यदि हम सभी गुणांक सदिशों में एक स्थिर सदिश जोड़ते हैं, तो समीकरण समान होते हैं:



\begin{align} \frac{e^{(\boldsymbol\beta_c + C) \cdot \mathbf{X}_i}}{\sum_{k=1}^{K} e^{(\boldsymbol\beta_k + C) \cdot \mathbf{X}_i}} &= \frac{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i} e^{C \cdot \mathbf{X}_i}}{\sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} e^{C \cdot \mathbf{X}_i}} \\ &= \frac{e^{C \cdot \mathbf{X}_i} e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}{e^{C \cdot \mathbf{X}_i} \sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}} \\ &= \frac{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}{\sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}} \end{align} $$ फलस्वरूप, यह $$C = -\boldsymbol\beta_K$$(या वैकल्पिक रूप से, अन्य गुणांक सदिशों में से एक) समूहित करने के लिए पारंपरिक है। अनिवार्य रूप से, हम स्थिरांक समूह करते हैं ताकि एक सदिश 0 हो जाए, और अन्य सभी सदिश उन सदिशों और हमारे द्वारा चुने गए सदिश के बीच के अंतर में रूपांतरित हो जाएं। यह K विकल्पों में से किसी एक के समीप पिवोट करने के बराबर है, हम जिस विकल्प के चारों ओर घूम रहे हैं, उसके सापेक्ष अन्य सभी K-1 विकल्प कितने ठीक या बुरा हैं। गणितीय रूप से, हम गुणांकों को निम्नानुसार रूपांतरित करते हैं:



\begin{align} \boldsymbol\beta'_k &= \boldsymbol\beta_k - \boldsymbol\beta_K \;\;\;,\;k < K \\ \boldsymbol\beta'_K &= 0 \end{align} $$ यह निम्नलिखित समीकरणों की ओर जाता है:



\Pr(Y_i=k) = \frac{e^{\boldsymbol\beta'_k \cdot \mathbf{X}_i}}{1 + \sum_{j=1}^{K-1} e^{\boldsymbol\beta'_j \cdot \mathbf{X}_i}} \;\;\;\;,\;\;k \le K $$ प्रतिगमन गुणांकों पर प्रमुख प्रतीकों के अतिरिक्त, यह K-1 स्वतंत्र दो-पथ प्रतिगमन के संदर्भ में ऊपर वर्णित मॉडल के रूप में पूर्णतः वैसा ही है।

एक अव्यक्त-चर मॉडल के रूप में
द्विचर रसद प्रतिगमन के लिए वर्णित दो-पथ अव्यक्त चर मॉडल का पालन करते हुए एक अव्यक्त चर मॉडल के रूप में बहुपद रसद प्रतिगमन तैयार करना भी संभव है। यह सूत्रीकरण असतत विकल्प मॉडल के सिद्धांत में सामान्य है, और बहुराष्ट्रीय रसद प्रतिगमन की तुलना संबंधित बहुराष्ट्रीय संभावना मॉडल के साथ-साथ इसे और अधिक जटिल मॉडल तक विस्तारित करना सरल बनाता है।

कल्पना करें कि, प्रत्येक डेटा बिंदु i और संभावित परिणाम k=1,2,...,K के लिए, एक सतत अव्यक्त चर Y हैi,k*(अर्थात् एक बिना प्रेक्षण वाला यादृच्छिक चर) जिसे निम्नानुसार वितरित किया गया है:



Y_{i,k}^{\ast} = \boldsymbol\beta_k \cdot \mathbf{X}_i + \varepsilon_k \;\;\;\;,\;\;k \le K $$ जहाँ $$\varepsilon_k \sim \operatorname{EV}_1(0,1),$$ अर्थात् एक मानक प्रकार -1 परम मान वितरण।

इस अव्यक्त चर को डेटा बिंदु i से जुड़ी उपयोगिता के रूप में माना जा सकता है, जो परिणाम k को चुनता है, जहां प्राप्त उपयोगिता की वास्तविक मात्रा में कुछ यादृच्छिकता है, जो विकल्प में जाने वाले अन्य अप्रतिबंधित कारकों के लिए होती है जो पसंद में जाते हैं। वास्तविक चर का मान $$Y_i$$ तब इन अव्यक्त चरों से एक गैर-यादृच्छिक कार्य प्रणाली में निर्धारित किया जाता है(अर्थात यादृच्छिकता को देखे गए परिणामों से अव्यक्त चर में ले जाया गया है), जहां परिणाम k को चुना जाता है यदि और मात्र यदि संबद्ध उपयोगिता( $$Y_{i,k}^{\ast}$$ का मान) अन्य सभी विकल्पों की उपयोगिताओं से अधिक है, अर्थात यदि परिणाम k से जुड़ी उपयोगिता सभी उपयोगिताओं में से अधिकतम है। चूँकि अव्यक्त चर निरंतर परिवर्तनशील होते हैं, दो के पूर्णतः समान मान होने की संभावना 0 होती है, इसलिए हम परिदृश्य को अनदेखा कर देते हैं। वह है:



\begin{align} \Pr(Y_i = 1) &= \Pr(Y_{i,1}^{\ast} > Y_{i,2}^{\ast} \text{ and } Y_{i,1}^{\ast} > Y_{i,3}^{\ast}\text{ and } \cdots \text{ and } Y_{i,1}^{\ast} > Y_{i,K}^{\ast}) \\ \Pr(Y_i = 2) &= \Pr(Y_{i,2}^{\ast} > Y_{i,1}^{\ast} \text{ and } Y_{i,2}^{\ast} > Y_{i,3}^{\ast}\text{ and } \cdots \text{ and } Y_{i,2}^{\ast} > Y_{i,K}^{\ast}) \\ \cdots & \\ \Pr(Y_i = K) &= \Pr(Y_{i,K}^{\ast} > Y_{i,1}^{\ast} \text{ and } Y_{i,K}^{\ast} > Y_{i,2}^{\ast}\text{ and } \cdots \text{ and } Y_{i,K}^{\ast} > Y_{i,K-1}^{\ast}) \\ \end{align} $$ या समतुल्य :



\Pr(Y_i = k) \;=\; \Pr(\max(Y_{i,1}^{\ast},Y_{i,2}^{\ast},\ldots,Y_{i,K}^{\ast})=Y_{i,k}^{\ast}) \;\;\;\;,\;\;k \le K $$ आइए प्रथम समीकरण को अधिक ध्यान से देखें, जिसे हम इस प्रकार लिख सकते हैं:



\begin{align} \Pr(Y_i = 1) &= \Pr(Y_{i,1}^{\ast} > Y_{i,k}^{\ast}\ \forall\ k=2,\ldots,K) \\ &= \Pr(Y_{i,1}^{\ast} - Y_{i,k}^{\ast} > 0\ \forall\ k=2,\ldots,K) \\ &= \Pr(\boldsymbol\beta_1 \cdot \mathbf{X}_i + \varepsilon_1 - (\boldsymbol\beta_k \cdot \mathbf{X}_i + \varepsilon_k) > 0\ \forall\ k=2,\ldots,K) \\ &= \Pr((\boldsymbol\beta_1 - \boldsymbol\beta_k) \cdot \mathbf{X}_i > \varepsilon_k - \varepsilon_1\ \forall\ k=2,\ldots,K) \end{align} $$ यहां समझने के लिए कुछ चीजें हैं:
 * 1) सामान्यतः यदि $$X \sim \operatorname{EV}_1(a,b)$$ और $$Y \sim \operatorname{EV}_1(a,b)$$ तो $$X - Y \sim \operatorname{Logistic}(0,b)$$। अर्थात, दो स्वतंत्र समान रूप से वितरित परम-मान-वितरित चर का अंतर रसद वितरण का अनुसरण करता है, जहां प्रथम पैरामीटर महत्वहीन है। यह समझ में आता है क्योंकि प्रथम पैरामीटर एक स्थान पैरामीटर है, अर्थात् यह माध्य को एक निश्चित राशि से बदलता है, और यदि दो मानों को एक ही राशि से स्थानांतरित किया जाता है, तो उनका अंतर समान रहता है। इसका तात्पर्य यह है कि किसी दिए गए विकल्प की संभावना के अंतर्गत आने वाले सभी संबंधपरक बयानों में रसद वितरण सम्मिलित है, जो परम-मान वितरण की प्रारंभिक विकल्प बनाता है, जो कि यादृच्छिक लगता है, किंचित अधिक समझने योग्य है।
 * 2) परम-मान या रसद वितरण में दूसरा पैरामीटर एक पैमाना पैरामीटर है, जैसे कि यदि $$X \sim \operatorname{Logistic}(0,1)$$ तो $$bX \sim \operatorname{Logistic}(0,b)$$।इसका तात्पर्य यह है कि पैमाना 1 के स्थान पर एक अव्यवस्थिततः पैमाने के पैरामीटर के साथ एक त्रुटि चर का उपयोग करने के प्रभाव को सभी प्रतिगमन सदिशों को उसी पैमाने से गुणा करके आपूर्ति की जा सकती है। पूर्व बिंदु के साथ, यह दर्शाता है कि त्रुटि चर के लिए मानक परम-मान वितरण(स्थान 0, पैमाना 1) का उपयोग अव्यवस्थिततः रूप से परम-मान वितरण का उपयोग करने पर सामान्यता का कोई क्षति नहीं करता है। यथार्थ, यदि अधिक सामान्य वितरण का उपयोग किया जाता है तो मॉडल गैर-अभिज्ञेय योग्य(इष्टतम गुणांक का कोई एकल समूह नहीं) है।
 * 3) क्योंकि मात्र प्रतिगमन गुणांक के सदिश के अंतर का उपयोग किया जाता है, सभी गुणांक सदिशों के लिए एक यादृच्छिक स्थिरांक जोड़ने से मॉडल पर कोई प्रभाव नहीं पड़ता है। इसका तात्पर्य यह है कि, लॉग-रेखीय मॉडल के जैसे, गुणांक सदिशों में से मात्र K-1 की अभिज्ञेय की जा सकती है, और अंतिम वाले को अव्यवस्थिततः मान पर समूहित किया जा सकता है(उदाहरण के लिए 0)।

यथार्थ उपरोक्त संभावनाओं के मानों को खोजना कुछ कठिन है, और मानों के एक समूह के विशेष अनुक्रमित आँकड़ा(प्रथम, अर्थात् अधिकतम) की गणना करने की समस्या है। यद्यपि, यह दिखाया जा सकता है कि परिणामी अभिव्यक्तियाँ उपरोक्त योगों के समान हैं, अर्थात दोनों समान हैं।

अवरोधन का अनुमान
बहुराष्ट्रीय रसद प्रतिगमन का उपयोग करते समय, आश्रित चर की एक श्रेणी को संदर्भ श्रेणी के रूप में चुना जाता है। संदर्भ श्रेणी के अपवाद के साथ आश्रित चर की प्रत्येक श्रेणी के लिए सभी स्वतंत्र चर के लिए अलग-अलग विषम अनुपात निर्धारित किए जाते हैं, जिसे विश्लेषण से हटा दिया जाता है। घातीय बीटा गुणांक संबंधित स्वतंत्र चर के एक इकाई परिवर्तन से जुड़े संदर्भ श्रेणी की तुलना में विशेष श्रेणी में होने वाले आश्रित चर के अंतर में परिवर्तन का प्रतिनिधित्व करता है।

प्राकृतिक भाषा प्रसंस्करण में आवेदन
प्राकृतिक भाषा प्रसंस्करण में, बहुराष्ट्रीय LR वर्गीकारकों का उपयोग सामान्यतः सहज बेयस वर्गीकारकों के विकल्प के रूप में किया जाता है क्योंकि वे भविष्यवाणियों के रूप में सेवा करने वाले यादृच्छिक चर(सामान्यतः सुविधाओं के रूप में जाना जाता है) की सांख्यिकीय स्वतंत्रता नहीं मानते हैं। यद्यपि, इस प्रकार के एक मॉडल में सीखना एक सरल बेयस वर्गीकरणकर्ता की तुलना में धीमा है, और इस प्रकार सीखने के लिए बहुत बड़ी संख्या में उपयुक्त नहीं हो सकता है। विशेष रूप से, सहज बेयस वर्गीकरणकर्ता में सीखना सुविधाओं और कक्षाओं की सह-घटनाओं की संख्या को गिनने का एक साधारण विषय है, जबकि अधिकतम एन्ट्रॉपी वर्गीकरणकर्ता में भारित, जो सामान्यतः अधिकतम परवर्ती(MAP) अनुमान का उपयोग करके अधिकतम किया जाता है, पुनरावृत्त प्रक्रिया का उपयोग करके सीखा जा सकता है; देखें #गुणांकों का अनुमान लगाना।

यह भी देखें

 * रसद प्रतिगमन
 * बहुराष्ट्रीय संभावना