आंशिक न्यूनतम वर्ग प्रतिगमन

आंशिक न्यूनतम वर्ग प्रतिगमन (PLS प्रतिगमन) एक सांख्यिकी पद्धति है जो प्रमुख घटक प्रतिगमन से कुछ संबंध रखती है; प्रतिक्रिया और स्वतंत्र चर के बीच अधिकतम विचरण के hyperplane  खोजने के बजाय, यह अनुमानित चर और अवलोकन योग्य चर को एक नए स्थान पर प्रक्षेपित करके एक रेखीय प्रतिगमन मॉडल ढूंढता है। क्योंकि X और Y डेटा दोनों को नई जगहों पर पेश किया जाता है, तरीकों के PLS परिवार को बिलिनियर कारक मॉडल के रूप में जाना जाता है। आंशिक न्यूनतम वर्ग विभेदक विश्लेषण (PLS-DA) एक प्रकार है जिसका उपयोग तब किया जाता है जब Y श्रेणीबद्ध होता है।

PLS का उपयोग दो मैट्रिक्स (गणित) (X और Y) के बीच मूलभूत संबंधों को खोजने के लिए किया जाता है, यानी इन दो स्थानों में सहप्रसरण संरचनाओं को मॉडलिंग करने के लिए एक अव्यक्त चर दृष्टिकोण। एक पीएलएस मॉडल 'एक्स' स्पेस में बहुआयामी दिशा खोजने की कोशिश करेगा जो 'वाई' स्पेस में अधिकतम बहुआयामी भिन्नता दिशा की व्याख्या करता है। पीएलएस प्रतिगमन विशेष रूप से अनुकूल होता है जब भविष्यवाणियों के मैट्रिक्स में अवलोकनों की तुलना में अधिक चर होते हैं, और जब 'एक्स' मूल्यों के बीच बहुसंरेखता होती है। इसके विपरीत, इन मामलों में मानक प्रतिगमन विफल हो जाएगा (जब तक कि यह तिखोनोव नियमितीकरण नहीं है)।

स्वीडिश सांख्यिकीविद हरमन वॉल्ड|हरमन ओ.ए. वोल्ड द्वारा आंशिक न्यूनतम वर्गों की शुरुआत की गई थी, जिन्होंने बाद में इसे अपने बेटे स्वंते वोल्ड के साथ विकसित किया। पीएलएस के लिए एक वैकल्पिक शब्द अव्यक्त संरचनाओं का प्रक्षेपण है, लेकिन आंशिक न्यूनतम वर्ग शब्द अभी भी कई क्षेत्रों में प्रभावी है। यद्यपि मूल अनुप्रयोग सामाजिक विज्ञान में थे, पीएलएस प्रतिगमन आज रसायन विज्ञान  और संबंधित क्षेत्रों में सबसे व्यापक रूप से उपयोग किया जाता है। इसका उपयोग जैव सूचना विज्ञान,  sensometrics, तंत्रिका विज्ञान और नृविज्ञान में भी किया जाता है।

अंतर्निहित मॉडल
बहुभिन्नरूपी PLS का सामान्य अंतर्निहित मॉडल है


 * $$X = T P^\mathrm{T} + E$$
 * $$Y = U Q^\mathrm{T} + F$$

कहाँ $X$ एक $$n \times m$$ भविष्यवाणियों का मैट्रिक्स, $Y$ एक $$n \times p$$ प्रतिक्रियाओं का मैट्रिक्स; $T$ और $U$ हैं $$n \times l$$ मेट्रिसेस जो क्रमशः, के अनुमान हैं $X$ (एक्स स्कोर, घटक या कारक मैट्रिक्स) और के अनुमान $Y$ (Y स्कोर); $P$ और $Q$ हैं, क्रमशः, $$m \times l$$ और $$p \times l$$ ऑर्थोगोनल लोडिंग मेट्रिसेस; और मैट्रिसेस $E$ और $F$ त्रुटि शब्द हैं, जिन्हें स्वतंत्र माना जाता है और समान रूप से यादृच्छिक सामान्य चर वितरित किए जाते हैं। का अपघटन $X$ और $Y$ के बीच सहप्रसरण को अधिकतम करने के लिए बनाए गए हैं $T$ और $U$.

एल्गोरिदम
कारक और लोडिंग मैट्रिसेस का अनुमान लगाने के लिए पीएलएस के कई प्रकार मौजूद हैं $T, U, P$ और $Q$. उनमें से अधिकांश के बीच रैखिक प्रतिगमन के अनुमानों का निर्माण करते हैं $X$ और $Y$ जैसा $$Y = X \tilde{B} + \tilde{B}_0$$. कुछ PLS एल्गोरिद्म केवल उस मामले के लिए उपयुक्त होते हैं जहां $Y$ एक कॉलम वेक्टर है, जबकि अन्य मैट्रिक्स के सामान्य मामले से निपटते हैं $Y$. एल्गोरिदम भी भिन्न होते हैं कि क्या वे कारक मैट्रिक्स का अनुमान लगाते हैं $T$ एक ऑर्थोगोनल के रूप में (यानी, ऑर्थोनॉर्मल मैट्रिक्स) मैट्रिक्स या नहीं।     पीएलएस की इन सभी किस्मों के लिए अंतिम भविष्यवाणी समान होगी, लेकिन घटक अलग-अलग होंगे।

PLS निम्नलिखित चरणों को k बार (k घटकों के लिए) बार-बार दोहराने से बना है:
 * 1) इनपुट और आउटपुट स्पेस में अधिकतम सहप्रसरण की दिशाओं का पता लगाना
 * 2) इनपुट स्कोर पर कम से कम वर्ग प्रतिगमन करना
 * 3) इनपुट को डिफ्लेट करना $$X$$ और/या लक्ष्य $$Y$$

पीएलएस 1
PLS1 वेक्टर के लिए उपयुक्त व्यापक रूप से उपयोग किया जाने वाला एल्गोरिथम है $Y$ मामला। यह अनुमान लगाता है $T$ ऑर्थोनॉर्मल मैट्रिक्स के रूप में। (सावधानी: $t$ नीचे दिए गए कोड में वैक्टर को उचित रूप से सामान्यीकृत नहीं किया जा सकता है; बात देखें।) स्यूडोकोड में इसे नीचे व्यक्त किया गया है (कैपिटल लेटर मैट्रिसेस हैं, लोअर केस लेटर्स वैक्टर हैं अगर वे सुपरस्क्रिप्टेड हैं और स्केलर्स अगर वे सबस्क्रिप्टेड हैं)।

1 function PLS1($X, y, l$) 2    $X^{(0)} \gets X$  3     $w^{(0)} \gets X^\mathrm{T} y/\, का प्रारंभिक अनुमान $w$. 4    for $k = 0$ to $l-1$ 5        $t^{(k)} \gets X^{(k)}w^{(k)}$ 6        $t_k \gets {t^{(k)}}^\mathrm{T} t^{(k)}$ (note this is a scalar)|undefined 7        $t^{(k)} \gets t^{(k)} / t_k$ 8        $p^{(k)} \gets {X^{(k)}}^\mathrm{T} t^{(k)}$|undefined 9        $q_k \gets {y}^\mathrm{T} t^{(k)}$ (note this is a scalar) 10        if $q_k = 0$ 11            $l \gets k$, break the for loop 12        if $k < (l-1)$ 13            $X^{(k+1)} \gets X^{(k)} - t_k t^{(k)} {p^{(k)}}^\mathrm{T}$|undefined 14            $w^{(k+1)} \gets {X^{(k+1)}}^\mathrm{T} y $|undefined 15    end for 16 परिभाषित करें $W$ मैट्रिक्स होना with columns $w^{(0)},w^{(1)},...,w^{(l-1)}$. बनाने के लिए ऐसा ही करें $P$ मैट्रिक्स और $q$ वेक्टर। 17    $B \gets W {(P^\mathrm{T} W)}^{-1} q$ 18     $B_0 \gets q_0 - {P^{(0)}}^\mathrm{T} B$|undefined 19    return $B, B_0$

एल्गोरिथ्म के इस रूप में इनपुट के केंद्रीकरण की आवश्यकता नहीं होती है $X$ और $Y$, क्योंकि यह एल्गोरिथम द्वारा निहित रूप से किया जाता है। यह एल्गोरिथ्म मैट्रिक्स के 'अपस्फीति' को प्रदर्शित करता है $X$ (का घटाव $$t_k t^{(k)} {p^{(k)}}^\mathrm{T}$$), लेकिन वेक्टर की अपस्फीति $y$ निष्पादित नहीं किया गया है, क्योंकि यह आवश्यक नहीं है (यह साबित किया जा सकता है कि deflating $y$ अपस्फीति न करने के समान परिणाम देता है ). उपयोगकर्ता द्वारा प्रदान किया गया चर $l$ प्रतिगमन में अव्यक्त कारकों की संख्या की सीमा है; अगर यह मैट्रिक्स के रैंक के बराबर है $X$, एल्गोरिथ्म के लिए कम से कम वर्ग प्रतिगमन अनुमान निकलेगा $B$ और $$B_0$$

ओपीएलएस
2002 में एक नई विधि प्रकाशित हुई थी जिसे ऑर्थोगोनल प्रोजेक्शन टू लेटेंट स्ट्रक्चर्स (OPLS) कहा जाता है। ओपीएलएस में, निरंतर चर डेटा को अनुमानित और असंबद्ध (ऑर्थोगोनल) जानकारी में अलग किया जाता है। यह बेहतर निदान के साथ-साथ अधिक आसानी से व्याख्या किए गए विज़ुअलाइज़ेशन की ओर जाता है। हालाँकि, ये परिवर्तन केवल व्याख्यात्मकता में सुधार करते हैं, न कि PLS मॉडल की भविष्यवाणी में। इसी तरह, ओपीएलएस-डीए (डिस्क्रिमिनेंट एनालिसिस) को असतत चर के साथ काम करते समय लागू किया जा सकता है, जैसा कि वर्गीकरण और बायोमार्कर अध्ययनों में होता है।

ओपीएलएस का सामान्य अंतर्निहित मॉडल है


 * $$X = T P^\mathrm{T} +T_\text{Y-orth} P^\mathrm{T}_\text{Y-orth} + E$$
 * $$Y = U Q^\mathrm{T} + F$$

या O2-PLS में
 * $$X = T P^\mathrm{T} +T_\text{Y-orth} P^\mathrm{T}_\text{Y-orth} + E$$
 * $$Y = U Q^\mathrm{T} +U_\text{X-orth} Q^\mathrm{T}_\text{X-orth} + F$$

एल-पीएलएस
पीएलएस प्रतिगमन का एक और विस्तार, एल-पीएलएस नामित एल-आकार के मैट्रिक्स के लिए, भविष्यवाणी में सुधार के लिए 3 संबंधित डेटा ब्लॉक जोड़ता है। संक्षेप में, एक नया Z मैट्रिक्स, X मैट्रिक्स के समान स्तंभों के साथ, PLS प्रतिगमन विश्लेषण में जोड़ा जाता है और भविष्यवक्ता चर की अन्योन्याश्रितता पर अतिरिक्त पृष्ठभूमि जानकारी शामिल करने के लिए उपयुक्त हो सकता है।

3PRF
2015 में आंशिक न्यूनतम वर्ग तीन-पास प्रतिगमन फ़िल्टर (3PRF) नामक एक प्रक्रिया से संबंधित था। मान लें कि टिप्पणियों और चरों की संख्या बड़ी है, 3PRF (और इसलिए PLS) एक रैखिक अव्यक्त कारक मॉडल द्वारा निहित सर्वोत्तम पूर्वानुमान के लिए विषम रूप से सामान्य है। स्टॉक मार्केट डेटा में, पीएलएस को रिटर्न और कैश-फ्लो ग्रोथ के सटीक आउट-ऑफ-सैंपल पूर्वानुमान प्रदान करने के लिए दिखाया गया है।

आंशिक कम वर्ग एसवीडी
एकवचन मूल्य अपघटन पर आधारित एक पीएलएस संस्करण। एकवचन मूल्य अपघटन (एसवीडी) एक मेमोरी कुशल कार्यान्वयन प्रदान करता है जिसका उपयोग उच्च-आयामी समस्याओं को दूर करने के लिए किया जा सकता है, जैसे उपभोक्ता पर इमेजिंग आनुवंशिकी में लाखों आनुवंशिक मार्करों को हजारों इमेजिंग सुविधाओं से संबंधित करना। ग्रेड हार्डवेयर।

पीएलएस सहसंबंध
पीएलएस सहसंबंध (पीएलएससी) पीएलएस प्रतिगमन से संबंधित एक अन्य पद्धति है, जिसका उपयोग न्यूरोइमेजिंग में किया गया है और खेल विज्ञान, डेटा सेट के बीच संबंध की ताकत को मापने के लिए। आमतौर पर, PLSC डेटा को दो ब्लॉकों (उप-समूहों) में विभाजित करता है, जिनमें से प्रत्येक में एक या एक से अधिक चर होते हैं, और फिर किसी भी रिश्ते की ताकत (यानी साझा जानकारी की मात्रा) स्थापित करने के लिए एकवचन मूल्य अपघटन | एकवचन मूल्य अपघटन (SVD) का उपयोग करता है। दो घटक उप-समूहों के बीच मौजूद हो सकता है। यह विचाराधीन उप-समूहों के सहप्रसरण मैट्रिक्स की जड़ता (यानी एकवचन मानों का योग) निर्धारित करने के लिए एसवीडी का उपयोग करके करता है।

यह भी देखें

 * विहित सहसंबंध
 * डेटा खनन
 * डेमिंग प्रतिगमन
 * सुविधा निकालना
 * यंत्र अधिगम
 * आंशिक न्यूनतम वर्ग पथ मॉडलिंग
 * प्रमुख कंपोनेंट विश्लेषण
 * प्रतिगमन विश्लेषण
 * वर्गों का कुल योग

वेबलिंक्स

 * PLS ​​प्रतिगमन और इसके इतिहास का संक्षिप्त परिचय
 * वीडियो: प्रो. एच. हैरी असदा द्वारा पीएलएस की व्युत्पत्ति