बहुपद प्रतिगमन

सांख्यिकी में, बहुपद प्रतिगमन प्रतिगमन विश्लेषण का रूप है जिसमें स्वतंत्र चर x और आश्रित चर y के बीच संबंध को x में nवीं कोटि बहुपद के रूप में तैयार किया जाता है। बहुपद प्रतिगमन x के मान और y की संगत सशर्त माध्य, E(y |x) के बीच अरैखिक संबंध के अनुरूप है। यद्यपि बहुपद प्रतिगमन आंकड़े के लिए अरैखिक मॉडल के अनुरूप है, सांख्यिकीय अनुमान समस्या के रूप में यह रैखिक है, इस अर्थ में कि प्रतिगमन फलन E(y | x) आंकड़े से अनुमानित अज्ञात मापदंड में रैखिक है। इस कारण से, बहुपद प्रतिगमन को एकाधिक रैखिक प्रतिगमन का विशेष मामला माना जाता है।

आधारभूत चर के बहुपद विस्तार से उत्पन्न "व्याख्यात्मक (स्वतंत्र)" चर को उच्च-कोटि शब्दों के रूप में जाना जाता है। ऐसे चर का उपयोग सांख्यिकीय वर्गीकरण समायोजन में भी किया जाता है।

इतिहास
बहुपद प्रतिगमन मॉडल सामान्यतः न्यूनतम वर्ग की विधि का उपयोग के अनुरूप होते हैं। न्यूनतम-वर्ग विधि अनुमानक के पूर्वाग्रह के विचरण को कम करती है| गॉस-मार्कोव प्रमेय की शर्तों के अनुसार, न्यूनतम-वर्ग विधि गुणांक के निष्पक्ष अनुमानकों के विचरण को कम करती है। न्यूनतम-वर्ग विधि 1805 में एड्रियन मैरी लीजेंड्रे द्वारा और 1809 में गॉस द्वारा प्रकाशित की गई थी। बहुपद प्रतिगमन के लिए प्रयोग का पहला डिज़ाइन 1815 में इष्टतम डिज़ाइन जोसेफ़ डियाज़ गेर्गोन के पेपर में दिखाई दिया था। बीसवीं सदी में, बहुपद प्रतिगमन ने डिजाइन और अनुमान के मुद्दों पर अधिक जोर देने के साथ, प्रतिगमन विश्लेषण के विकास में एक महत्वपूर्ण भूमिका निभाई थी। हाल ही में, बहुपद मॉडल के उपयोग को अन्य तरीकों से पूरक किया गया है, गैर-बहुपद मॉडल में कुछ वर्गों की समस्याओं के लिए फायदे हैं।

परिभाषा और उदाहरण
प्रतिगमन विश्लेषण का लक्ष्य स्वतंत्र चर (या स्वतंत्र चर के सदिश) x के मान के संदर्भ में आश्रित चर y के अपेक्षित मान को मॉडल करना है। सरल रैखिक प्रतिगमन में, मॉडल



y = \beta_0 + \beta_1 x + \varepsilon, \, $$ का उपयोग किया जाता है, जहां ε अदिश (गणित) चर x पर प्रतिबंधित माध्य शून्य के साथ अप्राप्य यादृच्छिक त्रुटि है। इस मॉडल में, x के मान में प्रत्येक इकाई वृद्धि के लिए, y की सशर्त अपेक्षा β1 इकाइयाँ से बढ़ जाती है।

कई समायोजन में, ऐसा रैखिक संबंध कायम नहीं रह सकता है। उदाहरण के लिए, यदि हम रासायनिक संश्लेषण की उत्पन्न को उस तापमान के संदर्भ में मॉडलिंग कर रहे हैं जिस पर संश्लेषण होता है, तो हम पा सकते हैं कि तापमान में प्रत्येक इकाई वृद्धि के लिए मात्रा में वृद्धि से उत्पन्न में सुधार होता है। इस मामले में, हम विधि का द्विघात मॉडल प्रस्तावित कर सकते हैं



y = \beta_0 + \beta_1x + \beta_2 x^2 + \varepsilon. \, $$ इस मॉडल में, जब तापमान x से x + 1 इकाई तक बढ़ाया जाता है, तो अपेक्षित उत्पन्न $$\beta_1+\beta_2(2x+ 1).$$ में परिवर्तन होता है। (इसे इस समीकरण में x को x+1 से प्रतिस्थापित करके और x+1 में समीकरण से x में समीकरण घटाकर देखा जा सकता है।) x में अनंत परिवर्तन के लिए, y पर प्रभाव x के संबंध में कुल व्युत्पन्न द्वारा दिया जाता है। : $$\beta_1+2\beta_2x.$$ तथ्य यह है कि उत्पन्न में परिवर्तन x पर निर्भर करता है, जो x और y के बीच संबंध को अरेखीय बनाता है, भले ही मॉडल अनुमानित मापदंडों में रैखिक हो।

सामान्य तौर पर, हम y के अपेक्षित मान को nवीं कोटि बहुपद के रूप में मॉडल कर सकते हैं, जिससे सामान्य बहुपद प्रतिगमन मॉडल प्राप्त होता है



y = \beta_0 + \beta_1 x + \beta_2 x^2 + \beta_3 x^3 + \cdots + \beta_n x^n + \varepsilon. \, $$ ये मॉडल आसानी से अनुमान सिद्धांत के दृष्टिकोण से सभी रैखिक हैं, क्योंकि प्रतिगमन फलन अज्ञात मापदंड β0, β1, ...के संदर्भ में रैखिक है इसलिए, न्यूनतम वर्ग विश्लेषण के लिए, बहुपद प्रतिगमन की संगणनात्मक और अनुमानित समस्याओं को रैखिक प्रतिगमन की तकनीकों का उपयोग करके पूरी तरह से संबोधित किया जा सकता है। यह एकाधिक प्रतिगमन मॉडल में विशिष्ट स्वतंत्र चर के रूप में x, x2, ..का उपचार करके किया जाता है।

आव्यूह विधि और अनुमानों की गणना
बहुपद प्रतिगमन मॉडल


 * $$y_i \,=\, \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \cdots + \beta_m x_i^m + \varepsilon_i\ (i = 1, 2, \dots, n) $$

डिज़ाइन आव्यूह $$\mathbf{X}$$ प्रतिक्रिया सदिश $$\vec y$$, मापदंड सदिश $$\vec \beta$$, और सदिश $$\vec\varepsilon$$ यादृच्छिक त्रुटियो के संदर्भ में आव्यूह रूप में व्यक्त किया जा सकता है। i-वीं पंक्ति $$\mathbf{X}$$ और $$\vec y$$ i-वें आंकड़े नमूने के लिए x और y मान सम्मिलित होंगे। तब मॉडल को रैखिक समीकरणों क प्रणाली के रूप में लिखा जा सकता है:


 * $$ \begin{bmatrix} y_1\\ y_2\\ y_3 \\ \vdots \\ y_n \end{bmatrix}= \begin{bmatrix} 1 & x_1 & x_1^2 & \dots & x_1^m \\ 1 & x_2 & x_2^2 & \dots & x_2^m \\ 1 & x_3 & x_3^2 & \dots & x_3^m \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_n & x_n^2 & \dots & x_n^m \end{bmatrix} \begin{bmatrix} \beta_0\\ \beta_1\\ \beta_2\\ \vdots \\ \beta_m \end{bmatrix} + \begin{bmatrix} \varepsilon_1\\ \varepsilon_2\\ \varepsilon_3 \\ \vdots \\ \varepsilon_n \end{bmatrix}, $$

जिसे शुद्ध आव्यूह संकेतन का उपयोग करते समय इस प्रकार लिखा जाता है


 * $$\vec y = \mathbf{X} \vec \beta + \vec\varepsilon. \,$$

अनुमान बहुपद प्रतिगमन गुणांक का सदिश (साधारण न्यूनतम वर्ग अनुमान का उपयोग करके) है


 * $$\widehat{\vec \beta} = (\mathbf{X}^\mathsf{T} \mathbf{X})^{-1}\; \mathbf{X}^\mathsf{T} \vec y, \,$$

यह मानते हुए कि m < n जो आव्यूह के व्युत्क्रमणीय होने के लिए आवश्यक है; तब से $$\mathbf{X}$$ वेंडरमोंडे आव्यूह है, यदि सभी हो तो व्युत्क्रमणीयता की स्थिति कायम रहने की गारंटी है $$x_i$$ मान भिन्न हैं। यह अद्वितीय न्यूनतम-वर्ग समाधान है।

व्याख्या
यद्यपि बहुपद प्रतिगमन तकनीकी रूप से एकाधिक रैखिक प्रतिगमन का विशेष मामला है, अनुरूप बहुपद प्रतिगमन मॉडल की व्याख्या के लिए कुछ अलग परिप्रेक्ष्य की आवश्यकता होती है। बहुपद प्रतिगमन अनुरूप में व्यक्तिगत गुणांकों की व्याख्या करना अधिकांशतः मुश्किल होता है, क्योंकि अंतर्निहित एकपदी अत्यधिक सहसंबद्ध हो सकते हैं। उदाहरण के लिए, x और x2 का सहसंबंध 0.97 के आसपास होता है जब x अंतराल (0, 1) पर समान वितरण (निरंतर) होता है। यद्यपि लांबिक बहुपद का उपयोग करके सहसंबंध को कम किया जा सकता है, लेकिन समग्र रूप से अनुरूप किए गए प्रतिगमन फलन पर विचार करना सामान्यतः अधिक जानकारीपूर्ण होता है। प्रतिगमन फलन के अनुमान में अनिश्चितता की भावना प्रदान करने के लिए बिंदु-वार या एक साथ विश्वास्यता बैंड का उपयोग किया जाता है।

वैकल्पिक दृष्टिकोण
बहुपद प्रतिगमन दो मात्राओं के बीच कार्यात्मक संबंध को मॉडल करने के लिए आधार फलन का उपयोग, प्रतिगमन विश्लेषण का उदाहरण है। विशेष रूप से, यह $$x \in \mathbb R^{d_x}$$ बहुपद आधार के साथ रैखिक प्रतिगमन में $$\varphi (x) \in \mathbb R^{d_\varphi}$$प्रतिस्थापित करता है उदाहरण $$[1,x] \mathbin{\stackrel{\varphi}{\rightarrow}} [1,x,x^2,\ldots,x^d]$$। बहुपद आधारों का कमी यह है कि आधार फलन "गैर-स्थानीय" हैं, जिसका अर्थ है कि किसी दिए गए मान पर y का अनुरूप मान x = x0, x से दूर x वाले आंकड़े मानों पर दृढ़ता से निर्भर करता है। आधुनिक आँकड़ों में, बहुपद आधार-फलन का उपयोग नए आधार फलन, जैसे स्पलाइन (गणित), रेडियल आधार फलन और तरंगिका के साथ किया जाता है। आधार फलन के ये वर्ग कई प्रकार के आंकड़े के लिए अधिक अनुकूल अनुरूप प्रदान करते हैं।

बहुपद प्रतिगमन का लक्ष्य स्वतंत्र और आश्रित चर (तकनीकी रूप से, स्वतंत्र चर और आश्रित चर के सशर्त माध्य के बीच) के बीच गैर-रैखिक संबंध को मॉडल करना है। यह अप्राचल प्रतिगमन के लक्ष्य के समान है, जिसका उद्देश्य अरैखिक प्रतिगमन संबंधों को पकड़ना है।इसलिए, अप्राचल प्रतिगमन दृष्टिकोण जैसे समरेखण बहुपद प्रतिगमन के लिए उपयोगी विकल्प हो सकते हैं। इनमें से कुछ विधियाँ शास्त्रीय बहुपद प्रतिगमन के स्थानीयकृत रूप का उपयोग करती हैं। पारंपरिक बहुपद प्रतिगमन का फायदा यह है कि एकाधिक प्रतिगमन के अनुमानित ढांचे का उपयोग किया जा सकता है (यह आधार कार्यों के अन्य वर्ग जैसे स्प्लिंस का उपयोग करते समय भी लागू होता है)।

एक अंतिम विकल्प कर्नेल विधि मॉडल का उपयोग करना है जैसे बहुपद कर्नेल के साथ सदिश प्रतिगमन का समर्थन करना है।

यदि अवशिष्टों (सांख्यिकी) में असमान भिन्नता है, तो उसके लिए भारित न्यूनतम वर्ग अनुमानक का उपयोग किया जा सकता है।

यह भी देखें

 * वक्र फिटिंग
 * रेखा प्रतिगमन
 * स्थानीय बहुपद प्रतिगमन
 * बहुपद और तर्कसंगत फलन मॉडलिंग
 * बहुपद प्रक्षेप
 * प्रतिक्रिया सतह कार्यप्रणाली
 * तख़्ता को समरेखण करना

टिप्पणियाँ

 * Microsoft Excel makes use of polynomial regression when fitting a trendline to data points on an X Y scatter plot.

बाहरी संबंध

 * Curve Fitting, PhET Interactive simulations, University of Colorado at Boulder