कर्नेल रिग्रेशन

आंकड़ों में, कर्नेल प्रतिगमन एक यादृच्छिक चर की सशर्त अपेक्षा का अनुमान लगाने के लिए एक गैर पैरामीट्रिक तकनीक है। इसका उद्देश्य यादृच्छिक चर X और Y की एक जोड़ी के बीच एक गैर-रैखिक संबंध खोजना है।

किसी भी गैरपैरामीट्रिक प्रतिगमन में, एक चर की सशर्त अपेक्षा $$Y$$ एक चर के सापेक्ष $$X$$ लिखा जा सकता है:


 * $$\operatorname{E}(Y \mid X) = m(X)$$

कहाँ $$m$$ एक अज्ञात फ़ंक्शन है.

नादारया-वाटसन कर्नेल प्रतिगमन
1964 में एलिज़बार नादारया और जेफ्री वॉटसन दोनों ने अनुमान लगाने का प्रस्ताव रखा $$m$$ स्थानीय रूप से भारित औसत के रूप में, एक वेटिंग फ़ंक्शन के रूप में कर्नेल (सांख्यिकी) का उपयोग करना।  नादारया-वाटसन अनुमानक है:


 * $$ \widehat{m}_h(x)=\frac{\sum_{i=1}^n K_h(x-x_i) y_i}{\sum_{i=1}^nK_h(x-x_i)}

$$ कहाँ $$K_h(t) = \frac{1}{h}K\left(\frac{t}{h}\right)$$ एक बैंडविड्थ वाला कर्नेल है $$h$$ ऐसा है कि $$K(\cdot)$$ कम से कम 1 क्रम का है, अर्थात् $$\int_{-\infty}^{\infty}u K(u) du = 0$$.

व्युत्पत्ति


\operatorname{E}(Y \mid X=x) = \int y f(y\mid x) \, dy = \int y \frac{f(x,y)}{f(x)} \, dy $$ कर्नेल 'K' के साथ संयुक्त वितरण f(x,y) और f(x) के लिए कर्नेल घनत्व अनुमान का उपयोग करना,



\hat{f}(x,y) = \frac{1}{n}\sum_{i=1}^n K_h(x-x_i) K_h(y-y_i), $$

\hat{f}(x) = \frac{1}{n} \sum_{i=1}^n K_h(x-x_i), $$ हम पाते हैं



\begin{align} \operatorname{\hat E}(Y \mid X=x) &= \int \frac{y \sum_{i=1}^n K_h(x-x_i) K_h(y-y_i)}{\sum_{j=1}^n K_h(x-x_j)} \,dy,\\[6pt] &= \frac{\sum_{i=1}^n K_h(x-x_i) \int y \, K_h(y-y_i) \,dy}{\sum_{j=1}^n K_h(x-x_j)},\\[6pt] &= \frac{\sum_{i=1}^n K_h(x-x_i) y_i}{\sum_{j=1}^n K_h(x-x_j)}, \end{align} $$ जो नादारया-वाटसन अनुमानक है।

प्रीस्टली-चाओ कर्नेल अनुमानक


\widehat{m}_{PC}(x) = h^{-1} \sum_{i=2}^n (x_i - x_{i-1}) K\left(\frac{x-x_i}{h}\right) y_i $$ कहाँ $$ h $$ बैंडविड्थ (या स्मूथिंग पैरामीटर) है।

गैसर-मुलर कर्नेल अनुमानक


\widehat{m}_{GM}(x) = h^{-1} \sum_{i=1}^n \left[\int_{s_{i-1}}^{s_i} K\left(\frac{x-u}{h}\right) \, du\right] y_i $$ कहाँ $$s_i = \frac{x_{i-1} + x_i}{2}.$$

उदाहरण
यह उदाहरण कनाडाई क्रॉस-सेक्शन वेतन डेटा पर आधारित है जिसमें सामान्य शिक्षा (ग्रेड 13) वाले पुरुष व्यक्तियों के लिए 1971 की कनाडाई जनगणना सार्वजनिक उपयोग टेप से लिया गया एक यादृच्छिक नमूना शामिल है। कुल 205 अवलोकन हैं।

दाईं ओर का आंकड़ा स्पर्शोन्मुख परिवर्तनशीलता सीमा के साथ दूसरे क्रम के गॉसियन कर्नेल का उपयोग करके अनुमानित प्रतिगमन फ़ंक्शन को दर्शाता है।

उदाहरण के लिए स्क्रिप्ट
R प्रोग्रामिंग भाषा के निम्नलिखित कमांड का उपयोग करते हैं  इष्टतम स्मूथिंग प्रदान करने और ऊपर दिए गए चित्र को बनाने का कार्य। इन कमांड को कमांड प्रॉम्प्ट पर कट और पेस्ट के माध्यम से दर्ज किया जा सकता है।

संबंधित
डेविड साल्सबर्ग के अनुसार, कर्नेल रिग्रेशन में उपयोग किए जाने वाले एल्गोरिदम स्वतंत्र रूप से विकसित किए गए थे और फजी सिस्टम में उपयोग किए गए थे: लगभग बिल्कुल समान कंप्यूटर एल्गोरिदम के साथ, फ़ज़ी सिस्टम और कर्नेल घनत्व-आधारित रिग्रेशन एक दूसरे से पूरी तरह से स्वतंत्र रूप से विकसित किए गए प्रतीत होते हैं।

सांख्यिकीय कार्यान्वयन

 * जीएनयू ऑक्टेव गणितीय कार्यक्रम पैकेज
 * जूलिया_(प्रोग्रामिंग_भाषा): KernelEstimator.jl
 * MATLAB: कर्नेल रिग्रेशन, कर्नेल घनत्व अनुमान, खतरे फ़ंक्शन के कर्नेल अनुमान और कई अन्य के कार्यान्वयन के साथ एक मुफ्त MATLAB टूलबॉक्स इन पृष्ठों पर उपलब्ध है (यह टूलबॉक्स पुस्तक का एक हिस्सा है) ).
 * पायथन (प्रोग्रामिंग भाषा): द  मिश्रित डेटा प्रकारों के लिए वर्ग   उप-पैकेज (अन्य कर्नेल घनत्व से संबंधित वर्ग शामिल हैं), पैकेज  स्किकिट-लर्न के विस्तार के रूप में (अक्षम मेमोरी-वार, केवल छोटे डेटासेट के लिए उपयोगी)
 * आर (प्रोग्रामिंग भाषा): फ़ंक्शन  एनपी पैकेज कर्नेल रिग्रेशन निष्पादित कर सकता है।
 * था : npregress, kernreg2

यह भी देखें

 * गिरी चिकनी
 * स्थानीय प्रतिगमन

बाहरी संबंध

 * Scale-adaptive kernel regression (with Matlab software).
 * Tutorial of Kernel regression using spreadsheet (with Microsoft Excel).
 * An online kernel regression demonstration Requires .NET 3.0 or later.
 * Kernel regression with automatic bandwidth selection (with Python)