खंडित प्रतिगमन

खंडित प्रतिगमन (सेगमेंटेड रिग्रेशन), जिसे खंडशः प्रतिगमन या खंडित-स्टिक प्रतिगमन के रूप में भी जाना जाता है, प्रतिगमन विश्लेषण में एक विधि है जिसमें स्वतंत्र चर को अंतराल में विभाजित किया जाता है और प्रत्येक अंतराल में एक अलग रेखा खंड फिट किया जाता है। विभिन्न स्वतंत्र चरों को विभाजित करके बहुभिन्नरूपी डेटा पर सेगमेंटेड रिग्रेशन विश्लेषण भी किया जा सकता है। सेगमेंटेड रिग्रेशन तब उपयोगी होता है जब स्वतंत्र चर, विभिन्न समूहों में क्लस्टर किए जाते हैं, इन क्षेत्रों में चर के बीच अलग-अलग संबंध प्रदर्शित करते हैं। खंडों के बीच की सीमाएँ ब्रेकप्वाइंट हैं।

खंडित रैखिक प्रतिगमन सेगमेंटेड रिग्रेशन है जिससे अंतराल में संबंध रैखिक प्रतिगमन द्वारा प्राप्त किए जाते हैं।

खंडित रैखिक प्रतिगमन, दो खंड
ब्रेकप्वाइंट द्वारा अलग किए गए दो खंडों के साथ खंडित रैखिक प्रतिगमन एक अलग प्रभावशाली कारक (x) के प्रतिक्रिया फ़ंक्शन (Yr) के अचानक परिवर्तन को निर्धारित करने के लिए उपयोगी हो सकता है। ब्रेकप्वाइंट की व्याख्या एक महत्वपूर्ण, सुरक्षित या थ्रेशोल्ड मान के रूप में की जा सकती है जिसके सीमा के बाहर या नीचे (अवांछित) प्रभाव होते हैं। निर्णय लेने में ब्रेकप्वाइंट महत्वपूर्ण हो सकता है। आंकड़े कुछ परिणामों और प्रतिगमन प्रकारों को दर्शाते हैं।

एक सेगमेंटेड रिग्रेशन विश्लेषण (y, x) डेटा के एक सेट की उपस्थिति पर आधारित है, जिसमें y आश्रित चर है और x स्वतंत्र चर है।

न्यूनतम वर्ग विधि को प्रत्येक खंड पर अलग से लागू किया जाता है, जिसके द्वारा दो प्रतिगमन रेखाओं को डेटा सेट को यथासंभव निकट से फिट करने के लिए बनाया जाता है, जबकि देखे गए (y) और परिकलित (Yr) मानों के बीच अंतर (SSD) के वर्गों के योग को कम किया जाता है। आश्रित चर के परिणामस्वरूप निम्नलिखित दो समीकरण बनते हैं:

जहाँ:
 * Yr = A1.x + K1   x < BP (ब्रेकप्वाइंट) के लिए
 * Yr = A2.x + K2   x > BP (ब्रेकप्वाइंट) के लिए
 * Yr, x के एक निश्चित मान के लिए y का अपेक्षित (अनुमानित) मान है;
 * A1 और A2 प्रतिगमन गुणांक हैं (रेखा खंडों की गिरावट का संकेत);
 * K1 और K2 प्रतिगमन स्थिरांक हैं ('y'-अक्ष पर अवरोधन को इंगित करते हुए)।

डेटा कई प्रकार या रुझान दिखा सकता है, आंकड़े देखें.

विधि से दो पियर्सन उत्पाद-क्षण सहसंबंध गुणांक (R) भी प्राप्त होते हैं: और जहाँ:
 * $$R_1 ^ 2 = 1 - \frac{\sum (y - Y_r) ^ 2 }{ \sum (y - Y_{a1})^2}$$ x  BP (ब्रेकप्वाइंट) के लिए
 * $$ \sum (y - Y_r) ^2 $$ प्रति खंड न्यूनतम SSD है

और
 * Ya1 और Ya2 संबंधित खंडों में y के औसत मान हैं।

सबसे उपयुक्त प्रवृत्ति का निर्धारण करने में, यह सुनिश्चित करने के लिए सांख्यिकीय परीक्षण आयोजित किए जाने चाहिए कि प्रवृत्ति विश्वसनीय (महत्वपूर्ण) है।

जब किसी महत्वपूर्ण ब्रेकप्वाइंट का पता नहीं लगाया जा सकता है, तो व्यक्ति को बिना ब्रेकप्वाइंट के प्रतिगमन पर वापस आना चाहिए।

उदाहरण
दाईं ओर की नीली आकृति के लिए जो सरसों की उपज (Yr = Ym, t/ha) और मिट्टी की लवणता (x = Ss, मिट्टी के घोल EC की विद्युत चालकता dS/m में व्यक्त की जाती है) के बीच संबंध बताती है, यह पाया गया है कि: BP = 4.93, A1 = 0, K1 = 1.74, A2 = −0.129, K2 = 2.38, R12 = 0.0035 (महत्वहीन), R22 = 0.395 (महत्वपूर्ण) और: यह दर्शाता है कि मिट्टी की लवणता <4.93 dS/m सुरक्षित है और मिट्टी की लवणता > 4.93 dS/m मिट्टी की लवणता की प्रति इकाई वृद्धि से 0.129 टन/हेक्टेयर की दर से उपज कम हो जाती है।
 * Ym = 1.74 t/ha                        के लिए Ss < 4.93
 * Ym = −0.129 Ss + 2.38 t/ha     के लिए Ss > 4.93 (ब्रेकप्वाइंट)

जैसा कि नीचे विस्तार से बताया गया है, यह आंकड़ा आत्मविश्वास अंतराल और अनिश्चितता को भी दर्शाता है।

परीक्षण प्रक्रियाएं
प्रवृत्ति के प्रकार को निर्धारित करने के लिए निम्नलिखित सांख्यिकीय परीक्षणों का उपयोग किया जाता है: इसके अलावा, उपयोग सभी डेटा (Ra) के सहसंबंध गुणांक, निर्धारण के गुणांक या स्पष्टीकरण के गुणांक, प्रतिगमन कार्यों के विश्वास अंतराल और एनोवा (ANOVA) विश्लेषण से किया जाता है।
 * 1) प्रतिगमन गुणांक A1 और A2 और y-डेटा के माध्य Y1 और Y2 और x- डेटा (BP के बाएं और दाएं) के माध्य X1 और X2 के रूप में BP को व्यक्त करके ब्रेकप्वाइंट (BP) का महत्व, का उपयोग करके BP की मानक त्रुटि (SE) की गणना करने और छात्र के t-टेस्ट को लागू करने के लिए जोड़ और गुणन में त्रुटियों के प्रसार के नियम
 * 2) A1 का महत्व और A2 विद्यार्थी के टी-वितरण और मानक त्रुटि SE को लागू करने वाले A1 और A2 है।
 * 3) A1 के अंतर का महत्व और A2 उनके अंतर के SE का उपयोग करके छात्र के टी-वितरण को लागू करना है।
 * 4) Y के अंतर का महत्व1 और वाई2 उनके अंतर के SE का उपयोग करके छात्र के टी-वितरण को लागू करना है।
 * 5) ब्रेकप्वाइंट के अस्तित्व के परीक्षण के लिए एक अधिक औपचारिक सांख्यिकीय दृष्टिकोण, छद्म स्कोर परीक्षण के माध्यम से होता है जिसमें खंडित रेखा के अनुमान की आवश्यकता नहीं होती है।

सभी डेटा (सीडी) के लिए निर्धारण का गुणांक, जिसे महत्व परीक्षणों द्वारा निर्धारित शर्तों के तहत अधिकतम किया जाना है, से पाया जाता है: जहां Yr पूर्व प्रतिगमन समीकरणों के अनुसार y का अपेक्षित (अनुमानित) मान है और Ya सभी y मानों का औसत है।
 * $$C_d=1-{\sum (y-Y_r)^2\over\sum (y-Y_a)^2}$$

सीडी गुणांक 0 (बिल्कुल कोई स्पष्टीकरण नहीं) से 1 (पूर्ण स्पष्टीकरण, पूर्ण मिलान) के बीच होता है। शुद्ध, अखण्डित, रैखिक प्रतिगमन में, Cd और Ra2 के मान बराबर होते हैं। खंडित प्रतिगमन में, विभाजन को उचित ठहराने के लिए Cd को Ra2 से काफी बड़ा होना आवश्यक है।

ब्रेकप्वाइंट का अनुकूलन (गणित) मान ऐसे पाया जा सकता है कि सीडी गुणांक मैक्सिमा और मिनिमा है।

अप्रभावी सीमा
खंडित प्रतिगमन का उपयोग प्रायः उस सीमा को खोजने के लिए किया जाता है जिस पर एक व्याख्यात्मक चर (X) का आश्रित चर (Y) पर कोई प्रभाव नहीं पड़ता है, जबकि पहुंच से परे एक स्पष्ट प्रतिक्रिया होती है, चाहे वह सकारात्मक हो या नकारात्मक हो। बिना किसी प्रभाव की पहुंच X डोमेन के प्रारंभिक भाग में या इसके विपरीत इसके अंतिम भाग में पाई जा सकती है। "कोई प्रभाव नहीं" विश्लेषण के लिए, खंडित प्रतिगमन विश्लेषण के लिए न्यूनतम वर्ग विधि का अनुप्रयोग है। सबसे उपयुक्त तकनीक नहीं हो सकता है क्योंकि उद्देश्य सबसे लंबे खंड को ढूंढना है जिस पर Y-X संबंध को शून्य ढलान माना जा सकता है जबकि पहुंच से परे ढलान शून्य से काफी अलग है लेकिन इस ढलान के सर्वोत्तम मूल्य के बारे में ज्ञान भौतिक नहीं है। नो-इफ़ेक्ट रेंज खोजने की विधि रेंज पर प्रगतिशील आंशिक प्रतिगमन है, छोटे चरणों के साथ सीमा का विस्तार करना जब तक कि प्रतिगमन गुणांक शून्य से काफी भिन्न न हो जाए।

अगले चित्र में ब्रेक पॉइंट X=7.9 पर पाया जाता है, जबकि उसी डेटा के लिए (सरसों की उपज के लिए ऊपर नीला चित्र देखें), न्यूनतम वर्ग विधि केवल X=4.9 पर ब्रेक पॉइंट प्राप्त करती है। बाद वाला मान कम है, लेकिन ब्रेक पॉइंट से सीमा के बाहर डेटा का फिट बेहतर है। इसलिए, यह विश्लेषण के उद्देश्य पर निर्भर करेगा कि किस विधि को नियोजित करने की आवश्यकता है।

यह भी देखें

 * चाउ परीक्षण
 * सरल प्रतिगमन
 * रेखीय प्रतिगमन
 * सामान्य कम चौकोर
 * बहुभिन्नरूपी अनुकूली प्रतिगमन विभाजन
 * स्थानीय प्रतिगमन
 * प्रतिगमन असंततता डिजाइन
 * चरणबद्ध प्रतिगमन
 * खंडित प्रतिगमन के लिए SegReg (सॉफ़्टवेयर)