खंडित प्रतिगमन

खंडित प्रतिगमन, जिसे टुकड़े-टुकड़े प्रतिगमन या टूटी-छड़ी प्रतिगमन के रूप में भी जाना जाता है, प्रतिगमन विश्लेषण में एक विधि है जिसमें स्वतंत्र चर को अंतराल में विभाजित किया जाता है और प्रत्येक अंतराल में एक अलग रेखा खंड फिट किया जाता है। विभिन्न स्वतंत्र चरों को विभाजित करके बहुभिन्नरूपी डेटा पर खंडित प्रतिगमन विश्लेषण भी किया जा सकता है। खंडित प्रतिगमन तब उपयोगी होता है जब स्वतंत्र चर, विभिन्न समूहों में क्लस्टर किए जाते हैं, इन क्षेत्रों में चर के बीच अलग-अलग संबंध प्रदर्शित करते हैं। खंडों के बीच की सीमाएँ ब्रेकप्वाइंट हैं।

खंडित रैखिक प्रतिगमन खंडित प्रतिगमन है जिससे अंतराल में संबंध रैखिक प्रतिगमन द्वारा प्राप्त किए जाते हैं।

खंडित रैखिक प्रतिगमन, दो खंड
ब्रेकप्वाइंट द्वारा अलग किए गए दो खंडों के साथ खंडित रैखिक प्रतिगमन एक अलग प्रभावशाली कारक ('x') के प्रतिक्रिया फ़ंक्शन (Yr) के अचानक परिवर्तन को निर्धारित करने के लिए उपयोगी हो सकता है। ब्रेकप्वाइंट की व्याख्या एक महत्वपूर्ण, सुरक्षित या थ्रेशोल्ड मान के रूप में की जा सकती है जिसके परे या नीचे (अवांछित) प्रभाव होते हैं। निर्णय लेने में ब्रेकप्वाइंट महत्वपूर्ण हो सकता है आंकड़े कुछ परिणामों और प्रतिगमन प्रकारों को दर्शाते हैं।

एक खंडित प्रतिगमन विश्लेषण (y, x) डेटा के एक सेट की उपस्थिति पर आधारित है, जिसमें y आश्रित चर है और x स्वतंत्र चर है।

न्यूनतम वर्ग विधि को प्रत्येक खंड पर अलग से लागू किया जाता है, जिसके द्वारा दो प्रतिगमन रेखाओं को डेटा सेट को यथासंभव निकट से फिट करने के लिए बनाया जाता है, जबकि प्रेक्षित (y) और गणना के बीच अंतरों के वर्गों के योग (SSD) को कम किया जाता है। आश्रित चर के (वर्ष) मानों के परिणामस्वरूप निम्नलिखित दो समीकरण बनते हैं:

कहां:
 * वर्ष = ए1.एक्स + के1 x <बीपी (ब्रेकप्वाइंट) के लिए
 * वर्ष = ए2.एक्स + के2 x > BP (ब्रेकप्वाइंट) के लिए
 * Yr, x के एक निश्चित मान के लिए y का अपेक्षित (अनुमानित) मान है;
 * ए1 और ए2 प्रतिगमन गुणांक हैं (रेखा खंडों की ढलान का संकेत);
 * क1 और के2 प्रतिगमन स्थिरांक हैं ('y'-अक्ष पर अवरोधन को इंगित करते हुए)।

डेटा कई प्रकार या रुझान दिखा सकता है, आंकड़े देखें.

विधि से दो पियर्सन उत्पाद-क्षण सहसंबंध गुणांक (R) भी प्राप्त होते हैं: और कहां:
 * $$R_1 ^ 2 = 1 - \frac{\sum (y - Y_r) ^ 2 }{ \sum (y - Y_{a1})^2}$$ x <बीपी (ब्रेकप्वाइंट) के लिए
 * $$R_2 ^ 2 = 1 - \frac{\sum (y - Y_r) ^ 2 }{ \sum (y - Y_{a2})^2}$$ x > BP (ब्रेकप्वाइंट) के लिए
 * $$ \sum (y - Y_r) ^2 $$ प्रति खंड न्यूनतम SSD है

और
 * यa1 और वाईa2 संबंधित खंडों में y के औसत मान हैं।

सबसे उपयुक्त प्रवृत्ति के निर्धारण में, यह सुनिश्चित करने के लिए सांख्यिकीय परीक्षण किए जाने चाहिए कि यह प्रवृत्ति विश्वसनीय (महत्वपूर्ण) है।

जब कोई महत्वपूर्ण ब्रेकपॉइंट का पता नहीं लगाया जा सकता है, तो किसी को ब्रेकपॉइंट के बिना प्रतिगमन पर वापस आना चाहिए।

उदाहरण
दाईं ओर की नीली आकृति के लिए जो सरसों की उपज (Yr = Ym, t/ha) और मिट्टी की लवणता (x = Ss, मिट्टी के घोल EC की विद्युत चालकता dS/m में व्यक्त की जाती है) के बीच संबंध बताती है, यह पाया गया है कि : बीपी = 4.93, ए1 = 0, के1 = 1.74, ए2 = −0.129, के2 = 2.38, आर12 = 0.0035 (महत्वहीन), आर22 = 0.395 (महत्वपूर्ण) और: यह दर्शाता है कि मिट्टी की लवणता <4.93 dS/m सुरक्षित है और मिट्टी की लवणता > 4.93 dS/m मिट्टी की लवणता की प्रति इकाई वृद्धि से 0.129 टन/हेक्टेयर की दर से उपज कम हो जाती है।
 * Ym = 1.74 टन/हेक्टेयर ‍
 * Ym = −0.129 Ss + 2.38 t/ha     Ss > 4.93 (ब्रेकप्वाइंट) के लिए

जैसा कि नीचे विस्तार से बताया गया है, यह आंकड़ा आत्मविश्वास अंतराल और अनिश्चितता को भी दर्शाता है।

परीक्षण प्रक्रियाएं
प्रवृत्ति के प्रकार को निर्धारित करने के लिए निम्नलिखित सांख्यिकीय परीक्षणों का उपयोग किया जाता है: इसके अलावा, सभी डेटा (आरए) के पियर्सन उत्पाद-क्षण सहसंबंध गुणांक, निर्धारण के गुणांक या स्पष्टीकरण के गुणांक, प्रतिगमन कार्यों के आत्मविश्वास अंतराल और विचरण विश्लेषण के विश्लेषण का उपयोग किया जाता है। सभी डेटा (सीडी) के लिए निर्धारण का गुणांक, जिसे महत्व परीक्षणों द्वारा निर्धारित शर्तों के तहत अधिकतम किया जाना है, से पाया जाता है: जहां Yr पूर्व प्रतिगमन समीकरणों के अनुसार y का अपेक्षित (अनुमानित) मान है और Ya सभी y मानों का औसत है।
 * 1) बीपी को प्रतिगमन गुणांक ए के एक फ़ंक्शन के रूप में व्यक्त करके ब्रेकपॉइंट (बीपी) का महत्व1 और ए2 और साधन Y1 और वाई2 y-डेटा और साधन X का1 और एक्स2 एक्स डेटा (बीपी के बाएं और दाएं), बीपी की मानक त्रुटि (एसई) की गणना करने के लिए जोड़ और गुणन में अनिश्चितता के प्रसार के नियमों का उपयोग करना, और छात्र के टी-टेस्ट को लागू करना
 * 2) ए का महत्व1 और ए2 विद्यार्थी के टी-वितरण और ए की मानक त्रुटि एसई को लागू करना1 और ए2
 * 3) ए के अंतर का महत्व1 और ए2 उनके अंतर के एसई का उपयोग करके छात्र के टी-वितरण को लागू करना।
 * 4) Y के अंतर का महत्व1 और वाई2 उनके अंतर के एसई का उपयोग करके छात्र के टी-वितरण को लागू करना।
 * 5) ब्रेकप्वाइंट के अस्तित्व के परीक्षण के लिए एक अधिक औपचारिक सांख्यिकीय दृष्टिकोण, छद्म स्कोर परीक्षण के माध्यम से होता है जिसमें खंडित रेखा के अनुमान की आवश्यकता नहीं होती है।
 * $$C_d=1-{\sum (y-Y_r)^2\over\sum (y-Y_a)^2}$$

सीडी गुणांक 0 (बिल्कुल कोई स्पष्टीकरण नहीं) से 1 (पूर्ण स्पष्टीकरण, पूर्ण मिलान) के बीच होता है। शुद्ध, अखण्डित, रैखिक प्रतिगमन में, Cd और Ra के मान2बराबर हैं. खंडित प्रतिगमन में, सीडी को रा से काफी बड़ा होना चाहिए2विभाजन को उचित ठहराने के लिए।

ब्रेकप्वाइंट का अनुकूलन (गणित) मान ऐसे पाया जा सकता है कि सीडी गुणांक मैक्सिमा और मिनिमा है।

अप्रभावी सीमा
खंडित प्रतिगमन का उपयोग अक्सर यह पता लगाने के लिए किया जाता है कि किस सीमा पर एक व्याख्यात्मक चर (एक्स) का आश्रित चर (वाई) पर कोई प्रभाव नहीं पड़ता है, जबकि पहुंच से परे एक स्पष्ट प्रतिक्रिया होती है, चाहे वह सकारात्मक हो या नकारात्मक। बिना किसी प्रभाव की पहुंच एक्स डोमेन के प्रारंभिक भाग में या इसके विपरीत इसके अंतिम भाग में पाई जा सकती है। बिना प्रभाव वाले विश्लेषण के लिए, खंडित प्रतिगमन विश्लेषण के लिए न्यूनतम वर्ग विधि का अनुप्रयोग यह सबसे उपयुक्त तकनीक नहीं हो सकती है क्योंकि उद्देश्य सबसे लंबे खिंचाव को ढूंढना है जिस पर Y-X संबंध को शून्य ढलान वाला माना जा सकता है जबकि पहुंच से परे ढलान शून्य से काफी अलग है लेकिन इस ढलान के सर्वोत्तम मूल्य के बारे में ज्ञान है भौतिक नहीं. नो-इफ़ेक्ट रेंज खोजने की विधि प्रगतिशील आंशिक प्रतिगमन है सीमा पर, छोटे चरणों के साथ सीमा का विस्तार तब तक करें जब तक कि प्रतिगमन गुणांक शून्य से काफी भिन्न न हो जाए।

अगले चित्र में ब्रेक पॉइंट X=7.9 पर पाया जाता है, जबकि उसी डेटा के लिए (सरसों की उपज के लिए ऊपर नीला चित्र देखें), न्यूनतम वर्ग विधि केवल X=4.9 पर ब्रेक पॉइंट प्राप्त करती है। बाद वाला मान कम है, लेकिन ब्रेक पॉइंट से परे डेटा का फिट बेहतर है। इसलिए, यह विश्लेषण के उद्देश्य पर निर्भर करेगा कि किस विधि को नियोजित करने की आवश्यकता है।

यह भी देखें

 * चाउ परीक्षण
 * सरल प्रतिगमन
 * रेखीय प्रतिगमन
 * सामान्य कम चौकोर
 * बहुभिन्नरूपी अनुकूली प्रतिगमन विभाजन
 * स्थानीय प्रतिगमन
 * प्रतिगमन असंततता डिजाइन
 * चरणबद्ध प्रतिगमन
 * खंडित प्रतिगमन के लिए SegReg|SegReg (सॉफ्टवेयर)।