वर्गों के योग का अभाव

आंकड़ों में, फिट की कमी के कारण वर्गों का योग, या अधिक संक्षेप में वर्गों का फिट न होने वाला योग, विचरण के विश्लेषण में अवशेषों के वर्गों (सांख्यिकी) के योग के विभाजन के घटकों में से एक है, शून्य परिकल्पना के एफ-परीक्षण में अंश में उपयोग किया जाता है जो कहता है कि एक प्रस्तावित मॉडल अच्छी तरह से फिट बैठता है। अन्य घटक वर्गों का शुद्ध-त्रुटि योग है।

वर्गों का शुद्ध-त्रुटि योग उसके स्वतंत्र चर मान(मानों) को साझा करने वाले सभी अवलोकनों के औसत मूल्य से आश्रित चर के प्रत्येक मान के वर्ग विचलन का योग है। ये ऐसी त्रुटियां हैं जिन्हें किसी भी पूर्वानुमानित समीकरण से कभी नहीं टाला जा सकता है जो स्वतंत्र चर के मूल्य के एक फ़ंक्शन के रूप में आश्रित चर के लिए अनुमानित मान निर्दिष्ट करता है। वर्गों के शेष योग को मॉडल की फिट की कमी के लिए जिम्मेदार ठहराया जाता है क्योंकि इन त्रुटियों को पूरी तरह से खत्म करना गणितीय रूप से संभव होगा।

सिद्धांत
वर्गों के कमी-योग्य योग को वर्गों के अवशिष्ट योग से भिन्न करने के लिए, भविष्यवक्ता चर के सेट के कम से कम एक मान के लिए प्रतिक्रिया चर का प्रतिकृति (सांख्यिकी) मूल्य होना चाहिए। उदाहरण के लिए, एक लाइन फ़िट करने पर विचार करें


 * $$ y = \alpha x + \beta \, $$

न्यूनतम वर्ग विधि द्वारा. कोई α और β के अनुमान के रूप में उन मानों को लेता है जो अवशेषों के वर्गों के योग को कम करते हैं, यानी, देखे गए y-मान और फिट किए गए y-मान के बीच अंतर के वर्गों का योग। वर्गों के अवशिष्ट योग से भिन्न वर्गों के योग की कमी के लिए, किसी को एक या अधिक x-मानों में से प्रत्येक के लिए एक से अधिक y-मान का निरीक्षण करना होगा। फिर त्रुटि के कारण वर्गों के योग को, यानी, अवशेषों के वर्गों के योग को, दो घटकों में विभाजित किया जाता है:


 * त्रुटि के कारण वर्गों का योग = (शुद्ध त्रुटि के कारण वर्गों का योग) + (फिट की कमी के कारण वर्गों का योग)।

शुद्ध त्रुटि के कारण वर्गों का योग प्रत्येक देखे गए y-मान और समान x-मान के अनुरूप सभी y-मानों के औसत के बीच अंतर के वर्गों का योग है।

फिट की कमी के कारण वर्गों का योग समान x-मान के अनुरूप y-मानों के प्रत्येक औसत और संबंधित y-मान के बीच अंतर के वर्गों का भारित योग है, प्रत्येक मामले में वजन केवल देखे गए की संख्या है उस x-मान के लिए y-मान। क्योंकि यह कम से कम वर्ग प्रतिगमन की एक संपत्ति है कि वेक्टर जिसके घटक शुद्ध त्रुटियां हैं और कमी-फिट घटकों के वेक्टर एक-दूसरे के लिए ऑर्थोगोनल हैं, निम्नलिखित समानता रखती है:



\begin{align} &\sum (\text{observed value} - \text{fitted value})^2 && \text{(error)} \\ &\qquad = \sum (\text{observed value} - \text{local average})^2 && \text{(pure error)} \\ &\qquad\qquad {} + \sum \text{weight}\times (\text{local average} - \text{fitted value})^2 && \text{(lack of fit)} \end{align} $$ इसलिए वर्गों का शेष योग पूरी तरह से दो घटकों में विघटित हो गया है।

गणितीय विवरण
एक भविष्यवक्ता चर के साथ एक रेखा फिट करने पर विचार करें। i को प्रत्येक n विशिष्ट x मानों के सूचकांक के रूप में परिभाषित करें, j को किसी दिए गए x मान के लिए प्रतिक्रिया चर अवलोकनों के सूचकांक के रूप में परिभाषित करें, और ni i से संबद्ध y मानों की संख्या के रूप में वेंx मान. प्रत्येक प्रतिक्रिया चर अवलोकन के मूल्य का प्रतिनिधित्व किया जा सकता है


 * $$ Y_{ij} = \alpha x_i + \beta + \varepsilon_{ij},\qquad i = 1,\dots, n,\quad j = 1,\dots,n_i.$$

होने देना


 * $$ \widehat\alpha, \widehat\beta \,$$

x के प्रेक्षित मानों के आधार पर अप्राप्य मापदंडों α और β का न्यूनतम वर्ग अनुमान होi और वाईi j.

होने देना


 * $$ \widehat Y_i = \widehat\alpha x_i + \widehat\beta \,$$

प्रतिक्रिया चर के फिट किए गए मान हों। तब


 * $$ \widehat\varepsilon_{ij} = Y_{ij} - \widehat Y_i \,$$

आँकड़ों में त्रुटियाँ और अवशेष हैं, जो त्रुटि शब्द के अप्राप्य मूल्यों के अवलोकनीय अनुमान हैं εij. कम से कम वर्गों की विधि की प्रकृति के कारण, अवशेषों का पूरा वेक्टर, साथ


 * $$ N = \sum_{i=1}^n n_i $$

अदिश घटक, आवश्यक रूप से दो बाधाओं को संतुष्ट करते हैं


 * $$ \sum_{i=1}^n \sum_{j=1}^{n_i} \widehat\varepsilon_{ij} = 0 \,$$
 * $$ \sum_{i=1}^n \left(x_i \sum_{j=1}^{n_i} \widehat\varepsilon_{ij} \right) = 0. \,$$

इस प्रकार यह 'R' के (N − 2)-आयामी उप-स्थान में स्थित होने के लिए बाध्य है।एन, यानी त्रुटि के लिए स्वतंत्रता की एन -2 डिग्री (आंकड़े) हैं।

अब चलो


 * $$ \overline{Y}_{i\bullet} = \frac{1}{n_i} \sum_{j=1}^{n_i} Y_{ij} $$

i से जुड़े सभी Y-मानों का औसत हो वेंx-मूल्य.

हम त्रुटि के कारण वर्गों के योग को दो घटकों में विभाजित करते हैं:



\begin{align} & \sum_{i=1}^n \sum_{j=1}^{n_i} \widehat\varepsilon_{ij}^{\,2} = \sum_{i=1}^n \sum_{j=1}^{n_i} \left( Y_{ij} - \widehat Y_i \right)^2 \\ & = \underbrace{ \sum_{i=1}^n \sum_{j=1}^{n_i} \left(Y_{ij} - \overline Y_{i\bullet}\right)^2 }_\text{(sum of squares due to pure error)} + \underbrace{ \sum_{i=1}^n n_i \left( \overline Y_{i\bullet} - \widehat Y_i \right)^2. }_\text{(sum of squares due to lack of fit)} \end{align} $$

वर्गों का योग
मान लीजिए आँकड़ों में त्रुटियाँ और अवशेष εi j अपेक्षित मान 0 और विचरण σ के साथ सांख्यिकीय स्वतंत्रता और सामान्य वितरण हैं2. हम एक्स का इलाज करते हैंi यादृच्छिक के बजाय स्थिर के रूप में। फिर प्रतिक्रिया चर Yi j केवल इसलिए यादृच्छिक हैं क्योंकि त्रुटियाँ ε हैंi j यादृच्छिक हैं.

इसका अनुसरण करके दिखाया जा सकता है कि यदि सीधी-रेखा मॉडल सही है, तो त्रुटि के कारण वर्गों के योग को त्रुटि विचरण से विभाजित किया जाता है,


 * $$ \frac{1}{\sigma^2}\sum_{i=1}^n \sum_{j=1}^{n_i} \widehat\varepsilon_{ij}^{\,2} $$

स्वतंत्रता की N − 2 डिग्री के साथ एक ची-वर्ग वितरण है।

इसके अलावा, अवलोकनों की कुल संख्या N, स्वतंत्र चर n के स्तरों की संख्या और मॉडल p में मापदंडों की संख्या दी गई है:


 * शुद्ध त्रुटि के कारण वर्गों के योग को त्रुटि विचरण σ से विभाजित किया जाता है2, स्वतंत्रता की N − n डिग्री के साथ एक ची-वर्ग वितरण है;
 * फिट की कमी के कारण वर्गों के योग को त्रुटि विचरण σ से विभाजित किया जाता है2, इसमें स्वतंत्रता की n-p डिग्री के साथ एक ची-वर्ग वितरण है (यहां p=2 क्योंकि सीधी-रेखा मॉडल में दो पैरामीटर हैं);
 * वर्गों के दो योग संभावित रूप से स्वतंत्र हैं।

परीक्षण आँकड़ा
इसके बाद यह आंकड़े सामने आते हैं

\begin{align} F & = \frac{ \text{lack-of-fit sum of squares} /\text{degrees of freedom} }{\text{pure-error sum of squares} / \text{degrees of freedom} } \\[8pt] & = \frac{\left.\sum_{i=1}^n n_i \left( \overline Y_{i\bullet} - \widehat Y_i \right)^2\right/ (n-p)}{\left.\sum_{i=1}^n \sum_{j=1}^{n_i} \left(Y_{ij} - \overline Y_{i\bullet}\right)^2 \right/ (N - n)} \end{align} $$ अंश और हर में स्वतंत्रता की डिग्री की संगत संख्या के साथ एक एफ-वितरण है, बशर्ते कि मॉडल सही हो। यदि मॉडल गलत है, तो हर का संभाव्यता वितरण अभी भी ऊपर बताया गया है, और अंश और हर अभी भी स्वतंत्र हैं। लेकिन तब अंश में एक गैर-केंद्रीय ची-वर्ग वितरण होता है, और परिणामस्वरूप पूरे भागफल में एक गैर-केंद्रीय एफ-वितरण होता है।

कोई इस एफ-सांख्यिकी का उपयोग शून्य परिकल्पना का परीक्षण करने के लिए करता है कि रैखिक मॉडल सही है। चूँकि गैर-केंद्रीय एफ-वितरण (केंद्रीय) एफ-वितरण की तुलना में स्टोकेस्टिक क्रम है, यदि एफ-आँकड़ा महत्वपूर्ण एफ मान से बड़ा है, तो कोई शून्य परिकल्पना को अस्वीकार कर देता है। महत्वपूर्ण मान वांछित आत्मविश्वास स्तर के बराबर x और स्वतंत्रता की डिग्री d के साथ F वितरण के संचयी वितरण फ़ंक्शन से मेल खाता है1= (एन − पी) और डी2= (एन − एन).

त्रुटियों और स्वतंत्रता (संभावना सिद्धांत) के सामान्य वितरण की धारणाओं को यह दिखाया जा सकता है कि यह फिट की अच्छाई | फिट की कमी परीक्षण इस अशक्त परिकल्पना की संभावना-अनुपात परीक्षण है।

यह भी देखें

 * विचरण का अंश अस्पष्ट
 * स्वस्थ भलाई
 * रेखीय प्रतिगमन

टिप्पणियाँ
[Category:Statistical hypothesis testi