वर्गों के योग का अभाव

आंकड़ों में, फिट की कमी के कारण वर्गों का योग, या अधिक संक्षेप में वर्गों का फिट न होने वाला योग, विचरण के विश्लेषण में अवशेषों के वर्गों (सांख्यिकी) के योग के विभाजन के घटकों में से है, शून्य परिकल्पना के F-परीक्षण में अंश में उपयोग किया जाता है जो कहता है कि प्रस्तावित मॉडल अच्छी प्रकार से फिट बैठता है। अनुपस्थिति के वर्ग का योग अन्य घटक होता है।

वर्गों का शुद्ध-त्रुटि योग उसके स्वतंत्र चर मान(मानों) को साझा करने वाले सभी अवलोकनों के औसत मूल्य से आश्रित चर के प्रत्येक मान के वर्ग विचलन का योग है। ये त्रुटियाँ ऐसी हैं जो किसी भी पूर्वानुमानित समीकरण द्वारा नहीं बच सकतीं हैं जो निर्भरता चर के लिए विश्लेषणात्मक मान को स्वतंत्र चर (ओं) के मान (ओं) के विचलन के एक कार्यकारी के रूप में नियुक्त करता है। अवशेषित शेषों के वर्ग का योग अवलोकन में अवलोकन की अनुपस्थिति के लिए समर्पित होता है क्योंकि यह गणितीय रूप से संपूर्ण रूप से इन त्रुटियों को पूर्णतः नष्ट करना संभव होता है।

सिद्धांत
वर्गों के कमी-योग्य योग को वर्गों के अवशिष्ट योग से भिन्न करने के लिए, भविष्यवक्ता चर के सेट के कम से कम मान के लिए प्रतिक्रिया चर का प्रतिकृति (सांख्यिकी) मूल्य होना चाहिए, उदाहरण के लिए, लाइन फ़िट करने पर विचार करें,


 * $$ y = \alpha x + \beta \, $$

लीस्ट स्क्वेयर्स की विधि के द्वारा। α और β के अनुमान के रूप में हम संख्याओं को लेते हैं जो रेशियल्स के वर्गों की योग को कम से कम करें, अर्थात, देखे गए y मान और मेलित y मान के बीच के अंतर के वर्गों की योग। लैक ऑफ़ फिट सम के वर्ग को रेशियल्स के वर्गों से अलग होने के लिए, हमें एक या अधिक x मानों के लिए प्रत्येक में एक से अधिक y मान देखने की आवश्यकता होती है। फिर, हम "त्रुटि के कारण होने वाले वर्ग" अर्थात रेशियल्स के वर्गों को दो घटकों में विभाजित करते हैं:


 * त्रुटि के कारण वर्गों का योग = ("पक्की" त्रुटि के कारण होने वाले वर्ग) + (फिट के कारण होने वाले वर्ग) होता है।

"पक्की" त्रुटि के कारण होने वाले वर्ग वही होते हैं जो हर देखे गए y मान और उसी x मान के लिए सभी y मानों के औसत के बीच के अंतरों के वर्गों की योग होती हैं।

फिट के कारण होने वाले वर्ग वही होते हैं जो हर x मान के लिए संबंधित सभी y मानों के औसत और संबंधित फिट किए गए y मान के बीच के अंतरों के वर्गों का वजनित योग होती हैं, जहां प्रत्येक मामले में वजन सीधे तौर पर उस x मान के लिए देखे गए y मानों की संख्या होती है। क्योंकि लीस्ट स्क्वेयर्स रीग्रेशन की गुणधर्म है कि "पक्की त्रुटियों" के घटक और लैक ऑफ़ फिट के घटक आपस में लंबक अंग होते हैं, इसलिए निम्नलिखित समानता होती है:



\begin{align} &\sum (\text{observed value} - \text{fitted value})^2 && \text{(error)} \\ &\qquad = \sum (\text{observed value} - \text{local average})^2 && \text{(pure error)} \\ &\qquad\qquad {} + \sum \text{weight}\times (\text{local average} - \text{fitted value})^2 && \text{(lack of fit)} \end{align} $$ इसलिए वर्गों का शेष योग पूरी प्रकार से दो घटकों में विघटित हो गया है।

गणितीय विवरण
भविष्यवक्ता चर के साथ रेखा फिट करने पर विचार करें। n अलग-अलग x मानों के प्रति सूचकांक के रूप में i को परिभाषित करें, दिए गए x मान के लिए प्रतिक्रिया चर अवलोकनों के लिए सूचकांक के रूप में j को परिभाषित करें, और i th x मान के साथ जुड़े y मानों की संख्या को ni के रूप में परिभाषित करें। प्रत्येक प्रतिक्रिया चर अवलोकन के मान को निम्न रूप में प्रदर्शित किया जा सकता है:


 * $$ Y_{ij} = \alpha x_i + \beta + \varepsilon_{ij},\qquad i = 1,\dots, n,\quad j = 1,\dots,n_i.$$

यहां,


 * $$ \widehat\alpha, \widehat\beta \,$$

अवर्जित पैरामीटर एल्फा और बीटा के लिए न्यूनतम वर्गों के अनुमान हैं, जो x i और Y i j के देखे गए मानों पर आधारित हैं।

यहां,


 * $$ \widehat Y_i = \widehat\alpha x_i + \widehat\beta \,$$

प्रतिक्रिया चर के मान हैं। इसके बाद,


 * $$ \widehat\varepsilon_{ij} = Y_{ij} - \widehat Y_i \,$$

आँकड़ों में त्रुटियाँ और अवशेष हैं, जो त्रुटि परिमाण εij  के अनुमान के रूप में देखे गए मान होती हैं। न्यूनतम वर्गों के विधि के स्वरूप के कारण, पूरे वेक्टर त्रुटियों को देखा जा सकता है, जिनमें सम्मिलित है


 * $$ N = \sum_{i=1}^n n_i $$

स्केलर घटक होते हैं, आवश्यक रूप से दो सीमाएँ पूरी करते हैं


 * $$ \sum_{i=1}^n \sum_{j=1}^{n_i} \widehat\varepsilon_{ij} = 0 \,$$
 * $$ \sum_{i=1}^n \left(x_i \sum_{j=1}^{n_i} \widehat\varepsilon_{ij} \right) = 0. \,$$

इस प्रकार यह 'R' के (N − 2)-आयामी उप-स्थान में स्थित होने के लिए बाध्य है। N, अर्थात त्रुटि के लिए स्वतंत्रता की N -2 डिग्री (आंकड़े) हैं।

अब यहां,


 * $$ \overline{Y}_{i\bullet} = \frac{1}{n_i} \sum_{j=1}^{n_i} Y_{ij} $$

i th, x मान के संबंधित सभी Y मानों का औसत है।.

हम त्रुटि के वारियंस के योग को दो घटकों में विभाजित करते हैं।



\begin{align} & \sum_{i=1}^n \sum_{j=1}^{n_i} \widehat\varepsilon_{ij}^{\,2} = \sum_{i=1}^n \sum_{j=1}^{n_i} \left( Y_{ij} - \widehat Y_i \right)^2 \\ & = \underbrace{ \sum_{i=1}^n \sum_{j=1}^{n_i} \left(Y_{ij} - \overline Y_{i\bullet}\right)^2 }_\text{(sum of squares due to pure error)} + \underbrace{ \sum_{i=1}^n n_i \left( \overline Y_{i\bullet} - \widehat Y_i \right)^2. }_\text{(sum of squares due to lack of fit)} \end{align} $$

वर्गों का योग
यदि त्रिज्या मॉडल सही है, तो यद्यपि त्रुटि चर ε i j यांत्रिकी हैं और उम्मीदवार वास्तविकता 0 और विचलन σ2 के साथ सांख्यिकीय स्वतंत्रता और सामान्य वितरण होती हैं तब हम x i को यांत्रिक मान के बजाय स्थिर मान के रूप में लेते हैं। फिर प्रतिक्रिया मात्राएं Y i j केवल इसलिए यांत्रिक होती हैं क्योंकि त्रुटियाँ ε i j यांत्रिक होती हैं।

यह सिद्ध हो सकता है कि यदि रैखिक मॉडल सही है, तो त्रुटि के कारण से होने वाले वर्ग का योग (त्रुटि वारियंस से भाग किया गया) निम्न रूप में लिखा जा सकता है:


 * $$ \frac{1}{\sigma^2}\sum_{i=1}^n \sum_{j=1}^{n_i} \widehat\varepsilon_{ij}^{\,2} $$

स्वतंत्रता की N − 2 डिग्री के साथ ची-वर्ग वितरण होता है।

इसके अतिरिक्त, कुल अवलोकनों की कुल संख्या N, स्वतंत्र प्राधान्य में स्तरों की संख्या n, और मॉडल में पैरामीटरों की संख्या p दी गई होने के कारण:


 * शुद्ध त्रुटि के कारण वर्गों के योग को त्रुटि विचरण σ2 से विभाजित किया जाता है, स्वतंत्रता की N − n डिग्री के साथ ची-वर्ग वितरण होता है;
 * अपूर्णता के कारण वर्गों के योग को त्रुटि विचरण σ2 से विभाजित किया जाता है, इसमें स्वतंत्रता की n-p डिग्री के साथ ची-वर्ग वितरण है (यहां p=2 है रैखिक मॉडल में दो पैरामीटर होते हैं)।
 * दो वर्गों के बीच प्रायोगिकतापूर्णता का कोई संबंध नहीं होता है।

परीक्षण आँकड़ा
इसके बाद यह आंकड़े सामने आते हैं

\begin{align} F & = \frac{ \text{lack-of-fit sum of squares} /\text{degrees of freedom} }{\text{pure-error sum of squares} / \text{degrees of freedom} } \\[8pt] & = \frac{\left.\sum_{i=1}^n n_i \left( \overline Y_{i\bullet} - \widehat Y_i \right)^2\right/ (n-p)}{\left.\sum_{i=1}^n \sum_{j=1}^{n_i} \left(Y_{ij} - \overline Y_{i\bullet}\right)^2 \right/ (N - n)} \end{align} $$ यदि मॉडल सही है तो F-वितरण अग्रणीकारी और नामवारी गुणों के साथ देने वाले डिग्री में अस्थायीता के साथ होता है। यदि मॉडल गलत है, तो नियमितता की प्राप्ति की प्रायिकता वितरण अभी भी उपरोक्त ढंग से होती है, और प्राणांककारी और नामकारी अभी भी असंबंधित होते हैं। किन्तु अग्रणीकारी फ़ीच्योर अब गैर-केंद्रीय चाइ-स्क्वेयर्ड वितरण होती है, और इस प्रकार भाग गैर-केंद्रीय F-वितरण होता है।

इस F-परीक्षण का उपयोग इस प्राथमिकता-निराकरण हाइपोथेसिस का परीक्षण करने के लिए किया जाता है कि रैखिक मॉडल सही है। नॉन-सेंट्रल F-वितरण के कारण, यदि F-वैश्विक वितरण से यह व्यापकतापूर्ण रूप से बड़ा होता है, तो हम निराकरण हाइपोथेसिस को त्यागते हैं। महत्वपूर्ण मान का अर्थ सूचकांक वही होता है जो x बराबर होता है, जहां वांछित आत्मविश्वास स्तर के साथ F वितरण के कक्ष दिए गए हैं, और डिग्री नियामक d1 = (n − p) और d2 = (N − n) होते हैं।

त्रुटियों और स्वतंत्रता (संभावना सिद्धांत) के सामान्य वितरण की धारणाओं को यह दिखाया जा सकता है कि यह अभिकलन रूपी परीक्षण इस शून्य हाइपोथेसिस की व्यापारित्व-अनुपात परीक्षा है।

यह भी देखें

 * विचरण का अंश अस्पष्ट
 * स्वस्थ भलाई
 * रेखीय प्रतिगमन

टिप्पणियाँ
[Category:Statistical hypothesis testi