गुडनेस ऑफ़ फिट

एक सांख्यिकीय मॉडल की फिट की अच्छाई बताती है कि यह टिप्पणियों के एक सेट पर कितनी अच्छी तरह फिट बैठता है। फिट की अच्छाई के उपाय आमतौर पर देखे गए मूल्यों और प्रश्न में मॉडल के तहत अपेक्षित मूल्यों के बीच विसंगति को संक्षेप में प्रस्तुत करते हैं। ऐसे उपायों का उपयोग सांख्यिकीय परिकल्पना परीक्षण में किया जा सकता है, उदाहरण के लिए आँकड़ों में त्रुटियों और अवशेषों की सामान्यता परीक्षण के लिए, यह परीक्षण करने के लिए कि क्या दो नमूने समान वितरण से लिए गए हैं (कोलमोगोरोव-स्मिरनोव परीक्षण देखें), या क्या परिणाम आवृत्तियाँ एक निर्दिष्ट वितरण का पालन करती हैं (पियर्सन का ची-स्क्वायर परीक्षण देखें)। विचरण के विश्लेषण में, उन घटकों में से एक जिसमें विचरण को विभाजित किया गया है, वर्गों का फिट न होने वाला योग हो सकता है।

वितरण की फ़िट
यह आकलन करने में कि क्या कोई दिया गया वितरण डेटा-सेट के लिए उपयुक्त है, निम्नलिखित सांख्यिकीय परिकल्पना परीक्षण और उनके फिट के अंतर्निहित उपायों का उपयोग किया जा सकता है:
 * बायेसियन सूचना मानदंड
 * कोलमोगोरोव-स्मिरनोव परीक्षण
 * क्रैमर-वॉन मिज़ मानदंड
 * एंडरसन-डार्लिंग परीक्षण
 * बर्क-जोन्स परीक्षण
 * शापिरो-विल्क परीक्षण
 * ची-वर्ग परीक्षण
 * अकैके सूचना मानदंड
 * होस्मर-लेमेशो परीक्षण
 * कुइपर का परीक्षण
 * कर्नेलाइज़्ड स्टीन विसंगति
 * झांग का ज़ेडK, साथC और ज़ेडA परीक्षण
 * मोरन परीक्षण
 * घनत्व आधारित अनुभवजन्य संभावना अनुपात परीक्षण

प्रतिगमन विश्लेषण
प्रतिगमन विश्लेषण में, विशेष रूप से प्रतिगमन सत्यापन में, निम्नलिखित विषय फिट की अच्छाई से संबंधित हैं:


 * निर्धारण का गुणांक (फिट की अच्छाई का आर-वर्ग माप);
 * वर्गों के योग का अभाव;
 * मैलोज़ का सीपी|मैलोज़ का सीपी मानदंड
 * पूर्वानुमान त्रुटि
 * कम ची-स्क्वायर

श्रेणीबद्ध डेटा
निम्नलिखित उदाहरण हैं जो श्रेणीबद्ध डेटा के संदर्भ में उत्पन्न होते हैं।

पियर्सन का ची-स्क्वायर परीक्षण
पियर्सन का ची-स्क्वायर परीक्षण फिट की अच्छाई के माप का उपयोग करता है जो प्रेक्षित और अपेक्षित मूल्य आवृत्तियों (अर्थात, अवलोकनों की गिनती) के बीच अंतर का योग है, प्रत्येक वर्ग और अपेक्षा से विभाजित होता है:

$$ \chi^2 = \sum_{i=1}^n {\frac{(O_i - E_i)}{E_i}^2}$$ कहाँ:
 * ओi= बिन i के लिए एक प्रेक्षित गणना
 * इi= बिन i के लिए एक अपेक्षित गिनती, जो शून्य परिकल्पना द्वारा बताई गई है।

अपेक्षित आवृत्ति की गणना इस प्रकार की जाती है: $$E_i \, = \, \bigg( F(Y_u) \, - \, F(Y_l) \bigg) \, N$$ कहाँ:
 * एफ = परीक्षण किए जा रहे संभाव्यता वितरण के लिए संचयी वितरण फ़ंक्शन।
 * यu= कक्षा I के लिए ऊपरी सीमा,
 * यl= कक्षा I के लिए निचली सीमा, और
 * एन = नमूना आकार

फिट की अच्छाई निर्धारित करने के लिए परिणामी मूल्य की तुलना ची-स्क्वायर वितरण से की जा सकती है। ची-स्क्वायर वितरण में (k - c) स्वतंत्रता की डिग्री (सांख्यिकी) है, जहां k गैर-रिक्त कोशिकाओं की संख्या है और c वितरण प्लस वन के लिए अनुमानित मापदंडों (स्थान और पैमाने के मापदंडों और आकार मापदंडों सहित) की संख्या है। उदाहरण के लिए, 3-पैरामीटर वेइबुल वितरण के लिए, c = 4.

उदाहरण: पुरुषों और महिलाओं की समान आवृत्तियाँ
उदाहरण के लिए, इस परिकल्पना का परीक्षण करने के लिए कि 100 लोगों का एक यादृच्छिक नमूना एक आबादी से लिया गया है जिसमें पुरुषों और महिलाओं की आवृत्ति समान है, पुरुषों और महिलाओं की देखी गई संख्या की तुलना 50 पुरुषों और 50 महिलाओं की सैद्धांतिक आवृत्तियों से की जाएगी। यदि नमूने में 44 पुरुष और 56 महिलाएँ थीं, तो

$$ \chi^2 = {(44 - 50)^2 \over 50} + {(56 - 50)^2 \over 50} = 1.44$$ यदि शून्य परिकल्पना सत्य है (यानी, पुरुषों और महिलाओं को नमूने में समान संभावना के साथ चुना जाता है), तो परीक्षण आँकड़ा स्वतंत्रता की एक डिग्री (सांख्यिकी) के साथ ची-स्क्वायर वितरण से लिया जाएगा। हालाँकि कोई स्वतंत्रता की दो डिग्री (पुरुषों और महिलाओं के लिए एक-एक) की उम्मीद कर सकता है, हमें यह ध्यान में रखना चाहिए कि पुरुषों और महिलाओं की कुल संख्या सीमित है (100), और इस प्रकार स्वतंत्रता की केवल एक डिग्री है (2 − 1)। दूसरे शब्दों में, यदि पुरुष गणना ज्ञात है तो महिला गणना निर्धारित की जाती है, और इसके विपरीत।

स्वतंत्रता की 1 डिग्री के लिए ची-स्क्वायर वितरण के परामर्श से पता चलता है कि अंतर देखने की संचयी संभावना इससे अधिक है $$\chi^2=1.44$$ यदि जनसंख्या में पुरुष और महिलाएँ समान रूप से संख्या में हैं तो लगभग 0.23 है। यह संभावना सांख्यिकीय महत्व (.001-.05 की संभावना) के लिए पारंपरिक रूप से स्वीकृत मानदंड से अधिक है, इसलिए आम तौर पर हम शून्य परिकल्पना को अस्वीकार नहीं करेंगे कि जनसंख्या में पुरुषों की संख्या महिलाओं की संख्या के समान है (यानी हम अपने नमूने को 50/50 पुरुष/महिला अनुपात के लिए हमारी अपेक्षा की सीमा के भीतर मानेंगे।)

इस धारणा पर ध्यान दें कि जिस तंत्र ने नमूना तैयार किया है वह यादृच्छिक है, समान संभावना के साथ स्वतंत्र यादृच्छिक चयन के अर्थ में, यहां पुरुषों और महिलाओं दोनों के लिए 0.5 है। यदि, उदाहरण के लिए, चुने गए 44 पुरुषों में से प्रत्येक एक पुरुष मित्र लाया, और 56 महिलाओं में से प्रत्येक एक महिला मित्र लाई, तो प्रत्येक ${(O_i - E_i)}^2$ जबकि प्रत्येक में 4 गुना वृद्धि होगी $E_i$  2 गुना बढ़ जाएगी। सांख्यिकी का मूल्य दोगुना होकर 2.88 हो जाएगा। इस अंतर्निहित तंत्र को जानते हुए, हमें निश्चित रूप से जोड़ियों की गिनती करनी चाहिए। सामान्य तौर पर, तंत्र, यदि रक्षात्मक रूप से यादृच्छिक नहीं है, तो ज्ञात नहीं होगा। तदनुसार, जिस वितरण को परीक्षण आँकड़ा संदर्भित किया जाना चाहिए, वह ची-स्क्वायर से बहुत भिन्न हो सकता है।

द्विपद स्थिति
एक द्विपद प्रयोग स्वतंत्र परीक्षणों का एक क्रम है जिसमें परीक्षणों के परिणामस्वरूप दो परिणामों में से एक हो सकता है, सफलता या विफलता। ऐसे n परीक्षण हैं जिनमें से प्रत्येक की सफलता की संभावना है, जिसे p द्वारा दर्शाया गया है। बशर्ते कि एन.पीi≫ प्रत्येक i के लिए 1 (जहां i = 1, 2, ...,k), फिर

$$ \chi^2 = \sum_{i=1}^{k} {\frac{(N_i - np_i)^2}{np_i}} = \sum_{\mathrm{all\ cells}}^{} {\frac{(\mathrm{O} - \mathrm{E})^2}{\mathrm{E}}}.$$ इसमें लगभग k-1 डिग्री स्वतंत्रता के साथ एक ची-स्क्वायर वितरण है। तथ्य यह है कि स्वतंत्रता की k-1 डिग्री प्रतिबंध का परिणाम है $ \sum N_i=n$. हम जानते हैं कि k अवलोकित कोशिका गणनाएँ हैं, हालाँकि, एक बार k − 1 ज्ञात हो जाने पर, शेष को विशिष्ट रूप से निर्धारित किया जाता है। मूल रूप से, कोई कह सकता है, केवल k − 1 स्वतंत्र रूप से निर्धारित कोशिका गणना होती है, इस प्रकार k − 1 डिग्री की स्वतंत्रता होती है।

जी-परीक्षण
जी-परीक्षण|जी-परीक्षण सांख्यिकीय महत्व के संभावना अनुपात परीक्षण|संभावना-अनुपात परीक्षण हैं जिनका उपयोग उन स्थितियों में तेजी से किया जा रहा है जहां पहले पियर्सन के ची-स्क्वायर परीक्षणों की सिफारिश की गई थी। G का सामान्य सूत्र है
 * $$ G = 2\sum_{i} {O_{i} \cdot \ln\left(\frac{O_i}{E_i}\right)}, $$

कहाँ $O_i$ और $E_i$  ची-स्क्वायर परीक्षण के समान ही हैं, $\ln$  प्राकृतिक लघुगणक को दर्शाता है, और योग सभी गैर-रिक्त कोशिकाओं पर लिया जाता है। इसके अलावा, कुल देखी गई गिनती कुल अपेक्षित गिनती के बराबर होनी चाहिए:$$\sum_i O_i = \sum_i E_i = N$$कहाँ $N$  प्रेक्षणों की कुल संख्या है.

कम से कम रॉबर्ट आर. सोकल और एफ. जेम्स रोहल्फ़ की लोकप्रिय सांख्यिकी पाठ्यपुस्तक के 1981 संस्करण के बाद से जी-परीक्षणों की सिफारिश की गई है।

यह भी देखें

 * सभी मॉडल ग़लत हैं
 * विचलन (सांख्यिकी) (सामान्यीकृत रैखिक मॉडल से संबंधित)
 * ओवरफिटिंग
 * सांख्यिकीय मॉडल सत्यापन
 * थीइल-सेन अनुमानक