गुडनेस ऑफ़ फिट

एक सांख्यिकीय मॉडल की फिट की अच्छाई बताती है कि यह अवलोकनों के एक समुच्चय पर कितनी अच्छी तरह फिट बैठता है। फिट की अच्छाई के उपाय सामान्यतः देखे गए मान और प्रश्न में मॉडल के अंतर्गत अपेक्षित मानों के बीच विसंगति को संक्षेप में प्रस्तुत करते हैं। ऐसे उपायों का उपयोग सांख्यिकीय परिकल्पना परीक्षण में किया जा सकता है, उदाहरण के लिए आँकड़ों में त्रुटियों और अवशेषों की सामान्यता परीक्षण के लिए, यह परीक्षण करने के लिए कि क्या दो प्रारूप समान वितरण से लिए गए हैं (कोलमोगोरोव-स्मिरनोव परीक्षण देखें), या क्या परिणाम आवृत्तियाँ एक निर्दिष्ट वितरण का पालन करती हैं (पियर्सन का ची-स्क्वायर परीक्षण देखें)। प्रसरण के विश्लेषण में, उन घटकों में से एक जिसमें प्रसरण को विभाजित किया गया है, वर्गों का फिट न होने वाला योग हो सकता है।

वितरण के फ़िट
यह आकलन करने में कि क्या कोई दिया गया वितरण डेटा-समुच्चय के लिए उपयुक्त है, निम्नलिखित सांख्यिकीय परिकल्पना परीक्षण और उनके फिट के अंतर्निहित उपायों का उपयोग किया जा सकता है:
 * बायेसियन सूचना मानदंड
 * कोलमोगोरोव-स्मिरनोव परीक्षण
 * क्रैमर-वॉन मिज़ मानदंड
 * एंडरसन-डार्लिंग परीक्षण
 * बर्क-जोन्स परीक्षण
 * शापिरो-विल्क परीक्षण
 * ची-वर्ग परीक्षण
 * अकैके सूचना मानदंड
 * होस्मर-लेमेशो परीक्षण
 * कुइपर का परीक्षण
 * कर्नेलाइज़्ड स्टीन विसंगति
 * झांग का ZK, ZC और ZA परीक्षण
 * मोरन परीक्षण
 * घनत्व आधारित अनुभवजन्य संभावना अनुपात परीक्षण

प्रतिगमन विश्लेषण
प्रतिगमन विश्लेषण में, विशेष रूप से प्रतिगमन सत्यापन में, निम्नलिखित विषय फिट की अच्छाई से संबंधित हैं:


 * निर्धारण का गुणांक (फिट की अच्छाई का आर-वर्ग माप);
 * वर्गों के योग का अभाव;
 * मैलोज़ का सीपी मानदंड
 * पूर्वानुमान त्रुटि
 * कम ची-स्क्वायर

श्रेणीबद्ध डेटा
निम्नलिखित उदाहरण हैं जो श्रेणीबद्ध डेटा के संदर्भ में उत्पन्न होते हैं।

पियर्सन का ची-स्क्वायर परीक्षण
पियर्सन का ची-स्क्वायर परीक्षण फिट की अच्छाई के माप का उपयोग करता है जो प्रेक्षित और अपेक्षित मूल्य आवृत्तियों (अर्थात, अवलोकनों की गिनती) के बीच अंतर का योग है, प्रत्येक वर्ग और अनुमानों से विभाजित होता है:

$$ \chi^2 = \sum_{i=1}^n {\frac{(O_i - E_i)}{E_i}^2}$$ जहाँ:
 * Oi = bin i के लिए एक प्रेक्षित गणना
 * Ei = bin i के लिए एक अपेक्षित गिनती, जो शून्य परिकल्पना द्वारा बताई गई है।

अपेक्षित आवृत्ति की गणना इस प्रकार की जाती है: $$E_i \, = \, \bigg( F(Y_u) \, - \, F(Y_l) \bigg) \, N$$ जहाँ:
 * F = परीक्षण किए जा रहे संभाव्यता वितरण के लिए संचयी वितरण फ़ंक्शन।
 * Yu= कक्षा I के लिए ऊपरी सीमा,
 * Yl= कक्षा I के लिए निचली सीमा, और
 * N = प्रारूप आकार

फिट की अच्छाई निर्धारित करने के लिए परिणामी मान की तुलना ची-स्क्वायर वितरण से की जा सकती है। ची-स्क्वायर वितरण में (k - c) स्वतंत्रता की डिग्री है, जहां k गैर-रिक्त खंडों की संख्या है और c वितरण प्लस वन के लिए अनुमानित मापदंडों की संख्या है। उदाहरण के लिए, 3-पैरामीटर वेइबुल वितरण के लिए, c = 4 होगा।

उदाहरण: पुरुषों और महिलाओं की समान आवृत्तियाँ
उदाहरण के लिए, इस परिकल्पना का परीक्षण करने के लिए कि 100 लोगों का एक यादृच्छिक प्रारूप किसी जनसंख्या से लिया गया है जिसमें पुरुषों और महिलाओं की आवृत्ति समान है, पुरुषों और महिलाओं की देखी गई संख्या की तुलना 50 पुरुषों और 50 महिलाओं की सैद्धांतिक आवृत्तियों से की जाएगी। यदि प्रारूप में 44 पुरुष और 56 महिलाएँ थीं, तो

$$ \chi^2 = {(44 - 50)^2 \over 50} + {(56 - 50)^2 \over 50} = 1.44$$ यदि शून्य परिकल्पना सत्य है (अर्थात, पुरुषों और महिलाओं को प्रारूप में समान संभावना के साथ चुना जाता है), तो परीक्षण आँकड़ा स्वतंत्रता की एक डिग्री के साथ ची-स्क्वायर वितरण से लिया जाएगा। यद्यपि कोई स्वतंत्रता की दो डिग्री (पुरुषों और महिलाओं के लिए एक-एक) की उम्मीद कर सकता है, हमें यह ध्यान में रखना चाहिए कि पुरुषों और महिलाओं की कुल संख्या सीमित है (100), और इस प्रकार स्वतंत्रता की केवल एक डिग्री है (2 − 1)। दूसरे शब्दों में, यदि पुरुष गणना ज्ञात है तो महिला गणना निर्धारित की जाती है, और यदि महिला गणना ज्ञात है तों पुरुषों की संख्या निर्धारित की जा सकती है।

1 डिग्री की स्वतंत्रता के लिए चाइ-स्क्वायर वितरण की परामर्श के अनुसार, यदि पुरुष और महिलाएँ जनसंख्या में समान संख्या में हैं, तो $$\chi^2=1.44$$ से अधिक अंतर देखने की कुल संभावना लगभग 0.23 है। यह संभावना सामान्यतः सांख्यिकीय महत्वपूर्णता के लिए स्वीकृत मानक मापदंडों (0.001-0.05 की संभावना) से ऊपर है, इसलिए सामान्य रूप से हम निराकरण करते हैं कि पुरुषों की संख्या और महिलाओं की संख्या में कोई अंतर नहीं है अर्थात् हम एक 50/50 पुरुष/महिला अनुपात के लिए हमारा प्रारूप उस सीमा के भीतर मानेंगे जो हम आशा करते हैं।

इस धारणा पर ध्यान दें कि जिस तंत्र ने प्रारूप तैयार किया है वह यादृच्छिक है, समान संभावना के साथ स्वतंत्र यादृच्छिक चयन के अर्थ में, यहां पुरुषों और महिलाओं दोनों के लिए 0.5 है। यदि, उदाहरण के लिए, चुने गए 44 पुरुषों में से प्रत्येक एक पुरुष मित्र लाया, और 56 महिलाओं में से प्रत्येक एक महिला मित्र लाई, तो प्रत्येक ${(O_i - E_i)}^2$ जबकि प्रत्येक में 4 गुना वृद्धि होगी $E_i$  2 गुना बढ़ जाएगी। सांख्यिकी का मान दोगुना होकर 2.88 हो जाएगा। इस अंतर्निहित तंत्र को जानते हुए, हमें निश्चित रूप से जोड़ियों की गिनती करनी चाहिए। सामान्यतः, तंत्र, यदि रक्षात्मक रूप से यादृच्छिक नहीं है, तो ज्ञात नहीं होगा। तदनुसार, जिस वितरण को परीक्षण आँकड़ा संदर्भित किया जाना चाहिए, वह ची-स्क्वायर से बहुत भिन्न हो सकता है।

द्विपद स्थिति
द्विपद प्रयोग स्वतंत्र परीक्षणों का एक क्रम है जिसमें परीक्षणों के परिणामस्वरूप दो परिणामों में से एक हो सकता है, सफलता या विफलता। ऐसे n परीक्षण हैं जिनमें से प्रत्येक की सफलता की संभावना है, जिसे p द्वारा दर्शाया गया है। बशर्ते कि npi ≫ 1 प्रत्येक i के लिए 1 हो (जहां i = 1, 2, ...,k), फिर

$$ \chi^2 = \sum_{i=1}^{k} {\frac{(N_i - np_i)^2}{np_i}} = \sum_{\mathrm{all\ cells}}^{} {\frac{(\mathrm{O} - \mathrm{E})^2}{\mathrm{E}}}.$$ इसमें लगभग k-1 डिग्री स्वतंत्रता के साथ एक ची-स्क्वायर वितरण है। तथ्य यह है कि स्वतंत्रता की k-1 डिग्री $ \sum N_i=n$ प्रतिबंध का परिणाम है। हम जानते हैं कि k अवलोकित खंड गणनाएँ हैं, यद्यपि, एक बार k − 1 ज्ञात हो जाने पर, शेष को विशिष्ट रूप से निर्धारित किया जाता है। मूल रूप से, हम कह सकतें है की केवल k − 1 स्वतंत्र रूप से निर्धारित खंड गणना होती है, इस प्रकार k − 1 डिग्री की स्वतंत्रता होती है।

जी-परीक्षण
जी-परीक्षण सांख्यिकीय महत्व के संभावना अनुपात परीक्षण हैं जिनका उपयोग उन स्थितियों में तीव्रता से किया जा रहा है जहां पहले पियर्सन के ची-स्क्वायर परीक्षणों को प्रस्तावित किया गया था।

G का सामान्य सूत्र है
 * $$ G = 2\sum_{i} {O_{i} \cdot \ln\left(\frac{O_i}{E_i}\right)}, $$

जहाँ $O_i$ और $E_i$  ची-स्क्वायर परीक्षण के समान ही हैं, $\ln$  प्राकृतिक लघुगणक को दर्शाता है, और योग सभी गैर-रिक्त खंडों पर लिया जाता है। इसके अतिरिक्त, कुल देखी गई गिनती कुल अपेक्षित गिनती के बराबर होनी चाहिए:$$\sum_i O_i = \sum_i E_i = N$$जहाँ $N$  प्रेक्षणों की कुल संख्या है.

रॉबर्ट आर. सोकल और एफ. जेम्स रोहल्फ़ की लोकप्रिय सांख्यिकी पाठ्यपुस्तक के कम से कम 1981 संस्करण के बाद से ही जी-परीक्षणों को प्रस्तावित किया गया है।

यह भी देखें

 * सभी मॉडल ग़लत हैं
 * विचलन (सांख्यिकी) (सामान्यीकृत रैखिक मॉडल से संबंधित)
 * ओवरफिटिंग
 * सांख्यिकीय मॉडल सत्यापन
 * थीइल-सेन अनुमानक