सामान्य डेटा

सामान्य डेटा एक श्रेणीबद्ध, सांख्यिकीय डेटा प्रकार है जहां चर में प्राकृतिक, क्रमबद्ध श्रेणियां होती हैं और श्रेणियों के बीच की दूरी ज्ञात नहीं होती है। ये डेटा क्रमिक मापदंड पर उपस्थित हैं, जो स्टैनली स्मिथ स्टीवंस या एस द्वारा वर्णित माप के चार स्तरों में से एक है। 1946 में एस. स्टीवंस क्रमिक मापदंड को रैंकिंग के कारण नाममात्र मापदंड से अलग किया जाता है। यह अंतराल मापदंड और अनुपात मापदंड से भिन्न होता है क्योंकि इसमें श्रेणी की चौड़ाई नहीं होती है जो अंतर्निहित विशेषता की समान वृद्धि का प्रतिनिधित्व करती है।

क्रमिक डेटा के उदाहरण
क्रमिक डेटा का एक प्रसिद्ध उदाहरण लाइकेर्ट स्केल है। लिकर्ट स्केल का एक उदाहरण है:

क्रमिक डेटा का विश्लेषण करने के विधि
सामान्य डेटा विश्लेषण के लिए अन्य गुणात्मक चर की तुलना में विश्लेषण के एक अलग सेट की आवश्यकता होती है। इन विधियों में शक्ति की हानि से बचने के लिए चरों के प्राकृतिक क्रम को सम्मिलित किया गया है।  क्रमिक डेटा के नमूने के माध्य की गणना करने को हतोत्साहित किया जाता है; मध्यिका या मोड सहित केंद्रीय प्रवृत्ति के अन्य उपाय समान्यत: अधिक उपयुक्त होते हैं।

सामान्य
स्टीवंस (1946) ने तर्क दिया कि, क्योंकि श्रेणियों के बीच समान दूरी की धारणा क्रमिक डेटा के लिए प्रयुक्त नहीं होती है, इसलिए क्रमिक वितरण और साधनों और मानक विचलनों के आधार पर अनुमानित डेटा के विवरण के लिए साधनों और मानक विचलनों का उपयोग उचित नहीं था। इसके अतिरिक्त नाममात्र डेटा (स्थितयों  की संख्या, मोड, आकस्मिक सहसंबंध) के लिए उपयुक्त वर्णनात्मक डेटा के अतिरिक्त माध्यिका और प्रतिशत जैसे स्थितीय उपायों का उपयोग किया जाना चाहिए।  गैर-पैरामीट्रिक डेटा को क्रमिक डेटा (जैसे, केंडल के डब्ल्यू, स्पीयरमैन के सीमा   सहसंबंध गुणांक,आदि) से जुड़े अनुमानात्मक डेटा के लिए सबसे उपयुक्त प्रक्रियाओं के रूप में प्रस्तावित किया गया है, विशेष रूप से सीमा   माप के विश्लेषण के लिए विकसित किए गए।  चूँकि  उपलब्ध सांख्यिकीय प्रक्रियाओं की बड़ी सीमा  का लाभ उठाने के लिए कुछ चेतावनियों के साथ क्रमिक डेटा के लिए पैरामीट्रिक डेटा का उपयोग स्वीकार्य हो सकता है।

एकविभिन्न आँकड़े
साधन और मानक विचलन के स्थान पर, क्रमिक डेटा के लिए उपयुक्त अविभाज्य डेटा में माध्यिका सम्मिलित है,  अन्य शतमक (जैसे चतुर्थक और दशमलव),  और चतुर्थक विचलन. क्रमिक डेटा के लिए एक-नमूना परीक्षण में कोलमोगोरोव-स्मिरनोव परीक्षण सम्मिलित है| कोलमोगोरोव-स्मिरनोव एक-नमूना परीक्षण,  वाल्ड-वुल्फोवित्ज़ परीक्षण चलाता है|एक-नमूना परीक्षण चलाता है,  और परिवर्तन-बिंदु परीक्षण सम्मिलितहैं।

द्विचर आँकड़े
टी-परीक्षणों के साथ साधनों में अंतर का परीक्षण करने के बदले, दो स्वतंत्र नमूनों से क्रमिक डेटा के वितरण में अंतर का परीक्षण मैन-व्हिटनी के साथ किया जा सकता है।   रन,    स्मिरनोव,,  और हस्ताक्षरित-रैंक   परीक्षण दो संबंधित या मिलान किए गए नमूनों के परीक्षण में साइन परीक्षण  और विलकॉक्सन हस्ताक्षरित सीमा परीक्षण सम्मिलितहैं।   सीमा के साथ विचरण का विश्लेषण  और आदेशित के लिए जॉन्केहीर परीक्षण विकल्प   स्वतंत्र नमूनों एनोवा के स्थान पर क्रमिक डेटा के साथ संचालित किया जा सकता है। दो से अधिक संबंधित नमूनों के परीक्षणों में रैंकों द्वारा भिन्नता का फ्रीडमैन दो-तरफ़ा विश्लेषण सम्मिलित है   और क्रमित  किए गए विकल्पों के लिए पेज परीक्षण। :   दो क्रमिक-स्केल वाले चर के लिए उपयुक्त सहसंबंध उपायों में सम्मिलित हैं केंडल का ताऊ,   गामा, :   rs  और dyx/dxy.

प्रतिगमन अनुप्रयोग
सामान्य डेटा को एक मात्रात्मक चर के रूप में माना जा सकता है। संभार तन्त्र परावर्तन में, समीकरण

\operatorname{logit}[P(Y=1)] = \alpha + \beta_1 c + \beta_2 x $$ मॉडल है और सी श्रेणीबद्ध के निर्दिष्ट स्तरों पर ले जाता है मापदंड प्रतिगमन विश्लेषण में परिणाम (आश्रित चर) जो क्रमसूचक चर होते हैं, उनका अनुमान क्रमवाचक प्रतिगमन के एक प्रकार का उपयोग करके लगाया जा सकता है, जैसे कि क्रमित  किए गए लॉगिट या क्रमित  किए गए प्रोबिट है।

एकाधिक प्रतिगमन/सहसंबंध विश्लेषण में, क्रमिक डेटा को पावर बहुपदों का उपयोग करके और स्कोर और सीमा के सामान्यीकरण के माध्यम से समायोजित किया जा सकता है।

रैखिक रुझान
रैखिक रुझानों का उपयोग समान्यत: आकस्मिक तालिकाओं में क्रमिक डेटा और अन्य श्रेणीबद्ध चर के बीच संबंध खोजने के लिए भी किया जाता है। उन चरों के बीच एक सहसंबंध r पाया जाता है जहां r -1 और 1 के बीच होता है प्रवृत्ति का परीक्षण करने के लिए एक परीक्षण आँकड़ा है:

M^2 = (n-1)r^2 $$ इसका उपयोग वहां किया जाता है जहां n नमूना आकार है।

R को $$ u_1 \leq u_2 \leq ... \leq u_I $$ को पंक्ति स्कोर और $$ v_1 \leq v_2 \leq ... \leq v_I $$ को स्तम्भ  स्कोर मानकर पाया जा सकता है। मान लीजिए कि $$ \bar u \ = \sum_i u_i p_{i+} $$ पंक्ति स्कोर का माध्य है जबकि $$ \bar v \ = \sum_j v_j p_{j+}. $$ तो $$ p_{i+} $$ सीमांत पंक्ति संभावना है और $$ p_{+j} $$ सीमांत स्तंभ संभावना है। R की गणना इस प्रकार की जाती है:

r = \frac{ \sum_{i,j} \left (u_i - \bar u\ \right ) \left (v_j - \bar v\ \right )p_{ij}} {\sqrt{ \left \lbrack \sum_i ( u_i - \bar u\ \right )^2p_{i+} \rbrack \lbrack \sum_j ( v_j - \bar v\ )^2p_{+j} \rbrack }} $$

वर्गीकरण विधियाँ
क्रमिक डेटा के लिए वर्गीकरण विधियाँ भी विकसित की गई हैं। डेटा को अलग-अलग श्रेणियों में विभाजित किया गया है जिससे प्रत्येक अवलोकन दूसरों के समान होता है। वर्गीकरण परिणामों को अधिकतम करने के लिए प्रत्येक समूह में फैलाव को मापा और न्यूनतम किया जाता है। फैलाव कार्य का उपयोग सूचना सिद्धांत में किया जाता है।

क्रमिक डेटा के लिए सांख्यिकीय मॉडल
ऐसे कई अलग-अलग मॉडल हैं जिनका उपयोग क्रमिक डेटा की संरचना का वर्णन करने के लिए किया जा सकता है। मॉडल के चार प्रमुख वर्गों का वर्णन नीचे किया गया है, प्रत्येक को यादृच्छिक चर $$Y$$ के लिए परिभाषित किया गया है, जिसका स्तर $$k = 1, 2, \dots, q$$ द्वारा अनुक्रमित है।

ध्यान दें कि नीचे दी गई मॉडल परिभाषाओं में, $$\mu_k$$ और $$\mathbf{\beta}$$ के मान डेटा के समान सेट के लिए सभी मॉडलों के लिए समान नहीं होंगे, किंतु विभिन्न मॉडलों की संरचना की तुलना करने के लिए संकेतन का उपयोग किया जाता है।

आनुपातिक अंतर मॉडल
क्रमिक डेटा के लिए सबसे अधिक उपयोग किया जाने वाला मॉडल आनुपातिक बाधा मॉडल है, जिसे $$ \log\left[\frac{\Pr(Y \leq k)}{Pr(Y > k)}\right] = \log\left[\frac{\Pr(Y \leq k)}{1-\Pr(Y \leq k)}\right] = \mu_k + \mathbf{\beta}^T\mathbf{x} $$ द्वारा परिभाषित किया गया है जहां पैरामीटर $$\mu_k$$ क्रमिक डेटा के आधार वितरण का वर्णन करते हैं, $$\mathbf{x}$$ सहसंयोजक हैं और $$\mathbf{\beta}$$ सहसंयोजकों के प्रभावों का वर्णन करने वाले गुणांक हैं।

इस मॉडल को $$\mu_k + \mathbf{\beta}^T\mathbf{x}$$ के अतिरिक्त $$\mu_k + \mathbf{\beta}^T\mathbf{x}$$ का उपयोग करके मॉडल को परिभाषित करके सामान्यीकृत किया जा सकता है, और यह मॉडल को नाममात्र डेटा (जिसमें श्रेणियों का कोई प्राकृतिक क्रम नहीं है) के साथ-साथ क्रमिक डेटा के लिए उपयुक्त बना देगा। चूँकि यह सामान्यीकरण मॉडल को डेटा में फिट करना अधिक कठिन बना सकता है।

बेसलाइन श्रेणी लॉगिट मॉडल
बेसलाइन श्रेणी मॉडल को $$ \log\left[\frac{\Pr(Y = k)}{\Pr(Y = 1)}\right] = \mu_k + \mathbf{\beta}_k^T\mathbf{x} $$ द्वारा परिभाषित किया गया है।

यह मॉडल श्रेणियों पर कोई आदेश प्रयुक्त नहीं करता है और इसलिए इसे नाममात्र डेटा के साथ-साथ क्रमिक डेटा पर भी प्रयुक्त  किया जा सकता है।

क्रमित किया गया स्टीरियोटाइप मॉडल
क्रमित किए गए स्टीरियोटाइप मॉडल को $$ \log\left[\frac{\Pr(Y = k)}{\Pr(Y = 1)}\right] = \mu_k + \phi_k\mathbf{\beta}^T\mathbf{x} $$ द्वारा परिभाषित किया गया है जहां स्कोर पैरामीटर इस तरह सीमित हैं कि $$0=\phi_1 \leq \phi_2 \leq \dots \leq \phi_q=1$$।

यह बेसलाइन श्रेणी लॉगिट मॉडल $$\phi_k\mathbf{\beta}$$ की तुलना में अधिक मितव्ययी और अधिक विशिष्ट मॉडल है, जिसे $$\mathbf{\beta}_k$$ के समान माना जा सकता है।

गैर-आदेशित स्टीरियोटाइप मॉडल का रूप आदेशित स्टीरियोटाइप मॉडल के समान होता है, किंतु $$\phi_k$$ पर लगाए गए आदेश के बिना इस मॉडल को नाममात्र डेटा पर प्रयुक्त किया जा सकता है।

ध्यान दें कि फिट किए गए स्कोर, $$\hat{\phi}_k$$ दर्शाते हैं कि $$Y$$ के विभिन्न स्तरों के बीच अंतर करना कितना आसान है। यदि $$\hat{\phi}_k \approx \hat{\phi}_{k-1}$$ तो यह निरुपित करता है कि सहसंयोजक $$\mathbf{x}$$ के लिए डेटा का वर्तमान सेट अधिक जानकारी प्रदान नहीं करता है स्तर k और k-1 के बीच अंतर करने के लिए, किंतु इसका अर्थ यह नहीं है कि वास्तविक मान k और k-1 बहुत दूर हैं। और यदि सहसंयोजकों के मान बदलते हैं, तो उस नए डेटा के लिए फिट किए गए स्कोर $$\hat{\phi}_k$$ और $$\hat{\phi}_{k-1}$$ बहुत दूर हो सकते हैं।

आसन्न श्रेणियां लॉगिट मॉडल
आसन्न श्रेणियों के मॉडल को $$ \log\left[\frac{\Pr(Y = k)}{\Pr(Y = k+1)}\right] = \mu_k + \mathbf{\beta}_k^T\mathbf{x} $$ द्वारा परिभाषित किया गया है, चूँकि सबसे सामान्य रूप, जिसे एग्रेस्टी (2010) में "आनुपातिक विषम रूप" के रूप में संदर्भित किया गया है, $$ \log\left[\frac{\Pr(Y = k)}{\Pr(Y = k+1)}\right] = \mu_k + \mathbf{\beta}^T\mathbf{x} $$ द्वारा परिभाषित किया गया है।

यह मॉडल केवल क्रमिक डेटा पर प्रयुक्त किया जा सकता है, क्योंकि एक श्रेणी से अगली श्रेणी में बदलाव की संभावनाओं को मॉडलिंग करने से तात्पर्य है कि उन श्रेणियों का क्रम उपस्थित है।

आसन्न श्रेणियों के लॉगिट मॉडल को बेसलाइन श्रेणी के लॉगिट मॉडल के एक विशेष स्थिति के रूप में माना जा सकता है, जहां $$\mathbf{\beta}_k = \mathbf{\beta}(k-1)$$आसन्न श्रेणियों के लॉगिट मॉडल को क्रम किए गए स्टीरियोटाइप मॉडल के एक विशेष स्थिति के रूप में भी सोचा जा सकता है, जहां $$\phi_k \propto k-1$$ अथार्त $$\phi_k$$ के बीच की दूरी डेटा के आधार पर अनुमान लगाने के अतिरिक्त पहले से परिभाषित की जाती है।

मॉडलों के बीच तुलना
आनुपातिक अंतर मॉडल की संरचना अन्य तीन मॉडलों से बहुत अलग है, और एक अलग अंतर्निहित अर्थ भी है। ध्यान दें कि आनुपातिक अंतर मॉडल में संदर्भ श्रेणी का आकार k के साथ भिन्न होता है, क्योंकि $$Y \leq k$$ की तुलना $$Y > k$$ से की जाती है, जबकि अन्य मॉडल में संदर्भ श्रेणी का आकार निश्चित रहता है, क्योंकि $$Y=k$$ की तुलना $$Y=1$$ या $$Y=k+1$$. से की जाती है।

विभिन्न लिंक कार्य
सभी मॉडलों के भिन्न रूप हैं जो विभिन्न लिंक फ़ंक्शंस का उपयोग करते हैं जैसे कि प्रोबिट लिंक या पूरक लॉग-लॉग लिंक है।

विज़ुअलाइज़ेशन और प्रदर्शन
सामान्य डेटा को कई अलग-अलग विधियों से देखा जा सकता है। सामान्य विज़ुअलाइज़ेशन बार चार्ट या पाई चार्ट हैं। तालिका (सूचना) क्रमिक डेटा और आवृत्तियों को प्रदर्शित करने के लिए भी उपयोगी हो सकती है। मोज़ेक कथानक का उपयोग क्रमिक चर और नाममात्र या क्रमिक चर के बीच संबंध दिखाने के लिए किया जा सकता है। एक बम्प चार्ट - एक लाइन चार्ट जो एक समय बिंदु से दूसरे बिंदु तक वस्तुओं की सापेक्ष रैंकिंग दिखाता है - क्रमिक डेटा के लिए भी उपयुक्त है।

डेटा की क्रमबद्ध प्रकृति को दर्शाने के लिए रंग या ग्रेस्केल ग्रेडेशन का उपयोग किया जा सकता है। एकल-दिशा मापदंड, जैसे कि आय श्रेणियां, को एक बार चार्ट के साथ दर्शाया जा सकता है जहां एकल रंग की बढ़ती (या घटती) संतृप्ति या हल्कापन उच्च (या निम्न) आय को निरुपित करता है। दोहरे दिशा मापदंड पर मापे गए चर का क्रमिक वितरण, जैसे कि लिकर्ट स्केल, को स्टैक्ड बार चार्ट में रंग के साथ चित्रित किया जा सकता है। मध्य (शून्य या तटस्थ) बिंदु के लिए एक तटस्थ रंग (सफेद या ग्रे) का उपयोग किया जा सकता है, मध्य बिंदु से विपरीत दिशाओं में विपरीत रंगों का उपयोग किया जा सकता है, जहां रंगों की बढ़ती संतृप्ति या अंधेरा मध्य बिंदु से बढ़ती दूरी पर श्रेणियों का संकेत दे सकता है। कोरोप्लेथ मानचित्र क्रमिक डेटा प्रदर्शित करने के लिए रंग या ग्रेस्केल शेडिंग का भी उपयोग करते हैं।

अनुप्रयोग
क्रमिक डेटा का उपयोग अनुसंधान के अधिकांश क्षेत्रों में पाया जा सकता है जहां श्रेणीबद्ध डेटा उत्पन्न होता है। सेटिंग्स जहां क्रमिक डेटा अधिकांशत: एकत्र किया जाता है, उनमें सामाजिक और व्यवहार विज्ञान और सरकारी और व्यावसायिक सेटिंग्स सम्मिलित होती हैं जहां अवलोकन, परीक्षण या प्रश्नावली द्वारा व्यक्तियों से माप एकत्र किए जाते हैं। क्रमिक डेटा के संग्रह के लिए कुछ सामान्य संदर्भों में सर्वेक्षण (मानव अनुसंधान) सम्मिलित  हैं;  और बुद्धि लब्धि, परीक्षण (मूल्यांकन), व्यक्तित्व परीक्षण परीक्षण और निर्णय लिया जाता है।

सांख्यिकीय प्रभुत्व के माप के रूप में क्रमिक डेटा का उपयोग करके 'प्रभाव आकार' (क्लिफ के डेल्टा डी) की गणना की पक्षसमर्थन की गई है।

यह भी देखें

 * श्रेणीबद्ध डेटा के विश्लेषण की सूची
 * सामान्य प्राथमिकता दृष्टिकोण
 * क्रमसूचक संख्या
 * सामान्य स्थान