सामान्य डेटा

सामान्य डेटा एक श्रेणीबद्ध, सांख्यिकीय डेटा प्रकार है जहां चर में प्राकृतिक, क्रमबद्ध श्रेणियां होती हैं और श्रेणियों के बीच की दूरी ज्ञात नहीं होती है। ये डेटा क्रमिक पैमाने पर मौजूद हैं, जो स्टैनली स्मिथ स्टीवंस|एस द्वारा वर्णित माप के चार स्तरों में से एक है। 1946 में एस. स्टीवंस। क्रमिक पैमाने को रैंकिंग के कारण नाममात्र पैमाने से अलग किया जाता है। यह अंतराल पैमाने और अनुपात पैमाने से भिन्न होता है क्योंकि इसमें श्रेणी की चौड़ाई नहीं होती है जो अंतर्निहित विशेषता की समान वृद्धि का प्रतिनिधित्व करती है।

क्रमिक डेटा के उदाहरण
क्रमिक डेटा का एक प्रसिद्ध उदाहरण लाइकेर्ट स्केल  है। लिकर्ट स्केल का एक उदाहरण है:

क्रमिक डेटा का विश्लेषण करने के तरीके
सामान्य डेटा विश्लेषण के लिए अन्य गुणात्मक चर की तुलना में विश्लेषण के एक अलग सेट की आवश्यकता होती है। इन विधियों में शक्ति की हानि से बचने के लिए चरों के प्राकृतिक क्रम को शामिल किया गया है। क्रमिक डेटा के नमूने के माध्य की गणना करने को हतोत्साहित किया जाता है; मध्यिका या मोड सहित केंद्रीय प्रवृत्ति के अन्य उपाय आम तौर पर अधिक उपयुक्त होते हैं।

सामान्य
स्टीवंस (1946) ने तर्क दिया कि, क्योंकि श्रेणियों के बीच समान दूरी की धारणा क्रमिक डेटा के लिए लागू नहीं होती है, इसलिए क्रमिक वितरण और साधनों और मानक विचलनों के आधार पर अनुमानित आंकड़ों के विवरण के लिए साधनों और मानक विचलनों का उपयोग उचित नहीं था। इसके बजाय, नाममात्र डेटा (मामलों की संख्या, मोड, आकस्मिक सहसंबंध) के लिए उपयुक्त वर्णनात्मक आंकड़ों के अलावा, माध्यिका और प्रतिशत जैसे स्थितीय उपायों का उपयोग किया जाना चाहिए। गैर-पैरामीट्रिक आँकड़ों को क्रमिक डेटा (जैसे, केंडल के डब्ल्यू, स्पीयरमैन के रैंक सहसंबंध गुणांक, आदि) से जुड़े अनुमानात्मक आँकड़ों के लिए सबसे उपयुक्त प्रक्रियाओं के रूप में प्रस्तावित किया गया है, विशेष रूप से रैंक माप के विश्लेषण के लिए विकसित किए गए।  हालाँकि, उपलब्ध सांख्यिकीय प्रक्रियाओं की बड़ी रेंज का लाभ उठाने के लिए कुछ चेतावनियों के साथ क्रमिक डेटा के लिए पैरामीट्रिक आंकड़ों का उपयोग स्वीकार्य हो सकता है।

एकविभिन्न आँकड़े
साधन और मानक विचलन के स्थान पर, क्रमिक डेटा के लिए उपयुक्त अविभाज्य आँकड़ों में माध्यिका शामिल है, अन्य शतमक (जैसे चतुर्थक और दशमलव),  और चतुर्थक विचलन. क्रमिक डेटा के लिए एक-नमूना परीक्षण में कोलमोगोरोव-स्मिरनोव परीक्षण शामिल है|कोलमोगोरोव-स्मिरनोव एक-नमूना परीक्षण, वाल्ड-वुल्फोवित्ज़ परीक्षण चलाता है|एक-नमूना परीक्षण चलाता है,  और परिवर्तन-बिंदु परीक्षण।

द्विचर आँकड़े
छात्र के टी-टेस्ट|टी-टेस्ट के साथ साधनों में अंतर का परीक्षण करने के बदले, दो स्वतंत्र नमूनों से क्रमिक डेटा के वितरण में अंतर का परीक्षण मैन-व्हिटनी यू परीक्षण|मैन-व्हिटनी के साथ किया जा सकता है। वाल्ड-वुल्फोवित्ज़ परीक्षण चलाता है,  कोलमोगोरोव-स्मिरनोव परीक्षण,  और विलकॉक्सन हस्ताक्षरित-रैंक परीक्षण|हस्ताक्षरित-रैंक  परीक्षण. दो संबंधित या मिलान किए गए नमूनों के परीक्षण में हस्ताक्षर परीक्षण  शामिल है  और विलकॉक्सन हस्ताक्षरित-रैंक परीक्षण।  क्रुस्कल-वालिस विचरण का एकतरफ़ा विश्लेषण  और जोन्कीयर का रुझान परीक्षण  स्वतंत्र नमूनों के स्थान पर क्रमिक डेटा के साथ विचरण का विश्लेषण किया जा सकता है। दो से अधिक संबंधित नमूनों के परीक्षण में फ्रीडमैन परीक्षण शामिल है|फ्रीडमैन रैंकों द्वारा भिन्नता का दो-तरफा विश्लेषण  और पेज का रुझान परीक्षण।  दो क्रमिक-स्केल वाले चरों के लिए उपयुक्त सहसंबंध उपायों में केंडल रैंक सहसंबंध गुणांक शामिल है|केंडल का ताऊ,  गुडमैन और क्रुस्कल का गामा,  स्पीयरमैन का रैंक सहसंबंध गुणांक|rs,  और सोमरस डी|डीyx/डीxy.

प्रतिगमन अनुप्रयोग
सामान्य डेटा को एक मात्रात्मक चर के रूप में माना जा सकता है। संभार तन्त्र परावर्तन  में, समीकरण

\operatorname{logit}[P(Y=1)] = \alpha + \beta_1 c + \beta_2 x $$ मॉडल है और सी श्रेणीबद्ध पैमाने के निर्दिष्ट स्तरों पर ले जाता है। प्रतिगमन विश्लेषण में, परिणाम (आश्रित चर) जो क्रमसूचक चर हैं, क्रमसूचक प्रतिगमन के एक प्रकार का उपयोग करके भविष्यवाणी की जा सकती है, जैसे कि ऑर्डर किए गए लॉगिट या ऑर्डर किए गए प्रोबिट।

एकाधिक प्रतिगमन/सहसंबंध विश्लेषण में, क्रमिक डेटा को पावर बहुपदों का उपयोग करके और स्कोर और रैंक के सामान्यीकरण के माध्यम से समायोजित किया जा सकता है।

रैखिक रुझान
रैखिक रुझानों का उपयोग आमतौर पर आकस्मिक तालिकाओं में क्रमिक डेटा और अन्य श्रेणीबद्ध चर के बीच संबंध खोजने के लिए भी किया जाता है। उन चरों के बीच एक सहसंबंध r पाया जाता है जहां r -1 और 1 के बीच होता है। प्रवृत्ति का परीक्षण करने के लिए, एक परीक्षण आँकड़ा:

M^2 = (n-1)r^2 $$ इसका उपयोग वहां किया जाता है जहां n नमूना आकार है।

आर देकर पाया जा सकता है $$ u_1 \leq u_2 \leq ... \leq u_I $$ पंक्ति स्कोर हो और $$ v_1 \leq v_2 \leq ... \leq v_I $$ कॉलम स्कोर हो. होने देना $$ \bar u \ = \sum_i u_i p_{i+} $$ जबकि पंक्ति स्कोर का माध्य हो $$ \bar v \ = \sum_j v_j p_{j+}. $$. तब $$ p_{i+} $$ सीमांत पंक्ति संभावना है और $$ p_{+j} $$ सीमांत स्तंभ संभावना है. आर की गणना इस प्रकार की जाती है:

r = \frac{ \sum_{i,j} \left (u_i - \bar u\ \right ) \left (v_j - \bar v\ \right )p_{ij}} {\sqrt{ \left \lbrack \sum_i ( u_i - \bar u\ \right )^2p_{i+} \rbrack \lbrack \sum_j ( v_j - \bar v\ )^2p_{+j} \rbrack }} $$

वर्गीकरण विधियाँ
क्रमिक डेटा के लिए वर्गीकरण विधियाँ भी विकसित की गई हैं। डेटा को अलग-अलग श्रेणियों में विभाजित किया गया है ताकि प्रत्येक अवलोकन दूसरों के समान हो। वर्गीकरण परिणामों को अधिकतम करने के लिए प्रत्येक समूह में फैलाव को मापा और न्यूनतम किया जाता है। फैलाव फ़ंक्शन का उपयोग सूचना सिद्धांत में किया जाता है।

क्रमिक डेटा के लिए सांख्यिकीय मॉडल
ऐसे कई अलग-अलग मॉडल हैं जिनका उपयोग क्रमिक डेटा की संरचना का वर्णन करने के लिए किया जा सकता है। मॉडल के चार प्रमुख वर्गों का वर्णन नीचे किया गया है, प्रत्येक को एक यादृच्छिक चर के लिए परिभाषित किया गया है $$Y$$, द्वारा अनुक्रमित स्तरों के साथ $$k = 1, 2, \dots, q$$.

ध्यान दें कि नीचे दी गई मॉडल परिभाषाओं में, के मान $$\mu_k$$ और $$\mathbf{\beta}$$ डेटा के एक ही सेट के लिए सभी मॉडलों के लिए समान नहीं होगा, लेकिन विभिन्न मॉडलों की संरचना की तुलना करने के लिए नोटेशन का उपयोग किया जाता है।

आनुपातिक अंतर मॉडल
क्रमिक डेटा के लिए सबसे अधिक इस्तेमाल किया जाने वाला मॉडल आनुपातिक बाधा मॉडल है, जिसे परिभाषित किया गया है $$ \log\left[\frac{\Pr(Y \leq k)}{Pr(Y > k)}\right] = \log\left[\frac{\Pr(Y \leq k)}{1-\Pr(Y \leq k)}\right] = \mu_k + \mathbf{\beta}^T\mathbf{x} $$ जहां पैरामीटर $$\mu_k$$ क्रमसूचक डेटा के आधार वितरण का वर्णन करें, $$\mathbf{x}$$ सहसंयोजक हैं और $$\mathbf{\beta}$$ सहसंयोजकों के प्रभावों का वर्णन करने वाले गुणांक हैं।

इस मॉडल का उपयोग मॉडल को परिभाषित करके सामान्यीकृत किया जा सकता है $$\mu_k + \mathbf{\beta}_k^T\mathbf{x}$$ के बजाय $$\mu_k + \mathbf{\beta}^T\mathbf{x}$$, और यह मॉडल को नाममात्र डेटा (जिसमें श्रेणियों का कोई प्राकृतिक क्रम नहीं है) के साथ-साथ क्रमिक डेटा के लिए उपयुक्त बना देगा। हालाँकि, यह सामान्यीकरण मॉडल को डेटा में फिट करना अधिक कठिन बना सकता है।

बेसलाइन श्रेणी लॉगिट मॉडल
बेसलाइन श्रेणी मॉडल द्वारा परिभाषित किया गया है $$ \log\left[\frac{\Pr(Y = k)}{\Pr(Y = 1)}\right] = \mu_k + \mathbf{\beta}_k^T\mathbf{x} $$ यह मॉडल श्रेणियों पर कोई आदेश लागू नहीं करता है और इसलिए इसे नाममात्र डेटा के साथ-साथ क्रमिक डेटा पर भी लागू किया जा सकता है।

ऑर्डर किया गया स्टीरियोटाइप मॉडल
ऑर्डर किए गए स्टीरियोटाइप मॉडल को परिभाषित किया गया है $$ \log\left[\frac{\Pr(Y = k)}{\Pr(Y = 1)}\right] = \mu_k + \phi_k\mathbf{\beta}^T\mathbf{x} $$ जहां स्कोर पैरामीटर इस प्रकार सीमित हैं $$0=\phi_1 \leq \phi_2 \leq \dots \leq \phi_q=1$$.

यह बेसलाइन श्रेणी लॉगिट मॉडल की तुलना में अधिक उदार और अधिक विशिष्ट मॉडल है: $$\phi_k\mathbf{\beta}$$ के समान ही सोचा जा सकता है $$\mathbf{\beta}_k$$.

गैर-आदेशित स्टीरियोटाइप मॉडल का रूप आदेशित स्टीरियोटाइप मॉडल के समान होता है, लेकिन बिना किसी आदेश के $$\phi_k$$. इस मॉडल को नाममात्र डेटा पर लागू किया जा सकता है।

ध्यान दें कि फिट किए गए स्कोर, $$\hat{\phi}_k$$, इंगित करें कि विभिन्न स्तरों के बीच अंतर करना कितना आसान है $$Y$$. अगर $$\hat{\phi}_k \approx \hat{\phi}_{k-1}$$ तो यह इंगित करता है कि सहसंयोजकों के लिए डेटा का वर्तमान सेट $$\mathbf{x}$$ स्तरों के बीच अंतर करने के लिए अधिक जानकारी प्रदान न करें $$k$$ और $$k-1$$, लेकिन इसका मतलब यह नहीं है कि वास्तविक मूल्य $$k$$ और $$k-1$$ बहुत दूर हैं. और यदि सहसंयोजकों के मान बदलते हैं, तो उस नए डेटा के लिए फिट किए गए स्कोर $$\hat{\phi}_k$$ और $$\hat{\phi}_{k-1}$$ फिर बहुत दूर हो सकते हैं.

आसन्न श्रेणियां लॉगिट मॉडल
आसन्न श्रेणियों के मॉडल को परिभाषित किया गया है $$ \log\left[\frac{\Pr(Y = k)}{\Pr(Y = k+1)}\right] = \mu_k + \mathbf{\beta}_k^T\mathbf{x} $$ हालांकि सबसे सामान्य रूप, जिसका उल्लेख एलन एग्रेस्टी (2010) में किया गया है जैसा कि आनुपातिक बाधाओं के रूप द्वारा परिभाषित किया गया है $$ \log\left[\frac{\Pr(Y = k)}{\Pr(Y = k+1)}\right] = \mu_k + \mathbf{\beta}^T\mathbf{x} $$ यह मॉडल केवल क्रमिक डेटा पर लागू किया जा सकता है, क्योंकि एक श्रेणी से अगली श्रेणी में बदलाव की संभावनाओं को मॉडलिंग करने से तात्पर्य है कि उन श्रेणियों का क्रम मौजूद है।

आसन्न श्रेणियों के लॉगिट मॉडल को बेसलाइन श्रेणी के लॉगिट मॉडल के एक विशेष मामले के रूप में माना जा सकता है, जहां $$\mathbf{\beta}_k = \mathbf{\beta}(k-1)$$. आसन्न श्रेणियों के लॉगिट मॉडल को ऑर्डर किए गए स्टीरियोटाइप मॉडल के एक विशेष मामले के रूप में भी सोचा जा सकता है, जहां $$\phi_k \propto k-1$$, यानी के बीच की दूरियां $$\phi_k$$ डेटा के आधार पर अनुमान लगाने के बजाय पहले से परिभाषित किया जाता है।

मॉडलों के बीच तुलना
आनुपातिक अंतर मॉडल की संरचना अन्य तीन मॉडलों से बहुत अलग है, और एक अलग अंतर्निहित अर्थ भी है। ध्यान दें कि आनुपातिक अंतर मॉडल में संदर्भ श्रेणी का आकार भिन्न होता है $$k$$, तब से $$Y \leq k$$ से तुलना की जाती है $$Y > k$$, जबकि अन्य मॉडलों में संदर्भ श्रेणी का आकार निश्चित रहता है $$Y=k$$ से तुलना की जाती है $$Y=1$$ या $$Y=k+1$$.

विभिन्न लिंक फ़ंक्शन
सभी मॉडलों के भिन्न रूप हैं जो विभिन्न लिंक फ़ंक्शंस का उपयोग करते हैं, जैसे प्रोबिट लिंक या पूरक लॉग-लॉग लिंक।

विज़ुअलाइज़ेशन और प्रदर्शन
सामान्य डेटा को कई अलग-अलग तरीकों से देखा जा सकता है। सामान्य विज़ुअलाइज़ेशन बार चार्ट या पाई चार्ट हैं। तालिका (सूचना) क्रमिक डेटा और आवृत्तियों को प्रदर्शित करने के लिए भी उपयोगी हो सकती है। मोज़ेक कथानक का उपयोग क्रमिक चर और नाममात्र या क्रमिक चर के बीच संबंध दिखाने के लिए किया जा सकता है। एक बम्प चार्ट - एक लाइन चार्ट जो एक समय बिंदु से दूसरे बिंदु तक वस्तुओं की सापेक्ष रैंकिंग दिखाता है - क्रमिक डेटा के लिए भी उपयुक्त है। डेटा की क्रमबद्ध प्रकृति को दर्शाने के लिए रंग या ग्रेस्केल ग्रेडेशन का उपयोग किया जा सकता है। एकल-दिशा पैमाने, जैसे कि आय श्रेणियां, को एक बार चार्ट के साथ दर्शाया जा सकता है जहां एकल रंग की बढ़ती (या घटती) संतृप्ति या हल्कापन उच्च (या निम्न) आय को इंगित करता है। दोहरे दिशा पैमाने पर मापे गए चर का क्रमिक वितरण, जैसे कि लिकर्ट स्केल, को स्टैक्ड बार चार्ट में रंग के साथ चित्रित किया जा सकता है। मध्य (शून्य या तटस्थ) बिंदु के लिए एक तटस्थ रंग (सफेद या ग्रे) का उपयोग किया जा सकता है, मध्य बिंदु से विपरीत दिशाओं में विपरीत रंगों का उपयोग किया जा सकता है, जहां रंगों की बढ़ती संतृप्ति या अंधेरा मध्य बिंदु से बढ़ती दूरी पर श्रेणियों का संकेत दे सकता है।. कोरोप्लेथ मानचित्र क्रमिक डेटा प्रदर्शित करने के लिए रंग या ग्रेस्केल शेडिंग का भी उपयोग करते हैं।

अनुप्रयोग
क्रमिक डेटा का उपयोग अनुसंधान के अधिकांश क्षेत्रों में पाया जा सकता है जहां श्रेणीबद्ध डेटा उत्पन्न होता है। सेटिंग्स जहां क्रमिक डेटा अक्सर एकत्र किया जाता है, उनमें सामाजिक और व्यवहार विज्ञान और सरकारी और व्यावसायिक सेटिंग्स शामिल होती हैं जहां अवलोकन, परीक्षण या प्रश्नावली द्वारा व्यक्तियों से माप एकत्र किए जाते हैं। क्रमिक डेटा के संग्रह के लिए कुछ सामान्य संदर्भों में सर्वेक्षण (मानव अनुसंधान) शामिल हैं; और बुद्धि लब्धि, परीक्षण (मूल्यांकन), व्यक्तित्व परीक्षण परीक्षण और निर्णय लेना।

सांख्यिकीय प्रभुत्व के माप के रूप में क्रमिक डेटा का उपयोग करके 'प्रभाव आकार' (क्लिफ के डेल्टा डी) की गणना की सिफारिश की गई है।

यह भी देखें

 * श्रेणीबद्ध डेटा के विश्लेषण की सूची
 * सामान्य प्राथमिकता दृष्टिकोण
 * क्रमसूचक संख्या
 * सामान्य स्थान