सामान्य डेटा

सामान्य डेटा एक श्रेणीबद्ध, सांख्यिकीय डेटा प्रकार है जहां चर में प्राकृतिक, क्रमबद्ध श्रेणियां होती हैं और श्रेणियों के बीच की दूरी ज्ञात नहीं होती है।^[1]^: 2 ये डेटा क्रमिक मापदंड पर उपस्थित हैं, जो स्टैनली स्मिथ स्टीवंस या एस द्वारा वर्णित माप के चार स्तरों में से एक है। 1946 में एस. स्टीवंस क्रमिक मापदंड को रैंकिंग के कारण नाममात्र मापदंड से अलग किया जाता है।^[2] यह अंतराल मापदंड और अनुपात मापदंड से भिन्न होता है क्योंकि इसमें श्रेणी की चौड़ाई नहीं होती है जो अंतर्निहित विशेषता की समान वृद्धि का प्रतिनिधित्व करती है।^[3]

क्रमिक डेटा के उदाहरण

क्रमिक डेटा का एक प्रसिद्ध उदाहरण लाइकेर्ट स्केल है। लिकर्ट स्केल का एक उदाहरण है:^[4]^: 685

लाइक	लाइक समव्हाट	न्यूट्रल	डिसलाइक समव्हाट	डिसलाइक
1	2	3	4	5

क्रमिक डेटा के उदाहरण अधिकांशत: प्रश्नावली में पाए जाते हैं: उदाहरण के लिए, सर्वेक्षण प्रश्न क्या आपका सामान्य स्वास्थ्य खराब, उचित, अच्छा या उत्कृष्ट है? उन उत्तरों को क्रमशः 1, 2, 3, और 4 के रूप में कोडित किया जा सकता है। कभी-कभी अंतराल मापदंड या अनुपात मापदंड पर डेटा को क्रमिक मापदंड पर समूहीकृत किया जाता है: उदाहरण के लिए, जिन व्यक्तियों की आय ज्ञात है उन्हें आय श्रेणियों में समूहीकृत किया जा सकता है $0-$19,999 , $20,000-$39,999, $40,000-$59,999, ..., जिसे तब 1, 2, 3, 4, ... के रूप में कोडित किया जा सकता है। क्रमिक डेटा के अन्य उदाहरणों में सामाजिक आर्थिक स्थिति, सैन्य सीमा और पाठ्यक्रम के लिए पत्र ग्रेड सम्मिलित हैं।^[5]

क्रमिक डेटा का विश्लेषण करने के विधि

सामान्य डेटा विश्लेषण के लिए अन्य गुणात्मक चर की तुलना में विश्लेषण के एक अलग सेट की आवश्यकता होती है। इन विधियों में शक्ति की हानि से बचने के लिए चरों के प्राकृतिक क्रम को सम्मिलित किया गया है।^[1]^: 88 क्रमिक डेटा के नमूने के माध्य की गणना करने को हतोत्साहित किया जाता है; मध्यिका या मोड सहित केंद्रीय प्रवृत्ति के अन्य उपाय समान्यत: अधिक उपयुक्त होते हैं।^[6]

सामान्य

स्टीवंस (1946) ने तर्क दिया कि, क्योंकि श्रेणियों के बीच समान दूरी की धारणा क्रमिक डेटा के लिए प्रयुक्त नहीं होती है, इसलिए क्रमिक वितरण और साधनों और मानक विचलनों के आधार पर अनुमानित डेटा के विवरण के लिए साधनों और मानक विचलनों का उपयोग उचित नहीं था। इसके अतिरिक्त नाममात्र डेटा (स्थितयों की संख्या, मोड, आकस्मिक सहसंबंध) के लिए उपयुक्त वर्णनात्मक डेटा के अतिरिक्त माध्यिका और प्रतिशत जैसे स्थितीय उपायों का उपयोग किया जाना चाहिए।^[3]^: 678 गैर-पैरामीट्रिक डेटा को क्रमिक डेटा (जैसे, केंडल के डब्ल्यू, स्पीयरमैन के सीमा सहसंबंध गुणांक,आदि) से जुड़े अनुमानात्मक डेटा के लिए सबसे उपयुक्त प्रक्रियाओं के रूप में प्रस्तावित किया गया है, विशेष रूप से सीमा माप के विश्लेषण के लिए विकसित किए गए।^[5]^: 25–28 चूँकि उपलब्ध सांख्यिकीय प्रक्रियाओं की बड़ी सीमा का लाभ उठाने के लिए कुछ चेतावनियों के साथ क्रमिक डेटा के लिए पैरामीट्रिक डेटा का उपयोग स्वीकार्य हो सकता है।^[7]^[8]^[4]^: 90

एकविभिन्न आँकड़े

साधन और मानक विचलन के स्थान पर, क्रमिक डेटा के लिए उपयुक्त अविभाज्य डेटा में माध्यिका सम्मिलित है,^[9]^: 59–61 अन्य शतमक (जैसे चतुर्थक और दशमलव),^[9]^: 71 और चतुर्थक विचलन.^[9]^: 77 क्रमिक डेटा के लिए एक-नमूना परीक्षण में कोलमोगोरोव-स्मिरनोव परीक्षण सम्मिलित है| कोलमोगोरोव-स्मिरनोव एक-नमूना परीक्षण,^[5]^: 51–55 वाल्ड-वुल्फोवित्ज़ परीक्षण चलाता है|एक-नमूना परीक्षण चलाता है,^[5]^: 58–64 और परिवर्तन-बिंदु परीक्षण सम्मिलितहैं।^[5]^: 64–71

द्विचर आँकड़े

टी-परीक्षणों के साथ साधनों में अंतर का परीक्षण करने के बदले, दो स्वतंत्र नमूनों से क्रमिक डेटा के वितरण में अंतर का परीक्षण मैन-व्हिटनी के साथ किया जा सकता है।^[9]^{: 259–264} रन,^[9]^{: 253–259} स्मिरनोव,,^[9]^{: 266–269} और हस्ताक्षरित-रैंक^[9]^{: 269–273} परीक्षण दो संबंधित या मिलान किए गए नमूनों के परीक्षण में साइन परीक्षण ^[5]^: 80–87 और विलकॉक्सन हस्ताक्षरित सीमा परीक्षण सम्मिलितहैं।^[5]^: 87–95 सीमा के साथ विचरण का विश्लेषण^[9]^{: 367–369} और आदेशित के लिए जॉन्केहीर परीक्षण विकल्प^[5]^{: 216–222} स्वतंत्र नमूनों एनोवा के स्थान पर क्रमिक डेटा के साथ संचालित किया जा सकता है। दो से अधिक संबंधित नमूनों के परीक्षणों में रैंकों द्वारा भिन्नता का फ्रीडमैन दो-तरफ़ा विश्लेषण सम्मिलित है^[5]^{: 174–183} और क्रमित किए गए विकल्पों के लिए पेज परीक्षण।^[5]: ^{: 184–188} दो क्रमिक-स्केल वाले चर के लिए उपयुक्त सहसंबंध उपायों में सम्मिलित हैं केंडल का ताऊ,^[9]^{: 442–443} गामा,^[9]: ^{: 434–436} r_s और dyx/dxy.^[9]^: 443

प्रतिगमन अनुप्रयोग

सामान्य डेटा को एक मात्रात्मक चर के रूप में माना जा सकता है। संभार तन्त्र परावर्तन में, समीकरण

\operatorname {logit} [P(Y=1)]=\alpha +\beta _{1}c+\beta _{2}x

मॉडल है और सी श्रेणीबद्ध के निर्दिष्ट स्तरों पर ले जाता है मापदंड ^[1]^: 189 प्रतिगमन विश्लेषण में परिणाम (आश्रित चर) जो क्रमसूचक चर होते हैं, उनका अनुमान क्रमवाचक प्रतिगमन के एक प्रकार का उपयोग करके लगाया जा सकता है, जैसे कि क्रमित किए गए लॉगिट या क्रमित किए गए प्रोबिट है।

एकाधिक प्रतिगमन/सहसंबंध विश्लेषण में, क्रमिक डेटा को पावर बहुपदों का उपयोग करके और स्कोर और सीमा के सामान्यीकरण के माध्यम से समायोजित किया जा सकता है।^[10]

रैखिक रुझान

रैखिक रुझानों का उपयोग समान्यत: आकस्मिक तालिकाओं में क्रमिक डेटा और अन्य श्रेणीबद्ध चर के बीच संबंध खोजने के लिए भी किया जाता है। उन चरों के बीच एक सहसंबंध r पाया जाता है जहां r -1 और 1 के बीच होता है प्रवृत्ति का परीक्षण करने के लिए एक परीक्षण आँकड़ा है:

M^{2}=(n-1)r^{2}

इसका उपयोग वहां किया जाता है जहां n नमूना आकार है।^[1]^: 87

R को $u_{1}\leq u_{2}\leq ...\leq u_{I}$ को पंक्ति स्कोर और $v_{1}\leq v_{2}\leq ...\leq v_{I}$ को स्तम्भ स्कोर मानकर पाया जा सकता है। मान लीजिए कि ${\bar {u}}\ =\sum _{i}u_{i}p_{i+}$ पंक्ति स्कोर का माध्य है जबकि ${\bar {v}}\ =\sum _{j}v_{j}p_{j+}.$ तो $p_{i+}$ सीमांत पंक्ति संभावना है और $p_{+j}$ सीमांत स्तंभ संभावना है। R की गणना इस प्रकार की जाती है:

r={\frac {\sum _{i,j}\left(u_{i}-{\bar {u}}\ \right)\left(v_{j}-{\bar {v}}\ \right)p_{ij}}{\sqrt {\left\lbrack \sum _{i}(u_{i}-{\bar {u}}\ \right)^{2}p_{i+}\rbrack \lbrack \sum _{j}(v_{j}-{\bar {v}}\ )^{2}p_{+j}\rbrack }}}

वर्गीकरण विधियाँ

क्रमिक डेटा के लिए वर्गीकरण विधियाँ भी विकसित की गई हैं। डेटा को अलग-अलग श्रेणियों में विभाजित किया गया है जिससे प्रत्येक अवलोकन दूसरों के समान होता है। वर्गीकरण परिणामों को अधिकतम करने के लिए प्रत्येक समूह में फैलाव को मापा और न्यूनतम किया जाता है। फैलाव कार्य का उपयोग सूचना सिद्धांत में किया जाता है।^[11]

क्रमिक डेटा के लिए सांख्यिकीय मॉडल

ऐसे कई अलग-अलग मॉडल हैं जिनका उपयोग क्रमिक डेटा की संरचना का वर्णन करने के लिए किया जा सकता है।^[12] मॉडल के चार प्रमुख वर्गों का वर्णन नीचे किया गया है, प्रत्येक को यादृच्छिक चर $Y$ के लिए परिभाषित किया गया है, जिसका स्तर $k=1,2,\dots ,q$ द्वारा अनुक्रमित है।

ध्यान दें कि नीचे दी गई मॉडल परिभाषाओं में, $\mu _{k}$ और $\mathbf {\beta }$ के मान डेटा के समान सेट के लिए सभी मॉडलों के लिए समान नहीं होंगे, किंतु विभिन्न मॉडलों की संरचना की तुलना करने के लिए संकेतन का उपयोग किया जाता है।

आनुपातिक अंतर मॉडल

क्रमिक डेटा के लिए सबसे अधिक उपयोग किया जाने वाला मॉडल आनुपातिक बाधा मॉडल है, जिसे $\log [\frac{Pr (Y \leq k)}{P r (Y > k)}] = \log [\frac{Pr (Y \leq k)}{1 - Pr (}$

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Anonymous

Search