सामान्य डेटा

From Vigyanwiki

सामान्य डेटा एक श्रेणीबद्ध, सांख्यिकीय डेटा प्रकार है जहां चर में प्राकृतिक, क्रमबद्ध श्रेणियां होती हैं और श्रेणियों के बीच की दूरी ज्ञात नहीं होती है।[1]: 2  ये डेटा क्रमिक मापदंड पर उपस्थित हैं, जो स्टैनली स्मिथ स्टीवंस या एस द्वारा वर्णित माप के चार स्तरों में से एक है। 1946 में एस. स्टीवंस क्रमिक मापदंड को रैंकिंग के कारण नाममात्र मापदंड से अलग किया जाता है।[2] यह अंतराल मापदंड और अनुपात मापदंड से भिन्न होता है क्योंकि इसमें श्रेणी की चौड़ाई नहीं होती है जो अंतर्निहित विशेषता की समान वृद्धि का प्रतिनिधित्व करती है।[3]

क्रमिक डेटा के उदाहरण

क्रमिक डेटा का एक प्रसिद्ध उदाहरण लाइकेर्ट स्केल है। लिकर्ट स्केल का एक उदाहरण है:[4]: 685 

लाइक लाइक समव्हाट न्यूट्रल डिसलाइक समव्हाट डिसलाइक
1 2 3 4 5

क्रमिक डेटा के उदाहरण अधिकांशत: प्रश्नावली में पाए जाते हैं: उदाहरण के लिए, सर्वेक्षण प्रश्न क्या आपका सामान्य स्वास्थ्य खराब, उचित, अच्छा या उत्कृष्ट है? उन उत्तरों को क्रमशः 1, 2, 3, और 4 के रूप में कोडित किया जा सकता है। कभी-कभी अंतराल मापदंड या अनुपात मापदंड पर डेटा को क्रमिक मापदंड पर समूहीकृत किया जाता है: उदाहरण के लिए, जिन व्यक्तियों की आय ज्ञात है उन्हें आय श्रेणियों में समूहीकृत किया जा सकता है $0-$19,999 , $20,000-$39,999, $40,000-$59,999, ..., जिसे तब 1, 2, 3, 4, ... के रूप में कोडित किया जा सकता है। क्रमिक डेटा के अन्य उदाहरणों में सामाजिक आर्थिक स्थिति, सैन्य सीमा और पाठ्यक्रम के लिए पत्र ग्रेड सम्मिलित हैं।[5]


क्रमिक डेटा का विश्लेषण करने के विधि

सामान्य डेटा विश्लेषण के लिए अन्य गुणात्मक चर की तुलना में विश्लेषण के एक अलग सेट की आवश्यकता होती है। इन विधियों में शक्ति की हानि से बचने के लिए चरों के प्राकृतिक क्रम को सम्मिलित किया गया है।[1]: 88  क्रमिक डेटा के नमूने के माध्य की गणना करने को हतोत्साहित किया जाता है; मध्यिका या मोड सहित केंद्रीय प्रवृत्ति के अन्य उपाय समान्यत: अधिक उपयुक्त होते हैं।[6]

सामान्य

स्टीवंस (1946) ने तर्क दिया कि, क्योंकि श्रेणियों के बीच समान दूरी की धारणा क्रमिक डेटा के लिए प्रयुक्त नहीं होती है, इसलिए क्रमिक वितरण और साधनों और मानक विचलनों के आधार पर अनुमानित डेटा के विवरण के लिए साधनों और मानक विचलनों का उपयोग उचित नहीं था। इसके अतिरिक्त नाममात्र डेटा (स्थितयों की संख्या, मोड, आकस्मिक सहसंबंध) के लिए उपयुक्त वर्णनात्मक डेटा के अतिरिक्त माध्यिका और प्रतिशत जैसे स्थितीय उपायों का उपयोग किया जाना चाहिए।[3]: 678  गैर-पैरामीट्रिक डेटा को क्रमिक डेटा (जैसे, केंडल के डब्ल्यू, स्पीयरमैन के सीमा सहसंबंध गुणांक,आदि) से जुड़े अनुमानात्मक डेटा के लिए सबसे उपयुक्त प्रक्रियाओं के रूप में प्रस्तावित किया गया है, विशेष रूप से सीमा माप के विश्लेषण के लिए विकसित किए गए।[5]: 25–28  चूँकि उपलब्ध सांख्यिकीय प्रक्रियाओं की बड़ी सीमा का लाभ उठाने के लिए कुछ चेतावनियों के साथ क्रमिक डेटा के लिए पैरामीट्रिक डेटा का उपयोग स्वीकार्य हो सकता है।[7][8][4]: 90 

एकविभिन्न आँकड़े

साधन और मानक विचलन के स्थान पर, क्रमिक डेटा के लिए उपयुक्त अविभाज्य डेटा में माध्यिका सम्मिलित है,[9]: 59–61  अन्य शतमक (जैसे चतुर्थक और दशमलव),[9]: 71  और चतुर्थक विचलन.[9]: 77  क्रमिक डेटा के लिए एक-नमूना परीक्षण में कोलमोगोरोव-स्मिरनोव परीक्षण सम्मिलित है| कोलमोगोरोव-स्मिरनोव एक-नमूना परीक्षण,[5]: 51–55  वाल्ड-वुल्फोवित्ज़ परीक्षण चलाता है|एक-नमूना परीक्षण चलाता है,[5]: 58–64  और परिवर्तन-बिंदु परीक्षण सम्मिलितहैं।[5]: 64–71 

द्विचर आँकड़े

टी-परीक्षणों के साथ साधनों में अंतर का परीक्षण करने के बदले, दो स्वतंत्र नमूनों से क्रमिक डेटा के वितरण में अंतर का परीक्षण मैन-व्हिटनी के साथ किया जा सकता है।[9]: 259–264    रन,[9]: 253–259    स्मिरनोव,,[9]: 266–269  और हस्ताक्षरित-रैंक[9]: 269–273   परीक्षण दो संबंधित या मिलान किए गए नमूनों के परीक्षण में साइन परीक्षण [5]: 80–87  और विलकॉक्सन हस्ताक्षरित सीमा परीक्षण सम्मिलितहैं।[5]: 87–95   सीमा के साथ विचरण का विश्लेषण[9]: 367–369  और आदेशित के लिए जॉन्केहीर परीक्षण विकल्प[5]: 216–222   स्वतंत्र नमूनों एनोवा के स्थान पर क्रमिक डेटा के साथ संचालित किया जा सकता है। दो से अधिक संबंधित नमूनों के परीक्षणों में रैंकों द्वारा भिन्नता का फ्रीडमैन दो-तरफ़ा विश्लेषण सम्मिलित है[5]: 174–183   और क्रमित किए गए विकल्पों के लिए पेज परीक्षण।[5]: : 184–188   दो क्रमिक-स्केल वाले चर के लिए उपयुक्त सहसंबंध उपायों में सम्मिलित हैं केंडल का ताऊ,[9]: 442–443   गामा,[9]: : 434–436   rs और dyx/dxy.[9]: 443 

प्रतिगमन अनुप्रयोग

सामान्य डेटा को एक मात्रात्मक चर के रूप में माना जा सकता है। संभार तन्त्र परावर्तन में, समीकरण

मॉडल है और सी श्रेणीबद्ध के निर्दिष्ट स्तरों पर ले जाता है मापदंड [1]: 189  प्रतिगमन विश्लेषण में परिणाम (आश्रित चर) जो क्रमसूचक चर होते हैं, उनका अनुमान क्रमवाचक प्रतिगमन के एक प्रकार का उपयोग करके लगाया जा सकता है, जैसे कि क्रमित किए गए लॉगिट या क्रमित किए गए प्रोबिट है।

एकाधिक प्रतिगमन/सहसंबंध विश्लेषण में, क्रमिक डेटा को पावर बहुपदों का उपयोग करके और स्कोर और सीमा के सामान्यीकरण के माध्यम से समायोजित किया जा सकता है।[10]

रैखिक रुझान

रैखिक रुझानों का उपयोग समान्यत: आकस्मिक तालिकाओं में क्रमिक डेटा और अन्य श्रेणीबद्ध चर के बीच संबंध खोजने के लिए भी किया जाता है। उन चरों के बीच एक सहसंबंध r पाया जाता है जहां r -1 और 1 के बीच होता है प्रवृत्ति का परीक्षण करने के लिए एक परीक्षण आँकड़ा है:

इसका उपयोग वहां किया जाता है जहां n नमूना आकार है।[1]: 87 

R को को पंक्ति स्कोर और को स्तम्भ स्कोर मानकर पाया जा सकता है। मान लीजिए कि पंक्ति स्कोर का माध्य है जबकि तो सीमांत पंक्ति संभावना है और सीमांत स्तंभ संभावना है। R की गणना इस प्रकार की जाती है:


वर्गीकरण विधियाँ

क्रमिक डेटा के लिए वर्गीकरण विधियाँ भी विकसित की गई हैं। डेटा को अलग-अलग श्रेणियों में विभाजित किया गया है जिससे प्रत्येक अवलोकन दूसरों के समान होता है। वर्गीकरण परिणामों को अधिकतम करने के लिए प्रत्येक समूह में फैलाव को मापा और न्यूनतम किया जाता है। फैलाव कार्य का उपयोग सूचना सिद्धांत में किया जाता है।[11]

क्रमिक डेटा के लिए सांख्यिकीय मॉडल

ऐसे कई अलग-अलग मॉडल हैं जिनका उपयोग क्रमिक डेटा की संरचना का वर्णन करने के लिए किया जा सकता है।[12] मॉडल के चार प्रमुख वर्गों का वर्णन नीचे किया गया है, प्रत्येक को यादृच्छिक चर के लिए परिभाषित किया गया है, जिसका स्तर द्वारा अनुक्रमित है।

ध्यान दें कि नीचे दी गई मॉडल परिभाषाओं में, और के मान डेटा के समान सेट के लिए सभी मॉडलों के लिए समान नहीं होंगे, किंतु विभिन्न मॉडलों की संरचना की तुलना करने के लिए संकेतन का उपयोग किया जाता है।

आनुपातिक अंतर मॉडल

क्रमिक डेटा के लिए सबसे अधिक उपयोग किया जाने वाला मॉडल आनुपातिक बाधा मॉडल है, जिसे