सामान्य डेटा

From Vigyanwiki
Revision as of 10:06, 7 July 2023 by alpha>Indicwiki (Created page with "{{Short description|Statistical data type}} {{distinguish|Ordinal data (programming)}} {{redirect-distinguish|Ordinal scale|Sword Art Online The Movie: Ordinal Scale{{!}}Ordin...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

सामान्य डेटा एक श्रेणीबद्ध, सांख्यिकीय डेटा प्रकार है जहां चर में प्राकृतिक, क्रमबद्ध श्रेणियां होती हैं और श्रेणियों के बीच की दूरी ज्ञात नहीं होती है।[1]: 2  ये डेटा क्रमिक पैमाने पर मौजूद हैं, जो स्टैनली स्मिथ स्टीवंस|एस द्वारा वर्णित माप के चार स्तरों में से एक है। 1946 में एस. स्टीवंस। क्रमिक पैमाने को रैंकिंग के कारण नाममात्र पैमाने से अलग किया जाता है।[2]यह अंतराल पैमाने और अनुपात पैमाने से भिन्न होता है क्योंकि इसमें श्रेणी की चौड़ाई नहीं होती है जो अंतर्निहित विशेषता की समान वृद्धि का प्रतिनिधित्व करती है।[3]


क्रमिक डेटा के उदाहरण

क्रमिक डेटा का एक प्रसिद्ध उदाहरण लाइकेर्ट स्केल है। लिकर्ट स्केल का एक उदाहरण है:[4]: 685 

Like Like Somewhat Neutral Dislike Somewhat Dislike
1 2 3 4 5

क्रमिक डेटा के उदाहरण अक्सर प्रश्नावली में पाए जाते हैं: उदाहरण के लिए, सर्वेक्षण प्रश्न क्या आपका सामान्य स्वास्थ्य खराब, उचित, अच्छा या उत्कृष्ट है? उन उत्तरों को क्रमशः 1, 2, 3, और 4 के रूप में कोडित किया जा सकता है। कभी-कभी अंतराल पैमाने या अनुपात पैमाने पर डेटा को क्रमिक पैमाने पर समूहीकृत किया जाता है: उदाहरण के लिए, जिन व्यक्तियों की आय ज्ञात है उन्हें आय श्रेणियों में समूहीकृत किया जा सकता है $0-$19,999 , $20,000-$39,999, $40,000-$59,999, ..., जिसे तब 1, 2, 3, 4, ... के रूप में कोडित किया जा सकता है। क्रमिक डेटा के अन्य उदाहरणों में सामाजिक आर्थिक स्थिति, सैन्य रैंक और पाठ्यक्रम के लिए पत्र ग्रेड शामिल हैं।[5]


क्रमिक डेटा का विश्लेषण करने के तरीके

सामान्य डेटा विश्लेषण के लिए अन्य गुणात्मक चर की तुलना में विश्लेषण के एक अलग सेट की आवश्यकता होती है। इन विधियों में शक्ति की हानि से बचने के लिए चरों के प्राकृतिक क्रम को शामिल किया गया है।[1]: 88  क्रमिक डेटा के नमूने के माध्य की गणना करने को हतोत्साहित किया जाता है; मध्यिका या मोड सहित केंद्रीय प्रवृत्ति के अन्य उपाय आम तौर पर अधिक उपयुक्त होते हैं।[6]


सामान्य

स्टीवंस (1946) ने तर्क दिया कि, क्योंकि श्रेणियों के बीच समान दूरी की धारणा क्रमिक डेटा के लिए लागू नहीं होती है, इसलिए क्रमिक वितरण और साधनों और मानक विचलनों के आधार पर अनुमानित आंकड़ों के विवरण के लिए साधनों और मानक विचलनों का उपयोग उचित नहीं था। इसके बजाय, नाममात्र डेटा (मामलों की संख्या, मोड, आकस्मिक सहसंबंध) के लिए उपयुक्त वर्णनात्मक आंकड़ों के अलावा, माध्यिका और प्रतिशत जैसे स्थितीय उपायों का उपयोग किया जाना चाहिए।[3]: 678  गैर-पैरामीट्रिक आँकड़ों को क्रमिक डेटा (जैसे, केंडल के डब्ल्यू, स्पीयरमैन के रैंक सहसंबंध गुणांक, आदि) से जुड़े अनुमानात्मक आँकड़ों के लिए सबसे उपयुक्त प्रक्रियाओं के रूप में प्रस्तावित किया गया है, विशेष रूप से रैंक माप के विश्लेषण के लिए विकसित किए गए।[5]: 25–28  हालाँकि, उपलब्ध सांख्यिकीय प्रक्रियाओं की बड़ी रेंज का लाभ उठाने के लिए कुछ चेतावनियों के साथ क्रमिक डेटा के लिए पैरामीट्रिक आंकड़ों का उपयोग स्वीकार्य हो सकता है।[7][8][4]: 90 

एकविभिन्न आँकड़े

साधन और मानक विचलन के स्थान पर, क्रमिक डेटा के लिए उपयुक्त अविभाज्य आँकड़ों में माध्यिका शामिल है,[9]: 59–61  अन्य शतमक (जैसे चतुर्थक और दशमलव),[9]: 71  और चतुर्थक विचलन.[9]: 77  क्रमिक डेटा के लिए एक-नमूना परीक्षण में कोलमोगोरोव-स्मिरनोव परीक्षण शामिल है|कोलमोगोरोव-स्मिरनोव एक-नमूना परीक्षण,[5]: 51–55  वाल्ड-वुल्फोवित्ज़ परीक्षण चलाता है|एक-नमूना परीक्षण चलाता है,[5]: 58–64  और परिवर्तन-बिंदु परीक्षण।[5]: 64–71 

द्विचर आँकड़े

छात्र के टी-टेस्ट|टी-टेस्ट के साथ साधनों में अंतर का परीक्षण करने के बदले, दो स्वतंत्र नमूनों से क्रमिक डेटा के वितरण में अंतर का परीक्षण मैन-व्हिटनी यू परीक्षण|मैन-व्हिटनी के साथ किया जा सकता है।[9]: 259–264  वाल्ड-वुल्फोवित्ज़ परीक्षण चलाता है,[9]: 253–259  कोलमोगोरोव-स्मिरनोव परीक्षण,[9]: 266–269  और विलकॉक्सन हस्ताक्षरित-रैंक परीक्षण|हस्ताक्षरित-रैंक[9]: 269–273  परीक्षण. दो संबंधित या मिलान किए गए नमूनों के परीक्षण में हस्ताक्षर परीक्षण शामिल है[5]: 80–87  और विलकॉक्सन हस्ताक्षरित-रैंक परीक्षण।[5]: 87–95  क्रुस्कल-वालिस विचरण का एकतरफ़ा विश्लेषण[9]: 367–369  और जोन्कीयर का रुझान परीक्षण[5]: 216–222  स्वतंत्र नमूनों के स्थान पर क्रमिक डेटा के साथ विचरण का विश्लेषण किया जा सकता है। दो से अधिक संबंधित नमूनों के परीक्षण में फ्रीडमैन परीक्षण शामिल है|फ्रीडमैन रैंकों द्वारा भिन्नता का दो-तरफा विश्लेषण[5]: 174–183  और पेज का रुझान परीक्षण।[5]: 184–188  दो क्रमिक-स्केल वाले चरों के लिए उपयुक्त सहसंबंध उपायों में केंडल रैंक सहसंबंध गुणांक शामिल है|केंडल का ताऊ,[9]: 436–439  गुडमैन और क्रुस्कल का गामा,[9]: 442–443  स्पीयरमैन का रैंक सहसंबंध गुणांक|rs,[9]: 434–436  और सोमरस डी|डीyx/डीxy.[9]: 443 

प्रतिगमन अनुप्रयोग

सामान्य डेटा को एक मात्रात्मक चर के रूप में माना जा सकता है। संभार तन्त्र परावर्तन में, समीकरण

मॉडल है और सी श्रेणीबद्ध पैमाने के निर्दिष्ट स्तरों पर ले जाता है।[1]: 189  प्रतिगमन विश्लेषण में, परिणाम (आश्रित चर) जो क्रमसूचक चर हैं, क्रमसूचक प्रतिगमन के एक प्रकार का उपयोग करके भविष्यवाणी की जा सकती है, जैसे कि ऑर्डर किए गए लॉगिट या ऑर्डर किए गए प्रोबिट।

एकाधिक प्रतिगमन/सहसंबंध विश्लेषण में, क्रमिक डेटा को पावर बहुपदों का उपयोग करके और स्कोर और रैंक के सामान्यीकरण के माध्यम से समायोजित किया जा सकता है।[10]


रैखिक रुझान

रैखिक रुझानों का उपयोग आमतौर पर आकस्मिक तालिकाओं में क्रमिक डेटा और अन्य श्रेणीबद्ध चर के बीच संबंध खोजने के लिए भी किया जाता है। उन चरों के बीच एक सहसंबंध r पाया जाता है जहां r -1 और 1 के बीच होता है। प्रवृत्ति का परीक्षण करने के लिए, एक परीक्षण आँकड़ा:

इसका उपयोग वहां किया जाता है जहां n नमूना आकार है।[1]: 87 

आर देकर पाया जा सकता है पंक्ति स्कोर हो और कॉलम स्कोर हो. होने देना जबकि पंक्ति स्कोर का माध्य हो . तब सीमांत पंक्ति संभावना है और सीमांत स्तंभ संभावना है. आर की गणना इस प्रकार की जाती है:


वर्गीकरण विधियाँ

क्रमिक डेटा के लिए वर्गीकरण विधियाँ भी विकसित की गई हैं। डेटा को अलग-अलग श्रेणियों में विभाजित किया गया है ताकि प्रत्येक अवलोकन दूसरों के समान हो। वर्गीकरण परिणामों को अधिकतम करने के लिए प्रत्येक समूह में फैलाव को मापा और न्यूनतम किया जाता है। फैलाव फ़ंक्शन का उपयोग सूचना सिद्धांत में किया जाता है।[11]


क्रमिक डेटा के लिए सांख्यिकीय मॉडल

ऐसे कई अलग-अलग मॉडल हैं जिनका उपयोग क्रमिक डेटा की संरचना का वर्णन करने के लिए किया जा सकता है।[12] मॉडल के चार प्रमुख वर्गों का वर्णन नीचे किया गया है, प्रत्येक को एक यादृच्छिक चर के लिए परिभाषित किया गया है , द्वारा अनुक्रमित स्तरों के साथ .

ध्यान दें कि नीचे दी गई मॉडल परिभाषाओं में, के मान और डेटा के एक ही सेट के लिए सभी मॉडलों के लिए समान नहीं होगा, लेकिन विभिन्न मॉडलों की संरचना की तुलना करने के लिए नोटेशन का उपयोग किया जाता है।

आनुपातिक अंतर मॉडल

क्रमिक डेटा के लिए सबसे अधिक इस्तेमाल किया जाने वाला मॉडल आनुपातिक बाधा मॉडल है, जिसे परिभाषित किया गया है जहां पैरामीटर क्रमसूचक डेटा के आधार वितरण का वर्णन करें, सहसंयोजक हैं और सहसंयोजकों के प्रभावों का वर्णन करने वाले गुणांक हैं।

इस मॉडल का उपयोग मॉडल को परिभाषित करके सामान्यीकृत किया जा सकता है के बजाय , और यह मॉडल को नाममात्र डेटा (जिसमें श्रेणियों का कोई प्राकृतिक क्रम नहीं है) के साथ-साथ क्रमिक डेटा के लिए उपयुक्त बना देगा। हालाँकि, यह सामान्यीकरण मॉडल को डेटा में फिट करना अधिक कठिन बना सकता है।

बेसलाइन श्रेणी लॉगिट मॉडल

बेसलाइन श्रेणी मॉडल द्वारा परिभाषित किया गया है यह मॉडल श्रेणियों पर कोई आदेश लागू नहीं करता है और इसलिए इसे नाममात्र डेटा के साथ-साथ क्रमिक डेटा पर भी लागू किया जा सकता है।

ऑर्डर किया गया स्टीरियोटाइप मॉडल

ऑर्डर किए गए स्टीरियोटाइप मॉडल को परिभाषित किया गया है जहां स्कोर पैरामीटर इस प्रकार सीमित हैं .

यह बेसलाइन श्रेणी लॉगिट मॉडल की तुलना में अधिक उदार और अधिक विशिष्ट मॉडल है: के समान ही सोचा जा सकता है .

गैर-आदेशित स्टीरियोटाइप मॉडल का रूप आदेशित स्टीरियोटाइप मॉडल के समान होता है, लेकिन बिना किसी आदेश के . इस मॉडल को नाममात्र डेटा पर लागू किया जा सकता है।

ध्यान दें कि फिट किए गए स्कोर, , इंगित करें कि विभिन्न स्तरों के बीच अंतर करना कितना आसान है . अगर तो यह इंगित करता है कि सहसंयोजकों के लिए डेटा का वर्तमान सेट स्तरों के बीच अंतर करने के लिए अधिक जानकारी प्रदान न करें और , लेकिन इसका मतलब यह नहीं है कि वास्तविक मूल्य और बहुत दूर हैं. और यदि सहसंयोजकों के मान बदलते हैं, तो उस नए डेटा के लिए फिट किए गए स्कोर और फिर बहुत दूर हो सकते हैं.

आसन्न श्रेणियां लॉगिट मॉडल

आसन्न श्रेणियों के मॉडल को परिभाषित किया गया है हालांकि सबसे सामान्य रूप, जिसका उल्लेख एलन एग्रेस्टी (2010) में किया गया है[12]जैसा कि आनुपातिक बाधाओं के रूप द्वारा परिभाषित किया गया है यह मॉडल केवल क्रमिक डेटा पर लागू किया जा सकता है, क्योंकि एक श्रेणी से अगली श्रेणी में बदलाव की संभावनाओं को मॉडलिंग करने से तात्पर्य है कि उन श्रेणियों का क्रम मौजूद है।

आसन्न श्रेणियों के लॉगिट मॉडल को बेसलाइन श्रेणी के लॉगिट मॉडल के एक विशेष मामले के रूप में माना जा सकता है, जहां . आसन्न श्रेणियों के लॉगिट मॉडल को ऑर्डर किए गए स्टीरियोटाइप मॉडल के एक विशेष मामले के रूप में भी सोचा जा सकता है, जहां , यानी के बीच की दूरियां डेटा के आधार पर अनुमान लगाने के बजाय पहले से परिभाषित किया जाता है।

मॉडलों के बीच तुलना

आनुपातिक अंतर मॉडल की संरचना अन्य तीन मॉडलों से बहुत अलग है, और एक अलग अंतर्निहित अर्थ भी है। ध्यान दें कि आनुपातिक अंतर मॉडल में संदर्भ श्रेणी का आकार भिन्न होता है , तब से से तुलना की जाती है , जबकि अन्य मॉडलों में संदर्भ श्रेणी का आकार निश्चित रहता है से तुलना की जाती है या .

विभिन्न लिंक फ़ंक्शन

सभी मॉडलों के भिन्न रूप हैं जो विभिन्न लिंक फ़ंक्शंस का उपयोग करते हैं, जैसे प्रोबिट लिंक या पूरक लॉग-लॉग लिंक।

विज़ुअलाइज़ेशन और प्रदर्शन

सामान्य डेटा को कई अलग-अलग तरीकों से देखा जा सकता है। सामान्य विज़ुअलाइज़ेशन बार चार्ट या पाई चार्ट हैं। तालिका (सूचना) क्रमिक डेटा और आवृत्तियों को प्रदर्शित करने के लिए भी उपयोगी हो सकती है। मोज़ेक कथानक का उपयोग क्रमिक चर और नाममात्र या क्रमिक चर के बीच संबंध दिखाने के लिए किया जा सकता है।[13] एक बम्प चार्ट - एक लाइन चार्ट जो एक समय बिंदु से दूसरे बिंदु तक वस्तुओं की सापेक्ष रैंकिंग दिखाता है - क्रमिक डेटा के लिए भी उपयुक्त है।[14] डेटा की क्रमबद्ध प्रकृति को दर्शाने के लिए रंग या ग्रेस्केल ग्रेडेशन का उपयोग किया जा सकता है। एकल-दिशा पैमाने, जैसे कि आय श्रेणियां, को एक बार चार्ट के साथ दर्शाया जा सकता है जहां एकल रंग की बढ़ती (या घटती) संतृप्ति या हल्कापन उच्च (या निम्न) आय को इंगित करता है। दोहरे दिशा पैमाने पर मापे गए चर का क्रमिक वितरण, जैसे कि लिकर्ट स्केल, को स्टैक्ड बार चार्ट में रंग के साथ चित्रित किया जा सकता है। मध्य (शून्य या तटस्थ) बिंदु के लिए एक तटस्थ रंग (सफेद या ग्रे) का उपयोग किया जा सकता है, मध्य बिंदु से विपरीत दिशाओं में विपरीत रंगों का उपयोग किया जा सकता है, जहां रंगों की बढ़ती संतृप्ति या अंधेरा मध्य बिंदु से बढ़ती दूरी पर श्रेणियों का संकेत दे सकता है। .[15] कोरोप्लेथ मानचित्र क्रमिक डेटा प्रदर्शित करने के लिए रंग या ग्रेस्केल शेडिंग का भी उपयोग करते हैं।[16]

File:Bar plot defense spending example (self-made).jpg
Example bar plot of opinion on defense spending.
File:Bump plot defense spending.jpg
Example bump plot of opinion on defense spending by political party.
File:Mosaic plot defense spending example.jpg
Example mosaic plot of opinion on defense spending by political party.
File:Stacked bar plot defense spending.jpg
Example stacked bar plot of opinion on defense spending by political party.


अनुप्रयोग

क्रमिक डेटा का उपयोग अनुसंधान के अधिकांश क्षेत्रों में पाया जा सकता है जहां श्रेणीबद्ध डेटा उत्पन्न होता है। सेटिंग्स जहां क्रमिक डेटा अक्सर एकत्र किया जाता है, उनमें सामाजिक और व्यवहार विज्ञान और सरकारी और व्यावसायिक सेटिंग्स शामिल होती हैं जहां अवलोकन, परीक्षण या प्रश्नावली द्वारा व्यक्तियों से माप एकत्र किए जाते हैं। क्रमिक डेटा के संग्रह के लिए कुछ सामान्य संदर्भों में सर्वेक्षण (मानव अनुसंधान) शामिल हैं;[17][18] और बुद्धि लब्धि, परीक्षण (मूल्यांकन), व्यक्तित्व परीक्षण परीक्षण और निर्णय लेना[2][4]: 89–90 

सांख्यिकीय प्रभुत्व के माप के रूप में क्रमिक डेटा का उपयोग करके 'प्रभाव आकार' (क्लिफ के डेल्टा डी) की गणना की सिफारिश की गई है।[19]


यह भी देखें

संदर्भ

  1. 1.0 1.1 1.2 1.3 Agresti, Alan (2013). श्रेणीबद्ध डेटा विश्लेषण (3 ed.). Hoboken, New Jersey: John Wiley & Sons. ISBN 978-0-470-46363-5.
  2. 2.0 2.1 Ataei, Younes; Mahmoudi, Amin; Feylizadeh, Mohammad Reza; Li, Deng-Feng (January 2020). "एकाधिक गुण निर्णय लेने में सामान्य प्राथमिकता दृष्टिकोण (ओपीए)।". Applied Soft Computing. 86: 105893. doi:10.1016/j.asoc.2019.105893. ISSN 1568-4946. S2CID 209928171.
  3. 3.0 3.1 Stevens, S. S. (1946). "माप के तराजू के सिद्धांत पर". Science. New Series. 103 (2684): 677–680. Bibcode:1946Sci...103..677S. doi:10.1126/science.103.2684.677. PMID 17750512.
  4. 4.0 4.1 4.2 Cohen, Ronald Jay; Swerdik, Mark E.; Phillips, Suzanne M. (1996). Psychological Testing and Assessment: An Introduction to Tests and Measurement (3rd ed.). Mountain View, CA: Mayfield. pp. 685. ISBN 1-55934-427-X.
  5. 5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 Siegel, Sidney; Castellan, N. John Jr. (1988). स्वभावजन्य विज्ञान के लिए नॉनपैरामीट्रिक आंकड़े (2nd ed.). Boston: McGraw-Hill. pp. 25–26. ISBN 0-07-057357-3.
  6. Jamieson, Susan (December 2004). "Likert scales: how to (ab)use them" (PDF). Medical Education. 38 (12): 1212–1218. doi:10.1111/j.1365-2929.2004.02012.x. PMID 15566531. S2CID 42509064.
  7. Sarle, Warren S. (Sep 14, 1997). "Measurement theory: Frequently asked questions".
  8. van Belle, Gerald (2002). अंगूठे के सांख्यिकीय नियम. New York: John Wiley & Sons. pp. 23–24. ISBN 0-471-40227-3.
  9. 9.00 9.01 9.02 9.03 9.04 9.05 9.06 9.07 9.08 9.09 9.10 9.11 Blalock, Hubert M. Jr. (1979). सामाजिक सांख्यिकी (Rev. 2nd ed.). New York: McGraw-Hill. ISBN 0-07-005752-4.
  10. Cohen, Jacob; Cohen, Patricia (1983). Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences (2nd ed.). Hillsdale, New Jersey: Lawrence Erlbaum Associates. p. 273. ISBN 0-89859-268-2.
  11. Laird, Nan M. (1979). "ऑर्डिनल-स्केल डेटा को वर्गीकृत करने पर एक नोट". Sociological Methodology. 10: 303–310. doi:10.2307/270775. JSTOR 270775.
  12. 12.0 12.1 Agresti, Alan (2010). सामान्य श्रेणीबद्ध डेटा का विश्लेषण (2nd ed.). Hoboken, New Jersey: Wiley. ISBN 978-0470082898.
  13. "Plotting Techniques".
  14. Berinato, Scott (2016). Good Charts: The HBR Guide to Making Smarter, More Persuasive Data Visualizations. Boston: Harvard Business Review Press. p. 228. ISBN 978-1633690707.
  15. Kirk, Andy (2016). Data Visualisation: A Handbook for Data Driven Design (1st ed.). London: SAGE. p. 269. ISBN 978-1473912144.
  16. Cairo, Alberto (2016). The Truthful Art: Data, Charts, and Maps for Communication (1st ed.). San Francisco: New Riders. p. 280. ISBN 978-0321934079.
  17. Alwin, Duane F. (2010). Marsden, Peter V.; Wright, James D. (eds.). सर्वेक्षण उपायों की विश्वसनीयता और वैधता का आकलन करना. p. 420. ISBN 978-1-84855-224-1. {{cite book}}: |work= ignored (help)CS1 maint: location (link)
  18. Fowler, Floyd J. Jr. (1995). Improving Survey Questions: Design and Evaluation. Thousand Oaks, CA: Sage. pp. 156–165. ISBN 0-8039-4583-3.
  19. Cliff, Norman (November 1993). "Dominance statistics: Ordinal analyses to answer ordinal questions". Psychological Bulletin (in English). 114 (3): 494–509. doi:10.1037/0033-2909.114.3.494. ISSN 1939-1455.


अग्रिम पठन

  • Agresti, Alan (2010). Analysis of Ordinal Categorical Data (2nd ed.). Hoboken, New Jersey: Wiley. ISBN 978-0470082898.