सामान्य डेटा

From Vigyanwiki

सामान्य डेटा एक श्रेणीबद्ध, सांख्यिकीय डेटा प्रकार है जहां चर में प्राकृतिक, क्रमबद्ध श्रेणियां होती हैं और श्रेणियों के बीच की दूरी ज्ञात नहीं होती है।[1]: 2  ये डेटा क्रमिक मापदंड पर उपस्थित हैं, जो स्टैनली स्मिथ स्टीवंस या एस द्वारा वर्णित माप के चार स्तरों में से एक है। 1946 में एस. स्टीवंस क्रमिक मापदंड को रैंकिंग के कारण नाममात्र मापदंड से अलग किया जाता है।[2] यह अंतराल मापदंड और अनुपात मापदंड से भिन्न होता है क्योंकि इसमें श्रेणी की चौड़ाई नहीं होती है जो अंतर्निहित विशेषता की समान वृद्धि का प्रतिनिधित्व करती है।[3]

क्रमिक डेटा के उदाहरण

क्रमिक डेटा का एक प्रसिद्ध उदाहरण लाइकेर्ट स्केल है। लिकर्ट स्केल का एक उदाहरण है:[4]: 685 

लाइक लाइक समव्हाट न्यूट्रल डिसलाइक समव्हाट डिसलाइक
1 2 3 4 5

क्रमिक डेटा के उदाहरण अधिकांशत: प्रश्नावली में पाए जाते हैं: उदाहरण के लिए, सर्वेक्षण प्रश्न क्या आपका सामान्य स्वास्थ्य खराब, उचित, अच्छा या उत्कृष्ट है? उन उत्तरों को क्रमशः 1, 2, 3, और 4 के रूप में कोडित किया जा सकता है। कभी-कभी अंतराल मापदंड या अनुपात मापदंड पर डेटा को क्रमिक मापदंड पर समूहीकृत किया जाता है: उदाहरण के लिए, जिन व्यक्तियों की आय ज्ञात है उन्हें आय श्रेणियों में समूहीकृत किया जा सकता है $0-$19,999 , $20,000-$39,999, $40,000-$59,999, ..., जिसे तब 1, 2, 3, 4, ... के रूप में कोडित किया जा सकता है। क्रमिक डेटा के अन्य उदाहरणों में सामाजिक आर्थिक स्थिति, सैन्य सीमा और पाठ्यक्रम के लिए पत्र ग्रेड सम्मिलित हैं।[5]


क्रमिक डेटा का विश्लेषण करने के विधि

सामान्य डेटा विश्लेषण के लिए अन्य गुणात्मक चर की तुलना में विश्लेषण के एक अलग सेट की आवश्यकता होती है। इन विधियों में शक्ति की हानि से बचने के लिए चरों के प्राकृतिक क्रम को सम्मिलित किया गया है।[1]: 88  क्रमिक डेटा के नमूने के माध्य की गणना करने को हतोत्साहित किया जाता है; मध्यिका या मोड सहित केंद्रीय प्रवृत्ति के अन्य उपाय समान्यत: अधिक उपयुक्त होते हैं।[6]

सामान्य

स्टीवंस (1946) ने तर्क दिया कि, क्योंकि श्रेणियों के बीच समान दूरी की धारणा क्रमिक डेटा के लिए प्रयुक्त नहीं होती है, इसलिए क्रमिक वितरण और साधनों और मानक विचलनों के आधार पर अनुमानित डेटा के विवरण के लिए साधनों और मानक विचलनों का उपयोग उचित नहीं था। इसके अतिरिक्त नाममात्र डेटा (स्थितयों की संख्या, मोड, आकस्मिक सहसंबंध) के लिए उपयुक्त वर्णनात्मक डेटा के अतिरिक्त माध्यिका और प्रतिशत जैसे स्थितीय उपायों का उपयोग किया जाना चाहिए।[3]: 678  गैर-पैरामीट्रिक डेटा को क्रमिक डेटा (जैसे, केंडल के डब्ल्यू, स्पीयरमैन के सीमा सहसंबंध गुणांक,आदि) से जुड़े अनुमानात्मक डेटा के लिए सबसे उपयुक्त प्रक्रियाओं के रूप में प्रस्तावित किया गया है, विशेष रूप से सीमा माप के विश्लेषण के लिए विकसित किए गए।[5]: 25–28  चूँकि उपलब्ध सांख्यिकीय प्रक्रियाओं की बड़ी सीमा का लाभ उठाने के लिए कुछ चेतावनियों के साथ क्रमिक डेटा के लिए पैरामीट्रिक डेटा का उपयोग स्वीकार्य हो सकता है।[7][8][4]: 90 

एकविभिन्न आँकड़े

साधन और मानक विचलन के स्थान पर, क्रमिक डेटा के लिए उपयुक्त अविभाज्य डेटा में माध्यिका सम्मिलित है,[9]: 59–61  अन्य शतमक (जैसे चतुर्थक और दशमलव),[9]: 71  और चतुर्थक विचलन.[9]: 77  क्रमिक डेटा के लिए एक-नमूना परीक्षण में कोलमोगोरोव-स्मिरनोव परीक्षण सम्मिलित है| कोलमोगोरोव-स्मिरनोव एक-नमूना परीक्षण,[5]: 51–55  वाल्ड-वुल्फोवित्ज़ परीक्षण चलाता है|एक-नमूना परीक्षण चलाता है,[5]: 58–64  और परिवर्तन-बिंदु परीक्षण सम्मिलितहैं।[5]: 64–71 

द्विचर आँकड़े

टी-परीक्षणों के साथ साधनों में अंतर का परीक्षण करने के बदले, दो स्वतंत्र नमूनों से क्रमिक डेटा के वितरण में अंतर का परीक्षण मैन-व्हिटनी के साथ किया जा सकता है।[9]: 259–264    रन,[9]: 253–259    स्मिरनोव,,[9]: 266–269  और हस्ताक्षरित-रैंक[9]: 269–273   परीक्षण दो संबंधित या मिलान किए गए नमूनों के परीक्षण में साइन परीक्षण [5]: 80–87  और विलकॉक्सन हस्ताक्षरित सीमा परीक्षण सम्मिलितहैं।[5]: 87–95   सीमा के साथ विचरण का विश्लेषण[9]: 367–369  और आदेशित के लिए जॉन्केहीर परीक्षण विकल्प[5]: 216–222   स्वतंत्र नमूनों एनोवा के स्थान पर क्रमिक डेटा के साथ संचालित किया जा सकता है। दो से अधिक संबंधित नमूनों के परीक्षणों में रैंकों द्वारा भिन्नता का फ्रीडमैन दो-तरफ़ा विश्लेषण सम्मिलित है[5]: 174–183   और क्रमित किए गए विकल्पों के लिए पेज परीक्षण।[5]: : 184–188   दो क्रमिक-स्केल वाले चर के लिए उपयुक्त सहसंबंध उपायों में सम्मिलित हैं केंडल का ताऊ,[9]: 442–443   गामा,[9]: : 434–436   rs और dyx/dxy.[9]: 443 

प्रतिगमन अनुप्रयोग

सामान्य डेटा को एक मात्रात्मक चर के रूप में माना जा सकता है। संभार तन्त्र परावर्तन में, समीकरण

मॉडल है और सी श्रेणीबद्ध के निर्दिष्ट स्तरों पर ले जाता है मापदंड [1]: 189  प्रतिगमन विश्लेषण में परिणाम (आश्रित चर) जो क्रमसूचक चर होते हैं, उनका अनुमान क्रमवाचक प्रतिगमन के एक प्रकार का उपयोग करके लगाया जा सकता है, जैसे कि क्रमित किए गए लॉगिट या क्रमित किए गए प्रोबिट है।

एकाधिक प्रतिगमन/सहसंबंध विश्लेषण में, क्रमिक डेटा को पावर बहुपदों का उपयोग करके और स्कोर और सीमा के सामान्यीकरण के माध्यम से समायोजित किया जा सकता है।[10]

रैखिक रुझान

रैखिक रुझानों का उपयोग समान्यत: आकस्मिक तालिकाओं में क्रमिक डेटा और अन्य श्रेणीबद्ध चर के बीच संबंध खोजने के लिए भी किया जाता है। उन चरों के बीच एक सहसंबंध r पाया जाता है जहां r -1 और 1 के बीच होता है प्रवृत्ति का परीक्षण करने के लिए एक परीक्षण आँकड़ा है:

इसका उपयोग वहां किया जाता है जहां n नमूना आकार है।[1]: 87 

R को को पंक्ति स्कोर और को स्तम्भ स्कोर मानकर पाया जा सकता है। मान लीजिए कि पंक्ति स्कोर का माध्य है जबकि तो सीमांत पंक्ति संभावना है और सीमांत स्तंभ संभावना है। R की गणना इस प्रकार की जाती है:


वर्गीकरण विधियाँ

क्रमिक डेटा के लिए वर्गीकरण विधियाँ भी विकसित की गई हैं। डेटा को अलग-अलग श्रेणियों में विभाजित किया गया है जिससे प्रत्येक अवलोकन दूसरों के समान होता है। वर्गीकरण परिणामों को अधिकतम करने के लिए प्रत्येक समूह में फैलाव को मापा और न्यूनतम किया जाता है। फैलाव कार्य का उपयोग सूचना सिद्धांत में किया जाता है।[11]

क्रमिक डेटा के लिए सांख्यिकीय मॉडल

ऐसे कई अलग-अलग मॉडल हैं जिनका उपयोग क्रमिक डेटा की संरचना का वर्णन करने के लिए किया जा सकता है।[12] मॉडल के चार प्रमुख वर्गों का वर्णन नीचे किया गया है, प्रत्येक को यादृच्छिक चर के लिए परिभाषित किया गया है, जिसका स्तर द्वारा अनुक्रमित है।

ध्यान दें कि नीचे दी गई मॉडल परिभाषाओं में, और के मान डेटा के समान सेट के लिए सभी मॉडलों के लिए समान नहीं होंगे, किंतु विभिन्न मॉडलों की संरचना की तुलना करने के लिए संकेतन का उपयोग किया जाता है।

आनुपातिक अंतर मॉडल

क्रमिक डेटा के लिए सबसे अधिक उपयोग किया जाने वाला मॉडल आनुपातिक बाधा मॉडल है, जिसे द्वारा परिभाषित किया गया है जहां पैरामीटर क्रमिक डेटा के आधार वितरण का वर्णन करते हैं, सहसंयोजक हैं और सहसंयोजकों के प्रभावों का वर्णन करने वाले गुणांक हैं।

इस मॉडल को के अतिरिक्त का उपयोग करके मॉडल को परिभाषित करके सामान्यीकृत किया जा सकता है, और यह मॉडल को नाममात्र डेटा (जिसमें श्रेणियों का कोई प्राकृतिक क्रम नहीं है) के साथ-साथ क्रमिक डेटा के लिए उपयुक्त बना देगा। चूँकि यह सामान्यीकरण मॉडल को डेटा में फिट करना अधिक कठिन बना सकता है।

बेसलाइन श्रेणी लॉगिट मॉडल

बेसलाइन श्रेणी मॉडल को द्वारा परिभाषित किया गया है।


यह मॉडल श्रेणियों पर कोई आदेश प्रयुक्त नहीं करता है और इसलिए इसे नाममात्र डेटा के साथ-साथ क्रमिक डेटा पर भी प्रयुक्त किया जा सकता है।

क्रमित किया गया स्टीरियोटाइप मॉडल

क्रमित किए गए स्टीरियोटाइप मॉडल को द्वारा परिभाषित किया गया है जहां स्कोर पैरामीटर इस तरह सीमित हैं कि

यह बेसलाइन श्रेणी लॉगिट मॉडल की तुलना में अधिक मितव्ययी और अधिक विशिष्ट मॉडल है, जिसे के समान माना जा सकता है।

गैर-आदेशित स्टीरियोटाइप मॉडल का रूप आदेशित स्टीरियोटाइप मॉडल के समान होता है, किंतु पर लगाए गए आदेश के बिना इस मॉडल को नाममात्र डेटा पर प्रयुक्त किया जा सकता है।

ध्यान दें कि फिट किए गए स्कोर, दर्शाते हैं कि के विभिन्न स्तरों के बीच अंतर करना कितना आसान है। यदि तो यह निरुपित करता है कि सहसंयोजक के लिए डेटा का वर्तमान सेट अधिक जानकारी प्रदान नहीं करता है स्तर k और k-1 के बीच अंतर करने के लिए, किंतु इसका अर्थ यह नहीं है कि वास्तविक मान k और k-1 बहुत दूर हैं। और यदि सहसंयोजकों के मान बदलते हैं, तो उस नए डेटा के लिए फिट किए गए स्कोर और बहुत दूर हो सकते हैं।

आसन्न श्रेणियां लॉगिट मॉडल

आसन्न श्रेणियों के मॉडल को द्वारा परिभाषित किया गया है, चूँकि सबसे सामान्य रूप, जिसे एग्रेस्टी (2010) [12] में "आनुपातिक विषम रूप" के रूप में संदर्भित किया गया है, द्वारा परिभाषित किया गया है।

यह मॉडल केवल क्रमिक डेटा पर प्रयुक्त किया जा सकता है, क्योंकि एक श्रेणी से अगली श्रेणी में बदलाव की संभावनाओं को मॉडलिंग करने से तात्पर्य है कि उन श्रेणियों का क्रम उपस्थित है।

आसन्न श्रेणियों के लॉगिट मॉडल को बेसलाइन श्रेणी के लॉगिट मॉडल के एक विशेष स्थिति के रूप में माना जा सकता है, जहां आसन्न श्रेणियों के लॉगिट मॉडल को क्रम किए गए स्टीरियोटाइप मॉडल के एक विशेष स्थिति के रूप में भी सोचा जा सकता है, जहां अथार्त के बीच की दूरी डेटा के आधार पर अनुमान लगाने के अतिरिक्त पहले से परिभाषित की जाती है।

मॉडलों के बीच तुलना

आनुपातिक अंतर मॉडल की संरचना अन्य तीन मॉडलों से बहुत अलग है, और एक अलग अंतर्निहित अर्थ भी है। ध्यान दें कि आनुपातिक अंतर मॉडल में संदर्भ श्रेणी का आकार k के साथ भिन्न होता है, क्योंकि की तुलना से की जाती है, जबकि अन्य मॉडल में संदर्भ श्रेणी का आकार निश्चित रहता है, क्योंकि की तुलना या . से की जाती है।

विभिन्न लिंक कार्य

सभी मॉडलों के भिन्न रूप हैं जो विभिन्न लिंक फ़ंक्शंस का उपयोग करते हैं जैसे कि प्रोबिट लिंक या पूरक लॉग-लॉग लिंक है।

विज़ुअलाइज़ेशन और प्रदर्शन

सामान्य डेटा को कई अलग-अलग विधियों से देखा जा सकता है। सामान्य विज़ुअलाइज़ेशन बार चार्ट या पाई चार्ट हैं। तालिका (सूचना) क्रमिक डेटा और आवृत्तियों को प्रदर्शित करने के लिए भी उपयोगी हो सकती है। मोज़ेक कथानक का उपयोग क्रमिक चर और नाममात्र या क्रमिक चर के बीच संबंध दिखाने के लिए किया जा सकता है।[13] एक बम्प चार्ट - एक लाइन चार्ट जो एक समय बिंदु से दूसरे बिंदु तक वस्तुओं की सापेक्ष रैंकिंग दिखाता है - क्रमिक डेटा के लिए भी उपयुक्त है।[14]

डेटा की क्रमबद्ध प्रकृति को दर्शाने के लिए रंग या ग्रेस्केल ग्रेडेशन का उपयोग किया जा सकता है। एकल-दिशा मापदंड , जैसे कि आय श्रेणियां, को एक बार चार्ट के साथ दर्शाया जा सकता है जहां एकल रंग की बढ़ती (या घटती) संतृप्ति या हल्कापन उच्च (या निम्न) आय को निरुपित करता है। दोहरे दिशा मापदंड पर मापे गए चर का क्रमिक वितरण, जैसे कि लिकर्ट स्केल, को स्टैक्ड बार चार्ट में रंग के साथ चित्रित किया जा सकता है। मध्य (शून्य या तटस्थ) बिंदु के लिए एक तटस्थ रंग (सफेद या ग्रे) का उपयोग किया जा सकता है, मध्य बिंदु से विपरीत दिशाओं में विपरीत रंगों का उपयोग किया जा सकता है, जहां रंगों की बढ़ती संतृप्ति या अंधेरा मध्य बिंदु से बढ़ती दूरी पर श्रेणियों का संकेत दे सकता है।[15] कोरोप्लेथ मानचित्र क्रमिक डेटा प्रदर्शित करने के लिए रंग या ग्रेस्केल शेडिंग का भी उपयोग करते हैं।[16]

Example bar plot of opinion on defense spending.
Example bump plot of opinion on defense spending by political party.
Example mosaic plot of opinion on defense spending by political party.
Example stacked bar plot of opinion on defense spending by political party.


अनुप्रयोग

क्रमिक डेटा का उपयोग अनुसंधान के अधिकांश क्षेत्रों में पाया जा सकता है जहां श्रेणीबद्ध डेटा उत्पन्न होता है। सेटिंग्स जहां क्रमिक डेटा अधिकांशत: एकत्र किया जाता है, उनमें सामाजिक और व्यवहार विज्ञान और सरकारी और व्यावसायिक सेटिंग्स सम्मिलित होती हैं जहां अवलोकन, परीक्षण या प्रश्नावली द्वारा व्यक्तियों से माप एकत्र किए जाते हैं। क्रमिक डेटा के संग्रह के लिए कुछ सामान्य संदर्भों में सर्वेक्षण (मानव अनुसंधान) सम्मिलित हैं;[17][18] और बुद्धि लब्धि, परीक्षण (मूल्यांकन), व्यक्तित्व परीक्षण परीक्षण और निर्णय लिया जाता है।[2][4]: 89–90 

सांख्यिकीय प्रभुत्व के माप के रूप में क्रमिक डेटा का उपयोग करके 'प्रभाव आकार' (क्लिफ के डेल्टा डी) की गणना की पक्षसमर्थन की गई है।[19]


यह भी देखें

संदर्भ

  1. 1.0 1.1 1.2 1.3 Agresti, Alan (2013). श्रेणीबद्ध डेटा विश्लेषण (3 ed.). Hoboken, New Jersey: John Wiley & Sons. ISBN 978-0-470-46363-5.
  2. 2.0 2.1 Ataei, Younes; Mahmoudi, Amin; Feylizadeh, Mohammad Reza; Li, Deng-Feng (January 2020). "एकाधिक गुण निर्णय लेने में सामान्य प्राथमिकता दृष्टिकोण (ओपीए)।". Applied Soft Computing. 86: 105893. doi:10.1016/j.asoc.2019.105893. ISSN 1568-4946. S2CID 209928171.
  3. 3.0 3.1 Stevens, S. S. (1946). "माप के तराजू के सिद्धांत पर". Science. New Series. 103 (2684): 677–680. Bibcode:1946Sci...103..677S. doi:10.1126/science.103.2684.677. PMID 17750512.
  4. 4.0 4.1 4.2 Cohen, Ronald Jay; Swerdik, Mark E.; Phillips, Suzanne M. (1996). Psychological Testing and Assessment: An Introduction to Tests and Measurement (3rd ed.). Mountain View, CA: Mayfield. pp. 685. ISBN 1-55934-427-X.
  5. 5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 Siegel, Sidney; Castellan, N. John Jr. (1988). स्वभावजन्य विज्ञान के लिए नॉनपैरामीट्रिक आंकड़े (2nd ed.). Boston: McGraw-Hill. pp. 25–26. ISBN 0-07-057357-3.
  6. Jamieson, Susan (December 2004). "Likert scales: how to (ab)use them" (PDF). Medical Education. 38 (12): 1212–1218. doi:10.1111/j.1365-2929.2004.02012.x. PMID 15566531. S2CID 42509064.
  7. Sarle, Warren S. (Sep 14, 1997). "Measurement theory: Frequently asked questions".
  8. van Belle, Gerald (2002). अंगूठे के सांख्यिकीय नियम. New York: John Wiley & Sons. pp. 23–24. ISBN 0-471-40227-3.
  9. 9.00 9.01 9.02 9.03 9.04 9.05 9.06 9.07 9.08 9.09 9.10 Blalock, Hubert M. Jr. (1979). सामाजिक सांख्यिकी (Rev. 2nd ed.). New York: McGraw-Hill. ISBN 0-07-005752-4.
  10. Cohen, Jacob; Cohen, Patricia (1983). Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences (2nd ed.). Hillsdale, New Jersey: Lawrence Erlbaum Associates. p. 273. ISBN 0-89859-268-2.
  11. Laird, Nan M. (1979). "ऑर्डिनल-स्केल डेटा को वर्गीकृत करने पर एक नोट". Sociological Methodology. 10: 303–310. doi:10.2307/270775. JSTOR 270775.
  12. 12.0 12.1 Agresti, Alan (2010). सामान्य श्रेणीबद्ध डेटा का विश्लेषण (2nd ed.). Hoboken, New Jersey: Wiley. ISBN 978-0470082898.
  13. "Plotting Techniques".
  14. Berinato, Scott (2016). Good Charts: The HBR Guide to Making Smarter, More Persuasive Data Visualizations. Boston: Harvard Business Review Press. p. 228. ISBN 978-1633690707.
  15. Kirk, Andy (2016). Data Visualisation: A Handbook for Data Driven Design (1st ed.). London: SAGE. p. 269. ISBN 978-1473912144.
  16. Cairo, Alberto (2016). The Truthful Art: Data, Charts, and Maps for Communication (1st ed.). San Francisco: New Riders. p. 280. ISBN 978-0321934079.
  17. Alwin, Duane F. (2010). Marsden, Peter V.; Wright, James D. (eds.). सर्वेक्षण उपायों की विश्वसनीयता और वैधता का आकलन करना. p. 420. ISBN 978-1-84855-224-1. {{cite book}}: |work= ignored (help)CS1 maint: location (link)
  18. Fowler, Floyd J. Jr. (1995). Improving Survey Questions: Design and Evaluation. Thousand Oaks, CA: Sage. pp. 156–165. ISBN 0-8039-4583-3.
  19. Cliff, Norman (November 1993). "Dominance statistics: Ordinal analyses to answer ordinal questions". Psychological Bulletin (in English). 114 (3): 494–509. doi:10.1037/0033-2909.114.3.494. ISSN 1939-1455.


अग्रिम पठन

  • Agresti, Alan (2010). Analysis of Ordinal Categorical Data (2nd ed.). Hoboken, New Jersey: Wiley. ISBN 978-0470082898.