डेटा परिवर्तन (सांख्यिकी)



डेटा में, डेटा परिवर्तन डेटा सेट में प्रत्येक बिंदु पर एक नियतात्मक गणितीय फलन का अनुप्रयोग है - अर्थात, प्रत्येक डेटा बिंदु zi को रूपांतरित मान yi = f(zi) से बदल दिया जाता है, जहां f एक फलन है। ट्रांसफॉर्म समान्यत: प्रयुक्त किए जाते हैं जिससे डेटा प्रयुक्त होने वाली सांख्यिकीय अनुमान प्रक्रिया की मान्यताओं को अधिक निकटता से पूरा कर सकता है या ग्राफ़ की व्याख्या या उपस्थिति में सुधार कर सकता है ।

लगभग सदैव डेटा को बदलने के लिए उपयोग किया जाने वाला फलन विपरीत कार्य होता है, और समान्यत: निरंतर कार्य होता है। परिवर्तन समान्यत: तुलनीय मापों के संग्रह पर प्रयुक्त होता है। उदाहरण के लिए, यदि हम किसी मुद्रा इकाई में लोगों की आय पर डेटा के साथ काम कर रहे हैं, तो लॉगरिदम फलन द्वारा प्रत्येक व्यक्ति के आय मूल्य को बदलना सामान्य होता है।

प्रेरणा
डेटा को कैसे रूपांतरित किया जाना चाहिए, या क्या कोई परिवर्तन प्रयुक्त किया जाना चाहिए, इसके लिए मार्गदर्शन में विशेष सांख्यिकीय विश्लेषण से किया जाना चाहिए। उदाहरण के लिए जनसंख्या माध्य के लिए लगभग 95% विश्वास अंतराल बनाने का एक सरल विधि अंकगणितीय माध्य प्लस या माइनस दो मानक त्रुटि इकाइयां लेना है। चूँकि यहां उपयोग किया गया निरंतर कारक 2 सामान्य वितरण के लिए विशेष रूप से है, और केवल तभी प्रयुक्त होता है जब नमूना माध्य लगभग सामान्य रूप से भिन्न होता है। केंद्रीय सीमा प्रमेय कहता है कि कई स्थितियों में, नमूना का औसत सामान्य रूप से भिन्न होता है यदि नमूना आकार यथोचित रूप से बड़ा हो। चूँकि यदि सांख्यिकीय संख्या अधिक सीमा तक तिरछी है और नमूना आकार सबसे मध्यम है, तो केंद्रीय सीमा प्रमेय द्वारा प्रदान किया गया अनुमान व्यर्थ हो सकता है, और इसमें परिणामी विश्वास अंतराल में गलत कवरेज संभावना होगी। इस प्रकार, जब डेटा में पर्याप्त विषमता का प्रमाण होता है, तो डेटा को समरूपता संभाव्यता वितरण में बदलना समान्य बात है विश्वास अंतराल बनाने से पहले यदि वांछित है, तो विश्वास अंतराल को डेटा पर प्रयुक्त किए गए परिवर्तन के व्युत्क्रम का उपयोग करके मूल मापदंड पर वापस रूपांतरित किया जा सकता है।

उन्हें देखने में आसान बनाने के लिए डेटा को भी रूपांतरित किया जा सकता है। उदाहरण के लिए, मान लीजिए कि हमारे पास एक स्कैटरप्लॉट है जिसमें बिंदु दुनिया के देश हैं, और प्लॉट किए जा रहे डेटा मान प्रत्येक देश का भूमि क्षेत्र और जनसंख्या हैं। यदि प्लॉट अपरिवर्तित डेटा (जैसे क्षेत्र के लिए वर्ग किलोमीटर और जनसंख्या के लिए लोगों की संख्या) का उपयोग करके बनाया गया है, तो अधिकांश देशों को ग्राफ़ के निचले बाएँ कोने में बिंदुओं के तंग समूह में प्लॉट किया जाएगा। बहुत बड़े क्षेत्रों और/या संख्या वाले कुछ देश ग्राफ़ के अधिकांश क्षेत्र में बहुत कम फैले होंगे। मात्र रीस्केलिंग इकाइयां (जैसे, हजार वर्ग किलोमीटर या लाखों लोगों के लिए) इसे नहीं बदलेगी। चूँकि क्षेत्र और जनसंख्या दोनों के लॉगरिदमिक परिवर्तनों के बाद अंक ग्राफ़ में अधिक समान रूप से फैले होते है।

डेटा परिवर्तन को प्रयुक्त करने का एक अन्य कारण व्याख्यात्मकता में सुधार करना है, तथापि कोई औपचारिक सांख्यिकीय विश्लेषण या विज़ुअलाइज़ेशन न किया गया हो। उदाहरण के लिए मान लीजिए कि हम कारों की तुलना उनकी ईंधन अर्थव्यवस्था के संदर्भ में कर रहे हैं। ये डेटा समान्यत: किलोमीटर प्रति लीटर या मील प्रति गैलन के रूप में प्रस्तुत किए जाते हैं। चूँकि यदि लक्ष्य यह आकलन करना है कि एक कार चलाते समय एक व्यक्ति दूसरे की तुलना में एक वर्ष में कितना अतिरिक्त ईंधन का उपयोग किया जायगा, तो गुणक व्युत्क्रम को प्रयुक्त करके रूपांतरित डेटा के साथ काम करना अधिक स्वाभाविक है, लीटर प्रति किलोमीटर, या गैलन प्रति मील है ।

प्रतिगमन में
यदि मूल डेटा रैखिक प्रतिगमन की एक या अधिक मान्यताओं का उल्लंघन करता है, तो डेटा को रैखिक प्रतिगमन के साथ मॉडलिंग के लिए उपयुक्त बनाने के लिए उपचारात्मक उपाय के रूप में डेटा परिवर्तन का उपयोग किया जा सकता है। उदाहरण के लिए, सबसे सरल रेखीय प्रतिगमन मॉडल Y के अपेक्षित मूल्य (आश्रित और स्वतंत्र चर या पूर्वानुमान किए जाने वाले सांख्यिकी समानार्थक शब्द) और प्रत्येक आश्रित और स्वतंत्र चर (जब अन्य स्वतंत्र चर तय किए जाते हैं) के बीच एक रैखिक संबंध मानते हैं। यदि रैखिकता लगभग भी धारण करने में विफल रहती है, तो कभी-कभी रैखिकता में सुधार के लिए प्रतिगमन मॉडल में स्वतंत्र या आश्रित चर को बदलना संभव होता है। उदाहरण के लिए, मूल स्वतंत्र चर के द्विघात कार्यों को जोड़ने से Y के अपेक्षित मूल्य के साथ एक रैखिक संबंध हो सकता है, जिसके परिणामस्वरूप बहुपद प्रतिगमन मॉडल, रैखिक प्रतिगमन का एक विशेष स्थिति होता है।

रेखीय प्रतिगमन की एक और धारणा समरूपता है, जो कि त्रुटियों का विचरण है और भविष्यवाणियों के मूल्यों की परवाह किए बिना अवशिष्ट समान होना चाहिए। यदि इस धारणा का उल्लंघन किया जाता है (अर्थात यदि डेटा विषमलैंगिकता है), तो अकेले Y का परिवर्तन, या दोनों X (आश्रित और स्वतंत्र चर या सांख्यिकी समानार्थक शब्द) और Y का परिवर्तन संभव हो सकता है, जैसे कि समरूपता धारणा ( रैखिकता धारणा के अतिरिक्त) रूपांतरित चरों पर सत्य है और इन पर रैखिक प्रतिगमन प्रयुक्त किया जा सकता है।

फिर भी डेटा परिवर्तन का एक अन्य अनुप्रयोग त्रुटि के संदर्भ में सामान्य वितरण की कमी की समस्या का समाधान करना है। प्रतिगमन मापदंडों के कम से कम वर्गों के अनुमानों के सार्थक होने के लिए यूनीवेरिएट सामान्यता की आवश्यकता नहीं है (गॉस-मार्कोव प्रमेय देखें)। चूँकि विश्वास अंतराल और परिकल्पना परीक्षण में उत्तम सांख्यिकीय गुण होंगे यदि चर बहुभिन्नरूपी सामान्य वितरण प्रदर्शित करते हैं। रूपांतरण जो त्रुटि नियमो के भिन्नता को स्थिर करते हैं (अथार्त वे जो विषमलैंगिकता को संबोधित करते हैं) अधिकांशत:त्रुटि नियमो को लगभग सामान्य बनाने में भी सहायता करते हैं।

उदाहरण
समीकरण

$$Y = a + bX$$
 * अर्थ: X में एक इकाई वृद्धि, Y में औसत b इकाइयों की वृद्धि के साथ जुड़ी हुई है।

समीकरण:

$$\log(Y) = a + bX$$
 * (समीकरण के दोनों पक्षों के घातांक से: $$Y = e^a e^{bX}$$)
 * अर्थ: X में एक इकाई वृद्धि $$\log(Y)$$ में b इकाइयों की औसत वृद्धि से जुड़ी है, या समकक्ष, Y औसतन $$e^{b}\!$$ के गुणक कारक से बढ़ती है। उदाहरणात्मक उद्देश्यों के लिए, यदि उपरोक्त परिवर्तन में प्राकृतिक लघुगणक के स्थान पर आधार-10 लघुगणक का उपयोग किया जाता है और प्रतिगमन गुणांक को दर्शाने के लिए समान प्रतीकों (a और b) का उपयोग किया जाता है, तो x में एक इकाई वृद्धि से $$10^{b}$$Y में औसतन कई गुना वृद्धि होती है। यदि बी 1 था, तो इसका मतलब x में एक इकाई वृद्धि के लिए वाई में 10 गुना वृद्धि है

समीकरण:

$$Y = a + b \log(X)$$
 * अर्थ: X में k-गुना वृद्धि, Y में औसतन $$b \times \log(k)$$ इकाइयों की वृद्धि से जुड़ी है। उदाहरण के लिए, यदि आधार-10 लघुगणक उपरोक्त परिवर्तन में प्राकृतिक लघुगणक के अतिरिक्त उपयोग किया गया था और समान प्रतीकों (a और b ) का उपयोग प्रतिगमन गुणांक को दर्शाने के लिए किया जाता है, तो x में दस गुना वृद्धि के परिणामस्वरूप y में $$b \times \log_{10}(10) = b$$ इकाइयों की औसत वृद्धि होगी

समीकरण:

$$\log(Y) = a + b \log(X)$$
 * (समीकरण के दोनों पक्षों के घातांक से: $$Y = e^a X^{b}$$)
 * अर्थ: X में $$k^{b}$$-गुना वृद्धि औसतन Y में गुणात्मक वृद्धि से जुड़ी होती है। इस प्रकार यदि X दोगुना हो जाता है, तो इसके परिणामस्वरूप Y में $$2^{b}\!$$ के गुणक कारक से परिवर्तन होगा।

वैकल्पिक
सामान्यीकृत रैखिक मॉडल (जीएलएम) सामान्य रैखिक प्रतिगमन का एक लचीला सामान्यीकरण प्रदान करते हैं जो प्रतिक्रिया चर के लिए अनुमति देता है जिसमें सामान्य वितरण के अतिरिक्त त्रुटि वितरण मॉडल होते हैं। जीएलएम रैखिक मॉडल को एक लिंक फलन के माध्यम से प्रतिक्रिया चर से संबंधित होने की अनुमति देते हैं और प्रत्येक माप के विचरण के परिमाण को इसके अनुमानित मूल्य का एक कार्य होने की अनुमति देते हैं।

सामान्य मामले
लघुगणक परिवर्तन और वर्गमूल परिवर्तन का उपयोग समान्यत: सकारात्मक डेटा के लिए किया जाता है, और गुणात्मक व्युत्क्रम परिवर्तन (पारस्परिक परिवर्तन) का उपयोग गैर-शून्य डेटा के लिए किया जा सकता है। पावर ट्रांसफॉर्मेशन (सांख्यिकी) एक गैर-नकारात्मक मान λ द्वारा परिचालित परिवर्तनों का एक वर्ग है जिसमें विशेष स्थितियों के रूप में लघुगणक, वर्गमूल और गुणात्मक व्युत्क्रम परिवर्तन सम्मिलित हैं। डेटा परिवर्तन को व्यवस्थित रूप से करने के लिए, शक्ति परिवर्तन में पैरामीटर λ का अनुमान लगाने के लिए अनुमान सिद्धांत तकनीकों का उपयोग करना संभव है, जिससे किसी दिए गए सेटिंग में लगभग सबसे उपयुक्त परिवर्तन की पहचान हो सकता है चूंकि शक्ति परिवर्तन वर्ग में पहचान परिवर्तन भी सम्मिलित है, यह दृष्टिकोण यह भी संकेत कर सकता है कि क्या परिवर्तन के बिना डेटा का विश्लेषण करना सबसे अच्छा होगा। प्रतिगमन विश्लेषण में, इस दृष्टिकोण को 'बॉक्स-कॉक्स परिवर्तन' के रूप में जाना जाता है।

पारस्परिक परिवर्तन, कुछ शक्ति परिवर्तन जैसे येओ-जॉनसन परिवर्तन, और कुछ अन्य परिवर्तन जैसे विपरीत अतिशयोक्तिपूर्ण कार्य को प्रयुक्त करना है सार्थक रूप से डेटा पर प्रयुक्त किया जा सकता है जिसमें सकारात्मक और नकारात्मक दोनों मूल्य सम्मिलित हैं (यदि λ एक विषम पूर्णांक है तो शक्ति परिवर्तन सभी वास्तविक संख्याओं पर विपरीत होता है)। चूँकि जब नकारात्मक और सकारात्मक दोनों मान देखे जाते हैं, तो कभी-कभी सभी मानों में एक स्थिरांक जोड़कर प्रारंभ करना समान्य होता है, जिससे गैर-नकारात्मक डेटा का एक सेट तैयार होता है, जिसमें कोई भी शक्ति परिवर्तन प्रयुक्त किया जा सकता है।

एक सामान्य स्थिति जहां डेटा परिवर्तन प्रयुक्त किया जाता है, वह तब होता है जब ब्याज का मूल्य परिमाण के कई क्रमों पर होता है। कई भौतिक और सामाजिक घटनाएँ इस तरह के व्यवहार को प्रदर्शित करती हैं - आय, प्रजातियों की संख्या, आकाशगंगा के आकार और वर्षा की मात्रा, कुछ के नाम शक्ति रूपांतरण, और विशेष रूप से लघुगणक, अधिकांशत:ऐसे डेटा में समरूपता को प्रेरित करने के लिए उपयोग किया जा सकता है। लघुगणक को अधिकांशत:पसंद किया जाता है क्योंकि तह परिवर्तन के संदर्भ में इसके परिणाम की व्याख्या करना आसान होता है।

लघुगणक का अनुपातों पर भी उपयोगी प्रभाव पड़ता है। यदि हम X / Y अनुपात का उपयोग करते है जो की सकारात्मक मात्रा X और Y की तुलना कर रहे हैं, तो यदि X < Y, अनुपात अंतराल (0,1) में है, जबकि यदि X > Y, अनुपात अर्ध-रेखा (1) में है ,∞), जहां 1 का अनुपात समानता से मेल खाता है। एक विश्लेषण में जहां X और Y को सममित रूप से व्यवहार किया जाता है, समानता के स्थिति में log -अनुपात log(X / Y) शून्य है, और इसकी गुण है कि यदि X, Y से K गुना अधिक है, तो log-अनुपात है शून्य से समान दूरी पर उस स्थिति में जहां Y, X से K गुना अधिक है (इन दो स्थितियों में log-अनुपात log(K) और -log(K) हैं)।

यदि मान स्वाभाविक रूप से 0 से 1 की सीमा में प्रतिबंधित हैं, अंत-बिंदुओं को सम्मिलित नहीं करते हैं, तो एक लॉगिट उपयुक्त हो सकता है: यह सीमा (-∞, ∞) में मान देता है।

सामान्यता में बदलना
1. सामान्य वितरण के समान डेटा सेट को बदलना सदैव आवश्यक या वांछनीय नहीं होता है। चूँकि यदि समरूपता या सामान्यता वांछित है, तो उन्हें अधिकांशत:एक शक्ति परिवर्तन के माध्यम से प्रेरित किया जा सकता है।

2. जिपफ-मेंडेलब्रॉट नियम के अनुसार एक भाषाई शक्ति फलन वितरित किया जाता है। वितरण अत्यंत नुकीला और लेप्टोकुर्टिक है, यही कारण है कि शोधकर्ताओं को हल करने के लिए आंकड़ों से मुंह मोड़ना पड़ा था। लेखकत्व एट्रिब्यूशन समस्याएं फिर भी डेटा परिवर्तन प्रयुक्त करके गॉसियन सांख्यिकी का उपयोग पूरी तरह से संभव है।

3. यह आकलन करने के लिए कि परिवर्तन के बाद सामान्यता प्राप्त की गई है या नहीं, किसी भी मानक सामान्यता परीक्षण का उपयोग किया जा सकता है। एक ग्राफिकल दृष्टिकोण समान्यत: एक औपचारिक सांख्यिकीय परीक्षण की तुलना में अधिक जानकारीपूर्ण होता है और इसलिए सामान्य संख्या के लिए डेटा सेट के फिट का आकलन करने के लिए समान्यत: मात्रात्मक प्लॉट का उपयोग किया जाता है। वैकल्पिक रूप से, नमूना तिरछापन और कुकुदता पर आधारित वलय के नियम भी प्रस्तावित किए गए हैं।

एक समान वितरण या मनमाना वितरण में बदलना
यदि हम n मानों X1, ..., Xn के एक सेट को बिना किसी संबंध के देखते हैं (अथार्त, n हैं)। विशिष्ट मान), हम Xi को रूपांतरित मान Y = k से प्रतिस्थापित कर सकते हैं, जहां k को इस प्रकार परिभाषित किया गया है कि Xi सभी X मानों में kवां सबसे बड़ा है। इसे रैंक परिवर्तन कहा जाता है और एक समान वितरण के लिए एकदम उपयुक्त डेटा तैयार करता है। इस दृष्टिकोण में जनसंख्या अनुरूपता है।

संभाव्यता अभिन्न परिवर्तन का उपयोग करते हुए, यदि X कोई यादृच्छिक चर है, और F, X का संचयी वितरण कार्य है, तब तक जब तक F व्युत्क्रमणीय है, यादृच्छिक चर U = F(X) इकाई अंतराल [0, 1]। पर एक समान वितरण का अनुसरण करता है

एक समान वितरण से, हम किसी भी वितरण को एक व्युत्क्रमणीय संचयी वितरण फलन के साथ बदल सकते हैं। यदि G एक व्युत्क्रमणीय संचयी वितरण फलन है, और U एक समान रूप से वितरित यादृच्छिक चर है, तो यादृच्छिक चर G−1(U) का संचयी वितरण फलन G है।

दोनों को एक साथ रखने पर, यदि X कोई यादृच्छिक चर है, F, X का व्युत्क्रमणीय संचयी वितरण फलन है, और G एक व्युत्क्रमणीय संचयी वितरण फलन है तो यादृच्छिक चर G−1(F(X)) का संचयी वितरण फलन G है।

विचरण स्थिरीकरण परिवर्तन
कई प्रकार के सांख्यिकीय डेटा एक विचरण-पर-माध्य संबंध प्रदर्शित करते हैं, जिसका अर्थ है कि विभिन्न अपेक्षित मूल्य वाले डेटा मानों के लिए परिवर्तनशीलता अलग है। एक उदाहरण के रूप में, दुनिया में विभिन्न संख्या की तुलना में, औसत आय के साथ आय का अंतर बढ़ जाता है। यदि हम कई छोटे क्षेत्र इकाइयों (जैसे, संयुक्त राज्य अमेरिका में काउंटी) पर विचार करते हैं और प्रत्येक काउंटी के अंदर आय का औसत और भिन्नता प्राप्त करते हैं, तो यह सामान्य है कि उच्च औसत आय वाले काउंटी में भी उच्च भिन्नताएं होती हैं।

एक विचरण-स्थिर परिवर्तन का उद्देश्य विचरण-पर-माध्य संबंध को हटाना है, जिससे विचरण माध्य के सापेक्ष स्थिर हो जाता है । तो प्रसरण-स्थिरीकरण रूपांतरणों के उदाहरण नमूना सहसंबंध गुणांक के लिए फ़िशर रूपांतरण, पोइसन वितरण डेटा (गिनती डेटा) के लिए वर्गमूल रूपांतरण या एन्स्कोम्बे रूपांतरण, प्रतिगमन विश्लेषण के लिए बॉक्स-कॉक्स रूपांतरण, और द्विपद अनुपात विश्वास अंतराल या आर्कसीन रूपांतरण हैं या अनुपात के लिए कोणीय परिवर्तन (द्विपद वितरण डेटा)। जबकि समान्यत: आनुपातिक डेटा के सांख्यिकीय विश्लेषण के लिए उपयोग किया जाता है, आर्क्सिन वर्गमूल परिवर्तन की अनुशंसा नहीं की जाती है क्योंकि रसद प्रतिगमन या एक लॉगिट परिवर्तन क्रमशः द्विपद या गैर-द्विपद अनुपात के लिए अधिक उपयुक्त होते हैं, विशेष रूप से घटी हुई प्रकार I और प्रकार II त्रुटियों के कारण। प्रकार -द्वितीय त्रुटि है ।

बहुभिन्नरूपी डेटा के लिए रूपांतरण
उनके सीमांत वितरण को संशोधित करने के लिए बहुभिन्नरूपी डेटा को बिंदु-वार प्रयुक्त किया जा सकता है। उचित रूप से निर्मित परिवर्तन का उपयोग करके बहुभिन्नरूपी वितरण की कुछ विशेषताओं को संशोधित करना भी संभव है। उदाहरण के लिए, समय श्रृंखला और अन्य प्रकार के अनुक्रमिक डेटा के साथ काम करते समय, स्थिर प्रक्रिया को उत्तम बनाने के लिए डेटा को सीमित करना समान्य बात है। यदि एक यादृच्छिक सदिश X द्वारा उत्पन्न डेटा को सदिश Xi के रूप में देखा जाता है सहप्रसरण आव्यूह Σ के साथ अवलोकनों की संख्या, एक रैखिक परिवर्तन का उपयोग डेटा को अलंकृत करने के लिए किया जा सकता है। ऐसा करने के लिए, चोलेस्की अपघटन का उपयोग Σ = A A' को व्यक्त करने के लिए किया जाता है। फिर रूपांतरित सदिश Yi = A−1Xi इसके सहप्रसरण आव्यूह के रूप में पहचान आव्यूह है।

यह भी देखें

 * आर्कसिन
 * फ़ीचर इंजीनियरिंग
 * लॉग इन करें
 * गैर रेखीय प्रतिगमन # परिवर्तन
 * पियर्सन सहसंबंध गुणांक
 * शक्ति परिवर्तन (बॉक्स-कॉक्स)
 * विल्सन-हिल्फर्टी परिवर्तन
 * सफेदी परिवर्तन

बाहरी संबंध

 * Log Transformations for Skewed and Wide Distributions – discussing the log and the "signed logarithm" transformations (A chapter from "Practical Data Science with R").