प्रतिरूपण (सांख्यिकी)

आँकड़ों में, प्रतिरूपण लुप्त डेटा को प्रतिस्थापित मानों से बदलने की प्रक्रिया है। किसी डेटा बिंदु के लिए प्रतिस्थापन करते समय, इसे इकाई प्रतिरूपण के रूप में जाना जाता है; जब किसी डेटा बिंदु के एक घटक को प्रतिस्थापित किया जाता है, तो इसे आइटम प्रतिरूपण के रूप में जाना जाता है। गायब डेटा के कारण तीन मुख्य समस्याएं हैं: गायब डेटा पर्याप्त मात्रा में पूर्वाग्रह (सांख्यिकी) ला सकता है, डेटा के प्रबंधन और विश्लेषण को अधिक कठिन बना सकता है, और दक्षता (सांख्यिकी) में कमी ला सकता है। चूँकि गुम डेटा डेटा के विश्लेषण के लिए समस्याएँ पैदा कर सकता है, इसलिए प्रतिरूपण को उन मामलों की सूचीवार विलोपन से जुड़े नुकसान से बचने के एक तरीके के रूप में देखा जाता है जिनमें गायब मूल्य हैं। कहने का तात्पर्य यह है कि, जब किसी मामले के लिए एक या एक से अधिक मान गायब होते हैं, तो सांख्यिकीय पैकेजों की अधिकांश सूची किसी भी ऐसे मामले को त्यागने में डिफ़ॉल्ट होती है, जिसमें लापता मूल्य होता है, जो पूर्वाग्रह पैदा कर सकता है या परिणामों की प्रतिनिधित्वशीलता को प्रभावित कर सकता है। अन्य उपलब्ध जानकारी के आधार पर अनुमानित मूल्य के साथ लापता डेटा को प्रतिस्थापित करके इंप्यूटेशन सभी मामलों को संरक्षित करता है। एक बार सभी लापता मानों को आरोपित कर दिए जाने के बाद, संपूर्ण डेटा के लिए मानक तकनीकों का उपयोग करके डेटा सेट का विश्लेषण किया जा सकता है। लापता डेटा के लिए वैज्ञानिकों द्वारा कई सिद्धांत अपनाए गए हैं लेकिन उनमें से अधिकांश पूर्वाग्रह का परिचय देते हैं। गुम डेटा से निपटने के कुछ प्रसिद्ध प्रयासों में शामिल हैं: हॉट डेक और कोल्ड डेक इंप्यूटेशन; सूचीवार और जोड़ीवार विलोपन; मतलब आरोपण; गैर-नकारात्मक मैट्रिक्स गुणनखंडन; प्रतिगमन आरोपण; अंतिम अवलोकन आगे बढ़ाया गया; स्टोकेस्टिक प्रतिरूपण; और एकाधिक आरोपण.

सूचीवार (पूरा मामला) विलोपन
अब तक, गायब डेटा से निपटने का सबसे आम साधन सूचीवार विलोपन (जिसे पूर्ण मामला भी कहा जाता है) है, जो तब होता है जब गायब मूल्य वाले सभी मामले हटा दिए जाते हैं। यदि डेटा पूरी तरह से यादृच्छिक रूप से गायब है, तो सूचीवार विलोपन से कोई पूर्वाग्रह नहीं जुड़ता है, लेकिन यह प्रभावी नमूना आकार को कम करके विश्लेषण की शक्ति (सांख्यिकी) को कम कर देता है। उदाहरण के लिए, यदि 1000 मामले एकत्र किए गए हैं लेकिन 80 में गायब मूल्य हैं, तो सूचीवार विलोपन के बाद प्रभावी नमूना आकार 920 है। यदि मामले पूरी तरह से यादृच्छिक रूप से गायब नहीं हैं, तो सूचीवार विलोपन पूर्वाग्रह का परिचय देगा क्योंकि गायब डेटा द्वारा दर्शाए गए मामलों के उप-नमूने मूल नमूने के प्रतिनिधि नहीं हैं (और यदि मूल नमूना स्वयं किसी आबादी का प्रतिनिधि नमूना था, तो पूरे मामले भी उस आबादी के प्रतिनिधि नहीं हैं)। जबकि सूचीवार विलोपन निष्पक्ष होता है जब गायब डेटा पूरी तरह से यादृच्छिक रूप से गायब होता है, वास्तविकता में ऐसा शायद ही कभी होता है। जोड़ीवार विलोपन (या उपलब्ध केस विश्लेषण) में किसी मामले को तब हटाना शामिल होता है जब उसमें किसी विशेष विश्लेषण के लिए आवश्यक चर गायब होता है, लेकिन उस मामले को विश्लेषण में शामिल किया जाता है जिसके लिए सभी आवश्यक चर मौजूद होते हैं। जब जोड़ीवार विलोपन का उपयोग किया जाता है, तो विश्लेषण के लिए कुल एन पैरामीटर अनुमानों के अनुरूप नहीं होगा। समय में कुछ बिंदुओं पर अपूर्ण एन मानों के कारण, अन्य मापदंडों के लिए पूर्ण मामले की तुलना बनाए रखते हुए, जोड़ीदार विलोपन 100% से अधिक सहसंबंध जैसी असंभव गणितीय स्थितियों को प्रस्तुत कर सकता है। संपूर्ण केस विलोपन का अन्य तरीकों की तुलना में एक फायदा यह है कि यह सीधा और लागू करने में आसान है। यह एक बड़ा कारण है कि कई नुकसानों के बावजूद गुम डेटा को संभालने के लिए संपूर्ण केस सबसे लोकप्रिय तरीका है।

हॉट-डेक
प्रतिरूपण की एक सामान्य विधि हॉट-डेक प्रतिरूपण थी जहां एक यादृच्छिक रूप से चयनित समान रिकॉर्ड से एक लापता मान लगाया गया था। हॉट डेक शब्द छिद्रित कार्डों पर डेटा के भंडारण से संबंधित है, और इंगित करता है कि सूचना दाता प्राप्तकर्ताओं के समान डेटासेट से आते हैं। कार्डों का ढेर गर्म था क्योंकि यह अभी संसाधित हो रहा था।

हॉट-डेक इंप्यूटेशन के एक रूप को अंतिम अवलोकन को आगे बढ़ाया जाता है (या संक्षेप में एलओसीएफ) कहा जाता है, जिसमें कई चर के अनुसार डेटासेट को सॉर्ट करना शामिल है, इस प्रकार एक ऑर्डर किया गया डेटासेट बनाना शामिल है। फिर तकनीक पहले लुप्त मान को ढूंढती है और लुप्त मान को लागू करने के लिए लुप्त डेटा से तुरंत पहले सेल मान का उपयोग करती है। प्रक्रिया को अगले सेल के लिए लापता मान के साथ दोहराया जाता है जब तक कि सभी लापता मान नहीं लगाए जाते। सामान्य परिदृश्य में जहां मामले किसी व्यक्ति या अन्य इकाई के लिए एक चर के बार-बार माप होते हैं, यह इस विश्वास का प्रतिनिधित्व करता है कि यदि कोई माप गायब है, तो सबसे अच्छा अनुमान यह है कि यह पिछली बार मापा गया समय से नहीं बदला है। यह विधि बढ़ते पूर्वाग्रह और संभावित गलत निष्कर्षों के जोखिम को बढ़ाने के लिए जानी जाती है। इस कारण से एलओसीएफ को उपयोग के लिए अनुशंसित नहीं किया जाता है।

कोल्ड-डेक
इसके विपरीत, कोल्ड-डेक प्रतिरूपण, दूसरे डेटासेट से दाताओं का चयन करता है। कंप्यूटर शक्ति में प्रगति के कारण, प्रतिरूपण के अधिक परिष्कृत तरीकों ने आम तौर पर मूल यादृच्छिक और क्रमबद्ध हॉट डेक प्रतिरूपण तकनीकों का स्थान ले लिया है। यह पिछले सर्वेक्षणों में समान वस्तुओं के प्रतिक्रिया मूल्यों को बदलने की एक विधि है। यह उन सर्वेक्षणों में उपलब्ध है जो समय अंतराल को मापते हैं।

माध्य प्रतिस्थापन
एक अन्य प्रतिरूपण तकनीक में अन्य सभी मामलों के लिए उस चर के माध्य के साथ किसी भी लापता मान को प्रतिस्थापित करना शामिल है, जिससे उस चर के लिए नमूना माध्य को नहीं बदलने का लाभ होता है। हालाँकि, माध्य आरोपण आरोपित किए गए चर(ओं) से जुड़े किसी भी सहसंबंध को क्षीण कर देता है। ऐसा इसलिए है, क्योंकि आरोपण के मामलों में, आरोपित चर और किसी अन्य मापे गए चर के बीच कोई संबंध नहीं होने की गारंटी है। इस प्रकार, माध्य प्रतिरूपण में एकभिन्नरूपी विश्लेषण के लिए कुछ आकर्षक गुण होते हैं लेकिन बहुभिन्नरूपी विश्लेषण के लिए यह समस्याग्रस्त हो जाता है।

माध्य प्रतिरूपण वर्गों (अर्थात लिंग जैसी श्रेणियाँ) के भीतर किया जा सकता है, और इसे इस प्रकार व्यक्त किया जा सकता है $$\hat{y}_{i} = \bar{y}_{h}$$ कहाँ $$\hat{y}_{i}$$ रिकॉर्ड के लिए आरोपित मूल्य है $$i$$ और $$\bar{y}_{h}$$ किसी वर्ग के भीतर प्रतिवादी डेटा का नमूना माध्य है $$h$$. यह सामान्यीकृत प्रतिगमन आरोपण का एक विशेष मामला है:

$$ \hat{y}_{mi} = b_{r0} + \sum_{j}{b_{rj}z_{mij} + \hat{e}_{mi}} $$ यहाँ मूल्य $$b_{r0}, b_{rj}$$ प्रतिगमन से अनुमान लगाया जाता है $$y$$ पर $$x$$ गैर-आरोपित डेटा में, $$z$$ वर्ग सदस्यता के लिए एक डमी वैरिएबल (सांख्यिकी) है, और डेटा को प्रतिवादी में विभाजित किया गया है ($$r$$) और गायब ($$m$$).

गैर-नकारात्मक मैट्रिक्स गुणनखंडन
गैर-नकारात्मक मैट्रिक्स फ़ैक्टराइज़ेशन (एनएमएफ) इन लापता डेटा को शून्य के रूप में मानने के बजाय अपने लागत फ़ंक्शन को कम करते हुए लापता डेटा ले सकता है जो पूर्वाग्रह पैदा कर सकता है। यह इसे डेटा प्रतिरूपण के लिए गणितीय रूप से सिद्ध विधि बनाता है। एनएमएफ लागत फ़ंक्शन में गुम डेटा को अनदेखा कर सकता है, और गुम डेटा का प्रभाव दूसरे क्रम के प्रभाव जितना छोटा हो सकता है।

प्रतिगमन
प्रतिगमन प्रतिरूपण में माध्य प्रतिरूपण की विपरीत समस्या होती है। एक प्रतिगमन मॉडल का अनुमान अन्य चर के आधार पर एक चर के देखे गए मूल्यों की भविष्यवाणी करने के लिए लगाया जाता है, और उस मॉडल का उपयोग उन मामलों में मूल्यों को लागू करने के लिए किया जाता है जहां उस चर का मूल्य गायब है। दूसरे शब्दों में, पूर्ण और अपूर्ण मामलों के लिए उपलब्ध जानकारी का उपयोग किसी विशिष्ट चर के मूल्य की भविष्यवाणी करने के लिए किया जाता है। फिर प्रतिगमन मॉडल से फिट किए गए मूल्यों का उपयोग लापता मूल्यों को लागू करने के लिए किया जाता है। समस्या यह है कि लगाए गए डेटा में उनके अनुमान में कोई त्रुटि शब्द शामिल नहीं है, इस प्रकार अनुमान बिना किसी अवशिष्ट भिन्नता के प्रतिगमन रेखा के साथ पूरी तरह से फिट होते हैं। इसके कारण रिश्तों की अधिक पहचान हो जाती है और आरोपित मूल्यों में आवश्यकता से अधिक सटीकता का सुझाव मिलता है। प्रतिगमन मॉडल लापता डेटा के सबसे संभावित मूल्य की भविष्यवाणी करता है लेकिन उस मूल्य के बारे में अनिश्चितता प्रदान नहीं करता है।

स्टोकेस्टिक प्रतिगमन, त्रुटि को प्रस्तुत करने के लिए प्रतिगमन प्रतिरूपण में औसत प्रतिगमन विचरण जोड़कर प्रतिगमन प्रतिरूपण में त्रुटि शब्द की कमी को ठीक करने का एक काफी सफल प्रयास था। स्टोकेस्टिक रिग्रेशन उपर्युक्त तकनीकों की तुलना में बहुत कम पूर्वाग्रह दिखाता है, लेकिन इसमें अभी भी एक बात छूट गई है - यदि डेटा लगाया जाता है तो सहज रूप से कोई यह सोचेगा कि समस्या में सरल अवशिष्ट विचरण की तुलना में अधिक शोर पेश किया जाना चाहिए।

एकाधिक आरोपण
प्रतिरूपण के कारण बढ़े हुए शोर की समस्या से निपटने के लिए, रुबिन (1987) इसे ध्यान में रखते हुए कई आरोपित डेटा सेटों में परिणामों के औसत के लिए एक विधि विकसित की गई। सभी एकाधिक प्रतिरूपण विधियाँ तीन चरणों का पालन करती हैं। # इंप्यूटेशन - एकल इंप्यूटेशन के समान, लुप्त मान लगाए जाते हैं। हालाँकि, लगाए गए मान किसी वितरण से केवल एक बार के बजाय m बार निकाले जाते हैं। इस चरण के अंत में, पूर्ण डेटासेट होना चाहिए। जिस प्रकार एकल निरूपण की अनेक विधियाँ होती हैं, उसी प्रकार एकाधिक निरूपण की भी अनेक विधियाँ होती हैं। एकल प्रतिनियुक्ति और पूर्ण मामले के तरीकों की तुलना में एकाधिक प्रतिनियुक्ति का एक लाभ यह है कि एकाधिक प्रतिनियुक्ति लचीली होती है और इसका उपयोग विभिन्न प्रकार के परिदृश्यों में किया जा सकता है। ऐसे मामलों में एकाधिक प्रतिनियुक्ति का उपयोग किया जा सकता है, जहां डेटा मिसिंग डेटा#यादृच्छिक रूप से पूरी तरह से मिसिंग, मिसिंग डेटा#यादृच्छिक रूप से मिसिंग, और तब भी जब डेटा मिसिंग डेटा#यादृच्छिक रूप से मिसिंग नहीं है।. एक लोकप्रिय दृष्टिकोण जंजीर समीकरणों (एमआईसीई) द्वारा एकाधिक प्रतिरूपण है, जिसे पूरी तरह से सशर्त विनिर्देश और अनुक्रमिक प्रतिगमन एकाधिक प्रतिरूपण के रूप में भी जाना जाता है। एमआईसीई को यादृच्छिक डेटा गायब होने के लिए डिज़ाइन किया गया है, हालांकि यह सुझाव देने के लिए सिमुलेशन सबूत हैं कि पर्याप्त संख्या में सहायक चर के साथ यह उन डेटा पर भी काम कर सकता है जो यादृच्छिक रूप से गायब नहीं हैं। हालाँकि, जब अवलोकन की संख्या बड़ी होती है और डेटा में गैर-रैखिकता और उच्च आयामीता जैसी जटिल विशेषताएं होती हैं, तो MICE प्रदर्शन समस्याओं से पीड़ित हो सकता है।
 * 1) विश्लेषण - प्रत्येक एम डेटासेट का विश्लेषण किया जाता है। इस चरण के अंत में विश्लेषण होना चाहिए।
 * 2) पूलिंग - चिंता के चर के माध्य, विचरण और आत्मविश्वास अंतराल की गणना करके एम परिणामों को एक परिणाम में समेकित किया जाता है  या प्रत्येक अलग मॉडल से सिमुलेशन के संयोजन से।

मल्टीपल इम्प्यूटेशन के हालिया दृष्टिकोण अपने प्रदर्शन को बेहतर बनाने के लिए मशीन लर्निंग तकनीकों का उपयोग करते हैं। उदाहरण के लिए, MIDAS (मल्टीपल इंप्यूटेशन विद डीनोइज़िंग ऑटोएन्कोडर्स), प्रेक्षित डेटा के सुक्ष्म अव्यक्त अभ्यावेदन को सीखने के लिए डीनोइज़िंग ऑटोएनकोडर, एक प्रकार का अप्रशिक्षित तंत्रिका नेटवर्क का उपयोग करता है। MIDAS को पारंपरिक एकाधिक प्रतिरूपण रणनीतियों की तुलना में सटीकता और दक्षता लाभ प्रदान करने के लिए दिखाया गया है।

जैसा कि पिछले अनुभाग में बताया गया है, एकल आरोपण आरोपों में अनिश्चितता को ध्यान में नहीं रखता है। प्रतिरूपण के बाद, डेटा को ऐसे माना जाता है जैसे कि वे एकल प्रतिरूपण में वास्तविक वास्तविक मूल्य थे। आरोपण में अनिश्चितता की लापरवाही अत्यधिक सटीक परिणाम और निकाले गए किसी भी निष्कर्ष में त्रुटियां पैदा कर सकती है। कई बार आरोप लगाने से, कई आरोप अनिश्चितता और मूल्यों की सीमा के लिए जिम्मेदार होते हैं जो वास्तविक मूल्य ले सकते थे। जैसा कि अपेक्षित था, अनिश्चितता अनुमान और प्रतिरूपण के लिए गहन शिक्षण दोनों का संयोजन सबसे अच्छी रणनीतियों में से एक है और इसका उपयोग विषम दवा खोज डेटा को मॉडल करने के लिए किया गया है। इसके अतिरिक्त, जबकि एकल आरोपण और संपूर्ण मामले को लागू करना आसान है, एकाधिक आरोपण को लागू करना बहुत कठिन नहीं है। सांख्यिकीय सॉफ़्टवेयर की सूची में सांख्यिकीय पैकेजों की एक विस्तृत श्रृंखला है जो आसानी से एकाधिक प्रतिरूपण करती है। उदाहरण के लिए, MICE पैकेज R (प्रोग्रामिंग भाषा) में उपयोगकर्ताओं को MICE विधि का उपयोग करके एकाधिक प्रतिरूपण करने की अनुमति देता है। MIDAS को R में rMIDAS पैकेज के साथ और Python में MIDASpy पैकेज के साथ लागू किया जा सकता है।

यह भी देखें

 * बूटस्ट्रैपिंग (सांख्यिकी)
 * सेंसरिंग (सांख्यिकी)
 * अपेक्षा-अधिकतमीकरण एल्गोरिथ्म
 * भू-आरोपण
 * अंतर्वेशन
 * मैट्रिक्स पूर्णता
 * पूर्ण जानकारी अधिकतम संभावना

बाहरी संबंध

 * Missing Data: Instrument-Level Heffalumps and Item-Level Woozles
 * Multiple-imputation.com
 * Multiple imputation FAQs, Penn State U
 * A description of hot deck imputation from Statistics Finland.
 * Paper extending Rao-Shao approach and discussing problems with multiple imputation.
 * Paper Fuzzy Unordered Rules Induction Algorithm Used as Missing Value Imputation Methods for K-Mean Clustering on Real Cardiovascular Data.
 * Real world application of Imputation by the UK Office of National Statistics