प्रतिरूपण (सांख्यिकी): Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Process of replacing missing data with substituted values}} {{Other uses of|imputation|Imputation (disambiguation)}} आँकड़ों में, प...")
 
No edit summary
 
(4 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Process of replacing missing data with substituted values}}
{{Short description|Process of replacing missing data with substituted values}}आँकड़ों में, प्रतिरूपण अप्राप्त डेटा (मिसिंग डेटा) को प्रतिस्थापित मानों से बदलने की प्रक्रिया है। किसी डेटा बिंदु के लिए प्रतिस्थापन करते समय, इसे इकाई प्रतिरूपण के रूप में जाना जाता है; जब किसी डेटा बिंदु के एक घटक को प्रतिस्थापित किया जाता है, तो इसे आइटम प्रतिरूपण के रूप में जाना जाता है। अप्राप्त डेटा के कारण तीन मुख्य समस्याएं हैं: अप्राप्त डेटा पर्याप्त मात्रा में [[पूर्वाग्रह (सांख्यिकी)]] ला सकता है, डेटा के प्रबंधन और विश्लेषण को अधिक कठिन बना सकता है, और [[दक्षता (सांख्यिकी)]] में कमी ला सकता है।<ref>{{Cite journal|last1=Barnard|first1=J.|last2=Meng|first2=X. L.|date=1999-03-01|title=Applications of multiple imputation in medical studies: from AIDS to NHANES|journal=Statistical Methods in Medical Research|volume=8|issue=1|pages=17–36|issn=0962-2802|pmid=10347858|doi=10.1177/096228029900800103|s2cid=11453137}}</ref> चूँकि अप्राप्त डेटा डेटा के विश्लेषण के लिए समस्याएँ प्रकट कर सकता है, इसलिए प्रतिरूपण को उन परिस्थितियों की [[सूचीवार विलोपन]] से जुड़े नुकसान से बचने के एक तरीके के रूप में देखा जाता है जिनमें अप्राप्त मूल्य हैं। कहने का तात्पर्य यह है कि, जब किसी परिस्थिति के लिए एक या एक से अधिक मान अप्राप्त होते हैं, तो सांख्यिकीय पैकेजों की अधिकांश सूची किसी भी ऐसे परिस्थिति को त्यागने में डिफ़ॉल्ट होती है, जिसमें अप्राप्त मूल्य होता है, जो पूर्वाग्रह प्रकट कर सकता है या परिणामों की प्रतिनिधित्वशीलता को प्रभावित कर सकता है। अन्य उपलब्ध जानकारी के आधार पर अनुमानित मूल्य के साथ अप्राप्त डेटा को प्रतिस्थापित करके इंप्यूटेशन सभी परिस्थितियों को संरक्षित करता है। एक बार सभी अप्राप्त मानों को आरोपित कर दिए जाने के बाद, संपूर्ण डेटा के लिए मानक तकनीकों का उपयोग करके डेटा सेट का विश्लेषण किया जा सकता है।<ref>Gelman, Andrew, and [[Jennifer Hill]]. Data analysis using regression and multilevel/hierarchical models. Cambridge University Press, 2006. Ch.25</ref> अप्राप्त डेटा के लिए वैज्ञानिकों द्वारा कई सिद्धांत अपनाए गए हैं लेकिन उनमें से अधिकांश पूर्वाग्रह का परिचय देते हैं। अप्राप्त डेटा से निपटने के कुछ प्रसिद्ध प्रयासों में सम्मिलित हैं: हॉट डेक और कोल्ड डेक इंप्यूटेशन; सूचीवार और जोड़ीवार विलोपन; मतलब आरोपण; गैर-नकारात्मक मैट्रिक्स गुणनखंडन; प्रतिगमन आरोपण; अंतिम अवलोकन आगे बढ़ाया गया; स्टोकेस्टिक प्रतिरूपण; और एकाधिक आरोपण.
{{Other uses of|imputation|Imputation (disambiguation)}}


आँकड़ों में, प्रतिरूपण लुप्त डेटा को प्रतिस्थापित मानों से बदलने की प्रक्रिया है। किसी डेटा बिंदु के लिए प्रतिस्थापन करते समय, इसे इकाई प्रतिरूपण के रूप में जाना जाता है; जब किसी डेटा बिंदु के एक घटक को प्रतिस्थापित किया जाता है, तो इसे आइटम प्रतिरूपण के रूप में जाना जाता है। गायब डेटा के कारण तीन मुख्य समस्याएं हैं: गायब डेटा पर्याप्त मात्रा में [[पूर्वाग्रह (सांख्यिकी)]] ला सकता है, डेटा के प्रबंधन और विश्लेषण को अधिक कठिन बना सकता है, और [[दक्षता (सांख्यिकी)]] में कमी ला सकता है।<ref>{{Cite journal|last1=Barnard|first1=J.|last2=Meng|first2=X. L.|date=1999-03-01|title=Applications of multiple imputation in medical studies: from AIDS to NHANES|journal=Statistical Methods in Medical Research|volume=8|issue=1|pages=17–36|issn=0962-2802|pmid=10347858|doi=10.1177/096228029900800103|s2cid=11453137}}</ref> चूँकि गुम डेटा डेटा के विश्लेषण के लिए समस्याएँ पैदा कर सकता है, इसलिए प्रतिरूपण को उन मामलों की [[सूचीवार विलोपन]] से जुड़े नुकसान से बचने के एक तरीके के रूप में देखा जाता है जिनमें गायब मूल्य हैं। कहने का तात्पर्य यह है कि, जब किसी मामले के लिए एक या एक से अधिक मान गायब होते हैं, तो सांख्यिकीय पैकेजों की अधिकांश सूची किसी भी ऐसे मामले को त्यागने में डिफ़ॉल्ट होती है, जिसमें लापता मूल्य होता है, जो पूर्वाग्रह पैदा कर सकता है या परिणामों की प्रतिनिधित्वशीलता को प्रभावित कर सकता है। अन्य उपलब्ध जानकारी के आधार पर अनुमानित मूल्य के साथ लापता डेटा को प्रतिस्थापित करके इंप्यूटेशन सभी मामलों को संरक्षित करता है। एक बार सभी लापता मानों को आरोपित कर दिए जाने के बाद, संपूर्ण डेटा के लिए मानक तकनीकों का उपयोग करके डेटा सेट का विश्लेषण किया जा सकता है।<ref>Gelman, Andrew, and [[Jennifer Hill]]. Data analysis using regression and multilevel/hierarchical models. Cambridge University Press, 2006. Ch.25</ref> लापता डेटा के लिए वैज्ञानिकों द्वारा कई सिद्धांत अपनाए गए हैं लेकिन उनमें से अधिकांश पूर्वाग्रह का परिचय देते हैं। गुम डेटा से निपटने के कुछ प्रसिद्ध प्रयासों में शामिल हैं: हॉट डेक और कोल्ड डेक इंप्यूटेशन; सूचीवार और जोड़ीवार विलोपन; मतलब आरोपण; गैर-नकारात्मक मैट्रिक्स गुणनखंडन; प्रतिगमन आरोपण; अंतिम अवलोकन आगे बढ़ाया गया; स्टोकेस्टिक प्रतिरूपण; और एकाधिक आरोपण.
== सूचीवार (पूरा मामला) विलोपन ==
{{Main|सूचीवार विलोपन}}
 
अब तक, अप्राप्त डेटा से निपटने का सबसे आम साधन सूचीवार विलोपन (जिसे पूर्ण मामला भी कहा जाता है) है, जो तब होता है जब अप्राप्त मूल्य वाले सभी परिस्थिति हटा दिए जाते हैं। यदि डेटा पूरी तरह से यादृच्छिक रूप से अप्राप्त है, तो सूचीवार विलोपन से कोई पूर्वाग्रह नहीं जुड़ता है, लेकिन यह प्रभावी नमूना आकार को कम करके विश्लेषण की [[शक्ति (सांख्यिकी)]] को कम कर देता है। उदाहरण के लिए, यदि 1000 परिस्थिति एकत्र किए गए हैं लेकिन 80 में अप्राप्त मूल्य हैं, तो सूचीवार विलोपन के बाद प्रभावी नमूना आकार 920 है। यदि परिस्थिति पूरी तरह से यादृच्छिक रूप से अप्राप्त नहीं हैं, तो सूचीवार विलोपन पूर्वाग्रह का परिचय देगा क्योंकि अप्राप्त डेटा द्वारा दर्शाए गए परिस्थितियों के उप-नमूने मूल नमूने के प्रतिनिधि नहीं हैं (और यदि मूल नमूना स्वयं किसी आबादी का प्रतिनिधि नमूना था, तो पूरे परिस्थिति भी उस आबादी के प्रतिनिधि नहीं हैं)<ref name="cambridge.org">{{Cite journal|last1=Lall|first1=Ranjit|date=2016|title=अनेक दोषारोपण से कैसे फर्क पड़ता है|url=https://www.cambridge.org/core/journals/political-analysis/article/how-multiple-imputation-makes-a-difference/8C6616B679EF8F3EB0041B1BC88EEBB9|journal=Political Analysis|language=en|volume=24|issue=4|pages=414–433|doi=10.1093/pan/mpw020|doi-access=free}}</ref> जबकि सूचीवार विलोपन निष्पक्ष होता है जब अप्राप्त डेटा पूरी तरह से यादृच्छिक रूप से अप्राप्त होता है, वास्तविकता में ऐसा शायद ही कभी होता है।<ref>{{Cite journal|last=Kenward|first=Michael G|date=2013-02-26|title=नैदानिक ​​​​परीक्षणों में गुम डेटा का प्रबंधन|journal=Clinical Investigation|volume=3|issue=3|pages=241–250|doi=10.4155/cli.13.7|issn=2041-6792|url=https://semanticscholar.org/paper/964403060982c44cc10842084105de256876b8c6}}</ref>
 
युग्‍मानूसार विलोपन (या उपलब्ध केस विश्लेषण) में किसी परिस्थिति को तब हटाना सम्मिलित होता है जब उसमें किसी विशेष विश्लेषण के लिए आवश्यक चर अप्राप्त होता है, लेकिन उस परिस्थिति को विश्लेषण में सम्मिलित किया जाता है जिसके लिए सभी आवश्यक चर उपस्थित होते हैं। जब जोड़ीवार विलोपन का उपयोग किया जाता है, तो विश्लेषण के लिए कुल एन पैरामीटर अनुमानों के अनुरूप नहीं होगा। समय में कुछ बिंदुओं पर अपूर्ण एन मानों के कारण, अन्य मापदंडों के लिए पूर्ण परिस्थिति की तुलना बनाए रखते हुए, जोड़ीदार विलोपन 100% से अधिक सहसंबंध जैसी असंभव गणितीय स्थितियों को प्रस्तुत कर सकता है।<ref name="enders2010">{{cite book |last=Enders |first=C. K. |year=2010 |title=अनुप्रयुक्त गुम डेटा विश्लेषण|location=New York |publisher=Guilford Press |isbn=978-1-60623-639-0 }}</ref>


== सूचीवार (पूरा मामला) विलोपन ==
संपूर्ण केस विलोपन का अन्य तरीकों की तुलना में एक फायदा यह है कि यह सीधा और लागू करने में आसान है। यह एक बड़ा कारण है कि कई नुकसानों के अतिरिक्त अप्राप्त डेटा को संभालने के लिए संपूर्ण केस सबसे लोकप्रिय तरीका है।
{{Main|Listwise deletion}}
अब तक, गायब डेटा से निपटने का सबसे आम साधन सूचीवार विलोपन (जिसे पूर्ण मामला भी कहा जाता है) है, जो तब होता है जब गायब मूल्य वाले सभी मामले हटा दिए जाते हैं। यदि डेटा पूरी तरह से यादृच्छिक रूप से गायब है, तो सूचीवार विलोपन से कोई पूर्वाग्रह नहीं जुड़ता है, लेकिन यह प्रभावी नमूना आकार को कम करके विश्लेषण की [[शक्ति (सांख्यिकी)]] को कम कर देता है। उदाहरण के लिए, यदि 1000 मामले एकत्र किए गए हैं लेकिन 80 में गायब मूल्य हैं, तो सूचीवार विलोपन के बाद प्रभावी नमूना आकार 920 है। यदि मामले पूरी तरह से यादृच्छिक रूप से गायब नहीं हैं, तो सूचीवार विलोपन पूर्वाग्रह का परिचय देगा क्योंकि गायब डेटा द्वारा दर्शाए गए मामलों के उप-नमूने मूल नमूने के प्रतिनिधि नहीं हैं (और यदि मूल नमूना स्वयं किसी आबादी का प्रतिनिधि नमूना था, तो पूरे मामले भी उस आबादी के प्रतिनिधि नहीं हैं)।<ref name="cambridge.org">{{Cite journal|last1=Lall|first1=Ranjit|date=2016|title=अनेक दोषारोपण से कैसे फर्क पड़ता है|url=https://www.cambridge.org/core/journals/political-analysis/article/how-multiple-imputation-makes-a-difference/8C6616B679EF8F3EB0041B1BC88EEBB9|journal=Political Analysis|language=en|volume=24|issue=4|pages=414–433|doi=10.1093/pan/mpw020|doi-access=free}}</ref> जबकि सूचीवार विलोपन निष्पक्ष होता है जब गायब डेटा पूरी तरह से यादृच्छिक रूप से गायब होता है, वास्तविकता में ऐसा शायद ही कभी होता है।<ref>{{Cite journal|last=Kenward|first=Michael G|date=2013-02-26|title=नैदानिक ​​​​परीक्षणों में गुम डेटा का प्रबंधन|journal=Clinical Investigation|volume=3|issue=3|pages=241–250|doi=10.4155/cli.13.7|issn=2041-6792|url=https://semanticscholar.org/paper/964403060982c44cc10842084105de256876b8c6}}</ref>
जोड़ीवार विलोपन (या उपलब्ध केस विश्लेषण) में किसी मामले को तब हटाना शामिल होता है जब उसमें किसी विशेष विश्लेषण के लिए आवश्यक चर गायब होता है, लेकिन उस मामले को विश्लेषण में शामिल किया जाता है जिसके लिए सभी आवश्यक चर मौजूद होते हैं। जब जोड़ीवार विलोपन का उपयोग किया जाता है, तो विश्लेषण के लिए कुल एन पैरामीटर अनुमानों के अनुरूप नहीं होगा। समय में कुछ बिंदुओं पर अपूर्ण एन मानों के कारण, अन्य मापदंडों के लिए पूर्ण मामले की तुलना बनाए रखते हुए, जोड़ीदार विलोपन 100% से अधिक सहसंबंध जैसी असंभव गणितीय स्थितियों को प्रस्तुत कर सकता है।<ref name="enders2010">{{cite book |last=Enders |first=C. K. |year=2010 |title=अनुप्रयुक्त गुम डेटा विश्लेषण|location=New York |publisher=Guilford Press |isbn=978-1-60623-639-0 }}</ref>
संपूर्ण केस विलोपन का अन्य तरीकों की तुलना में एक फायदा यह है कि यह सीधा और लागू करने में आसान है। यह एक बड़ा कारण है कि कई नुकसानों के बावजूद गुम डेटा को संभालने के लिए संपूर्ण केस सबसे लोकप्रिय तरीका है।


==एकल आरोप==
==एकल आरोप==


===हॉट-डेक===
===हॉट-डेक===
प्रतिरूपण की एक सामान्य विधि हॉट-डेक प्रतिरूपण थी जहां एक यादृच्छिक रूप से चयनित समान रिकॉर्ड से एक लापता मान लगाया गया था। हॉट डेक शब्द [[छिद्रित कार्ड]]ों पर डेटा के भंडारण से संबंधित है, और इंगित करता है कि सूचना दाता प्राप्तकर्ताओं के समान डेटासेट से आते हैं। कार्डों का ढेर गर्म था क्योंकि यह अभी संसाधित हो रहा था।
प्रतिरूपण की एक सामान्य विधि हॉट-डेक प्रतिरूपण थी जहां एक यादृच्छिक रूप से चयनित समान रिकॉर्ड से एक अप्राप्त मान लगाया गया था। हॉट डेक शब्द [[छिद्रित कार्ड]]ों पर डेटा के भंडारण से संबंधित है, और इंगित करता है कि सूचना दाता प्राप्तकर्ताओं के समान डेटासेट से आते हैं। कार्डों का ढेर गर्म था क्योंकि यह अभी संसाधित हो रहा था।
 
हॉट-डेक इंप्यूटेशन के एक रूप को अंतिम अवलोकन को आगे बढ़ाया जाता है (या संक्षेप में एलओसीएफ) कहा जाता है, जिसमें कई चर के अनुसार डेटासेट को सॉर्ट करना शामिल है, इस प्रकार एक ऑर्डर किया गया डेटासेट बनाना शामिल है। फिर तकनीक पहले लुप्त मान को ढूंढती है और लुप्त मान को लागू करने के लिए लुप्त डेटा से तुरंत पहले सेल मान का उपयोग करती है। प्रक्रिया को अगले सेल के लिए लापता मान के साथ दोहराया जाता है जब तक कि सभी लापता मान नहीं लगाए जाते। सामान्य परिदृश्य में जहां मामले किसी व्यक्ति या अन्य इकाई के लिए एक चर के बार-बार माप होते हैं, यह इस विश्वास का प्रतिनिधित्व करता है कि यदि कोई माप गायब है, तो सबसे अच्छा अनुमान यह है कि यह पिछली बार मापा गया समय से नहीं बदला है। यह विधि बढ़ते पूर्वाग्रह और संभावित गलत निष्कर्षों के जोखिम को बढ़ाने के लिए जानी जाती है। इस कारण से एलओसीएफ को उपयोग के लिए अनुशंसित नहीं किया जाता है।<ref>{{Cite journal|last1=Molnar|first1=Frank J.|last2=Hutton|first2=Brian|last3=Fergusson|first3=Dean|date=2008-10-07|title=Does analysis using "last observation carried forward" introduce bias in dementia research?|journal=Canadian Medical Association Journal|volume=179|issue=8|pages=751–753|doi=10.1503/cmaj.080820|issn=0820-3946|pmc=2553855|pmid=18838445}}</ref>


हॉट-डेक इंप्यूटेशन के एक रूप को अंतिम अवलोकन को आगे बढ़ाया जाता है (या संक्षेप में एलओसीएफ) कहा जाता है, जिसमें कई चर के अनुसार डेटासेट को सॉर्ट करना सम्मिलित है, इस प्रकार एक ऑर्डर किया गया डेटासेट बनाना सम्मिलित है। फिर तकनीक पहले अप्राप्त मान को ढूंढती है और अप्राप्त मान को लागू करने के लिए अप्राप्त डेटा से तुरंत पहले सेल मान का उपयोग करती है। प्रक्रिया को अगले सेल के लिए अप्राप्त मान के साथ दोहराया जाता है जब तक कि सभी अप्राप्त मान नहीं लगाए जाते है। सामान्य परिदृश्य में जहां परिस्थिति किसी व्यक्ति या अन्य इकाई के लिए एक चर के बार-बार माप होते हैं, यह इस विश्वास का प्रतिनिधित्व करता है कि यदि कोई माप अप्राप्त है, तो सबसे अच्छा अनुमान यह है कि यह पिछली बार मापा गया समय से नहीं बदला है। यह विधि बढ़ते पूर्वाग्रह और संभावित गलत निष्कर्षों के जोखिम को बढ़ाने के लिए जानी जाती है। इस कारण से एलओसीएफ को उपयोग के लिए अनुशंसित नहीं किया जाता है।<ref>{{Cite journal|last1=Molnar|first1=Frank J.|last2=Hutton|first2=Brian|last3=Fergusson|first3=Dean|date=2008-10-07|title=Does analysis using "last observation carried forward" introduce bias in dementia research?|journal=Canadian Medical Association Journal|volume=179|issue=8|pages=751–753|doi=10.1503/cmaj.080820|issn=0820-3946|pmc=2553855|pmid=18838445}}</ref>


===कोल्ड-डेक===
===कोल्ड-डेक===
इसके विपरीत, कोल्ड-डेक प्रतिरूपण, दूसरे डेटासेट से दाताओं का चयन करता है। कंप्यूटर शक्ति में प्रगति के कारण, प्रतिरूपण के अधिक परिष्कृत तरीकों ने आम तौर पर मूल यादृच्छिक और क्रमबद्ध हॉट डेक प्रतिरूपण तकनीकों का स्थान ले लिया है। यह पिछले सर्वेक्षणों में समान वस्तुओं के प्रतिक्रिया मूल्यों को बदलने की एक विधि है। यह उन सर्वेक्षणों में उपलब्ध है जो समय अंतराल को मापते हैं।
इसके विपरीत, कोल्ड-डेक प्रतिरूपण, दूसरे डेटासेट से दाताओं का चयन करता है। कंप्यूटर शक्ति में प्रगति के कारण, प्रतिरूपण के अधिक परिष्कृत तरीकों ने सामान्यतः मूल यादृच्छिक और क्रमबद्ध हॉट डेक प्रतिरूपण तकनीकों का स्थान ले लिया है। यह पिछले सर्वेक्षणों में समान वस्तुओं के प्रतिक्रिया मूल्यों को बदलने की एक विधि है। यह उन सर्वेक्षणों में उपलब्ध है जो समय अंतराल को मापते हैं।


===माध्य प्रतिस्थापन===
===माध्य प्रतिस्थापन===
एक अन्य प्रतिरूपण तकनीक में अन्य सभी मामलों के लिए उस चर के माध्य के साथ किसी भी लापता मान को प्रतिस्थापित करना शामिल है, जिससे उस चर के लिए नमूना माध्य को नहीं बदलने का लाभ होता है। हालाँकि, माध्य आरोपण आरोपित किए गए चर(ओं) से जुड़े किसी भी सहसंबंध को क्षीण कर देता है। ऐसा इसलिए है, क्योंकि आरोपण के मामलों में, आरोपित चर और किसी अन्य मापे गए चर के बीच कोई संबंध नहीं होने की गारंटी है। इस प्रकार, माध्य प्रतिरूपण में एकभिन्नरूपी विश्लेषण के लिए कुछ आकर्षक गुण होते हैं लेकिन बहुभिन्नरूपी विश्लेषण के लिए यह समस्याग्रस्त हो जाता है।
एक अन्य प्रतिरूपण तकनीक में अन्य सभी परिस्थितियों के लिए उस चर के माध्य के साथ किसी भी अप्राप्त मान को प्रतिस्थापित करना सम्मिलित है, जिससे उस चर के लिए नमूना माध्य को नहीं बदलने का लाभ होता है। हालाँकि, माध्य आरोपण आरोपित किए गए चर(ओं) से जुड़े किसी भी सहसंबंध को क्षीण कर देता है। ऐसा इसलिए है, क्योंकि आरोपण के परिस्थितियों में, आरोपित चर और किसी अन्य मापे गए चर के बीच कोई संबंध नहीं होने की गारंटी है। इस प्रकार, माध्य प्रतिरूपण में एकभिन्नरूपी विश्लेषण के लिए कुछ आकर्षक गुण होते हैं लेकिन बहुभिन्नरूपी विश्लेषण के लिए यह समस्याग्रस्त हो जाता है।


माध्य प्रतिरूपण वर्गों (अर्थात लिंग जैसी श्रेणियाँ) के भीतर किया जा सकता है, और इसे इस प्रकार व्यक्त किया जा सकता है <math>\hat{y}_{i} = \bar{y}_{h}</math> कहाँ <math>\hat{y}_{i}</math> रिकॉर्ड के लिए आरोपित मूल्य है <math>i</math> और <math>\bar{y}_{h}</math> किसी वर्ग के भीतर प्रतिवादी डेटा का नमूना माध्य है <math>h</math>. यह सामान्यीकृत प्रतिगमन आरोपण का एक विशेष मामला है:
माध्य प्रतिरूपण वर्गों (अर्थात लिंग जैसी श्रेणियाँ) के भीतर किया जा सकता है, और इसे इस प्रकार व्यक्त किया जा सकता है <math>\hat{y}_{i} = \bar{y}_{h}</math> जहाँ <math>\hat{y}_{i}</math> रिकॉर्ड के लिए आरोपित मूल्य है <math>i</math> और <math>\bar{y}_{h}</math> किसी वर्ग के भीतर प्रतिवादी डेटा का नमूना माध्य है <math>h</math>. यह सामान्यीकृत प्रतिगमन आरोपण का एक विशेष मामला है:


<math>
<math>
\hat{y}_{mi} = b_{r0} + \sum_{j}{b_{rj}z_{mij} + \hat{e}_{mi}}
\hat{y}_{mi} = b_{r0} + \sum_{j}{b_{rj}z_{mij} + \hat{e}_{mi}}
</math>
</math>
यहाँ मूल्य <math>b_{r0}, b_{rj}</math> प्रतिगमन से अनुमान लगाया जाता है <math>y</math> पर <math>x</math> गैर-आरोपित डेटा में, <math>z</math> वर्ग सदस्यता के लिए एक [[डमी वैरिएबल (सांख्यिकी)]] है, और डेटा को प्रतिवादी में विभाजित किया गया है (<math>r</math>) और गायब (<math>m</math>).<ref>{{cite journal | last1 = Kalton | first1 = Graham | title = गुम सर्वेक्षण डेटा का उपचार| journal = Survey Methodology | volume = 12 | year = 1986 | pages = 1–16}}</ref><ref>{{cite journal | last1 = Kalton |first1 = Graham | first2 = Daniel | last2 = Kasprzyk | title = लापता सर्वेक्षण प्रतिक्रियाओं के लिए आरोप लगाना| journal = Proceedings of the Section on Survey Research Methods | publisher = [[American Statistical Association]] | volume = 22 | year = 1982 |s2cid = 195855359 | url = https://pdfs.semanticscholar.org/58f9/8fcc52333348a63b9e6dd5fabbdcc6fefe0e.pdf | archive-url = https://web.archive.org/web/20200212025249/https://pdfs.semanticscholar.org/58f9/8fcc52333348a63b9e6dd5fabbdcc6fefe0e.pdf | url-status = dead | archive-date = 2020-02-12 }}</ref>
यहाँ मूल्य <math>b_{r0}, b_{rj}</math> प्रतिगमन से अनुमान लगाया जाता है <math>y</math> पर <math>x</math> गैर-आरोपित डेटा में, <math>z</math> वर्ग सदस्यता के लिए एक [[डमी वैरिएबल (सांख्यिकी)]] है, और डेटा को प्रतिवादी में विभाजित किया गया है (<math>r</math>) और अप्राप्त (<math>m</math>).<ref>{{cite journal | last1 = Kalton | first1 = Graham | title = गुम सर्वेक्षण डेटा का उपचार| journal = Survey Methodology | volume = 12 | year = 1986 | pages = 1–16}}</ref><ref>{{cite journal | last1 = Kalton |first1 = Graham | first2 = Daniel | last2 = Kasprzyk | title = लापता सर्वेक्षण प्रतिक्रियाओं के लिए आरोप लगाना| journal = Proceedings of the Section on Survey Research Methods | publisher = [[American Statistical Association]] | volume = 22 | year = 1982 |s2cid = 195855359 | url = https://pdfs.semanticscholar.org/58f9/8fcc52333348a63b9e6dd5fabbdcc6fefe0e.pdf | archive-url = https://web.archive.org/web/20200212025249/https://pdfs.semanticscholar.org/58f9/8fcc52333348a63b9e6dd5fabbdcc6fefe0e.pdf | url-status = dead | archive-date = 2020-02-12 }}</ref>




===[[गैर-नकारात्मक मैट्रिक्स गुणनखंडन]]===
===[[गैर-नकारात्मक मैट्रिक्स गुणनखंडन]]===
गैर-नकारात्मक मैट्रिक्स फ़ैक्टराइज़ेशन (एनएमएफ) इन लापता डेटा को शून्य के रूप में मानने के बजाय अपने लागत फ़ंक्शन को कम करते हुए लापता डेटा ले सकता है जो पूर्वाग्रह पैदा कर सकता है।<ref name = "ren20">{{Cite journal|arxiv=2001.00563|last1= Ren|first1= Bin |title= उच्च कंट्रास्ट इमेजिंग में सिग्नल पृथक्करण के लिए डेटा प्रतिरूपण का उपयोग करना|journal= The Astrophysical Journal|volume= 892|issue= 2|pages= 74|last2=  Pueyo|first2= Laurent|last3= Chen | first3 = Christine|last4=  Choquet|first4= Elodie |last5=  Debes|first5= John H|last6=  Duchene |first6= Gaspard|last7= Menard|first7=Francois|last8=Perrin|first8=Marshall D.|year= 2020|doi= 10.3847/1538-4357/ab7024 | bibcode = 2020ApJ...892...74R |s2cid= 209531731}}</ref> यह इसे डेटा प्रतिरूपण के लिए गणितीय रूप से सिद्ध विधि बनाता है। एनएमएफ लागत फ़ंक्शन में गुम डेटा को अनदेखा कर सकता है, और गुम डेटा का प्रभाव दूसरे क्रम के प्रभाव जितना छोटा हो सकता है।
गैर-नकारात्मक मैट्रिक्स फ़ैक्टराइज़ेशन (एनएमएफ) इन अप्राप्त डेटा को शून्य के रूप में मानने के बजाय अपने लागत फ़ंक्शन को कम करते हुए अप्राप्त डेटा ले सकता है जो पूर्वाग्रह प्रकट कर सकता है।<ref name = "ren20">{{Cite journal|arxiv=2001.00563|last1= Ren|first1= Bin |title= उच्च कंट्रास्ट इमेजिंग में सिग्नल पृथक्करण के लिए डेटा प्रतिरूपण का उपयोग करना|journal= The Astrophysical Journal|volume= 892|issue= 2|pages= 74|last2=  Pueyo|first2= Laurent|last3= Chen | first3 = Christine|last4=  Choquet|first4= Elodie |last5=  Debes|first5= John H|last6=  Duchene |first6= Gaspard|last7= Menard|first7=Francois|last8=Perrin|first8=Marshall D.|year= 2020|doi= 10.3847/1538-4357/ab7024 | bibcode = 2020ApJ...892...74R |s2cid= 209531731}}</ref> यह इसे डेटा प्रतिरूपण के लिए गणितीय रूप से सिद्ध विधि बनाता है। एनएमएफ लागत फ़ंक्शन में अप्राप्त डेटा को अनदेखा कर सकता है, और अप्राप्त डेटा का प्रभाव दूसरे क्रम के प्रभाव जितना छोटा हो सकता है।


===प्रतिगमन===
===प्रतिगमन===
प्रतिगमन प्रतिरूपण में माध्य प्रतिरूपण की विपरीत समस्या होती है। एक प्रतिगमन मॉडल का अनुमान अन्य चर के आधार पर एक चर के देखे गए मूल्यों की भविष्यवाणी करने के लिए लगाया जाता है, और उस मॉडल का उपयोग उन मामलों में मूल्यों को लागू करने के लिए किया जाता है जहां उस चर का मूल्य गायब है। दूसरे शब्दों में, पूर्ण और अपूर्ण मामलों के लिए उपलब्ध जानकारी का उपयोग किसी विशिष्ट चर के मूल्य की भविष्यवाणी करने के लिए किया जाता है। फिर प्रतिगमन मॉडल से फिट किए गए मूल्यों का उपयोग लापता मूल्यों को लागू करने के लिए किया जाता है। समस्या यह है कि लगाए गए डेटा में उनके अनुमान में कोई त्रुटि शब्द शामिल नहीं है, इस प्रकार अनुमान बिना किसी अवशिष्ट भिन्नता के प्रतिगमन रेखा के साथ पूरी तरह से फिट होते हैं। इसके कारण रिश्तों की अधिक पहचान हो जाती है और आरोपित मूल्यों में आवश्यकता से अधिक सटीकता का सुझाव मिलता है। प्रतिगमन मॉडल लापता डेटा के सबसे संभावित मूल्य की भविष्यवाणी करता है लेकिन उस मूल्य के बारे में अनिश्चितता प्रदान नहीं करता है।
प्रतिगमन प्रतिरूपण में माध्य प्रतिरूपण की विपरीत समस्या होती है। एक प्रतिगमन मॉडल का अनुमान अन्य चर के आधार पर एक चर के देखे गए मूल्यों की भविष्यवाणी करने के लिए लगाया जाता है, और उस मॉडल का उपयोग उन परिस्थितियों में मूल्यों को लागू करने के लिए किया जाता है जहां उस चर का मूल्य अप्राप्त है। दूसरे शब्दों में, पूर्ण और अपूर्ण परिस्थितियों के लिए उपलब्ध जानकारी का उपयोग किसी विशिष्ट चर के मूल्य की भविष्यवाणी करने के लिए किया जाता है। फिर प्रतिगमन मॉडल से फिट किए गए मूल्यों का उपयोग अप्राप्त मूल्यों को लागू करने के लिए किया जाता है। समस्या यह है कि लगाए गए डेटा में उनके अनुमान में कोई त्रुटि शब्द सम्मिलित नहीं है, इस प्रकार अनुमान बिना किसी अवशिष्ट भिन्नता के प्रतिगमन रेखा के साथ पूरी तरह से फिट होते हैं। इसके कारण रिश्तों की अधिक पहचान हो जाती है और आरोपित मूल्यों में आवश्यकता से अधिक सटीकता का सुझाव मिलता है। प्रतिगमन मॉडल अप्राप्त डेटा के सबसे संभावित मूल्य की भविष्यवाणी करता है लेकिन उस मूल्य के बारे में अनिश्चितता प्रदान नहीं करता है।


स्टोकेस्टिक प्रतिगमन, त्रुटि को प्रस्तुत करने के लिए प्रतिगमन प्रतिरूपण में औसत प्रतिगमन विचरण जोड़कर प्रतिगमन प्रतिरूपण में त्रुटि शब्द की कमी को ठीक करने का एक काफी सफल प्रयास था। स्टोकेस्टिक रिग्रेशन उपर्युक्त तकनीकों की तुलना में बहुत कम पूर्वाग्रह दिखाता है, लेकिन इसमें अभी भी एक बात छूट गई है - यदि डेटा लगाया जाता है तो सहज रूप से कोई यह सोचेगा कि समस्या में सरल अवशिष्ट विचरण की तुलना में अधिक शोर पेश किया जाना चाहिए।<ref name="enders2010"/>
स्टोकेस्टिक प्रतिगमन, त्रुटि को प्रस्तुत करने के लिए प्रतिगमन प्रतिरूपण में औसत प्रतिगमन विचरण जोड़कर प्रतिगमन प्रतिरूपण में त्रुटि शब्द की कमी को ठीक करने का एक काफी सफल प्रयास था। स्टोकेस्टिक रिग्रेशन उपर्युक्त तकनीकों की तुलना में बहुत कम पूर्वाग्रह दिखाता है, लेकिन इसमें अभी भी एक बात छूट गई है - यदि डेटा लगाया जाता है तो सहज रूप से कोई यह सोचेगा कि समस्या में सरल अवशिष्ट विचरण की तुलना में अधिक रव पेश किया जाना चाहिए।<ref name="enders2010"/>




==एकाधिक आरोपण==
==एकाधिक आरोपण==
प्रतिरूपण के कारण बढ़े हुए शोर की समस्या से निपटने के लिए, रुबिन (1987)<ref>{{cite book |last1=Rubin |first1=Donald |title=एकाधिक अभियोगपत्र के लिए सर्वेक्षण में कोई अनुक्रिया नही है|series=Wiley Series in Probability and Statistics |date=9 June 1987 |publisher=Wiley |doi=10.1002/9780470316696 |isbn=9780471087052 }}</ref> इसे ध्यान में रखते हुए कई आरोपित डेटा सेटों में परिणामों के औसत के लिए एक विधि विकसित की गई। सभी एकाधिक प्रतिरूपण विधियाँ तीन चरणों का पालन करती हैं।<ref name="cambridge.org"/># इंप्यूटेशन - एकल इंप्यूटेशन के समान, लुप्त मान लगाए जाते हैं। हालाँकि, लगाए गए मान किसी वितरण से केवल एक बार के बजाय m बार निकाले जाते हैं। इस चरण के अंत में, पूर्ण डेटासेट होना चाहिए।
प्रतिरूपण के कारण बढ़े हुए रव की समस्या से निपटने के लिए, रुबिन (1987)<ref>{{cite book |last1=Rubin |first1=Donald |title=एकाधिक अभियोगपत्र के लिए सर्वेक्षण में कोई अनुक्रिया नही है|series=Wiley Series in Probability and Statistics |date=9 June 1987 |publisher=Wiley |doi=10.1002/9780470316696 |isbn=9780471087052 }}</ref> इसे ध्यान में रखते हुए कई आरोपित डेटा सेटों में परिणामों के औसत के लिए एक विधि विकसित की गई। सभी एकाधिक प्रतिरूपण विधियाँ तीन चरणों का पालन करती हैं।<ref name="cambridge.org"/>
# विश्लेषण - प्रत्येक एम डेटासेट का विश्लेषण किया जाता है। इस चरण के अंत में विश्लेषण होना चाहिए।
 
# पूलिंग - चिंता के चर के माध्य, विचरण और आत्मविश्वास अंतराल की गणना करके एम परिणामों को एक परिणाम में समेकित किया जाता है<ref>{{cite journal
# इंप्यूटेशन - एकल इंप्यूटेशन के समान, अप्राप्त मान लगाए जाते हैं। हालाँकि, लगाए गए मान किसी वितरण से केवल एक बार के बजाय ''m'' बार निकाले जाते हैं। इस चरण के अंत में, पूर्ण डेटासेट होना चाहिए।
# विश्लेषण - प्रत्येक ''m'' डेटासेट का विश्लेषण किया जाता है। इस चरण के अंत में विश्लेषण होना चाहिए।
# पूलिंग - चिंता के चर के माध्य, विचरण और आत्मविश्वास अंतराल की गणना करके ''m'' परिणामों को एक परिणाम में समेकित किया जाता है<ref>{{cite journal
  | title=Multiple imputation for missing data: Concepts and new development
  | title=Multiple imputation for missing data: Concepts and new development
  | last = Yuan | first = Yang C.
  | last = Yuan | first = Yang C.
Line 52: Line 53:
  | year=2010
  | year=2010
  | url = https://support.sas.com/rnd/app/stat/papers/multipleimputation.pdf
  | url = https://support.sas.com/rnd/app/stat/papers/multipleimputation.pdf
}}</ref><ref>{{Cite book|title=गुम डेटा का लचीला आरोपण|volume=20125245|chapter=2. Multiple Imputation|last=Van Buuren|first=Stef|date=2012-03-29|publisher=Chapman and Hall/CRC|isbn=9781439868249|series=Chapman & Hall/CRC Interdisciplinary Statistics Series|doi=10.1201/b11826|s2cid=60316970 }}</ref> या प्रत्येक अलग मॉडल से सिमुलेशन के संयोजन से।<ref>{{Cite journal|author1-link=Gary King (political scientist)|author4-link=Kenneth Scheve|last1=King|first1=Gary|last2=Honaker|first2=James|last3=Joseph|first3=Anne|last4=Scheve|first4=Kenneth|date=March 2001|title=Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation|url=https://www.cambridge.org/core/journals/american-political-science-review/article/analyzing-incomplete-political-science-data-an-alternative-algorithm-for-multiple-imputation/9E712982CCE2DE79A574FE98488F212B|journal=American Political Science Review|language=en|volume=95|issue=1|pages=49–69|doi=10.1017/S0003055401000235|s2cid=15484116 |issn=1537-5943}}</ref>
}}</ref><ref>{{Cite book|title=गुम डेटा का लचीला आरोपण|volume=20125245|chapter=2. Multiple Imputation|last=Van Buuren|first=Stef|date=2012-03-29|publisher=Chapman and Hall/CRC|isbn=9781439868249|series=Chapman & Hall/CRC Interdisciplinary Statistics Series|doi=10.1201/b11826|s2cid=60316970 }}</ref> या प्रत्येक अलग मॉडल से सिमुलेशन के संयोजन से किया जाता है।<ref>{{Cite journal|author1-link=Gary King (political scientist)|author4-link=Kenneth Scheve|last1=King|first1=Gary|last2=Honaker|first2=James|last3=Joseph|first3=Anne|last4=Scheve|first4=Kenneth|date=March 2001|title=Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation|url=https://www.cambridge.org/core/journals/american-political-science-review/article/analyzing-incomplete-political-science-data-an-alternative-algorithm-for-multiple-imputation/9E712982CCE2DE79A574FE98488F212B|journal=American Political Science Review|language=en|volume=95|issue=1|pages=49–69|doi=10.1017/S0003055401000235|s2cid=15484116 |issn=1537-5943}}</ref>
जिस प्रकार एकल निरूपण की अनेक विधियाँ होती हैं, उसी प्रकार एकाधिक निरूपण की भी अनेक विधियाँ होती हैं। एकल प्रतिनियुक्ति और पूर्ण मामले के तरीकों की तुलना में एकाधिक प्रतिनियुक्ति का एक लाभ यह है कि एकाधिक प्रतिनियुक्ति लचीली होती है और इसका उपयोग विभिन्न प्रकार के परिदृश्यों में किया जा सकता है। ऐसे मामलों में एकाधिक प्रतिनियुक्ति का उपयोग किया जा सकता है, जहां डेटा मिसिंग डेटा#यादृच्छिक रूप से पूरी तरह से मिसिंग, मिसिंग डेटा#यादृच्छिक रूप से मिसिंग, और तब भी जब डेटा मिसिंग डेटा#यादृच्छिक रूप से मिसिंग नहीं है।{{citation needed|reason=This statement probably needs to be much more nuanced. See https://www.cambridge.org/core/journals/political-analysis/article/note-on-listwise-deletion-versus-multiple-imputation/39DE56539189423F6C985B3B9EBF7E56 for example|date=October 2021}}. एक लोकप्रिय दृष्टिकोण जंजीर समीकरणों (एमआईसीई) द्वारा एकाधिक प्रतिरूपण है, जिसे पूरी तरह से सशर्त विनिर्देश और अनुक्रमिक प्रतिगमन एकाधिक प्रतिरूपण के रूप में भी जाना जाता है।<ref>{{Cite journal|last1=Azur|first1=Melissa J.|last2=Stuart|first2=Elizabeth A.|last3=Frangakis|first3=Constantine|last4=Leaf|first4=Philip J.|date=2011-03-01|title=Multiple imputation by chained equations: what is it and how does it work?|journal=International Journal of Methods in Psychiatric Research|volume=20|issue=1|pages=40–49|doi=10.1002/mpr.329|issn=1557-0657|pmc=3074241|pmid=21499542}}</ref> एमआईसीई को यादृच्छिक डेटा गायब होने के लिए डिज़ाइन किया गया है, हालांकि यह सुझाव देने के लिए सिमुलेशन सबूत हैं कि पर्याप्त संख्या में सहायक चर के साथ यह उन डेटा पर भी काम कर सकता है जो यादृच्छिक रूप से गायब नहीं हैं। हालाँकि, जब अवलोकन की संख्या बड़ी होती है और डेटा में गैर-रैखिकता और उच्च आयामीता जैसी जटिल विशेषताएं होती हैं, तो MICE प्रदर्शन समस्याओं से पीड़ित हो सकता है।
 
जिस प्रकार एकल निरूपण की अनेक विधियाँ होती हैं, उसी प्रकार एकाधिक निरूपण की भी अनेक विधियाँ होती हैं। एकल प्रतिनियुक्ति और पूर्ण परिस्थिति के तरीकों की तुलना में एकाधिक प्रतिनियुक्ति का एक लाभ यह है कि एकाधिक प्रतिनियुक्ति लचीली होती है और इसका उपयोग विभिन्न प्रकार के परिदृश्यों में किया जा सकता है। ऐसे परिस्थितियों में एकाधिक प्रतिनियुक्ति का उपयोग किया जा सकता है, जहां डेटा अप्राप्त डेटा यादृच्छिक रूप से पूरी तरह से अप्राप्त, अप्राप्त डेटा यादृच्छिक रूप से अप्राप्त, और तब भी जब अप्राप्त डेटा, डेटा यादृच्छिक रूप से अप्राप्त नहीं है। एक लोकप्रिय दृष्टिकोण जंजीर समीकरणों (एमआईसीई) द्वारा एकाधिक प्रतिरूपण है, जिसे पूरी तरह से सशर्त विनिर्देश और अनुक्रमिक प्रतिगमन एकाधिक प्रतिरूपण के रूप में भी जाना जाता है।<ref>{{Cite journal|last1=Azur|first1=Melissa J.|last2=Stuart|first2=Elizabeth A.|last3=Frangakis|first3=Constantine|last4=Leaf|first4=Philip J.|date=2011-03-01|title=Multiple imputation by chained equations: what is it and how does it work?|journal=International Journal of Methods in Psychiatric Research|volume=20|issue=1|pages=40–49|doi=10.1002/mpr.329|issn=1557-0657|pmc=3074241|pmid=21499542}}</ref> एमआईसीई को यादृच्छिक डेटा अप्राप्त होने के लिए डिज़ाइन किया गया है, हालांकि यह सुझाव देने के लिए सिमुलेशन सबूत हैं कि पर्याप्त संख्या में सहायक चर के साथ यह उन डेटा पर भी काम कर सकता है जो यादृच्छिक रूप से अप्राप्त नहीं हैं। हालाँकि, जब अवलोकन की संख्या बड़ी होती है और डेटा में गैर-रैखिकता और उच्च आयामीता जैसी जटिल विशेषताएं होती हैं, तो MICE प्रदर्शन समस्याओं से पीड़ित हो सकता है।


मल्टीपल इम्प्यूटेशन के हालिया दृष्टिकोण अपने प्रदर्शन को बेहतर बनाने के लिए मशीन लर्निंग तकनीकों का उपयोग करते हैं। उदाहरण के लिए, MIDAS (मल्टीपल इंप्यूटेशन विद डीनोइज़िंग ऑटोएन्कोडर्स), प्रेक्षित डेटा के सुक्ष्म अव्यक्त अभ्यावेदन को सीखने के लिए डीनोइज़िंग [[ऑटोएनकोडर]], एक प्रकार का अप्रशिक्षित तंत्रिका नेटवर्क का उपयोग करता है।<ref name="The MIDAS Touch 2020">{{Cite journal|last1=Lall|first1=Ranjit|last2=Robinson|first2=Thomas|date=2021|title=The MIDAS Touch: Accurate and Scalable Missing-Data Imputation with Deep Learning|journal=Political Analysis|volume=30 |issue=2 |pages=179–196 |doi=10.1017/pan.2020.49|doi-access=free}}</ref> MIDAS को पारंपरिक एकाधिक प्रतिरूपण रणनीतियों की तुलना में सटीकता और दक्षता लाभ प्रदान करने के लिए दिखाया गया है।
मल्टीपल इम्प्यूटेशन के हालिया दृष्टिकोण अपने प्रदर्शन को बेहतर बनाने के लिए मशीन लर्निंग तकनीकों का उपयोग करते हैं। उदाहरण के लिए, MIDAS (मल्टीपल इंप्यूटेशन विद डीनोइज़िंग ऑटोएन्कोडर्स), प्रेक्षित डेटा के सुक्ष्म अव्यक्त अभ्यावेदन को सीखने के लिए डीनोइज़िंग [[ऑटोएनकोडर]], एक प्रकार का अप्रशिक्षित तंत्रिका नेटवर्क का उपयोग करता है।<ref name="The MIDAS Touch 2020">{{Cite journal|last1=Lall|first1=Ranjit|last2=Robinson|first2=Thomas|date=2021|title=The MIDAS Touch: Accurate and Scalable Missing-Data Imputation with Deep Learning|journal=Political Analysis|volume=30 |issue=2 |pages=179–196 |doi=10.1017/pan.2020.49|doi-access=free}}</ref> MIDAS को पारंपरिक एकाधिक प्रतिरूपण रणनीतियों की तुलना में सटीकता और दक्षता लाभ प्रदान करने के लिए दिखाया गया है।


जैसा कि पिछले अनुभाग में बताया गया है, एकल आरोपण आरोपों में अनिश्चितता को ध्यान में नहीं रखता है। प्रतिरूपण के बाद, डेटा को ऐसे माना जाता है जैसे कि वे एकल प्रतिरूपण में वास्तविक वास्तविक मूल्य थे। आरोपण में अनिश्चितता की लापरवाही अत्यधिक सटीक परिणाम और निकाले गए किसी भी निष्कर्ष में त्रुटियां पैदा कर सकती है।<ref>{{Cite journal|last=Graham|first=John W.|date=2009-01-01|title=Missing data analysis: making it work in the real world|journal=Annual Review of Psychology|volume=60|pages=549–576|doi=10.1146/annurev.psych.58.110405.085530|issn=0066-4308|pmid=18652544}}</ref> कई बार आरोप लगाने से, कई आरोप अनिश्चितता और मूल्यों की सीमा के लिए जिम्मेदार होते हैं जो वास्तविक मूल्य ले सकते थे। जैसा कि अपेक्षित था, अनिश्चितता अनुमान और प्रतिरूपण के लिए गहन शिक्षण दोनों का संयोजन सबसे अच्छी रणनीतियों में से एक है और इसका उपयोग विषम दवा खोज डेटा को मॉडल करने के लिए किया गया है।<ref>{{Cite journal|last=Irwin|first=Benedict|date=2020-06-01|title=विषम औषधि खोज डेटा को लागू करने के लिए गहन शिक्षण के व्यावहारिक अनुप्रयोग|journal=Journal of Chemical Information and Modeling|volume=60|issue=6|pages=2848–2857|doi=10.1021/acs.jcim.0c00443|pmid=32478517|s2cid=219171721 }}</ref><ref>{{Cite journal|last=Whitehead|first=Thomas|date=2019-02-12|title=डीप लर्निंग का उपयोग करके परख बायोएक्टिविटी डेटा का आरोपण|journal=Journal of Chemical Information and Modeling|volume=59|issue=3|pages=1197–1204|doi=10.1021/acs.jcim.8b00768|pmid=30753070|s2cid=73429643 }}</ref>
जैसा कि पिछले अनुभाग में बताया गया है, एकल आरोपण आरोपों में अनिश्चितता को ध्यान में नहीं रखता है। प्रतिरूपण के बाद, डेटा को ऐसे माना जाता है जैसे कि वे एकल प्रतिरूपण में वास्तविक वास्तविक मूल्य थे। आरोपण में अनिश्चितता की लापरवाही अत्यधिक सटीक परिणाम और निकाले गए किसी भी निष्कर्ष में त्रुटियां प्रकट कर सकती है।<ref>{{Cite journal|last=Graham|first=John W.|date=2009-01-01|title=Missing data analysis: making it work in the real world|journal=Annual Review of Psychology|volume=60|pages=549–576|doi=10.1146/annurev.psych.58.110405.085530|issn=0066-4308|pmid=18652544}}</ref> कई बार आरोप लगाने से, कई आरोप अनिश्चितता और मूल्यों की सीमा के लिए जिम्मेदार होते हैं जो वास्तविक मूल्य ले सकते थे। जैसा कि अपेक्षित था, अनिश्चितता अनुमान और प्रतिरूपण के लिए गहन शिक्षण दोनों का संयोजन सबसे अच्छी रणनीतियों में से एक है और इसका उपयोग विषम दवा खोज डेटा को मॉडल करने के लिए किया गया है।<ref>{{Cite journal|last=Irwin|first=Benedict|date=2020-06-01|title=विषम औषधि खोज डेटा को लागू करने के लिए गहन शिक्षण के व्यावहारिक अनुप्रयोग|journal=Journal of Chemical Information and Modeling|volume=60|issue=6|pages=2848–2857|doi=10.1021/acs.jcim.0c00443|pmid=32478517|s2cid=219171721 }}</ref><ref>{{Cite journal|last=Whitehead|first=Thomas|date=2019-02-12|title=डीप लर्निंग का उपयोग करके परख बायोएक्टिविटी डेटा का आरोपण|journal=Journal of Chemical Information and Modeling|volume=59|issue=3|pages=1197–1204|doi=10.1021/acs.jcim.8b00768|pmid=30753070|s2cid=73429643 }}</ref>
इसके अतिरिक्त, जबकि एकल आरोपण और संपूर्ण मामले को लागू करना आसान है, एकाधिक आरोपण को लागू करना बहुत कठिन नहीं है। सांख्यिकीय सॉफ़्टवेयर की सूची में सांख्यिकीय पैकेजों की एक विस्तृत श्रृंखला है जो आसानी से एकाधिक प्रतिरूपण करती है। उदाहरण के लिए, MICE पैकेज R (प्रोग्रामिंग भाषा) में उपयोगकर्ताओं को MICE विधि का उपयोग करके एकाधिक प्रतिरूपण करने की अनुमति देता है।<ref>{{Cite journal|last1=Horton|first1=Nicholas J.|last2=Kleinman|first2=Ken P.|date=2007-02-01|title=Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models|journal=The American Statistician|volume=61|issue=1|pages=79–90|doi=10.1198/000313007X172556|issn=0003-1305|pmc=1839993|pmid=17401454}}</ref> MIDAS को R में rMIDAS पैकेज के साथ और Python में MIDASpy पैकेज के साथ लागू किया जा सकता है।<ref name="The MIDAS Touch 2020"/>
 
इसके अतिरिक्त, जबकि एकल आरोपण और संपूर्ण परिस्थिति को लागू करना आसान है, एकाधिक आरोपण को लागू करना बहुत कठिन नहीं है। सांख्यिकीय सॉफ़्टवेयर की सूची में सांख्यिकीय पैकेजों की एक विस्तृत श्रृंखला है जो आसानी से एकाधिक प्रतिरूपण करती है। उदाहरण के लिए, MICE पैकेज R (प्रोग्रामिंग लैंग्वेज) में उपयोगकर्ताओं को MICE विधि का उपयोग करके एकाधिक प्रतिरूपण करने की अनुमति देता है।<ref>{{Cite journal|last1=Horton|first1=Nicholas J.|last2=Kleinman|first2=Ken P.|date=2007-02-01|title=Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models|journal=The American Statistician|volume=61|issue=1|pages=79–90|doi=10.1198/000313007X172556|issn=0003-1305|pmc=1839993|pmid=17401454}}</ref> MIDAS को R में rMIDAS पैकेज के साथ और Python में MIDASpy पैकेज के साथ लागू किया जा सकता है।<ref name="The MIDAS Touch 2020" />
 




Line 87: Line 91:
{{Authority control}}
{{Authority control}}


{{DEFAULTSORT:Imputation (Statistics)}}[[Category: लापता आँकड़े]] [[Category: सांख्यिकीय डेटा कोडिंग]] [[Category: सांख्यिकीय डेटा परिवर्तन]]
{{DEFAULTSORT:Imputation (Statistics)}}
 
 


[[Category: Machine Translated Page]]
[[Category:Articles with hatnote templates targeting a nonexistent page|Imputation (Statistics)]]
[[Category:Created On 24/07/2023]]
[[Category:CS1 English-language sources (en)]]
[[Category:CS1 errors]]
[[Category:Created On 24/07/2023|Imputation (Statistics)]]
[[Category:Lua-based templates|Imputation (Statistics)]]
[[Category:Machine Translated Page|Imputation (Statistics)]]
[[Category:Multi-column templates|Imputation (Statistics)]]
[[Category:Pages using div col with small parameter|Imputation (Statistics)]]
[[Category:Pages with script errors|Imputation (Statistics)]]
[[Category:Short description with empty Wikidata description|Imputation (Statistics)]]
[[Category:Templates Vigyan Ready|Imputation (Statistics)]]
[[Category:Templates that add a tracking category|Imputation (Statistics)]]
[[Category:Templates that generate short descriptions|Imputation (Statistics)]]
[[Category:Templates using TemplateData|Imputation (Statistics)]]
[[Category:Templates using under-protected Lua modules|Imputation (Statistics)]]
[[Category:Wikipedia fully protected templates|Div col]]
[[Category:लापता आँकड़े|Imputation (Statistics)]]
[[Category:सांख्यिकीय डेटा कोडिंग|Imputation (Statistics)]]
[[Category:सांख्यिकीय डेटा परिवर्तन|Imputation (Statistics)]]

Latest revision as of 11:50, 18 August 2023

आँकड़ों में, प्रतिरूपण अप्राप्त डेटा (मिसिंग डेटा) को प्रतिस्थापित मानों से बदलने की प्रक्रिया है। किसी डेटा बिंदु के लिए प्रतिस्थापन करते समय, इसे इकाई प्रतिरूपण के रूप में जाना जाता है; जब किसी डेटा बिंदु के एक घटक को प्रतिस्थापित किया जाता है, तो इसे आइटम प्रतिरूपण के रूप में जाना जाता है। अप्राप्त डेटा के कारण तीन मुख्य समस्याएं हैं: अप्राप्त डेटा पर्याप्त मात्रा में पूर्वाग्रह (सांख्यिकी) ला सकता है, डेटा के प्रबंधन और विश्लेषण को अधिक कठिन बना सकता है, और दक्षता (सांख्यिकी) में कमी ला सकता है।[1] चूँकि अप्राप्त डेटा डेटा के विश्लेषण के लिए समस्याएँ प्रकट कर सकता है, इसलिए प्रतिरूपण को उन परिस्थितियों की सूचीवार विलोपन से जुड़े नुकसान से बचने के एक तरीके के रूप में देखा जाता है जिनमें अप्राप्त मूल्य हैं। कहने का तात्पर्य यह है कि, जब किसी परिस्थिति के लिए एक या एक से अधिक मान अप्राप्त होते हैं, तो सांख्यिकीय पैकेजों की अधिकांश सूची किसी भी ऐसे परिस्थिति को त्यागने में डिफ़ॉल्ट होती है, जिसमें अप्राप्त मूल्य होता है, जो पूर्वाग्रह प्रकट कर सकता है या परिणामों की प्रतिनिधित्वशीलता को प्रभावित कर सकता है। अन्य उपलब्ध जानकारी के आधार पर अनुमानित मूल्य के साथ अप्राप्त डेटा को प्रतिस्थापित करके इंप्यूटेशन सभी परिस्थितियों को संरक्षित करता है। एक बार सभी अप्राप्त मानों को आरोपित कर दिए जाने के बाद, संपूर्ण डेटा के लिए मानक तकनीकों का उपयोग करके डेटा सेट का विश्लेषण किया जा सकता है।[2] अप्राप्त डेटा के लिए वैज्ञानिकों द्वारा कई सिद्धांत अपनाए गए हैं लेकिन उनमें से अधिकांश पूर्वाग्रह का परिचय देते हैं। अप्राप्त डेटा से निपटने के कुछ प्रसिद्ध प्रयासों में सम्मिलित हैं: हॉट डेक और कोल्ड डेक इंप्यूटेशन; सूचीवार और जोड़ीवार विलोपन; मतलब आरोपण; गैर-नकारात्मक मैट्रिक्स गुणनखंडन; प्रतिगमन आरोपण; अंतिम अवलोकन आगे बढ़ाया गया; स्टोकेस्टिक प्रतिरूपण; और एकाधिक आरोपण.

सूचीवार (पूरा मामला) विलोपन

अब तक, अप्राप्त डेटा से निपटने का सबसे आम साधन सूचीवार विलोपन (जिसे पूर्ण मामला भी कहा जाता है) है, जो तब होता है जब अप्राप्त मूल्य वाले सभी परिस्थिति हटा दिए जाते हैं। यदि डेटा पूरी तरह से यादृच्छिक रूप से अप्राप्त है, तो सूचीवार विलोपन से कोई पूर्वाग्रह नहीं जुड़ता है, लेकिन यह प्रभावी नमूना आकार को कम करके विश्लेषण की शक्ति (सांख्यिकी) को कम कर देता है। उदाहरण के लिए, यदि 1000 परिस्थिति एकत्र किए गए हैं लेकिन 80 में अप्राप्त मूल्य हैं, तो सूचीवार विलोपन के बाद प्रभावी नमूना आकार 920 है। यदि परिस्थिति पूरी तरह से यादृच्छिक रूप से अप्राप्त नहीं हैं, तो सूचीवार विलोपन पूर्वाग्रह का परिचय देगा क्योंकि अप्राप्त डेटा द्वारा दर्शाए गए परिस्थितियों के उप-नमूने मूल नमूने के प्रतिनिधि नहीं हैं (और यदि मूल नमूना स्वयं किसी आबादी का प्रतिनिधि नमूना था, तो पूरे परिस्थिति भी उस आबादी के प्रतिनिधि नहीं हैं)।[3] जबकि सूचीवार विलोपन निष्पक्ष होता है जब अप्राप्त डेटा पूरी तरह से यादृच्छिक रूप से अप्राप्त होता है, वास्तविकता में ऐसा शायद ही कभी होता है।[4]

युग्‍मानूसार विलोपन (या उपलब्ध केस विश्लेषण) में किसी परिस्थिति को तब हटाना सम्मिलित होता है जब उसमें किसी विशेष विश्लेषण के लिए आवश्यक चर अप्राप्त होता है, लेकिन उस परिस्थिति को विश्लेषण में सम्मिलित किया जाता है जिसके लिए सभी आवश्यक चर उपस्थित होते हैं। जब जोड़ीवार विलोपन का उपयोग किया जाता है, तो विश्लेषण के लिए कुल एन पैरामीटर अनुमानों के अनुरूप नहीं होगा। समय में कुछ बिंदुओं पर अपूर्ण एन मानों के कारण, अन्य मापदंडों के लिए पूर्ण परिस्थिति की तुलना बनाए रखते हुए, जोड़ीदार विलोपन 100% से अधिक सहसंबंध जैसी असंभव गणितीय स्थितियों को प्रस्तुत कर सकता है।[5]

संपूर्ण केस विलोपन का अन्य तरीकों की तुलना में एक फायदा यह है कि यह सीधा और लागू करने में आसान है। यह एक बड़ा कारण है कि कई नुकसानों के अतिरिक्त अप्राप्त डेटा को संभालने के लिए संपूर्ण केस सबसे लोकप्रिय तरीका है।

एकल आरोप

हॉट-डेक

प्रतिरूपण की एक सामान्य विधि हॉट-डेक प्रतिरूपण थी जहां एक यादृच्छिक रूप से चयनित समान रिकॉर्ड से एक अप्राप्त मान लगाया गया था। हॉट डेक शब्द छिद्रित कार्डों पर डेटा के भंडारण से संबंधित है, और इंगित करता है कि सूचना दाता प्राप्तकर्ताओं के समान डेटासेट से आते हैं। कार्डों का ढेर गर्म था क्योंकि यह अभी संसाधित हो रहा था।

हॉट-डेक इंप्यूटेशन के एक रूप को अंतिम अवलोकन को आगे बढ़ाया जाता है (या संक्षेप में एलओसीएफ) कहा जाता है, जिसमें कई चर के अनुसार डेटासेट को सॉर्ट करना सम्मिलित है, इस प्रकार एक ऑर्डर किया गया डेटासेट बनाना सम्मिलित है। फिर तकनीक पहले अप्राप्त मान को ढूंढती है और अप्राप्त मान को लागू करने के लिए अप्राप्त डेटा से तुरंत पहले सेल मान का उपयोग करती है। प्रक्रिया को अगले सेल के लिए अप्राप्त मान के साथ दोहराया जाता है जब तक कि सभी अप्राप्त मान नहीं लगाए जाते है। सामान्य परिदृश्य में जहां परिस्थिति किसी व्यक्ति या अन्य इकाई के लिए एक चर के बार-बार माप होते हैं, यह इस विश्वास का प्रतिनिधित्व करता है कि यदि कोई माप अप्राप्त है, तो सबसे अच्छा अनुमान यह है कि यह पिछली बार मापा गया समय से नहीं बदला है। यह विधि बढ़ते पूर्वाग्रह और संभावित गलत निष्कर्षों के जोखिम को बढ़ाने के लिए जानी जाती है। इस कारण से एलओसीएफ को उपयोग के लिए अनुशंसित नहीं किया जाता है।[6]

कोल्ड-डेक

इसके विपरीत, कोल्ड-डेक प्रतिरूपण, दूसरे डेटासेट से दाताओं का चयन करता है। कंप्यूटर शक्ति में प्रगति के कारण, प्रतिरूपण के अधिक परिष्कृत तरीकों ने सामान्यतः मूल यादृच्छिक और क्रमबद्ध हॉट डेक प्रतिरूपण तकनीकों का स्थान ले लिया है। यह पिछले सर्वेक्षणों में समान वस्तुओं के प्रतिक्रिया मूल्यों को बदलने की एक विधि है। यह उन सर्वेक्षणों में उपलब्ध है जो समय अंतराल को मापते हैं।

माध्य प्रतिस्थापन

एक अन्य प्रतिरूपण तकनीक में अन्य सभी परिस्थितियों के लिए उस चर के माध्य के साथ किसी भी अप्राप्त मान को प्रतिस्थापित करना सम्मिलित है, जिससे उस चर के लिए नमूना माध्य को नहीं बदलने का लाभ होता है। हालाँकि, माध्य आरोपण आरोपित किए गए चर(ओं) से जुड़े किसी भी सहसंबंध को क्षीण कर देता है। ऐसा इसलिए है, क्योंकि आरोपण के परिस्थितियों में, आरोपित चर और किसी अन्य मापे गए चर के बीच कोई संबंध नहीं होने की गारंटी है। इस प्रकार, माध्य प्रतिरूपण में एकभिन्नरूपी विश्लेषण के लिए कुछ आकर्षक गुण होते हैं लेकिन बहुभिन्नरूपी विश्लेषण के लिए यह समस्याग्रस्त हो जाता है।

माध्य प्रतिरूपण वर्गों (अर्थात लिंग जैसी श्रेणियाँ) के भीतर किया जा सकता है, और इसे इस प्रकार व्यक्त किया जा सकता है जहाँ रिकॉर्ड के लिए आरोपित मूल्य है और किसी वर्ग के भीतर प्रतिवादी डेटा का नमूना माध्य है . यह सामान्यीकृत प्रतिगमन आरोपण का एक विशेष मामला है:

यहाँ मूल्य प्रतिगमन से अनुमान लगाया जाता है पर गैर-आरोपित डेटा में, वर्ग सदस्यता के लिए एक डमी वैरिएबल (सांख्यिकी) है, और डेटा को प्रतिवादी में विभाजित किया गया है () और अप्राप्त ().[7][8]


गैर-नकारात्मक मैट्रिक्स गुणनखंडन

गैर-नकारात्मक मैट्रिक्स फ़ैक्टराइज़ेशन (एनएमएफ) इन अप्राप्त डेटा को शून्य के रूप में मानने के बजाय अपने लागत फ़ंक्शन को कम करते हुए अप्राप्त डेटा ले सकता है जो पूर्वाग्रह प्रकट कर सकता है।[9] यह इसे डेटा प्रतिरूपण के लिए गणितीय रूप से सिद्ध विधि बनाता है। एनएमएफ लागत फ़ंक्शन में अप्राप्त डेटा को अनदेखा कर सकता है, और अप्राप्त डेटा का प्रभाव दूसरे क्रम के प्रभाव जितना छोटा हो सकता है।

प्रतिगमन

प्रतिगमन प्रतिरूपण में माध्य प्रतिरूपण की विपरीत समस्या होती है। एक प्रतिगमन मॉडल का अनुमान अन्य चर के आधार पर एक चर के देखे गए मूल्यों की भविष्यवाणी करने के लिए लगाया जाता है, और उस मॉडल का उपयोग उन परिस्थितियों में मूल्यों को लागू करने के लिए किया जाता है जहां उस चर का मूल्य अप्राप्त है। दूसरे शब्दों में, पूर्ण और अपूर्ण परिस्थितियों के लिए उपलब्ध जानकारी का उपयोग किसी विशिष्ट चर के मूल्य की भविष्यवाणी करने के लिए किया जाता है। फिर प्रतिगमन मॉडल से फिट किए गए मूल्यों का उपयोग अप्राप्त मूल्यों को लागू करने के लिए किया जाता है। समस्या यह है कि लगाए गए डेटा में उनके अनुमान में कोई त्रुटि शब्द सम्मिलित नहीं है, इस प्रकार अनुमान बिना किसी अवशिष्ट भिन्नता के प्रतिगमन रेखा के साथ पूरी तरह से फिट होते हैं। इसके कारण रिश्तों की अधिक पहचान हो जाती है और आरोपित मूल्यों में आवश्यकता से अधिक सटीकता का सुझाव मिलता है। प्रतिगमन मॉडल अप्राप्त डेटा के सबसे संभावित मूल्य की भविष्यवाणी करता है लेकिन उस मूल्य के बारे में अनिश्चितता प्रदान नहीं करता है।

स्टोकेस्टिक प्रतिगमन, त्रुटि को प्रस्तुत करने के लिए प्रतिगमन प्रतिरूपण में औसत प्रतिगमन विचरण जोड़कर प्रतिगमन प्रतिरूपण में त्रुटि शब्द की कमी को ठीक करने का एक काफी सफल प्रयास था। स्टोकेस्टिक रिग्रेशन उपर्युक्त तकनीकों की तुलना में बहुत कम पूर्वाग्रह दिखाता है, लेकिन इसमें अभी भी एक बात छूट गई है - यदि डेटा लगाया जाता है तो सहज रूप से कोई यह सोचेगा कि समस्या में सरल अवशिष्ट विचरण की तुलना में अधिक रव पेश किया जाना चाहिए।[5]


एकाधिक आरोपण

प्रतिरूपण के कारण बढ़े हुए रव की समस्या से निपटने के लिए, रुबिन (1987)[10] इसे ध्यान में रखते हुए कई आरोपित डेटा सेटों में परिणामों के औसत के लिए एक विधि विकसित की गई। सभी एकाधिक प्रतिरूपण विधियाँ तीन चरणों का पालन करती हैं।[3]

  1. इंप्यूटेशन - एकल इंप्यूटेशन के समान, अप्राप्त मान लगाए जाते हैं। हालाँकि, लगाए गए मान किसी वितरण से केवल एक बार के बजाय m बार निकाले जाते हैं। इस चरण के अंत में, पूर्ण डेटासेट होना चाहिए।
  2. विश्लेषण - प्रत्येक m डेटासेट का विश्लेषण किया जाता है। इस चरण के अंत में विश्लेषण होना चाहिए।
  3. पूलिंग - चिंता के चर के माध्य, विचरण और आत्मविश्वास अंतराल की गणना करके m परिणामों को एक परिणाम में समेकित किया जाता है[11][12] या प्रत्येक अलग मॉडल से सिमुलेशन के संयोजन से किया जाता है।[13]

जिस प्रकार एकल निरूपण की अनेक विधियाँ होती हैं, उसी प्रकार एकाधिक निरूपण की भी अनेक विधियाँ होती हैं। एकल प्रतिनियुक्ति और पूर्ण परिस्थिति के तरीकों की तुलना में एकाधिक प्रतिनियुक्ति का एक लाभ यह है कि एकाधिक प्रतिनियुक्ति लचीली होती है और इसका उपयोग विभिन्न प्रकार के परिदृश्यों में किया जा सकता है। ऐसे परिस्थितियों में एकाधिक प्रतिनियुक्ति का उपयोग किया जा सकता है, जहां डेटा अप्राप्त डेटा यादृच्छिक रूप से पूरी तरह से अप्राप्त, अप्राप्त डेटा यादृच्छिक रूप से अप्राप्त, और तब भी जब अप्राप्त डेटा, डेटा यादृच्छिक रूप से अप्राप्त नहीं है। एक लोकप्रिय दृष्टिकोण जंजीर समीकरणों (एमआईसीई) द्वारा एकाधिक प्रतिरूपण है, जिसे पूरी तरह से सशर्त विनिर्देश और अनुक्रमिक प्रतिगमन एकाधिक प्रतिरूपण के रूप में भी जाना जाता है।[14] एमआईसीई को यादृच्छिक डेटा अप्राप्त होने के लिए डिज़ाइन किया गया है, हालांकि यह सुझाव देने के लिए सिमुलेशन सबूत हैं कि पर्याप्त संख्या में सहायक चर के साथ यह उन डेटा पर भी काम कर सकता है जो यादृच्छिक रूप से अप्राप्त नहीं हैं। हालाँकि, जब अवलोकन की संख्या बड़ी होती है और डेटा में गैर-रैखिकता और उच्च आयामीता जैसी जटिल विशेषताएं होती हैं, तो MICE प्रदर्शन समस्याओं से पीड़ित हो सकता है।

मल्टीपल इम्प्यूटेशन के हालिया दृष्टिकोण अपने प्रदर्शन को बेहतर बनाने के लिए मशीन लर्निंग तकनीकों का उपयोग करते हैं। उदाहरण के लिए, MIDAS (मल्टीपल इंप्यूटेशन विद डीनोइज़िंग ऑटोएन्कोडर्स), प्रेक्षित डेटा के सुक्ष्म अव्यक्त अभ्यावेदन को सीखने के लिए डीनोइज़िंग ऑटोएनकोडर, एक प्रकार का अप्रशिक्षित तंत्रिका नेटवर्क का उपयोग करता है।[15] MIDAS को पारंपरिक एकाधिक प्रतिरूपण रणनीतियों की तुलना में सटीकता और दक्षता लाभ प्रदान करने के लिए दिखाया गया है।

जैसा कि पिछले अनुभाग में बताया गया है, एकल आरोपण आरोपों में अनिश्चितता को ध्यान में नहीं रखता है। प्रतिरूपण के बाद, डेटा को ऐसे माना जाता है जैसे कि वे एकल प्रतिरूपण में वास्तविक वास्तविक मूल्य थे। आरोपण में अनिश्चितता की लापरवाही अत्यधिक सटीक परिणाम और निकाले गए किसी भी निष्कर्ष में त्रुटियां प्रकट कर सकती है।[16] कई बार आरोप लगाने से, कई आरोप अनिश्चितता और मूल्यों की सीमा के लिए जिम्मेदार होते हैं जो वास्तविक मूल्य ले सकते थे। जैसा कि अपेक्षित था, अनिश्चितता अनुमान और प्रतिरूपण के लिए गहन शिक्षण दोनों का संयोजन सबसे अच्छी रणनीतियों में से एक है और इसका उपयोग विषम दवा खोज डेटा को मॉडल करने के लिए किया गया है।[17][18]

इसके अतिरिक्त, जबकि एकल आरोपण और संपूर्ण परिस्थिति को लागू करना आसान है, एकाधिक आरोपण को लागू करना बहुत कठिन नहीं है। सांख्यिकीय सॉफ़्टवेयर की सूची में सांख्यिकीय पैकेजों की एक विस्तृत श्रृंखला है जो आसानी से एकाधिक प्रतिरूपण करती है। उदाहरण के लिए, MICE पैकेज R (प्रोग्रामिंग लैंग्वेज) में उपयोगकर्ताओं को MICE विधि का उपयोग करके एकाधिक प्रतिरूपण करने की अनुमति देता है।[19] MIDAS को R में rMIDAS पैकेज के साथ और Python में MIDASpy पैकेज के साथ लागू किया जा सकता है।[15]


यह भी देखें

संदर्भ

  1. Barnard, J.; Meng, X. L. (1999-03-01). "Applications of multiple imputation in medical studies: from AIDS to NHANES". Statistical Methods in Medical Research. 8 (1): 17–36. doi:10.1177/096228029900800103. ISSN 0962-2802. PMID 10347858. S2CID 11453137.
  2. Gelman, Andrew, and Jennifer Hill. Data analysis using regression and multilevel/hierarchical models. Cambridge University Press, 2006. Ch.25
  3. 3.0 3.1 Lall, Ranjit (2016). "अनेक दोषारोपण से कैसे फर्क पड़ता है". Political Analysis (in English). 24 (4): 414–433. doi:10.1093/pan/mpw020.
  4. Kenward, Michael G (2013-02-26). "नैदानिक ​​​​परीक्षणों में गुम डेटा का प्रबंधन". Clinical Investigation. 3 (3): 241–250. doi:10.4155/cli.13.7. ISSN 2041-6792. {{cite journal}}: zero width space character in |title= at position 9 (help)
  5. 5.0 5.1 Enders, C. K. (2010). अनुप्रयुक्त गुम डेटा विश्लेषण. New York: Guilford Press. ISBN 978-1-60623-639-0.
  6. Molnar, Frank J.; Hutton, Brian; Fergusson, Dean (2008-10-07). "Does analysis using "last observation carried forward" introduce bias in dementia research?". Canadian Medical Association Journal. 179 (8): 751–753. doi:10.1503/cmaj.080820. ISSN 0820-3946. PMC 2553855. PMID 18838445.
  7. Kalton, Graham (1986). "गुम सर्वेक्षण डेटा का उपचार". Survey Methodology. 12: 1–16.
  8. Kalton, Graham; Kasprzyk, Daniel (1982). "लापता सर्वेक्षण प्रतिक्रियाओं के लिए आरोप लगाना" (PDF). Proceedings of the Section on Survey Research Methods. American Statistical Association. 22. S2CID 195855359. Archived from the original (PDF) on 2020-02-12.
  9. Ren, Bin; Pueyo, Laurent; Chen, Christine; Choquet, Elodie; Debes, John H; Duchene, Gaspard; Menard, Francois; Perrin, Marshall D. (2020). "उच्च कंट्रास्ट इमेजिंग में सिग्नल पृथक्करण के लिए डेटा प्रतिरूपण का उपयोग करना". The Astrophysical Journal. 892 (2): 74. arXiv:2001.00563. Bibcode:2020ApJ...892...74R. doi:10.3847/1538-4357/ab7024. S2CID 209531731.
  10. Rubin, Donald (9 June 1987). एकाधिक अभियोगपत्र के लिए सर्वेक्षण में कोई अनुक्रिया नही है. Wiley Series in Probability and Statistics. Wiley. doi:10.1002/9780470316696. ISBN 9780471087052.
  11. Yuan, Yang C. (2010). "Multiple imputation for missing data: Concepts and new development" (PDF). SAS Institute Inc., Rockville, MD. 49: 1–11.
  12. Van Buuren, Stef (2012-03-29). "2. Multiple Imputation". गुम डेटा का लचीला आरोपण. Chapman & Hall/CRC Interdisciplinary Statistics Series. Vol. 20125245. Chapman and Hall/CRC. doi:10.1201/b11826. ISBN 9781439868249. S2CID 60316970.
  13. King, Gary; Honaker, James; Joseph, Anne; Scheve, Kenneth (March 2001). "Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation". American Political Science Review (in English). 95 (1): 49–69. doi:10.1017/S0003055401000235. ISSN 1537-5943. S2CID 15484116.
  14. Azur, Melissa J.; Stuart, Elizabeth A.; Frangakis, Constantine; Leaf, Philip J. (2011-03-01). "Multiple imputation by chained equations: what is it and how does it work?". International Journal of Methods in Psychiatric Research. 20 (1): 40–49. doi:10.1002/mpr.329. ISSN 1557-0657. PMC 3074241. PMID 21499542.
  15. 15.0 15.1 Lall, Ranjit; Robinson, Thomas (2021). "The MIDAS Touch: Accurate and Scalable Missing-Data Imputation with Deep Learning". Political Analysis. 30 (2): 179–196. doi:10.1017/pan.2020.49.
  16. Graham, John W. (2009-01-01). "Missing data analysis: making it work in the real world". Annual Review of Psychology. 60: 549–576. doi:10.1146/annurev.psych.58.110405.085530. ISSN 0066-4308. PMID 18652544.
  17. Irwin, Benedict (2020-06-01). "विषम औषधि खोज डेटा को लागू करने के लिए गहन शिक्षण के व्यावहारिक अनुप्रयोग". Journal of Chemical Information and Modeling. 60 (6): 2848–2857. doi:10.1021/acs.jcim.0c00443. PMID 32478517. S2CID 219171721.
  18. Whitehead, Thomas (2019-02-12). "डीप लर्निंग का उपयोग करके परख बायोएक्टिविटी डेटा का आरोपण". Journal of Chemical Information and Modeling. 59 (3): 1197–1204. doi:10.1021/acs.jcim.8b00768. PMID 30753070. S2CID 73429643.
  19. Horton, Nicholas J.; Kleinman, Ken P. (2007-02-01). "Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models". The American Statistician. 61 (1): 79–90. doi:10.1198/000313007X172556. ISSN 0003-1305. PMC 1839993. PMID 17401454.


बाहरी संबंध