सेंसरिंग (सांख्यिकी)

आंकड़ों में, सेंसरिंग ऐसी स्थिति है जिसमें माप या अवलोकन का मूल्य (गणित) केवल आंशिक रूप से जाना जाता है। उदाहरण के लिए, मान लीजिए मृत्यु दर पर दवा के प्रभाव को मापने के लिए अध्ययन किया जाता है। इस तरह के अध्ययन से यह पता चल सकता है कि मृत्यु के समय व्यक्ति की उम्र कम से कम 75 वर्ष (लेकिन अधिक भी हो सकती है) है। ऐसी स्थिति तब हो सकती है जब व्यक्ति 75 वर्ष की आयु में अध्ययन से हट जाता है, या यदि व्यक्ति 75 वर्ष की आयु में वर्तमान में जीवित है।

सेंसरिंग तब भी होती है जब कोई मान मापने वाले उपकरण की सीमा के बाहर होता है। उदाहरण के लिए बाथरूम का पैमाना केवल 140 किग्रा तक माप सकता है। यदि 160 किलो वजन वाले व्यक्ति को स्केल का उपयोग करके वजन किया जाता है तो पर्यवेक्षक को केवल यह पता चलेगा कि व्यक्ति का वजन कम से कम 140 किलो है।

सेंसर किए गए डेटा की समस्या जिसमें कुछ चर का प्रेक्षित मूल्य आंशिक रूप से ज्ञात होता है, लुप्त डेटा की समस्या से संबंधित होता है जहाँ कुछ चर का प्रेक्षित मान अज्ञात होता है।

सेंसरिंग को संबंधित विचार काट-छांट (सांख्यिकी) के साथ भ्रमित नहीं होना चाहिए। सेंसरिंग के साथ टिप्पणियों का परिणाम या तो प्रयुक्त होने वाले सही मूल्य को जानने में होता है या यह जानने में होता है कि मूल्य अंतराल (गणित) के अन्दर है। काट-छाँट के साथ, टिप्पणियों का परिणाम किसी निश्चित सीमा के बाहर के मूल्यों में नहीं होता है सीमा के बाहर जनसंख्या में मूल्यों को कभी नहीं देखा जाता है या यदि वे देखा जाता है तो कभी रिकॉर्ड नहीं किया जाता है। ध्यान दें कि आँकड़ों में, ट्रंकेशन गोलाई के समान नहीं है।

प्रकार

 * बाएं सेंसरिंग - डेटा बिंदु निश्चित मूल्य से नीचे है लेकिन यह कितना अज्ञात है।
 * अंतराल सेंसरिंग - डेटा बिंदु दो मूल्यों के बीच अंतराल पर कहीं है।
 * दाये सेंसरिंग - डेटा बिंदु निश्चित मूल्य से ऊपर है लेकिन यह कितना अज्ञात है।
 * टाइप I सेंसरिंग तब होती है जब किसी प्रयोग में विषयों या वस्तुओं की निर्धारित संख्या होती है और प्रयोग को पूर्व निर्धारित समय पर रोक दिया जाता है, जिस बिंदु पर शेष बचे हुए विषयों को दांया-सेंसर किया जाता है।
 * टाइप II सेंसरिंग तब होती है जब किसी प्रयोग में विषयों या वस्तुओं की निर्धारित संख्या होती है और पूर्व निर्धारित संख्या के विफल होने पर प्रयोग बंद हो जाता है; शेष विषयों को फिर दांया-सेंसर किया जाता है।
 * रैंडम (या गैर-सूचनात्मक) सेंसरिंग तब होती है जब प्रत्येक विषय का सेंसरिंग समय होता है जो सांख्यिकीय रूप से उनकी विफलता के समय से स्वतंत्र होता है। देखा गया मूल्य सेंसरिंग और विफलता के समय का न्यूनतम है जिन विषयों की विफलता का समय उनके सेंसरिंग समय से अधिक है वे दांया-सेंसर हैं।

अंतराल सेंसरिंग तब हो सकती है जब किसी मूल्य को देखने के लिए फॉलो-अप या निरीक्षण की आवश्यकता होती है। बाएं और दाएं सेंसरिंग अंतराल सेंसरिंग के विशेष स्थितियां हैं अंतराल की प्रारंभ क्रमशः शून्य या अंत में अनंत पर होती है।

बाएं सेंसर किए गए डेटा का उपयोग करने के लिए अनुमानक अलग-अलग होते हैं और सभी डेटा सेटों के लिए अनुमान के सभी विधियाँ प्रयुक्त नहीं हो सकते हैं या सबसे विश्वसनीय हो सकते हैं।

समय अंतराल डेटा के साथ सामान्य गलती बाएं सेंसर किए गए अंतराल के रूप में वर्ग के लिए है जहां प्रारंभ समय अज्ञात है। इन स्थितियो में हमारे पास समय अंतराल पर निचली सीमा होती है इस प्रकार डेटा सही सेंसर किया जाता है (इस तथ्य के अतिरिक्त गायब प्रारंभ बिंदु ज्ञात अंतराल के बाईं ओर होता है जब इसे समयरेखा के रूप में देखा जाता है।)

विश्लेषण
सेंसर किए गए डेटा को संभालने के लिए विशिष्ट तकनीकों का उपयोग किया जा सकता है। विशिष्ट विफलता समय वाले परीक्षणों को वास्तविक विफलताओं के रूप में कोडित किया जाता है सेंसर किए गए डेटा को सेंसरिंग के प्रकार और ज्ञात अंतराल या सीमा के लिए कोडित किया जाता है। विशेष सॉफ्टवेयर प्रोग्राम (अधिकांशतः विश्वसनीयता इंजीनियरिंग उन्मुख) सारांश आँकड़ों, विश्वास अंतराल, आदि के लिए अधिकतम संभावना का अनुमान लगा सकते हैं।

महामारी विज्ञान
सेंसर किए गए डेटा से जुड़ी सांख्यिकीय समस्या का विश्लेषण करने के प्रारंभी प्रयासों में से एक था डेनियल बर्नौली का 1766 में चेचक की रुग्णता और मृत्यु दर डेटा का विश्लेषण टीकाकरण की प्रभावकारिता को प्रदर्शित करने के लिए। सेंसर की गई लागतों का अनुमान लगाने के लिए कापलान-मेयर अनुमानक का उपयोग करने वाला प्रारंभिक पेपर क्वेसेनबेरी एट अल था (1989) चूंकि इस दृष्टिकोण को लिन एट अल द्वारा अमान्य पाया गया जब तक सभी रोगियों ने समय के साथ सामान्य नियतात्मक दर फलन के साथ लागत संचित नहीं की उन्होंने लिन अनुमानक के रूप में ज्ञात वैकल्पिक अनुमान तकनीक का प्रस्ताव रखा।

ऑपरेटिंग जीवन परीक्षण
विश्वसनीयता इंजीनियरिंग परीक्षण में अधिकांशतः किसी वस्तु (निर्दिष्ट शर्तों के अंतर्गत) पर परीक्षण आयोजित करना होता है ताकि यह निर्धारित किया जा सके कि विफल होने में कितना समय लगता है। प्रतिकृति परीक्षणों से डेटा के विश्लेषण में असफल होने वाली वस्तुओं के लिए समय-से-विफलता और विफल नहीं होने वाले लोगों के लिए परीक्षण-समाप्ति दोनों सम्मिलित हैं।
 * कभी-कभी विफलता की योजना बनाई जाती है और अपेक्षित होती है लेकिन ऐसा नहीं होता है ऑपरेटर त्रुटि,उपकरण खराब, परीक्षण विसंगति इत्यादि परीक्षा परिणाम वांछित समय-से-विफलता नहीं था लेकिन समय-समय पर उपयोग किया जा सकता है (और होना चाहिए) समाप्ति सेंसर किए गए डेटा का उपयोग अनजाने में लेकिन आवश्यक है।
 * कभी-कभी इंजीनियर परीक्षण फंक्शन की योजना बनाते हैं ताकि निश्चित समय सीमा या विफलताओं की संख्या के बाद, अन्य सभी परीक्षण समाप्त हो जाएं। इन निलंबित समयों को दाये-सेंसर किए गए डेटा के रूप में माना जाता है। सेंसर किए गए डेटा का उपयोग अनजाने किया गया है।

सेंसर प्रतिगमन
1958 में जेम्स टोबिन द्वारा सेंसर किए गए प्रतिगमन मॉडल, टोबिट मॉडल के लिए पहले का मॉडल प्रस्तावित किया गया था।

संभावना
संभाव्यता फलन, जो देखा गया था उसकी प्रायिकता या प्रायिकता घनत्व है, जिसे कल्पित मॉडल में पैरामीटरों के फलन के रूप में देखा जाता है। सेंसर किए गए डेटा बिंदु को संभावना में सम्मिलित करने के लिए सेंसर किए गए डेटा बिंदु को सेंसर किए गए डेटा बिंदु की संभावना द्वारा मॉडल दिए गए मॉडल पैरामीटर के फलन के रूप में दर्शाया जाता है यानी घनत्व या संभावना द्रव्यमान के अतिरिक्त सीडीएफ (s) का फलन होता है।

सबसे सामान्य सेंसरिंग स्थितियां अंतराल सेंसरिंग है: $$Pr( a< x\leqslant b) =F( b) -F( a)$$, कहाँ $$F( x)$$ संभाव्यता वितरण का सीडीएफ है, और दो विशेष स्थितियां हैं:

निरंतर संभाव्यता वितरण के लिए: $$Pr( a< x\leqslant b) =Pr( a< x< b)$$
 * बाएं सेंसरिंग: $$Pr( -\infty < x\leqslant b) =F( b) -F(-\infty)=F( b)-0=F(b) =Pr( x\leqslant b)$$
 * दाये सेंसरिंग: $$Pr( a< x\leqslant \infty ) =F( \infty ) -F( a) =1-F( a) =1-Pr( x\leqslant a) =Pr( x >a)$$

उदाहरण
मान लीजिए हम जीवित रहने के समय में रुचि रखते हैं, $$T_1, T_2, ..., T_n$$, लेकिन हम निरीक्षण नहीं करते $$T_i$$ सभी के लिए $$i$$. इसके अतिरिक्त, हम निरीक्षण करते हैं।


 * $$(U_i, \delta_i)$$, साथ $$U_i = T_i$$ और $$\delta_i = 1$$ अगर $$T_i$$ वास्तव में मनाया जाता है और
 * $$(U_i, \delta_i)$$, साथ $$U_i < T_i$$ और $$\delta_i = 0$$ अगर हम सब जानते हैं कि है $$T_i$$ से अधिक लंबा $$U_i$$ है

तब $$T_i > U_i, U_i$$ सेंसरिंग टाइम कहा जाता है।

यदि सेंसर करने का समय सभी ज्ञात स्थिरांक हैं, तो संभावना है।


 * $$L = \prod_{i, \delta_i = 1} f(u_i) \prod_{i, \delta_i=0} S(u_i)$$

जहाँ $$f(u_i)$$ = प्रायिकता घनत्व $$u_i$$ फलन का मूल्यांकन किया गया

और $$S(u_i)$$ = संभावना है कि $$T_i$$ से बड़ा $$u_i$$ है उत्तरजीविता फलन कहा जाता है।

इसे विफलता दर जोखिम कार्य, मृत्यु दर की तात्कालिक शक्ति के रूप में परिभाषित करके सरल बनाया जा सकता है।


 * $$\lambda(u) = f(u)/S(u)$$

इसलिए


 * $$f(u) = \lambda(u)S(u)$$.

तब


 * $$L = \prod_i \lambda(u_i)^{\delta_i} S(u_i)$$.

घातीय वितरण के लिए, यह और भी आसान हो जाता है, क्योंकि खतरे की दर $$\lambda$$, स्थिर है और $$S(u) = \exp(-\lambda u)$$. तब


 * $$L(\lambda) = \lambda^k \exp (-\lambda \sum{u_i})$$,

जहाँ $$k = \sum{\delta_i}$$.

इससे हम सरलता से गणना कर लेते हैं $$\hat{\lambda}$$, अधिकतम संभावना अनुमान अधिकतम संभावना अनुमान (MLE)। $$\lambda$$, निम्नलिखित


 * $$l(\lambda) = \log(L(\lambda)) = k \log(\lambda) - \lambda \sum{u_i}$$.

तब


 * $$dl / d\lambda = k/\lambda - \sum{u_i}$$.

हम इसे 0 पर सेट करते हैं और इसके लिए हल करते हैं $$\lambda$$ पाने के लिए


 * $$\hat \lambda = k / \sum u_i$$.

समान रूप से, पहली विफलता का औसत समय है


 * $$1 / \hat\lambda = \sum u_i / k$$.

यह घातांकी रूप से वितरण के लिए मानक एमएलई से अलग है जिसमें सेंसर किए गए अवलोकनों को केवल अंश में माना जाता है।

यह भी देखें

 * डेटा विश्लेषण
 * पता करने की सीमा
 * आरोप (सांख्यिकी)
 * उलटा संभाव्यता भार
 * आंकड़ों की अशुद्धि
 * संतृप्ति अंकगणित
 * उत्तरजीविता विश्लेषण
 * जीतना

अग्रिम पठन

 * Blower, S. (2004), D, Bernoulli's " (146 KiB)", Reviews of Medical Virology, 14: 275–288
 * Bagdonavicius, V., Kruopis, J., Nikulin, M.S. (2011),"Non-parametric Tests for Censored Data", London, ISTE/WILEY,ISBN 9781848212893.
 * Bagdonavicius, V., Kruopis, J., Nikulin, M.S. (2011),"Non-parametric Tests for Censored Data", London, ISTE/WILEY,ISBN 9781848212893.
 * Bagdonavicius, V., Kruopis, J., Nikulin, M.S. (2011),"Non-parametric Tests for Censored Data", London, ISTE/WILEY,ISBN 9781848212893.

बाहरी संबंध

 * "Engineering Statistics Handbook", NIST/SEMATEK,