चयन पूर्वाग्रह

चयन पूर्वाग्रह व्यक्तियों, समूहों, या विश्लेषण के लिए डेटा के चयन द्वारा प्रस्तुत किया गया पूर्वाग्रह है, इस तरह से कि उचित यादृच्छिककरण प्राप्त नहीं किया जाता है, जिससे यह सुनिश्चित करने में विफल रहता है कि प्राप्त नमूना जनसंख्या का प्रतिनिधि है जिसका विश्लेषण किया जाना है। इसे कभी-कभी चयन प्रभाव के रूप में जाना जाता है। वाक्यांश  चयन पूर्वाग्रह  सबसे अधिक बार एक सांख्यिकीय विश्लेषण की विकृति को संदर्भित करता है, जिसके परिणामस्वरूप नमूने एकत्र करने की विधि होती है। यदि चयन पूर्वाग्रह को ध्यान में नहीं रखा जाता है, तो अध्ययन के कुछ निष्कर्ष गलत हो सकते हैं।

नमूनाकरण पूर्वाग्रह
नमूनाकरण पूर्वाग्रह एक जनसंख्या के गैर-यादृच्छिक नमूने के कारण व्यवस्थित त्रुटि है, जिससे जनसंख्या के कुछ सदस्यों को दूसरों की तुलना में सम्मिलित होने की संभावना कम होती है, जिसके परिणामस्वरूप एक पक्षपाती नमूना होता है, जिसे जनसंख्या के सांख्यिकीय नमूने के रूप में परिभाषित किया जाता है (या गैर-मानव कारक) जिसमें सभी प्रतिभागी समान रूप से संतुलित या निष्पक्ष रूप से प्रतिनिधित्व नहीं करते हैं। इसे ज्यादातर चयन पूर्वाग्रह के उपप्रकार के रूप में वर्गीकृत किया जाता है, कभी-कभी विशेष रूप से नमूना चयन पूर्वाग्रह कहा जाता है,  लेकिन कुछ इसे एक अलग प्रकार के पूर्वाग्रह के रूप में वर्गीकृत करते हैं।

नमूनाकरण पूर्वाग्रह का एक भेद (यद्यपि एक सार्वभौमिक रूप से स्वीकृत नहीं है) यह है कि यह एक परीक्षण की बाहरी वैधता को कम करता है (बाकी जनसंख्या के लिए इसके परिणामों को सामान्यीकृत करने की क्षमता), जबकि चयन पूर्वाग्रह मुख्य रूप से अंतर के लिए आंतरिक वैधता को संबोधित करता है या नमूने में मिली समानता इस अर्थ में, नमूना या कोहोर्ट एकत्र करने की प्रक्रिया में होने वाली त्रुटियां नमूना पूर्वाग्रह का कारण बनती हैं, जबकि किसी भी प्रक्रिया में त्रुटियां उसके बाद चयन पूर्वाग्रह का कारण बनती हैं।

नमूना पूर्वाग्रह के उदाहरणों में स्व-चयन, परीक्षण प्रतिभागियों की प्री-स्क्रीनिंग, परीक्षण विषयों/परीक्षणों को छूट देना सम्मिलित है जो पूरा नहीं हुआ और अध्ययन क्षेत्र में हाल ही में या बाहर चले गए विषयों को छोड़कर प्रवास पूर्वाग्रह, लंबाई समय पूर्वाग्रह, जहां बेहतर पूर्वानुमान के साथ धीरे-धीरे विकसित होने वाली बीमारी का पता चलता है, और लीड टाइम पूर्वाग्रह, जहां रोग का निदान तुलनात्मक आबादी की तुलना में पहले प्रतिभागियों द्वारा किया जाता है, हालांकि बीमारी का औसत कोर्स समान है।

समय अंतराल

 * एक समय में परीक्षण की प्रारंभिक समाप्ति जब इसके परिणाम वांछित निष्कर्ष का समर्थन करते हैं।
 * एक परीक्षण को अत्यधिक मूल्य (प्रायः नैतिक कारणों से) पर जल्दी समाप्त किया जा सकता है, लेकिन सबसे बड़े विचरण वाले चर द्वारा चरम मूल्य तक पहुंचने की संभावना है, भले ही सभी चर का एक समान मतलब हो।

अनावृत्ति

 * संवेदनशीलता पूर्वाग्रह
 * नैदानिक ​​​​संवेदनशीलता पूर्वाग्रह, जब एक बीमारी दूसरी बीमारी के लिए पूर्वनिर्धारित होती है, और पहली बीमारी के लिए उपचार गलत तरीके से दूसरी बीमारी के लिए प्रतीत होता है। उदाहरण के लिए, रजोनिवृत्ति सिंड्रोम अंतर्गर्भाशयकला कैंसर के भी विकसित होने की अधिक संभावना देता है, इसलिए रजोनिवृत्ति सिंड्रोम के लिए दिए गए एस्ट्रोजेन को अंतर्गर्भाशयकला कैंसर पैदा करने के लिए वास्तविक दोष से अधिक प्राप्त हो सकता है।
 * प्रोटोपैथिक पूर्वाग्रह, जब किसी बीमारी या अन्य परिणाम के पहले लक्षणों के लिए उपचार परिणाम का कारण बनता है। यह एक संभावित पूर्वाग्रह है जब वास्तविक निदान से पहले पहले लक्षणों और उपचार की शुरुआत में देरी होती है। इसे लैगिंग द्वारा कम किया जा सकता है, अर्थात निदान से पहले एक निश्चित समय अवधि में होने वाले जोखिमों को बाहर करना।
 * संकेत पूर्वाग्रह, कारण और प्रभाव के बीच एक संभावित मिश्रण जब जोखिम संकेत पर निर्भर होता है, उदा. एक बीमारी होने के उच्च जोखिम वाले लोगों को उपचार दिया जाता है, संभावित रूप से बीमार होने वालों में उपचारित लोगों की अधिकता का कारण बनता है। यह बीमारी के कारण होने वाले उपचार की गलत उपस्थिति का कारण बन सकता है।

आँकड़े

 * विभाजन की सामग्री के ज्ञान के साथ डेटा का विभाजन (विभाजन), और फिर उन्हें आँख बंद करके चुने गए विभाजन के लिए डिज़ाइन किए गए परीक्षणों के साथ विश्लेषण करना।
 * स्वेच्छ या व्यक्तिपरक कारणों के आधार पर डेटा समावेशन के पोस्ट हॉक विश्लेषण परिवर्तन, जिनमें सम्मिलित हैं:
 * चेरी पिकिंग, जो वास्तविकता में चयन पूर्वाग्रह नहीं है, बल्कि पुष्टिकरण पूर्वाग्रह है, जब किसी निष्कर्ष का समर्थन करने के लिए डेटा के विशिष्ट सबसेट चुने जाते हैं (उदाहरण के लिए एयरलाइन उड़ान के असुरक्षित होने के साक्ष्य के रूप में विमान दुर्घटनाओं के उदाहरणों का हवाला देते हुए, जबकि कहीं अधिक अनदेखी करते हुए उड़ानों का सामान्य उदाहरण जो सुरक्षित रूप से पूरी होती हैं। देखें: उपलब्धता अनुमानी)
 * खराब डेटा की अस्वीकृति (1) स्वेच्छ आधार पर, बजाय पहले बताए गए या प्रायः सहमत मानदंडों के अनुसार या (2) सांख्यिकीय आधार पर "आउटलेयर" को छोड़ना जो महत्वपूर्ण जानकारी को ध्यान में रखने में विफल होते हैं जो निराधार टिप्पणियों से प्राप्त की जा सकती हैं।

अध्ययन

 * मेटा-विश्लेषण में सम्मिलित करने के लिए किन अध्ययनों का चयन (कॉम्बिनेटरियल मेटा-विश्लेषण भी देखें)।
 * दोहराए गए प्रयोग करना और केवल सबसे अनुकूल परिणामों की रिपोर्ट करना, संभवतः अन्य प्रयोगों के लैब रिकॉर्ड को अंशांकन परीक्षण, इंस्ट्रूमेंटेशन त्रुटियों या प्रारंभिक सर्वेक्षण के रूप में पुनः लेबल करना।
 * डेटा ड्रेज का सबसे महत्वपूर्ण परिणाम प्रस्तुत करना जैसे कि यह एक एकल प्रयोग था (जो तार्किक रूप से पिछले विषय के समान है, लेकिन बहुत कम बेईमानी के रूप में देखा जाता है)।

क्षय
एट्रिशन बायस एक प्रकार का चयन पूर्वाग्रह है जो एट्रिशन (प्रतिभागियों की हानि) के कारण होता है, छूट परीक्षण विषयों/परीक्षण जो पूरा नहीं हुआ। यह उत्तरजीविता पूर्वाग्रह से निकटता से संबंधित है,जहां केवल वे विषय जो "जीवित" एक प्रक्रिया को विश्लेषण या विफलता पूर्वाग्रह में सम्मिलित किया जाता है, जहां केवल उन विषयों को सम्मिलित किया जाता है जो एक प्रक्रिया को "विफल" करते हैं। इसमें ड्रॉपआउट, गैर-प्रतिक्रिया (कम प्रतिक्रिया दर), वापसी और प्रोटोकॉल विचलनकर्ता सम्मिलित हैं। यह पक्षपाती परिणाम देता है जहां यह जोखिम और/या परिणाम के संबंध में असमान है। उदाहरण के लिए, आहार कार्यक्रम के एक परीक्षण में, शोधकर्ता परीक्षण से बाहर निकलने वाले प्रत्येक व्यक्ति को आसानी से अस्वीकार कर सकता है, लेकिन छोड़ने वालों में से अधिकांश वे हैं जिनके लिए यह काम नहीं कर रहा था। हस्तक्षेप और तुलना समूह में विषयों के अलग-अलग नुकसान इन समूहों की विशेषताओं को बदल सकते हैं और अध्ययन किए गए हस्तक्षेप के बावजूद परिणाम बदल सकते हैं।

लॉस्ट टू फॉलो-अप, एट्रिशन बायस का एक और रूप है, जो मुख्य रूप से लंबी अवधि में औषधीय अध्ययनों में होता है। गैर-प्रतिक्रिया या प्रतिधारण पूर्वाग्रह मूर्त और अमूर्त दोनों कारकों से प्रभावित हो सकते हैं, जैसे; धन, शिक्षा, परोपकारिता, अध्ययन की प्रारंभिक समझ और इसकी आवश्यकताएं। प्रारंभिक भर्ती और अनुसंधान चरण के दौरान एकत्र की गई अपर्याप्त पहचान वाली जानकारी और संपर्क विवरण के परिणामस्वरूप शोधकर्ता अनुवर्ती संपर्क करने में असमर्थ हो सकते हैं।

पर्यवेक्षक चयन
दार्शनिक निक बोस्सोम ने तर्क दिया है कि डेटा को न केवल अध्ययन डिजाइन और माप द्वारा फ़िल्टर किया जाता है, बल्कि आवश्यक पूर्व शर्त के अनुसार अध्ययन करने वाला कोई होना चाहिए। ऐसी स्थितियों में जहां पर्यवेक्षक या अध्ययन का अस्तित्व डेटा के साथ सहसंबद्ध होता है, अवलोकन चयन प्रभाव होते हैं, और मानवशास्त्रीय तर्क की आवश्यकता होती है।

एक उदाहरण पृथ्वी का पिछला प्रभाव घटना रिकॉर्ड है: यदि बड़े प्रभाव बड़े पैमाने पर विलुप्त होने और लंबी अवधि के लिए बुद्धिमान पर्यवेक्षकों के विकास को रोकने वाले पारिस्थितिक व्यवधान का कारण बनते हैं, तो कोई भी हाल के दिनों में बड़े प्रभावों का कोई प्रमाण नहीं देखेगा (चूंकि उन्होंने बुद्धिमान पर्यवेक्षकों को विकसित होने से रोका होगा)। इसलिए पृथ्वी के प्रभाव रिकॉर्ड में एक संभावित पूर्वाग्रह है। चयन पूर्वाग्रह के कारण खगोलीय अस्तित्व संबंधी जोखिमों को समान रूप से कम करके आंका जा सकता है, और एक मानवीय सुधार प्रस्तुत किया जाना है।

स्वयंसेवी पूर्वाग्रह
स्व-चयन पूर्वाग्रह या अध्ययन में एक स्वयंसेवक पूर्वाग्रह एक अध्ययन की वैधता के लिए और अधिक खतरा प्रस्तुत करता है क्योंकि इन प्रतिभागियों में अध्ययन की लक्षित जनसंख्या से आंतरिक रूप से भिन्न विशेषताएं हो सकती हैं। अध्ययनों से पता चला है कि स्वयंसेवक निम्न सामाजिक-आर्थिक पृष्ठभूमि की तुलना में उच्च सामाजिक स्थिति से आते हैं। इसके अलावा, एक अन्य अध्ययन से पता चलता है कि पुरुषों की तुलना में महिलाएं अध्ययन के लिए स्वयंसेवा करने की अधिक संभावना रखती हैं। भर्ती से लेकर फॉलो-अप तक, पूरे अध्ययन जीवन-चक्र में स्वयंसेवी पूर्वाग्रह स्पष्ट है। प्रायः बोलने वाले स्वयंसेवक प्रतिक्रिया को व्यक्तिगत परोपकारिता, अनुमोदन की इच्छा, अध्ययन विषय से व्यक्तिगत संबंध और अन्य कारणों से नीचे रखा जा सकता है। जैसा कि अधिकांश उदाहरणों में स्वयंसेवक पूर्वाग्रह की स्थिति में न्यूनीकरण एक बढ़ा हुआ नमूना आकार है।

शमन
सामान्य स्थिति में, मौजूदा डेटा के सांख्यिकीय विश्लेषण के साथ चयन पक्षपात को दूर नहीं किया जा सकता है, हालांकि विशेष स्थितियों में हेकमैन सुधार का उपयोग किया जा सकता है। बहिर्जात (पृष्ठभूमि) चर और एक उपचार संकेतक के बीच सहसंबंधों की जांच करके चयन पूर्वाग्रह की डिग्री का आकलन किया जा सकता है। हालांकि, प्रतिगमन मॉडल में, यह परिणाम के अप्राप्य निर्धारकों और नमूने में चयन के अप्रतिबंधित निर्धारकों के बीच सहसंबंध है, जो पूर्वाग्रह का अनुमान लगाता है, और अप्राप्य के बीच इस सहसंबंध का उपचार के अवलोकित निर्धारकों द्वारा सीधे मूल्यांकन नहीं किया जा सकता है।

जब डेटा को फिटिंग या पूर्वानुमान उद्देश्यों के लिए चुना जाता है, तो एक गठबंधन खेल स्थापित किया जा सकता है ताकि डेटा चर के सभी सबसेट पर एक फिटिंग या पूर्वानुमान सटीकता फ़ंक्शन परिभाषित किया जा सके।

संबंधित मुद्दे
चयन पूर्वाग्रह निकट से संबंधित है:
 * प्रकाशन पूर्वाग्रह या रिपोर्टिंग पूर्वाग्रह, सामुदायिक धारणा या मेटा-विश्लेषण में उत्पन्न होने वाली विकृतियाँ, अरुचिकर (प्रायः नकारात्मक) परिणाम प्रकाशित न करके मेटा-विश्लेषण, या ऐसे परिणाम जो प्रयोगकर्ता के पूर्वाग्रहों, प्रायोजक के हितों, या सामुदायिक अपेक्षाओं के विरुद्ध जाते हैं।
 * पुष्टिकरण पूर्वाग्रह, मनुष्यों की सामान्य प्रवृत्ति जो कुछ भी हमारे पूर्व-मौजूदा परिप्रेक्ष्य की पुष्टि करती है, उस पर अधिक ध्यान देना; या विशेष रूप से प्रयोगात्मक विज्ञान में, प्रयोगों द्वारा उत्पन्न विकृति जो परिकल्पना को अस्वीकार करने की कोशिश करने के बदले पुष्टित्मक साक्ष्य प्राप्त करने के लिए डिज़ाइन की गई है।
 * बहिष्करण पूर्वाग्रह, एक अध्ययन के लिए भागीदारी योग्यता के संबंध में स्थितियों और नियंत्रणों के विभिन्न मानदंडों को लागू करने के परिणाम / बहिष्करण के आधार के रूप में सेवा करने वाले विभिन्न चर हैं।