जैव सांख्यिकी

From Vigyanwiki

जैव सांख्यिकी (जिसे बायोमेट्री के रूप में भी जाना जाता है) जीव विज्ञान में विषयों की एक विस्तृत श्रृंखला के लिए सांख्यिकीय विधियों का विकास और अनुप्रयोग है। इसमें जैविक प्रयोगों के प्रारुप सम्मिलित हैं, उन प्रयोगों से आँकड़ा का संग्रह और विश्लेषण और परिणामों की व्याख्या सम्मिलित है।

इतिहास

जैव सांख्यिकी और जेनेटिक्स

जैव सांख्यिकी नमूना कई आधुनिक जैविक सिद्धांतों का एक महत्वपूर्ण भागहै। आनुवंशिकी अध्ययन, इसकी शुरुआत के बाद से, प्रयोगात्मक परिणामों को समझने के लिए सांख्यिकीय अवधारणाओं का उपयोग किया। कुछ आनुवंशिकी वैज्ञानिकों ने तरीकों और उपकरणों के विकास के साथ सांख्यिकीय प्रगति में भी योगदान दिया। ग्रेगर मेंडल ने मटर के परिवारों में आनुवांशिकी पृथक्करण पैटर्न की जांच करने वाले आनुवंशिकी अध्ययन शुरू किए और एकत्रित आंकड़ों को समझाने के लिए आंकड़ों का उपयोग किया।1900 की शुरुआत में, मेंडेल के मेंडेलियन इनहेरिटेंस कार्य की पुनर्खोज के बाद,आनुवंशिकी और विकासवादी डार्विनवाद के बीच समझ में अंतर था। फ्रांसिस गैल्टन ने मानव आँकड़ा के साथ मेंडेल की खोजों का विस्तार करने की कोशिश की और एक अलग नमूना का प्रस्ताव दिया, जिसमें प्रत्येक पूर्वजों से आने वाली आनुवंशिकता के अंश एक अनंत श्रृंखला की रचना करते हैं।उन्होंने इसे "पैतृक आनुवंशिकता का नियम" का सिद्धांत कहा। उनके विचार विलियम बेटसन द्वारा दृढ़ता से असहमत थे, जिन्होंने मेंडल के निष्कर्षों का पालन किया, कि आनुवंशिक विरासत विशेष रूप से माता-पिता से थी, उनमें से प्रत्येक से आधा। इससे बॉयोमेट्रिक्स के बीच जोरदार बहस हुई, जिन्होंने गैल्टन के विचारों का समर्थन किया, जैसे कि राफेल वेल्डन, आर्थर डुकिनफील्ड दरबिशायर और कार्ल पियर्सन,और मेंडेलियन के रूप में, जिन्होंने चार्ल्स डेवनपोर्ट और विल्हेम जोहानसन जैसे बेटसन (और मेंडेल) के विचारों का समर्थन किया। बाद में, बायोमेट्रिक्स गैल्टन के निष्कर्षों को विभिन्न प्रयोगों में पुन: प्रस्तुत नहीं कर सके, और मेंडल के विचार प्रबल हुए। 1930 के दशक तक, सांख्यिकीय तर्क पर निर्मित नमूना ने इन अंतरों को हल करने और नव-डार्विनियन आधुनिक विकासवादी संश्लेषण का उत्पादन करने में सहायता की थी।

इन अंतरों को हल करने से जनसंख्या आनुवंशिकी की अवधारणा को परिभाषित करने और आनुवंशिकी और विकास को एक साथ लाने की अनुमति मिली। जनसंख्या आनुवंशिकी की स्थापना में तीन प्रमुख आंकड़े और यह संश्लेषण सभी आँकड़ों पर निर्भर थे और जीव विज्ञान में इसके उपयोग को विकसित किया।

  • रोनाल्ड फिशर ने सांख्यिकीविद् बेट्टी एलन के साथ कार्यकिया और रोथमस्टेड रिसर्च में फसल प्रयोगों का अध्ययन करने के अपने कार्यके समर्थन में कई मूलभूत सांख्यिकीय विधियों का विकास किया, फिशर की किताबों स्टैटिस्टिकल मेथड्स फॉर रिसर्च वर्कर्स (1925) और द जेनेटिक थ्योरी ऑफ नेचुरल सेलेक्शन (1930) में प्रकाशित, साथ ही एलन के वैज्ञानिक पत्र।[1] फिशर ने आनुवंशिकी और सांख्यिकी में कई योगदान दिए। उनमें से कुछ में एनोवा, पी-वैल्यू कॉन्सेप्ट,फिशर का सटीक परीक्षण और जनसंख्या की गतिशीलता के लिए फिशर का समीकरण सम्मिलित हैं।उन्हें वाक्य के लिए श्रेय दिया जाता है "प्राकृतिक चयन एक अत्यधिक उच्च स्तर की असंभवता उत्पन्न करने के लिए एक तंत्र है"।[2]
  • सीवेल जी. राइट ने एफ-सांख्यिकी और उनकी गणना के तरीके विकसित किए और अंतःप्रजनन गुणांक को परिभाषित किया।
  • जे.बी.एस. हाल्डेन की पुस्तक, विकास के कारण, मेंडेलियन आनुवंशिकी के गणितीय परिणामों के संदर्भ में प्राकृतिक चयन को विकास के प्रमुख तंत्र के रूप में पुन: स्थापित किया। उन्होंने मौलिक सूप के सिद्धांत को भी विकसित किया।

ये और अन्य जैव-सांख्यिकीविद्, गणितीय जीव विज्ञान, और सांख्यिकीय रूप से इच्छुक आनुवंशिकीविदों ने विकासवादी जीव विज्ञान और आनुवंशिकी को एक सुसंगत, सुसंगत पूरे में लाने में सहायता की जो मात्रात्मक रूप से नमूना िंग करना शुरू कर सके।

इस समग्र विकास के समानांतर, ऑन ग्रोथ एंड फॉर्म में डी'आर्सी थॉम्पसन के अग्रणी कार्य ने भी जैविक अध्ययन में मात्रात्मक अनुशासन जोड़ने में सहायता की।

मौलिक महत्व और सांख्यिकीय तर्क की लगातार आवश्यकता के बावजूद,फिर भी जीवविज्ञानियों के बीच ऐसे परिणामों पर अविश्वास करने या उनका विरोध करने की प्रवृत्ति रही होगी जो गुणात्मक रूप से स्पष्ट नहीं हैं। एक किस्सा थॉमस हंट मॉर्गन द्वारा कैलटेक में अपने विभाग से फ्रिडेन कैलकुलेटर पर प्रतिबंध लगाने का वर्णन करता है, "ठीक है, मैं उस व्यक्ति के जैसे हूं जो 1849 में सैक्रामेंटो नदी के किनारे सोने की खोज कर रहा है। थोड़ी सी बुद्धि से मैं नीचे पहुंचकर सोने की बड़ी-बड़ी डली उठा सकता हूं। और जब तक मैं ऐसा कर सकता हूं, मैं अपने विभाग के किसी भी व्यक्ति को प्लाजर माइनिंग में दुर्लभ संसाधनों को नष्ट नहीं करने दूंगा।[3]


अनुसंधान योजना

जीवन विज्ञान में कोई भी शोध हमारे पास एक वैज्ञानिक प्रश्न का उत्तर देने के लिए प्रस्तावित है। इस प्रश्न का उच्च निश्चितता के साथ उत्तर देने के लिए, हमें सटीक परिणामों की आवश्यकता है। मुख्य परिकल्पना की सत्यपरिभाषा और अनुसंधान योजना किसी घटना को समझने में निर्णय लेते समय त्रुटियों को कम कर देगी। अनुसंधान योजना में अनुसंधान प्रश्न, परीक्षण की जाने वाली परिकल्पना, प्रायोगिक प्रारुप, आँकड़ा संग्रह के तरीके, आँकड़ा विश्लेषण के दृष्टिकोण और लागत सम्मिलित हो सकते हैं। प्रायोगिक आँकड़ों के तीन मूलभूत सिद्धांतों के आधार पर अध्ययन करना आवश्यक है: यादृच्छिककरण, प्रतिकृति (सांख्यिकी), और स्थानीय नियंत्रण है।

शोध प्रश्न

शोध प्रश्न एक अध्ययन के उद्देश्य को परिभाषित करेगा। शोध का नेतृत्व प्रश्न द्वारा किया जाएगा, इसलिए इसे संक्षिप्त करने की आवश्यकता है, साथ ही यह दिलचस्प और उपन्यास विषयों पर केंद्रित है जो विज्ञान और ज्ञान और उस क्षेत्र में सुधार कर सकते हैं। वैज्ञानिक प्रश्न पूछने के तरीके को परिभाषित करने के लिए एक संपूर्ण साहित्य समीक्षा आवश्यक हो सकती है। इसलिए वैज्ञानिक समुदाय में मूल्य जोड़ने के लिए अनुसंधान उपयोगी हो सकता है।[4]


परिकल्पना परिभाषा

एक बार जब अध्ययन का उद्देश्य परिभाषित हो जाता है, तो इस प्रश्न को एक परिकल्पना में बदलकर, शोध प्रश्न के संभावित उत्तर प्रस्तावित किए जा सकते हैं।मुख्य प्रस्ताव को अशक्त परिकल्पना (H0) कहा जाता है और यह आमतौर पर विषय के बारे में स्थायी ज्ञान या घटनाओं की एक स्पष्ट घटना पर आधारित होता है, जो गहन साहित्य समीक्षा द्वारा समर्थित होता है।हम कह सकते हैं कि यह परीक्षण की स्थिति के तहत आँकड़ा के लिए मानक अपेक्षित उत्तर है। सामान्यतः, HO उपचारों के बीच कोई संबंध नहीं मानता है। दूसरी ओर, वैकल्पिक परिकल्पना HO का खंडन है । यह उपचार और परिणाम के बीच कुछ हद तक संबंध मानता है। चूकि, परिकल्पना प्रश्न अनुसंधान और उसके अपेक्षित और अप्रत्याशित उत्तरों द्वारा कायम है।[4]

इस प्रकार उदाहरण के तौर पर, दो अलग-अलग आहार प्रणालियों के अनुसार समान जानवरों (उदाहरण के लिए चूहों) के समूहों पर विचार करें। शोध का प्रश्न होगा: सबसे अच्छा आहार क्या है? इस मामले में H0 यह होगा कि चूहों के चयापचय में दो आहारों में कोई अंतर नहीं है (H0: M1 = म2) और वैकल्पिक परिकल्पना यह होगी कि जानवरों के चयापचय (H1: M1 ≠ मी2).

मुख्य प्रश्न का उत्तर देने में उसकी रुचि के अनुसार, परिकल्पना को शोधकर्ता द्वारा परिभाषित किया जाता है। इसके अतिरिक्त, वैकल्पिक परिकल्पना एक से अधिक परिकल्पना हो सकती है। यह न केवल देखे गए मापदंडों में अंतर, बल्कि उनके अंतर की डिग्री (अर्थात उच्च या कम) मान सकता है।

नमूनाकरण

सामान्यतः, एक अध्ययन का उद्देश्य आबादी पर एक घटना के प्रभाव को समझना है। जीव विज्ञान में, एक निश्चित समय में एक विशिष्ट क्षेत्र में, किसी दिए गए प्रजाति के सभी व्यक्तियों के रूप में जनसंख्या को परिभाषित किया जाता है। जैव सांख्यिकी में, इस अवधारणा को अध्ययन के लिए संभव विभिन्न संग्रहों तक विस्तारित किया गया है। चूंकि, जैव सांख्यिकी में, एक आबादी न केवल व्यक्तियों, बल्कि उनके जीवों के एक विशिष्ट घटक का योग है, पूरे जीनोम के रूप में, या सभी शुक्राणु कोशिका (जीव विज्ञान), जानवरों के लिए, या कुल पत्ती क्षेत्र, एक पौधे के लिए, उदाहरण के लिए है।

जनसंख्या के सभी तत्वों से माप लेना संभव नहीं है। उसके कारण, सांख्यिकीय अनुमान के लिए नमूनाकरण (सांख्यिकी) प्रक्रिया बहुत महत्वपूर्ण है। नमूनाकरण (सांख्यिकी) को जनसंख्या के बारे में पश्च निष्कर्ष बनाने के लिए बेतरतीब ढंग से पूरी आबादी का एक प्रतिनिधि भाग प्राप्त करने के रूप में परिभाषित किया गया है। इसलिए, नमूना (सांख्यिकी) जनसंख्या में सबसे अधिक सांख्यिकीय परिवर्तनशीलता को पकड़ सकता है।[5] नमूना आकार कई चीजों द्वारा निर्धारित किया जाता है, क्योंकि अनुसंधान का दायरा उपलब्ध संसाधनों तक होता है। नैदानिक ​​अनुसंधान में, परीक्षण प्रकार, हीनता, तुल्यता (माप सिद्धांत), और श्रेष्ठ (पदानुक्रम) ity के रूप में नमूना आकार निर्धारित करने में एक कुंजी है।[4]


प्रायोगिक प्रारुप

प्रायोगिक प्रारुप प्रयोगों के प्रारुप के उन मूलभूत सिद्धांतों को बनाए रखते हैं। प्रयोग के सभी चतुष्कोणों में उपचार समूह को बेतरतीब ढंग से आवंटित करने के लिए तीन मूलभूत प्रायोगिक प्रारुप हैं। वे पूरी तरह से यादृच्छिक प्रारुप, यादृच्छिक विभाग प्रारुप और फैक्टोरियल प्रारुप हैं। प्रयोग के भीतर कई तरह से इलाज की व्यवस्था की जा सकती है। कृषि में, सत्यप्रयोगात्मक प्रारुप एक अच्छे अध्ययन की जड़ है और अध्ययन के भीतर उपचार समूह की व्यवस्था जरूरी है क्योंकि पर्यावरण (प्रणाली) क्वाड्रैट (पौधे, पशुधन, सूक्ष्मजीव) को काफी हद तक प्रभावित करता है। साहित्य में इन मुख्य व्यवस्थाओं को जाली नमूना (भौतिकी), अपूर्ण विभाग, विभाजित भूखंड, संवर्धित विभाग, और कई अन्य नामों के अनुसार पाया जा सकता है। अनुमान के दौरान एक अनुमान सिद्धांत प्रदान करने के लिए, सभी प्रारुप में वैज्ञानिक नियंत्रण सम्मिलित हो सकता है, जो शोधकर्ता द्वारा निर्धारित किया जाता है।

नैदानिक ​​अध्ययन में, नमूने (सांख्यिकी) सामान्यतः अन्य जैविक अध्ययनों की तुलना में छोटे होते हैं, और ज्यादातर मामलों में, पर्यावरण (प्रणाली) प्रभाव को नियंत्रित या मापा जा सकता है। यादृच्छिक नियंत्रित परीक्षण का उपयोग करना आम है, जहां परिणामों की तुलना सामान्यतः केस-कंट्रोल या कॉहोर्ट (सांख्यिकी) जैसे अवलोकन संबंधी अध्ययन प्रारुप से की जाती है।[6]


आँकड़ा संग्रह

अनुसंधान योजना में आँकड़ा संग्रह विधियों पर विचार किया जाना चाहिए, क्योंकि यह नमूना आकार और प्रायोगिक प्रारुप को अत्यधिक प्रभावित करती है।

आँकड़ा संग्रह आँकड़ा के प्रकार के अनुसार भिन्न होता है। गुणात्मक आँकड़ा के लिए, घटना के स्तर को वर्गीकृत करने के लिए प्राप्तांक मानदंड का उपयोग करके, संरचित प्रश्नावली के साथ या बीमारी की उपस्थिति या तीव्रता पर विचार करके संग्रह किया जा सकता है।[7] मात्रात्मक आँकड़ा के लिए, उपकरणों का उपयोग करके संख्यात्मक जानकारी को मापकर संग्रह किया जाता है।

कृषि और जीव विज्ञान के अध्ययन में, उपज आँकड़ा और उसके घटकों को मीट्रिक उपायों से प्राप्त किया जा सकता है। चूंकि, नुकसान के स्तर के लिए प्राप्तांक स्केल पर विचार करते हुए, प्लेटों में कीट और रोग की चोटें अवलोकन द्वारा प्राप्त की जाती हैं। विशेष रूप से, अनुवांशिक अध्ययनों में, क्षेत्र और प्रयोगशाला में आँकड़ा संग्रह के आधुनिक तरीकों पर विचार किया जाना चाहिए, क्योंकि फेनो प्रकार िंग और जीनो प्रकार िंग के लिए उच्च-थ्रूपुट प्लेटफॉर्म। ये उपकरण बड़े प्रयोगों की अनुमति देते हैं, जबकि संभव है कि आँकड़ा संग्रह के लिए मानव-आधारित एकमात्र विधि की तुलना में कम समय में कई भूखंडों का मूल्यांकन करें।

अंत में, ब्याज के एकत्र किए गए सभी आँकड़ा को आगे के विश्लेषण के लिए एक संगठित आँकड़ा फ्रेम में संग्रहित किया जाना चाहिए।

विश्लेषण और आँकड़ा व्याख्या

वर्णनात्मक उपकरण

आँकड़ा को तालिका (सूचना) या तालिका प्रतिनिधित्व के माध्यम से दर्शाया जा सकता है, जैसे लाइन तालिका, बार तालिका, हिस्टोग्राम, स्कैटर भूखंड। साथ ही, आँकड़ा के अवलोकन का वर्णन करने के लिए केंद्रीय प्रवृत्ति प्रवृत्ति और सांख्यिकीय फैलाव बहुत उपयोगी हो सकते हैं। कुछ उदाहरणों का अनुसरण करें:

बारंबारता सारणी

एक प्रकार की तालिकाएँ आवृत्ति तालिका होती हैं, जिसमें पंक्तियों और स्तंभों में व्यवस्थित आँकड़ा होते हैं, जहाँ आवृत्ति आँकड़ा की घटनाओं या दोहराव की संख्या होती है। आवृत्ति हो सकती है:[8]

निरपेक्ष: एक निर्धारित मूल्य प्रकट होने की संख्या का प्रतिनिधित्व करता है;

सापेक्ष: कुल संख्या द्वारा पूर्ण आवृत्ति के विभाजन द्वारा प्राप्त;

अगले उदाहरण में, हमारे पास एक ही जीव के दस ऑपेरॉन में जीन की संख्या है।

जीन = {2,3,3,4,5,3,3,3,3,4}
Genes number Absolute frequency Relative frequency
1 0 0
2 1 0.1
3 6 0.6
4 2 0.2
5 1 0.1


रेखा लेखाचित्र

चित्रा ए: लाइन लेखाचित्र उदाहरण। ब्राजील में जन्म दर (2010-2016);[9] चित्रा बी: बार तालिका उदाहरण। 2010 से 2016 तक दिसंबर महीनों के लिए ब्राज़िल में जन्म दर; चित्र सी: बॉक्स भूखंड का उदाहरण: आठ विभिन्न जीवों (ए-H) के प्रोटिओम में ग्लाइसिन की संख्या; चित्र D: स्कैटर भूखंड का उदाहरण।

लाइन लेखाचित्र किसी अन्य मीट्रिक पर मान की भिन्नता का प्रतिनिधित्व करते हैं, जैसे समय। सामान्यतः, मूल्यों को ऊर्ध्वाधर अक्ष में दर्शाया जाता है, जबकि क्षैतिज अक्ष में समय भिन्नता का प्रतिनिधित्व किया जाता है।[10]


बार तालिका

एक बार तालिका एक लेखाचित्र है जो श्रेणीबद्ध आँकड़ा को मूल्यों का प्रतिनिधित्व करने के लिए आनुपातिक ऊंचाई (ऊर्ध्वाधर बार) या चौड़ाई (क्षैतिज बार) पेश करने वाली सलाखों के रूप में दिखाता है। बार तालिका एक छवि प्रदान करते हैं जिसे सारणीबद्ध प्रारूप में भी प्रदर्शित किया जा सकता है।[10]

बार तालिका उदाहरण में, हमारे पास 2010 से 2016 तक दिसंबर महीनों के लिए ब्राज़ील में जन्म दर है।[9]दिसंबर 2016 में तेज गिरावट ब्राजील में जन्म दर में जीका वायरस के प्रकोप को दर्शाती है।

हिस्टोग्राम

हिस्टोग्राम का उदाहरण।

हिस्टोग्राम (या आवृति वितरण) एक आँकड़ासेट का लेखाचित्ऱिकल प्रतिनिधित्व है जिसे सारणीबद्ध और समान या गैर-समान वर्गों में विभाजित किया गया है। इसे सबसे पूर्वकार्ल पियर्सन ने पेश किया था।[11]


प्रकीर्ण भूखण्ड

स्कैटर भूखंड एक गणितीय आरेख है जो आँकड़ासेट के मान प्रदर्शित करने के लिए कार्टेशियन निर्देशांक का उपयोग करता है। स्कैटर भूखंड आँकड़ा को बिंदुओं के एक सेट के रूप में दिखाता है, प्रत्येक एक परिवर्तनशील का मान प्रस्तुत करता है जो क्षैतिज अक्ष पर स्थिति का निर्धारण करता है और दूसरा परिवर्तनशील ऊर्ध्वाधर अक्ष पर होता है।[12] इन्हें स्कैटर लेखाचित्र, स्कैटर तालिका, स्कैटरग्राम या स्कैटर डायग्राम भी कहा जाता है।[13]


मध्य

अंकगणितीय माध्य मूल्यों के संग्रह का योग है () इस संग्रह की वस्तुओं की संख्या से विभाजित ().


मध्य

माध्यिका एक आँकड़ासेट के बीच में मान है।

विधि

विधि (सांख्यिकी) आँकड़ा के एक सेट का मान है जो सबसे अधिक बार प्रकट होता है।[14]

माध्य, माध्यिका और बहुलक के बीच तुलना मान = { 2,3,3,3,3,3,4,4,11 }
Type Example Result
Mean( 2 + 3 + 3 + 3 + 3 + 3 + 4 + 4 + 11 ) / 9 4
Median 2, 3, 3, 3, 3, 3, 4, 4, 11 3
Mode 2, 3, 3, 3, 3, 3, 4, 4, 11 3


रेखा - चित्र

बॉक्स भूखंड संख्यात्मक आँकड़ा के समूहों को लेखाचित्ऱिक रूप से दर्शाने की एक विधि है। अधिकतम और न्यूनतम मान रेखाओं द्वारा दर्शाए जाते हैं, और इंटरक्वेर्टाइल रेंज (IQR) आँकड़ा के 25-75% का प्रतिनिधित्व करते हैं। ग़ैर को हलकों के रूप में भूखंड किया जा सकता है।

सहसंबंध गुणांक

चूंकि दो अलग-अलग प्रकार के आँकड़ा के बीच सहसंबंधों को लेखाचित्ऱ द्वारा अनुमानित किया जा सकता है, जैसे स्कैटर भूखंड, यह आवश्यक है कि संख्यात्मक जानकारी के माध्यम से इसे मान्य करें। इस कारण से, सहसंबंध गुणांक की आवश्यकता होती है। वे एक संख्यात्मक मान प्रदान करते हैं जो एक संघ की ताकत को दर्शाता है।[10]


पियर्सन सहसंबंध गुणांक

स्कैटर डायग्राम जो ρ के विभिन्न मूल्यों के लिए पियर्सन सहसंबंध को प्रदर्शित करता है।

पियर्सन सहसंबंध गुणांक दो चर, एक्स और वाई के बीच सहयोग का एक उपाय है। यह गुणांक, सामान्यतः जनसंख्या के लिए ρ (rho) और नमूने के लिए आर द्वारा दर्शाया जाता है, -1 और 1 के बीच मान मानता है, जहां ρ = 1 एक पूर्ण प्रतिनिधित्व करता है सकारात्मक सहसंबंध, ρ = −1 एक पूर्ण ऋणात्मक सहसंबंध का प्रतिनिधित्व करता है, और ρ = 0 कोई रैखिक सहसंबंध नहीं है।[10]


अनुमानित आँकड़े

इसका प्रयोग अनुमान लगाने के लिए किया जाता है[15] एक अज्ञात आबादी के बारे में, अनुमान और/या परिकल्पना परीक्षण द्वारा। दूसरे शब्दों में, ब्याज की आबादी का वर्णन करने के लिए पैरामीटर प्राप्त करना वांछनीय है, परंतु चूंकि आँकड़ा सीमित है, इसलिए उन्हें अनुमान लगाने के लिए प्रतिनिधि नमूने का उपयोग करना आवश्यक है। इसके साथ, पूर्वसे परिभाषित परिकल्पनाओं का परीक्षण करना और निष्कर्ष को पूरी आबादी पर लागू करना संभव है। मानक त्रुटि परिवर्तनशीलता का एक उपाय है जो अनुमान लगाने के लिए महत्वपूर्ण है।[5]

  • सांख्यिकीय परिकल्पना परीक्षण

अनुसंधान योजना अनुभाग में व्यवस्थित अनुसंधान प्रश्नों के उत्तर देने के उद्देश्य से आबादी के बारे में अनुमान लगाने के लिए परिकल्पना परीक्षण आवश्यक है। लेखकों ने निर्धारित करने के लिए चार चरणों को परिभाषित किया:[5]

  1. परीक्षण की जाने वाली परिकल्पना: जैसा कि पूर्वकहा गया है, हमें एक अशक्त परिकल्पना (H0), जिसका परीक्षण किया जा रहा है, और एक वैकल्पिक परिकल्पना। परंतु प्रयोग के कार्यान्वयन से पूर्वउन्हें परिभाषित किया जाना चाहिए।
  2. महत्व स्तर और निर्णय नियम: एक निर्णय नियम महत्व स्तर पर निर्भर करता है, या दूसरे शब्दों में, स्वीकार्य त्रुटि दर (α)। यह सोचना आसान है कि हम एक महत्वपूर्ण मूल्य को परिभाषित करते हैं जो सांख्यिकीय महत्व को निर्धारित करता है जब एक परीक्षण आंकड़े की इसके साथ तुलना की जाती है। तो, प्रयोग से पूर्वα को भी पूर्वनिर्धारित करना होगा।
  3. प्रयोग और सांख्यिकीय विश्लेषण: यह तब होता है जब प्रयोगों के उचित प्रारुप के बाद प्रयोग वास्तव में कार्यान्वित किया जाता है, आँकड़ा एकत्र किया जाता है और अधिक उपयुक्त सांख्यिकीय परीक्षणों का मूल्यांकन किया जाता है।
  4. अनुमान: यह तब बनता है जब शून्य परिकल्पना को खारिज कर दिया जाता है या अस्वीकार नहीं किया जाता है, सबूत के आधार पर कि पी-वैल्यू और α की तुलना लाता है। यह बताया गया है कि H को अस्वीकार करने में विफलता बस इसका अर्थ है कि इसकी अस्वीकृति का समर्थन करने के लिए पर्याप्त सबूत नहीं हैं, परंतु यह नहीं है कि यह परिकल्पना सच है।

कॉन्फिडेंस इंटरवल मानों की एक श्रेणी है जिसमें विश्वास के एक निश्चित स्तर में सत्यवास्तविक पैरामीटर मान सम्मिलित हो सकते हैं। पहला कदम जनसंख्या पैरामीटर के सर्वोत्तम-निष्पक्ष अनुमान का अनुमान लगाना है। माध्य की मानक त्रुटि और विश्वास स्तर के बीच गुणा के साथ इस अनुमान के योग द्वारा अंतराल का ऊपरी मान प्राप्त किया जाता है। कम मान की गणना समान है, परंतु एक योग के अतिरिक्त एक घटाव लागू किया जाना चाहिए।[5]


सांख्यिकीय विचार

शक्ति और सांख्यिकीय त्रुटि

एक परिकल्पना का परीक्षण करते समय, दो प्रकार की सांख्यिकीय त्रुटियाँ संभव हैं: प्रकार I त्रुटि और प्रकार II त्रुटि। प्रकार I त्रुटि या झूठी सकारात्मक और झूठी ऋणात्मकएक सच्ची शून्य परिकल्पना की गलत अस्वीकृति है और प्रकार II त्रुटि या झूठी सकारात्मक और झूठी ऋणात्मकझूठी शून्य परिकल्पना को अस्वीकार करने में विफलता है। α द्वारा निरूपित महत्व स्तर प्रकार I त्रुटि दर है और परीक्षण करने से पूर्वइसे चुना जाना चाहिए। प्रकार II त्रुटि दर को β द्वारा निरूपित किया जाता है और सांख्यिकीय शक्ति 1 - β है।

पी-मूल्य

पी-वैल्यू शून्य परिकल्पना (H0) क्या सच है। इसे परिकलित प्रायिकता भी कहते हैं। पी-मान को सांख्यिकीय महत्व|महत्व स्तर (α) के साथ भ्रमित करना आम बात है, परंतु α महत्वपूर्ण परिणामों को कॉल करने के लिए एक पूर्वनिर्धारित सीमा है। यदि p α से कम है, तो शून्य परिकल्पना (H0) अस्वीकृत है।[16]


एकाधिक परीक्षण

एक ही परिकल्पना के कई परीक्षणों में, झूठी सकारात्मक और झूठी ऋणात्मकहोने की संभावना परिवार-वार त्रुटि दर | (पारिवारिक त्रुटि दर) बढ़ जाती है और इस घटना को नियंत्रित करने के लिए कुछ रणनीति का उपयोग किया जाता है। यह सामान्यतः अशक्त परिकल्पनाओं को अस्वीकार करने के लिए अधिक कठोर सीमा का उपयोग करके प्राप्त किया जाता है। बोनफेरोनी सुधार एक स्वीकार्य वैश्विक महत्व स्तर को परिभाषित करता है, जिसे α* द्वारा निरूपित किया जाता है और प्रत्येक परीक्षण की व्यक्तिगत रूप से α = α*/m के मान से तुलना की जाती है। यह सुनिश्चित करता है कि सभी M परीक्षणों में पारिवारिक त्रुटि दर α* से कम या बराबर है। जब मी बड़ा होता है, तो बोनफेरोनी सुधार अत्यधिक रूढ़िवादी हो सकता है। बोनफेरोनी सुधार का एक विकल्प झूठी खोज दर | झूठी खोज दर (एफडीआर) को नियंत्रित करना है। एफडीआर अस्वीकृत नल परिकल्पना (तथाकथित खोजों) के अपेक्षित अनुपात को नियंत्रित करता है जो गलत (गलत अस्वीकृति) हैं। यह कार्यविधि सुनिश्चित करती है कि, स्वतंत्र परीक्षणों के लिए, झूठी खोज दर अधिकतम q* है। इस प्रकार, एफडीआर बोनफेरोनी सुधार की तुलना में कम रूढ़िवादी है और अधिक झूठे सकारात्मक की कीमत पर अधिक शक्ति है।[17]


गलत विशिष्टता और मजबूती की जांच

मुख्य परिकल्पना का परीक्षण किया जा रहा है (उदाहरण के लिए, उपचार और परिणामों के बीच कोई संबंध नहीं) अधिकांशतः अन्य तकनीकी मान्यताओं के साथ होता है (उदाहरण के लिए, परिणामों के संभाव्यता वितरण के रूप के बारे में) जो शून्य परिकल्पना का भी भागहैं। जब तकनीकी मान्यताओं का व्यवहार में उल्लंघन किया जाता है, तो मुख्य परिकल्पना के सत्य होने पर भी अशक्तता को अधिकांशतः खारिज किया जा सकता है। कहा जाता है कि इस तरह के अस्वीकरण नमूना के गलत विनिर्देशन के कारण होते हैं।[18] तकनीकी अनुमानों (तथा कथित मजबूती की जांच) में थोड़ा बदलाव होने पर सांख्यिकीय परीक्षण के परिणाम में बदलाव नहीं होता है या नहीं, यह सत्यापित करना गलत-विनिर्देशन का मुकाबला करने का मुख्य विधि है।

नमूना चयन मानदंड

नमूना चयन उस अधिक अनुमानित वास्तविक नमूना का चयन या नमूना करेगा। एकाइक का सूचना मानदंड (एआईसी) और नमूना चयन | बायेसियन सूचना मानदंड (बीआईसी) असम्बद्ध रूप से कुशल मानदंड के उदाहरण हैं।

विकास और बड़ा आँकड़ा

हाल के घटनाक्रमों ने जैव सांख्यिकी पर एक बड़ा प्रभाव डाला है। दो महत्वपूर्ण परिवर्तन उच्च-थ्रूपुट पैमाने पर आँकड़ा एकत्र करने की क्षमता और अभिकलनीयतः तकनीकों का उपयोग करके अधिक जटिल विश्लेषण करने की क्षमता रहे हैं। यह डीएनए अनुक्रमण तकनीकों, जैव सूचना विज्ञान और यंत्र अधिगम (जैव सूचना विज्ञान में मशीन सीखने) के रूप में क्षेत्रों में विकास से आता है।

=== उच्च-थ्रूपुट आँकड़ा === में उपयोग करें

नई बायोमेडिकल प्रौद्योगिकियां जैसे डीएनए माइक्रोएरे, डीएनए अनुक्रमण | अगली पीढ़ी के सीक्वेंसर (जीनोमिक्स के लिए) और मास स्पेक्ट्रोमीटर (प्रोटिओमिक्स के लिए) भारी मात्रा में आँकड़ा उत्पन्न करते हैं, जिससे कई परीक्षण एक साथ किए जा सकते हैं।[19] संकेत को शोर से अलग करने के लिए जैवसांख्यिकीय विधियों के साथ सावधानीपूर्वक विश्लेषण की आवश्यकता है। उदाहरण के लिए, एक माइक्रोएरे का उपयोग कई हजारों जीनों को एक साथ मापने के लिए किया जा सकता है, यह निर्धारित करने के लिए कि सामान्य कोशिकाओं की तुलना में रोगग्रस्त कोशिकाओं में उनमें से किसकी अलग अभिव्यक्ति है। चूंकि, जीन का केवल एक अंश अलग-अलग व्यक्त किया जाएगा।[20] बहुसंरेखता अधिकांशतः उच्च-थ्रुपुट जैवसांख्यिकीय सेटिंग्स में होती है। भविष्यसमयाओं (जैसे जीन अभिव्यक्ति के स्तर) के बीच उच्च अंतर्संबंध के कारण, एक भविष्यसमया की जानकारी दूसरे में समाहित हो सकती है। यह हो सकता है कि प्रतिक्रिया की परिवर्तनशीलता के 90% के लिए केवल 5% भविष्यसमया ही जिम्मेदार हों। ऐसे मामले में, आयाम में कमी की जैव-सांख्यिकीय तकनीक लागू हो सकती है (उदाहरण के लिए प्रमुख घटक विश्लेषण के माध्यम से)। रैखिक या लॉजिस्टिक प्रतिगमन और रैखिक विभेदक विश्लेषण जैसी शास्त्रीय सांख्यिकीय तकनीकें उच्च आयामी आँकड़ा के लिए अच्छी तरह से कार्यनहीं करती हैं (अर्थात जब टिप्पणियों की संख्या सुविधाओं या भविष्यवाणियों की संख्या पी: एन <पी से छोटी होती है)। वास्तव में, कोई काफी उच्च आर प्राप्त कर सकता है2-सांख्यिकीय नमूना की बहुत कम भविष्य कहनेवाला शक्ति के बावजूद मूल्य। इन शास्त्रीय सांख्यिकीय तकनीकों (विशेष रूप से कम से कम वर्ग रैखिक प्रतिगमन) को निम्न आयामी आँकड़ा के लिए विकसित किया गया था (अर्थात जहां अवलोकनों की संख्या n भविष्यसमयाओं की संख्या पी: एन >> पी से बहुत बड़ी है)। उच्च आयामीता के मामलों में, हमेशा एक स्वतंत्र सत्यापन परीक्षण सेट और वर्गों (आरएसएस) और आर के संगत अवशिष्ट योग पर विचार करना चाहिएसत्यापन परीक्षण सेट के 2, प्रशिक्षण सेट के नहीं।

अधिकांशतः, एक साथ कई भविष्यसमयाओं से जानकारी एकत्र करना उपयोगी होता है। उदाहरण के लिए, जीन सेट संवर्धन विश्लेषण (GSEA) एकल जीन के अतिरिक्त पूरे (कार्यात्मक रूप से संबंधित) जीन सेट के गड़बड़ी पर विचार करता है।[21] इन जीन सेटों को जैव रासायनिक रास्ते या अन्यथा कार्यात्मक रूप से संबंधित जीन के रूप में जाना जा सकता है। इस दृष्टिकोण का लाभ यह है कि यह अधिक मजबूत है: यह अधिक संभावना है कि एक जीन को झूठा परेशान पाया जाता है, क्योंकि यह है कि एक पूरे मार्ग को गलत तरीके से परेशान किया जाता है। इसके अतिरिक्त, कोई भी इस दृष्टिकोण का उपयोग करके जैव रासायनिक मार्गों (जैसे JAK-STAT सिग्नलिंग मार्ग) के बारे में संचित ज्ञान को एकीकृत कर सकता है।

=== जैव सूचना विज्ञान आँकड़ाबेस, आँकड़ा माइनिंग और जैविक व्याख्या === में आगे बढ़ता है

जैविक आँकड़ाबेस का विकास दुनिया भर के उपयोगकर्ताओं के लिए पहुँच सुनिश्चित करने की संभावना के साथ जैविक आँकड़ा के भंडारण और प्रबंधन को सक्षम बनाता है। वे आँकड़ा जमा करने वाले शोधकर्ताओं के लिए उपयोगी हैं, अन्य प्रयोगों से उत्पन्न जानकारी और फ़ाइलों (कच्ची या संसाधित) को पुनः प्राप्त करने या वैज्ञानिक लेखों को सूचीबद्ध करने के लिए PubMed के रूप में उपयोगी हैं। एक और संभावना वांछित शब्द (एक जीन, एक प्रोटीन, एक बीमारी, एक जीव, और इसी तरह) की खोज है और इस खोज से संबंधित सभी परिणामों की जांच करें। एकल-न्यूक्लियोटाइड बहुरूपता (dbSNP) के लिए समर्पित आँकड़ाबेस हैं, जीन लक्षण वर्णन और उनके रास्ते (KEGG) पर ज्ञान और सेलुलर घटक, आणविक कार्य और जैविक प्रक्रिया (जीन ऑन्कोलॉजी) द्वारा इसे वर्गीकृत करने वाले जीन फ़ंक्शन का विवरण।[22] विशिष्ट आणविक जानकारी वाले आँकड़ाबेस के अतिरिक्त, अन्य भी हैं जो इस अर्थ में पर्याप्त हैं कि वे किसी जीव या जीवों के समूह के बारे में जानकारी संग्रहीत करते हैं। अरबीडोफिसिस थालीआना जेनेटिक और मॉलिक्यूलर आँकड़ाबेस- टीएआईआर, केवल एक जीव की ओर निर्देशित आँकड़ाबेस के उदाहरण के रूप में है, परंतु इसमें इसके बारे में बहुत अधिक आँकड़ा है।[23] फाइटोज़ोम,[24] बदले में, दर्जनों प्लांट जीनोम की असेंबली और एनोटेशन फाइलों को स्टोर करता है, जिसमें विज़ुअलाइज़ेशन और विश्लेषण टूल भी होते हैं। इसके अतिरिक्त, सूचना विनिमय/साझाकरण में कुछ आँकड़ाबेसों के बीच एक अंतर्संबंध है और एक प्रमुख पहल अंतर्राष्ट्रीय न्यूक्लियोटाइड अनुक्रम आँकड़ाबेस सहयोग (INSDC) थी।[25] जो डीडीबीजे से आँकड़ा संबंधित है,[26] EMBL-ईबीआई,[27] और एनसीबीआई।[28] आजकल, आणविक आँकड़ासेट के आकार और जटिलता में वृद्धि से कंप्यूटर विज्ञान एल्गोरिदम द्वारा प्रदान की जाने वाली शक्तिशाली सांख्यिकीय विधियों का उपयोग होता है जो मशीन लर्निंग क्षेत्र द्वारा विकसित किए जाते हैं। इसलिए, आँकड़ा माइनिंग और मशीन लर्निंग एक जटिल संरचना के साथ आँकड़ा में पैटर्न का पता लगाने की अनुमति देते हैं, जैविक के रूप में, पर्यवेक्षित शिक्षण और अनुपयोगी शिक्षण, प्रतिगमन, क्लस्टर विश्लेषण का पता लगाने और एसोसिएशन नियम सीखने के तरीकों का उपयोग करके।[22]उनमें से कुछ को इंगित करने के लिए, स्व-आयोजन मानचित्र और k- साधन क्लस्टरिंग | k- साधन क्लस्टर एल्गोरिदम के उदाहरण हैं; कृत्रिम तंत्रिका नेटवर्क कार्यान्वयन और समर्थन वेक्टर मशीन नमूना सामान्य मशीन लर्निंग एल्गोरिदम के उदाहरण हैं।

आण्विक जीवविज्ञानी, जैव सूचना विज्ञानियों, सांख्यिकीविदों और कंप्यूटर वैज्ञानिकों के बीच सहयोगपूर्ण कार्य एक प्रयोग को सत्यढंग से करने के लिए महत्वपूर्ण है, नियोजन से लेकर, आँकड़ा निर्माण और विश्लेषण से गुजरना, और परिणामों की जैविक व्याख्या के साथ समाप्त होना।[22]


अभिकलनीयतः रूप से गहन विधियों का उपयोग

दूसरी ओर, आधुनिक कंप्यूटर प्रौद्योगिकी और अपेक्षाकृत सस्ते कंप्यूटिंग संसाधनों के आगमन ने बूटस्ट्रैपिंग (सांख्यिकी) और री-सैंपलिंग (सांख्यिकी)|री-सैंपलिंग विधियों जैसे कंप्यूटर-गहन जैव-सांख्यिकीय तरीकों को सक्षम किया है।

हाल के दिनों में, यादृच्छिक वनों ने सांख्यिकीय वर्गीकरण करने की एक विधि के रूप में लोकप्रियता हासिल की है। यादृच्छिक वन तकनीकें निर्णय वृक्षों का एक पैनल उत्पन्न करती हैं। डिसीजन ट्री का यह फायदा है कि आप उन्हें आकर्षित कर सकते हैं और उनकी व्याख्या कर सकते हैं (गणित और सांख्यिकी की मूलभूत समझ के साथ भी)। इस प्रकार यादृच्छिक वनों का उपयोग नैदानिक ​​निर्णय समर्थन प्रणालियों के लिए किया गया है।

अनुप्रयोग

सार्वजनिक स्वास्थ्य

सार्वजनिक स्वास्थ्य, महामारी विज्ञान, स्वास्थ्य सेवा अनुसंधान, पोषण, पर्यावरणीय स्वास्थ्य और स्वास्थ्य देखभाल नीति और प्रबंधन सहित। इन दवा पदार्थ में, नैदानिक ​​परीक्षणों के प्रारुप और विश्लेषण पर विचार करना महत्वपूर्ण है। एक उदाहरण के रूप में, एक रोग के परिणाम के पूर्वानुमान के साथ एक रोगी की गंभीरता स्थिति का आकलन होता है।

नई तकनीकों और आनुवांशिकी ज्ञान के साथ, जैव सांख्यिकी का उपयोग अब प्रणाली मेडिसिन के लिए भी किया जाता है, जिसमें एक अधिक वैयक्तिकृत दवा सम्मिलित है। इसके लिए, विभिन्न स्रोतों से आँकड़ा का एकीकरण किया जाता है, जिसमें पारंपरिक रोगी आँकड़ा, क्लिनिको-पैथोलॉजिकल पैरामीटर, आणविक और आनुवंशिक आँकड़ा के साथ-साथ अतिरिक्त नई-ओमिक्स तकनीकों द्वारा उत्पन्न आँकड़ा सम्मिलित हैं।[29]


मात्रात्मक आनुवंशिकी

फेनो प्रकार में भिन्नता के साथ जीनो प्रकार में भिन्नता को जोड़ने के लिए जनसंख्या आनुवंशिकी और सांख्यिकीय आनुवंशिकी का अध्ययन। दूसरे शब्दों में, एक मापने योग्य विशेषता, एक मात्रात्मक विशेषता, जो कि पॉलीजेनिक नियंत्रण के अधीन है, के आनुवंशिक आधार की खोज करना वांछनीय है। एक जीनोम क्षेत्र जो एक सतत लक्षण के लिए जिम्मेदार होता है, उसे मात्रात्मक विशेषता लोकस (क्यूटीएल) कहा जाता है। क्यूटीएल का अध्ययन आणविक मार्करों और आबादी में लक्षणों को मापने के द्वारा संभव हो जाता है, परंतु उनके मानचित्रण को एक प्रयोगात्मक क्रॉसिंग से जनसंख्या प्राप्त करने की आवश्यकता होती है, जैसे एफ2 या रिकॉम्बिनेंट इनब्रेड स्ट्रेन/लाइन्स (आरआईएल)। एक जीनोम में क्यूटीएल क्षेत्रों के लिए स्कैन करने के लिए, लिंकेज पर आधारित एक जीन मैप बनाना होगा। कुछ सबसे प्रसिद्ध क्यूटीएल मैपिंग एल्गोरिदम इंटरवल मैपिंग, कंपोजिट इंटरवल मैपिंग और मल्टीपल इंटरवल मैपिंग हैं।[30] चूंकि, क्यूटीएल मैपिंग रिज़ॉल्यूशन पुनर्संयोजन परख की मात्रा से बिगड़ा हुआ है, प्रजातियों के लिए एक समस्या जिसमें बड़ी संतान प्राप्त करना मुश्किल है। इसके अतिरिक्त, एलील विविधता विपरीत माता-पिता से उत्पन्न व्यक्तियों तक ही सीमित है, जो एलील विविधता के अध्ययन को सीमित करते हैं जब हमारे पास प्राकृतिक आबादी का प्रतिनिधित्व करने वाले व्यक्तियों का एक पैनल होता है।[31] इस कारण से, लिंकेज असमानता के आधार पर क्यूटीएल की पहचान करने के लिए जीनोम-वाइड एसोसिएशन अध्ययन प्रस्तावित किया गया था, जो कि लक्षण और आणविक मार्करों के बीच गैर-यादृच्छिक जुड़ाव है। उच्च-थ्रूपुट एसएनपी जीनो प्रकार िंग के विकास से इसका लाभ उठाया गया।[32] पशु प्रजनन और पौधों के प्रजनन में, प्रजनन के उद्देश्य से चयनात्मक प्रजनन में मार्करों का उपयोग, मुख्य रूप से आणविक वाले, मार्कर-सहायता प्राप्त चयन के विकास में सहयोग करते हैं। जबकि क्यूटीएल मैपिंग सीमित कारण रिज़ॉल्यूशन है, जीडब्ल्यूएएस के पास पर्याप्त शक्ति नहीं है जब छोटे प्रभाव के दुर्लभ संस्करण जो पर्यावरण से भी प्रभावित होते हैं। तो, चयन में सभी आणविक मार्करों का उपयोग करने और इस चयन में उम्मीदवारों के निष्पादन की भविष्यवाणी करने की अनुमति देने के लिए जीनोमिक चयन (जीएस) की अवधारणा उत्पन्न होती है। प्रस्ताव एक प्रशिक्षण आबादी को जीनो प्रकार और फेनो प्रकार करना है, एक नमूना विकसित करना है जो एक जीनो प्रकार से संबंधित व्यक्तियों के जीनोमिक अनुमानित प्रजनन मूल्य (जीईबीवी) प्राप्त कर सकता है, परंतु फेनो प्रकार आबादी नहीं, जिसे परीक्षण आबादी कहा जाता है।[33] इस तरह के अध्ययन में क्रॉस-वैलिडेशन (सांख्यिकी) | क्रॉस-वैलिडेशन की अवधारणा में सोचने वाली एक सत्यापन आबादी भी सम्मिलित हो सकती है, जिसमें इस आबादी में मापा गया वास्तविक फेनो प्रकार परिणामों की भविष्यवाणी के आधार पर फेनो प्रकार परिणामों के साथ तुलना की जाती है, जिसका उपयोग किया जाता है नमूना की सटीकता की जांच करने के लिए।

सारांश के रूप में, मात्रात्मक आनुवंशिकी के अनुप्रयोग के बारे में कुछ बिंदु हैं:

  • इसका उपयोग कृषि में फसलों (पौधे प्रजनन) और पशुधन (पशु प्रजनन) में सुधार के लिए किया गया है।
  • बायोमेडिकल अनुसंधान में, यह कार्य उम्मीदवारों के जीन जेनेटिक तत्व ्स को खोजने में सहायता कर सकता है जो मानव आनुवंशिकी में रोगों के लिए पूर्ववृत्ति का कारण या प्रभाव डाल सकते हैं

अभिव्यक्ति आँकड़ा

रीयल-टाइम पोलीमरेज़ चेन रिएक्शन | RT-qPCR और microarrays के लिए RNA-Seq आँकड़ा से जीन की अंतर अभिव्यक्ति के लिए अध्ययन, स्थितियों की तुलना की मांग करता है। लक्ष्य उन जीनों की पहचान करना है जिनमें विभिन्न स्थितियों के बीच बहुतायत में महत्वपूर्ण परिवर्तन होता है। फिर, जब आवश्यक हो, प्रत्येक स्थिति/उपचार, यादृच्छिककरण और अवरुद्ध करने के लिए प्रतिकृति के साथ, प्रयोगों को उचित रूप से प्रारुप किया गया है। RNA-Seq में, अभिव्यक्ति की मात्रा का उपयोग मैप किए गए रीड्स की जानकारी का उपयोग करता है जो कि कुछ आनुवंशिक इकाई में संक्षेपित होते हैं, एक्सॉन के रूप में जो जीन अनुक्रम का भागहैं। जैसा कि माइक्रोएरे के परिणामों को एक सामान्य वितरण द्वारा अनुमानित किया जा सकता है, RNA-Seq काउंट्स आँकड़ा को अन्य वितरणों द्वारा बेहतर ढंग से समझाया गया है। पहला उपयोग किया गया वितरण प्वासों वितरण था, परंतु यह नमूना त्रुटि को कम आंकता है, जिससे झूठी सकारात्मकता होती है। वर्तमान में, जैविक भिन्नता को उन विधियों द्वारा माना जाता है जो ऋणात्मकद्विपद वितरण के फैलाव पैरामीटर का अनुमान लगाते हैं। सांख्यिकीय महत्व के लिए परीक्षण करने के लिए सामान्यीकृत रैखिक नमूना का उपयोग किया जाता है और जीन की संख्या अधिक होने के कारण, कई परीक्षणों के सुधार पर विचार करना पड़ता है।[34] जीनोमिक्स आँकड़ा पर अन्य विश्लेषण के कुछ उदाहरण माइक्रोएरे या प्रोटिओमिक्स प्रयोगों से आते हैं।[35][36] अधिकांशतः बीमारियों या बीमारी के चरणों से संबंधित।[37]


अन्य अध्ययन

उपकरण

जैविक आँकड़ा में सांख्यिकीय विश्लेषण करने के लिए बहुत सारे उपकरण हैं जिनका उपयोग किया जा सकता है। उनमें से अधिकांश ज्ञान के अन्य क्षेत्रों में उपयोगी हैं, जिसमें बड़ी संख्या में अनुप्रयोग (वर्णमाला) सम्मिलित हैं। यहाँ उनमें से कुछ का संक्षिप्त विवरण दिया गया है:

  • ASReml: VSNi द्वारा विकसित एक अन्य सॉफ्टवेयर[40] जिसका उपयोग R वातावरण में एक पैकेज के रूप में भी किया जा सकता है। यह प्रतिबंधित अधिकतम संभावना (REML) का उपयोग करके एक सामान्य रैखिक मिश्रित नमूना के अनुसार विचरण घटकों का अनुमान लगाने के लिए विकसित किया गया है। निश्चित प्रभाव और यादृच्छिक प्रभाव वाले नमूना और नेस्टेड या क्रॉस किए गए नमूना की अनुमति है। विभिन्न सहप्रसरण मैट्रिक्स|विचरण-सहप्रसरण मैट्रिक्स संरचनाओं की जांच करने की संभावना देता है।
  • सी वाई सी नमूना:[41] वीएसएनआई द्वारा विकसित एक कंप्यूटर पैकेज[40]जो शोधकर्ताओं कोसी वाई सी नमूना द्वारा प्रबंधित तीन वर्गों में से एक में सम्मलित प्रारुप से आने वाले प्रायोगिक प्रारुप बनाने और आँकड़ा का विश्लेषण करने में सहायता करता है। ये कक्षाएं हल करने योग्य, गैर-हल करने योग्य, आंशिक रूप से प्रतिकृति और क्रॉसओवर अध्ययन हैं। इसमें कम उपयोग किए गए प्रारुप सम्मिलित हैं जो लैटिनकृत हैं, जैसे कि टी-लैटिनाइज़्ड प्रारुप ।[42]
  • ऑरेंज (सॉफ़्टवेयर): उच्च स्तरीय आँकड़ा प्रोसेसिंग, आँकड़ा माइनिंग और आँकड़ा विज़ुअलाइज़ेशन के लिए एक प्रोग्रामिंग इंटरफ़ेस। जीन अभिव्यक्ति और जीनोमिक्स के लिए उपकरण सम्मिलित करें।[22]*आर (प्रोग्रामिंग भाषा): सांख्यिकीय कंप्यूटिंग और लेखाचित्रिक्स के लिए समर्पित एक खुला स्रोत वातावरण और प्रोग्रामिंग भाषा। यह CRAN द्वारा अनुरक्षित S (प्रोग्रामिंग भाषा) भाषा का कार्यान्वयन है।[43] आँकड़ा तालिकाओं को पढ़ने, वर्णनात्मक आँकड़े लेने, नमूना ों का विकास और मूल्यांकन करने के अपने कार्यों के अतिरिक्त, इसके भंडार में दुनिया भर के शोधकर्ताओं द्वारा विकसित पैकेज सम्मिलित हैं। यह विशिष्ट अनुप्रयोगों से आने वाले आँकड़ा के सांख्यिकीय विश्लेषण से निपटने के लिए लिखे गए कार्यों के विकास की अनुमति देता है।[44] जैव सूचना विज्ञान के मामले में, उदाहरण के लिए, मुख्य रिपॉजिटरी (सीआरएएन) में और अन्य में बायोकंडक्टर के रूप में स्थित पैकेज हैं। विकास के अनुसार संकुल का उपयोग करना भी संभव है जो कि होस्टिंग-सेवाओं में गिटहब के रूप में साझा किया जाता है।
  • एसएएस (सॉफ्टवेयर): विश्वविद्यालयों, सेवाओं और उद्योग के माध्यम से व्यापक रूप से उपयोग किया जाने वाला एक आँकड़ा विश्लेषण सॉफ्टवेयर। इसी नाम की कंपनी (एसएएस इंस्टीट्यूट) द्वारा विकसित, यह प्रोग्रामिंग के लिए एसएएस भाषा का उपयोग करता है।
  • पीएलए 3.0:[45] विनियमित वातावरण (जैसे दवा परीक्षण) के लिए एक जैव-सांख्यिकीय विश्लेषण सॉफ्टवेयर है जो क्वांटिटेटिव रिस्पांस एसेज़ (समानांतर-रेखा, समानांतर-रसद, ढलान-अनुपात) और डायकोटोमस एसेस (क्वांटल रिस्पांस, बाइनरी एसेज़) का समर्थन करता है। यह संयोजन गणनाओं और स्वतंत्र परख आँकड़ा के स्वचालित आँकड़ा एकत्रीकरण के लिए भारोत्तोलन विधियों का भी समर्थन करता है।
  • वीका (मशीन लर्निंग): मशीन लर्निंग और आँकड़ा खनन के लिए एक जावा (प्रोग्रामिंग भाषा) सॉफ्टवेयर, जिसमें विज़ुअलाइज़ेशन, क्लस्टरिंग, रिग्रेशन, एसोसिएशन रूल और वर्गीकरण के लिए टूल और तरीके सम्मिलित हैं। क्रॉस-सत्यापन, बूटस्ट्रैपिंग और एल्गोरिथम तुलना के एक मॉड्यूल के लिए उपकरण हैं। वेका को अन्य प्रोग्रामिंग भाषाओं में पर्ल या आर के रूप में भी चलाया जा सकता है।[22]*पायथन (प्रोग्रामिंग भाषा) इमेज एनालिसिस, डीप-लर्निंग, मशीन-लर्निंग
  • एसक्यूएल आँकड़ाबेस
  • नोएसक्यूएल
  • NumPy संख्यात्मक अजगर
  • साइपी
  • सेज मठ
  • लैपैक रैखिक बीजगणित
  • मतलब
  • अपाचे हडूप
  • अपाचे स्पार्क
  • अमेज़न वेब सेवाएँ

कार्यक्षेत्र और प्रशिक्षण कार्यक्रम

जैव सांख्यिकी में लगभग सभी शैक्षिक कार्यक्रम स्नातकोत्तर स्तर पर हैं। वे अधिकांशतः सार्वजनिक स्वास्थ्य के स्कूलों में पाए जाते हैं, जो चिकित्सा, वानिकी या कृषि के स्कूलों से संबद्ध होते हैं, या सांख्यिकी विभागों में आवेदन के फोकस के रूप में होते हैं।

संयुक्त राज्य अमेरिका में, जहां कई विश्वविद्यालयों ने जैवसांख्यिकी विभागों को समर्पित किया है, कई अन्य शीर्ष स्तरीय विश्वविद्यालयों ने जैवसांख्यिकी संकाय को सांख्यिकी या अन्य विभागों, जैसे कि महामारी विज्ञान में एकीकृत किया है। इस प्रकार, जैवसांख्यिकी नाम वाले विभाग काफी भिन्न संरचनाओं के अंतर्गत सम्मलित हो सकते हैं। उदाहरण के लिए, अपेक्षाकृत नए जैव-सांख्यिकी विभागों की स्थापना जैव सूचना विज्ञान और अभिकलनीयतः बायोलॉजी विज्ञान पर ध्यान देने के साथ की गई है, जबकि पुराने विभागों, जो सामान्यतः सार्वजनिक स्वास्थ्य के स्कूलों से संबद्ध हैं, में महामारी विज्ञान के अध्ययन और नैदानिक ​​परीक्षणों के साथ-साथ जैव सूचना विज्ञान से जुड़े अनुसंधान की अधिक पारंपरिक धाराएँ होंगी। दुनिया भर के बड़े विश्वविद्यालयों में, जहां सांख्यिकी और जैव सांख्यिकी विभाग दोनों सम्मलित हैं, दोनों विभागों के बीच एकीकरण की डिग्री न्यूनतम से लेकर बहुत करीबी सहयोग तक हो सकती है। सामान्यतः, एक सांख्यिकी कार्यक्रम और एक जैव सांख्यिकी कार्यक्रम के बीच का अंतर दो गुना होता है: (i) सांख्यिकी विभाग अधिकांशतः सैद्धांतिक/पद्धति संबंधी अनुसंधान की मेजबानी करते हैं जो जैव-सांख्यिकी कार्यक्रमों में कम आम हैं और (ii) सांख्यिकी विभागों में अनुसंधान की पंक्तियाँ होती हैं जिनमें जैव चिकित्सा अनुप्रयोग सम्मिलित हो सकते हैं। बल्कि अन्य क्षेत्र जैसे उद्योग (गुणवत्ता नियंत्रण), व्यवसाय और अर्थशास्त्र और चिकित्सा के अतिरिक्त अन्य जैविक क्षेत्र भी।

विशिष्ट पत्रिकाएँ

  • जैव सांख्यिकी[46]
  • जैव सांख्यिकी का अंतर्राष्ट्रीय जर्नल[47]
  • जर्नल ऑफ एपिडेमियोलॉजी एंड जैव सांख्यिकी [48]
  • जैव सांख्यिकी और पब्लिक हेल्थ[49]
  • बायोमेट्रिक्स[50]
  • बायोमेट्रिक्स[51]
  • बायोमेट्रिक जर्नल[52]
  • बायोमेट्री और फसल विज्ञान में संचार[53]
  • आनुवंशिकी और आणविक जीव विज्ञान में सांख्यिकीय अनुप्रयोग[54]
  • चिकित्सा अनुसंधान में सांख्यिकीय तरीके[55]
  • औषधि सांख्यिकी[56]
  • चिकित्सा में सांख्यिकी[57]


यह भी देखें

संदर्भ

  1. Centre for Transformative Innovation, Swinburne University of Technology. "एलन, फ्रांसिस एलिजाबेथ (बेट्टी) - व्यक्ति - ऑस्ट्रेलियाई विज्ञान और नवाचार का विश्वकोश". www.eoas.info (in British English). Retrieved 2022-10-26.
  2. Gunter, Chris (10 December 2008). "मात्रात्मक आनुवंशिकी". Nature. 456 (7223): 719. Bibcode:2008Natur.456..719G. doi:10.1038/456719a. PMID 19079046.
  3. Charles T. Munger (2003-10-03). "Academic Economics: Strengths and Faults After Considering Interdisciplinary Needs" (PDF). Archived (PDF) from the original on 2022-10-09.
  4. 4.0 4.1 4.2 Nizamuddin, Sarah L.; Nizamuddin, Junaid; Mueller, Ariel; Ramakrishna, Harish; Shahul, Sajid S. (October 2017). "एक परिकल्पना और सांख्यिकीय योजना का विकास करना". Journal of Cardiothoracic and Vascular Anesthesia. 31 (5): 1878–1882. doi:10.1053/j.jvca.2017.04.020. PMID 28778775.
  5. 5.0 5.1 5.2 5.3 Overholser, Brian R; Sowinski, Kevin M (2017). "Biostatistics Primer: Part I". Nutrition in Clinical Practice. 22 (6): 629–35. doi:10.1177/0115426507022006629. PMID 18042950.
  6. Szczech, Lynda Anne; Coladonato, Joseph A.; Owen, William F. (4 October 2002). "Key Concepts in Biostatistics: Using Statistics to Answer the Question "Is There a Difference?"". Seminars in Dialysis. 15 (5): 347–351. doi:10.1046/j.1525-139X.2002.00085.x. PMID 12358639. S2CID 30875225.
  7. Sandelowski, Margarete (2000). "मिश्रित-पद्धति अध्ययन में गुणात्मक और मात्रात्मक नमूनाकरण, डेटा संग्रह और विश्लेषण तकनीकों का संयोजन". Research in Nursing & Health. 23 (3): 246–255. CiteSeerX 10.1.1.472.7825. doi:10.1002/1098-240X(200006)23:3<246::AID-NUR9>3.0.CO;2-H. PMID 10871540.
  8. Maths, Sangaku. "Absolute, relative, cumulative frequency and statistical tables – Probability and Statistics". www.sangakoo.com (in English). Retrieved 2018-04-10.
  9. 9.0 9.1 "DATASUS: TabNet Win32 3.0: Nascidos vivos – Brasil". DATASUS: Tecnologia da Informação a Serviço do SUS.
  10. 10.0 10.1 10.2 10.3 Forthofer, Ronald N.; Lee, Eun Sul (1995). बायोस्टैटिस्टिक्स का परिचय। डिजाइन, विश्लेषण और खोज के लिए एक गाइड. Academic Press. ISBN 978-0-12-262270-0.
  11. Pearson, Karl (1895-01-01). "X. Contributions to the mathematical theory of evolution.—II. Skew variation in homogeneous material". Phil. Trans. R. Soc. Lond. A (in English). 186: 343–414. Bibcode:1895RSPTA.186..343P. doi:10.1098/rsta.1895.0010. ISSN 0264-3820.
  12. Utts, Jessica M. (2005). आँकड़ों के माध्यम से देख रहे हैं (3rd ed.). Belmont, CA: Thomson, Brooks/Cole. ISBN 978-0534394028. OCLC 56568530.
  13. Jarrell, Stephen B. (1994). बुनियादी आँकड़े. Dubuque, Iowa: Wm. C. Brown Pub. ISBN 978-0697215956. OCLC 30301196.
  14. Gujarati, Damodar N. (2006). अर्थमिति. McGraw-Hill Irwin.
  15. "Essentials of Biostatistics in Public Health & Essentials of Biostatistics Workbook: Statistical Computing Using Excel". Australian and New Zealand Journal of Public Health. 33 (2): 196–197. 2009. doi:10.1111/j.1753-6405.2009.00372.x. ISSN 1326-0200.
  16. Baker, Monya (2016). "सांख्यिकीविद् पी मूल्यों के दुरुपयोग पर चेतावनी जारी करते हैं". Nature. 531 (7593): 151. Bibcode:2016Natur.531..151B. doi:10.1038/nature.2016.19503. PMID 26961635.
  17. Benjamini, Y. & Hochberg, Y. Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society. Series B (Methodological) 57, 289–300 (1995).
  18. "शून्य परिकल्पना". www.statlect.com. Retrieved 2018-05-08.
  19. Hayden, Erika Check (8 February 2012). "Biostatistics: Revealing analysis". Nature. 482 (7384): 263–265. doi:10.1038/nj7384-263a. PMID 22329008.
  20. Efron, Bradley (February 2008). "माइक्रोएरे, अनुभवजन्य बेज़ और दो-समूह मॉडल". Statistical Science. 23 (1): 1–22. arXiv:0808.0572. doi:10.1214/07-STS236. S2CID 8417479.
  21. Subramanian, A.; Tamayo, P.; Mootha, V. K.; Mukherjee, S.; Ebert, B. L.; Gillette, M. A.; Paulovich, A.; Pomeroy, S. L.; Golub, T. R.; Lander, E. S.; Mesirov, J. P. (30 September 2005). "Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles". Proceedings of the National Academy of Sciences. 102 (43): 15545–15550. Bibcode:2005PNAS..10215545S. doi:10.1073/pnas.0506580102. PMC 1239896. PMID 16199517.
  22. 22.0 22.1 22.2 22.3 22.4 Moore, Jason H (2007). "बायोइनफॉरमैटिक्स". Journal of Cellular Physiology. 213 (2): 365–9. doi:10.1002/jcp.21218. PMID 17654500. S2CID 221831488.
  23. "TAIR - होम पेज". www.arabidopsis.org.
  24. "फाइटोज़ोम". phytozome.jgi.doe.gov.
  25. "अंतर्राष्ट्रीय न्यूक्लियोटाइड अनुक्रम डाटाबेस सहयोग - आईएनएसडीसी". www.insdc.org.
  26. "ऊपर". www.ddbj.nig.ac.jp.
  27. "The European Bioinformatics Institute < EMBL-EBI". www.ebi.ac.uk.
  28. "बायोटेक्नोलॉजी सूचना के लिए राष्ट्रीय केंद्र". www.ncbi.nlm.nih.gov. U. S. National Library of Medicine –.
  29. Apweiler, Rolf; et al. (2018). "Whither systems medicine?". Experimental & Molecular Medicine. 50 (3): e453. doi:10.1038/emm.2017.290. PMC 5898894. PMID 29497170.
  30. Zeng, Zhao-Bang (2005). "QTL mapping and the genetic basis of adaptation: Recent developments". Genetica. 123 (1–2): 25–37. doi:10.1007/s10709-004-2705-0. PMID 15881678. S2CID 1094152.
  31. Korte, Arthur; Farlow, Ashley (2013). "The advantages and limitations of trait analysis with GWAS: A review". Plant Methods. 9: 29. doi:10.1186/1746-4811-9-29. PMC 3750305. PMID 23876160.
  32. Zhu, Chengsong; Gore, Michael; Buckler, Edward S; Yu, Jianming (2008). "पौधों में एसोसिएशन मैपिंग की स्थिति और संभावनाएं". The Plant Genome. 1: 5–20. doi:10.3835/plantgenome2008.02.0089.
  33. Crossa, José; Pérez-Rodríguez, Paulino; Cuevas, Jaime; Montesinos-López, Osval; Jarquín, Diego; De Los Campos, Gustavo; Burgueño, Juan; González-Camacho, Juan M; Pérez-Elizalde, Sergio; Beyene, Yoseph; Dreisigacker, Susanne; Singh, Ravi; Zhang, Xuecai; Gowda, Manje; Roorkiwal, Manish; Rutkoski, Jessica; Varshney, Rajeev K (2017). "Genomic Selection in Plant Breeding: Methods, Models, and Perspectives" (PDF). Trends in Plant Science. 22 (11): 961–975. doi:10.1016/j.tplants.2017.08.011. PMID 28965742. Archived (PDF) from the original on 2022-10-09.
  34. Oshlack, Alicia; Robinson, Mark D; Young, Matthew D (2010). "RNA-seq से डिफरेंशियल एक्सप्रेशन परिणाम पढ़ता है". Genome Biology. 11 (12): 220. doi:10.1186/gb-2010-11-12-220. PMC 3046478. PMID 21176179.
  35. Helen Causton; John Quackenbush; Alvis Brazma (2003). जीन एक्सप्रेशन माइक्रोएरे डेटा का सांख्यिकीय विश्लेषण. Wiley-Blackwell.
  36. Terry Speed (2003). Microarray Gene Expression Data Analysis: A Beginner's Guide. Chapman & Hall/CRC.
  37. Frank Emmert-Streib; Matthias Dehmer (2010). जटिल रोगों के लिए चिकित्सा बायोस्टैटिस्टिक्स. Wiley-Blackwell. ISBN 978-3-527-32585-6.
  38. Warren J. Ewens; Gregory R. Grant (2004). Statistical Methods in Bioinformatics: An Introduction. Springer.
  39. Matthias Dehmer; Frank Emmert-Streib; Armin Graber; Armindo Salvador (2011). Applied Statistics for Network Biology: Methods in Systems Biology. Wiley-Blackwell. ISBN 978-3-527-32750-8.
  40. 40.0 40.1 "होम - वीएसएन इंटरनेशनल". www.vsni.co.uk.
  41. "साइकडिजाइन - वीएसएन इंटरनेशनल". www.vsni.co.uk.
  42. Piepho, Hans-Peter; Williams, Emlyn R; Michel, Volker (2015). "Beyond Latin Squares: A Brief Tour of Row-Column Designs". Agronomy Journal. 107 (6): 2263. doi:10.2134/agronj15.0144.
  43. "व्यापक आर आर्काइव नेटवर्क". cran.r-project.org.
  44. Renganathan V (2021). Biostatistics explored through R software: An overview. ISBN 9789354936586.
  45. Stegmann, Dr Ralf (2019-07-01). "PLA 3.0". PLA 3.0 – Software for Biostatistical Analysis (in English). Retrieved 2019-07-02.
  46. "बायोस्टैटिस्टिक्स - ऑक्सफोर्ड अकादमिक". OUP Academic.
  47. "The International Journal of Biostatistics".
  48. "पबमेड जर्नल्स बंद हो जाएंगे". 15 June 2018.
  49. https://ebph.it/ Epidemiology
  50. "बॉयोमेट्रिक्स". onlinelibrary.wiley.com. doi:10.1111/(ISSN)1541-0420.
  51. "बायोमेट्रिक - ऑक्सफोर्ड अकादमिक". OUP Academic.
  52. "बायोमेट्रिक जर्नल". onlinelibrary.wiley.com. doi:10.1002/(ISSN)1521-4036.
  53. "बायोमेट्री और फसल विज्ञान में संचार". agrobiol.sggw.waw.pl.
  54. "आनुवंशिकी और आणविक जीव विज्ञान में सांख्यिकीय अनुप्रयोग". www.degruyter.com. 1 May 2002.
  55. "चिकित्सा अनुसंधान में सांख्यिकीय तरीके". SAGE Journals.
  56. "फार्मास्युटिकल सांख्यिकी". onlinelibrary.wiley.com.
  57. "चिकित्सा में सांख्यिकी". onlinelibrary.wiley.com. doi:10.1002/(ISSN)1097-0258.


बाहरी संबंध

Media related to जैव सांख्यिकी at Wikimedia Commons