बायोइनफॉरमैटिक्स

जैव सूचना विज्ञान विज्ञान का अंतःविषय क्षेत्र है जो जीवविज्ञान डेटा को समझने के लिए तरीकों और सॉफ्टवेयर टूल विकसित करता है, खासकर जब डेटा सेट बड़े और जटिल होते हैं। जैव सूचना विज्ञान जैविक डेटा का विश्लेषण और व्याख्या करने के लिए जीव विज्ञान, रसायन विज्ञान, भौतिकी, कंप्यूटर विज्ञान, कंप्यूटर प्रोग्रामिंग, सूचना इंजीनियरिंग (क्षेत्र), गणित और सांख्यिकी का उपयोग करता है। डेटा के विश्लेषण और व्याख्या की बाद की प्रक्रिया को कम्प्यूटेशनल जीवविज्ञान कहा जाता है।

जैविक प्रश्नों के सिलिको में विश्लेषण के लिए कम्प्यूटेशनल, सांख्यिकीय और कंप्यूटर प्रोग्रामिंग तकनीकों का उपयोग किया गया है। उनमें पुन: उपयोग की जाने वाली विशिष्ट विश्लेषण पाइपलाइनें शामिल हैं, विशेष रूप से जीनोमिक्स के क्षेत्र में, जैसे कि जीन और एकल न्यूक्लियोटाइड बहुरूपता (एकल-न्यूक्लियोटाइड बहुरूपता) की पहचान करके। इन पाइपलाइनों का उपयोग बीमारी के आनुवंशिक आधार, अद्वितीय अनुकूलन, वांछनीय गुणों (विशेषकर कृषि प्रजातियों में), या आबादी के बीच अंतर को बेहतर ढंग से समझने के लिए किया जाता है। जैव सूचना विज्ञान में प्रोटिओमिक्स भी शामिल है, जो न्यूक्लिक एसिड और प्रोटीन अनुक्रमों के भीतर संगठनात्मक सिद्धांतों को समझने की कोशिश करता है। छवि और सिग्नल प्रोसेसिंग बड़ी मात्रा में कच्चे डेटा से उपयोगी परिणाम निकालने की अनुमति देती है। आनुवंशिकी के क्षेत्र में, यह जीनोम और उनके देखे गए उत्परिवर्तनों को अनुक्रमित करने और व्याख्या करने में सहायता करता है। जैव सूचना विज्ञान में जैविक साहित्य का पाठ खनन और जैविक डेटा को व्यवस्थित और क्वेरी करने के लिए जैविक और जीन ओन्टोलॉजी (सूचना विज्ञान) का विकास शामिल है। यह जीन और प्रोटीन अभिव्यक्ति और विनियमन के विश्लेषण में भी भूमिका निभाता है। जैव सूचना विज्ञान उपकरण आनुवंशिक और जीनोमिक डेटा की तुलना, विश्लेषण और व्याख्या करने और आम तौर पर आणविक जीव विज्ञान के विकासवादी पहलुओं को समझने में सहायता करते हैं। अधिक एकीकृत स्तर पर, यह उन जैविक मार्गों और नेटवर्कों का विश्लेषण और सूचीबद्ध करने में मदद करता है जो सिस्टम जीव विज्ञान का महत्वपूर्ण हिस्सा हैं। संरचनात्मक जीव विज्ञान में, यह डीएनए के अनुकरण और मॉडलिंग में सहायता करता है, आरएनए, प्रोटीन साथ ही जैव-आणविक अंतःक्रियाएँ।

इतिहास
जैव सूचना विज्ञान शब्द की पहली परिभाषा 1970 में पॉलियन होगेवेग और बेन हेस्पर द्वारा जैविक प्रणालियों में सूचना प्रक्रियाओं के अध्ययन को संदर्भित करने के लिए गढ़ी गई थी।  इस परिभाषा ने जैव सूचना विज्ञान को जैव रसायन (जैविक प्रणालियों में रासायनिक प्रक्रियाओं का अध्ययन) के समानांतर क्षेत्र के रूप में रखा।

जैव सूचना विज्ञान और कम्प्यूटेशनल जीव विज्ञान में जैविक डेटा, विशेष रूप से डीएनए, आरएनए और प्रोटीन अनुक्रमों का विश्लेषण शामिल था। 1990 के दशक के मध्य में जैव सूचना विज्ञान के क्षेत्र में विस्फोटक वृद्धि का अनुभव हुआ, जो मुख्य रूप से मानव जीनोम परियोजना और डीएनए अनुक्रमण प्रौद्योगिकी में तेजी से प्रगति से प्रेरित था।

सार्थक जानकारी उत्पन्न करने के लिए जैविक डेटा का विश्लेषण करने में सॉफ्टवेयर प्रोग्राम लिखना और चलाना शामिल है जो ग्राफ सिद्धांत, कृत्रिम बुद्धिमत्ता, सॉफ्ट कंप्यूटिंग, डेटा खनन, मूर्ति प्रोद्योगिकी और कंप्यूटर सिमुलेशन से कलन विधि का उपयोग करते हैं। बदले में एल्गोरिदम सैद्धांतिक आधारों जैसे कि अलग गणित, नियंत्रण सिद्धांत, सिस्टम सिद्धांत, सूचना सिद्धांत और सांख्यिकी पर निर्भर करते हैं।

अनुक्रम
मानव जीनोम परियोजना के पूरा होने के बाद से गति और लागत में जबरदस्त प्रगति हुई है, कुछ प्रयोगशालाएँ हर साल 100,000 बिलियन से अधिक आधारों को अनुक्रमित करने में सक्षम हैं, और पूर्ण जीनोम को 1,000 डॉलर या उससे कम में अनुक्रमित किया जा सकता है। 1950 के दशक की शुरुआत में फ्रेडरिक सिंगर द्वारा इंसुलिन का अनुक्रम निर्धारित करने के बाद प्रोटीन अनुक्रम उपलब्ध होने पर कंप्यूटर आणविक जीव विज्ञान में आवश्यक हो गए। कई अनुक्रमों की मैन्युअल रूप से तुलना करना अव्यावहारिक निकला। मार्गरेट ओकले डेहॉफ़, इस क्षेत्र में अग्रणी, पहले प्रोटीन अनुक्रम डेटाबेस में से को संकलित किया, जिसे शुरू में पुस्तकों के रूप में प्रकाशित किया गया था साथ ही अनुक्रम संरेखण और आणविक विकास के तरीके। जैव सूचना विज्ञान में और प्रारंभिक योगदानकर्ता एल्विन ए. काबट थे, जिन्होंने 1980 और 1991 के बीच ताई ते वू के साथ ऑनलाइन जारी एंटीबॉडी अनुक्रमों की व्यापक मात्रा के साथ 1970 में जैविक अनुक्रम विश्लेषण का बीड़ा उठाया था। 1970 के दशक में, डीएनए अनुक्रमण के लिए नई तकनीकों को बैक्टीरियोफेज MS2 और øX174 पर लागू किया गया था, और विस्तारित न्यूक्लियोटाइड अनुक्रमों को फिर सूचनात्मक और सांख्यिकीय एल्गोरिदम के साथ पार्स किया गया था। इन अध्ययनों से पता चला है कि कोडिंग सेगमेंट और ट्रिपलेट कोड जैसी प्रसिद्ध विशेषताएं सीधे सांख्यिकीय विश्लेषणों में सामने आती हैं और इस अवधारणा का प्रमाण थीं कि जैव सूचना विज्ञान व्यावहारिक होगा।



लक्ष्य
यह अध्ययन करने के लिए कि विभिन्न रोग स्थितियों में सामान्य सेलुलर गतिविधियाँ कैसे बदल जाती हैं, इन गतिविधियों की व्यापक तस्वीर बनाने के लिए कच्चे जैविक डेटा को जोड़ा जाना चाहिए। इसलिए, जैव सूचना विज्ञान का क्षेत्र इस तरह विकसित हुआ है कि अब सबसे महत्वपूर्ण कार्य में विभिन्न प्रकार के डेटा का विश्लेषण और व्याख्या शामिल है। इसमें न्यूक्लियोटाइड और अमीनो एसिड अनुक्रम, प्रोटीन डोमेन और प्रोटीन संरचनाएं भी शामिल हैं। जैव सूचना विज्ञान और कम्प्यूटेशनल जीव विज्ञान के महत्वपूर्ण उप-विषयों में शामिल हैं:


 * विभिन्न प्रकार की सूचनाओं तक कुशलतापूर्वक पहुंच, प्रबंधन और उपयोग करने के लिए कंप्यूटर प्रोग्राम का विकास और कार्यान्वयन।
 * बड़े डेटा सेट के सदस्यों के बीच संबंधों का आकलन करने के लिए नए गणितीय एल्गोरिदम और सांख्यिकीय उपायों का विकास। उदाहरण के लिए, अनुक्रम के भीतर जीन का पता लगाने, प्रोटीन संरचना और/या कार्य की भविष्यवाणी करने और संबंधित अनुक्रमों के परिवारों में प्रोटीन अनुक्रमों का क्लस्टर विश्लेषण करने के तरीके हैं।

जैव सूचना विज्ञान का प्राथमिक लक्ष्य जैविक प्रक्रियाओं की समझ को बढ़ाना है। जो चीज़ इसे अन्य दृष्टिकोणों से अलग करती है, वह इस लक्ष्य को प्राप्त करने के लिए कम्प्यूटेशनल रूप से गहन तकनीकों को विकसित करने और लागू करने पर केंद्रित है। उदाहरणों में शामिल हैं: पैटर्न पहचान, डेटा माइनिंग, यंत्र अधिगम एल्गोरिदम और जैविक डेटा विज़ुअलाइज़ेशन। क्षेत्र में प्रमुख अनुसंधान प्रयासों में अनुक्रम संरेखण, जीन खोज, जीनोम असेंबली, दवा डिजाइन, दवा खोज, प्रोटीन संरचनात्मक संरेखण, प्रोटीन संरचना भविष्यवाणी, जीन अभिव्यक्ति की भविष्यवाणी और प्रोटीन-प्रोटीन इंटरैक्शन, जीनोम-वाइड एसोसिएशन अध्ययन, विकास का मॉडलिंग शामिल है। और सेलुलर मॉडल|कोशिका विभाजन/माइटोसिस।

जैव सूचना विज्ञान में जैविक डेटा के प्रबंधन और विश्लेषण से उत्पन्न होने वाली औपचारिक और व्यावहारिक समस्याओं को हल करने के लिए डेटाबेस, एल्गोरिदम, कम्प्यूटेशनल और सांख्यिकीय तकनीकों और सिद्धांत का निर्माण और उन्नति शामिल है।

पिछले कुछ दशकों में, जीनोमिक और अन्य आणविक अनुसंधान प्रौद्योगिकियों में तेजी से विकास और सूचना प्रौद्योगिकियों में विकास ने आणविक जीव विज्ञान से संबंधित जबरदस्त मात्रा में जानकारी का उत्पादन किया है। जैव सूचना विज्ञान इन गणितीय और कंप्यूटिंग दृष्टिकोणों को दिया गया नाम है जिनका उपयोग जैविक प्रक्रियाओं की समझ बढ़ाने के लिए किया जाता है।

जैव सूचना विज्ञान में सामान्य गतिविधियों में डीएनए और प्रोटीन अनुक्रमों का मानचित्रण और विश्लेषण करना, उनकी तुलना करने के लिए डीएनए और प्रोटीन अनुक्रमों को संरेखित करना और प्रोटीन संरचनाओं के 3-डी मॉडल बनाना और देखना शामिल है।

अनुक्रम विश्लेषण
चूँकि 1977 में बैक्टीरियोफेज फी एक्स 174|फेज Φ-X174 का अनुक्रमण किया गया था, हजारों जीवों के डीएनए अनुक्रमों को डीकोड किया गया है और डेटाबेस में संग्रहीत किया गया है। इस अनुक्रम जानकारी का विश्लेषण उन जीनों को निर्धारित करने के लिए किया जाता है जो प्रोटीन, आरएनए जीन, नियामक अनुक्रम, संरचनात्मक रूपांकनों और दोहराव वाले अनुक्रमों को एन्कोड करते हैं। किसी प्रजाति के भीतर या विभिन्न प्रजातियों के बीच जीन की तुलना प्रोटीन कार्यों, या प्रजातियों के बीच संबंधों (फाइलोजेनेटिक पेड़ों के निर्माण के लिए आणविक प्रणाली विज्ञान का उपयोग) के बीच समानता दिखा सकती है। डेटा की बढ़ती मात्रा के साथ, डीएनए अनुक्रमों का मैन्युअल रूप से विश्लेषण करना बहुत पहले अव्यावहारिक हो गया था। BLAST जैसे कंप्यूटर प्रोग्राम का उपयोग नियमित रूप से अनुक्रम खोजने के लिए किया जाता है - 2008 तक, 260,000 से अधिक जीवों से, जिनमें 190 बिलियन से अधिक न्यूक्लियोटाइड होते हैं।



डीएनए अनुक्रमण
अनुक्रमों का विश्लेषण करने से पहले, उन्हें जेनबैंक जैसे डेटा स्टोरेज बैंक से प्राप्त किया जाता है। डीएनए अनुक्रमण अभी भी गैर-मामूली समस्या है क्योंकि कच्चा डेटा शोर हो सकता है या कमजोर संकेतों से प्रभावित हो सकता है। डीएनए अनुक्रमण के विभिन्न प्रयोगात्मक दृष्टिकोणों के लिए आधार कॉलिंग के लिए एल्गोरिदम विकसित किए गए हैं।

अनुक्रम संयोजन
अधिकांश डीएनए अनुक्रमण तकनीकें अनुक्रम के छोटे टुकड़े उत्पन्न करती हैं जिन्हें पूर्ण जीन या जीनोम अनुक्रम प्राप्त करने के लिए इकट्ठा करने की आवश्यकता होती है। शॉटगन अनुक्रमण तकनीक (पहले जीवाणु जीनोम, हेमोफिलस इन्फ्लुएंजा को अनुक्रमित करने के लिए इंस्टीट्यूट फॉर जीनोमिक रिसर्च (टीआईजीआर) द्वारा उपयोग किया जाता है) कई हजारों छोटे डीएनए टुकड़ों (अनुक्रमण तकनीक के आधार पर 35 से 900 न्यूक्लियोटाइड तक लंबे) के अनुक्रम उत्पन्न करता है। इन टुकड़ों के सिरे ओवरलैप होते हैं और, जब जीनोम असेंबली प्रोग्राम द्वारा ठीक से संरेखित किया जाता है, तो संपूर्ण जीनोम के पुनर्निर्माण के लिए उपयोग किया जा सकता है। शॉटगन अनुक्रमण से अनुक्रम डेटा तुरंत प्राप्त होता है, लेकिन बड़े जीनोम के लिए टुकड़ों को इकट्ठा करने का कार्य काफी जटिल हो सकता है। मानव जीनोम जितने बड़े जीनोम के लिए, टुकड़ों को इकट्ठा करने के लिए बड़े-मेमोरी, मल्टीप्रोसेसर कंप्यूटर पर कई दिनों का सीपीयू समय लग सकता है, और परिणामी असेंबली में आमतौर पर कई अंतराल होते हैं जिन्हें बाद में भरना होगा। शॉटगन अनुक्रमण लगभग सभी अनुक्रमित जीनोम के लिए पसंद की विधि है (श्रृंखला-समाप्ति या रासायनिक गिरावट विधियों के बजाय), और जीनोम असेंबली एल्गोरिदम जैव सूचना विज्ञान अनुसंधान का महत्वपूर्ण क्षेत्र है।

जीनोम एनोटेशन
जीनोमिक्स में, जीनोम प्रोजेक्ट या जीनोम एनोटेशन अनुक्रमित डीएनए अनुक्रम में जीन और अन्य जैविक विशेषताओं के रुकने और शुरू करने वाले क्षेत्रों को चिह्नित करने की प्रक्रिया को संदर्भित करता है। कई जीनोम इतने बड़े हैं कि उन्हें हाथ से एनोटेट नहीं किया जा सकता। चूंकि डीएनए अनुक्रमण की दर जीनोम एनोटेशन की दर से अधिक हो गई है, जीनोम एनोटेशन जैव सूचना विज्ञान में नई बाधा बन गया है।.

जीनोम एनोटेशन को तीन स्तरों में वर्गीकृत किया जा सकता है: न्यूक्लियोटाइड, प्रोटीन और प्रक्रिया स्तर।

जीन खोज न्यूक्लियोटाइड-स्तर एनोटेशन का मुख्य पहलू है। जटिल जीनोम के लिए, एब इनिटियो जीन भविष्यवाणी और व्यक्त अनुक्रम डेटाबेस और अन्य जीवों के साथ अनुक्रम तुलना का संयोजन सफल हो सकता है। न्यूक्लियोटाइड-स्तर एनोटेशन जीनोम के अन्य आनुवंशिक और भौतिक मानचित्रों के साथ जीनोम अनुक्रम के एकीकरण की भी अनुमति देता है।

प्रोटीन-स्तरीय एनोटेशन का मुख्य उद्देश्य जीनोम के प्रोटीन उत्पादों को कार्य सौंपना है। इस प्रकार के एनोटेशन के लिए प्रोटीन अनुक्रमों और कार्यात्मक डोमेन और रूपांकनों के डेटाबेस का उपयोग किया जाता है। नए जीनोम अनुक्रम में अनुमानित प्रोटीनों में से लगभग आधे का कोई स्पष्ट कार्य नहीं होता है।

सेलुलर और जीव विज्ञान के संदर्भ में जीन और उनके उत्पादों के कार्य को समझना प्रक्रिया-स्तरीय एनोटेशन का लक्ष्य है। प्रक्रिया-स्तरीय एनोटेशन की बाधा विभिन्न मॉडल प्रणालियों द्वारा उपयोग किए जाने वाले शब्दों की असंगति रही है। जीन ओन्टोलॉजी कंसोर्टियम इस समस्या को हल करने में मदद कर रहा है। व्यापक एनोटेशन प्रणाली का पहला विवरण 1995 में प्रकाशित हुआ था इंस्टीट्यूट फॉर जीनोमिक रिसर्च द्वारा, जिसने मुक्त-जीवित जीव, जीवाणु हीमोफिलस इन्फ्लुएंजा के जीनोम का पहला पूर्ण अनुक्रमण और विश्लेषण किया। सिस्टम प्रारंभिक कार्यात्मक कार्य करने के लिए सभी प्रोटीनों को एन्कोडिंग करने वाले, आरएनए, राइबोसोमल आरएनए को स्थानांतरित करने वाले जीन की पहचान करता है। हेमोफिलस इन्फ्लुएंजा में प्रोटीन-कोडिंग जीन खोजने के लिए प्रशिक्षित जीनमार्क कार्यक्रम लगातार बदल रहा है और सुधार कर रहा है।

2003 में बंद होने के बाद मानव जीनोम परियोजना ने जिन लक्ष्यों को प्राप्त करना छोड़ दिया था, उनका अनुसरण करते हुए, ENCODE परियोजना को राष्ट्रीय मानव जीनोम अनुसंधान संस्थान द्वारा विकसित किया गया था। यह परियोजना मानव जीनोम के कार्यात्मक तत्वों का सहयोगी डेटा संग्रह है जो अगली पीढ़ी के डीएनए-अनुक्रमण प्रौद्योगिकियों और जीनोमिक टाइलिंग सरणी का उपयोग करती है, प्रौद्योगिकियां नाटकीय रूप से कम प्रति-आधार लागत पर स्वचालित रूप से बड़ी मात्रा में डेटा उत्पन्न करने में सक्षम हैं लेकिन समान के साथ सटीकता (आधार कॉल त्रुटि) और निष्ठा (असेंबली त्रुटि)।

जीन फ़ंक्शन भविष्यवाणी
जबकि जीनोम एनोटेशन मुख्य रूप से अनुक्रम समानता (और इस प्रकार होमोलॉजी (जीव विज्ञान)) पर आधारित है, अनुक्रमों के अन्य गुणों का उपयोग जीन के कार्य की भविष्यवाणी करने के लिए किया जा सकता है। वास्तव में, अधिकांश जीन फ़ंक्शन भविष्यवाणी विधियां प्रोटीन अनुक्रमों पर ध्यान केंद्रित करती हैं क्योंकि वे अधिक जानकारीपूर्ण और अधिक सुविधा संपन्न हैं। उदाहरण के लिए, हाइड्रोफोबिक एमिनो एसिड का वितरण प्रोटीन में ट्रांसमेम्ब्रेन डोमेन की भविष्यवाणी करता है। हालाँकि, प्रोटीन फ़ंक्शन भविष्यवाणी बाहरी जानकारी जैसे जीन (या प्रोटीन) जीन अभिव्यक्ति डेटा, प्रोटीन संरचना, या प्रोटीन-प्रोटीन इंटरैक्शन|प्रोटीन-प्रोटीन इंटरैक्शन का भी उपयोग कर सकती है।

कम्प्यूटेशनल विकासवादी जीवविज्ञान
विकासवादी जीवविज्ञान प्रजातियों की उत्पत्ति और वंश के साथ-साथ समय के साथ उनके परिवर्तन का अध्ययन है। सूचना विज्ञान (शैक्षणिक क्षेत्र) ने शोधकर्ताओं को निम्नलिखित में सक्षम बनाकर विकासवादी जीवविज्ञानियों की सहायता की है: भविष्य का कार्य अब और अधिक जटिल विकासवादी वृक्ष के पुनर्निर्माण का प्रयास करता है।
 * केवल भौतिक वर्गीकरण या शारीरिक टिप्पणियों के बजाय, बड़ी संख्या में जीवों के डीएनए में परिवर्तन को मापकर उनके विकास का पता लगाएं,
 * संपूर्ण जीनोम की तुलना करें, जो अधिक जटिल विकासवादी घटनाओं, जैसे जीन दोहराव, क्षैतिज जीन स्थानांतरण और जीवाणु प्रजाति में महत्वपूर्ण कारकों की भविष्यवाणी के अध्ययन की अनुमति देता है,
 * समय के साथ प्रणाली के परिणाम की भविष्यवाणी करने के लिए जटिल कम्प्यूटेशनल जनसंख्या आनुवंशिकी मॉडल का निर्माण करें
 * बड़ी संख्या में प्रजातियों और जीवों पर जानकारी ट्रैक करें और साझा करें

तुलनात्मक जीनोमिक्स
तुलनात्मक जीनोम विश्लेषण का मूल विभिन्न जीवों में जीन (होमोलॉजी (जीवविज्ञान)#ऑर्थोलॉजी विश्लेषण) या अन्य जीनोमिक विशेषताओं के बीच पत्राचार की स्थापना है। इंटरजेनोमिक मानचित्र दो जीनोम के विचलन के लिए जिम्मेदार विकासवादी प्रक्रियाओं का पता लगाने के लिए बनाए जाते हैं। विभिन्न संगठनात्मक स्तरों पर कार्य करने वाली अनेक विकासवादी घटनाएं जीनोम विकास को आकार देती हैं। निम्नतम स्तर पर, बिंदु उत्परिवर्तन व्यक्तिगत न्यूक्लियोटाइड को प्रभावित करते हैं। उच्च स्तर पर, बड़े गुणसूत्र खंड दोहराव, पार्श्व स्थानांतरण, व्युत्क्रम, स्थानांतरण, विलोपन और सम्मिलन से गुजरते हैं। संपूर्ण जीनोम संकरण, पॉलीप्लोइडाइजेशन और एंडोसिंबियोसिस की प्रक्रियाओं में शामिल होते हैं जो तेजी से प्रजातिकरण की ओर ले जाते हैं। जीनोम विकास की जटिलता गणितीय मॉडल और एल्गोरिदम के डेवलपर्स के लिए कई रोमांचक चुनौतियां पेश करती है, जिनके पास पारसीमोनी मॉडल पर आधारित समस्याओं के लिए सटीक, अनुमान, निश्चित पैरामीटर और सन्निकटन एल्गोरिदम से लेकर मार्कोव तक एल्गोरिथम, सांख्यिकीय और गणितीय तकनीकों के स्पेक्ट्रम का सहारा होता है। संभाव्य मॉडल पर आधारित समस्याओं के बायेसियन विश्लेषण के लिए श्रृंखला मोंटे कार्लो एल्गोरिदम।

इनमें से कई अध्ययन प्रोटीन परिवार को अनुक्रम निर्दिष्ट करने के लिए अनुक्रम समरूपता का पता लगाने पर आधारित हैं।

पैन जीनोमिक्स
पैन जीनोमिक्स 2005 में टेटेलिन और मेदिनी द्वारा पेश की गई अवधारणा है। पैन जीनोम विशेष मोनोफिली टैक्सोनोमिक समूह का संपूर्ण जीन भंडार है। हालाँकि शुरू में इसे किसी प्रजाति के निकट संबंधी उपभेदों पर लागू किया गया था, लेकिन इसे जीनस, फ़ाइलम आदि जैसे बड़े संदर्भों पर भी लागू किया जा सकता है। इसे दो भागों में विभाजित किया गया है: कोर जीनोम, अध्ययन के तहत सभी जीनोमों के लिए सामान्य जीन का सेट (अक्सर जीवित रहने के लिए महत्वपूर्ण हाउसकीपिंग जीन), और डिस्पेंसेबल/लचीला जीनोम: जीन का सेट जो अध्ययन के तहत या कुछ जीनोम को छोड़कर सभी में मौजूद नहीं है। जीवाणु प्रजातियों के पैन जीनोम को चिह्नित करने के लिए जैव सूचना विज्ञान उपकरण बीपीजीए का उपयोग किया जा सकता है।

रोग की आनुवंशिकी
2013 तक, कुशल उच्च-थ्रूपुट अगली पीढ़ी की अनुक्रमण तकनीक का अस्तित्व कई अलग-अलग मानव विकारों के कारणों की पहचान करने की अनुमति देता है। ऑनलाइन मेंडेलियन इनहेरिटेंस इन मैन डेटाबेस में पहचाने गए 3,000 से अधिक विकारों के लिए सरल मेंडेलियन वंशानुक्रम देखा गया है, लेकिन जटिल बीमारियाँ अधिक कठिन हैं। एसोसिएशन के अध्ययनों में कई व्यक्तिगत आनुवंशिक क्षेत्र पाए गए हैं जो व्यक्तिगत रूप से जटिल बीमारियों (जैसे बांझपन,) से कमजोर रूप से जुड़े हुए हैं। स्तन कैंसर और अल्जाइमर रोग रेफरी नाम= Tosto2013 > ), किसी कारण के बजाय। वर्तमान में निदान और उपचार के लिए जीन का उपयोग करने में कई चुनौतियाँ हैं, जैसे कि हम कैसे नहीं जानते कि कौन से जीन महत्वपूर्ण हैं, या एल्गोरिदम द्वारा प्रदान किए जाने वाले विकल्प कितने स्थिर हैं। जीनोम-वाइड एसोसिएशन अध्ययनों ने जटिल बीमारियों और लक्षणों के लिए हजारों सामान्य आनुवंशिक वेरिएंट की सफलतापूर्वक पहचान की है; हालाँकि, ये सामान्य रूप आनुवंशिकता के छोटे से अंश की ही व्याख्या करते हैं। दुर्लभ कार्यात्मक संस्करण कुछ लुप्त आनुवंशिकता समस्या का कारण हो सकता है। बड़े पैमाने पर संपूर्ण जीनोम अनुक्रमण अध्ययनों ने तेजी से लाखों संपूर्ण जीनोमों को अनुक्रमित किया है, और ऐसे अध्ययनों ने करोड़ों दुर्लभ कार्यात्मक प्रकारों की पहचान की है।  एसएनपी एनोटेशन आनुवंशिक वेरिएंट के प्रभाव या कार्य की भविष्यवाणी करता है और दुर्लभ कार्यात्मक वेरिएंट को प्राथमिकता देने में मदद करता है, और इन एनोटेशन को शामिल करने से पूरे जीनोम अनुक्रमण अध्ययन के दुर्लभ वेरिएंट विश्लेषण के आनुवंशिक सहयोग की शक्ति को प्रभावी ढंग से बढ़ावा मिल सकता है।  संपूर्ण-जीनोम अनुक्रमण डेटा के लिए ऑल-इन-वन दुर्लभ वैरिएंट एसोसिएशन विश्लेषण प्रदान करने के लिए कुछ उपकरण विकसित किए गए हैं, जिसमें जीनोटाइप डेटा और उनके कार्यात्मक एनोटेशन, एसोसिएशन विश्लेषण, परिणाम सारांश और विज़ुअलाइज़ेशन का एकीकरण शामिल है।  संपूर्ण जीनोम अनुक्रमण अध्ययन का मेटा-विश्लेषण जटिल फेनोटाइप से जुड़े दुर्लभ वेरिएंट की खोज के लिए बड़े नमूना आकार एकत्र करने की समस्या का आकर्षक समाधान प्रदान करता है।

कैंसर में उत्परिवर्तन का विश्लेषण
कैंसर में, प्रभावित कोशिकाओं के जीनोम को जटिल या अप्रत्याशित तरीकों से पुनर्व्यवस्थित किया जाता है। कैंसर का कारण बनने वाले बिंदु उत्परिवर्तन की पहचान करने वाले एकल-न्यूक्लियोटाइड बहुरूपता सरणियों के अलावा, ऑलिगोन्यूक्लियोटाइड माइक्रोएरे का उपयोग क्रोमोसोमल लाभ और हानि (तुलनात्मक जीनोमिक संकरण कहा जाता है) की पहचान करने के लिए किया जा सकता है। ये पता लगाने की विधियाँ प्रति प्रयोग टेराबाइट डेटा उत्पन्न करती हैं। डेटा में अक्सर काफी परिवर्तनशीलता, या शोर पाया जाता है, और इस प्रकार वास्तविक प्रतिलिपि संख्या भिन्नता परिवर्तनों का अनुमान लगाने के लिए छिपा हुआ मार्कोव मॉडल और परिवर्तन-बिंदु विश्लेषण विधियां विकसित की जा रही हैं।

निर्वासित में उत्परिवर्तन द्वारा कैंसर की पहचान करने के लिए दो महत्वपूर्ण सिद्धांतों का उपयोग किया जा सकता है। सबसे पहले, कैंसर जीन में संचित दैहिक उत्परिवर्तन की बीमारी है। दूसरा, कैंसर में ड्राइवर उत्परिवर्तन होते हैं जिन्हें यात्रियों से अलग करने की आवश्यकता होती है। जैव सूचना विज्ञान में और सुधार से जीनोम में कैंसर प्रेरित उत्परिवर्तन के विश्लेषण द्वारा कैंसर के प्रकारों को वर्गीकृत करने की अनुमति मिल सकती है। इसके अलावा, भविष्य में कैंसर के नमूनों के अनुक्रम से रोग बढ़ने पर रोगियों पर नज़र रखना संभव हो सकता है। अन्य प्रकार का डेटा जिसके लिए नवीन सूचना विज्ञान विकास की आवश्यकता होती है, वह है कई ट्यूमर के बीच बार-बार होने वाले घावों का विश्लेषण।

जीन अभिव्यक्ति का विश्लेषण
डीएनए माइक्रोएरे, व्यक्त अनुक्रम टैग (ईएसटी) अनुक्रमण, जीन अभिव्यक्ति का क्रमिक विश्लेषण (एसएजीई) टैग अनुक्रमण, व्यापक समानांतर हस्ताक्षर अनुक्रमण (एमपीएसएस), आरएनए- सहित कई तकनीकों के साथ मैसेंजर आरएनए स्तरों को मापकर कई जीनों की जीन अभिव्यक्ति निर्धारित की जा सकती है। Seq, जिसे होल ट्रांस्क्रिप्टोम शॉटगन सीक्वेंसिंग (WTSS) या मल्टीप्लेक्स इन-सीटू हाइब्रिडाइजेशन के विभिन्न अनुप्रयोगों के रूप में भी जाना जाता है। ये सभी तकनीकें अत्यधिक शोर-प्रवण हैं और/या जैविक माप में पूर्वाग्रह के अधीन हैं, और कम्प्यूटेशनल जीव विज्ञान में प्रमुख अनुसंधान क्षेत्र में उच्च-थ्रूपुट जीन अभिव्यक्ति अध्ययनों में शोर से सिग्नल (सूचना सिद्धांत) को अलग करने के लिए सांख्यिकीय उपकरण विकसित करना शामिल है। इस तरह के अध्ययनों का उपयोग अक्सर किसी विकार में शामिल जीन को निर्धारित करने के लिए किया जाता है: कैंसर कोशिकाओं की विशेष आबादी में अप-विनियमित और डाउन-विनियमित प्रतिलेखों को निर्धारित करने के लिए कैंसरग्रस्त उपकला कोशिकाओं के माइक्रोएरे डेटा की तुलना गैर-कैंसर कोशिकाओं के डेटा से की जा सकती है।.



प्रोटीन अभिव्यक्ति का विश्लेषण
प्रोटीन माइक्रोएरे और उच्च थ्रूपुट (एचटी) मास स्पेक्ट्रोमेट्री (एमएस) जैविक नमूने में मौजूद प्रोटीन का स्नैपशॉट प्रदान कर सकते हैं। पूर्व दृष्टिकोण को एमआरएनए पर लक्षित माइक्रोएरे के समान समस्याओं का सामना करना पड़ता है, बाद वाले में प्रोटीन अनुक्रम डेटाबेस से अनुमानित द्रव्यमान के खिलाफ बड़ी मात्रा में बड़े पैमाने पर डेटा के मिलान की समस्या शामिल होती है, और प्रत्येक प्रोटीन से कई अपूर्ण पेप्टाइड्स का पता चलने पर नमूनों का जटिल सांख्यिकीय विश्लेषण होता है। ऊतक संदर्भ में सेलुलर प्रोटीन स्थानीयकरण को इम्युनोहिस्टोकैमिस्ट्री और ऊतक माइक्रोएरे के आधार पर स्थानिक डेटा के रूप में प्रदर्शित एफ़िनिटी प्रोटिओमिक्स के माध्यम से प्राप्त किया जा सकता है।

नियमन का विश्लेषण
जीन अभिव्यक्ति का विनियमन जटिल प्रक्रिया है जहां संकेत, जैसे कि हार्मोन जैसे बाह्य कोशिकीय संकेत, अंततः या अधिक प्रोटीन की गतिविधि में वृद्धि या कमी की ओर ले जाता है। इस प्रक्रिया में विभिन्न चरणों का पता लगाने के लिए जैव सूचना विज्ञान तकनीकों को लागू किया गया है।

उदाहरण के लिए, जीन अभिव्यक्ति को जीनोम में आस-पास के तत्वों द्वारा नियंत्रित किया जा सकता है। प्रमोटर विश्लेषण में जीन के प्रोटीन-कोडिंग क्षेत्र के आसपास के डीएनए में अनुक्रम रूपांकनों की पहचान और अध्ययन शामिल है। ये रूपांकन उस सीमा को प्रभावित करते हैं जिस हद तक उस क्षेत्र को एमआरएनए में स्थानांतरित किया जाता है। प्रवर्तक से दूर संवर्द्धक (आनुवांशिकी) तत्व त्रि-आयामी लूपिंग इंटरैक्शन के माध्यम से जीन अभिव्यक्ति को भी नियंत्रित कर सकते हैं। इन अंतःक्रियाओं को गुणसूत्र संरचना कैप्चर प्रयोगों के जैव सूचनात्मक विश्लेषण द्वारा निर्धारित किया जा सकता है।

अभिव्यक्ति डेटा का उपयोग जीन विनियमन का अनुमान लगाने के लिए किया जा सकता है: प्रत्येक राज्य में शामिल जीन के बारे में परिकल्पना बनाने के लिए किसी जीव की विभिन्न अवस्थाओं से माइक्रोएरे डेटा की तुलना की जा सकती है। एकल-कोशिका जीव में, कोई कोशिका चक्र के चरणों की तुलना विभिन्न तनाव स्थितियों (गर्मी का झटका, भुखमरी, आदि) के साथ कर सकता है। फिर क्लस्टर विश्लेषण को अभिव्यक्ति डेटा पर लागू किया जा सकता है ताकि यह निर्धारित किया जा सके कि कौन से जीन सह-व्यक्त हैं। उदाहरण के लिए, सह-व्यक्त जीन के अपस्ट्रीम क्षेत्रों (प्रमोटरों) को अधिक प्रतिनिधित्व वाले नियामक तत्वों के लिए खोजा जा सकता है। जीन क्लस्टरिंग में लागू क्लस्टरिंग एल्गोरिदम के उदाहरण हैं k-मतलब क्लस्टरिंग, सेल्फ-ऑर्गनाइजिंग मैप्स (एसओएम), पदानुक्रमित क्लस्टरिंग और सर्वसम्मति क्लस्टरिंग विधियां।

सेलुलर संगठन का विश्लेषण
कोशिकाओं के भीतर ऑर्गेनेल, जीन, प्रोटीन और अन्य घटकों के स्थान का विश्लेषण करने के लिए कई दृष्टिकोण विकसित किए गए हैं। कई जैविक डेटाबेस में उपसेलुलर स्थानीयकरण को पकड़ने के लिए जीन ऑन्टोलॉजी श्रेणी, सेलुलर घटक तैयार किया गया है।

माइक्रोस्कोपी और छवि विश्लेषण
सूक्ष्म चित्र ऑर्गेनेल के साथ-साथ अणुओं के स्थान की भी जानकारी देते हैं, जो रोगों में असामान्यताओं का स्रोत हो सकते हैं।

प्रोटीन स्थानीयकरण
प्रोटीन का स्थान खोजने से हमें यह अनुमान लगाने की अनुमति मिलती है कि वे क्या करते हैं। इसे प्रोटीन फ़ंक्शन भविष्यवाणी कहा जाता है। उदाहरण के लिए, यदि कोशिका नाभिक में प्रोटीन पाया जाता है तो यह जीन अभिव्यक्ति या आरएनए स्प्लिसिंग के विनियमन में शामिल हो सकता है। इसके विपरीत, यदि माइटोकॉन्ड्रियन में प्रोटीन पाया जाता है, तो यह सेलुलर श्वसन या अन्य चयापचय में शामिल हो सकता है। प्रोटीन उपसेलुलर स्थान डेटाबेस और भविष्यवाणी उपकरण सहित अच्छी तरह से विकसित प्रोटीन उपसेलुलर स्थानीयकरण भविष्यवाणी संसाधन उपलब्ध हैं।

क्रोमेटिन का परमाणु संगठन
उच्च-थ्रूपुट क्रोमोसोम संरचना कैप्चर प्रयोगों से डेटा, जैसे कि हाई-सी (जीनोमिक विश्लेषण तकनीक) | हाई-सी (प्रयोग) और ChIA-PET, क्रोमेटिन की त्रि-आयामी संरचना और परमाणु संगठन पर जानकारी प्रदान कर सकते हैं। इस क्षेत्र में जैव सूचनात्मक चुनौतियों में जीनोम को डोमेन में विभाजित करना शामिल है, जैसे कि टोपोलॉजिकली एसोसिएटिंग डोमेन (टीएडी), जो त्रि-आयामी अंतरिक्ष में साथ व्यवस्थित होते हैं।

संरचनात्मक जैव सूचना विज्ञान
प्रोटीन की संरचना का पता लगाना जैव सूचना विज्ञान का महत्वपूर्ण अनुप्रयोग है। प्रोटीन संरचना भविष्यवाणी का महत्वपूर्ण आकलन (सीएएसपी) खुली प्रतियोगिता है जहां दुनिया भर के अनुसंधान समूह अज्ञात प्रोटीन मॉडल के मूल्यांकन के लिए प्रोटीन मॉडल प्रस्तुत करते हैं।

अमीनो एसिड अनुक्रम
प्रोटीन के रैखिक अमीनो एसिड अनुक्रम को प्राथमिक संरचना कहा जाता है, इसे डीएनए जीन पर कोडन के अनुक्रम से आसानी से निर्धारित किया जा सकता है जो इसके लिए कोड करता है। अधिकांश प्रोटीनों में, प्राथमिक संरचना विशिष्ट रूप से अपने मूल वातावरण में प्रोटीन की 3-आयामी संरचना को निर्धारित करती है। अपवाद पागल गायों को होने वाला रोग में शामिल प्रियन है। यह संरचना प्रोटीन के कार्य से जुड़ी होती है। अतिरिक्त संरचनात्मक जानकारी में द्वितीयक संरचना, तृतीयक संरचना और चतुर्धातुक संरचना संरचना शामिल हैं। प्रोटीन के कार्य की भविष्यवाणी के लिए व्यवहार्य सामान्य समाधान खुली समस्या बनी हुई है। अब तक अधिकांश प्रयास उन अनुमानों की ओर निर्देशित किए गए हैं जो अधिकांश समय काम करते हैं।

समरूपता
जैव सूचना विज्ञान की जीनोमिक शाखा में, जीन के कार्य की भविष्यवाणी करने के लिए होमोलॉजी का उपयोग किया जाता है: यदि जीन ए का अनुक्रम, जिसका कार्य ज्ञात है, जीन बी के अनुक्रम के अनुरूप है, जिसका कार्य अज्ञात है, तो कोई यह अनुमान लगा सकता है कि बी हो सकता है ए के कार्य को साझा करें। संरचनात्मक जैव सूचना विज्ञान में, होमोलॉजी का उपयोग यह निर्धारित करने के लिए किया जाता है कि प्रोटीन के कौन से हिस्से संरचना निर्माण और अन्य प्रोटीन के साथ बातचीत में महत्वपूर्ण हैं। होमोलॉजी मॉडलिंग का उपयोग मौजूदा समजात प्रोटीन से अज्ञात प्रोटीन की संरचना की भविष्यवाणी करने के लिए किया जाता है।

इसका उदाहरण मनुष्यों में हीमोग्लोबिन और फलियों में हीमोग्लोबिन ( लेगहीमोग्लोबिन ) है, जो ही प्रोटीन सुपरफैमिली से दूर के रिश्तेदार हैं। दोनों जीव में ऑक्सीजन के परिवहन का ही उद्देश्य पूरा करते हैं। यद्यपि इन दोनों प्रोटीनों में पूरी तरह से अलग अमीनो एसिड अनुक्रम हैं, उनकी प्रोटीन संरचनाएं वस्तुतः समान हैं, जो उनके लगभग समान उद्देश्यों और साझा पूर्वज को दर्शाती हैं। प्रोटीन संरचना की भविष्यवाणी करने की अन्य तकनीकों में प्रोटीन थ्रेडिंग और डे नोवो (स्क्रैच से) भौतिकी-आधारित मॉडलिंग शामिल हैं।

संरचनात्मक जैव सूचना विज्ञान के अन्य पहलू में QSAR|मात्रात्मक संरचना-गतिविधि संबंध मॉडल और प्रोटीओकेमोमेट्रिक मॉडल (पीसीएम) जैसे वर्चुअल स्क्रीनिंग मॉडल के लिए प्रोटीन संरचनाओं का उपयोग शामिल है। इसके अलावा, प्रोटीन की क्रिस्टल संरचना का उपयोग उदाहरण के लिए लिगैंड-बाइंडिंग अध्ययन और सिलिको उत्परिवर्तन अध्ययन के अनुकरण में किया जा सकता है।

Google के डीपमाइंड द्वारा विकसित अल्फ़ाफ़ोल्ड नामक 2021 ध्यान लगा के पढ़ना या सीखना एल्गोरिदम-आधारित सॉफ़्टवेयर, अन्य सभी भविष्यवाणी सॉफ़्टवेयर विधियों से काफी बेहतर प्रदर्शन करता है, और अल्फाफोल्ड प्रोटीन संरचना डेटाबेस में लाखों प्रोटीनों के लिए अनुमानित संरचनाएं जारी की हैं।

नेटवर्क और सिस्टम जीवविज्ञान
नेटवर्क विश्लेषण मेटाबोलिक नेटवर्क या इंटरएक्टोम|प्रोटीन-प्रोटीन इंटरेक्शन नेटवर्क जैसे जैविक नेटवर्क के भीतर संबंधों को समझने का प्रयास करता है। यद्यपि जैविक नेटवर्क का निर्माण ही प्रकार के अणु या इकाई (जैसे जीन) से किया जा सकता है, नेटवर्क जीव विज्ञान अक्सर कई अलग-अलग डेटा प्रकारों को एकीकृत करने का प्रयास करता है, जैसे कि प्रोटीन, छोटे अणु, जीन अभिव्यक्ति डेटा और अन्य, जो सभी भौतिक रूप से जुड़े हुए हैं, कार्यात्मक रूप से, या दोनों।

सिस्टम बायोलॉजी में इन सेलुलर प्रक्रियाओं के जटिल कनेक्शनों का विश्लेषण और कल्पना करने के लिए सेल (जीव विज्ञान) उपप्रणालियों (जैसे चयापचय नेटवर्क और एंजाइम जिनमें चयापचय, सिग्नल ट्रांसडक्शन पथ और जीन नियामक नेटवर्क शामिल हैं) के कंप्यूटर सिमुलेशन का उपयोग शामिल है। कृत्रिम जीवन या आभासी विकास सरल (कृत्रिम) जीवन रूपों के कंप्यूटर सिमुलेशन के माध्यम से विकासवादी प्रक्रियाओं को समझने का प्रयास करता है।

आणविक संपर्क नेटवर्क


हजारों त्रि-आयामी प्रोटीन संरचनाएं एक्स-रे क्रिस्टलोग्राफी और प्रोटीन परमाणु चुंबकीय अनुनाद स्पेक्ट्रोस्कोपी (प्रोटीन एनएमआर) द्वारा निर्धारित की गई हैं और संरचनात्मक जैव सूचना विज्ञान में केंद्रीय प्रश्न यह है कि क्या केवल इनके आधार पर संभावित प्रोटीन-प्रोटीन इंटरैक्शन की भविष्यवाणी करना व्यावहारिक है। प्रोटीन-प्रोटीन अंतःक्रिया प्रयोग किए बिना 3डी आकार। प्रोटीन-प्रोटीन डॉकिंग समस्या से निपटने के लिए कई तरह के तरीके विकसित किए गए हैं, हालांकि ऐसा लगता है कि इस क्षेत्र में अभी भी बहुत काम किया जाना बाकी है।

क्षेत्र में सामने आने वाली अन्य अंतःक्रियाओं में प्रोटीन-लिगैंड (दवा सहित) और प्रोटीन-पेप्टाइड शामिल हैं। घूमने योग्य बांडों के बारे में परमाणुओं की गति का आणविक गतिशील अनुकरण, इंटरैक्टोम का अध्ययन करने के लिए कम्प्यूटेशनल एल्गोरिदम, जिसे डॉकिंग एल्गोरिदम कहा जाता है, के पीछे मूल सिद्धांत है।

साहित्य विश्लेषण
प्रकाशित साहित्य की विशाल संख्या व्यक्तियों के लिए प्रत्येक पेपर को पढ़ना लगभग असंभव बना देती है, जिसके परिणामस्वरूप अनुसंधान के उप-क्षेत्र असंबद्ध हो जाते हैं। साहित्य विश्लेषण का उद्देश्य पाठ्य संसाधनों की इस बढ़ती लाइब्रेरी के खनन के लिए कम्प्यूटेशनल और सांख्यिकीय भाषाविज्ञान को नियोजित करना है। उदाहरण के लिए:
 * संक्षिप्तीकरण पहचान - जैविक शब्दों के दीर्घ-रूप और संक्षिप्तीकरण की पहचान करें
 * नामित-इकाई पहचान - जीन नाम जैसे जैविक शब्दों को पहचानना
 * प्रोटीन-प्रोटीन अंतःक्रिया - पाठ से पहचानें कि कौन सा प्रोटीन किस प्रोटीन के साथ अंतःक्रिया करता है

अनुसंधान का क्षेत्र सांख्यिकी और कम्प्यूटेशनल भाषाविज्ञान से आता है।

उच्च-थ्रूपुट छवि विश्लेषण
कम्प्यूटेशनल प्रौद्योगिकियों का उपयोग बड़ी मात्रा में उच्च-सूचना-सामग्री चिकित्सा इमेजिंग के प्रसंस्करण, मात्रा निर्धारण और विश्लेषण को स्वचालित करने के लिए किया जाता है। आधुनिक छवि विश्लेषण प्रणालियाँ पर्यवेक्षक की सटीकता, वस्तुनिष्ठता (विज्ञान), या गति में सुधार कर सकती हैं। छवि विश्लेषण निदान और अनुसंधान दोनों के लिए महत्वपूर्ण है। कुछ उदाहरण निम्न हैं:
 * उच्च-थ्रूपुट और उच्च-निष्ठा परिमाणीकरण और उप-सेलुलर स्थानीयकरण (उच्च-सामग्री स्क्रीनिंग, साइटोहिस्टोपैथोलॉजी, बायोइमेज सूचना विज्ञान)
 * मॉर्फोमेट्रिक्स
 * नैदानिक ​​छवि विश्लेषण और विज़ुअलाइज़ेशन
 * जीवित जानवरों के सांस लेने वाले फेफड़ों में वास्तविक समय में वायु-प्रवाह पैटर्न का निर्धारण करना
 * धमनी की चोट के दौरान विकास और पुनर्प्राप्ति से वास्तविक समय की इमेजरी में रोड़ा आकार की मात्रा निर्धारित करना
 * प्रयोगशाला जानवरों की विस्तारित वीडियो रिकॉर्डिंग से व्यवहार संबंधी अवलोकन करना
 * चयापचय गतिविधि निर्धारण के लिए अवरक्त माप
 * जीन मैपिंग में क्लोन ओवरलैप का अनुमान लगाना, उदा. सुलस्टन स्कोर

उच्च-थ्रूपुट एकल कक्ष डेटा विश्लेषण
कम्प्यूटेशनल तकनीकों का उपयोग उच्च-थ्रूपुट, कम-माप वाले एकल कोशिका डेटा का विश्लेषण करने के लिए किया जाता है, जैसे कि फ़्लो साइटॉमेट्री से प्राप्त किया जाता है। इन विधियों में आम तौर पर उन कोशिकाओं की आबादी का पता लगाना शामिल होता है जो किसी विशेष रोग अवस्था या प्रायोगिक स्थिति के लिए प्रासंगिक होती हैं।

जैव विविधता सूचना विज्ञान
जैव विविधता सूचना विज्ञान जैव विविधता डेटा, जैसे टैक्सोनोमिक डेटाबेस, या माइक्रोबायोम डेटा के संग्रह और विश्लेषण से संबंधित है। ऐसे विश्लेषणों के उदाहरणों में फ़ाइलोजेनेटिक्स, आला मॉडलिंग, प्रजाति समृद्धि मानचित्रण, डीएनए बारकोडिंग, या प्रजातिवाद पहचान उपकरण शामिल हैं।

ओन्टोलॉजी और डेटा एकीकरण
जैविक ऑन्कोलॉजी नियंत्रित शब्दावली के निर्देशित चक्रीय रेखांकन हैं। वे जैविक अवधारणाओं और विवरणों के लिए श्रेणियां बनाते हैं ताकि कंप्यूटर के साथ उनका आसानी से विश्लेषण किया जा सके। जब इस प्रकार वर्गीकृत किया जाता है, तो समग्र और एकीकृत विश्लेषण से अतिरिक्त मूल्य प्राप्त करना संभव है।

ओबीओ फाउंड्री कुछ ऑन्कोलॉजी को मानकीकृत करने का प्रयास था। सबसे व्यापक में से जीन ऑन्टोलॉजी है जो जीन फ़ंक्शन का वर्णन करता है। ऐसी ऑन्कोलॉजी भी हैं जो फेनोटाइप का वर्णन करती हैं।

डेटाबेस
जैव सूचना विज्ञान अनुसंधान और अनुप्रयोगों केग लिए डेटाबेस आवश्यक हैं। डीएनए और प्रोटीन अनुक्रम, आणविक संरचना, फेनोटाइप और जैव विविधता सहित कई अलग-अलग प्रकार की जानकारी के लिए डेटाबेस मौजूद हैं। डेटाबेस में अनुभवजन्य डेटा (प्रयोगों से सीधे प्राप्त) और अनुमानित डेटा (मौजूदा डेटा के विश्लेषण से प्राप्त) दोनों शामिल हो सकते हैं। वे किसी विशेष जीव, मार्ग या रुचि के अणु के लिए विशिष्ट हो सकते हैं। वैकल्पिक रूप से, वे कई अन्य डेटाबेस से संकलित डेटा को शामिल कर सकते हैं। डेटाबेस के अलग-अलग प्रारूप, पहुंच तंत्र और सार्वजनिक या निजी हो सकते हैं।

सबसे अधिक उपयोग किए जाने वाले कुछ डेटाबेस नीचे सूचीबद्ध हैं:


 * जैविक अनुक्रम विश्लेषण में प्रयुक्त: GenBank, यूनीप्रोट
 * संरचना विश्लेषण में प्रयुक्त: प्रोटीन डेटा बैंक (पीडीबी)
 * प्रोटीन परिवार और अनुक्रम रूपांकन खोजने में उपयोग किया जाता है: इंटरप्रो, पीएफएएम
 * अगली पीढ़ी के अनुक्रमण के लिए प्रयुक्त: अनुक्रम पढ़ें पुरालेख
 * नेटवर्क विश्लेषण में प्रयुक्त: मेटाबोलिक पाथवे डेटाबेस (केईजीजी, बायोसाइक डेटाबेस संग्रह), इंटरेक्शन विश्लेषण डेटाबेस, कार्यात्मक नेटवर्क
 * सिंथेटिक आनुवंशिक सर्किट के डिजाइन में उपयोग किया जाता है: जेनोकैड

सॉफ़्टवेयर और उपकरण
जैव सूचना विज्ञान सॉफ़्टवेयर की सूची में सरल कमांड-लाइन उपकरण, अधिक जटिल ग्राफ़िकल प्रोग्राम और स्टैंडअलोन वेब-सेवाएँ शामिल हैं। वे जैव सूचना विज्ञान कंपनियों की सूची या सार्वजनिक संस्थानों द्वारा बनाए गए हैं।

ओपन-सोर्स जैव सूचना विज्ञान सॉफ्टवेयर
1980 के दशक से कई मुफ़्त और ओपन-सोर्स सॉफ़्टवेयर उपकरण अस्तित्व में हैं और बढ़ते रहे हैं। उभरते प्रकार के जैविक रीडआउट के विश्लेषण के लिए नए एल्गोरिदम की निरंतर आवश्यकता, सिलिको प्रयोगों में नवीनता की संभावना और स्वतंत्र रूप से उपलब्ध खुले कोड आधारों के संयोजन ने अनुसंधान समूहों के लिए विज्ञान के वित्त पोषण की परवाह किए बिना दोनों जैव सूचना विज्ञान में योगदान करने के अवसर पैदा किए हैं। ओपन सोर्स उपकरण अक्सर विचारों के इनक्यूबेटर या व्यावसायिक अनुप्रयोगों में समुदाय-समर्थित प्लग-इन (कंप्यूटिंग)|प्लग-इन के रूप में कार्य करते हैं। वे जैव सूचना एकीकरण की चुनौती में सहायता के लिए वास्तविक मानक और साझा ऑब्जेक्ट मॉडल भी प्रदान कर सकते हैं।

ओपन-सोर्स बायोइनफॉरमैटिक्स सॉफ्टवेयर में बायोकंडक्टर, बायोपर्ल, बायोपिथॉन, बायोजावा, बायोजेएस, बायोरूबी, बायोक्लिप्स, ईएमबीओएसएस, .NET बायो, ऑरेंज (सॉफ्टवेयर) इसके बायोइनफॉर्मेटिक्स ऐड-ऑन, अपाचे टवेर्ना, यूजीईएनई और जेनोकैड शामिल हैं।

गैर-लाभकारी ओपन बायोइन्फ़ॉर्मेटिक्स फ़ाउंडेशन और वार्षिक जैव सूचना विज्ञान ओपन सोर्स सम्मेलन ओपन-सोर्स जैव सूचना विज्ञान सॉफ्टवेयर को बढ़ावा देता है।

जैव सूचना विज्ञान में वेब सेवाएँ
क्लाइंट कंप्यूटरों को दुनिया के अन्य हिस्सों में सर्वर से एल्गोरिदम, डेटा और कंप्यूटिंग संसाधनों का उपयोग करने की अनुमति देने के लिए SOAP- और REST-आधारित इंटरफेस विकसित किए गए हैं। मुख्य लाभ यह है कि अंतिम उपयोगकर्ताओं को सॉफ़्टवेयर और डेटाबेस रखरखाव ओवरहेड्स से निपटना नहीं पड़ता है।

बुनियादी जैव सूचना विज्ञान सेवाओं को यूरोपीय जैव सूचना विज्ञान संस्थान द्वारा तीन श्रेणियों में वर्गीकृत किया गया है: अनुक्रम संरेखण सॉफ्टवेयर (अनुक्रम खोज सेवाएँ), एकाधिक अनुक्रम संरेखण (एकाधिक अनुक्रम संरेखण), और या अनुक्रम विश्लेषण (जैविक अनुक्रम विश्लेषण)। इन सेवा-अभिमुखता | सेवा-उन्मुख जैव सूचना विज्ञान संसाधनों की उपलब्धता वेब-आधारित जैव सूचना विज्ञान समाधानों की प्रयोज्यता को प्रदर्शित करती है, और एकल वेब-आधारित इंटरफ़ेस के तहत सामान्य डेटा प्रारूप के साथ स्टैंडअलोन टूल के संग्रह से लेकर एकीकृत, वितरित और विस्तार योग्य तक होती है। जैव सूचना विज्ञान वर्कफ़्लो प्रबंधन प्रणाली।

जैव सूचना विज्ञान वर्कफ़्लो प्रबंधन प्रणाली
एक जैव सूचना विज्ञान वर्कफ़्लो प्रबंधन प्रणाली वर्कफ़्लो प्रबंधन प्रणाली का विशेष रूप है जिसे विशेष रूप से जैव सूचना विज्ञान अनुप्रयोग में कम्प्यूटेशनल या डेटा हेरफेर चरणों, या वर्कफ़्लो की श्रृंखला को बनाने और निष्पादित करने के लिए डिज़ाइन किया गया है। ऐसे सिस्टम डिज़ाइन किए गए हैं
 * व्यक्तिगत अनुप्रयोग वैज्ञानिकों को अपना स्वयं का वर्कफ़्लो बनाने के लिए उपयोग में आसान वातावरण प्रदान करें,
 * वैज्ञानिकों को उनके वर्कफ़्लो निष्पादित करने और वास्तविक समय में उनके परिणाम देखने में सक्षम बनाने के लिए इंटरैक्टिव उपकरण प्रदान करें,
 * वैज्ञानिकों के बीच वर्कफ़्लो को साझा करने और पुन: उपयोग करने की प्रक्रिया को सरल बनाएं, और
 * वैज्ञानिकों को वर्कफ़्लो निष्पादन परिणामों की उत्पत्ति और वर्कफ़्लो निर्माण चरणों को ट्रैक करने में सक्षम बनाता है।

यह सेवा देने वाले कुछ प्लेटफ़ॉर्म: गैलेक्सी (कम्प्यूटेशनल जीवविज्ञान), केप्लर वैज्ञानिक कार्यप्रवाह प्रणाली, अपाचे टवेर्ना, यूजीईएनई, एंडुरिल (वर्कफ़्लो इंजन), उच्च-प्रदर्शन एकीकृत वर्चुअल वातावरण।

बायोकंप्यूट और बायोकंप्यूट ऑब्जेक्ट
2014 में, खाद्य एवं औषधि प्रशासन ने जैव सूचना विज्ञान में प्रतिलिपि प्रस्तुत करने योग्यता पर चर्चा करने के लिए राष्ट्रीय स्वास्थ्य संस्थान बेथेस्डा परिसर में आयोजित सम्मेलन को प्रायोजित किया। अगले तीन वर्षों में, हितधारकों का संघ नियमित रूप से इस बात पर चर्चा करने के लिए मिला कि बायोकंप्यूट प्रतिमान क्या बनेगा। इन हितधारकों में सरकार, उद्योग और शैक्षणिक संस्थाओं के प्रतिनिधि शामिल थे। सत्र के नेताओं ने एफडीए और एनआईएच संस्थानों और केंद्रों की कई शाखाओं, ह्यूमन वैरिओम प्रोजेक्ट और चिकित्सा सूचना विज्ञान के लिए यूरोपीय संघ सहित गैर-लाभकारी संस्थाओं और स्टैनफोर्ड विश्वविद्यालय, न्यूयॉर्क जीनोम सेंटर और जॉर्ज वाशिंगटन विश्वविद्यालय सहित अनुसंधान संस्थानों का प्रतिनिधित्व किया।

यह निर्णय लिया गया कि बायोकंप्यूट प्रतिमान डिजिटल 'लैब नोटबुक' के रूप में होगा जो जैव सूचना विज्ञान प्रोटोकॉल की प्रतिलिपि प्रस्तुत करने योग्यता, प्रतिकृति, समीक्षा और पुन: उपयोग की अनुमति देता है। यह समूहों के बीच विचारों के आदान-प्रदान को आगे बढ़ाते हुए सामान्य कार्मिक प्रवाह के दौरान अनुसंधान समूह के भीतर अधिक निरंतरता को सक्षम करने के लिए प्रस्तावित किया गया था। यूएस एफडीए ने इस काम को वित्त पोषित किया ताकि पाइपलाइनों की जानकारी उनके नियामक कर्मचारियों के लिए अधिक पारदर्शी और सुलभ हो सके। 2016 में, समूह ने बेथेस्डा में NIH में पुनर्गठित किया और BioCompute प्रतिमान के उदाहरण, BioCompute ऑब्जेक्ट की क्षमता पर चर्चा की। इस कार्य को मानक परीक्षण उपयोग दस्तावेज़ और बायोरेक्सिव पर अपलोड किए गए प्रीप्रिंट पेपर दोनों के रूप में कॉपी किया गया था। BioCompute ऑब्जेक्ट JSON-ized रिकॉर्ड को कर्मचारियों, सहयोगियों और नियामकों के बीच साझा करने की अनुमति देता है।

शिक्षा मंच
जैव सूचना विज्ञान को कई विश्वविद्यालयों में न केवल व्यक्तिगत मास्टर डिग्री के रूप में पढ़ाया जाता है। जैव सूचना विज्ञान की कम्प्यूटेशनल प्रकृति इसे शैक्षिक प्रौद्योगिकी | कंप्यूटर-सहायता प्राप्त और ऑनलाइन सीखने के लिए उधार देती है। जैव सूचना विज्ञान अवधारणाओं और विधियों को सिखाने के लिए डिज़ाइन किए गए सॉफ़्टवेयर प्लेटफ़ॉर्म में रोज़लिंड (शिक्षा मंच) और स्विस इंस्टीट्यूट ऑफ़ बायोइनफ़ॉर्मेटिक्स ट्रेनिंग पोर्टल के माध्यम से पेश किए जाने वाले ऑनलाइन पाठ्यक्रम शामिल हैं। कनाडाई जैव सूचना विज्ञान कार्यशालाएँ क्रिएटिव कॉमन्स लाइसेंस के तहत अपनी वेबसाइट पर प्रशिक्षण कार्यशालाओं से वीडियो और स्लाइड प्रदान करती है। 4273π प्रोजेक्ट या 4273pi प्रोजेक्ट यह मुफ़्त में मुक्त स्रोत शैक्षिक सामग्री भी प्रदान करता है। यह पाठ्यक्रम कम लागत वाले रास्पबेरी पाई कंप्यूटर पर चलता है और इसका उपयोग वयस्कों और स्कूली विद्यार्थियों को पढ़ाने के लिए किया गया है।  4283 को शिक्षाविदों और अनुसंधान कर्मचारियों के संघ द्वारा सक्रिय रूप से विकसित किया गया है, जिन्होंने रास्पबेरी पाई कंप्यूटर और 4283π ऑपरेटिंग सिस्टम का उपयोग करके अनुसंधान स्तर की जैव सूचना विज्ञान चलाया है। बड़े पैमाने पर खुले ऑनलाइन पाठ्यक्रम प्लेटफ़ॉर्म जैव सूचना विज्ञान और संबंधित विषयों में ऑनलाइन प्रमाणन भी प्रदान करते हैं, जिसमें Coursera के जैव सूचना विज्ञान विशेषज्ञता (कैलिफोर्निया विश्वविद्यालय, सैन डिएगो) और जीनोमिक डेटा विज्ञान विशेषज्ञता (जॉन्स हॉपकिन्स विश्वविद्यालय) के साथ-साथ एडएक्स के जीवन विज्ञान एक्ससीरीज़ (हार्वर्ड विश्वविद्यालय) के लिए डेटा विश्लेषण शामिल हैं। ).

सम्मेलन
ऐसे कई बड़े सम्मेलन हैं जो जैव सूचना विज्ञान से संबंधित हैं। सबसे उल्लेखनीय उदाहरणों में से कुछ हैं आणविक जीवविज्ञान के लिए इंटेलिजेंट सिस्टम (आईएसएमबी), कम्प्यूटेशनल जीवविज्ञान पर यूरोपीय सम्मेलन (ईसीसीबी), और कम्प्यूटेशनल आणविक जीवविज्ञान में अनुसंधान (आरईसीओएमबी)।

यह भी देखें
• Biodiversity informatics

• Bioinformatics companies

• Computational biology

• Computational biomodeling

• Computational genomics

• Cyberbiosecurity

• Functional genomics

• Health informatics

• International Society for Computational Biology

• Jumping library

• List of bioinformatics institutions

• List of open-source bioinformatics software

• List of bioinformatics journals

• Metabolomics

• Nucleic acid sequence

• Phylogenetics

• Proteomics

• Gene Disease Database

अग्रिम पठन

 * Sehgal et al. : Structural, phylogenetic and docking studies of D-amino acid oxidase activator(DAOA ), a candidate schizophrenia gene. Theoretical Biology and Medical Modelling 2013 10 :3.
 * Achuthsankar S Nair Computational Biology & Bioinformatics – A gentle Overview, Communications of Computer Society of India, January 2007
 * Aluru, Srinivas, ed. Handbook of Computational Molecular Biology. Chapman & Hall/Crc, 2006. ISBN 1-58488-406-1 (Chapman & Hall/Crc Computer and Information Science Series)
 * Baldi, P and Brunak, S, Bioinformatics: The Machine Learning Approach, 2nd edition. MIT Press, 2001. ISBN 0-262-02506-X
 * Barnes, M.R. and Gray, I.C., eds., Bioinformatics for Geneticists, first edition. Wiley, 2003. ISBN 0-470-84394-2
 * Baxevanis, A.D. and Ouellette, B.F.F., eds., Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, third edition. Wiley, 2005. ISBN 0-471-47878-4
 * Baxevanis, A.D., Petsko, G.A., Stein, L.D., and Stormo, G.D., eds., Current Protocols in Bioinformatics. Wiley, 2007. ISBN 0-471-25093-7
 * Cristianini, N. and Hahn, M. Introduction to Computational Genomics, Cambridge University Press, 2006. (ISBN 9780521671910 |ISBN 0-521-67191-4)
 * Durbin, R., S. Eddy, A. Krogh and G. Mitchison, Biological sequence analysis. Cambridge University Press, 1998. ISBN 0-521-62971-3
 * Keedwell, E., Intelligent Bioinformatics: The Application of Artificial Intelligence Techniques to Bioinformatics Problems. Wiley, 2005. ISBN 0-470-02175-6
 * Kohane, et al. Microarrays for an Integrative Genomics. The MIT Press, 2002. ISBN 0-262-11271-X
 * Lund, O. et al. Immunological Bioinformatics. The MIT Press, 2005. ISBN 0-262-12280-4
 * Pachter, Lior and Sturmfels, Bernd. "Algebraic Statistics for Computational Biology" Cambridge University Press, 2005. ISBN 0-521-85700-7
 * Pevzner, Pavel A. Computational Molecular Biology: An Algorithmic Approach The MIT Press, 2000. ISBN 0-262-16197-4
 * Soinov, L. Bioinformatics and Pattern Recognition Come Together Journal of Pattern Recognition Research (JPRR ), Vol 1 (1) 2006 p. 37–41
 * Stevens, Hallam, Life Out of Sequence: A Data-Driven History of Bioinformatics, Chicago: The University of Chicago Press, 2013, ISBN 9780226080208
 * Tisdall, James. "Beginning Perl for Bioinformatics" O'Reilly, 2001. ISBN 0-596-00080-4
 * Catalyzing Inquiry at the Interface of Computing and Biology (2005) CSTB report
 * Calculating the Secrets of Life: Contributions of the Mathematical Sciences and computing to Molecular Biology (1995)
 * Foundations of Computational and Systems Biology MIT Course
 * Computational Biology: Genomes, Networks, Evolution Free MIT Course
 * Computational Biology: Genomes, Networks, Evolution Free MIT Course

बाहरी संबंध



 * Bioinformatics Resource Portal (SIB)