संरक्षित अनुक्रम

विकासवादी जीव विज्ञान में, संरक्षित अनुक्रम न्यूक्लिक अम्ल (डीएनए और आरएनए) या प्रजातियों में प्रोटीन (ऑर्थोलॉगस अनुक्रम) या जीनोम के अंदर (पैरालॉगस अनुक्रम), या दाता और रिसेप्टर टैक्सा (ज़ेनोलॉगस अनुक्रम) के मध्य समान या समान अनुक्रम होते हैं। संरक्षण प्रदर्शित करता है कि प्राकृतिक चयन द्वारा अनुक्रम बनाए रखा गया है।

अत्यधिक संरक्षित अनुक्रम वह है जो फ़ाइलोजेनेटिक पेड़ से लेकर अब तक भूवैज्ञानिक समय में भी अपेक्षाकृत अपरिवर्तित रहा है। अत्यधिक संरक्षित अनुक्रमों के उदाहरणों में जीवन के सभी क्षेत्रों में उपस्थित राइबोसोम के आरएनए घटक, यूकेरियोट्स में व्यापक होमोबॉक्स अनुक्रम और बैक्टीरिया में टीएमआरएनए सम्मिलित हैं। अनुक्रम संरक्षण का अध्ययन जीनोमिक्स, प्रोटिओमिक्स, विकासवादी जीव विज्ञान, फाइलोजेनेटिक्स, जैव सूचना विज्ञान और गणित के क्षेत्रों के साथ ओवरलैप होता है।

इतिहास
आनुवंशिकता में डीएनए की भूमिका का शोध, और 1949 में फ्रेडरिक सिंगर द्वारा पशु इंसुलिन के मध्य भिन्नता के अवलोकन ने, प्रारंभिक आणविक जीवविज्ञानियों को आणविक दृष्टिकोण से वर्गीकरण का अध्ययन करने के लिए प्रेरित किया। 1960 के दशक के अध्ययनों में हीमोग्लोबिन और साइटोक्रोम सी जैसे ज्ञात ऑर्थोलॉगस प्रोटीन के मध्य समानता के लिए को मापने डीएनए संकरण और प्रोटीन क्रॉस-रिएक्टिविटी प्रौद्योगिकी का उपयोग किया गया था।  1965 में, एमिल ज़करकांडल और लिनुस पॉलिंग ने आणविक घड़ी की अवधारणा प्रस्तुत की, जिसमें प्रस्ताव दिया गया कि अमीनो अम्ल प्रतिस्थापन की स्थिर दरों का उपयोग दो जीवों के अपसारी विकास के पश्चात से समय का अनुमान लगाने के लिए किया जा सकता है। जबकि प्रारंभिक फ़ाइलोजेनीज़ जीवाश्म रिकॉर्ड से निकटता से युग्मित होते थे, कुछ जीन भिन्न-भिन्न दरों पर विकसित हुए थे, जिससे आणविक विकास के सिद्धांतों का विकास हुआ।  मार्गरेट डेहॉफ की 1966 में फेरेडॉक्सिन अनुक्रमों की तुलना से ज्ञात हुआ कि प्राकृतिक चयन जीवन के लिए आवश्यक प्रोटीन अनुक्रमों को संरक्षित और अनुकूलित करने का कार्य करता है।

क्रियाविधि
कई पीढ़ियों से, विकासवादी वंश के जीनोम में न्यूक्लिक अम्ल अनुक्रम यादृच्छिक उत्परिवर्तन और विलोप के कारण समय के साथ धीरे-धीरे परिवर्तित हो सकते हैं। क्रोमोसोमल पुनर्व्यवस्था के कारण अनुक्रम भी पुनः संयोजित या या नष्ट हो सकते हैं। संरक्षित अनुक्रम वे अनुक्रम हैं जो ऐसी शक्तियों के अतिरिक्त जीनोम में बने रहते हैं, और पृष्ठभूमि उत्परिवर्तन दर की तुलना में उत्परिवर्तन की धीमी दर होती है।

कोडिंग और गैर-कोडिंग न्यूक्लिक अम्ल अनुक्रमों में संरक्षण हो सकता है। माना जाता है कि अत्यधिक संरक्षित डीएनए अनुक्रमों को कार्यात्मक महत्व होता है, चूँकि कई उच्च संरक्षित गैर-कोडिंग डीएनए अनुक्रमों की भूमिका को कम समझा जाता है। किसी अनुक्रम को किस सीमा तक संरक्षित किया जाता है, यह भिन्न-भिन्न विकासवादी दबाव, उत्परिवर्तन के लिए इसकी मजबूती, जनसंख्या आनुवंशिकी और आनुवंशिक बहाव से प्रभावित हो सकता है। कई कार्यात्मक अनुक्रम भी मॉड्यूलर  होते हैं, जिसमें ऐसे क्षेत्र सम्मिलित हैं जो स्वतंत्र विकासवादी दबाव के अधीन हो सकते हैं, जैसे कि प्रोटीन डोमेन हैं।

कोडिंग अनुक्रम
कोडिंग अनुक्रमों में, न्यूक्लिक अम्ल और अमीनो अम्ल अनुक्रम को भिन्न-भिन्न विस्तार तक संरक्षित किया जा सकता है, क्योंकि आनुवंशिक कोड की विकृति का अर्थ है कि कोडिंग अनुक्रम में समानार्थी प्रतिस्थापन इसके प्रोटीन उत्पाद के अमीनो अम्ल अनुक्रम को प्रभावित नहीं करता है।

प्रोटीन या डोमेन की संरचना या कार्य को बनाए रखने के लिए अमीनो अम्ल अनुक्रमों को संरक्षित किया जा सकता है। संरक्षित प्रोटीन अल्प अमीनो अम्ल प्रतिस्थापन से निकलते हैं, या समान जैव रासायनिक गुणों वाले अमीनो अम्ल को प्रतिस्थापित करने की संभावना अधिक होती है। अनुक्रम के अंदर, अमीनो अम्ल जो फोल्डिंग, संरचनात्मक स्थिरता के लिए महत्वपूर्ण हैं, या जो बाध्यकारी साइट बनाते हैं, अधिक उच्च संरक्षित हो सकते हैं।

प्रोटीन कोडिंग जीन के न्यूक्लिक अम्ल अनुक्रम को अन्य चयनात्मक दबावों द्वारा भी संरक्षित किया जा सकता है। कुछ जीवों में कोडन उपयोग पूर्वाग्रह अनुक्रम में समानार्थक उत्परिवर्तन के प्रकारों को प्रतिबंधित कर सकता है। कोडिंग जीन के एमआरएनए में द्वितीयक संरचना का कारण बनने वाले न्यूक्लिक अम्ल अनुक्रमों का चयन किया जा सकता है, क्योंकि कुछ संरचनाएं अनुवाद को नकारात्मक रूप से प्रभावित कर सकती हैं, या संरक्षित हो सकती हैं जहां एमआरएनए कार्यात्मक गैर-कोडिंग आरएनए के रूप में भी कार्य करता है।

गैर-कोडिंग
जीन विनियमन के लिए महत्वपूर्ण गैर-कोडिंग अनुक्रम, जैसे राइबोसोम और प्रतिलेखन कारकों के बंधन या मान्यता स्थल, को जीनोम के अंदर संरक्षित किया जा सकता है। उदाहरण के लिए, संरक्षित जीन या ऑपेरॉन के प्रवर्तक को भी संरक्षित किया जा सकता है। प्रोटीन के जैसे, न्यूक्लिक अम्ल जो गैर-कोडिंग आरएनए (एनसीआरएनए) की संरचना और कार्य के लिए महत्वपूर्ण हैं, चूँकि, प्रोटीन-कोडिंग अनुक्रमों की तुलना में एनसीआरएनए में अनुक्रम संरक्षण सामान्यतः खराब होता है, और संरचना या कार्य में योगदान देने वाले आधार जोड़े को प्रायः इसके अतिरिक्त संरक्षित होते हैं।

पहचान
संरक्षित अनुक्रमों को सामान्यतः अनुक्रम संरेखण के आधार पर जैव सूचना विज्ञान दृष्टिकोणों द्वारा पहचाना जाता है। उच्च-थ्रूपुट डीएनए अनुक्रमण और प्रोटीन मास स्पेक्ट्रोमेट्री ने 2000 के दशक के प्रारंभ से तुलना के लिए प्रोटीन अनुक्रमों और संपूर्ण जीनोम की उपलब्धता में अधिक वृद्धि की है।

समरूपता शोध
ब्लास्ट, एचएमएमईआर, ऑर्थोलॉगआर और इनफर्नल जैसे उपकरणों का उपयोग करते हुए, होमोलॉजी शोध द्वारा संरक्षित अनुक्रमों की पहचान की जा सकती है। होमोलॉजी शोध उपकरण इनपुट के रूप में व्यक्तिगत न्यूक्लिक अम्ल या प्रोटीन अनुक्रम को ले सकते हैं, या ज्ञात संबंधित अनुक्रमों के कई अनुक्रम संरेखण से उत्पन्न सांख्यिकीय मॉडल का उपयोग कर सकते हैं। सांख्यिकीय मॉडल जैसे प्रोफाइल-एचएमएम, और आरएनए सहप्रसरण मॉडल जो संरचनात्मक सूचना भी सम्मिलित करते हैं, अधिक दूर से संबंधित अनुक्रमों का शोध करते समय सहायक हो सकते हैं। तब इनपुट अनुक्रमों को संबंधित व्यक्तियों या अन्य प्रजातियों के अनुक्रमों के डेटाबेस के विरुद्ध संरेखित किया जाता है। परिणामी संरेखण को युग्मित करने वाले अमीनो अम्ल या आधारों की संख्या और संरेखण द्वारा उत्पन्न अंतराल या विलोपन की संख्या के आधार पर स्कोर किया जाता है। स्वीकार्य रूढ़िवादी प्रतिस्थापन की पहचान PAM और BLOSUM जैसे प्रतिस्थापन मेट्रिसेस का उपयोग करके की जा सकती है। उच्च स्कोरिंग संरेखण को सजातीय अनुक्रमों से माना जाता है। अनुक्रम के संरक्षण को व्यापक फ़िलेजेनेटिक रेंज में अत्यधिक समान समरूपों को ज्ञात करके किया जा सकता है।

एकाधिक अनुक्रम संरेखण
संरक्षित अनुक्रमों को देखने के लिए एकाधिक अनुक्रम संरेखण का उपयोग किया जा सकता है। क्लस्टल प्रारूप में संरेखण के संरक्षित स्तंभों को एनोटेट करने के लिए सादा-पाठ कुंजी सम्मिलित है, जो संरक्षित अनुक्रम (*), रूढ़िवादी उत्परिवर्तन, अर्ध-रूढ़िवादी उत्परिवर्तन (।), और गैर-रूढ़िवादी उत्परिवर्तन  को दर्शाता है। अनुक्रम लोगो ऊंचाई से संरेखण में प्रत्येक बिंदु पर वर्णों के अनुपात का प्रतिनिधित्व करके संरक्षित अनुक्रम भी दिखा सकते हैं।

जीनोम संरेखण
संपूर्ण जीनोम संरेखण (डब्ल्यूजीए) का उपयोग प्रजातियों में अत्यधिक संरक्षित क्षेत्रों की पहचान करने के लिए भी किया जा सकता है। वर्तमान में पुनर्व्यवस्था, दोहराए जाने वाले क्षेत्रों और कई यूकेरियोटिक जीनोम के बड़े आकार से निपटने की कम्प्यूटेशनल जटिलता के कारण डब्ल्यूजीए उपकरणों की त्रुटिहीनता और मापनीयता सीमित है। चूँकि, 30 या अधिक निकट संबंधी जीवाणुओं (प्रोकैरियोट्स) के डब्ल्यूजीए अब तीव्रता से संभव हो रहे हैं।

स्कोरिंग प्रणाली
अन्य दृष्टिकोण सांख्यिकीय परीक्षणों के आधार पर संरक्षण के मापन का उपयोग करते हैं जो उन अनुक्रमों की पहचान करने का प्रयास करते हैं जो अपेक्षित पृष्ठभूमि (तटस्थ) उत्परिवर्तन दर से भिन्न रूप से उत्परिवर्तित होते हैं।

जीईआरपी (जीनोमिक इवोल्यूशनरी रेट प्रोफाइलिंग) रूपरेखा प्रजातियों में आनुवंशिक अनुक्रमों का संरक्षण करती है। यह दृष्टिकोण कई अनुक्रम संरेखण से प्रजातियों के समूह में तटस्थ उत्परिवर्तन की दर का अनुमान लगाता है, और फिर अनुक्रम के उन क्षेत्रों की पहचान करता है जो अपेक्षा से कम उत्परिवर्तन प्रदर्शित करते हैं। इन क्षेत्रों को तब देखी गई उत्परिवर्तन दर और अपेक्षित पृष्ठभूमि उत्परिवर्तन दर के मध्य अंतर के आधार पर अंक दिए जाते हैं। उच्च जीईआरपी स्कोर तब अत्यधिक संरक्षित अनुक्रम को प्रदर्शित करता है।

सूची (लोकल आइडेंटिटी एंड शेयर्ड टैक्सा) इस धारणा पर आधारित है कि दूर से संबंधित प्रजातियों की तुलना में संरक्षण का आकलन करते समय मानव से निकटता से संबंधित प्रजातियों में देखी गई विविधताएं अधिक महत्वपूर्ण हैं। इस प्रकार, सूची कई अनुक्रम संरेखण (एमएसए) में प्रासंगिक अनुक्रमों की पहचान करने के लिए प्रत्येक स्थिति के निकट स्थानीय संरेखण पहचान का उपयोग करता है और फिर यह मानव के लिए इन अनुक्रमों की वर्गीकरण दूरी के आधार पर संरक्षण का अनुमान लगाता है। अन्य उपकरणों के विपरीत, सूची एमएसए में विविधताओं की गिनती/आवृत्ति पर ध्यान नहीं देता है।

अमीनोड सजातीय प्रोटीन में परिवर्तन का विश्लेषण करने के लिए फ़ाइलोजेनेटिक विश्लेषण के साथ कई संरेखण को जोड़ता है और प्लॉट का उत्पादन करता है जो विकासवादी परिवर्तनों की स्थानीय दरों को प्रदर्शित करता है। यह दृष्टिकोण प्रोटीन में क्रमिक रूप से बाधित क्षेत्रों की पहचान करता है, जो ऐसे खंड हैं जो चयन को शुद्ध करने के अधीन हैं और सामान्यतः सामान्य प्रोटीन कार्य के लिए महत्वपूर्ण हैं।

PhyloP और PhyloHMM जैसे अन्य दृष्टिकोण प्रतिस्थापन दरों की संभाव्यता वितरण की तुलना करने के लिए सांख्यिकीय फाइलोजेनेटिक विधियों को सम्मिलित करते हैं, जो संरक्षण और त्वरित उत्परिवर्तन दोनों को ज्ञात करने की अनुमति देता है। सर्वप्रथम, फ़ाइलोजेनेटिक पेड़ के आधार पर, एकाधिक अनुक्रम संरेखण में एक कॉलम के लिए होने वाले अपेक्षित प्रतिस्थापनों की संख्या से पृष्ठभूमि संभाव्यता वितरण उत्पन्न होता है। रुचि की प्रजातियों के मध्य अनुमानित विकासवादी संबंधों का उपयोग किसी भी प्रतिस्थापन के महत्व की गणना करने के लिए किया जाता है (अर्थात दो निकट संबंधी प्रजातियों के मध्य प्रतिस्थापन दूर से संबंधित लोगों की तुलना में कम होने की संभावना हो सकती है, और इसलिए अधिक महत्वपूर्ण है)। संरक्षण को ज्ञात करने के लिए, एकाधिक अनुक्रम संरेखण के उपसमूह के लिए संभाव्यता वितरण की गणना की जाती है, संभावना-अनुपात परीक्षण या स्कोर परीक्षण जैसे सांख्यिकीय परीक्षण का उपयोग करके पृष्ठभूमि वितरण की तुलना की जाती है। दो वितरणों की तुलना करने से उत्पन्न P-मानों का उपयोग संरक्षित क्षेत्रों की पहचान करने के लिए किया जाता है। PhyloHMM संभाव्यता वितरण उत्पन्न करने के लिए छिपे हुए मार्कोव मॉडल का उपयोग करता है। PhyloP सॉफ़्टवेयर पैकेज संभावना-अनुपात परीक्षण या स्कोर परीक्षण के साथ-साथ जीईआरपी-जैसी स्कोरिंग प्रणाली का उपयोग करके संभाव्यता वितरण की तुलना करता है।

अति-संरक्षित तत्व
अति-संरक्षित तत्व या यूसीई ऐसे अनुक्रम हैं जो कई वर्गीकरण समूहों में अत्यधिक समान या समान हैं। इनका सर्वप्रथम कशेरुकियों जंतुओं में शोध किया गया था, और पश्चात में व्यापक रूप से भिन्न टैक्सा के अंदर पहचाने गए हैं। जबकि यूसीई की उत्पत्ति और कार्य को कम समझा गया है, उनका उपयोग एमनियोट्स, कीड़ों, और जानवरों और पौधों के मध्य गहरे समय के विचलन का परीक्षण करने के लिए किया गया है।

सार्वभौमिक रूप से संरक्षित जीन
सबसे अधिक संरक्षित जीन वे हैं जो सभी जीवों में पाए जा सकते हैं। इनमें मुख्य रूप से प्रतिलेखन और अनुवाद के लिए आवश्यक एनसीआरएनए और प्रोटीन सम्मिलित हैं, जिन्हें सभी जीवन के अंतिम सार्वभौमिक सामान्य पूर्वज से संरक्षित माना जाता है।

जिन जीनों या जीन परिवारों को सार्वभौमिक रूप से संरक्षित पाया गया है उनमें जीटीपी-बाध्यकारी बढ़ाव कारक परिवार, मेथियोनीन एमिनोपेप्टिडेज़ 2, सेरीन हाइड्रोक्सीमिथाइलट्रांसफेरेज़ और एटीपी ट्रांसपोर्टर सम्मिलित हैं। ट्रांसक्रिप्शन मशीनरी के घटक, जैसे कि आरएनए पोलीमरेज़ और हेलिकेज़, और अनुवाद मशीनरी, जैसे राइबोसोमल आरएनए, टीआरएनए और राइबोसोमल प्रोटीन भी सार्वभौमिक रूप से संरक्षित हैं।

फ़ाइलोजेनेटिक्स और वर्गीकरण
संरक्षित अनुक्रमों के समूह का उपयोग प्रायः फाइलोजेनेटिक पेड़ों को उत्पन्न करने के लिए किया जाता है, क्योंकि यह माना जा सकता है कि समान अनुक्रम वाले जीव निकट से संबंधित हैं। अध्ययन के वर्गीकरण सीमा के आधार पर अनुक्रमों का चयन भिन्न हो सकता है। उदाहरण के लिए, सबसे उच्च संरक्षित जीन जैसे कि 16एस आरएनए और अन्य राइबोसोमल अनुक्रम, गहरे फ़ाइलोजेनेटिक संबंधों के पुनर्निर्माण और मेटागेनोमिक्स अध्ययन में बैक्टीरियल फ़ाइला की पहचान करने के लिए उपयोगी होते हैं। अनुक्रम जो क्लेड के अंदर संरक्षित होते हैं किन्तु कुछ उत्परिवर्तन से निकलते हैं, जैसे हाउसकीपिंग जीन, का उपयोग प्रजातियों के संबंधों का अध्ययन करने के लिए किया जा सकता है।   आंतरिक ट्रांसक्राइब्ड स्पेसर (आईटीएस) क्षेत्र, जो संरक्षित आरआरएनए जीनों के मध्य की दूरी के लिए आवश्यक है, किन्तु तीव्रता से विकसित होता है, सामान्यतः कवक और तीव्रता से विकसित होने वाले बैक्टीरिया के उपभेदों को वर्गीकृत करने के लिए उपयोग किया जाता है।

चिकित्सा अनुसंधान
चूंकि अत्यधिक संरक्षित अनुक्रमों में प्रायः महत्वपूर्ण जैविक कार्य होते हैं, वे आनुवंशिक रोगों के कारण की पहचान करने के लिए प्रारंभिक बिंदु के रूप में उपयोगी हो सकते हैं। कई जन्मजात चयापचय संबंधी विकार और लाइसोसोमल भंडारण रोग व्यक्तिगत संरक्षित जीन में परिवर्तन का परिणाम होते हैं, जिसके परिणामस्वरूप विलुप्त या दोषपूर्ण एंजाइम होते हैं जो रोग के लक्षणों के अंतर्निहित कारण होते हैं। आनुवंशिक रोगों की भविष्यवाणी मनुष्यों और चूहों या फल मक्खियों जैसे प्रयोगशाला जीवों के मध्य संरक्षित अनुक्रमों की पहचान करके, और इन जीनों के नॉकआउट के प्रभावों का अध्ययन करके की जा सकती है।  जीनोम-वाइड एसोसिएशन अध्ययन का उपयोग बीमारी या स्वास्थ्य परिणामों से जुड़े संरक्षित अनुक्रमों में भिन्नता की पहचान करने के लिए भी किया जा सकता है। अल्जाइमर रोग में दो दर्जन से अधिक नवीन संभावित संवेदनशीलता लोकी का शोध किया गया था।

कार्यात्मक एनोटेशन
संरक्षित अनुक्रमों की पहचान का उपयोग जीन जैसे कार्यात्मक अनुक्रमों के शोध और भविष्यवाणी करने के लिए किया जा सकता है। किसी ज्ञात कार्य के साथ संरक्षित अनुक्रम, जैसे कि प्रोटीन डोमेन, का उपयोग किसी अनुक्रम के कार्य की भविष्यवाणी करने के लिए भी किया जा सकता है। Pfam और संरक्षित डोमेन डेटाबेस जैसे संरक्षित प्रोटीन डोमेन के डेटाबेस का उपयोग पूर्वानुमानित प्रोटीन कोडिंग जीन में कार्यात्मक डोमेन को एनोटेट करने के लिए किया जा सकता है।

यह भी देखें

 * विकासवादी विकास जीव विज्ञान
 * एनएपीपी (डेटाबेस)
 * पृथक्करण स्थल
 * अनुक्रम संरेखण
 * अनुक्रम संरेखण सॉफ्टवेयर
 * आधार
 * अति-संरक्षित तत्व