संरचनात्मक संरेखण

From Vigyanwiki
मनुष्यों और मक्खी ड्रोसोफिला मेलानोगास्टर से थिओरेडॉक्सिन का संरचनात्मक संरेखण। प्रोटीन को रिबन के रूप में दिखाया गया है, जिसमें मानव प्रोटीन लाल रंग में और मक्खी प्रोटीन पीले रंग में दिखाया गया है। पीडीबी 3TRX और 1XWC से उत्पन्न।

संरचनात्मक संरेखण उनके आकार और त्रि-आयामी तृतीयक संरचना के आधार पर दो या दो से अधिक बहुलक संरचनाओं के बीच अनुक्रम समरूपता स्थापित करने का प्रयास करता है। यह प्रक्रिया सामान्यतः प्रोटीन तृतीयक संरचनाओं पर लागू होती है लेकिन इसका उपयोग बड़े आरएनए अणुओं के लिए भी किया जा सकता है। सरल संरचनात्मक सुपरपोजिशन के विपरीत, जहां दो संरचनाओं के कम से कम कुछ समकक्ष अवशेष ज्ञात होते हैं, संरचनात्मक संरेखण के लिए समकक्ष स्थितियों के किसी प्राथमिक ज्ञान की आवश्यकता नहीं होती है। कम अनुक्रम समानता वाले प्रोटीन की तुलना के लिए संरचनात्मक संरेखण एक मूल्यवान उपकरण है, जहां मानक अनुक्रम संरेखण तकनीकों द्वारा प्रोटीन के बीच विकासवादी संबंधों का आसानी से पता नहीं लगाया जा सकता है। इसलिए संरचनात्मक संरेखण का उपयोग उन प्रोटीनों के बीच विकासवादी संबंधों को दर्शाने के लिए किया जा सकता है जो बहुत कम सामान्य अनुक्रम साझा करते हैं। हालाँकि, साझा विकासवादी वंशावली के साक्ष्य के रूप में परिणामों का उपयोग करते समय सावधानी बरती जानी चाहिए क्योंकि अभिसरण विकास के संभावित जटिल प्रभाव जिसके द्वारा कई असंबंधित एमिनो एसिड अनुक्रम एक सामान्य तृतीयक संरचना पर एकत्रित होते हैं।

संरचनात्मक संरेखण दो अनुक्रमों या एकाधिक अनुक्रम संरेखण की तुलना कर सकते हैं। क्योंकि ये संरेखण सभी क्वेरी अनुक्रमों की त्रि-आयामी अनुरूपताओं के बारे में जानकारी पर निर्भर करते हैं, विधि का उपयोग केवल उन अनुक्रमों पर किया जा सकता है जहां ये संरचनाएं ज्ञात हैं। ये सामान्यतःएक्स - रे क्रिस्टलोग्राफी या एनएमआर स्पेक्ट्रोस्कोपी द्वारा पाए जाते हैं। प्रोटीन संरचना भविष्यवाणी विधियों द्वारा निर्मित संरचनाओं पर संरचनात्मक संरेखण करना संभव है। दरअसल, ऐसी भविष्यवाणियों के मूल्यांकन के लिए प्रायः मॉडल की गुणवत्ता का आकलन करने के लिए मॉडल और वास्तविक ज्ञात संरचना के बीच एक संरचनात्मक संरेखण की आवश्यकता होती है।[1]संरचनात्मक जीनोमिक्स और प्रोटिओमिक्स प्रयासों से डेटा का विश्लेषण करने में संरचनात्मक संरेखण विशेष रूप से उपयोगी होते हैं, और उन्हें विशुद्ध रूप से अनुक्रम-आधारित जैव सूचना विज्ञान विधियों द्वारा उत्पादित संरेखण का मूल्यांकन करने के लिए तुलना बिंदु के रूप में उपयोग किया जा सकता है।[2][3][4]

संरचनात्मक संरेखण के आउटपुट परमाणु निर्देशांक का एक सुपरपोजिशन और संरचनाओं के बीच न्यूनतम मूल माध्य वर्ग विचलन (रूट माध्य वर्ग विचलन (जैव सूचना विज्ञान)) हैं। दो संरेखित संरचनाओं का आरएमएसडी एक दूसरे से उनके विचलन को इंगित करता है। एक या अधिक इनपुट संरचनाओं के भीतर कई प्रोटीन डोमेन के अस्तित्व से संरचनात्मक संरेखण जटिल हो सकता है, क्योंकि संरेखित होने वाली दो संरचनाओं के बीच डोमेन के सापेक्ष अभिविन्यास में परिवर्तन आरएमएसडी को कृत्रिम रूप से बढ़ा सकता है।

संरचनात्मक संरेखण द्वारा उत्पादित डेटा

एक सफल संरचनात्मक संरेखण से उत्पन्न न्यूनतम जानकारी अवशेषों का एक सेट है जिसे संरचनाओं के बीच समकक्ष माना जाता है। समतुल्यता के इस सेट का उपयोग सामान्यतः प्रत्येक इनपुट संरचना के लिए त्रि-आयामी निर्देशांक को सुपरपोज़ करने के लिए किया जाता है। (ध्यान दें कि एक इनपुट तत्व को संदर्भ के रूप में तय किया जा सकता है और इसलिए इसके सुपरपोज़्ड निर्देशांक नहीं बदलते हैं।) फिट संरचनाओं का उपयोग पारस्परिक आरएमएसडी मूल्यों की गणना करने के लिए किया जा सकता है, साथ ही संरचनात्मक समानता के अन्य अधिक परिष्कृत उपायों जैसे कि वैश्विक दूरी परीक्षण (जीडीटी,[5]CASP (सीएएसपी) में प्रयुक्त मीट्रिक)। संरचनात्मक संरेखण का तात्पर्य एक संगत एक-आयामी अनुक्रम संरेखण से भी है, जिससे एक अनुक्रम पहचान, या इनपुट संरचनाओं के बीच समान अवशेषों का प्रतिशत, यह मापने के रूप में गणना की जा सकती है कि दोनों अनुक्रम कितनी निकटता से संबंधित हैं।

तुलना के प्रकार

क्योंकि प्रोटीन संरचनाएं अमीनो एसिड से बनी होती हैं जिनकी पक्ष श्रृंखला एक सामान्य प्रोटीन बैकबोन से जुड़ी होती हैं, प्रोटीन मैक्रोमोलेक्यूल बनाने वाले परमाणुओं के विभिन्न संभावित उपसमूहों का उपयोग संरचनात्मक संरेखण का उत्पादन करने और संबंधित आरएमएसडी मूल्यों की गणना करने में किया जा सकता है। बहुत अलग अनुक्रमों के साथ संरचनाओं को संरेखित करते समय, साइड चेन परमाणुओं को सामान्यतः ध्यान में नहीं रखा जाता है क्योंकि उनकी पहचान कई संरेखित अवशेषों के बीच भिन्न होती है। इस कारण से संरचनात्मक संरेखण विधियों के लिए डिफ़ॉल्ट रूप से केवल पेप्टाइड बंध में सम्मिलित बैकबोन के परमाणुओं का उपयोग करना आम बात है। सादगी और दक्षता के लिए, प्रायः केवल अल्फा कार्बन स्थितियों पर विचार किया जाता है, क्योंकि पेप्टाइड बॉन्ड में न्यूनतम भिन्न विमान (ज्यामिति) संरचना होती है। केवल जब संरेखित की जाने वाली संरचनाएं अत्यधिक समान या यहां तक ​​​​कि समान होती हैं, तो साइड-चेन परमाणु स्थितियों को संरेखित करना सार्थक होता है, उस स्थिति में आरएमएसडी न केवल प्रोटीन बैकबोन की संरचना को दर्शाता है, बल्कि साइड चेन के रोटामेरिक अवस्था को भी दर्शाता है। अन्य तुलनात्मक मानदंड जो रव को कम करते हैं और सकारात्मक मिलान को बढ़ाते हैं, उनमें माध्यमिक संरचना असाइनमेंट, मूल संपर्क मानचित्र या अवशेष इंटरैक्शन पैटर्न, साइड चेन पैकिंग के उपाय और हाइड्रोजन बंध प्रतिधारण के उपाय सम्मिलित हैं।[6]

संरचनात्मक सुपरपोजिशन

प्रोटीन संरचनाओं के बीच सबसे बुनियादी संभव तुलना इनपुट संरचनाओं को संरेखित करने का कोई प्रयास नहीं करती है और यह निर्धारित करने के लिए इनपुट के रूप में एक पूर्व-गणना संरेखण की आवश्यकता होती है कि अनुक्रम में कौन से अवशेषों पर आरएमएसडी गणना में विचार किया जाना है। संरचनात्मक सुपरपोजिशन का उपयोग सामान्यतः एक ही प्रोटीन के कई अनुरूपताओं की तुलना करने के लिए किया जाता है (जिस स्थिति में कोई संरेखण आवश्यक नहीं है, क्योंकि अनुक्रम समान हैं) और दो या दो से अधिक अनुक्रमों के बीच केवल अनुक्रम जानकारी का उपयोग करके उत्पादित संरेखण की गुणवत्ता का मूल्यांकन करने के लिए जिनकी संरचनाएं ज्ञात हैं। यह विधि पारंपरिक रूप से एक सरल न्यूनतम-वर्ग फिटिंग एल्गोरिथ्म का उपयोग करती है, जिसमें सुपरपोज़िशन में सभी संरचनाओं के बीच वर्ग दूरी के योग को कम करके इष्टतम घुमाव और अनुवाद पाए जाते हैं।[7]हाल ही में, अधिकतम संभावना और बायेसियन तरीकों ने सुपरपोजिशन के लिए अनुमानित घुमावों, अनुवादों और सहप्रसरण आव्यूह की सटीकता में काफी वृद्धि की है।[8][9]

पूर्व निर्धारित संरेखण की आवश्यकता के बिना प्रोटीन संरचनाओं के बीच टोपोलॉजिकल संबंधों की पहचान करने के लिए बहुआयामी घुमाव और संशोधित चतुर्भुज पर आधारित एल्गोरिदम विकसित किए गए हैं। ऐसे एल्गोरिदम ने हेलिक्स बंडल फोर-हेलिक्स बंडल जैसे कैनोनिकल फोल्ड की सफलतापूर्वक पहचान की है।[10]SuperPose विधि सापेक्ष डोमेन रोटेशन और अन्य संरचनात्मक कमियों को ठीक करने के लिए पर्याप्त रूप से विस्तार योग्य है।[11]

समानता का मूल्यांकन

प्रायः संरचनात्मक सुपरपोजिशन की खोज का उद्देश्य स्वयं सुपरपोजिशन नहीं होता है, बल्कि दो संरचनाओं की समानता का मूल्यांकन या दूरस्थ संरेखण में विश्वास होता है।[1][2][3]अधिकतम संरचनात्मक सुपरपोज़िशन से एक सूक्ष्म लेकिन महत्वपूर्ण अंतर एक संरेखण को एक सार्थक समानता स्कोर में परिवर्तित करना है।[12][13]अधिकांश विधियाँ सुपरपोज़िशन की गुणवत्ता को इंगित करने वाले किसी प्रकार के ''स्कोर'' का उत्पादन करती हैं।[5][14][15][12][13]हालाँकि, कोई वास्तव में जो चाहता है वह केवल अनुमानित ''Z-स्कोर'' या संयोग से देखे गए सुपरपोजिशन को देखने का अनुमानित ई-मूल्य नहीं है, बल्कि वह चाहता है कि अनुमानित ई-मूल्य का वास्तविक ई-मूल्य के साथ गहरा संबंध हो। गंभीर रूप से, भले ही किसी विधि का अनुमानित ई-मूल्य औसतन बिल्कुल सही हो, अगर इसकी अनुमानित मूल्य पीढ़ी प्रक्रिया पर कम मानक विचलन का अभाव है, तो तुलनात्मक सेट के लिए क्वेरी प्रोटीन की सापेक्ष समानता का रैंक क्रम शायद ही कभी ''सही'' क्रम से सहमत होगा।[12][13]

अलग-अलग विधियाँ अलग-अलग संख्या में अवशेषों को आरोपित करेंगी क्योंकि वे अलग-अलग गुणवत्ता आश्वासन और ''ओवरलैप'' की अलग-अलग परिभाषाओं का उपयोग करते हैं; कुछ में केवल कई स्थानीय और वैश्विक सुपरपोजिशन मानदंडों को पूरा करने वाले अवशेष सम्मिलित हैं और अन्य अधिक लालची, लचीले और स्वच्छंद हैं। सुपरपोज़्ड परमाणुओं की अधिक संख्या का तात्पर्य अधिक समानता हो सकता है लेकिन यह हमेशा सुपरपोज़िशन की असंभाव्यता को मापने के लिए सर्वोत्तम ई-मूल्य उत्पन्न नहीं कर सकता है और इस प्रकार समानता का आकलन करने के लिए उतना उपयोगी नहीं है, खासकर दूरस्थ होमोलोग्स में।[1][2][3][4]

एल्गोरिदमिक जटिलता

इष्टतम समाधान

एक ज्ञात संरचना पर प्रोटीन अनुक्रम का इष्टतम प्रोटीन ''थ्रेडिंग'' और एक इष्टतम एकाधिक अनुक्रम संरेखण का उत्पादन एनपी-पूर्ण दिखाया गया है।[16][17]हालाँकि, इसका तात्पर्य यह नहीं है कि संरचनात्मक संरेखण समस्या एनपी-पूर्ण है। कड़ाई से बोलते हुए, प्रोटीन संरचना संरेखण समस्या का एक इष्टतम समाधान केवल कुछ प्रोटीन संरचना समानता उपायों के लिए जाना जाता है, जैसे कि प्रोटीन संरचना भविष्यवाणी प्रयोगों में उपयोग किए जाने वाले उपाय, GDT_TS[5]और मैक्ससब (MaxSub)।[14]इन उपायों को दो प्रोटीनों में परमाणुओं की संख्या को अधिकतम करने में सक्षम एल्गोरिदम का उपयोग करके सख्ती से अनुकूलित किया जा सकता है जिन्हें पूर्वनिर्धारित दूरी कटऑफ के तहत सुपरइम्पोज किया जा सकता है।[15]दुर्भाग्य से, इष्टतम समाधान के लिए एल्गोरिदम व्यावहारिक नहीं है, क्योंकि इसका चलने का समय न केवल लंबाई पर बल्कि इनपुट प्रोटीन की आंतरिक ज्यामिति पर भी निर्भर करता है।

अनुमानित समाधान

संरचनात्मक संरेखण के लिए अनुमानित बहुपद-समय एल्गोरिदम जो किसी दिए गए स्कोरिंग फ़ंक्शन के लिए सन्निकटन पैरामीटर के भीतर ''इष्टतम'' समाधानों का एक परिवार तैयार करते हैं, विकसित किए गए हैं।[15][18]यद्यपि ये एल्गोरिदम सैद्धांतिक रूप से अनुमानित प्रोटीन संरचना संरेखण समस्या को ट्रैक्टेबल के रूप में वर्गीकृत करते हैं, फिर भी वे बड़े पैमाने पर प्रोटीन संरचना विश्लेषण के लिए कम्प्यूटेशनल रूप से बहुत महंगे हैं। परिणामस्वरूप, व्यावहारिक एल्गोरिदम जो स्कोरिंग फ़ंक्शन दिए जाने पर संरेखण के वैश्विक समाधानों में परिवर्तित होते हैं, उपस्थित नहीं हैं। अधिकांश एल्गोरिदम, इसलिए, अनुमानी हैं, लेकिन एल्गोरिदम जो स्कोरिंग कार्यों के कम से कम स्थानीय अधिकतमकर्ताओं के अभिसरण की गारंटी देते हैं, और व्यावहारिक हैं, विकसित किए गए हैं।[19]


संरचनाओं का प्रतिनिधित्व

प्रोटीन संरचनाओं को तुलनीय बनाने के लिए उन्हें कुछ समन्वय-स्वतंत्र स्थान में प्रस्तुत किया जाना चाहिए। यह सामान्यतः एक अनुक्रम-से-अनुक्रम आव्यूह या आव्यूह की श्रृंखला का निर्माण करके प्राप्त किया जाता है जो तुलनात्मक आव्यूह को सम्मिलित करता है: एक निश्चित समन्वय स्थान के सापेक्ष पूर्ण दूरी के बजाय। एक सहज प्रतिनिधित्व दूरी आव्यूह है, जो एक दो-आयामी आव्यूह (गणित) है जिसमें प्रत्येक संरचना में परमाणुओं के कुछ उपवर्ग (जैसे अल्फा कार्बन) के बीच सभी जोड़ीदार दूरियां सम्मिलित हैं। जैसे-जैसे एक साथ संरेखित होने वाली संरचनाओं की संख्या बढ़ती है, आव्यूह की आयामीता बढ़ती है। प्रोटीन को मोटे मीट्रिक जैसे माध्यमिक संरचना तत्वों (एसएसई) या संरचनात्मक टुकड़ों में कम करने से दूरियों को त्यागने से जानकारी के नुकसान के अतिरिक्त, समझदार संरेखण भी उत्पन्न हो सकता है, क्योंकि संकेत रव भी खारिज हो जाता है।[20] गणना की सुविधा के लिए एक प्रतिनिधित्व चुनना एक कुशल संरेखण तंत्र विकसित करने के लिए महत्वपूर्ण है।

तरीके

संरचनात्मक संरेखण तकनीकों का उपयोग व्यक्तिगत संरचनाओं या संरचनाओं के सेट की तुलना के साथ-साथ सभी तुलना डेटाबेस के उत्पादन में किया गया है जो प्रोटीन डाटा बैंक (पीडीबी) में उपस्थित संरचनाओं की प्रत्येक जोड़ी के बीच विचलन को मापते हैं। ऐसे डेटाबेस का उपयोग प्रोटीन को उनकी तृतीयक संरचना के आधार पर वर्गीकृत करने के लिए किया जाता है।

डीएएलआई(DALI)

एसएसएपी में गणना किए गए परमाणु-से-परमाणु वैक्टर का चित्रण। इन वैक्टरों से वेक्टर अंतरों की एक श्रृंखला बनाई जाएगी, उदाहरण के लिए, प्रोटीन 1 में (एफए) और प्रोटीन 2 में (एसआई) के बीच। दो प्रोटीनों के बीच अंतर आव्यूह बनाने के लिए दो अनुक्रमों को आव्यूह के दो आयामों पर प्लॉट किया जाता है। इष्टतम स्थानीय संरेखण पथों की एक श्रृंखला बनाने के लिए गतिशील प्रोग्रामिंग को सभी संभावित अंतर आव्यूह पर लागू किया जाता है, जिन्हें फिर सारांश आव्यूह बनाने के लिए सारांशित किया जाता है, जिस पर गतिशील प्रोग्रामिंग का दूसरा दौर किया जाता है।

एक सामान्य और लोकप्रिय संरचनात्मक संरेखण विधि DALI, या डिस्टेंस-मैट्रिक्स  एलाइनमेंट  मेथड (Distance-matrix ALIgnment method) है, जो इनपुट संरचनाओं को हेक्सापेप्टाइड टुकड़ों में तोड़ती है और क्रमिक टुकड़ों के बीच संपर्क पैटर्न का मूल्यांकन करके दूरी आव्यूह की गणना करती है।[21]द्वितीयक संरचना विशेषताएँ जिनमें अनुक्रम में सन्निहित अवशेष सम्मिलित होते हैं, आव्यूह के मुख्य विकर्ण पर दिखाई देते हैं; आव्यूह में अन्य विकर्ण उन अवशेषों के बीच स्थानिक संपर्कों को दर्शाते हैं जो अनुक्रम में एक दूसरे के निकट नहीं हैं। जब ये विकर्ण मुख्य विकर्ण के समानांतर होते हैं, तो वे जिन विशेषताओं का प्रतिनिधित्व करते हैं वे समानांतर होती हैं; जब वे लंबवत होते हैं, तो उनकी विशेषताएं प्रतिसमानांतर होती हैं। यह प्रतिनिधित्व मेमोरी-इंटेंसिव (स्मृति-अवधारक) है क्योंकि वर्ग आव्यूह में विशेषताएं मुख्य विकर्ण के बारे में सममित (और इस प्रकार अनावश्यक) हैं।

जब दो प्रोटीन की दूरी वाले मैट्रिक्स लगभग समान स्थिति में समान या समान विशेषताएं साझा करते हैं, तो कहा जा सकता है कि उनके द्वितीयक संरचना तत्वों को जोड़ने वाले समान-लंबाई वाले लूप के साथ समान सिलवटें (फोल्ड्स) होती हैं। DALI की वास्तविक संरेखण प्रक्रिया के लिए दो प्रोटीनों की दूरी मैट्रिक्स के निर्माण के बाद समानता खोज की आवश्यकता होती है; यह सामान्यतः 6x6 आकार के ओवरलैपिंग सबमैट्रिस की एक श्रृंखला के माध्यम से संचालित किया जाता है। उपाव्यूह मैचों को फिर एक मानक स्कोर-अधिकतमकरण एल्गोरिथ्म के माध्यम से अंतिम संरेखण में पुन: संयोजित किया जाता है - DALI के मूल संस्करण में एक संरचनात्मक समानता स्कोर को अधिकतम करने के लिए मोंटे कार्लो विधि सिमुलेशन का उपयोग किया जाता है जो कि अनुमानित संबंधित परमाणुओं के बीच की दूरी का एक कार्य है। विशेष रूप से, लूप गतिशीलता, हेलिक्स टोरसन और अन्य छोटी संरचनात्मक विविधताओं द्वारा प्रांरम्भ किए गए रव के प्रभाव को कम करने के लिए संबंधित विशेषताओं के भीतर अधिक दूर के परमाणुओं को तेजी से कम किया जाता है।[20]क्योंकि DALI एक ऑल-टू-ऑल डिस्टेंस आव्यूह पर निर्भर करता है, यह इस संभावना को ध्यान में रख सकता है कि संरचनात्मक रूप से संरेखित विशेषताएं तुलना किए जा रहे दो अनुक्रमों के भीतर अलग-अलग क्रम में दिखाई दे सकती हैं।

DALI पद्धति का उपयोग एक डेटाबेस बनाने के लिए भी किया गया है जिसे संरचनात्मक रूप से समान प्रोटीन के परिवारों (प्रोटीन की संरचना-संरेखण के आधार पर गुना वर्गीकरण, या संरचनात्मक रूप से समान प्रोटीन के परिवार) के रूप में जाना जाता है, जिसमें सभी ज्ञात प्रोटीन संरचनाओं को उनके संरचनात्मक निकटम और गुना वर्गीकरण को निर्धारित करने के लिए एक दूसरे के साथ संरेखित किया जाता है। DALI पर आधारित एक खोजने योग्य डेटाबेस है और साथ ही एक डाउनलोड करने योग्य प्रोग्राम और वेब खोज है जो एक स्टैंडअलोन संस्करण पर आधारित है जिसे DaliLite के नाम से जाना जाता है।

संयुक्त विस्तार

कॉम्बिनेटोरियल एक्सटेंशन (सीई) विधि DALI के समान है क्योंकि यह क्वेरी सेट में प्रत्येक संरचना को टुकड़ों की एक श्रृंखला में तोड़ देती है जिसे फिर पूर्ण संरेखण में पुन: एकत्रित करने का प्रयास किया जाता है। संरेखित खंड जोड़े या एएफपी नामक टुकड़ों के जोड़ीदार संयोजनों की एक श्रृंखला का उपयोग समानता आव्यूह को परिभाषित करने के लिए किया जाता है जिसके माध्यम से अंतिम संरेखण की पहचान करने के लिए एक इष्टतम पथ उत्पन्न होता है। केवल एएफपी जो स्थानीय समानता के लिए दिए गए मानदंडों को पूरा करते हैं, उन्हें आवश्यक खोज स्थान को कम करने और इस प्रकार दक्षता बढ़ाने के साधन के रूप में आव्यूह में सम्मिलित किया जाता है।[22] अनेक समानता मेट्रिक्स संभव हैं; सीई विधि की मूल परिभाषा में केवल संरचनात्मक सुपरपोजिशन और अंतर-अवशेष दूरियां सम्मिलित थीं, लेकिन तब से इसे माध्यमिक संरचना, विलायक एक्सपोजर, हाइड्रोजन-बॉन्डिंग पैटर्न और डायहेड्रल कोण जैसे स्थानीय पर्यावरणीय गुणों को सम्मिलित करने के लिए विस्तारित किया गया है।[22]

अनुक्रमों के माध्यम से रैखिक रूप से प्रगति करके और अगले संभावित उच्च स्कोरिंग एएफपी जोड़ी के साथ संरेखण का विस्तार करके एक संरेखण पथ की गणना समानता आव्यूह के माध्यम से इष्टतम पथ के रूप में की जाती है। प्रारंभिक एएफपी जोड़ी जो संरेखण को न्यूक्लियेट करती है वह अनुक्रम आव्यूह में किसी भी बिंदु पर हो सकती है। इसके बाद एक्सटेंशन अगले एएफपी के साथ आगे बढ़ते हैं जो दिए गए दूरी मानदंडों को पूरा करता है और संरेखण को कम अंतराल आकार तक सीमित करता है। प्रत्येक एएफपी का आकार और अधिकतम अंतराल आकार आवश्यक इनपुट पैरामीटर हैं, लेकिन सामान्यतः क्रमशः 8 और 30 के अनुभवजन्य रूप से निर्धारित मानों पर सेट होते हैं।[22]DALI और एसएसएपी (एसएसएपी (SSAP)) की तरह, CE का उपयोग ऑल-टू-ऑल फोल्ड वर्गीकरण डेटाबेस बनाने के लिए किया गया है। Archived 1998-12-03 at the Wayback Machineपीडीबी में ज्ञात प्रोटीन संरचनाओं से।

प्रोटीन डेटा बैंक ने हाल ही में RCSB PDB प्रोटीन तुलना टूल के हिस्से के रूप में CE, मैमथ और FATCAT का एक अद्यतन संस्करण जारी किया है। यह सीई की एक नई विविधता प्रदान करता है जो प्रोटीन संरचनाओं में परिपत्र क्रमपरिवर्तन प्रोटीन का पता लगा सकता है।[23]

मैमथ

मैमथ (MAMMOTH) [12] लगभग सभी अन्य तरीकों की तुलना में संरेखण समस्या को एक अलग उद्देश्य से देखता है। एक ऐसे संरेखण को खोजने की कोशिश करने के बजाय जो अधिकतम संख्या में अवशेषों को सुपरइम्पोज़ करता है, यह संरचनात्मक संरेखण के उपसमुच्चय की तलाश करता है जिसके संयोग से घटित होने की संभावना कम से कम हो। ऐसा करने के लिए यह फ्लैग्स के साथ एक स्थानीय रूपांकन संरेखण को चिह्नित करता है ताकि यह इंगित किया जा सके कि कौन से अवशेष एक साथ अधिक कठोर मानदंडों को पूरा करते हैं: 1) स्थानीय संरचना ओवरलैप 2) नियमित माध्यमिक संरचना 3) 3D-सुपरपोजिशन 4) प्राथमिक अनुक्रम में समान क्रम। यह संयोग से परिणाम के लिए प्रत्याशा मूल्य की गणना करने के लिए उच्च-विश्वास मिलान वाले अवशेषों की संख्या और प्रोटीन के आकार के आंकड़ों को परिवर्तित करता है। यह दूरस्थ होमोलोग्स से मिलान करने में उत्कृष्टता प्राप्त करता है, विशेष रूप से SCOP (एससीओपी) जैसे संरचना परिवारों के लिए एबी इनिटियो (ab initio) संरचना भविष्यवाणी द्वारा उत्पन्न संरचनाएं, क्योंकि यह सांख्यिकीय रूप से विश्वसनीय उप संरेखण निकालने पर जोर देती है न कि अधिकतम अनुक्रम संरेखण या अधिकतम 3D सुपरपोजिशन प्राप्त करने में।[2][3]

लगातार 7 अवशेषों की प्रत्येक ओवरलैपिंग विंडो के लिए यह आसन्न सी-अल्फा अवशेषों के बीच विस्थापन दिशा इकाई वैक्टर के सेट की गणना करता है। यूआरएमएस स्कोर के आधार पर सभी बनाम सभी स्थानीय रूपांकनों की तुलना की जाती है। ये मान गतिशील प्रोग्रामिंग के लिए जोड़ी संरेखण स्कोर प्रविष्टियाँ बन जाते हैं जो बीज जोड़ी-वार अवशेष संरेखण उत्पन्न करता है। दूसरा चरण एक संशोधित मैक्ससब एल्गोरिदम का उपयोग करता है: प्रत्येक प्रोटीन में एक एकल 7 निवास संरेखित जोड़ी का उपयोग दो पूर्ण लंबाई प्रोटीन संरचनाओं को इन 7 सी-अल्फा को अधिकतम रूप से सुपरइम्पोज़ करने के लिए उन्मुख करने के लिए किया जाता है, फिर इस अभिविन्यास में यह किसी भी अतिरिक्त संरेखित जोड़े के लिए स्कैन करता है जो 3 डी में करीब हैं। यह इस विस्तारित सेट को सुपरइम्पोज़ करने के लिए संरचनाओं को पुन: उन्मुख करता है और तब तक पुनरावृत्त करता है जब तक कि 3 डी में कोई और जोड़े मेल नहीं खाते। बीज संरेखण में प्रत्येक 7 अवशेष विंडो के लिए यह प्रक्रिया पुनः आरंभ की जाती है। आउटपुट इनमें से किसी भी प्रारंभिक बीज से पाए गए परमाणुओं की अधिकतम संख्या है। यह आँकड़ा प्रोटीन की समानता के लिए एक कैलिब्रेटेड ई-वैल्यू में परिवर्तित हो जाता है।

मैमथ प्रारंभिक संरेखण को दोहराने या उच्च गुणवत्ता वाले उप-उप-समूह का विस्तार करने का कोई प्रयास नहीं करता है। इसलिए, यह जो बीज संरेखण प्रदर्शित करता है उसकी तुलना DALI या टीएम संरेखण से नहीं की जा सकती क्योंकि इसे केवल खोज स्थान को छोटा करने के लिए एक अनुमान के रूप में बनाया गया था। (इसका उपयोग तब किया जा सकता है जब कोई संरेखण पूरी तरह से लंबी दूरी के दृढ़ पिंड के परमाणु संरेखण के स्थानीय संरचना-मोटिफ समानता अज्ञेयवादी पर आधारित हो।) उसी पारसीमोनी के कारण, यह DALI, CE और टीएम-संरेखण की तुलना में दस गुना अधिक तेज है।[24] अधिक विस्तृत सुपरपोजिशन या महंगी गणनाओं के लिए सर्वोत्तम ई-वैल्यू संबंधित संरचनाओं को निकालने के लिए बड़े डेटा बेस को प्री-स्क्रीन करने के लिए प्रायः इन धीमे उपकरणों के संयोजन में इसका उपयोग किया जाता है।

[25]

[26]यह एब इनिटियो संरचना भविष्यवाणी से ''डिकॉय'' संरचनाओं का विश्लेषण करने में विशेष रूप से सफल रहा है।[1][2][3]ये डिकॉय स्थानीय खंड रूपांकन संरचना को सही करने और सही 3डी तृतीयक संरचना के कुछ गुठली बनाने लेकिन पूरी लंबाई की तृतीयक संरचना को गलत बनाने के लिए कुख्यात हैं। इस गोधूलि दूरस्थ समरूपता शासन में, CASP (सीएएसपी) के लिए मैमथ के ई-मूल्य[1]एसएसएपी या डीएएलआई की तुलना में प्रोटीन संरचना भविष्यवाणी मूल्यांकन को मानव रैंकिंग के साथ काफी अधिक सहसंबद्ध दिखाया गया है।[12]ज्ञात संरचना के प्रोटीन के साथ बहु-मानदंड आंशिक ओवरलैप को निकालने और उन्हें उचित ई-मूल्यों के साथ रैंक करने की मैमथ की क्षमता, इसकी गति के साथ मिलकर ज्ञात प्रोटीन के दूरस्थ समरूपता के आधार पर सबसे संभावित सही डिकॉय की पहचान करने के लिए पीडीबी डेटा बेस के खिलाफ बड़ी संख्या में डिकॉय मॉडल को स्कैन करने की सुविधा प्रदान करती है।

[2]


SSAP (एसएसएपी)

SSAP (अनुक्रमिक संरचना संरेखण कार्यक्रम) विधि संरचना स्थान में परमाणु-से-परमाणु वेक्टर (ज्यामितीय) के आधार पर संरचनात्मक संरेखण का उत्पादन करने के लिए डबल गतिशील प्रोग्रामिंग का उपयोग करती है। सामान्यतःसंरचनात्मक संरेखण में उपयोग किए जाने वाले अल्फा कार्बन के बजाय, SSAP ग्लाइसिन को छोड़कर सभी अवशेषों के लिए बीटा कार्बन से अपने वैक्टर का निर्माण करता है, एक विधि जो इस प्रकार प्रत्येक अवशेष की रोटामेरिक स्थिति के साथ-साथ बैकबोन की हड्डी के साथ उसके स्थान को भी ध्यान में रखती है। SSAP पहले प्रत्येक प्रोटीन पर प्रत्येक अवशेष और उसके निकटतम गैर-सन्निहित पड़ोसियों के बीच अंतर-अवशेष दूरी वैक्टर की एक श्रृंखला का निर्माण करके काम करता है। फिर आव्यूह की एक श्रृंखला का निर्माण किया जाता है जिसमें अवशेषों की प्रत्येक जोड़ी के लिए पड़ोसियों के बीच वेक्टर अंतर सम्मिलित होते हैं जिनके लिए वैक्टर का निर्माण किया गया था। प्रत्येक परिणामी आव्यूह पर लागू गतिशील प्रोग्रामिंग इष्टतम स्थानीय संरेखण की एक श्रृंखला निर्धारित करती है जिसे फिर एक सारांश आव्यूह में संक्षेपित किया जाता है जिसमें समग्र संरचनात्मक संरेखण निर्धारित करने के लिए गतिशील प्रोग्रामिंग को फिर से लागू किया जाता है।

SSAP ने मूल रूप से केवल जोड़ीवार संरेखण का उत्पादन किया था लेकिन बाद में इसे कई संरेखणों तक भी विस्तारित किया गया है।[27](सीएटीएच) CATH (क्लास, आर्किटेक्चर, टोपोलॉजी, होमोलॉजी) के रूप में ज्ञात एक पदानुक्रमित गुना वर्गीकरण योजना का निर्माण करने के लिए इसे सभी के लिए लागू किया गया है।[28]जिसका उपयोग CATH प्रोटीन संरचना वर्गीकरण डेटाबेस के निर्माण के लिए किया गया है।

नव गतिविधि

संरचनात्मक संरेखण विधियों में सुधार अनुसंधान के एक सक्रिय क्षेत्र का गठन करता है, और नए या संशोधित तरीकों को प्रायः प्रस्तावित किया जाता है जिनके बारे में दावा किया जाता है कि वे पुरानी और अधिक व्यापक रूप से वितरित तकनीकों पर लाभ प्रदान करते हैं। एक हालिया उदाहरण, टीएम-एलाइन, अपने दूरी आव्यूह को भारित करने के लिए एक उपन्यास विधि का उपयोग करता है, जिसके लिए मानक गतिशील प्रोग्रामिंग लागू की जाती है।[29][13]गतिशील प्रोग्रामिंग के अभिसरण में तेजी लाने और संरेखण लंबाई से उत्पन्न होने वाले प्रभावों को सही करने के लिए वेटिंग का प्रस्ताव किया गया है। एक बेंचमार्किंग अध्ययन में, टीएम-एलाइन को डीएएलआई और सीई की तुलना में गति और सटीकता दोनों में सुधार की सूचना दी गई है।[29]

संरचनात्मक संरेखण की अन्य आशाजनक विधियाँ स्थानीय संरचनात्मक संरेखण विधियाँ हैं। ये प्रोटीन के पूर्व-चयनित भागों (उदाहरण के लिए बाइंडिंग साइट, उपयोगकर्ता-परिभाषित संरचनात्मक रूपांकनों) की तुलना प्रदान करते हैं। [30][31][32] बाइंडिंग साइटों या संपूर्ण-प्रोटीन संरचनात्मक डेटाबेस के विरुद्ध। मल्टीबाइंड और MAPPIS सर्वर [32][33] उपयोगकर्ता द्वारा प्रदान किए गए प्रोटीन बाइंडिंग साइटों के एक सेट में छोटे अणुओं (मल्टीबाइंड) या उपयोगकर्ता द्वारा प्रदत्त प्रोटीन-प्रोटीन इंटरफेस (एमएपीपीआईएस) के एक सेट में परिभाषित एच-बॉन्ड दाता, स्वीकर्ता, स्निग्ध, सुगंधित या हाइड्रोफोबिक जैसे भौतिक रासायनिक गुणों की सामान्य स्थानिक व्यवस्था की पहचान करने की अनुमति दें। अन्य संपूर्ण प्रोटीन संरचनाओं की तुलना प्रदान करते हैं [34] उपयोगकर्ता द्वारा सबमिट की गई कई संरचनाओं के विरुद्ध या उचित समय में प्रोटीन संरचनाओं के एक बड़े डेटाबेस के विरुद्ध (ProBiS[35]). वैश्विक संरेखण दृष्टिकोणों के विपरीत, स्थानीय संरचनात्मक संरेखण दृष्टिकोण कार्यात्मक समूहों के स्थानीय रूप से संरक्षित पैटर्न का पता लगाने के लिए उपयुक्त हैं, जो प्रायः बाध्यकारी साइटों में दिखाई देते हैं और लिगैंड बाइंडिंग में महत्वपूर्ण भागीदारी रखते हैं।[33]उदाहरण के तौर पर, जी-लोसा की तुलना करते हुए,[36] एक स्थानीय संरचना संरेखण उपकरण, टीएम-संरेखण के साथ, एक वैश्विक संरचना संरेखण आधारित विधि। जबकि जी-लोसा टीएम-संरेखण की तुलना में एकल-श्रृंखला प्रोटीन लक्ष्यों में दवा जैसी लिगेंड की स्थिति की अधिक सटीक भविष्यवाणी करता है, टीएम-संरेखण की समग्र सफलता दर बेहतर है।[37] हालाँकि, जैसा कि एल्गोरिथम सुधार और कंप्यूटर प्रदर्शन ने पुराने दृष्टिकोणों में विशुद्ध रूप से तकनीकी कमियों को मिटा दिया है, यह स्पष्ट हो गया है कि 'इष्टतम' संरचनात्मक संरेखण के लिए कोई एक सार्वभौमिक मानदंड नहीं है। उदाहरण के लिए, टीएम-संरेखण, अनुक्रम लंबाई में बड़ी असमानताओं वाले प्रोटीन के सेट के बीच तुलना की मात्रा निर्धारित करने में विशेष रूप से मजबूत है, लेकिन यह केवल अप्रत्यक्ष रूप से हाइड्रोजन बॉन्डिंग या माध्यमिक संरचना क्रम संरक्षण को पकड़ता है जो विकास संबंधी प्रोटीन के संरेखण के लिए बेहतर मीट्रिक हो सकता है। इस प्रकार हाल के विकासों ने विशेष विशेषताओं जैसे गति, अंकों की मात्रा का ठहराव, वैकल्पिक सोने के मानकों के साथ सहसंबंध, या संरचनात्मक डेटा या एब इनिटियो संरचनात्मक मॉडल में अपूर्णता की सहनशीलता को अनुकूलित करने पर ध्यान केंद्रित किया है। एक वैकल्पिक पद्धति जो लोकप्रियता हासिल कर रही है वह है प्रोटीन की संरचनात्मक समानताएं सुनिश्चित करने के लिए विभिन्न तरीकों की सर्वसम्मति का उपयोग करना।[38]

आरएनए संरचनात्मक संरेखण

संरचनात्मक संरेखण तकनीकों को परंपरागत रूप से विशेष रूप से प्रोटीन पर लागू किया गया है, प्राथमिक जैविक मैक्रो मोलेक्यूलस के रूप में जो विशिष्ट त्रि-आयामी संरचनाएं ग्रहण करते हैं। हालाँकि, बड़े आरएनए अणु भी विशिष्ट तृतीयक आरएनए संरचना बनाते हैं, जो मुख्य रूप से बेस जोड़े के साथ-साथ आधार स्टैकिंग के बीच बने हाइड्रोजन बांड द्वारा मध्यस्थ होते हैं। कार्यात्मक रूप से समान नॉनकोडिंग आरएनए अणुओं को जीनोमिक्स डेटा से निकालना विशेष रूप से कठिन हो सकता है क्योंकि संरचना आरएनए के साथ-साथ प्रोटीन में अनुक्रम की तुलना में अधिक दृढ़ता से संरक्षित होती है,[39]और आरएनए की अधिक सीमित वर्णमाला किसी भी स्थिति में किसी भी न्यूक्लियोटाइड की सूचना सामग्री को कम कर देती है।

हालाँकि, आरएनए संरचनाओं में बढ़ती रुचि और प्रयोगात्मक रूप से निर्धारित 3डी आरएनए संरचनाओं की संख्या में वृद्धि के कारण, हाल ही में कुछ आरएनए संरचना समानता विधियां विकसित की गई हैं। उन तरीकों में से एक है, उदाहरण के लिए, SETTER[40]जो प्रत्येक आरएनए संरचना को छोटे भागों में विघटित करता है जिन्हें सामान्य माध्यमिक संरचना इकाइयाँ (जीएसएसयू) कहा जाता है। जीएसएसयू को बाद में संरेखित किया जाता है और इन आंशिक संरेखण को अंतिम आरएनए संरचना संरेखण में विलय कर दिया जाता है और स्कोर किया जाता है। विधि को SETTER वेबसर्वर में लागू किया गया है।[41]

कम अनुक्रम पहचान के साथ आरएनए अनुक्रमों के जोड़ीदार संरचनात्मक संरेखण के लिए एक हालिया विधि कार्यक्रम FOLDALIGN में प्रकाशित और कार्यान्वित की गई है।[42]हालाँकि, यह विधि वास्तव में प्रोटीन संरचनात्मक संरेखण तकनीकों के अनुरूप नहीं है क्योंकि यह इनपुट के रूप में प्रयोगात्मक रूप से निर्धारित संरचनाओं की आवश्यकता के बजाय कम्प्यूटेशनल रूप से आरएनए इनपुट अनुक्रमों की संरचनाओं की भविष्यवाणी करती है। यद्यपि प्रोटीन की तह प्रक्रिया की कम्प्यूटेशनल भविष्यवाणी आज तक विशेष रूप से सफल नहीं रही है, लेकिन छद्म गाँठ के बिना आरएनए संरचनाओं को प्रायः थर्मोडायनामिक मुक्त ऊर्जा-आधारित स्कोरिंग विधियों का उपयोग करके समझदारी से भविष्यवाणी की जा सकती है जो बेस पेयरिंग और स्टैकिंग के लिए जिम्मेदार हैं।[43]

सॉफ़्टवेयर

उपलब्ध पैकेजों की विशाल विविधता के कारण संरचनात्मक संरेखण के लिए एक सॉफ्टवेयर टूल चुनना एक चुनौती हो सकता है जो कार्यप्रणाली और विश्वसनीयता में काफी भिन्न है। में इस समस्या का आंशिक समाधान प्रस्तुत किया गया [38]और ProCKSI वेबसर्वर के माध्यम से सार्वजनिक रूप से सुलभ बनाया गया। वर्तमान में उपलब्ध और स्वतंत्र रूप से वितरित संरचनात्मक संरेखण सॉफ़्टवेयर की अधिक संपूर्ण सूची संरचनात्मक संरेखण सॉफ़्टवेयर में पाई जा सकती है।

कुछ संरचनात्मक संरेखण सर्वर और सॉफ़्टवेयर पैकेजों के गुणों को स्ट्रक्चरल संरेखण उपकरण Proteopedia.Org पर उदाहरणों के साथ संक्षेपित और परीक्षण किया गया है।

यह भी देखें

संदर्भ

  1. 1.0 1.1 1.2 1.3 1.4 Kryshtafovych A, Monastyrskyy B, Fidelis K (2016). "CASP11 statistics and the prediction center evaluation system. \". Proteins. 84 (Suppl 1): (Suppl 1):15–19. doi:10.1002/prot.25005. PMC 5479680. PMID 26857434.
  2. 2.0 2.1 2.2 2.3 2.4 2.5 Lars Malmström Michael Riffle; Charlie EM Strauss; Dylan Chivian; Trisha N Davis; Richard Bonneau; David Baker (2007). "Superfamily Assignments for the Yeast Proteome through Integration of Structure Prediction with the Gene Ontology". PLOS Biol. 5 (4): e76corresponding author1, 2. doi:10.1371/journal.pbio.0050076. PMC 1828141. PMID 17373854.
  3. 3.0 3.1 3.2 3.3 3.4 David E. Kim; Dylan Chivian; David Baker (2004). "Protein structure prediction and analysis using the Robetta server". Nucleic Acids Research. 32(Web Server issue): W526–W531 (Web Server issue): W526–W531. doi:10.1093/nar/gkh468. PMC 441606. PMID 15215442.
  4. 4.0 4.1 Zhang Y, Skolnick J (2005). "The protein structure prediction problem could be solved using the current PDB library". Proc Natl Acad Sci USA. 102 (4): 1029–34. Bibcode:2005PNAS..102.1029Z. doi:10.1073/pnas.0407152101. PMC 545829. PMID 15653774.
  5. 5.0 5.1 5.2 Zemla A. (2003). "LGA — A Method for Finding 3-D Similarities in Protein Structures". Nucleic Acids Research. 31 (13): 3370–3374. doi:10.1093/nar/gkg571. PMC 168977. PMID 12824330.
  6. Godzik A (1996). "The structural alignment between two proteins: Is there a unique answer?". Protein Science. 5 (7): 1325–38. doi:10.1002/pro.5560050711. PMC 2143456. PMID 8819165.
  7. Martin ACR (1982). "Rapid Comparison of Protein Structures". Acta Crystallogr A. 38 (6): 871–873. Bibcode:1982AcCrA..38..871M. doi:10.1107/S0567739482001806.
  8. Theobald DL, Wuttke DS (2006). "Empirical Bayes hierarchical models for regularizing maximum likelihood estimation in the matrix Gaussian Procrustes problem". Proceedings of the National Academy of Sciences. 103 (49): 18521–18527. Bibcode:2006PNAS..10318521T. doi:10.1073/pnas.0508445103. PMC 1664551. PMID 17130458.
  9. Theobald DL, Wuttke DS (2006). "THESEUS: Maximum likelihood superpositioning and analysis of macromolecular structures". Bioinformatics. 22 (17): 2171–2172. doi:10.1093/bioinformatics/btl332. PMC 2584349. PMID 16777907.
  10. Diederichs K. (1995). "Structural superposition of proteins with unknown alignment and detection of topological similarity using a six-dimensional search algorithm". Proteins. 23 (2): 187–95. doi:10.1002/prot.340230208. PMID 8592700. S2CID 3469775.
  11. Maiti R, Van Domselaar GH, Zhang H, Wishart DS (2004). "SuperPose: a simple server for sophisticated structural superposition". Nucleic Acids Res. 32 (Web Server issue): W590–4. doi:10.1093/nar/gkh477. PMC 441615. PMID 15215457.
  12. 12.0 12.1 12.2 12.3 12.4 Ortiz, AR; Strauss CE; Olmea O. (2002). "MAMMOTH (matching molecular models obtained from theory): an automated method for model comparison". Protein Science. 11 (11): 2606–2621. doi:10.1110/ps.0215902. PMC 2373724. PMID 12381844.
  13. 13.0 13.1 13.2 13.3 Zhang Y, Skolnick J (2004). "Scoring function for automated assessment of protein structure template quality". Proteins. 57 (4): 702–710. doi:10.1002/prot.20264. PMID 15476259. S2CID 7954787.
  14. 14.0 14.1 Siew N, Elofsson A, Rychlewsk L, Fischer D (2000). "MaxSub: an automated measure for the assessment of protein structure prediction quality". Bioinformatics. 16 (9): 776–85. doi:10.1093/bioinformatics/16.9.776. PMID 11108700.
  15. 15.0 15.1 15.2 Poleksic A (2009). "Algorithms for optimal protein structure alignment". Bioinformatics. 25 (21): 2751–2756. doi:10.1093/bioinformatics/btp530. PMID 19734152.
  16. Lathrop RH. (1994). "The protein threading problem with sequence amino acid interaction preferences is NP-complete". Protein Eng. 7 (9): 1059–68. CiteSeerX 10.1.1.367.9081. doi:10.1093/protein/7.9.1059. PMID 7831276.
  17. Wang L, Jiang T (1994). "On the complexity of multiple sequence alignment". Journal of Computational Biology. 1 (4): 337–48. CiteSeerX 10.1.1.408.894. doi:10.1089/cmb.1994.1.337. PMID 8790475.
  18. Kolodny R, Linial N (2004). "Approximate protein structural alignment in polynomial time". PNAS. 101 (33): 12201–12206. doi:10.1073/pnas.0404383101. PMC 514457. PMID 15304646.
  19. Martinez L, Andreani, R, Martinez, JM. (2007). "Convergent algorithms for protein structural alignment". BMC Bioinformatics. 8: 306. doi:10.1186/1471-2105-8-306. PMC 1995224. PMID 17714583.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  20. 20.0 20.1 Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY ISBN 0879697121
  21. Holm L, Sander C (1996). "Mapping the protein universe". Science. 273 (5275): 595–603. Bibcode:1996Sci...273..595H. doi:10.1126/science.273.5275.595. PMID 8662544. S2CID 7509134.
  22. 22.0 22.1 22.2 Shindyalov, I.N.; Bourne P.E. (1998). "Protein structure alignment by incremental combinatorial extension (CE) of the optimal path". Protein Engineering. 11 (9): 739–747. doi:10.1093/protein/11.9.739. PMID 9796821.
  23. Prlic A, Bliven S, Rose PW, Bluhm WF, Bizon C, Godzik A, Bourne PE (2010). "Pre-calculated protein structure alignments at the RCSB PDB website". Bioinformatics. 26 (23): 2983–2985. doi:10.1093/bioinformatics/btq572. PMC 3003546. PMID 20937596.
  24. Pin-Hao Chi; Bin Pang; Dmitry Korkin; Chi-Ren Shyu (2009). "Efficient SCOP-fold classification and retrieval using index-based protein substructure alignments". Bioinformatics. 25 (19): 2559–2565. doi:10.1093/bioinformatics/btp474. PMID 19667079.
  25. Sara Cheek; Yuan Qi; Sri Krishna; Lisa N Kinch; Nick V Grishin (2004). "SCOPmap: Automated assignment of protein structures to evolutionary superfamilies". BMC Bioinformatics. 5 (197): 197. doi:10.1186/1471-2105-5-197. PMC 544345. PMID 15598351.
  26. Kai Wang; Ram Samudrala (2005). "FSSA: a novel method for identifying functional signatures from structural alignments". Bioinformatics. 21 (13): 2969–2977. doi:10.1093/bioinformatics/bti471. PMID 15860561.
  27. Taylor WR, Flores TP, Orengo CA (1994). "Multiple protein structure alignment". Protein Sci. 3 (10): 1858–70. doi:10.1002/pro.5560031025. PMC 2142613. PMID 7849601.
  28. Orengo CA, Michie AD, Jones S, Jones DT, Swindells MB, Thornton JM (1997). "CATH: A hierarchical classification of protein domain structures". Structure. 5 (8): 1093–1108. doi:10.1016/S0969-2126(97)00260-8. PMID 9309224.
  29. 29.0 29.1 Zhang Y, Skolnick J (2005). "TM-align: A protein structure alignment algorithm based on the TM-score". Nucleic Acids Research. 33 (7): 2302–2309. doi:10.1093/nar/gki524. PMC 1084323. PMID 15849316.
  30. Stefano Angaran; Mary Ellen Bock; Claudio Garutti; Concettina Guerra1 (2009). "MolLoc: a web tool for the local structural alignment of molecular surfaces". Nucleic Acids Research. 37 (Web Server issue): W565–70. doi:10.1093/nar/gkp405. PMC 2703929. PMID 19465382.
  31. Gaëlle Debret; Arnaud Martel; Philippe Cuniasse (2009). "RASMOT-3D PRO: a 3D motif search webserver". Nucleic Acids Research. 37 (Web Server issue): W459–64. doi:10.1093/nar/gkp304. PMC 2703991. PMID 19417073.
  32. 32.0 32.1 Alexandra Shulman-Peleg; Maxim Shatsky; Ruth Nussinov; Haim J. Wolfson (2008). "MultiBind and MAPPIS: webservers for multiple alignment of protein 3D-binding sites and their interactions". Nucleic Acids Research. 36 (Web Server issue): W260–4. doi:10.1093/nar/gkn185. PMC 2447750. PMID 18467424.
  33. 33.0 33.1 Alexandra Shulman-Peleg; Maxim Shatsky; Ruth Nussinov; Haim J Wolfson (2007). "प्रोटीन-प्रोटीन कॉम्प्लेक्स में हॉट स्पॉट इंटरैक्शन का स्थानिक रासायनिक संरक्षण". BMC Biology. 5 (43): 43. doi:10.1186/1741-7007-5-43. PMC 2231411. PMID 17925020.
  34. Gabriele Ausiello; Pier Federico Gherardini; Paolo Marcatili; Anna Tramontano; Allegra Via; Manuela Helmer-Citterich (2008). "FunClust: a web server for the identification of structural motifs in a set of non-homologous protein structures". BMC Biology. 9 (Suppl 2): S2. doi:10.1186/1471-2105-9-S2-S2. PMC 2323665. PMID 18387204.
  35. Janez Konc; Dušanka Janežič (2010). "स्थानीय संरचनात्मक संरेखण द्वारा संरचनात्मक रूप से समान प्रोटीन बाइंडिंग साइटों का पता लगाने के लिए प्रोबीआईएस एल्गोरिदम". Bioinformatics. 26 (9): 1160–1168. doi:10.1093/bioinformatics/btq100. PMC 2859123. PMID 20305268.
  36. Hui Sun Lee; Wonpil Im (2012). "संरचना-आधारित औषधि डिजाइन के लिए स्थानीय संरचना संरेखण का उपयोग करके लिगैंड टेम्पलेट्स की पहचान". Journal of Chemical Information and Modeling. 52 (10): 2784–2795. doi:10.1021/ci300178e. PMC 3478504. PMID 22978550.
  37. Hui Sun Lee; Wonpil Im (2013). "स्थानीय संरचना संरेखण और इसकी प्रदर्शन संपूरकता द्वारा लिगैंड बाइंडिंग साइट का पता लगाना". Journal of Chemical Information and Modeling. 53 (9): 2462–2470. doi:10.1021/ci4003602. PMC 3821077. PMID 23957286.
  38. 38.0 38.1 Barthel D., Hirst J.D., Blazewicz J., Burke E.K. and Krasnogor N. (2007). "ProCKSI: a decision support system for Protein (Structure) Comparison, Knowledge, Similarity and Information". BMC Bioinformatics. 8: 416. doi:10.1186/1471-2105-8-416. PMC 2222653. PMID 17963510.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  39. Torarinsson E, Sawera M, Havgaard JH, Fredholm M, Gorodkin J (2006). "Thousands of corresponding human and mouse genomic regions unalignable in primary sequence contain common RNA structure". Genome Res. 16 (7): 885–9. doi:10.1101/gr.5226606. PMC 1484455. PMID 16751343.
  40. Hoksza D, Svozil D (2012). "Efficient RNA pairwise structure comparison by SETTER method". Bioinformatics. 28 (14): 1858–1864. doi:10.1093/bioinformatics/bts301. PMID 22611129.
  41. Cech P, Svozil D, Hoksza D (2012). "SETTER: web server for RNA structure comparison". Nucleic Acids Research. 40 (W1): W42–W48. doi:10.1093/nar/gks560. PMC 3394248. PMID 22693209.
  42. Havgaard JH, Lyngso RB, Stormo GD, Gorodkin J (2005). "Pairwise local structural alignment of RNA sequences with sequence similarity less than 40%". Bioinformatics. 21 (9): 1815–24. doi:10.1093/bioinformatics/bti279. PMID 15657094.
  43. Mathews DH, Turner DH (2006). "Prediction of RNA secondary structure by free energy minimization". Curr Opin Struct Biol. 16 (3): 270–8. doi:10.1016/j.sbi.2006.05.010. PMID 16713706.


अग्रिम पठन