संरचनात्मक संरेखण

संरचनात्मक संरेखण उनके आकार और त्रि-आयामी तृतीयक संरचना के आधार पर दो या दो से अधिक बहुलक संरचनाओं के बीच अनुक्रम समरूपता स्थापित करने का प्रयास करता है। यह प्रक्रिया सामान्यतः प्रोटीन तृतीयक संरचनाओं पर लागू होती है लेकिन इसका उपयोग बड़े आरएनए अणुओं के लिए भी किया जा सकता है। सरल संरचनात्मक सुपरपोजिशन के विपरीत, जहां दो संरचनाओं के कम से कम कुछ समकक्ष अवशेष ज्ञात होते हैं, संरचनात्मक संरेखण के लिए समकक्ष स्थितियों के किसी प्राथमिक ज्ञान की आवश्यकता नहीं होती है। कम अनुक्रम समानता वाले प्रोटीन की तुलना के लिए संरचनात्मक संरेखण एक मूल्यवान उपकरण है, जहां मानक अनुक्रम संरेखण तकनीकों द्वारा प्रोटीन के बीच विकासवादी संबंधों का आसानी से पता नहीं लगाया जा सकता है। इसलिए संरचनात्मक संरेखण का उपयोग उन प्रोटीनों के बीच विकासवादी संबंधों को दर्शाने के लिए किया जा सकता है जो बहुत कम सामान्य अनुक्रम साझा करते हैं। हालाँकि, साझा विकासवादी वंशावली के साक्ष्य के रूप में परिणामों का उपयोग करते समय सावधानी बरती जानी चाहिए क्योंकि अभिसरण विकास के संभावित जटिल प्रभाव जिसके द्वारा कई असंबंधित एमिनो एसिड अनुक्रम एक सामान्य तृतीयक संरचना पर एकत्रित होते हैं।

संरचनात्मक संरेखण दो अनुक्रमों या एकाधिक अनुक्रम संरेखण की तुलना कर सकते हैं। क्योंकि ये संरेखण सभी क्वेरी अनुक्रमों की त्रि-आयामी अनुरूपताओं के बारे में जानकारी पर निर्भर करते हैं, विधि का उपयोग केवल उन अनुक्रमों पर किया जा सकता है जहां ये संरचनाएं ज्ञात हैं। ये सामान्यतःएक्स - रे क्रिस्टलोग्राफी या एनएमआर स्पेक्ट्रोस्कोपी द्वारा पाए जाते हैं। प्रोटीन संरचना भविष्यवाणी विधियों द्वारा निर्मित संरचनाओं पर संरचनात्मक संरेखण करना संभव है। दरअसल, ऐसी भविष्यवाणियों के मूल्यांकन के लिए प्रायः मॉडल की गुणवत्ता का आकलन करने के लिए मॉडल और वास्तविक ज्ञात संरचना के बीच एक संरचनात्मक संरेखण की आवश्यकता होती है। संरचनात्मक जीनोमिक्स और प्रोटिओमिक्स प्रयासों से डेटा का विश्लेषण करने में संरचनात्मक संरेखण विशेष रूप से उपयोगी होते हैं, और उन्हें विशुद्ध रूप से अनुक्रम-आधारित जैव सूचना विज्ञान विधियों द्वारा उत्पादित संरेखण का मूल्यांकन करने के लिए तुलना बिंदु के रूप में उपयोग किया जा सकता है।

संरचनात्मक संरेखण के आउटपुट परमाणु निर्देशांक का एक सुपरपोजिशन और संरचनाओं के बीच न्यूनतम मूल माध्य वर्ग विचलन (रूट माध्य वर्ग विचलन (जैव सूचना विज्ञान)) हैं। दो संरेखित संरचनाओं का आरएमएसडी एक दूसरे से उनके विचलन को इंगित करता है। एक या अधिक इनपुट संरचनाओं के भीतर कई प्रोटीन डोमेन के अस्तित्व से संरचनात्मक संरेखण जटिल हो सकता है, क्योंकि संरेखित होने वाली दो संरचनाओं के बीच डोमेन के सापेक्ष अभिविन्यास में परिवर्तन आरएमएसडी को कृत्रिम रूप से बढ़ा सकता है।

संरचनात्मक संरेखण द्वारा उत्पादित डेटा
एक सफल संरचनात्मक संरेखण से उत्पन्न न्यूनतम जानकारी अवशेषों का एक सेट है जिसे संरचनाओं के बीच समकक्ष माना जाता है। समतुल्यता के इस सेट का उपयोग सामान्यतः प्रत्येक इनपुट संरचना के लिए त्रि-आयामी निर्देशांक को सुपरपोज़ करने के लिए किया जाता है। (ध्यान दें कि एक इनपुट तत्व को संदर्भ के रूप में तय किया जा सकता है और इसलिए इसके सुपरपोज़्ड निर्देशांक नहीं बदलते हैं।) फिट संरचनाओं का उपयोग पारस्परिक आरएमएसडी मूल्यों की गणना करने के लिए किया जा सकता है, साथ ही संरचनात्मक समानता के अन्य अधिक परिष्कृत उपायों जैसे कि वैश्विक दूरी परीक्षण (जीडीटी, CASP (सीएएसपी) में प्रयुक्त मीट्रिक)। संरचनात्मक संरेखण का तात्पर्य एक संगत एक-आयामी अनुक्रम संरेखण से भी है, जिससे एक अनुक्रम पहचान, या इनपुट संरचनाओं के बीच समान अवशेषों का प्रतिशत, यह मापने के रूप में गणना की जा सकती है कि दोनों अनुक्रम कितनी निकटता से संबंधित हैं।

तुलना के प्रकार
क्योंकि प्रोटीन संरचनाएं अमीनो एसिड से बनी होती हैं जिनकी पक्ष श्रृंखला एक सामान्य प्रोटीन बैकबोन से जुड़ी होती हैं, प्रोटीन मैक्रोमोलेक्यूल बनाने वाले परमाणुओं के विभिन्न संभावित उपसमूहों का उपयोग संरचनात्मक संरेखण का उत्पादन करने और संबंधित आरएमएसडी मूल्यों की गणना करने में किया जा सकता है। बहुत अलग अनुक्रमों के साथ संरचनाओं को संरेखित करते समय, साइड चेन परमाणुओं को सामान्यतः ध्यान में नहीं रखा जाता है क्योंकि उनकी पहचान कई संरेखित अवशेषों के बीच भिन्न होती है। इस कारण से संरचनात्मक संरेखण विधियों के लिए डिफ़ॉल्ट रूप से केवल पेप्टाइड बंध में सम्मिलित बैकबोन के परमाणुओं का उपयोग करना आम बात है। सादगी और दक्षता के लिए, प्रायः केवल अल्फा कार्बन स्थितियों पर विचार किया जाता है, क्योंकि पेप्टाइड बॉन्ड में न्यूनतम भिन्न विमान (ज्यामिति) संरचना होती है। केवल जब संरेखित की जाने वाली संरचनाएं अत्यधिक समान या यहां तक ​​​​कि समान होती हैं, तो साइड-चेन परमाणु स्थितियों को संरेखित करना सार्थक होता है, उस स्थिति में आरएमएसडी न केवल प्रोटीन बैकबोन की संरचना को दर्शाता है, बल्कि साइड चेन के  रोटामेरिक अवस्था को भी दर्शाता है। अन्य तुलनात्मक मानदंड जो रव को कम करते हैं और सकारात्मक मिलान को बढ़ाते हैं, उनमें माध्यमिक संरचना असाइनमेंट, मूल संपर्क मानचित्र या अवशेष इंटरैक्शन पैटर्न, साइड चेन पैकिंग के उपाय और  हाइड्रोजन बंध  प्रतिधारण के उपाय सम्मिलित हैं।

संरचनात्मक सुपरपोजिशन
प्रोटीन संरचनाओं के बीच सबसे बुनियादी संभव तुलना इनपुट संरचनाओं को संरेखित करने का कोई प्रयास नहीं करती है और यह निर्धारित करने के लिए इनपुट के रूप में एक पूर्व-गणना संरेखण की आवश्यकता होती है कि अनुक्रम में कौन से अवशेषों पर आरएमएसडी गणना में विचार किया जाना है। संरचनात्मक सुपरपोजिशन का उपयोग सामान्यतः एक ही प्रोटीन के कई अनुरूपताओं की तुलना करने के लिए किया जाता है (जिस स्थिति में कोई संरेखण आवश्यक नहीं है, क्योंकि अनुक्रम समान हैं) और दो या दो से अधिक अनुक्रमों के बीच केवल अनुक्रम जानकारी का उपयोग करके उत्पादित संरेखण की गुणवत्ता का मूल्यांकन करने के लिए जिनकी संरचनाएं ज्ञात हैं। यह विधि पारंपरिक रूप से एक सरल न्यूनतम-वर्ग फिटिंग एल्गोरिथ्म का उपयोग करती है, जिसमें सुपरपोज़िशन में सभी संरचनाओं के बीच वर्ग दूरी के योग को कम करके इष्टतम घुमाव और अनुवाद पाए जाते हैं। हाल ही में, अधिकतम संभावना और बायेसियन तरीकों ने सुपरपोजिशन के लिए अनुमानित घुमावों, अनुवादों और सहप्रसरण आव्यूह की सटीकता में काफी वृद्धि की है।

पूर्व निर्धारित संरेखण की आवश्यकता के बिना प्रोटीन संरचनाओं के बीच टोपोलॉजिकल संबंधों की पहचान करने के लिए बहुआयामी घुमाव और संशोधित चतुर्भुज पर आधारित एल्गोरिदम विकसित किए गए हैं। ऐसे एल्गोरिदम ने हेलिक्स बंडल फोर-हेलिक्स बंडल जैसे कैनोनिकल फोल्ड की सफलतापूर्वक पहचान की है। SuperPose विधि सापेक्ष डोमेन रोटेशन और अन्य संरचनात्मक कमियों को ठीक करने के लिए पर्याप्त रूप से विस्तार योग्य है।

समानता का मूल्यांकन
प्रायः संरचनात्मक सुपरपोजिशन की खोज का उद्देश्य स्वयं सुपरपोजिशन नहीं होता है, बल्कि दो संरचनाओं की समानता का मूल्यांकन या दूरस्थ संरेखण में विश्वास होता है।  अधिकतम संरचनात्मक सुपरपोज़िशन से एक सूक्ष्म लेकिन महत्वपूर्ण अंतर एक संरेखण को एक सार्थक समानता स्कोर में परिवर्तित करना है।  अधिकांश विधियाँ सुपरपोज़िशन की गुणवत्ता को इंगित करने वाले किसी प्रकार के स्कोर का उत्पादन करती हैं।     हालाँकि, कोई वास्तव में जो चाहता है वह केवल अनुमानित  Z-स्कोर  या संयोग से देखे गए सुपरपोजिशन को देखने का अनुमानित ई-मूल्य नहीं है, बल्कि वह चाहता है कि अनुमानित ई-मूल्य का वास्तविक ई-मूल्य के साथ गहरा संबंध हो। गंभीर रूप से, भले ही किसी विधि का अनुमानित ई-मूल्य औसतन बिल्कुल सही हो, अगर इसकी अनुमानित मूल्य पीढ़ी प्रक्रिया पर कम मानक विचलन का अभाव है, तो तुलनात्मक सेट के लिए क्वेरी प्रोटीन की सापेक्ष समानता का रैंक क्रम शायद ही कभी सही क्रम से सहमत होगा।

अलग-अलग विधियाँ अलग-अलग संख्या में अवशेषों को आरोपित करेंगी क्योंकि वे अलग-अलग गुणवत्ता आश्वासन और  ओवरलैप  की अलग-अलग परिभाषाओं का उपयोग करते हैं; कुछ में केवल कई स्थानीय और वैश्विक सुपरपोजिशन मानदंडों को पूरा करने वाले अवशेष सम्मिलित हैं और अन्य अधिक लालची, लचीले और स्वच्छंद हैं। सुपरपोज़्ड परमाणुओं की अधिक संख्या का तात्पर्य अधिक समानता हो सकता है लेकिन यह हमेशा सुपरपोज़िशन की असंभाव्यता को मापने के लिए सर्वोत्तम ई-मूल्य उत्पन्न नहीं कर सकता है और इस प्रकार समानता का आकलन करने के लिए उतना उपयोगी नहीं है, खासकर दूरस्थ होमोलोग्स में।

इष्टतम समाधान
एक ज्ञात संरचना पर प्रोटीन अनुक्रम का इष्टतम प्रोटीन थ्रेडिंग और एक इष्टतम एकाधिक अनुक्रम संरेखण का उत्पादन एनपी-पूर्ण दिखाया गया है।  हालाँकि, इसका तात्पर्य यह नहीं है कि संरचनात्मक संरेखण समस्या एनपी-पूर्ण है। कड़ाई से बोलते हुए, प्रोटीन संरचना संरेखण समस्या का एक इष्टतम समाधान केवल कुछ प्रोटीन संरचना समानता उपायों के लिए जाना जाता है, जैसे कि प्रोटीन संरचना भविष्यवाणी प्रयोगों में उपयोग किए जाने वाले उपाय, GDT_TS और मैक्ससब (MaxSub)। इन उपायों को दो प्रोटीनों में परमाणुओं की संख्या को अधिकतम करने में सक्षम एल्गोरिदम का उपयोग करके सख्ती से अनुकूलित किया जा सकता है जिन्हें पूर्वनिर्धारित दूरी कटऑफ के तहत सुपरइम्पोज किया जा सकता है। दुर्भाग्य से, इष्टतम समाधान के लिए एल्गोरिदम व्यावहारिक नहीं है, क्योंकि इसका चलने का समय न केवल लंबाई पर बल्कि इनपुट प्रोटीन की आंतरिक ज्यामिति पर भी निर्भर करता है।

अनुमानित समाधान
संरचनात्मक संरेखण के लिए अनुमानित बहुपद-समय एल्गोरिदम जो किसी दिए गए स्कोरिंग फ़ंक्शन के लिए सन्निकटन पैरामीटर के भीतर  इष्टतम  समाधानों का एक परिवार तैयार करते हैं, विकसित किए गए हैं। यद्यपि ये एल्गोरिदम सैद्धांतिक रूप से अनुमानित प्रोटीन संरचना संरेखण समस्या को ट्रैक्टेबल के रूप में वर्गीकृत करते हैं, फिर भी वे बड़े पैमाने पर प्रोटीन संरचना विश्लेषण के लिए कम्प्यूटेशनल रूप से बहुत महंगे हैं। परिणामस्वरूप, व्यावहारिक एल्गोरिदम जो स्कोरिंग फ़ंक्शन दिए जाने पर संरेखण के वैश्विक समाधानों में परिवर्तित होते हैं, उपस्थित नहीं हैं। अधिकांश एल्गोरिदम, इसलिए, अनुमानी हैं, लेकिन एल्गोरिदम जो स्कोरिंग कार्यों के कम से कम स्थानीय अधिकतमकर्ताओं के अभिसरण की गारंटी देते हैं, और व्यावहारिक हैं, विकसित किए गए हैं।

संरचनाओं का प्रतिनिधित्व
प्रोटीन संरचनाओं को तुलनीय बनाने के लिए उन्हें कुछ समन्वय-स्वतंत्र स्थान में प्रस्तुत किया जाना चाहिए। यह सामान्यतः एक अनुक्रम-से-अनुक्रम आव्यूह या आव्यूह की श्रृंखला का निर्माण करके प्राप्त किया जाता है जो तुलनात्मक आव्यूह को सम्मिलित करता है: एक निश्चित समन्वय स्थान के सापेक्ष पूर्ण दूरी के बजाय। एक सहज प्रतिनिधित्व दूरी आव्यूह है, जो एक दो-आयामी आव्यूह (गणित) है जिसमें प्रत्येक संरचना में परमाणुओं के कुछ उपवर्ग (जैसे अल्फा कार्बन) के बीच सभी जोड़ीदार दूरियां सम्मिलित हैं। जैसे-जैसे एक साथ संरेखित होने वाली संरचनाओं की संख्या बढ़ती है, आव्यूह की आयामीता बढ़ती है। प्रोटीन को मोटे मीट्रिक जैसे माध्यमिक संरचना तत्वों (एसएसई) या संरचनात्मक टुकड़ों में कम करने से दूरियों को त्यागने से जानकारी के नुकसान के अतिरिक्त, समझदार संरेखण भी उत्पन्न हो सकता है, क्योंकि संकेत रव भी खारिज हो जाता है। गणना की सुविधा के लिए एक प्रतिनिधित्व चुनना एक कुशल संरेखण तंत्र विकसित करने के लिए महत्वपूर्ण है।

तरीके
संरचनात्मक संरेखण तकनीकों का उपयोग व्यक्तिगत संरचनाओं या संरचनाओं के सेट की तुलना के साथ-साथ सभी तुलना डेटाबेस के उत्पादन में किया गया है जो प्रोटीन डाटा बैंक (पीडीबी) में उपस्थित संरचनाओं की प्रत्येक जोड़ी के बीच विचलन को मापते हैं। ऐसे डेटाबेस का उपयोग प्रोटीन को उनकी तृतीयक संरचना के आधार पर वर्गीकृत करने के लिए किया जाता है।

डीएएलआई(DALI)
एक सामान्य और लोकप्रिय संरचनात्मक संरेखण विधि DALI, या डिस्टेंस-मैट्रिक्स  एलाइनमेंट  मेथड (Distance-matrix ALIgnment method) है, जो इनपुट संरचनाओं को हेक्सापेप्टाइड टुकड़ों में तोड़ती है और क्रमिक टुकड़ों के बीच संपर्क पैटर्न का मूल्यांकन करके दूरी आव्यूह की गणना करती है। द्वितीयक संरचना विशेषताएँ जिनमें अनुक्रम में सन्निहित अवशेष सम्मिलित होते हैं, आव्यूह के मुख्य विकर्ण पर दिखाई देते हैं; आव्यूह में अन्य विकर्ण उन अवशेषों के बीच स्थानिक संपर्कों को दर्शाते हैं जो अनुक्रम में एक दूसरे के निकट नहीं हैं। जब ये विकर्ण मुख्य विकर्ण के समानांतर होते हैं, तो वे जिन विशेषताओं का प्रतिनिधित्व करते हैं वे समानांतर होती हैं; जब वे लंबवत होते हैं, तो उनकी विशेषताएं प्रतिसमानांतर होती हैं। यह प्रतिनिधित्व मेमोरी-इंटेंसिव (स्मृति-अवधारक) है क्योंकि वर्ग आव्यूह में विशेषताएं मुख्य विकर्ण के बारे में सममित (और इस प्रकार अनावश्यक) हैं।

जब दो प्रोटीन की दूरी वाले मैट्रिक्स लगभग समान स्थिति में समान या समान विशेषताएं साझा करते हैं, तो कहा जा सकता है कि उनके द्वितीयक संरचना तत्वों को जोड़ने वाले समान-लंबाई वाले लूप के साथ समान सिलवटें (फोल्ड्स) होती हैं। DALI की वास्तविक संरेखण प्रक्रिया के लिए दो प्रोटीनों की दूरी मैट्रिक्स के निर्माण के बाद समानता खोज की आवश्यकता होती है; यह सामान्यतः 6x6 आकार के ओवरलैपिंग सबमैट्रिस की एक श्रृंखला के माध्यम से संचालित किया जाता है। उपाव्यूह मैचों को फिर एक मानक स्कोर-अधिकतमकरण एल्गोरिथ्म के माध्यम से अंतिम संरेखण में पुन: संयोजित किया जाता है - DALI के मूल संस्करण में एक संरचनात्मक समानता स्कोर को अधिकतम करने के लिए मोंटे कार्लो विधि सिमुलेशन का उपयोग किया जाता है जो कि अनुमानित संबंधित परमाणुओं के बीच की दूरी का एक कार्य है। विशेष रूप से, लूप गतिशीलता, हेलिक्स टोरसन और अन्य छोटी संरचनात्मक विविधताओं द्वारा प्रांरम्भ किए गए रव के प्रभाव को कम करने के लिए संबंधित विशेषताओं के भीतर अधिक दूर के परमाणुओं को तेजी से कम किया जाता है। क्योंकि DALI एक ऑल-टू-ऑल डिस्टेंस आव्यूह पर निर्भर करता है, यह इस संभावना को ध्यान में रख सकता है कि संरचनात्मक रूप से संरेखित विशेषताएं तुलना किए जा रहे दो अनुक्रमों के भीतर अलग-अलग क्रम में दिखाई दे सकती हैं।

DALI पद्धति का उपयोग एक डेटाबेस बनाने के लिए भी किया गया है जिसे संरचनात्मक रूप से समान प्रोटीन के परिवारों (प्रोटीन की संरचना-संरेखण के आधार पर गुना वर्गीकरण, या संरचनात्मक रूप से समान प्रोटीन के परिवार) के रूप में जाना जाता है, जिसमें सभी ज्ञात प्रोटीन संरचनाओं को उनके संरचनात्मक निकटम और गुना वर्गीकरण को निर्धारित करने के लिए एक दूसरे के साथ संरेखित किया जाता है। DALI पर आधारित एक खोजने योग्य डेटाबेस है और साथ ही एक डाउनलोड करने योग्य प्रोग्राम और वेब खोज है जो एक स्टैंडअलोन संस्करण पर आधारित है जिसे DaliLite के नाम से जाना जाता है।

संयुक्त विस्तार
कॉम्बिनेटोरियल एक्सटेंशन (सीई) विधि DALI के समान है क्योंकि यह क्वेरी सेट में प्रत्येक संरचना को टुकड़ों की एक श्रृंखला में तोड़ देती है जिसे फिर पूर्ण संरेखण में पुन: एकत्रित करने का प्रयास किया जाता है। संरेखित खंड जोड़े या एएफपी नामक टुकड़ों के जोड़ीदार संयोजनों की एक श्रृंखला का उपयोग समानता आव्यूह को परिभाषित करने के लिए किया जाता है जिसके माध्यम से अंतिम संरेखण की पहचान करने के लिए एक इष्टतम पथ उत्पन्न होता है। केवल एएफपी जो स्थानीय समानता के लिए दिए गए मानदंडों को पूरा करते हैं, उन्हें आवश्यक खोज स्थान को कम करने और इस प्रकार दक्षता बढ़ाने के साधन के रूप में आव्यूह में सम्मिलित किया जाता है। अनेक समानता मेट्रिक्स संभव हैं; सीई विधि की मूल परिभाषा में केवल संरचनात्मक सुपरपोजिशन और अंतर-अवशेष दूरियां सम्मिलित थीं, लेकिन तब से इसे माध्यमिक संरचना, विलायक एक्सपोजर, हाइड्रोजन-बॉन्डिंग पैटर्न और डायहेड्रल कोण जैसे स्थानीय पर्यावरणीय गुणों को सम्मिलित करने के लिए विस्तारित किया गया है।

अनुक्रमों के माध्यम से रैखिक रूप से प्रगति करके और अगले संभावित उच्च स्कोरिंग एएफपी जोड़ी के साथ संरेखण का विस्तार करके एक संरेखण पथ की गणना समानता आव्यूह के माध्यम से इष्टतम पथ के रूप में की जाती है। प्रारंभिक एएफपी जोड़ी जो संरेखण को न्यूक्लियेट करती है वह अनुक्रम आव्यूह में किसी भी बिंदु पर हो सकती है। इसके बाद एक्सटेंशन अगले एएफपी के साथ आगे बढ़ते हैं जो दिए गए दूरी मानदंडों को पूरा करता है और संरेखण को कम अंतराल आकार तक सीमित करता है। प्रत्येक एएफपी का आकार और अधिकतम अंतराल आकार आवश्यक इनपुट पैरामीटर हैं, लेकिन सामान्यतः क्रमशः 8 और 30 के अनुभवजन्य रूप से निर्धारित मानों पर सेट होते हैं। DALI और एसएसएपी (एसएसएपी (SSAP)) की तरह, CE का उपयोग ऑल-टू-ऑल फोल्ड वर्गीकरण डेटाबेस बनाने के लिए किया गया है। पीडीबी में ज्ञात प्रोटीन संरचनाओं से।

प्रोटीन डेटा बैंक ने हाल ही में RCSB PDB प्रोटीन तुलना टूल के हिस्से के रूप में CE, मैमथ और FATCAT का एक अद्यतन संस्करण जारी किया है। यह सीई की एक नई विविधता प्रदान करता है जो प्रोटीन संरचनाओं में परिपत्र क्रमपरिवर्तन प्रोटीन का पता लगा सकता है।

मैमथ
मैमथ (MAMMOTH) लगभग सभी अन्य तरीकों की तुलना में संरेखण समस्या को एक अलग उद्देश्य से देखता है। एक ऐसे संरेखण को खोजने की कोशिश करने के बजाय जो अधिकतम संख्या में अवशेषों को सुपरइम्पोज़ करता है, यह संरचनात्मक संरेखण के उपसमुच्चय की तलाश करता है जिसके संयोग से घटित होने की संभावना कम से कम हो। ऐसा करने के लिए यह फ्लैग्स के साथ एक स्थानीय रूपांकन संरेखण को चिह्नित करता है ताकि यह इंगित किया जा सके कि कौन से अवशेष एक साथ अधिक कठोर मानदंडों को पूरा करते हैं: 1) स्थानीय संरचना ओवरलैप 2) नियमित माध्यमिक संरचना 3) 3D-सुपरपोजिशन 4) प्राथमिक अनुक्रम में समान क्रम। यह संयोग से परिणाम के लिए प्रत्याशा मूल्य की गणना करने के लिए उच्च-विश्वास मिलान वाले अवशेषों की संख्या और प्रोटीन के आकार के आंकड़ों को परिवर्तित करता है। यह दूरस्थ होमोलोग्स से मिलान करने में उत्कृष्टता प्राप्त करता है, विशेष रूप से SCOP (एससीओपी) जैसे संरचना परिवारों के लिए एबी इनिटियो (ab initio) संरचना भविष्यवाणी द्वारा उत्पन्न संरचनाएं, क्योंकि यह सांख्यिकीय रूप से विश्वसनीय उप संरेखण निकालने पर जोर देती है न कि अधिकतम अनुक्रम संरेखण या अधिकतम 3D सुपरपोजिशन प्राप्त करने में।

लगातार 7 अवशेषों की प्रत्येक ओवरलैपिंग विंडो के लिए यह आसन्न सी-अल्फा अवशेषों के बीच विस्थापन दिशा इकाई वैक्टर के सेट की गणना करता है। यूआरएमएस स्कोर के आधार पर सभी बनाम सभी स्थानीय रूपांकनों की तुलना की जाती है। ये मान गतिशील प्रोग्रामिंग के लिए जोड़ी संरेखण स्कोर प्रविष्टियाँ बन जाते हैं जो बीज जोड़ी-वार अवशेष संरेखण उत्पन्न करता है। दूसरा चरण एक संशोधित मैक्ससब एल्गोरिदम का उपयोग करता है: प्रत्येक प्रोटीन में एक एकल 7 निवास संरेखित जोड़ी का उपयोग दो पूर्ण लंबाई प्रोटीन संरचनाओं को इन 7 सी-अल्फा को अधिकतम रूप से सुपरइम्पोज़ करने के लिए उन्मुख करने के लिए किया जाता है, फिर इस अभिविन्यास में यह किसी भी अतिरिक्त संरेखित जोड़े के लिए स्कैन करता है जो 3 डी में करीब हैं। यह इस विस्तारित सेट को सुपरइम्पोज़ करने के लिए संरचनाओं को पुन: उन्मुख करता है और तब तक पुनरावृत्त करता है जब तक कि 3 डी में कोई और जोड़े मेल नहीं खाते। बीज संरेखण में प्रत्येक 7 अवशेष विंडो के लिए यह प्रक्रिया पुनः आरंभ की जाती है। आउटपुट इनमें से किसी भी प्रारंभिक बीज से पाए गए परमाणुओं की अधिकतम संख्या है। यह आँकड़ा प्रोटीन की समानता के लिए एक कैलिब्रेटेड ई-वैल्यू में परिवर्तित हो जाता है।

मैमथ प्रारंभिक संरेखण को दोहराने या उच्च गुणवत्ता वाले उप-उप-समूह का विस्तार करने का कोई प्रयास नहीं करता है। इसलिए, यह जो बीज संरेखण प्रदर्शित करता है उसकी तुलना DALI या टीएम संरेखण से नहीं की जा सकती क्योंकि इसे केवल खोज स्थान को छोटा करने के लिए एक अनुमान के रूप में बनाया गया था। (इसका उपयोग तब किया जा सकता है जब कोई संरेखण पूरी तरह से लंबी दूरी के दृढ़ पिंड के परमाणु संरेखण के स्थानीय संरचना-मोटिफ समानता अज्ञेयवादी पर आधारित हो।) उसी पारसीमोनी के कारण, यह DALI, CE और टीएम-संरेखण की तुलना में दस गुना अधिक तेज है। अधिक विस्तृत सुपरपोजिशन या महंगी गणनाओं के लिए सर्वोत्तम ई-वैल्यू संबंधित संरचनाओं को निकालने के लिए बड़े डेटा बेस को प्री-स्क्रीन करने के लिए प्रायः इन धीमे उपकरणों के संयोजन में इसका उपयोग किया जाता है। यह एब इनिटियो संरचना भविष्यवाणी से डिकॉय संरचनाओं का विश्लेषण करने में विशेष रूप से सफल रहा है। ये डिकॉय स्थानीय खंड रूपांकन संरचना को सही करने और सही 3डी तृतीयक संरचना के कुछ गुठली बनाने लेकिन पूरी लंबाई की तृतीयक संरचना को गलत बनाने के लिए कुख्यात हैं। इस गोधूलि दूरस्थ समरूपता शासन में, CASP (सीएएसपी) के लिए मैमथ के ई-मूल्य एसएसएपी या डीएएलआई की तुलना में प्रोटीन संरचना भविष्यवाणी मूल्यांकन को मानव रैंकिंग के साथ काफी अधिक सहसंबद्ध दिखाया गया है। ज्ञात संरचना के प्रोटीन के साथ बहु-मानदंड आंशिक ओवरलैप को निकालने और उन्हें उचित ई-मूल्यों के साथ रैंक करने की मैमथ की क्षमता, इसकी गति के साथ मिलकर ज्ञात प्रोटीन के दूरस्थ समरूपता के आधार पर सबसे संभावित सही डिकॉय की पहचान करने के लिए पीडीबी डेटा बेस के खिलाफ बड़ी संख्या में डिकॉय मॉडल को स्कैन करने की सुविधा प्रदान करती है।

SSAP (एसएसएपी)
SSAP (अनुक्रमिक संरचना संरेखण कार्यक्रम) विधि संरचना स्थान में परमाणु-से-परमाणु वेक्टर (ज्यामितीय) के आधार पर संरचनात्मक संरेखण का उत्पादन करने के लिए डबल गतिशील प्रोग्रामिंग का उपयोग करती है। सामान्यतःसंरचनात्मक संरेखण में उपयोग किए जाने वाले अल्फा कार्बन के बजाय, SSAP ग्लाइसिन को छोड़कर सभी अवशेषों के लिए बीटा कार्बन से अपने वैक्टर का निर्माण करता है, एक विधि जो इस प्रकार प्रत्येक अवशेष की रोटामेरिक स्थिति के साथ-साथ बैकबोन की हड्डी के साथ उसके स्थान को भी ध्यान में रखती है। SSAP पहले प्रत्येक प्रोटीन पर प्रत्येक अवशेष और उसके निकटतम गैर-सन्निहित पड़ोसियों के बीच अंतर-अवशेष दूरी वैक्टर की एक श्रृंखला का निर्माण करके काम करता है। फिर आव्यूह की एक श्रृंखला का निर्माण किया जाता है जिसमें अवशेषों की प्रत्येक जोड़ी के लिए पड़ोसियों के बीच वेक्टर अंतर सम्मिलित होते हैं जिनके लिए वैक्टर का निर्माण किया गया था। प्रत्येक परिणामी आव्यूह पर लागू गतिशील प्रोग्रामिंग इष्टतम स्थानीय संरेखण की एक श्रृंखला निर्धारित करती है जिसे फिर एक सारांश आव्यूह में संक्षेपित किया जाता है जिसमें समग्र संरचनात्मक संरेखण निर्धारित करने के लिए गतिशील प्रोग्रामिंग को फिर से लागू किया जाता है।

SSAP ने मूल रूप से केवल जोड़ीवार संरेखण का उत्पादन किया था लेकिन बाद में इसे कई संरेखणों तक भी विस्तारित किया गया है। (सीएटीएच) CATH (क्लास, आर्किटेक्चर, टोपोलॉजी, होमोलॉजी) के रूप में ज्ञात एक पदानुक्रमित गुना वर्गीकरण योजना का निर्माण करने के लिए इसे सभी के लिए लागू किया गया है। जिसका उपयोग CATH प्रोटीन संरचना वर्गीकरण डेटाबेस के निर्माण के लिए किया गया है।

नव गतिविधि
संरचनात्मक संरेखण विधियों में सुधार अनुसंधान के एक सक्रिय क्षेत्र का गठन करता है, और नए या संशोधित तरीकों को प्रायः प्रस्तावित किया जाता है जिनके बारे में दावा किया जाता है कि वे पुरानी और अधिक व्यापक रूप से वितरित तकनीकों पर लाभ प्रदान करते हैं। एक हालिया उदाहरण, टीएम-एलाइन, अपने दूरी आव्यूह को भारित करने के लिए एक उपन्यास विधि का उपयोग करता है, जिसके लिए मानक गतिशील प्रोग्रामिंग लागू की जाती है।  गतिशील प्रोग्रामिंग के अभिसरण में तेजी लाने और संरेखण लंबाई से उत्पन्न होने वाले प्रभावों को सही करने के लिए वेटिंग का प्रस्ताव किया गया है। एक बेंचमार्किंग अध्ययन में, टीएम-एलाइन को डीएएलआई और सीई की तुलना में गति और सटीकता दोनों में सुधार की सूचना दी गई है।

संरचनात्मक संरेखण की अन्य आशाजनक विधियाँ स्थानीय संरचनात्मक संरेखण विधियाँ हैं। ये प्रोटीन के पूर्व-चयनित भागों (उदाहरण के लिए बाइंडिंग साइट, उपयोगकर्ता-परिभाषित संरचनात्मक रूपांकनों) की तुलना प्रदान करते हैं। बाइंडिंग साइटों या संपूर्ण-प्रोटीन संरचनात्मक डेटाबेस के विरुद्ध। मल्टीबाइंड और MAPPIS सर्वर उपयोगकर्ता द्वारा प्रदान किए गए प्रोटीन बाइंडिंग साइटों के एक सेट में छोटे अणुओं (मल्टीबाइंड) या उपयोगकर्ता द्वारा प्रदत्त प्रोटीन-प्रोटीन इंटरफेस (एमएपीपीआईएस) के एक सेट में परिभाषित एच-बॉन्ड दाता, स्वीकर्ता, स्निग्ध, सुगंधित या हाइड्रोफोबिक जैसे भौतिक रासायनिक गुणों की सामान्य स्थानिक व्यवस्था की पहचान करने की अनुमति दें। अन्य संपूर्ण प्रोटीन संरचनाओं की तुलना प्रदान करते हैं उपयोगकर्ता द्वारा सबमिट की गई कई संरचनाओं के विरुद्ध या उचित समय में प्रोटीन संरचनाओं के एक बड़े डेटाबेस के विरुद्ध (ProBiS ). वैश्विक संरेखण दृष्टिकोणों के विपरीत, स्थानीय संरचनात्मक संरेखण दृष्टिकोण कार्यात्मक समूहों के स्थानीय रूप से संरक्षित पैटर्न का पता लगाने के लिए उपयुक्त हैं, जो प्रायः बाध्यकारी साइटों में दिखाई देते हैं और लिगैंड बाइंडिंग में महत्वपूर्ण भागीदारी रखते हैं। उदाहरण के तौर पर, जी-लोसा की तुलना करते हुए, एक स्थानीय संरचना संरेखण उपकरण, टीएम-संरेखण के साथ, एक वैश्विक संरचना संरेखण आधारित विधि। जबकि जी-लोसा टीएम-संरेखण की तुलना में एकल-श्रृंखला प्रोटीन लक्ष्यों में दवा जैसी लिगेंड की स्थिति की अधिक सटीक भविष्यवाणी करता है, टीएम-संरेखण की समग्र सफलता दर बेहतर है। हालाँकि, जैसा कि एल्गोरिथम सुधार और कंप्यूटर प्रदर्शन ने पुराने दृष्टिकोणों में विशुद्ध रूप से तकनीकी कमियों को मिटा दिया है, यह स्पष्ट हो गया है कि 'इष्टतम' संरचनात्मक संरेखण के लिए कोई एक सार्वभौमिक मानदंड नहीं है। उदाहरण के लिए, टीएम-संरेखण, अनुक्रम लंबाई में बड़ी असमानताओं वाले प्रोटीन के सेट के बीच तुलना की मात्रा निर्धारित करने में विशेष रूप से मजबूत है, लेकिन यह केवल अप्रत्यक्ष रूप से हाइड्रोजन बॉन्डिंग या माध्यमिक संरचना क्रम संरक्षण को पकड़ता है जो विकास संबंधी प्रोटीन के संरेखण के लिए बेहतर मीट्रिक हो सकता है। इस प्रकार हाल के विकासों ने विशेष विशेषताओं जैसे गति, अंकों की मात्रा का ठहराव, वैकल्पिक सोने के मानकों के साथ सहसंबंध, या संरचनात्मक डेटा या एब इनिटियो संरचनात्मक मॉडल में अपूर्णता की सहनशीलता को अनुकूलित करने पर ध्यान केंद्रित किया है। एक वैकल्पिक पद्धति जो लोकप्रियता हासिल कर रही है वह है प्रोटीन की संरचनात्मक समानताएं सुनिश्चित करने के लिए विभिन्न तरीकों की सर्वसम्मति का उपयोग करना।

आरएनए संरचनात्मक संरेखण
संरचनात्मक संरेखण तकनीकों को परंपरागत रूप से विशेष रूप से प्रोटीन पर लागू किया गया है, प्राथमिक जैविक मैक्रो मोलेक्यूलस के रूप में जो विशिष्ट त्रि-आयामी संरचनाएं ग्रहण करते हैं। हालाँकि, बड़े आरएनए अणु भी विशिष्ट तृतीयक आरएनए संरचना बनाते हैं, जो मुख्य रूप से बेस जोड़े के साथ-साथ आधार स्टैकिंग के बीच बने हाइड्रोजन बांड द्वारा मध्यस्थ होते हैं। कार्यात्मक रूप से समान नॉनकोडिंग आरएनए अणुओं को जीनोमिक्स डेटा से निकालना विशेष रूप से कठिन हो सकता है क्योंकि संरचना आरएनए के साथ-साथ प्रोटीन में अनुक्रम की तुलना में अधिक दृढ़ता से संरक्षित होती है, और आरएनए की अधिक सीमित वर्णमाला किसी भी स्थिति में किसी भी न्यूक्लियोटाइड की सूचना सामग्री को कम कर देती है।

हालाँकि, आरएनए संरचनाओं में बढ़ती रुचि और प्रयोगात्मक रूप से निर्धारित 3डी आरएनए संरचनाओं की संख्या में वृद्धि के कारण, हाल ही में कुछ आरएनए संरचना समानता विधियां विकसित की गई हैं। उन तरीकों में से एक है, उदाहरण के लिए, SETTER जो प्रत्येक आरएनए संरचना को छोटे भागों में विघटित करता है जिन्हें सामान्य माध्यमिक संरचना इकाइयाँ (जीएसएसयू) कहा जाता है। जीएसएसयू को बाद में संरेखित किया जाता है और इन आंशिक संरेखण को अंतिम आरएनए संरचना संरेखण में विलय कर दिया जाता है और स्कोर किया जाता है। विधि को SETTER वेबसर्वर में लागू किया गया है।

कम अनुक्रम पहचान के साथ आरएनए अनुक्रमों के जोड़ीदार संरचनात्मक संरेखण के लिए एक हालिया विधि कार्यक्रम FOLDALIGN में प्रकाशित और कार्यान्वित की गई है। हालाँकि, यह विधि वास्तव में प्रोटीन संरचनात्मक संरेखण तकनीकों के अनुरूप नहीं है क्योंकि यह इनपुट के रूप में प्रयोगात्मक रूप से निर्धारित संरचनाओं की आवश्यकता के बजाय कम्प्यूटेशनल रूप से आरएनए इनपुट अनुक्रमों की संरचनाओं की भविष्यवाणी करती है। यद्यपि प्रोटीन की तह  प्रक्रिया की कम्प्यूटेशनल भविष्यवाणी आज तक विशेष रूप से सफल नहीं रही है, लेकिन छद्म गाँठ के बिना आरएनए संरचनाओं को प्रायः  थर्मोडायनामिक मुक्त ऊर्जा-आधारित स्कोरिंग विधियों का उपयोग करके समझदारी से भविष्यवाणी की जा सकती है जो बेस पेयरिंग और स्टैकिंग के लिए जिम्मेदार हैं।

सॉफ़्टवेयर
उपलब्ध पैकेजों की विशाल विविधता के कारण संरचनात्मक संरेखण के लिए एक सॉफ्टवेयर टूल चुनना एक चुनौती हो सकता है जो कार्यप्रणाली और विश्वसनीयता में काफी भिन्न है। में इस समस्या का आंशिक समाधान प्रस्तुत किया गया और ProCKSI वेबसर्वर के माध्यम से सार्वजनिक रूप से सुलभ बनाया गया। वर्तमान में उपलब्ध और स्वतंत्र रूप से वितरित संरचनात्मक संरेखण सॉफ़्टवेयर की अधिक संपूर्ण सूची संरचनात्मक संरेखण सॉफ़्टवेयर में पाई जा सकती है।

कुछ संरचनात्मक संरेखण सर्वर और सॉफ़्टवेयर पैकेजों के गुणों को स्ट्रक्चरल संरेखण उपकरण Proteopedia.Org पर उदाहरणों के साथ संक्षेपित और परीक्षण किया गया है।

यह भी देखें

 * एकाधिक अनुक्रम संरेखण
 * अनुक्रम संरेखण सॉफ़्टवेयर की सूची
 * प्रोटीन का संरचनात्मक वर्गीकरण
 * सुपरपोज़/SuperPose ़
 * प्रोटीन सुपरफैमिली

अग्रिम पठन

 * Bourne PE, Shindyalov IN. (2003): Structure Comparison and Alignment. In: Bourne, P.E., Weissig, H. (Eds): Structural Bioinformatics. Hoboken NJ: Wiley-Liss. ISBN 0-471-20200-2
 * Yuan X, Bystroff C. (2004) "Non-sequential Structure-based Alignments Reveal Topology-independent Core Packing Arrangements in Proteins", Bioinformatics. Nov 5, 2004