इंटरप्रो

इंटरप्रो प्रोटीन परिवार, प्रोटीन डोमेन और कार्यात्मक साइटों का एक डेटाबेस है जिसमें ज्ञात प्रोटीन में पाई जाने वाली पहचान योग्य विशेषताओं को नए प्रोटीन अनुक्रमों पर लागू किया जा सकता है। उन्हें कार्यात्मक रूप से चित्रित करने के लिए। इंटरप्रो की सामग्री में डायग्नोस्टिक हस्ताक्षर और प्रोटीन शामिल हैं जो महत्वपूर्ण रूप से मेल खाते हैं। हस्ताक्षरों में मॉडल (सरल प्रकार, जैसे नियमित अभिव्यक्ति या अधिक जटिल, जैसे छिपे हुए मार्कोव मॉडल) शामिल होते हैं जो प्रोटीन परिवारों, डोमेन या साइटों का वर्णन करते हैं। मॉडल ज्ञात परिवारों या डोमेन के अमीनो एसिड अनुक्रमों से बनाए जाते हैं और बाद में उन्हें वर्गीकृत करने के लिए अज्ञात अनुक्रमों (जैसे कि उपन्यास जीनोम अनुक्रमण से उत्पन्न होने वाले) की खोज करने के लिए उपयोग किया जाता है। इंटरप्रो का प्रत्येक सदस्य डेटाबेस बहुत उच्च-स्तरीय, संरचना-आधारित वर्गीकरण ( अतिपरिवार और CATH-Gene3D) से लेकर काफी विशिष्ट उप-परिवार वर्गीकरण (PRINTS और PANTHER) तक, एक अलग क्षेत्र में योगदान देता है।

इंटरप्रो का इरादा प्रोटीन वर्गीकरण के लिए वन-स्टॉप-शॉप प्रदान करना है, जहां विभिन्न सदस्य डेटाबेस द्वारा उत्पादित सभी हस्ताक्षर इंटरप्रो डेटाबेस के भीतर प्रविष्टियों में रखे जाते हैं। समकक्ष डोमेन, साइटों या परिवारों का प्रतिनिधित्व करने वाले हस्ताक्षरों को एक ही प्रविष्टि में रखा जाता है और प्रविष्टियाँ एक दूसरे से संबंधित भी हो सकती हैं। जहां संभव हो, अतिरिक्त जानकारी जैसे विवरण, सुसंगत नाम और जीन ओण्टोलॉजी (जीओ) शब्द प्रत्येक प्रविष्टि के साथ जुड़े हुए हैं।

इंटरप्रो में निहित डेटा
इंटरप्रो में तीन मुख्य इकाइयाँ शामिल हैं: प्रोटीन, हस्ताक्षर (जिन्हें विधियाँ या मॉडल भी कहा जाता है) और प्रविष्टियाँ। UniProtKB में प्रोटीन इंटरप्रो में केंद्रीय प्रोटीन इकाइयाँ भी हैं। कौन से हस्ताक्षर इन प्रोटीनों से महत्वपूर्ण रूप से मेल खाते हैं, इसकी जानकारी की गणना UniProtKB द्वारा अनुक्रम जारी किए जाने पर की जाती है और ये परिणाम जनता के लिए उपलब्ध कराए जाते हैं (नीचे देखें)। प्रोटीन के साथ हस्ताक्षरों का मिलान यह निर्धारित करता है कि इंटरप्रो प्रविष्टियों में हस्ताक्षरों को एक साथ कैसे एकीकृत किया जाता है: मिलान किए गए प्रोटीन सेटों का तुलनात्मक ओवरलैप और अनुक्रमों पर हस्ताक्षरों के मिलान का स्थान संबंधितता के संकेतक के रूप में उपयोग किया जाता है। केवल पर्याप्त गुणवत्ता वाले हस्ताक्षर ही इंटरप्रो में एकीकृत किए जाते हैं। संस्करण 81.0 (21 अगस्त 2020 को जारी) के अनुसार, इंटरप्रो प्रविष्टियों ने UniProtKB में पाए गए 73.9% अवशेषों को एनोटेट किया, अन्य 9.2% को हस्ताक्षरों द्वारा एनोटेट किया गया जो एकीकरण के लिए लंबित हैं। इंटरप्रो में वैकल्पिक स्प्लिसिंग और यूनीपार्क और यूनीएमईएस डेटाबेस में मौजूद प्रोटीन का डेटा भी शामिल है।

इंटरप्रो कंसोर्टियम सदस्य डेटाबेस
इंटरप्रो के हस्ताक्षर 13 सदस्य डेटाबेस से आते हैं, जो नीचे सूचीबद्ध हैं।


 * CATH-Gene3D: संपूर्ण जीनोम में प्रोटीन परिवारों और डोमेन आर्किटेक्चर का वर्णन करता है। प्रोटीन परिवार मार्कोव क्लस्टरिंग एल्गोरिदम का उपयोग करके बनाए जाते हैं, जिसके बाद अनुक्रम पहचान के अनुसार मल्टी-लिंकेज क्लस्टरिंग होती है। पूर्वानुमानित संरचना और अनुक्रम डोमेन का मानचित्रण CATH और Pfam डोमेन का प्रतिनिधित्व करने वाले छिपे हुए मार्कोव मॉडल पुस्तकालयों का उपयोग करके किया जाता है। कई संसाधनों से प्रोटीन को कार्यात्मक एनोटेशन प्रदान किया जाता है। डोमेन आर्किटेक्चर की कार्यात्मक भविष्यवाणी और विश्लेषण Gene3D वेबसाइट पर उपलब्ध है।
 * सीडीडी: संरक्षित डोमेन डेटाबेस एक प्रोटीन एनोटेशन संसाधन है जिसमें प्राचीन डोमेन और पूर्ण-लंबाई प्रोटीन के लिए एनोटेटेड एकाधिक अनुक्रम संरेखण मॉडल का संग्रह शामिल है। ये आरपीएस-ब्लास्ट के माध्यम से प्रोटीन अनुक्रमों में संरक्षित डोमेन की तेजी से पहचान के लिए स्थिति-विशिष्ट स्कोर मैट्रिक्स (पीएसएसएम) के रूप में उपलब्ध हैं।
 * HAMAP: माइक्रोबियल प्रोटीन के उच्च गुणवत्ता वाले स्वचालित और मैन्युअल एनोटेशन के लिए है। HAMAP प्रोफ़ाइल विशेषज्ञ क्यूरेटर द्वारा मैन्युअल रूप से बनाई जाती हैं, वे उन प्रोटीनों की पहचान करते हैं जो अच्छी तरह से संरक्षित बैक्टीरिया, आर्कियल और प्लास्टिड-एनकोडेड (यानी क्लोरोप्लास्ट, साइनेल, एपिकोप्लास्ट, गैर-प्रकाश संश्लेषक प्लास्टिड) प्रोटीन परिवारों या उपपरिवारों का हिस्सा हैं।
 * MobiDB: MobiDB प्रोटीन में आंतरिक विकार को दर्शाने वाला डेटाबेस है।
 * पैंथर: पैंथर प्रोटीन परिवारों का एक बड़ा संग्रह है जिसे मानव विशेषज्ञता का उपयोग करके कार्यात्मक रूप से संबंधित उप-परिवारों में विभाजित किया गया है। ये उपपरिवार प्रोटीन परिवारों के भीतर विशिष्ट कार्यों के विचलन को मॉडल करते हैं, जिससे फ़ंक्शन (मानव-क्यूरेटेड आणविक फ़ंक्शन और जैविक प्रक्रिया वर्गीकरण और मार्ग आरेख) के साथ अधिक सटीक जुड़ाव की अनुमति मिलती है, साथ ही कार्यात्मक विशिष्टता के लिए महत्वपूर्ण अमीनो एसिड का अनुमान भी लगाया जा सकता है। अतिरिक्त प्रोटीन अनुक्रमों को वर्गीकृत करने के लिए प्रत्येक परिवार और उपपरिवार के लिए हिडन मार्कोव मॉडल (एचएमएम) बनाए गए हैं।
 * Pfam: Is large collection of multiple sequence alignments and hidden Markov models covering many common protein domains and families. InterPro consortium member databases.png;पीआईआरएसएफ: प्रोटीन वर्गीकरण प्रणाली सुपरफैमिली से उपफैमिली तक अनुक्रम विविधता के कई स्तरों वाला एक नेटवर्क है जो पूर्ण-लंबाई प्रोटीन और डोमेन के विकासवादी संबंध को दर्शाता है। प्राथमिक पीआईआरएसएफ वर्गीकरण इकाई होमोमोर्फिक परिवार है, जिसके सदस्य समजात (एक सामान्य पूर्वज से विकसित) और होमोमोर्फिक (पूर्ण लंबाई अनुक्रम समानता और एक सामान्य डोमेन वास्तुकला साझा करने वाले) दोनों हैं।
 * प्रिंट्स: प्रिंट्स प्रोटीन फ़िंगरप्रिंट्स का एक संग्रह है। फ़िंगरप्रिंट संरक्षित रूपांकनों का एक समूह है जिसका उपयोग प्रोटीन परिवार को चित्रित करने के लिए किया जाता है; इसकी नैदानिक ​​शक्ति को UniProt की पुनरावृत्तीय स्कैनिंग द्वारा परिष्कृत किया जाता है। आमतौर पर रूपांकन ओवरलैप नहीं होते हैं, बल्कि एक अनुक्रम के साथ अलग हो जाते हैं, हालांकि वे 3डी-स्पेस में सन्निहित हो सकते हैं। फ़िंगरप्रिंट एकल रूपांकनों की तुलना में प्रोटीन सिलवटों और कार्यात्मकताओं को अधिक लचीले और शक्तिशाली ढंग से एनकोड कर सकते हैं, उनकी पूर्ण नैदानिक ​​क्षमता रूपांकन पड़ोसियों द्वारा प्रदान किए गए पारस्परिक संदर्भ से प्राप्त होती है।
 * कृपया : प्रोसाइट प्रोटीन परिवारों और डोमेन का एक डेटाबेस है। इसमें जैविक रूप से महत्वपूर्ण साइटें, पैटर्न और प्रोफाइल शामिल हैं जो विश्वसनीय रूप से यह पहचानने में मदद करते हैं कि नया अनुक्रम किस ज्ञात प्रोटीन परिवार (यदि कोई हो) से संबंधित है।
 * स्मार्ट: सरल मॉड्यूलर वास्तुकला अनुसंधान उपकरण आनुवंशिक रूप से मोबाइल डोमेन की पहचान और एनोटेशन और डोमेन आर्किटेक्चर के विश्लेषण की अनुमति देता है। सिग्नलिंग, बाह्यकोशिकीय और क्रोमैटिन से जुड़े प्रोटीन में पाए जाने वाले 800 से अधिक डोमेन परिवार पता लगाने योग्य हैं। इन डोमेन को फ़ाइलेटिक वितरण, कार्यात्मक वर्ग, तृतीयक संरचनाओं और कार्यात्मक रूप से महत्वपूर्ण अवशेषों के संबंध में बड़े पैमाने पर एनोटेट किया गया है।
 * सुपरफैमिली: सुपरफैमिली प्रोफाइल छिपे हुए मार्कोव मॉडल की एक लाइब्रेरी है जो ज्ञात संरचना के सभी प्रोटीन का प्रतिनिधित्व करती है। लाइब्रेरी प्रोटीन के संरचनात्मक वर्गीकरण डेटाबेस प्रोटीन के वर्गीकरण पर आधारित है: प्रत्येक मॉडल एक एससीओपी डोमेन से मेल खाता है और इसका उद्देश्य पूरे एससीओपी प्रोटीन सुपरफैमिली का प्रतिनिधित्व करना है जो डोमेन से संबंधित है। सुपरफ़ैमिली का उपयोग सभी पूर्णतः अनुक्रमित जीनोमों में संरचनात्मक कार्य करने के लिए किया गया है।
 * एसएफएलडी: एंजाइमों का एक श्रेणीबद्ध वर्गीकरण जो विशिष्ट अनुक्रम-संरचना विशेषताओं को विशिष्ट रासायनिक क्षमताओं से जोड़ता है।
 * TIGRFAMs: TIGRFAMs प्रोटीन परिवारों का एक संग्रह है, जिसमें क्यूरेटेड मल्टीपल अनुक्रम संरेखण, छिपे हुए मार्कोव मॉडल (HMM) और एनोटेशन शामिल हैं, जो अनुक्रम होमोलॉजी के आधार पर कार्यात्मक रूप से संबंधित प्रोटीन की पहचान करने के लिए एक उपकरण प्रदान करता है। वे प्रविष्टियाँ जो समतुल्य समूह हैं, समजात प्रोटीन हैं जो कार्य के संबंध में संरक्षित हैं।

डेटा प्रकार
इंटरप्रो में कंसोर्टियम के विभिन्न सदस्यों द्वारा प्रदान किए गए सात प्रकार के डेटा शामिल हैं:

इंटरप्रो प्रविष्टि प्रकार
इंटरप्रो प्रविष्टियों को आगे पाँच प्रकारों में विभाजित किया जा सकता है:


 * होमोलॉगस सुपरफैमिली: प्रोटीन का एक समूह जो एक समान विकासवादी उत्पत्ति साझा करता है जैसा कि उनकी संरचनात्मक समानता में देखा जाता है, भले ही उनके अनुक्रम अत्यधिक समान न हों। ये प्रविष्टियाँ विशेष रूप से केवल दो सदस्य डेटाबेस द्वारा प्रदान की जाती हैं: CATH-Gene3D और SUPERFAMILY।
 * परिवार: प्रोटीन का एक समूह जिसकी सामान्य विकासवादी उत्पत्ति संरचनात्मक समानता, संबंधित कार्यों या अनुक्रम समरूपता के माध्यम से निर्धारित होती है।
 * डोमेन: किसी विशेष कार्य, संरचना या अनुक्रम के साथ प्रोटीन में एक विशिष्ट इकाई।
 * दोहराएँ: अमीनो एसिड का एक क्रम, आमतौर पर 50 अमीनो एसिड से अधिक नहीं, जो एक प्रोटीन में कई बार दोहराया जाता है।
 * साइट: अमीनो एसिड का एक छोटा अनुक्रम जहां कम से कम एक अमीनो एसिड संरक्षित होता है। इनमें अनुवाद के बाद का संशोधन|पोस्ट-ट्रांसलेशनल संशोधन साइटें, संरक्षित साइटें, बाध्यकारी साइट ें और सक्रिय साइटें शामिल हैं।

पहुँच
डेटाबेस वेबसर्वर के माध्यम से पाठ और अनुक्रम-आधारित खोजों के लिए और अनाम एफ़टीपी के माध्यम से डाउनलोड के लिए उपलब्ध है। अन्य यूरोपीय जैव सूचना विज्ञान संस्थान डेटाबेस की तरह, यह सार्वजनिक डोमेन में है, क्योंकि इसकी सामग्री का उपयोग कोई भी व्यक्ति और किसी भी उद्देश्य के लिए कर सकता है। इंटरप्रो का लक्ष्य हर 8 सप्ताह में जनता के लिए डेटा जारी करना है, आमतौर पर समान प्रोटीन के UniProtKB रिलीज के एक दिन के भीतर।

इंटरप्रो एप्लिकेशन प्रोग्रामिंग इंटरफ़ेस (एपीआई)
इंटरप्रो JSON प्रारूप में सभी इंटरप्रो प्रविष्टियों और उनकी संबंधित प्रविष्टियों तक प्रोग्रामेटिक पहुंच के लिए एक एपीआई प्रदान करता है। विभिन्न इंटरप्रो डेटा प्रकारों के अनुरूप एपीआई के लिए छह मुख्य समापन बिंदु हैं: प्रविष्टि, प्रोटीन, संरचना, वर्गीकरण, प्रोटिओम और सेट।

इंटरप्रोस्कैन
इंटरप्रोस्कैन एक सॉफ्टवेयर पैकेज है जो उपयोगकर्ताओं को सदस्य डेटाबेस हस्ताक्षरों के विरुद्ध अनुक्रमों को स्कैन करने की अनुमति देता है। उपयोगकर्ता इस हस्ताक्षर स्कैनिंग सॉफ़्टवेयर का उपयोग नवीन न्यूक्लियोटाइड या प्रोटीन अनुक्रमों को कार्यात्मक रूप से चिह्नित करने के लिए कर सकते हैं। रुचि के जीनोम का प्रथम-पास लक्षण वर्णन प्राप्त करने के लिए जीनोम परियोजनाओं में अक्सर इंटरप्रोस्कैन का उपयोग किया जाता है।, इंटरप्रोस्कैन (v5.x) का सार्वजनिक संस्करण जावा (प्रोग्रामिंग भाषा)|जावा-आधारित आर्किटेक्चर का उपयोग करता है। सॉफ़्टवेयर पैकेज वर्तमान में केवल 64-बिट लिनक्स ऑपरेटिंग सिस्टम पर समर्थित है।

इंटरप्रोस्कैन, कई अन्य ईएमबीएल-ईबीआई जैव सूचना विज्ञान उपकरणों के साथ, प्रतिनिधित्ववादी स्थिति में स्थानांतरण और एसओएपी वेब सर्विसेज एपीआई का उपयोग करके प्रोग्रामेटिक रूप से भी एक्सेस किया जा सकता है।

यह भी देखें

 * प्रोटीन परिवार
 * अज्ञात फ़ंक्शन का डोमेन
 * अनुक्रम आकृति

बाहरी संबंध

 * &mdash; webserver