यूनीप्रोट

यूनीप्रोट प्रोटीन अनुक्रम और कार्यात्मक जानकारी का एक स्वतंत्र रूप से सुलभ डेटाबेस है, कई प्रविष्टियाँ जीनोम अनुक्रमण परियोजनाओं से प्राप्त की जा रही हैं। इसमें शोध साहित्य से प्राप्त प्रोटीन के जैविक कार्य के बारे में बड़ी मात्रा में जानकारी सम्मिलित है। इसका अनुरक्षित यूनीप्रोट कंसोर्टियम द्वारा किया जाता है, जिसमें कई यूरोपीय जैव सूचना विज्ञान संगठन और वाशिंगटन, डीसी, संयुक्त राज्य अमेरिका का एक फाउंडेशन सम्मिलित है।

यूनिप्रोट कंसोर्टियम
यूनीप्रोट कंसोर्टियम में यूरोपीय जैव सूचना विज्ञान संस्थान (ईबीआई), स्विस इंस्टीट्यूट ऑफ बायोइनफॉरमैटिक्स (एसआईबी), और प्रोटीन सूचना संसाधन (पीआईआर) सम्मिलित हैं। यूके के हिन्क्सटन में वेलकम ट्रस्ट जीनोम कैंपस में स्थित ईबीआई, जैव सूचना विज्ञान डेटाबेस और सेवाओं के एक बड़े संसाधन की होस्ट करता है। स्विट्जरलैंड के जिनेवा में स्थित एसआईबी, एक्सपेसी (विशेषज्ञ प्रोटीन विश्लेषण प्रणाली) सर्वर का रखरखाव करता है जो प्रोटिओमिक्स उपकरण और डेटाबेस के लिए एक केंद्रीय संसाधन हैं। वाशिंगटन, डीसी, यूएस में जॉर्जटाउन यूनिवर्सिटी मेडिकल सेंटर में नेशनल बायोमेडिकल रिसर्च फाउंडेशन (एनबीआरएफ) द्वारा होस्ट किया गया पीआईआर, सबसे पुराने प्रोटीन अनुक्रम डेटाबेस, मार्गरेट ओकले डेहॉफ़ के एटलस ऑफ प्रोटीन सीक्वेंस एंड स्ट्रक्चर का उत्तराधिकारी है, जो पहली बार 1965 में प्रकाशित हुआ था। 2002 में, ईबीआई, एसआईबी और पीर यूनीप्रोट कंसोर्टियम के रूप में सम्मिलित हुए।

यूनीप्रोट डेटाबेस का संगठन
प्रत्येक कंसोर्टियम सदस्य प्रोटीन डेटाबेस रखरखाव और एनोटेशन में भारी रूप से सम्मिलित है। वर्तमान तक, ईबीआई और एसआईबीने मिलकर स्विस-प्रोट और ट्रेमबीएल डेटाबेस का उत्पादन किया गया था जबकि पीआईआर ने प्रोटीन अनुक्रम डेटाबेस (पीआईआर-पीएसडी) का उत्पादन किया था।  ये डेटाबेस अलग-अलग पेप्टाइड अनुक्रम कवरेज और एनोटेशन प्राथमिकताओं के साथ सह-अस्तित्व में थे।

स्विस-प्रोट को 1986 में अमोस बैरोच द्वारा अपनी पीएचडी के समय बनाया गया था और स्विस इंस्टीट्यूट ऑफ बायोइनफॉरमैटिक्स द्वारा विकसित किया गया था और बाद में यूरोपीय बायोइनफॉरमैटिक्स इंस्टीट्यूट में रॉल्फ अप्वेइलर द्वारा विकसित किया गया था। स्विस-प्रोट का उद्देश्य उच्च स्तर के एनोटेशन (जैसे प्रोटीन के कार्य का विवरण, इसकी प्रोटीन डोमेन संरचना, अनुवाद के बाद का संशोधन या पोस्ट-ट्रांसलेशनल संशोधन, वेरिएंट इत्यादि) से जुड़े विश्वसनीय प्रोटीन अनुक्रम प्रदान करना है। डेटा अतिरेक का स्तर और अन्य डेटाबेस के साथ उच्च स्तर का एकीकरण यह मानते हुए कि अनुक्रम डेटा स्विस-प्रोट की क्षमता से अधिक गति से उत्पन्न हो रहा था, उन प्रोटीनों के लिए स्वचालित एनोटेशन प्रदान करने के लिए ट्रेमबीएल (अनुवादित ईएमबीएल न्यूक्लियोटाइड अनुक्रम डेटा लाइब्रेरी) बनाया गया था जो स्विस-प्रोट में नहीं हैं। इस बीच, पीआईआर ने पीआईआर-पीएसडी और संबंधित डेटाबेस बनाए रखा, जिसमें आईप्रोक्लास, प्रोटीन अनुक्रमों और क्यूरेटेड वर्गों का डेटाबेस सम्मिलित है।

कंसोर्टियम के सदस्यों ने अपने ओवरलैपिंग संसाधनों और विशेषज्ञता को एकत्रित किया गया था और दिसंबर 2003 में यूनीप्रोट लॉन्च किया था।

यूनीप्रोट डेटाबेस का संगठन
यूनीप्रोट चार मुख्य डेटाबेस प्रदान करता है: यूनीप्रोटकेबी (उप-भागों स्विस-प्रोट और ट्रेमबीएल के साथ), यूनीपार्क, यूनीरेफ और प्रोटिओम है।

यूनीप्रोटकेबी
यूनीप्रोट नॉलेजबेस (यूनीप्रोटकेबी) एक प्रोटीन डेटाबेस है जिसे आंशिक रूप से विशेषज्ञों द्वारा तैयार किया गया है, जिसमें दो खंड सम्मिलित हैं: यूनीप्रोटकेबी/स्विस-प्रोट (जिसमें समीक्षा की गई, मैन्युअल रूप से एनोटेटेड प्रविष्टियाँ सम्मिलित हैं) और यूनीप्रोटकेबी/ट्रेमबीएल (बिना समीक्षा की गई, स्वचालित रूप से एनोटेटेड प्रविष्टियाँ सम्मिलित हैं)।, यूनीप्रोटकेबी/स्विस-प्रोट की रिलीज 2023_01 में 569,213 अनुक्रम प्रविष्टियां सम्मिलित हैं (291,046 संदर्भों से निकाले गए 205,728,242 अमीनो अम्ल सम्मिलित हैं) और यूनीप्रोटकेबी/ट्रेमबीएल की रिलीज 2023_01 में 245,871,724 अनुक्रम प्रविष्टियां सम्मिलित हैं ((85,739,380,194 अमीनो अम्ल से युक्त है )।

यूनीप्रोटकेबी/स्विस-प्रोट
यूनीप्रोटकेबी/स्विस-प्रोट एक मैन्युअल रूप से एनोटेटेड, गैर-अनावश्यक प्रोटीन अनुक्रम डेटाबेस है। यह वैज्ञानिक साहित्य और बायोक्यूरेटर-मूल्यांकन कम्प्यूटेशनल विश्लेषण से निकाली गई जानकारी को जोड़ती है। यूनीप्रोटकेबी/स्विस-प्रोट का उद्देश्य एक विशेष प्रोटीन के बारे में सभी ज्ञात प्रासंगिक जानकारी प्रदान करना है। वर्तमान वैज्ञानिक निष्कर्षों को ध्यान में रखने के लिए एनोटेशन की नियमित रूप से समीक्षा की जाती है। किसी प्रविष्टि के मैनुअल एनोटेशन में प्रोटीन अनुक्रम और वैज्ञानिक साहित्य का विस्तृत विश्लेषण सम्मिलित होता है।

एक ही जीन और एक ही प्रजाति के अनुक्रमों को एक ही डेटाबेस प्रविष्टि में मिला दिया जाता है। अनुक्रमों के बीच अंतर की पहचान की जाती है, और उनके कारण का डॉक्यूमेंटेड किया जाता है (उदाहरण के लिए वैकल्पिक स्प्लिसिंग, अल्टरनेटिव स्प्लिसिंग, इन्कोर्रेक्ट यूकेरियोटिक अनुवाद या दीक्षा स्थल, इन्कोर्रेक्ट एक्सॉन सीमाएँ, फ़्रेमशिफ्ट उत्परिवर्तन, अज्ञात संघर्ष)। यूनीप्रोटकेबी/स्विस-प्रोट प्रविष्टियों के एनोटेशन में अनुक्रम विश्लेषण उपकरणों की एक श्रृंखला का उपयोग किया जाता है। कंप्यूटर-पूर्वानुमान का मैन्युअल रूप से मूल्यांकन किया जाता है, और प्रासंगिक परिणामों को प्रविष्टि में सम्मिलित करने के लिए चुना जाता है। इन पूर्वानुमान में पोस्ट-ट्रांसलेशनल संशोधन, ट्रांसमेम्ब्रेन डोमेन और मेम्ब्रेन टोपोलॉजी, सिग्नल पेप्टाइड, डोमेन पहचान और प्रोटीन वर्ग वर्गीकरण सम्मिलित हैं।

पबमेड जैसे डेटाबेस खोजकर प्रासंगिक प्रकाशनों की पहचान की जाती है। प्रत्येक पेपर का पूरा पाठ पढ़ा जाता है, और जानकारी निकालकर प्रविष्टि में जोड़ दी जाती है। वैज्ञानिक साहित्य से उत्पन्न होने वाली टिप्पणियों में निम्नलिखित सम्मिलित हैं, किंतु यह इन्हीं तक सीमित नहीं हैं:


 * प्रोटीन और जीन के नाम
 * फलन
 * एनजाइम -विशिष्ट जानकारी जैसे कटैलिसीस, कॉफ़ेक्टर (जैव रसायन) और सक्रिय साइट
 * उपकोशिकीय स्थानीयकरण
 * प्रोटीन-प्रोटीन अन्योन्यक्रिया
 * अभिव्यक्ति का स्वरूप
 * महत्वपूर्ण डोमेन और साइटों के स्थान और भूमिकाएँ
 * आयन-, सब्सट्रेट (जैव रसायन)- और सहकारक-बाध्यकारी साइटें
 * प्राकृतिक आनुवंशिक भिन्नता, आरएनए संपादन, वैकल्पिक स्प्लिसिंग, प्रोटियोलिटिक प्रसंस्करण और पोस्ट-ट्रांसलेशनल संशोधन द्वारा उत्पादित प्रोटीन प्रकार के रूप

एनोटेटेड प्रविष्टियाँ यूनीप्रोटकेबी/स्विस-प्रोट में सम्मिलित करने से पहले गुणवत्ता आश्वासन से गुजरती हैं। जब नया डेटा उपलब्ध हो जाता है, तो प्रविष्टियाँ अपडेट की जाती हैं।

यूनीप्रोटकेबी/ट्रेमबीएल
यूनीप्रोटकेबी/ट्रेमबीएल में उच्च गुणवत्ता वाले कम्प्यूटेशनल रूप से विश्लेषण किए गए रिकॉर्ड सम्मिलित हैं, जो स्वचालित एनोटेशन से समृद्ध हैं। इसे जीनोम परियोजनाओं के परिणामस्वरूप बढ़े हुए डेटा प्रवाह के जवाब में पेश किया गया था, क्योंकि यूनीप्रोटकेबी/स्विस-प्रोट की समय और श्रम लेने वाली मैनुअल एनोटेशन प्रक्रिया को सभी उपलब्ध प्रोटीन अनुक्रमों को सम्मिलित करने के लिए विस्तृत नहीं किया जा सकता है। एनएसडीसी या ईएमबीएल-बैंक/जेनबैंक/डीडीबीजे न्यूक्लियोटाइड अनुक्रम डेटाबेस में एनोटेटेड कोडिंग अनुक्रमों के अनुवाद स्वचालित रूप से संसाधित होते हैं और यूनीप्रोटकेबी/ट्रेमबीएल में अंकित किए जाते हैं।यूनीप्रोटकेबी/ट्रेमबीएल में प्रोटीन डाटा बैंक और जीन पूर्वानुमान से अनुक्रम भी सम्मिलित हैं, जिसमें साथ में, रेफरसेक और सर्वसम्मति सीडीएस परियोजना सम्मिलित है। 22 जुलाई 2021 से इसमें अल्फ़ाफ़ोल्ड तृतीयक के साथ पूर्वानुमान भी सम्मिलित है और अल्फाफोल्ड-मल्टीमर चतुर्धातुक संरचनाएँ भी कर सकता है

यूनीपार्क
यूनीप्रोट संग्रह (यूनीपार्क) एक व्यापक और गैर-अनावश्यक डेटाबेस है, जिसमें मुख्य, सार्वजनिक रूप से उपलब्ध प्रोटीन अनुक्रम डेटाबेस से सभी प्रोटीन अनुक्रम सम्मिलित हैं। प्रोटीन कई अलग-अलग स्रोत डेटाबेस में और एक ही डेटाबेस में कई प्रतियों में उपस्थित हो सकते हैं। अतिरेक से बचने के लिए, यूनीपार्क प्रत्येक अद्वितीय अनुक्रम को केवल एक बार संग्रहीत करता है। समान अनुक्रमों को मिला दिया जाता है, तथापि वे एक ही या अलग-अलग प्रजातियों से हों सकती है । प्रत्येक अनुक्रम को एक स्थिर और विशिष्ट पहचानकर्ता (यूपीआई) दिया जाता है, जिससे विभिन्न स्रोत डेटाबेस से एक ही प्रोटीन की पहचान करना संभव हो जाता है। यूनीपार्क में केवल प्रोटीन अनुक्रम होते हैं, बिना किसी एनोटेशन के यूनीपार्क प्रविष्टियों में डेटाबेस क्रॉस-रेफरेंस स्रोत डेटाबेस से प्रोटीन के बारे में अधिक जानकारी प्राप्त करने की अनुमति देता है। जब स्रोत डेटाबेस में अनुक्रम बदलते हैं, तो इन परिवर्तनों को यूनीपार्क द्वारा ट्रैक किया जाता है और सभी परिवर्तनों का इतिहास संग्रहीत किया जाता है।

स्रोत डेटाबेस
वर्तमान में यूनीपार्क में निम्नलिखित सार्वजनिक रूप से उपलब्ध डेटाबेस से प्रोटीन अनुक्रम सम्मिलित हैं: अमेरिकी पेटेंट कार्यालय कार्यालय (यूएसपीटीओ)
 * आईएनएसडीसी ईएमबीएल-बैंक/डीडीबीजे/ जेनबैंक न्यूक्लियोटाइड अनुक्रम डेटाबेस
 * एन्सेम्बल
 * यूरोपीय पेटेंट कार्यालय (ईपीओ)
 * फ्लाईबेस: कीट वर्ग ड्रोसोफिलिडे (फ्लाईबेस) के लिए आनुवंशिक और आणविक डेटा का प्राथमिक संचयन
 * एच-आमंत्रण डेटाबेस (एच-आमंत्रण)
 * अंतर्राष्ट्रीय प्रोटीन सूचकांक (आईपीआई)
 * जापान पेटेंट कार्यालय (जेपीओ)
 * प्रोटीन सूचना संसाधन (पीआईआर-पीएसडी)
 * प्रोटीन डाटा बैंक (पीडीबी)
 * प्रोटीन रिसर्च फाउंडेशन (पीआरएफ)
 * रेफसेक
 * सैक्रोमइसेस जीनोम डेटाबेस (एसजीडी)
 * अरेबिडोप्सिस सूचना संसाधन (टीएआईआर)
 * क्रोम
 * यूनीप्रोटकेबी/स्विस-प्रोट, यूनीप्रोटकेबी/स्विस-प्रोट प्रोटीन आइसोफॉर्म, यूनीप्रोटकेबी/ट्रेमबीएल
 * कशेरुक और जीनोम एनोटेशन डेटाबेस (वेगा)
 * वर्मबेस

यूनीरेफ़
यूनीप्रोट रेफरेंस क्लस्टर्स (यूनीरेफ़) में यूनीप्रोटकेबी और चयनित यूनीपार्क रिकॉर्ड से प्रोटीन अनुक्रमों के क्लस्टर सेट के तीन डेटाबेस सम्मिलित हैं। यूनीरेफ़100 डेटाबेस समान अनुक्रमों और अनुक्रम टुकड़ों (किसी भी जीव से) को एक एकल यूनीरेफ़ प्रविष्टि में जोड़ता है। एक प्रतिनिधि प्रोटीन का अनुक्रम, सभी मर्ज की गई प्रविष्टियों की परिग्रहण संख्या (जैव सूचना विज्ञान) और संबंधित यूनीप्रोटकेबी और यूनीपार्क रिकॉर्ड के लिंक प्रदर्शित किए जाते हैं। यूनीरेफ़100 अनुक्रमों को यूनीरेफ़90 और यूनीरेफ़50 बनाने के लिए सीडी-हिट अल्गोरिथम विधि का उपयोग करके क्लस्टर किया गया है। प्रत्येक क्लस्टर उन अनुक्रमों से बना है जिनमें सबसे लंबे अनुक्रम तक क्रमशः कम से कम 90% या 50% अनुक्रम पहचान होती है। क्लस्टरिंग अनुक्रम डेटाबेस आकार को अधिक कम कर देता है, जिससे तेज़ अनुक्रम खोज सक्षम हो जाती है।

यूनीरेफ़ यूनीप्रोट एफ़टीपी साइट से उपलब्ध है।

वित्तपोषण
यूनीप्रोट को राष्ट्रीय मानव जीनोम अनुसंधान संस्थान, राष्ट्रीय स्वास्थ्य संस्थान (एनआईएच), यूरोपीय आयोग, स्विस संघीय सरकार द्वारा शिक्षा और विज्ञान के संघीय कार्यालय, सीएबीआईजी या एनसीआई-सीएबीआईजी और अमेरिकी रक्षा विभाग के अनुदान से वित्त पोषित किया जाता है।

बाहरी संबंध

 * UniProt