के-मेर

From Vigyanwiki
File:K-mer diagram.svg
अनुक्रम ATGG में दो 3-मेर हैं: ATG और TGG ity।

जैव सूचना विज्ञान के अंतर्गत, के-मर जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले लंबाई के उपरज्जु को कहते हैं। प्रमुख रूप से संगणनात्मक जीनोमिक्स और अनुक्रम विश्लेषण के संदर्भ में उपयोग होते हैं, जहां के-अधिक्स आणविकों (अर्थात् A, T, G और C) से मिलकर बने होते हैं।[1] के-अधिक्स का उपयोग डीएनए संकलन, परजीवी जीन[2][3] अभिव्यक्ति को सुधारने, मेटाजेनोमिक[4] सैंपल में प्रजातियों की पहचान, और क्षीण टीकाकरण[5] बनाने के लिए किया जाता है। सामान्यतया, के-अधिक्स शब्द का उपयोग लंबाई L के एक अनुक्रम के सभी उपस्त्रिंशों के लिए किया जाता है, जिसका अर्थ होता है कि एक अनुक्रम AGAT के चार मोनोमर (A, G, A और T), तीन 2-मर्स (AG, GA, AT), दो 3-मर्स (AGA और GAT) और एक 4-मर्स (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई वाले एक अनुक्रम में के-अधिक्स होंगे और कुल संभव के-अधिक्स होंगे, यहां संभावित मोनोमरों की संख्या है।

परिचय

के-मेर्स केवल लंबाई हैं ,परिणामस्वरूप . उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित के-मर निम्न दर्शाये गए हैं:

File:E. coli 8-mer spectrum.svg
ई के लिए 8-मेर स्पेक्ट्रम का एक उदाहरण दर्शाया गया है। कोलाई 8-मेर्स आवृत्ति (अर्थात् बहुलता) की तुलना उनकी घटनाओं की संख्या से कर रहा है।
जीटीएजीजीसीटीजीटी के लिए के-मेर्स
k के-मर
1 G, T, A, C
2 GT, TA, AG, GA, AG, GC, CT, TG
3 GTA, TAG, AGA, GAG, AGC, GCT, CTG, TGT
4 GTAG, TAGA, AGAG, GAGC, AGCT, GCTG, CTGT
5 GTAGA, TAGAG, AGAGC, GAGCT, AGCTG, GCTGT
6 GTAGAG, TAGAGC, AGAGCT, GAGCTG, AGCTGT
7 GTAGAGC, TAGAGCT, AGAGCTG, GAGCTGT
8 GTAGAGCT, TAGAGCTG, AGAGCTGT
9 GTAGAGCTG, TAGAGCTGT
10 GTAGAGCTGT

क-मर्स को दृश्यीकरण करने की एक विधि, क-मर्स स्पेक्ट्रम, एक अनुक्रम में प्रत्येक क-मर्स की बहुतायत को उस बहुतायत के साथ क-मर्सों की संख्या के खिलाफ दर्शाती है।[6] एक प्रजाति के जीनोम के लिए क-मर्स स्पेक्ट्रम में क-मर्सों की मोड की संख्या भिन्न होती है, ज्यादातर प्रजातियों का एन्यूनतम ोडल वितरण होता है।[7] यद्यपि, सभी स्तनधारी प्राणियों का बहुमोडल वितरण होता है। क-मर्स स्पेक्ट्रम में मोडों की संख्या जीनोम के विभिन्न क्षेत्रों के मध्य भी भिन्न हो सकती है: मानवों में 5' यूटीआर और एक्सॉन में एन्यूनतम ोडल क-मर्स स्पेक्ट्रम होता है, परंतु 3' यूटीआर और इंट्रॉन्स में बहुमोडल स्पेक्ट्रम होता है।

डीएनए के-मेर आवृत्ति को प्रभावित करने वाली शक्तियां

क-मर्स के उपयोग की आवृत्ति को कई बाधाएं प्रभावित करती हैं, जो विभिन्न स्तरों पर कार्य करती हैं और प्रायः एक-दूसरे के विरोध में होती हैं। महत्वपूर्ण बात यह है कि k के अधिक मानों के लिए क-मर्स पर प्रभावित करने वाली शक्तियों से भी प्रभावित होते हैं। जो न्यूनतम मानों के क-मर्स पर प्रभावित कर रहे होते हैं। उदाहरण के लिए, यदि 1-मर A किसी अनुक्रम में नहीं होता है, तो A को सम्मिलित करने वाले 2-मर (AA, AT, AG और AC) भी नहीं होंगे, जिससे विभिन्न प्रभावों के प्रभाव को संबद्ध करते हैं।

के = 1

जब k = 1 होता है, तो डीएनए के चार क-मर्स होते हैं, अर्थात् A, T, G और C। आणविक स्तर पर, G और C के मध्य तीन हाइड्रोजन बंधन होते हैं, जबकि A और T के मध्य केवल दो होते हैं। अतिरिक्त हाइड्रोजन बॉन्ड (और मजबूत स्टैकिंग अंतराक्रियाओं) के परिणामस्वरूप GC बंधन AT बंधन की तुलना में अधिक तापात्मक रूप से स्थिर होते हैं।[8] स्तनधारी प्राणियों और पक्षियों में Gs और Cs का अनुपात As और Ts की तुलना में अधिक होता है (जीसी-सामग्री), जिसके कारण जीसी-सामग्री विविधता के पीछे थर्मल स्थिरता होने की अवधारणा हुई थी ।[9] यद्यपि , यह अवधारणा जांच के दौरान समर्थन नहीं प्राप्त कर पाई: विभिन्न प्रोकैरियोटों के मध्य विश्लेषण ने दिखाया कि जीसी-सामग्री और तापमान के मध्य कोई संबंध नहीं है, जैसा कि थर्मल अनुकूलन के अवधारणा के अनुसार होना चाहिए।[10] वास्तव में, यदि प्राकृतिक चयन जीसी-सामग्री विविधता के पीछे चलने वाला बल होता है, तो यह आवश्यक होगा कि एक पदार्थ के एकल न्यूक्लियोटाइड परिवर्तन, जो प्रायः मौन होते हैं, किसी प्राणी की सुसंगतता को परिवर्तित कर सकते है।[11]

वर्तमान प्रमाण सुझाव देता है कि जीसी-विशिष्ट जीन संवर्धन (जीबीजीसी) जीसी सामग्री में विविधता के पीछे एक चलने वाला कारक है।[11] जीबीजीसी एक पुनर्विन्यास के दौरान होने वाली प्रक्रिया है जिसमें A और T को G और C से परिवर्तित कर दिया जाता है। यह प्रक्रिया, प्राकृतिक चयन से पृथक होने के अतिरिक्त , पुनः भी जीनोम में जीसी प्रतिस्थापनों के प्रति चयनात्मक दबाव डाल सकती है।[12] इसलिए, जीबीजीसी को प्राकृतिक चयन का "प्रतारक" माना जा सकता है।[13] जीसी सामग्री उन स्थानों पर अधिक होती है जहां पुनर्विन्यास अधिक होता है। इसके अलावा, पुनर्विन्यास दरों में अधिकतम होने वाले प्राणियों में उच्च जीसी सामग्री पाई जाती है, जो जीबीजीसी की अवधारणा के प्रभावों के साथ मेल खाता है।[14] दिलचस्प बात यह है कि जीबीजीसी यूकैर्योसाइटों सीमित नहीं होता है।[15] बैक्टीरिया और आर्किया जैसे एकीकृत जीवों को भी जीन संवर्धन के माध्यम से पुनर्विन्यास का सामरिक अनुभव होता है, जो अकार्योगामी अंगिका प्रक्रिया है जिसके परिणामस्वरूप जीनोम में कई एक ही अनुक्रम होते हैं।[16] जीवन के सभी डोमेन में पुनर्विन्यास द्वारा जीसी सामग्री को ऊपर ले जाने का मतलब है कि जीबीजीसी सर्वत्र संरक्षित होता है। यह निर्धारित करना बाकी है कि जीबीजीसी एक (अधिकांशतः) शांत उत्पाद है जो जीवन के आणविक यंत्र का हिस्सा है या यह स्वयं चयन के तहत है, इसकी वास्तविक तत्व और जीवविज्ञान के लिए इसके परिणामस्वरूप लाभ या हानि वर्तमान में अज्ञात है।[17]

के = 2

जीसी-सामग्री पूर्वाग्रहों पर चर्चा करने वाले साहित्य के तुलनात्मक रूप से बड़े समूह के अतिरिक्त , द्विनाभिपूर्वक पूर्वाग्रहों के बारे में अपेक्षाकृत न्यूनतम लिखा गया है। यह ज्ञात है कि जीसी-सामग्री के विपरीत, ये द्विनाभिपूर्वक पूर्वाग्रह पूरे जीनोम में अपेक्षाकृत स्थिर होते हैं, जैसा कि ऊपर देखा गया है, काफी भिन्न हो सकते हैं।[18] यह एक महत्वपूर्ण अंतर्दृष्टि है जिसे नजरअंदाज नहीं किया जाना चाहिए। यदि द्विनाभिपूर्वक पूर्वाग्रह अनुवाद के परिणामस्वरूप दबाव के अधीन थे, तो कोडिंग क्षेत्र और गैर-कोडिंग डीएनए क्षेत्रों में द्विनाभिपूर्वक पूर्वाग्रह के पृथक -पृथक पैटर्न होंगे जो कुछ डाइनुसेलोटाइड्स की न्यूनतम अनुवादात्मक दक्षता से प्रेरित होते होंगे।[19] क्योंकि ऐसा नहीं है, इसलिए यह निष्कर्ष निकाला जा सकता है कि द्विनाभिपूर्वक पक्ष को मोड़ने वाले बल अनुवाद से अस्पष्ट हैं। द्विनाभिपूर्वक पक्षों के अनुवादिक परिकल्पना को प्रभावित करने के विरोधी प्रमाण है कि वायरसों के द्विनाभिपूर्वक पक्ष उनके मात्रिका परिवार से अधिक परिवर्तित करते हैं, जो उनके मेजबानों के अनुवादिक यंत्रों को वायरल परिवारों के विरुद्ध परिवर्तित करते हैं।।[20]

जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार सीजी दमन है, जो मिथाइलेशन सीजी द्विनाभिपूर्वकों की डीमिनेशन के कारण सीपीजी साइट 2-मेर्स की आवृत्ति को न्यूनतम कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री न्यूनतम हो जाती है।[21] यह इंटरैक्शन k के पृथक -पृथक मानों के लिए के-मर को प्रभावित करने वाली शक्ति के मध्य अंतर्संबंध पर प्रकाश डालता है।

द्विनाभिपूर्वक पक्ष के एक रोचक तथ्य यह है कि यह जीनवंशीय रूप से समान प्राणीजातीय जीनोम के मध्य एक "दूरी" माप के रूप में कार्य कर सकता है। घनिष्ठ रूप से संबंधित संगठनों के जीनोम के मध्य तुलनात्मक रूप से दूर संबंधित संगठनों के जोड़ों के मध्य द्विनाभिपूर्वक पक्ष अधिक समान होते हैं।[18]

के = 3

प्रोटीन जो डीएनए संकेतित करता है, बनाने के लिए इस्तेमाल की जाने वाली चालक विभिन्न प्राकृतिक एमिनो एसिड होते हैं। यद्यपि , केवल चार न्यूक्लियोटाइड होते हैं। इसलिए, न्यूक्लियोटाइड्स और एमिनो एसिड्स के मध्य एक-से-एक संबंध नहीं हो सकता है। उसी तरह, 16 2-मर्स होते हैं, जो प्रत्येक एमिनो एसिड को स्पष्टतः प्रतिष्ठित करने के लिए पर्याप्त नहीं हैं। यद्यपि , डीएनए में 64 अलग-अलग 3-मर्स होते हैं, जो प्रत्येक एमिनो एसिड को अद्वितीय रूप से प्रतिष्ठित करने के लिए पर्याप्त होते हैं। ये पृथक 3-मर्स कोडॉन कहलाते हैं। यद्यपि , प्रत्येक कोडॉन केवल एक एमिनो एसिड से मिलता है, प्रत्येक एमिनो एसिड को कई कोडॉन से प्रतिष्ठित किया जा सकता है। इस प्रकार, एक ही एमिनो एसिड अनुक्रम के कई डीएनए प्रतिष्ठान बना सकता है। रोचक बात यह है कि प्रत्येक एमिनो एसिड के लिए कोडॉन का उपयोग बराबर प्रमाण में नहीं होता है। इसे कोडन उपयोग पूर्वाग्रह (सीयूबी) कहा जाता है। जब k = 3 होता है, तो सच्चा 3-मर आवृत्ति और सीयूबी के मध्य एक अंतर किया जाना चाहिए।[22] उदाहरण के लिए, श्रृंगार एक ऐसी पदार्थ है जिसमें चार 3-मर शब्द होते हैं (ATG, TGG, GGC और GCA), जबकि केवल दो कोडॉन (ATG और GCA) होते हैं। यद्यपि , सीयूबी 3-मर उपयोग अवसाद का मुख्य कारक होता है (क्योंकि एक कोडिंग क्षेत्र में के-मरों के १/३ हिस्से कोडॉन होते हैं) और इस पर ध्यान केंद्रित होता है।

विभिन्न कोडॉनों की आवृत्ति में विविधता के यथार्थ कारण को पूर्णतः समझा जा सका नहीं है। यह जाना जाता है कि कोडॉन प्राथमिकता टीआरएनए प्रचुरताओं के संगठन से संबद्ध होती है, जहां प्रचुरतम tRNA के समान कोडॉन उसी प्रमाण में अधिक आवृत्तिक होते हैं।[22] और यह जाना जाता है कि अधिक उच्च स्तर पर प्रकटित प्रोटीनों में अधिक सीयूबी होता है।[23] इससे प्रकट होता है कि अनुवादात्मक क्षमता या सटीकता के लिए चयन प्राथमिकता सीयूबी विविधता के पीछे चलने वाला बल होता है।

के = 4

द्विनाभिपूर्वक पूर्वाग्रह में देखे गए प्रभाव के समान, फ़ाइलोजेनेटिक रूप से समान जीवों के टेट्रान्यूक्लियोटाइड पूर्वाग्रह न्यूनतम निकटता से संबंधित जीवों की तुलना में अधिक समान हैं।[4]टेट्रान्यूक्लियोटाइड पूर्वाग्रह में भिन्नता का सटीक कारण अच्छी तरह से समझा नहीं गया है, परंतु यह अनुमान लगाया गया है कि यह आणविक स्तर पर आनुवंशिक स्थिरता के रखरखाव का परिणाम है।[24]

अनुप्रयोग

एक प्रजाति के जीनोम, एक जीनोमिक क्षेत्र या एक सरणी के वर्ग में एक सेट के क-मर्स की आवृत्ति उपस्थित सरणी की "हस्ताक्षर" के रूप में उपयोग की जा सकती है। इन आवृत्तियों की तुलना करना अनुक्रम संरेखण से कम्प्यूटेशनली आसान होता है और इसे संरेखण-मुक्त अनुक्रम विश्लेषण में महत्वपूर्ण तकनीक के रूप में मान्यता प्राप्त है। यह एक संरेखण से पहले का पहला चरण विश्लेषण के रूप में भी उपयोग किया जा सकता है।

अनुक्रम संयोजन

File:K-mer-example.png
यह आंकड़ा डी ब्रूजन ग्राफ में उपयोग करने में सक्षम होने के लिए रीड्स को छोटे के-मेर्स (इस मामले में 4-मेर्स) में विभाजित करने की प्रक्रिया को दर्शाता है। (ए) अनुक्रमित किए जा रहे डीएनए के प्रारंभिक खंड को दर्शाता है। (बी) उन रीड्स को दर्शाता है जिन्हें अनुक्रमण से आउटपुट बनाया गया था और यह भी दर्शाता है कि वे कैसे संरेखित होते हैं।यद्यपि इस संरेखण के साथ समस्या यह है कि वे k-2 से ओवरलैप होते हैं, k-1 से नहीं (जो कि डी ब्रुइज़न ग्राफ़ में आवश्यक है)। (सी) रीड्स को छोटे 4-मेर्स में विभाजित होते हुए दर्शाता है। (डी) बार-बार 4-मेर्स को हटा देता है और पुनः उनका संरेखण दर्शाता है। ध्यान दें कि ये के-मर k-1 द्वारा ओवरलैप होते हैं और पुनः इन्हें डी ब्रुइज़न ग्राफ़ में उपयोग किया जा सकता है।

सिरणी संचालन में, क-मर्स का उपयोग दे ब्रुइन ग्राफ के निर्माण के दौरान किया जाता है।[25][26] डी ब्रुइन ग्राफ बनाने के लिए, प्रत्येक सिरा में संग्रहीत क-मर्स को संग्रहीत किया जाना चाहिए, जिसकी लंबाई होती है, और इसे एक दूसरे सिरे में 𝐿 − 1 द्वारा ओवरलैप करना चाहिए क्योंकि एक वर्टेक्स बनाया जा सके। अगली पीढ़ी अनुक्रम द्वारा उत्पन्न किए जाने वाले रीड के सामान्यतः विभिन्न रीड लंबाई होती हैं। उदाहरण के लिए, आईल्यूमिना की अनुक्रम प्रौद्योगिकी द्वारा 100-मर की रीड को दर्ज किया जाता है। यद्यपि , अनुक्रम में पाए जाने वाले संपूर्ण संभावित 100-मर में से केवल छोटा हिस्सा वास्तव में उत्पन्न होता है। इसका कारण है रीड त्रुटियाँ, परंतु अधिक महत्वपूर्ण है, अनुक्रम के दौरान संचालन होने वाले सीधे कवरेज को दी जाती है। समस्या यह है कि इन संभावित के-अधिक के छोटे हिस्से दे ब्रुइन ग्राफ की मुख्य मान्यता को उल्लंघन करते हैं, जहां सभी के-अधिक रीड्स को संचालन में आग्रहित होने की अपेक्षा होती है कि इसके पास अपने पड़ोसी के-अधिक से के माध्यम से ओवरलैप हो जाता है।

इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर्स में विभाजित होता है, क्योंकि परिणामी छोटे के-मेर्स उस छोटे आकार के सभी संभावित के-मेर्स का प्रतिनिधित्व करेंगे जो जीनोम में उपस्थित होते हैं।[27] इसके अलावा, के-मर को छोटे आकारों में विभाजित करने से विभिन्न प्रारंभिक पढ़ने की लंबाई की समस्या को न्यूनतम करने में भी सहायता मिलती है। इस उदाहरण में, पांच रीड्स जीनोम के सभी संभावित 7-मेर्स का लेखा जोखा नहीं देते हैं, और इस प्रकार, एक डी ब्रुइज़न ग्राफ़ नहीं बनाया जा सकता है। परंतु , जब उन्हें 4-मेर्स में विभाजित किया जाता है, तो परिणामस्वरूप उपक्रम दे ब्रुइन ग्राफ का उपयोग करके जीनोम का पुनर्निर्माण करने के लिए पर्याप्त होते हैं।

अनुक्रम संचालन के लिए सीधे उपयोग किए जाने के अलावा, के-मर का उपयोग जीनोम मिस-संचालन का पता लगाने के लिए भी किया जा सकता है, जो कि अधिक प्रस्तुत किए गए के-मर की पहचान करके होता है जो संयुक्त किए गए दोहराए गए अनुक्रम (डीएनए) की उपस्थिति का सुझाव देता है।[28] इसके अलावा, के-मर का उपयोग यूकेरियोटिक जीनोम संचालन के दौरान जीवाणु संदूषण का पता लगाने के लिए भी किया जाता है,जो मेटाजेनोमिक्स के क्षेत्र से लाए गए एक दृष्टिकोण से उधारण किया गया है।[29][30]

के-मेर आकार का विकल्प

के-मेर आकार के चुनाव का अनुक्रम संयोजन पर बहुत पृथक प्रभाव पड़ते हैं। ये प्रभाव छोटे आकार और बड़े आकार के के-मेर्स के मध्य अत्यधिक भिन्न होते हैं। इसलिए, प्रभावों को संतुलित करने वाले उपयुक्त आकार को चुनने के लिए विभिन्न के-मेर आकारों की समझ प्राप्त की जानी चाहिए। आकारों के प्रभाव निम्न उल्लिखित हैं।

न्यूनतम के-मेर आकार
  • न्यूनतम के-मेर आकार से ग्राफ़ में संग्रहीत किनारों की मात्रा न्यूनतम हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को न्यूनतम करने में सहायता मिलेगी।
  • छोटे आकार होने से सभी के-मर के ओवरलैप होने की संभावना बढ़ जाएगी, और इस तरह, डी ब्रुइज़न ग्राफ के निर्माण के लिए आवश्यक अनुवर्तीताएं होंगी।[31]
  • यद्यपि , छोटे आकार के k-mer होने से, आपको एकल k-mer में ले जाने वाले ग्राफ़ में कई शीर्ष होने का भी जोखिम होता है। इसलिए, इससे जीनोम का पुनर्निर्माण और अधिक कठिन हो जाएगा क्योंकि बड़ी मात्रा में शीर्षों को पार करने की आवश्यकता के कारण पथ अस्पष्टता का एक उच्च स्तर हमारे सामने आ सकती है।
  • के-मर छोटे हो जाने से जानकारी नष्ट हो जाती है।
    • 'उदा. 'AGTCGTAGATGCTG की संभावना ACGT से न्यूनतम है, और इस प्रकार, अधिक मात्रा में जानकारी रखती है।
  • छोटे के-मर में डीएनए में उन क्षेत्रों को हल करने में सक्षम नहीं होने की भी समस्या होती है जहां छोटे सूक्ष्म उपग्रह या दोहराव होते हैं। ऐसा इसलिए है क्योंकि छोटे के-मर पूरी तरह से दोहराव क्षेत्र के अंदर बैठे रहेंगे और इसलिए यह निर्धारित करना कठिन है कि वास्तव में कितनी पुनरावृत्ति हुई है।
    • 'उदा. 'अनुवर्ती ATGTGTGTGTGTGTACG के लिए, यदि 16 से न्यूनतम के-मेर आकार चुना जाता है, तो टीजी की पुनरावृत्ति की मात्रा खो जाएगी। ऐसा इसलिए है क्योंकि अधिकांश के-मेर दोहराए गए क्षेत्र में बैठेंगे और पुनरावृत्ति की मात्रा को संदर्भित करने के अतिरिक्त उसी के-मेर के पुनरावृत्ति के रूप में खारिज कर दिया जा सकता है।
उच्च के-मेर आकार
  • बड़े आकार के के-मर होने से ग्राफ़ में किनारों की संख्या बढ़ जाएगी, जिसके परिणामस्वरूप, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा बढ़ जाएगी।
  • के-मर का आकार बढ़ाने से शीर्षों की संख्या भी न्यूनतम हो जाएगी। इससे जीनोम के निर्माण में सहायता मिलेगी क्योंकि ग्राफ़ में पार करने के लिए न्यूनतम रास्ते होंगे।[31]*
  • बड़े के-मर में प्रत्येक के-मर से बाहरी शीर्ष न होने का जोखिम भी अधिक होता है। यह बड़े के-मर के कारण यह जोखिम बढ़ रहा है कि यह किसी अन्य k-mer के साथ ओवरलैप नहीं होगा . इसलिए, इससे रीड्स में गड़बड़ी हो सकती है, और इस तरह, अधिक मात्रा में छोटे संपर्क हो सकते हैं।
  • बड़े के-मेर आकार छोटे पुनरावृत्ति वाले क्षेत्रों की समस्या को न्यूनतम करने में सहायता करते हैं। यह इस तथ्य के कारण है कि के-मेर में पुनरावृत्ति क्षेत्र और निकटवर्ती डीएनए अनुक्रमों का संतुलन होगा (बशर्ते यह पर्याप्त बड़ा आकार हो) जो उस विशेष क्षेत्र में पुनरावृत्ति की मात्रा को हल करने में सहायता कर सकता है।

आनुवंशिकी और जीनोमिक्स

रोग संबंधी मामले में, द्विनुकलोटाइड अधिकार को रोगाणुता से जुड़े आनुवंशिक द्वीपों की पहचान में प्रारंभ किया जा चुका है।[11] पूर्व अध्ययन ने यह भी दर्शाया है कि चतुर्णुकलोटाइड अधिकार प्रोकर्योट्स[32] और यूकर्योट्स[33] में क्षैतिज जीन स्थानांतरण की सक्षमता को सफलतापूर्वक देख सकते हैं।

क-मरों का एक और अनुप्रयोग जीनोमिक्स-आधारित टैक्सोनोमी में होता है। उदाहरण के रूप में, मध्यम सफलता के साथ एर्विनिया के प्रजातियों के मध्य जीसी-सामग्री का उपयोग किया गया है।[34] टैक्सोनोमी के लिए जीसी-सामग्री के सीधे उपयोग के समान ही डीएनए की मेल्टिंग तापमान, अर्थात टीएम, का उपयोग किया जाता है।[35] क्योंकि जीसी बॉन्ड अधिक तापतन स्थिर होते हैं, जीसी सामग्री वाले संकेत में उच्च टीएम प्रदर्शित करती है। 1987 में, बैक्टीरियल सिस्टमाटिक्स के प्रति दृष्टिकोण को समाधान करने के लिए एड हॉक समिति ने फाइटोजेनेटिक प्रजाति संकल्प के हिस्से के रूप में जाति सीमाओं की निर्धारण में डेल्टा टीएम का उपयोग करने की प्रार्थना की, यद्यपि यह प्रार्थना वैज्ञानिक समुदाय में प्रभावी नहीं रही है।

आनुवंशिकता और जीनोमिक्स के अन्य अनुप्रयोग में सम्मिलित हैं:

  • आरएनए अनुक्रम डेटा से आरएनए आयसोफॉर्म की मात्रा का मापन होता है।[36]
  • मानव माइटोकॉन्ड्रियल हैप्लोग्रुप का वर्गीकरण करता है। [37]
  • जीनोम्स में पुनर्जनन स्थलों का पता लगाना होता है।[38]
  • के-मेर आवृत्ति बनाम के-अधिक गहराई का उपयोग करके जीनोम आकार का अनुमान लगाया जाता है। [39]
  • फ्लैंकिंग क्षेत्रों द्वारा सीपीजी द्वीपों का वर्णन किया जाता है। [40][41]
  • पुनरावृत्ति तत्व जैसे ट्रांसपोजेबल तत्व के नए पत्ते का खोज करना होता है ।[42]
  • प्रजातियों की डीएनए बारकोडिंग का पता लगाना होता है ।।[7][43]
  • प्रोटीन-बाइंडिंग सिक्वेंस मोटिफ का वर्णन किया जाता है। [44]
  • अगली पीढ़ी के डीएनए अनुक्रमण डेटा का उपयोग करके उत्परिवर्तन या बहुरूपता (जीव विज्ञान) की पहचान करना होता है।[45]


मेटाजेनोमिक्स

मेटाजेनोमिक्स में क-मर आवृत्ति और स्पेक्ट्रम विविधता का व्यापक उपयोग विश्लेषण[46][47] और बिनिंग के लिए किया जाता है। बिनिंग में, सीक्वेंसिंग रीड्स को प्रत्येक जीवाणु (या संचालनक टैक्सोनोमिक इकाई) के लिए "बिन्स" में अलग करने की चुनौती होती है, जिन्हें पुनः वे आस्थापित किए जाएंगे। टीईटीआरए एक महत्वपूर्ण उपकरण है जो मेटाजेनोमिक प्रारूप को लेता है और उन्हें उनके चतुर्नुक्लियोटाइड (k = 4) आवृत्ति के आधार पर जीवाणुओं में बिन्स में डालता है।[48] मेटाजेनोमिक बिनिंग के लिए क-मर आवृत्ति पर आधारित अन्य उपकरण हैं कंपोस्टबिन (k = 6),[49] पीसीएहिर,[50] फाइलोपाइथिया (5 ≤ k ≤ 6),[[51] क्लार्क (k ≥ 20),[52] और टैकोटाकोआ (2 ≤ k ≤ 6).[53] वर्तमान की विकासों ने मेटाजेनोमिक बिनिंग[54] में क-मर का उपयोग करके गहन अध्ययन को भी प्रारंभ किया है।

मेटाजेनोमिक्स के अन्य अनुप्रयोग सम्मिलित हैं:

  • कच्चे रीड्स से रीडिंग फ्रेम की पुनःप्राप्ति करता है।[55]
  • मेटागेनोमिक प्रारूपों में प्रजातियों की प्रमुखता का अनुमान लगाता है।[56]
  • प्रारूपों में उपस्थित प्रजातियों की निर्धारण करता है।[57][58]
  • प्रारूपों से रोगों के लिए बायोमार्कर की पहचान करता है। [59]

जैव प्रौद्योगिकी

अनुवाद संबंधी दक्षता को नियंत्रित करने के लिए जैव प्रौद्योगिकी अनुप्रयोगों में डीएनए अनुक्रमों में के-मेर आवृत्तियों को संशोधित करने का बड़े पैमाने पर उपयोग किया गया है।विशेष रूप से, इसका उपयोग प्रोटीन उत्पादन दर को उच्च या निम्न स्तर पर नियंत्रित करने के लिए किया गया है।

प्रोटीन उत्पादन बढ़ाने के संबंध में, प्रतिकूल द्विनाभिपूर्वक आवृत्ति को न्यूनतम करने से प्रोटीन संश्लेषण की उच्च दर प्राप्त होती है।[60] इसके अलावा, कोडॉन उपयोग विभेद को संश्लेषण दर को बढ़ाने वाले समरूपी अनुक्रमों का निर्माण करने के लिए संशोधित किया गया है।[2][3]इसी प्रकार, कोडन जोड़ी अनुकूलन, डाइनुसेलोटाइड और कोडन अनुकूलन का संयोजन, का भी अभिव्यक्ति को बढ़ाने के लिए सफलतापूर्वक उपयोग किया गया है।[61]

अनुवाद प्रभावशीलता को न्यूनतम करने के लिए क-मर का सबसे अध्ययनित अनुप्रयोग है टीके बनाने के लिए वायरसों को कमजोर करने के लिए कोडॉन-पेयर मानिपुलेशन का उपयोग करना। शोधकर्ताओं ने डेंगू वायरस का कारण बनने वाले वायरस को इस तरह से रीकोड किया कि इसका कोडॉन-पेयर विचारप्रधानता पशुवैज्ञानिक कोडॉन उपयोग पसंद से अधिक पृथक था।[62] यद्यपि इसमें एक अभिन्न एमिनो एसिड अनुक्रम था, परंतु रीकोड किए गए वायरस ने महत्वपूर्ण रूप से कमजोर रोगीता दिखाई दी जबकि यह मजबूत प्रतिरक्षा प्रतिक्रिया उत्पन्न कर रहा था। यह दृष्टिपट्ट में भी कोडॉन-पेयर विचारप्रधानता मानिपुलेशन का सफलतापूर्वक उपयोग इंफ्लुएंजा वैक्सीन[63] और मारेक का रोग हर्पेसवायरस (एमडीवी) के लिए वैक्सीन बनाने में भी किया गया है।[64] यह उल्लेखनीय है कि एमडीवी को कमजोर करने के लिए वापसी कोडॉन-पेयर विचारप्रधानता मानिपुलेशन ने वायरस की कैंसरजनन को सफलतापूर्वक कम नहीं किया, जिससे यह दर्शाता है कि इस उपयोग के जैव प्रौद्योगिकी अनुप्रयोगों में पोटेंशियल की कमजोरी है। अब तक, कोडॉन-पेयर गैरउत्पादित वैक्सीन को अनुमति नहीं मिली है।

दो उपरांत के लेखों से स्पष्ट होता है कि कोडॉन-पेयर अनुप्रोजननीकरण के पीछे वास्तविक तंत्र का विवरण समझाने में सहायता मिलती है: कोडॉन-पेयर विचारप्रधानता द्विनुकलोटाइड विचारप्रधानता के परिणामस्वरूप होती है।।[65][66] वायरस और उनके मेजबानों का अध्ययन करके, दोनों लेखकों ने यह निर्धारित किया कि वायरसों की कमजोर रूप से अनुवाद के लिए अनुपयुक्त द्विनुकलोटाइडों की वृद्धि ही उस आणविक तंत्र का परिणाम होती है जो वायरसों को कमजोर करता है।

पीसीआर , एक महत्वपूर्ण जैव प्रौद्योगिकी उपकरण में यौगिक गलनांक की पूर्वानुमान करने के लिए जीसी-सामग्री (जीसी सामग्री) का उपयोग किया जाता है।

कार्यान्वयन

स्यूडोकोड

किसी रीड के संभावित के-मर का निर्धारण केवल स्ट्रिंग की लंबाई पर एक-एक करके साइकिल चलाकर और लंबाई के प्रत्येक सबस्ट्रिंग को निकालकर किया जा सकता है। इसे प्राप्त करने के लिए छद्मकोड इस प्रकार है:

procedure के-मर (string seq, integer k) is
    L ← length(seq)
    arr ← new array of L − k + 1 empty strings

    // seq में के-मर  की संख्या को पुनरावृत्त करें,
    // आउटपुट ऐरे में nth k-mer को स्टोर करना
    'for n ← 0 to L − k + 1 exclusive do
       arr[n] ← subsequence of seq from letter n inclusive to letter n + k exclusive

    return arr

जैव सूचना विज्ञान पाइपलाइनों में

क्योंकि k के मान के लिए के-अधिक्स की संख्या गणनात्मक रूप से बढ़ती है, इसलिए बड़े k के लिए (आमतौर पर >10) के-अधिक्स की गणना एक कम्प्यूटेशनली कठिन कार्य है। जबकि छोटे k मानों के लिए उपरोक्त प्सेडोकोड जैसे सरल अमलन कार्यों का कार्य करते हैं, उन्हें उच्च-प्रवाह अनुप्रयोगों या जब k बड़ा होता है, तों उसके लिए अनुकूलित करना चाहिए। इस समस्या को हल करने के लिए, विभिन्न उपकरणों का विकास किया गया है:

  • जेलीफ़िश के-मेर गणना के लिए एक मल्टीथ्रेडेड, लॉक-फ्री हैश तालिका का उपयोग करता है और इसमें पायथन , रूबी , और पर्ल बाइंडिंग है।[67]
  • केएमसी के-मेर गणना के लिए एक उपकरण है जो अनुकूलित गति के लिए मल्टीडिस्क आर्किटेक्चर का उपयोग करने वाला उपकरण है[68]
  • जरबिल हैश तालिका दृष्टिकोण का उपयोग करता है परंतु जीपीयू त्वरण के लिए अतिरिक्त समर्थन के साथ जोड़ा गया है।[69]
  • के-मेर विश्लेषण टूलकिट (के-एटी) के-मेर गणना का विश्लेषण करने के लिए जेलिफ़िश के एक संशोधित संस्करण करके के-मर गणना का विश्लेषण करने के लिए उपयोग होता है।[6]

यह भी देखें

संदर्भ

  1. Compeau, Phillip E C; Pevzner, Pavel A; Tesler, Glenn (November 2011). "जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें". Nature Biotechnology (in English). 29 (11): 987–991. doi:10.1038/nbt.2023. ISSN 1087-0156. PMC 5531759. PMID 22068540.
  2. 2.0 2.1 Welch, Mark; Govindarajan, Sridhar; Ness, Jon E.; Villalobos, Alan; Gurney, Austin; Minshull, Jeremy; Gustafsson, Claes (2009-09-14). Kudla, Grzegorz (ed.). "एस्चेरिचिया कोलाई में सिंथेटिक जीन अभिव्यक्ति को नियंत्रित करने के लिए डिज़ाइन पैरामीटर". PLOS ONE (in English). 4 (9): e7002. Bibcode:2009PLoSO...4.7002W. doi:10.1371/journal.pone.0007002. ISSN 1932-6203. PMC 2736378. PMID 19759823.