के-मेर

अनुक्रम ATGG में दो 3-मेर हैं: ATG और TGG ity।

जैव सूचना विज्ञान के अंतर्गत, के-मेर जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले $k$ लंबाई के उपरज्जु को कहते हैं। इनका उपयोग प्रमुख रूप से संगणनात्मक जीनोमिक्स और अनुक्रम विश्लेषण के संदर्भ में किया जाता है जहां के-मेर, आणविकों (अर्थात् A, T, G और C) से मिलकर बने होते हैं।^[1] के-मेर का उपयोग डीएनए संकलन, परजीवी जीन^[2]^[3] अभिव्यक्ति को सुधारने, मेटाजेनोमिक^[4] सैंपल में प्रजातियों की पहचान, और क्षीण टीका^[5] बनाने के लिए किया जाता है। सामान्यतः, 'k-मेर' शब्द का उपयोग एक अनुक्रम के सभी उप-अनुक्रमों को संदर्भित करने के लिए किया जाता है, जिनकी लंबाई k होती है, इस प्रकार अनुक्रम AGAT में चार मोनोमेर्स (A, G, A और T), तीन 2-मेर (AG, GA, AT), दो 3-मेर (AGA और GAT) और एक 4-मेर (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई $L$ वाले एक अनुक्रम में $L-k+1$ के-मेर होंगे और $n^{k}$ कुल संभव के-मेर होंगे, यहां $n$ संभावित मोनोमेरों की संख्या है।

परिचय

के-मेर केवल $k$ लंबाई के अनुक्रम होतें हैं ,परिणामस्वरूप . उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित के-मेर निम्न रूप में दर्शाये गए हैं:

File:E. coli 8-mer spectrum.svg

ई के लिए 8-मेर स्पेक्ट्रम का एक उदाहरण दर्शाया गया है। कोलाई 8-मेर्स आवृत्ति (अर्थात् बहुलता) की तुलना उनकी घटनाओं की संख्या से कर रहा है।

जीटीएजीजीसीटीजीटी के लिए के-मेर
k	के-मेर
1	G, T, A, C
2	GT, TA, AG, GA, AG, GC, CT, TG
3	GTA, TAG, AGA, GAG, AGC, GCT, CTG, TGT
4	GTAG, TAGA, AGAG, GAGC, AGCT, GCTG, CTGT
5	GTAGA, TAGAG, AGAGC, GAGCT, AGCTG, GCTGT
6	GTAGAG, TAGAGC, AGAGCT, GAGCTG, AGCTGT
7	GTAGAGC, TAGAGCT, AGAGCTG, GAGCTGT
8	GTAGAGCT, TAGAGCTG, AGAGCTGT
9	GTAGAGCTG, TAGAGCTGT
10	GTAGAGCTGT

के-मेर को दृश्यीकरण करने का एक तरीका, के-मेर स्पेक्ट्रम कहलाता है, जिसमें एक अनुक्रम में प्रत्येक के-मेर की बहुतायत और उस बहुतायत वाले के-मेरों की संख्या का तुलनात्मक माप दिखाया जाता है।^[6] एक प्रजाति के जीनोम के के-मेर स्पेक्ट्रम में मोडों की संख्या भिन्न-भिन्न होती है, जबकि अधिकांश प्रजातियों में एक मोड का वितरण होता है।^[7] यहाँ तक कि सभी स्तनधारी प्राणियों में एकाधिक मोड के साथ एक बहुमोडाल वितरण होता है। के-मेर स्पेक्ट्रम के भीतर मोडों की संख्या जीनोम के विभिन्न क्षेत्रों में भी भिन्न हो सकती है: मानवों में 5' यूटीआर और एक्सोन में एकाधिक मोड के साथ के-मेर स्पेक्ट्रम होता है, जबकि 3' यूटीआर और इंट्रोनस में बहुमोडाल स्पेक्ट्रम होता है।

डीएनए के-मेर आवृत्ति को प्रभावित करने वाली शक्तियां

के-मेर के उपयोग की आवृत्ति को कई बाधाएं प्रभावित करती हैं, जो विभिन्न स्तरों पर कार्य करती हैं और प्रायः एक-दूसरे के विरोध में होती हैं। महत्वपूर्ण बात यह है कि k के अधिक मानों के लिए के-मेर पर प्रभावित करने वाली शक्तियों से भी प्रभावित होते हैं। जो न्यूनतम मानों के के-मेर पर प्रभावित कर रहे होते हैं। उदाहरण के लिए, यदि 1-मेर A किसी अनुक्रम में नहीं होता है, तो A को सम्मिलित करने वाले 2-मेर (AA, AT, AG और AC) भी नहीं होंगे, जिससे विभिन्न प्रभावों के प्रभाव को संबद्ध करते हैं।

के = 1

जब k = 1 होता है, तो डीएनए के चार के-मेर होते हैं, अर्थात् A, T, G और C आणविक स्तर पर, G और C के मध्य तीन हाइड्रोजन बंधनही होते हैं, जबकि A और T के मध्य केवल दो होते हैं। अतिरिक्त हाइड्रोजन बन्ध (और मजबूत स्टैकिंग अंतराक्रियाओं) के परिणामस्वरूप GC बंधन AT बंधन की तुलना में अधिक तापात्मक रूप से स्थिर होते हैं।^[8] स्तनधारी प्राणियों और पक्षियों में Gs और Cs का अनुपात As और Ts की तुलना में अधिक होता है, जिसके कारण जीसी-सामग्री विविधता के पीछे थर्मल स्थिरता होने की अवधारणा होती थी ।^[9] यद्यपि , यह अवधारणा जांच के दौरान समेर्थन नहीं प्राप्त कर पाई: विभिन्न प्रोकैरियोटों के मध्य विश्लेषण ने दिखाया कि जीसी-सामग्री और तापमान के मध्य कोई संबंध नहीं होता है, जैसा कि थर्मल अनुकूलन के अवधारणा के अनुसार होना चाहिए।^[10] वास्तव में, यदि प्राकृतिक चयन जीसी-सामग्री विविधता के पीछे चलने वाला बल होता है, तो यह आवश्यक होगा कि एक पदार्थ के एकल न्यूक्लियोटाइड परिवर्तन, जो प्रायः शांत होते हैं, किसी प्राणी की सुसंगतता को परिवर्तित कर सकते है।^[11]

वर्तमान प्रमाण सुझाव देता है कि जीसी-विशिष्ट जीन संवर्धन (जीबीजीसी) जीसी सामग्री में विविधता के पीछे एक चलने वाला कारक है।^[11] जीबीजीसी एक पुनर्विन्यास के दौरान होने वाली प्रक्रिया है जिसमें A और T को G और C से परिवर्तित कर दिया जाता है। यह प्रक्रिया, प्राकृतिक चयन से पृथक होने के अतिरिक्त , पुनः भी जीनोम में जीसी प्रतिस्थापनों के प्रति चयनात्मक दबाव डाल सकती है।^[12] इसलिए, जीबीजीसी को प्राकृतिक चयन का "प्रतारक" माना जा सकता है।^[13] जीसी सामग्री उन स्थानों पर अधिक होती है जहां पुनर्विन्यास अधिक होता है। इसके अलावा, पुनर्विन्यास दरों में अधिकतम होने वाले प्राणियों में उच्च जीसी सामग्री पाई जाती है, जो जीबीजीसी की अवधारणा के प्रभावों के साथ मेल खाता है।^[14] दिलचस्प बात यह है कि जीबीजीसी यूकैर्योसाइटों सीमित नहीं होता है।^[15] बैक्टीरिया और आर्किया जैसे एकीकृत जीवों को भी जीन संवर्धन के माध्यम से पुनर्विन्यास का सामेरिक अनुभव होता है, जो अकार्योगामी अंगिका प्रक्रिया है जिसके परिणामस्वरूप जीनोम में कई एक ही अनुक्रम होते हैं।^[16] जीवन के सभी डोमेन में पुनर्विन्यास द्वारा जीसी सामग्री को ऊपर ले जाने का मतलब है कि जीबीजीसी सर्वत्र संरक्षित होता है। यह निर्धारित करना शेष है कि जीबीजीसी एक (अधिकांशतः) शांत उत्पाद है जो जीवन के आणविक यंत्र का हिस्सा है या यह स्वयं चयन के तहत है, इसकी वास्तविक तत्व और जीवविज्ञान के लिए इसके परिणामस्वरूप लाभ या हानि वर्तमान में अज्ञात है।^[17]

के = 2

जीसी-सामग्री पूर्वाग्रहों पर चर्चा करने वाले साहित्य के तुलनात्मक रूप से बड़े समूह के अतिरिक्त , द्विनाभिपूर्वक पूर्वाग्रहों के बारे में अपेक्षाकृत न्यूनतम लिखा गया है। यह ज्ञात है कि जीसी-सामग्री के विपरीत, ये द्विनाभिपूर्वक पूर्वाग्रह पूरे जीनोम में अपेक्षाकृत स्थिर होते हैं, जैसा कि ऊपर देखा गया है,या अत्यधिक भिन्न हो सकते हैं।^[18] यह एक महत्वपूर्ण अंतर्दृष्टि है जिसे उपेक्षा नहीं किया जाना चाहिए। यदि द्विनाभिपूर्वक पूर्वाग्रह अनुवाद के परिणामस्वरूप दबाव के अधीन थे, तो कोडिंग क्षेत्र और गैर-कोडिंग डीएनए क्षेत्रों में द्विनाभिपूर्वक पूर्वाग्रह के पृथक पैटर्न होंगे जो कुछ डाइनुसेलोटाइड्स की न्यूनतम अनुवादात्मक दक्षता से प्रेरित होते है।^[19] इसलिए यह निष्कर्ष निकाला जा सकता है कि द्विनाभिपूर्वक पक्ष को मोड़ने वाले बल अनुवाद से अस्पष्ट हों जाता हैं। द्विनाभिपूर्वक पक्षों के अनुवादिक परिकल्पना को प्रभावित करने के विरोधी प्रमाण है कि वायरसों के द्विनाभिपूर्वक पक्ष उनके मात्रिका समूह से अधिक परिवर्तित करते हैं, जो उनके मेजबानों के अनुवादिक यंत्रों को वायरल समूहों के विरुद्ध परिवर्तित करते हैं।^[20]

जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार सीजी दमन है, जो मिथाइलेशन सीजी द्विनाभिपूर्वकों की डीमिनेशन के कारण सीपीजी साइट 2-मेर्स की आवृत्ति को न्यूनतम कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री न्यूनतम हो जाती है।^[21] यह इंटरैक्शन k के पृथक -पृथक मानों के लिए के-मेर को प्रभावित करने वाली शक्ति के मध्य अंतर्संबंध पर प्रकाश डालता है।

द्विनाभिपूर्वक पक्ष के एक रोचक तथ्य यह है कि यह जीनवंशीय रूप से समान प्राणीजातीय जीनोम के मध्य एक "दूरी" माप के रूप में कार्य कर सकता है। घनिष्ठ रूप से संबंधित संगठनों के जीनोम के मध्य तुलनात्मक रूप से दूर संबंधित संगठनों के जोड़ों के मध्य द्विनाभिपूर्वक पक्ष अधिक समान होते हैं।^[18]

के = 3

प्रोटीन जो डीएनए संकेतित करता है, बनाने के लिए इस्तेमाल की जाने वाली चालक विभिन्न प्राकृतिक एमिनो एसिड होते हैं। यद्यपि , केवल चार न्यूक्लियोटाइड होते हैं। इसलिए, न्यूक्लियोटाइड्स और एमिनो एसिड्स के मध्य एक-से-एक संबंध नहीं हो सकता है। उसी तरह, 16 2-मेर्स होते हैं, जो प्रत्येक एमिनो एसिड को स्पष्टतः प्रतिष्ठित करने के लिए पर्याप्त नहीं हैं। यद्यपि , डीएनए में 64 अलग-अलग 3-मेर्स होते हैं, जो प्रत्येक एमिनो एसिड को अद्वितीय रूप से प्रतिष्ठित करने के लिए पर्याप्त होते हैं। ये पृथक 3-मेर्स कोडॉन कहलाते हैं। यद्यपि , प्रत्येक कोडॉन केवल एक एमिनो एसिड से मिलता है, प्रत्येक एमिनो एसिड को कई कोडॉन से प्रतिष्ठित किया जा सकता है। इस प्रकार, एक ही एमिनो एसिड अनुक्रम के कई डीएनए प्रतिष्ठान बना सकता है। रोचक बात यह है कि प्रत्येक एमिनो एसिड के लिए कोडॉन का उपयोग बराबर प्रमाण में नहीं होता है। इसे कोडन उपयोग पूर्वाग्रह (सीयूबी) कहा जाता है। जब k = 3 होता है, तो सच्चा 3-मेर आवृत्ति और सीयूबी के मध्य एक अंतर किया जाना चाहिए।^[22] उदाहरण के लिए, श्रृंगार एक ऐसी पदार्थ है जिसमें चार 3-मेर शब्द होते हैं (ATG, TGG, GGC और GCA), जबकि केवल दो कोडॉन (ATG और GCA) होते हैं। यद्यपि , सीयूबी 3-मेर उपयोग अवसाद का मुख्य कारक होता है (क्योंकि एक कोडिंग क्षेत्र में के-मेरों के १/३ हिस्से कोडॉन होते हैं) और इस पर ध्यान केंद्रित होता है।

विभिन्न कोडॉनों की आवृत्ति में विविधता के यथार्थ कारण को पूर्णतः समझा नहीं जा सका है। यह जाना जाता है कि कोडॉन प्राथमिकता टीआरएनए प्रचुरताओं के संगठन से संबद्ध होती है, जहां प्रचुरतम tRNA के समान कोडॉन उसी प्रमाण में अधिक आवृत्तिक होते हैं।^[22] और यह जाना जाता है कि अधिक उच्च स्तर पर प्रकटित प्रोटीनों में अधिक सीयूबी होता है।^[23] इससे प्रकट होता है कि अनुवादात्मक क्षमता या सटीकता के लिए चयन प्राथमिकता सीयूबी विविधता के पीछे चलने वाला बल होता है।

के = 4

द्विनाभिपूर्वक पूर्वाग्रह में देखे गए प्रभाव के समान, फ़ाइलोजेनेटिक रूप से समान जीवों के टेट्रान्यूक्लियोटाइड पूर्वाग्रह न्यूनतम निकटता से संबंधित जीवों की तुलना में अधिक समान हैं।^[4]टेट्रान्यूक्लियोटाइड पूर्वाग्रह में भिन्नता का सटीक कारण अच्छी तरह से समझा नहीं गया है, परंतु यह अनुमान लगाया गया है कि यह आणविक स्तर पर आनुवंशिक स्थिरता के रखरखाव का परिणाम है।^[24]

अनुप्रयोग

एक प्रजाति के जीनोम, एक जीनोमिक क्षेत्र या एक सरणी के वर्ग में एक सेट के के-मेर की आवृत्ति उपस्थित सरणी की "हस्ताक्षर" के रूप में उपयोग की जा सकती है। इन आवृत्तियों की तुलना करना अनुक्रम संरेखण से कम्प्यूटेशनली आसान होता है और इसे संरेखण-मुक्त अनुक्रम विश्लेषण में महत्वपूर्ण तकनीक के रूप में मान्यता प्राप्त है। यह एक संरेखण से पहले का पहला चरण विश्लेषण के रूप में भी उपयोग किया जा सकता है।

अनुक्रम संयोजन

File:K-mer-example.png

यह आँकड़ा चित्र k-मेर्स (इस परिप्रेक्ष्य में 4-मेर्स) में पढ़ाई गई सीक्वेंस को छोटे क-मेर्स में विभाजित करने की प्रक्रिया को दिखाता है जिससे इसे दे ब्रुइन आरेख में उपयोग किया जा सके। (A) में प्राथमिक रूप से डीएनए के सेगमेंट को सीक्वेंस किया जा रहा है दिखाया जाता है। (B) में पढ़ाई से उत्पन्न हुए पढ़ने दिखाए जाते हैं और यह भी दिखाता है कि वे कैसे मिलते हैं। हालांकि, इस एलाइनमेंट की समस्या यह है कि वे k-2 से परत करते हैं, न कि k-1 (जो दे ब्रुइन आरेख में आवश्यक होता है)। (C) में पढ़ाई को छोटे 4-मेर्स में विभाजित किया जाता है। (D) में दोहराए गए 4-मेर्स को छोड़ देता है और फिर उनके एलाइनमेंट को दिखाता है। ध्यान दें कि ये k-मेर्स k-1 से परत करते हैं और फिर दे ब्रुइन आरेख में उपयोग किए जा सकते हैं।

सिरणी संचालन में, के-मेर का उपयोग दे ब्रुइन आरेख के निर्माण के दौरान किया जाता है।^[25]^[26] डी ब्रुइन आरेख बनाने के लिए, प्रत्येक सिरा में संग्रहीत के-मेर को संग्रहीत किया जाना चाहिए, जिसकी लंबाई $L$ होती है, और इसे एक दूसरे सिरे में 𝐿 − 1 द्वारा ओवरलैप करना चाहिए क्योंकि एक वर्टेक्स बनाया जा सके। अगली पीढ़ी अनुक्रम द्वारा उत्पन्न किए जाने वाले रीड के सामान्यतः विभिन्न रीड लंबाई होती हैं। उदाहरण के लिए, आईल्यूमिना की अनुक्रम प्रौद्योगिकी द्वारा 100-मेर की रीड को दर्ज किया जाता है। यद्यपि , अनुक्रम में पाए जाने वाले संपूर्ण संभावित 100-मेर में से केवल छोटा हिस्सा वास्तव में उत्पन्न होता है। इसका कारण है रीड त्रुटियाँ, परंतु अधिक महत्वपूर्ण है, अनुक्रम के दौरान संचालन होने वाले सीधे कवरेज को दी जाती है। समस्या यह है कि इन संभावित के-अधिक के छोटे हिस्से दे ब्रुइन आरेख की मुख्य मान्यता को उल्लंघन करते हैं, जहां सभी के-अधिक रीड्स को संचालन में आग्रहित होने की अपेक्षा होती है कि इसके पास अपने पड़ोसी के-अधिक से $k-1$ के माध्यम से ओवरलैप हो जाता है।

इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर में विभाजित होता है, क्योंकि परिणामी छोटे के-मेर उस छोटे आकार के सभी संभावित के-मेर का प्रतिनिधित्व करेंगे जो जीनोम में उपस्थित होते हैं।^[27] इसके अलावा, के-मेर को छोटे आकारों में विभाजित करने से विभिन्न प्रारंभिक पढ़ने की लंबाई की समस्या को न्यूनतम करने में भी सहायता मिलती है। इस उदाहरण में, पांच रीड्स जीनोम के सभी संभावित 7-मेर्स का लेखा जोखा नहीं देते हैं, और इस प्रकार, एक डी ब्रुइज़न आरेख़ नहीं बनाया जा सकता है। परंतु , जब उन्हें 4-मेर्स में विभाजित किया जाता है, तो परिणामस्वरूप उपक्रम दे ब्रुइन आरेख का उपयोग करके जीनोम का पुनर्निर्माण करने के लिए पर्याप्त होते हैं।

अनुक्रम संचालन के लिए सीधे उपयोग किए जाने के अलावा, के-मेर का उपयोग जीनोम मिस-संचालन का पता लगाने के लिए भी किया जा सकता है, जो कि अधिक प्रस्तुत किए गए के-मेर की पहचान करके होता है जो संयुक्त किए गए दोहराए गए अनुक्रम (डीएनए) की उपस्थिति का सुझाव देता है।^[28] इसके अलावा, के-मेर का उपयोग यूकेरियोटिक जीनोम संचालन के दौरान जीवाणु संदूषण का पता लगाने के लिए भी किया जाता है,जो मेटाजेनोमिक्स के क्षेत्र से लाए गए एक दृष्टिकोण से उधारण किया गया है।^[29]^[30]

के-मेर आकार का विकल्प

के-मेर आकार के चुनाव का अनुक्रम संयोजन पर बहुत पृथक प्रभाव पड़ते हैं। ये प्रभाव छोटे आकार और बड़े आकार के के-मेर के मध्य अत्यधिक भिन्न होते हैं। इसलिए, प्रभावों को संतुलित करने वाले उपयुक्त आकार को चुनने के लिए विभिन्न के-मेर आकारों की समझ प्राप्त की जानी चाहिए। आकारों के प्रभाव निम्न उल्लिखित हैं।

न्यूनतम के-मेर आकार

न्यूनतम के-मेर आकार से आरेख़ में संग्रहीत किनारों की मात्रा न्यूनतम हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को न्यूनतम करने में सहायता मिलेगी।
छोटे आकार होने से सभी के-मेर के ओवरलैप होने की संभावना बढ़ जाएगी, और इस तरह, डी ब्रुइज़न आरेख के निर्माण के लिए आवश्यक अनुवर्तीताएं होंगी।^[31]
यद्यपि , छोटे आकार के k-mer होने से, आपको एकल k-mer में ले जाने वाले आरेख़ में कई शीर्ष होने का भी जोखिम होता है। इसलिए, इससे जीनोम का पुनर्निर्माण और अधिक कठिन हो जाएगा क्योंकि बड़ी मात्रा में शीर्षों को पार करने की आवश्यकता के कारण पथ अस्पष्टता का एक उच्च स्तर हमारे सामने आ सकती है।
के-मेर छोटे हो जाने से जानकारी नष्ट हो जाती है।
- 'उदा. 'AGTCGTAGATGCTG की संभावना ACGT से न्यूनतम है, और इस प्रकार, अधिक मात्रा में जानकारी रखती है।
छोटे के-मेर में डीएनए में उन क्षेत्रों को हल करने में सक्षम नहीं होने की भी समस्या होती है जहां छोटे सूक्ष्म उपग्रह या दोहराव होते हैं। ऐसा इसलिए है क्योंकि छोटे के-मेर पूरी तरह से दोहराव क्षेत्र के अंदर बैठे रहेंगे और इसलिए यह निर्धारित करना कठिन है कि वास्तव में कितनी पुनरावृत्ति हुई है।
- 'उदा. 'अनुवर्ती ATGTGTGTGTGTGTACG के लिए, यदि 16 से न्यूनतम के-मेर आकार चुना जाता है, तो टीजी की पुनरावृत्ति की मात्रा खो जाएगी। ऐसा इसलिए है क्योंकि अधिकांश के-मेर दोहराए गए क्षेत्र में बैठेंगे और पुनरावृत्ति की मात्रा को संदर्भित करने के अतिरिक्त उसी के-मेर के पुनरावृत्ति के रूप में खारिज कर दिया जा सकता है।

उच्च के-मेर आकार

बड़े आकार के के-मेर होने से आरेख़ में किनारों की संख्या बढ़ जाएगी, जिसके परिणामस्वरूप, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा बढ़ जाएगी।
के-मेर का आकार बढ़ाने से शीर्षों की संख्या भी न्यूनतम हो जाएगी। इससे जीनोम के निर्माण में सहायता मिलेगी क्योंकि आरेख़ में पार करने के लिए न्यूनतम रास्ते होंगे।^[31]*
बड़े के-मेर में प्रत्येक के-मेर से बाहरी शीर्ष न होने का जोखिम भी अधिक होता है। यह बड़े के-मेर के कारण यह जोखिम बढ़ रहा है कि यह किसी अन्य k-mer के साथ $k-1$ ओवरलैप नहीं होगा . इसलिए, इससे रीड्स में गड़बड़ी हो सकती है, और इस तरह, अधिक मात्रा में छोटे संपर्क हो सकते हैं।
बड़े के-मेर आकार छोटे पुनरावृत्ति वाले क्षेत्रों की समस्या को न्यूनतम करने में सहायता करते हैं। यह इस तथ्य के कारण है कि के-मेर में पुनरावृत्ति क्षेत्र और निकटवर्ती डीएनए अनुक्रमों का संतुलन होगा (बशर्ते यह पर्याप्त बड़ा आकार हो) जो उस विशेष क्षेत्र में पुनरावृत्ति की मात्रा को हल करने में सहायता कर सकता है।

आनुवंशिकी और जीनोमिक्स

रोग संबंधी परिप्रेक्ष्य में, द्विनुकलोटाइड अधिकार को रोगाणुता से जुड़े आनुवंशिक द्वीपों की पहचान में प्रारंभ किया जा चुका है।^[11] पूर्व अध्ययन ने यह भी दर्शाया है कि चतुर्णुकलोटाइड अधिकार प्रोकर्योट्स^[32] और यूकर्योट्स^[33] में क्षैतिज जीन स्थानांतरण की सक्षमता को सफलतापूर्वक देख सकते हैं।

क-मेरों का एक और अनुप्रयोग जीनोमिक्स-आधारित टैक्सोनोमी में होता है। उदाहरण के रूप में, मध्यम सफलता के साथ एर्विनिया के प्रजातियों के मध्य जीसी-सामग्री का उपयोग किया गया है।^[34] टैक्सोनोमी के लिए जीसी-सामग्री के सीधे उपयोग के समान ही डीएनए की मेल्टिंग तापमान, अर्थात टीएम, का उपयोग किया जाता है।^[35] क्योंकि जीसी बन्ध अधिक तापतन स्थिर होते हैं, जीसी सामग्री वाले संकेत में उच्च टीएम प्रदर्शित करती है। 1987 में, बैक्टीरियल सिस्टमाटिक्स के प्रति दृष्टिकोण को समाधान करने के लिए एड हॉक समिति ने फाइटोजेनेटिक प्रजाति संकल्प के हिस्से के रूप में जाति सीमाओं की निर्धारण में डेल्टा टीएम का उपयोग करने की प्रार्थना की, यद्यपि यह प्रार्थना वैज्ञानिक समुदाय में प्रभावी नहीं रही है।

आनुवंशिकता और जीनोमिक्स के अन्य अनुप्रयोग में सम्मिलित हैं:

आरएनए अनुक्रम डेटा से आरएनए आयसोफॉर्म की मात्रा का मापन होता है।^[36]
मानव माइटोकॉन्ड्रियल हैप्लोग्रुप का वर्गीकरण करता है। ^[37]
जीनोम्स में पुनर्जनन स्थलों का पता लगाना होता है।^[38]
के-मेर आवृत्ति बनाम के-अधिक गहराई का उपयोग करके जीनोम आकार का अनुमान लगाया जाता है। ^[39]
फ्लैंकिंग क्षेत्रों द्वारा सीपीजी द्वीपों का वर्णन किया जाता है। ^[40]^[41]
पुनरावृत्ति तत्व जैसे ट्रांसपोजेबल तत्व के नए पत्ते का खोज करना होता है ।^[42]
प्रजातियों की डीएनए बारकोडिंग का पता लगाना होता है ।।^[7]^[43]
प्रोटीन-बाइंडिंग सिक्वेंस मोटिफ का वर्णन किया जाता है। ^[44]
अगली पीढ़ी के डीएनए अनुक्रमण डेटा का उपयोग करके उत्परिवर्तन या बहुरूपता (जीव विज्ञान) की पहचान करना होता है।^[45]

मेटाजेनोमिक्स

मेटाजेनोमिक्स में क-मेर आवृत्ति और स्पेक्ट्रम विविधता का व्यापक उपयोग विश्लेषण^[46]^[47] और बिनिंग के लिए किया जाता है। बिनिंग में, सीक्वेंसिंग रीड्स को प्रत्येक जीवाणु (या संचालनक टैक्सोनोमिक इकाई) के लिए "बिन्स" में अलग करने की चुनौती होती है, जिन्हें पुनः वे आस्थापित किए जाएंगे। टीईटीआरए एक महत्वपूर्ण उपकरण है जो मेटाजेनोमिक प्रारूप को लेता है और उन्हें उनके चतुर्नुक्लियोटाइड (k = 4) आवृत्ति के आधार पर जीवाणुओं में बिन्स में डालता है।^[48] मेटाजेनोमिक बिनिंग के लिए क-मेर आवृत्ति पर आधारित अन्य उपकरण हैं कंपोस्टबिन (k = 6),^[49] पीसीएहिर,^[50] फाइलोपाइथिया (5 ≤ k ≤ 6),[^[51] क्लार्क (k ≥ 20),^[52] और टैकोटाकोआ (2 ≤ k ≤ 6).^[53] वर्तमान की विकासों ने मेटाजेनोमिक बिनिंग^[54] में क-मेर का उपयोग करके गहन अध्ययन को भी प्रारंभ किया है।

मेटाजेनोमिक्स के अन्य अनुप्रयोग सम्मिलित हैं:

कच्चे रीड्स से रीडिंग फ्रेम की पुनःप्राप्ति करता है।^[55]
मेटागेनोमिक प्रारूपों में प्रजातियों की प्रमुखता का अनुमान लगाता है।^[56]
प्रारूपों में उपस्थित प्रजातियों की निर्धारण करता है।^[57]^[58]
प्रारूपों से रोगों के लिए बायोमार्कर की पहचान करता है। ^[59]

जैव प्रौद्योगिकी

अनुवाद संबंधी दक्षता को नियंत्रित करने के लिए जैव प्रौद्योगिकी अनुप्रयोगों में डीएनए अनुक्रमों में के-मेर आवृत्तियों को संशोधित करने का बड़े पैमाने पर उपयोग किया गया है।विशेष रूप से, इसका उपयोग प्रोटीन उत्पादन दर को उच्च या निम्न स्तर पर नियंत्रित करने के लिए किया गया है।

प्रोटीन उत्पादन बढ़ाने के संबंध में, प्रतिकूल द्विनाभिपूर्वक आवृत्ति को न्यूनतम करने से प्रोटीन संश्लेषण की उच्च दर प्राप्त होती है।^[60] इसके अलावा, कोडॉन उपयोग विभेद को संश्लेषण दर को बढ़ाने वाले समेरूपी अनुक्रमों का निर्माण करने के लिए संशोधित किया गया है।^[2]^[3]इसी प्रकार, कोडन जोड़ी अनुकूलन, डाइनुसेलोटाइड और कोडन अनुकूलन का संयोजन, का भी अभिव्यक्ति को बढ़ाने के लिए सफलतापूर्वक उपयोग किया गया है।^[61]

अनुवाद प्रभावशीलता को न्यूनतम करने के लिए क-मेर का सबसे अध्ययनित अनुप्रयोग है टीके बनाने के लिए वायरसों को कमजोर करने के लिए कोडॉन-पेयर मानिपुलेशन का उपयोग करना। शोधकर्ताओं ने डेंगू वायरस का कारण बनने वाले वायरस को इस तरह से रीकोड किया कि इसका कोडॉन-पेयर विचारप्रधानता पशुवैज्ञानिक कोडॉन उपयोग पसंद से अधिक पृथक था।^[62] यद्यपि इसमें एक अभिन्न एमिनो एसिड अनुक्रम था, परंतु रीकोड किए गए वायरस ने महत्वपूर्ण रूप से कमजोर रोगीता दिखाई दी जबकि यह मजबूत प्रतिरक्षा प्रतिक्रिया उत्पन्न कर रहा था। यह दृष्टिपट्ट में भी कोडॉन-पेयर विचारप्रधानता मानिपुलेशन का सफलतापूर्वक उपयोग इंफ्लुएंजा वैक्सीन^[63] और मारेक का रोग हर्पेसवायरस (एमडीवी) के लिए वैक्सीन बनाने में भी किया गया है।^[64] यह उल्लेखनीय है कि एमडीवी को कमजोर करने के लिए वापसी कोडॉन-पेयर विचारप्रधानता मानिपुलेशन ने वायरस की कैंसरजनन को सफलतापूर्वक कम नहीं किया, जिससे यह दर्शाता है कि इस उपयोग के जैव प्रौद्योगिकी अनुप्रयोगों में पोटेंशियल की कमजोरी है। अब तक, कोडॉन-पेयर गैरउत्पादित वैक्सीन को अनुमति नहीं मिली है।

दो उपरांत के लेखों से स्पष्ट होता है कि कोडॉन-पेयर अनुप्रोजननीकरण के पीछे वास्तविक तंत्र का विवरण समझाने में सहायता मिलती है: कोडॉन-पेयर विचारप्रधानता द्विनुकलोटाइड विचारप्रधानता के परिणामस्वरूप होती है।।^[65]^[66] वायरस और उनके मेजबानों का अध्ययन करके, दोनों लेखकों ने यह निर्धारित किया कि वायरसों की कमजोर रूप से अनुवाद के लिए अनुपयुक्त द्विनुकलोटाइडों की वृद्धि ही उस आणविक तंत्र का परिणाम होती है जो वायरसों को कमजोर करता है।

पीसीआर , एक महत्वपूर्ण जैव प्रौद्योगिकी उपकरण में यौगिक गलनांक की पूर्वानुमान करने के लिए जीसी-सामग्री (जीसी सामग्री) का उपयोग किया जाता है।

कार्यान्वयन

स्यूडोकोड

किसी रीड के संभावित के-मेर का निर्धारण केवल स्ट्रिंग की लंबाई पर एक-एक करके साइकिल चलाकर और लंबाई $k$ के प्रत्येक सबस्ट्रिंग को निकालकर किया जा सकता है। इसे प्राप्त करने के लिए छद्मकोड इस प्रकार है:

procedure k-mers(string seq, integer k) is
    L ← length(seq)
    arr ← new array of L − k + 1 empty strings

    // iterate over the number of k-mers in seq, 
    // storing the nth k-mer in the output array
    for n ← 0 to L − k + 1 exclusive do
        arr[n] ← subsequence of seq from letter n inclusive to letter n + k exclusive

    return arr

जैव सूचना विज्ञान पाइपलाइनों में

क्योंकि k के मान के लिए के-मेर की संख्या गणनात्मक रूप से बढ़ती है, इसलिए बड़े k के लिए (सामान्यतः >10) के-मेर की गणना एक संगणनीय रूप से कठिन कार्य है। जबकि छोटे k मानों के लिए उपरोक्त छद्मकोड जैसे सरल अमलन कार्यों का कार्य करते हैं, उन्हें उच्च-प्रवाह अनुप्रयोगों या जब k बड़ा होता है, तों उसके लिए अनुकूलित करना चाहिए। इस समस्या को हल करने के लिए, विभिन्न उपकरणों का विकास किया गया है:

जेलीफ़िश के-मेर गणना के लिए एक मल्टीथ्रेडेड, लॉक-फ्री हैश तालिका का उपयोग करता है और इसमें पायथन , रूबी , और पर्ल बाइंडिंग है।^[67]
केएमसी के-मेर गणना के लिए एक उपकरण है जो अनुकूलित गति के लिए मल्टीडिस्क आर्किटेक्चर का उपयोग करने वाला उपकरण है^[68]
जरबिल हैश तालिका दृष्टिकोण का उपयोग करता है परंतु जीपीयू त्वरण के लिए अतिरिक्त समेर्थन के साथ जोड़ा गया है।^[69]
के-मेर विश्लेषण टूलकिट (के-एटी) के-मेर गणना का विश्लेषण करने के लिए जेलिफ़िश के एक संशोधित संस्करण करके के-मेर गणना का विश्लेषण करने के लिए उपयोग होता है।^[6]

यह भी देखें

संदर्भ

File:CC-BY icon.svg Some of the content in this article was copied from K-mer at the PLOS wiki, which is available under a Creative Commons Attribution 2.5 Generic (CC BY 2.5) license.

↑ Compeau, Phillip E C; Pevzner, Pavel A; Tesler, Glenn (November 2011). "जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें". Nature Biotechnology (in English). 29 (11): 987–991. doi:10.1038/nbt.2023. ISSN 1087-0156. PMC 5531759. PMID 22068540.
↑ ^2.0 ^2.1 Welch, Mark; Govindarajan, Sridhar; Ness, Jon E.; Villalobos, Alan; Gurney, Austin; Minshull, Jeremy; Gustafsson, Claes (2009-09-14). Kudla, Grzegorz (ed.). "एस्चेरिचिया कोलाई में सिंथेटिक जीन अभिव्यक्ति को नियंत्रित करने के लिए डिज़ाइन पैरामीटर". PLOS ONE (in English). 4 (9): e7002. Bibcode:2009PLoSO...4.7002W. doi:10.1371/journal.pone.0007002. ISSN 1932-6203. PMC 2736378. PMID 19759823.
↑ ^3.0 ^3.1

[1] Compeau, Phillip E C; Pevzner, Pavel A; Tesler, Glenn (November 2011). "जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें". Nature Biotechnology (in English). 29 (11): 987–991. doi:10.1038/nbt.2023. ISSN 1087-0156. PMC 5531759. PMID 22068540.

[:4-2] 2.0 ^2.1 Welch, Mark; Govindarajan, Sridhar; Ness, Jon E.; Villalobos, Alan; Gurney, Austin; Minshull, Jeremy; Gustafsson, Claes (2009-09-14). Kudla, Grzegorz (ed.). "एस्चेरिचिया कोलाई में सिंथेटिक जीन अभिव्यक्ति को नियंत्रित करने के लिए डिज़ाइन पैरामीटर". PLOS ONE (in English). 4 (9): e7002. Bibcode:2009PLoSO...4.7002W. doi:10.1371/journal.pone.0007002. ISSN 1932-6203. PMC 2736378. PMID 19759823.

[:6-3] 3.0 ^3.1

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

Anonymous

Search