के-मेर

अनुक्रम ATGG में दो 3-मेर हैं: ATG और TGG ity।

जैव सूचना विज्ञान के अंतर्गत, के-मर जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले $k$ लंबाई के उपरज्जु को कहते हैं। प्रमुख रूप से संगणनात्मक जीनोमिक्स और अनुक्रम विश्लेषण के संदर्भ में उपयोग होते हैं, जहां के-अधिक्स आणविकों (अर्थात् A, T, G और C) से मिलकर बने होते हैं।^[1] के-अधिक्स का उपयोग डीएनए संकलन, परजीवी जीन^[2]^[3] अभिव्यक्ति को सुधारने, मेटाजेनोमिक^[4] सैंपल में प्रजातियों की पहचान, और क्षीण टीकाकरण^[5] बनाने के लिए किया जाता है। सामान्यतया, के-अधिक्स शब्द का उपयोग लंबाई L के एक अनुक्रम के सभी उपस्त्रिंशों के लिए किया जाता है, जिसका अर्थ होता है कि एक अनुक्रम AGAT के चार मोनोमर (A, G, A और T), तीन 2-मर्स (AG, GA, AT), दो 3-मर्स (AGA और GAT) और एक 4-मर्स (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई $L$ वाले एक अनुक्रम में $L-k+1$ के-अधिक्स होंगे और $n^{k}$ कुल संभव के-अधिक्स होंगे, यहां $n$ संभावित मोनोमरों की संख्या है।

परिचय

के-मेर्स केवल लंबाई $k$ हैं ,परिणामस्वरूप . उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित के-मर निम्न दर्शाये गए हैं:

File:E. coli 8-mer spectrum.svg

ई के लिए 8-मेर स्पेक्ट्रम का एक उदाहरण दर्शाया गया है। कोलाई 8-मेर्स आवृत्ति (अर्थात् बहुलता) की तुलना उनकी घटनाओं की संख्या से कर रहा है।

जीटीएजीजीसीटीजीटी के लिए के-मेर्स
k	के-मर
1	G, T, A, C
2	GT, TA, AG, GA, AG, GC, CT, TG
3	GTA, TAG, AGA, GAG, AGC, GCT, CTG, TGT
4	GTAG, TAGA, AGAG, GAGC, AGCT, GCTG, CTGT
5	GTAGA, TAGAG, AGAGC, GAGCT, AGCTG, GCTGT
6	GTAGAG, TAGAGC, AGAGCT, GAGCTG, AGCTGT
7	GTAGAGC, TAGAGCT, AGAGCTG, GAGCTGT
8	GTAGAGCT, TAGAGCTG, AGAGCTGT
9	GTAGAGCTG, TAGAGCTGT
10	GTAGAGCTGT

क-मर्स को दृश्यीकरण करने की एक विधि, क-मर्स स्पेक्ट्रम, एक अनुक्रम में प्रत्येक क-मर्स की बहुतायत को उस बहुतायत के साथ क-मर्सों की संख्या के खिलाफ दर्शाती है।^[6] एक प्रजाति के जीनोम के लिए क-मर्स स्पेक्ट्रम में क-मर्सों की मोड की संख्या भिन्न होती है, ज्यादातर प्रजातियों का एन्यूनतम ोडल वितरण होता है।^[7] यद्यपि, सभी स्तनधारी प्राणियों का बहुमोडल वितरण होता है। क-मर्स स्पेक्ट्रम में मोडों की संख्या जीनोम के विभिन्न क्षेत्रों के मध्य भी भिन्न हो सकती है: मानवों में 5' यूटीआर और एक्सॉन में एन्यूनतम ोडल क-मर्स स्पेक्ट्रम होता है, परंतु 3' यूटीआर और इंट्रॉन्स में बहुमोडल स्पेक्ट्रम होता है।

डीएनए के-मेर आवृत्ति को प्रभावित करने वाली शक्तियां

क-मर्स के उपयोग की आवृत्ति को कई बाधाएं प्रभावित करती हैं, जो विभिन्न स्तरों पर कार्य करती हैं और प्रायः एक-दूसरे के विरोध में होती हैं। महत्वपूर्ण बात यह है कि k के अधिक मानों के लिए क-मर्स पर प्रभावित करने वाली शक्तियों से भी प्रभावित होते हैं। जो न्यूनतम मानों के क-मर्स पर प्रभावित कर रहे होते हैं। उदाहरण के लिए, यदि 1-मर A किसी अनुक्रम में नहीं होता है, तो A को सम्मिलित करने वाले 2-मर (AA, AT, AG और AC) भी नहीं होंगे, जिससे विभिन्न प्रभावों के प्रभाव को संबद्ध करते हैं।

के = 1

जब k = 1 होता है, तो डीएनए के चार क-मर्स होते हैं, अर्थात् A, T, G और C। आणविक स्तर पर, G और C के मध्य तीन हाइड्रोजन बंधन होते हैं, जबकि A और T के मध्य केवल दो होते हैं। अतिरिक्त हाइड्रोजन बॉन्ड (और मजबूत स्टैकिंग अंतराक्रियाओं) के परिणामस्वरूप GC बंधन AT बंधन की तुलना में अधिक तापात्मक रूप से स्थिर होते हैं।^[8] स्तनधारी प्राणियों और पक्षियों में Gs और Cs का अनुपात As और Ts की तुलना में अधिक होता है (जीसी-सामग्री), जिसके कारण जीसी-सामग्री विविधता के पीछे थर्मल स्थिरता होने की अवधारणा हुई थी ।^[9] यद्यपि , यह अवधारणा जांच के दौरान समर्थन नहीं प्राप्त कर पाई: विभिन्न प्रोकैरियोटों के मध्य विश्लेषण ने दिखाया कि जीसी-सामग्री और तापमान के मध्य कोई संबंध नहीं है, जैसा कि थर्मल अनुकूलन के अवधारणा के अनुसार होना चाहिए।^[10] वास्तव में, यदि प्राकृतिक चयन जीसी-सामग्री विविधता के पीछे चलने वाला बल होता है, तो यह आवश्यक होगा कि एक पदार्थ के एकल न्यूक्लियोटाइड परिवर्तन, जो प्रायः मौन होते हैं, किसी प्राणी की सुसंगतता को परिवर्तित कर सकते है।^[11]

वर्तमान प्रमाण सुझाव देता है कि जीसी-विशिष्ट जीन संवर्धन (जीबीजीसी) जीसी सामग्री में विविधता के पीछे एक चलने वाला कारक है।^[11] जीबीजीसी एक पुनर्विन्यास के दौरान होने वाली प्रक्रिया है जिसमें A और T को G और C से परिवर्तित कर दिया जाता है। यह प्रक्रिया, प्राकृतिक चयन से पृथक होने के अतिरिक्त , पुनः भी जीनोम में जीसी प्रतिस्थापनों के प्रति चयनात्मक दबाव डाल सकती है।^[12] इसलिए, जीबीजीसी को प्राकृतिक चयन का "प्रतारक" माना जा सकता है।^[13] जीसी सामग्री उन स्थानों पर अधिक होती है जहां पुनर्विन्यास अधिक होता है। इसके अलावा, पुनर्विन्यास दरों में अधिकतम होने वाले प्राणियों में उच्च जीसी सामग्री पाई जाती है, जो जीबीजीसी की अवधारणा के प्रभावों के साथ मेल खाता है।^[14] दिलचस्प बात यह है कि जीबीजीसी यूकैर्योसाइटों सीमित नहीं होता है।^[15] बैक्टीरिया और आर्किया जैसे एकीकृत जीवों को भी जीन संवर्धन के माध्यम से पुनर्विन्यास का सामरिक अनुभव होता है, जो अकार्योगामी अंगिका प्रक्रिया है जिसके परिणामस्वरूप जीनोम में कई एक ही अनुक्रम होते हैं।^[16] जीवन के सभी डोमेन में पुनर्विन्यास द्वारा जीसी सामग्री को ऊपर ले जाने का मतलब है कि जीबीजीसी सर्वत्र संरक्षित होता है। यह निर्धारित करना बाकी है कि जीबीजीसी एक (अधिकांशतः) शांत उत्पाद है जो जीवन के आणविक यंत्र का हिस्सा है या यह स्वयं चयन के तहत है, इसकी वास्तविक तत्व और जीवविज्ञान के लिए इसके परिणामस्वरूप लाभ या हानि वर्तमान में अज्ञात है।^[17]

के = 2

जीसी-सामग्री पूर्वाग्रहों पर चर्चा करने वाले साहित्य के तुलनात्मक रूप से बड़े समूह के अतिरिक्त , द्विनाभिपूर्वक पूर्वाग्रहों के बारे में अपेक्षाकृत न्यूनतम लिखा गया है। यह ज्ञात है कि जीसी-सामग्री के विपरीत, ये द्विनाभिपूर्वक पूर्वाग्रह पूरे जीनोम में अपेक्षाकृत स्थिर होते हैं, जैसा कि ऊपर देखा गया है, काफी भिन्न हो सकते हैं।^[18] यह एक महत्वपूर्ण अंतर्दृष्टि है जिसे नजरअंदाज नहीं किया जाना चाहिए। यदि द्विनाभिपूर्वक पूर्वाग्रह अनुवाद के परिणामस्वरूप दबाव के अधीन थे, तो कोडिंग क्षेत्र और गैर-कोडिंग डीएनए क्षेत्रों में द्विनाभिपूर्वक पूर्वाग्रह के पृथक -पृथक पैटर्न होंगे जो कुछ डाइनुसेलोटाइड्स की न्यूनतम अनुवादात्मक दक्षता से प्रेरित होते होंगे।^[19] क्योंकि ऐसा नहीं है, इसलिए यह निष्कर्ष निकाला जा सकता है कि द्विनाभिपूर्वक पक्ष को मोड़ने वाले बल अनुवाद से अस्पष्ट हैं। द्विनाभिपूर्वक पक्षों के अनुवादिक परिकल्पना को प्रभावित करने के विरोधी प्रमाण है कि वायरसों के द्विनाभिपूर्वक पक्ष उनके मात्रिका परिवार से अधिक परिवर्तित करते हैं, जो उनके मेजबानों के अनुवादिक यंत्रों को वायरल परिवारों के विरुद्ध परिवर्तित करते हैं।।^[20]

जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार सीजी दमन है, जो मिथाइलेशन सीजी द्विनाभिपूर्वकों की डीमिनेशन के कारण सीपीजी साइट 2-मेर्स की आवृत्ति को न्यूनतम कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री न्यूनतम हो जाती है।^[21] यह इंटरैक्शन k के पृथक -पृथक मानों के लिए के-मर को प्रभावित करने वाली शक्ति के मध्य अंतर्संबंध पर प्रकाश डालता है।

द्विनाभिपूर्वक पक्ष के एक रोचक तथ्य यह है कि यह जीनवंशीय रूप से समान प्राणीजातीय जीनोम के मध्य एक "दूरी" माप के रूप में कार्य कर सकता है। घनिष्ठ रूप से संबंधित संगठनों के जीनोम के मध्य तुलनात्मक रूप से दूर संबंधित संगठनों के जोड़ों के मध्य द्विनाभिपूर्वक पक्ष अधिक समान होते हैं।^[18]

के = 3

प्रोटीन जो डीएनए संकेतित करता है, बनाने के लिए इस्तेमाल की जाने वाली चालक विभिन्न प्राकृतिक एमिनो एसिड होते हैं। यद्यपि , केवल चार न्यूक्लियोटाइड होते हैं। इसलिए, न्यूक्लियोटाइड्स और एमिनो एसिड्स के मध्य एक-से-एक संबंध नहीं हो सकता है। उसी तरह, 16 2-मर्स होते हैं, जो प्रत्येक एमिनो एसिड को स्पष्टतः प्रतिष्ठित करने के लिए पर्याप्त नहीं हैं। यद्यपि , डीएनए में 64 अलग-अलग 3-मर्स होते हैं, जो प्रत्येक एमिनो एसिड को अद्वितीय रूप से प्रतिष्ठित करने के लिए पर्याप्त होते हैं। ये पृथक 3-मर्स कोडॉन कहलाते हैं। यद्यपि , प्रत्येक कोडॉन केवल एक एमिनो एसिड से मिलता है, प्रत्येक एमिनो एसिड को कई कोडॉन से प्रतिष्ठित किया जा सकता है। इस प्रकार, एक ही एमिनो एसिड अनुक्रम के कई डीएनए प्रतिष्ठान बना सकता है। रोचक बात यह है कि प्रत्येक एमिनो एसिड के लिए कोडॉन का उपयोग बराबर प्रमाण में नहीं होता है। इसे कोडन उपयोग पूर्वाग्रह (सीयूबी) कहा जाता है। जब k = 3 होता है, तो सच्चा 3-मर आवृत्ति और सीयूबी के मध्य एक अंतर किया जाना चाहिए।^[22] उदाहरण के लिए, श्रृंगार एक ऐसी पदार्थ है जिसमें चार 3-मर शब्द होते हैं (ATG, TGG, GGC और GCA), जबकि केवल दो कोडॉन (ATG और GCA) होते हैं। यद्यपि , सीयूबी 3-मर उपयोग अवसाद का मुख्य कारक होता है (क्योंकि एक कोडिंग क्षेत्र में के-मरों के १/३ हिस्से कोडॉन होते हैं) और इस पर ध्यान केंद्रित होता है।

विभिन्न कोडॉनों की आवृत्ति में विविधता के यथार्थ कारण को पूर्णतः समझा जा सका नहीं है। यह जाना जाता है कि कोडॉन प्राथमिकता टीआरएनए प्रचुरताओं के संगठन से संबद्ध होती है, जहां प्रचुरतम tRNA के समान कोडॉन उसी प्रमाण में अधिक आवृत्तिक होते हैं।^[22] और यह जाना जाता है कि अधिक उच्च स्तर पर प्रकटित प्रोटीनों में अधिक सीयूबी होता है।^[23] इससे प्रकट होता है कि अनुवादात्मक क्षमता या सटीकता के लिए चयन प्राथमिकता सीयूबी विविधता के पीछे चलने वाला बल होता है।

के = 4

द्विनाभिपूर्वक पूर्वाग्रह में देखे गए प्रभाव के समान, फ़ाइलोजेनेटिक रूप से समान जीवों के टेट्रान्यूक्लियोटाइड पूर्वाग्रह न्यूनतम निकटता से संबंधित जीवों की तुलना में अधिक समान हैं।^[4]टेट्रान्यूक्लियोटाइड पूर्वाग्रह में भिन्नता का सटीक कारण अच्छी तरह से समझा नहीं गया है, परंतु यह अनुमान लगाया गया है कि यह आणविक स्तर पर आनुवंशिक स्थिरता के रखरखाव का परिणाम है।^[24]

अनुप्रयोग

एक प्रजाति के जीनोम, एक जीनोमिक क्षेत्र या एक सरणी के वर्ग में एक सेट के क-मर्स की आवृत्ति उपस्थित सरणी की "हस्ताक्षर" के रूप में उपयोग की जा सकती है। इन आवृत्तियों की तुलना करना अनुक्रम संरेखण से कम्प्यूटेशनली आसान होता है और इसे संरेखण-मुक्त अनुक्रम विश्लेषण में महत्वपूर्ण तकनीक के रूप में मान्यता प्राप्त है। यह एक संरेखण से पहले का पहला चरण विश्लेषण के रूप में भी उपयोग किया जा सकता है।

अनुक्रम संयोजन

File:K-mer-example.png

यह आंकड़ा डी ब्रूजन ग्राफ में उपयोग करने में सक्षम होने के लिए रीड्स को छोटे के-मेर्स (इस मामले में 4-मेर्स) में विभाजित करने की प्रक्रिया को दर्शाता है। (ए) अनुक्रमित किए जा रहे डीएनए के प्रारंभिक खंड को दर्शाता है। (बी) उन रीड्स को दर्शाता है जिन्हें अनुक्रमण से आउटपुट बनाया गया था और यह भी दर्शाता है कि वे कैसे संरेखित होते हैं।यद्यपि इस संरेखण के साथ समस्या यह है कि वे k-2 से ओवरलैप होते हैं, k-1 से नहीं (जो कि डी ब्रुइज़न ग्राफ़ में आवश्यक है)। (सी) रीड्स को छोटे 4-मेर्स में विभाजित होते हुए दर्शाता है। (डी) बार-बार 4-मेर्स को हटा देता है और पुनः उनका संरेखण दर्शाता है। ध्यान दें कि ये के-मर k-1 द्वारा ओवरलैप होते हैं और पुनः इन्हें डी ब्रुइज़न ग्राफ़ में उपयोग किया जा सकता है।

सिरणी संचालन में, क-मर्स का उपयोग दे ब्रुइन ग्राफ के निर्माण के दौरान किया जाता है।^[25]^[26] डी ब्रुइन ग्राफ बनाने के लिए, प्रत्येक सिरा में संग्रहीत क-मर्स को संग्रहीत किया जाना चाहिए, जिसकी लंबाई $L$ होती है, और इसे एक दूसरे सिरे में 𝐿 − 1 द्वारा ओवरलैप करना चाहिए क्योंकि एक वर्टेक्स बनाया जा सके। अगली पीढ़ी अनुक्रम द्वारा उत्पन्न किए जाने वाले रीड के सामान्यतः विभिन्न रीड लंबाई होती हैं। उदाहरण के लिए, आईल्यूमिना की अनुक्रम प्रौद्योगिकी द्वारा 100-मर की रीड को दर्ज किया जाता है। यद्यपि , अनुक्रम में पाए जाने वाले संपूर्ण संभावित 100-मर में से केवल छोटा हिस्सा वास्तव में उत्पन्न होता है। इसका कारण है रीड त्रुटियाँ, परंतु अधिक महत्वपूर्ण है, अनुक्रम के दौरान संचालन होने वाले सीधे कवरेज को दी जाती है। समस्या यह है कि इन संभावित के-अधिक के छोटे हिस्से दे ब्रुइन ग्राफ की मुख्य मान्यता को उल्लंघन करते हैं, जहां सभी के-अधिक रीड्स को संचालन में आग्रहित होने की अपेक्षा होती है कि इसके पास अपने पड़ोसी के-अधिक से $k-1$ के माध्यम से ओवरलैप हो जाता है।

इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर्स में विभाजित होता है, क्योंकि परिणामी छोटे के-मेर्स उस छोटे आकार के सभी संभावित के-मेर्स का प्रतिनिधित्व करेंगे जो जीनोम में उपस्थित होते हैं।^[27] इसके अलावा, के-मर को छोटे आकारों में विभाजित करने से विभिन्न प्रारंभिक पढ़ने की लंबाई की समस्या को न्यूनतम करने में भी सहायता मिलती है। इस उदाहरण में, पांच रीड्स जीनोम के सभी संभावित 7-मेर्स का लेखा जोखा नहीं देते हैं, और इस प्रकार, एक डी ब्रुइज़न ग्राफ़ नहीं बनाया जा सकता है। परंतु , जब उन्हें 4-मेर्स में विभाजित किया जाता है, तो परिणामस्वरूप उपक्रम दे ब्रुइन ग्राफ का उपयोग करके जीनोम का पुनर्निर्माण करने के लिए पर्याप्त होते हैं।

अनुक्रम संचालन के लिए सीधे उपयोग किए जाने के अलावा, के-मर का उपयोग जीनोम मिस-संचालन का पता लगाने के लिए भी किया जा सकता है, जो कि अधिक प्रस्तुत किए गए के-मर की पहचान करके होता है जो संयुक्त किए गए दोहराए गए अनुक्रम (डीएनए) की उपस्थिति का सुझाव देता है।^[28] इसके अलावा, के-मर का उपयोग यूकेरियोटिक जीनोम संचालन के दौरान जीवाणु संदूषण का पता लगाने के लिए भी किया जाता है,जो मेटाजेनोमिक्स के क्षेत्र से लाए गए एक दृष्टिकोण से उधारण किया गया है।^[29]^[30]

के-मेर आकार का विकल्प

के-मेर आकार के चुनाव का अनुक्रम संयोजन पर बहुत पृथक प्रभाव पड़ते हैं। ये प्रभाव छोटे आकार और बड़े आकार के के-मेर्स के मध्य अत्यधिक भिन्न होते हैं। इसलिए, प्रभावों को संतुलित करने वाले उपयुक्त आकार को चुनने के लिए विभिन्न के-मेर आकारों की समझ प्राप्त की जानी चाहिए। आकारों के प्रभाव निम्न उल्लिखित हैं।

न्यूनतम के-मेर आकार

न्यूनतम के-मेर आकार से ग्राफ़ में संग्रहीत किनारों की मात्रा न्यूनतम हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को न्यूनतम करने में सहायता मिलेगी।
छोटे आकार होने से सभी के-मर के ओवरलैप होने की संभावना बढ़ जाएगी, और इस तरह, डी ब्रुइज़न ग्राफ के निर्माण के लिए आवश्यक अनुवर्तीताएं होंगी।^[31]
यद्यपि , छोटे आकार के k-mer होने से, आपको एकल k-mer में ले जाने वाले ग्राफ़ में कई शीर्ष होने का भी जोखिम होता है। इसलिए, इससे जीनोम का पुनर्निर्माण और अधिक कठिन हो जाएगा क्योंकि बड़ी मात्रा में शीर्षों को पार करने की आवश्यकता के कारण पथ अस्पष्टता का एक उच्च स्तर हमारे सामने आ सकती है।
के-मर छोटे हो जाने से जानकारी नष्ट हो जाती है।
- 'उदा. 'AGTCGTAGATGCTG की संभावना ACGT से न्यूनतम है, और इस प्रकार, अधिक मात्रा में जानकारी रखती है।
छोटे के-मर में डीएनए में उन क्षेत्रों को हल करने में सक्षम नहीं होने की भी समस्या होती है जहां छोटे सूक्ष्म उपग्रह या दोहराव होते हैं। ऐसा इसलिए है क्योंकि छोटे के-मर पूरी तरह से दोहराव क्षेत्र के अंदर बैठे रहेंगे और इसलिए यह निर्धारित करना कठिन है कि वास्तव में कितनी पुनरावृत्ति हुई है।
- 'उदा. 'अनुवर्ती ATGTGTGTGTGTGTACG के लिए, यदि 16 से न्यूनतम के-मेर आकार चुना जाता है, तो टीजी की पुनरावृत्ति की मात्रा खो जाएगी। ऐसा इसलिए है क्योंकि अधिकांश के-मेर दोहराए गए क्षेत्र में बैठेंगे और पुनरावृत्ति की मात्रा को संदर्भित करने के अतिरिक्त उसी के-मेर के पुनरावृत्ति के रूप में खारिज कर दिया जा सकता है।

उच्च के-मेर आकार

बड़े आकार के के-मर होने से ग्राफ़ में किनारों की संख्या बढ़ जाएगी, जिसके परिणामस्वरूप, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा बढ़ जाएगी।
के-मर का आकार बढ़ाने से शीर्षों की संख्या भी न्यूनतम हो जाएगी। इससे जीनोम के निर्माण में सहायता मिलेगी क्योंकि ग्राफ़ में पार करने के लिए न्यूनतम रास्ते होंगे।^[31]*
बड़े के-मर में प्रत्येक के-मर से बाहरी शीर्ष न होने का जोखिम भी अधिक होता है। यह बड़े के-मर के कारण यह जोखिम बढ़ रहा है कि यह किसी अन्य k-mer के साथ $k-1$ ओवरलैप नहीं होगा . इसलिए, इससे रीड्स में गड़बड़ी हो सकती है, और इस तरह, अधिक मात्रा में छोटे संपर्क हो सकते हैं।
बड़े के-मेर आकार छोटे पुनरावृत्ति वाले क्षेत्रों की समस्या को न्यूनतम करने में सहायता करते हैं। यह इस तथ्य के कारण है कि के-मेर में पुनरावृत्ति क्षेत्र और निकटवर्ती डीएनए अनुक्रमों का संतुलन होगा (बशर्ते यह पर्याप्त बड़ा आकार हो) जो उस विशेष क्षेत्र में पुनरावृत्ति की मात्रा को हल करने में सहायता कर सकता है।

आनुवंशिकी और जीनोमिक्स

रोग संबंधी मामले में, द्विनुकलोटाइड अधिकार को रोगाणुता से जुड़े आनुवंशिक द्वीपों की पहचान में प्रारंभ किया जा चुका है।^[11] पूर्व अध्ययन ने यह भी दर्शाया है कि चतुर्णुकलोटाइड अधिकार प्रोकर्योट्स^[32] और यूकर्योट्स^[33] में क्षैतिज जीन स्थानांतरण की सक्षमता को सफलतापूर्वक देख सकते हैं।

क-मरों का एक और अनुप्रयोग जीनोमिक्स-आधारित टैक्सोनोमी में होता है। उदाहरण के रूप में, मध्यम सफलता के साथ एर्विनिया के प्रजातियों के मध्य जीसी-सामग्री का उपयोग किया गया है।^[34] टैक्सोनोमी के लिए जीसी-सामग्री के सीधे उपयोग के समान ही डीएनए की मेल्टिंग तापमान, अर्थात टीएम, का उपयोग किया जाता है।^[35] क्योंकि जीसी बॉन्ड अधिक तापतन स्थिर होते हैं, जीसी सामग्री वाले संकेत में उच्च टीएम प्रदर्शित करती है। 1987 में, बैक्टीरियल सिस्टमाटिक्स के प्रति दृष्टिकोण को समाधान करने के लिए एड हॉक समिति ने फाइटोजेनेटिक प्रजाति संकल्प के हिस्से के रूप में जाति सीमाओं की निर्धारण में डेल्टा टीएम का उपयोग करने की प्रार्थना की, यद्यपि यह प्रार्थना वैज्ञानिक समुदाय में प्रभावी नहीं रही है।

आनुवंशिकता और जीनोमिक्स के अन्य अनुप्रयोग में सम्मिलित हैं:

आरएनए अनुक्रम डेटा से आरएनए आयसोफॉर्म की मात्रा का मापन होता है।^[36]
मानव माइटोकॉन्ड्रियल हैप्लोग्रुप का वर्गीकरण करता है। ^[37]
जीनोम्स में पुनर्जनन स्थलों का पता लगाना होता है।^[38]
के-मेर आवृत्ति बनाम के-अधिक गहराई का उपयोग करके जीनोम आकार का अनुमान लगाया जाता है। ^[39]
फ्लैंकिंग क्षेत्रों द्वारा सीपीजी द्वीपों का वर्णन किया जाता है। ^[40]^[41]
पुनरावृत्ति तत्व जैसे ट्रांसपोजेबल तत्व के नए पत्ते का खोज करना होता है ।^[42]
प्रजातियों की डीएनए बारकोडिंग का पता लगाना होता है ।।^[7]^[43]
प्रोटीन-बाइंडिंग सिक्वेंस मोटिफ का वर्णन किया जाता है। ^[44]
अगली पीढ़ी के डीएनए अनुक्रमण डेटा का उपयोग करके उत्परिवर्तन या बहुरूपता (जीव विज्ञान) की पहचान करना होता है।^[45]

मेटाजेनोमिक्स

मेटाजेनोमिक्स में क-मर आवृत्ति और स्पेक्ट्रम विविधता का व्यापक उपयोग विश्लेषण^[46]^[47] और बिनिंग के लिए किया जाता है। बिनिंग में, सीक्वेंसिंग रीड्स को प्रत्येक जीवाणु (या संचालनक टैक्सोनोमिक इकाई) के लिए "बिन्स" में अलग करने की चुनौती होती है, जिन्हें पुनः वे आस्थापित किए जाएंगे। टीईटीआरए एक महत्वपूर्ण उपकरण है जो मेटाजेनोमिक प्रारूप को लेता है और उन्हें उनके चतुर्नुक्लियोटाइड (k = 4) आवृत्ति के आधार पर जीवाणुओं में बिन्स में डालता है।^[48] मेटाजेनोमिक बिनिंग के लिए क-मर आवृत्ति पर आधारित अन्य उपकरण हैं कंपोस्टबिन (k = 6),^[49] पीसीएहिर,^[50] फाइलोपाइथिया (5 ≤ k ≤ 6),[^[51] क्लार्क (k ≥ 20),^[52] और टैकोटाकोआ (2 ≤ k ≤ 6).^[53] वर्तमान की विकासों ने मेटाजेनोमिक बिनिंग^[54] में क-मर का उपयोग करके गहन अध्ययन को भी प्रारंभ किया है।

मेटाजेनोमिक्स के अन्य अनुप्रयोग सम्मिलित हैं:

कच्चे रीड्स से रीडिंग फ्रेम की पुनःप्राप्ति करता है।^[55]
मेटागेनोमिक प्रारूपों में प्रजातियों की प्रमुखता का अनुमान लगाता है।^[56]
प्रारूपों में उपस्थित प्रजातियों की निर्धारण करता है।^[57]^[58]
प्रारूपों से रोगों के लिए बायोमार्कर की पहचान करता है। ^[59]

जैव प्रौद्योगिकी

अनुवाद संबंधी दक्षता को नियंत्रित करने के लिए जैव प्रौद्योगिकी अनुप्रयोगों में डीएनए अनुक्रमों में के-मेर आवृत्तियों को संशोधित करने का बड़े पैमाने पर उपयोग किया गया है।विशेष रूप से, इसका उपयोग प्रोटीन उत्पादन दर को उच्च या निम्न स्तर पर नियंत्रित करने के लिए किया गया है।

प्रोटीन उत्पादन बढ़ाने के संबंध में, प्रतिकूल द्विनाभिपूर्वक आवृत्ति को न्यूनतम करने से प्रोटीन संश्लेषण की उच्च दर प्राप्त होती है।^[60] इसके अलावा, कोडॉन उपयोग विभेद को संश्लेषण दर को बढ़ाने वाले समरूपी अनुक्रमों का निर्माण करने के लिए संशोधित किया गया है।^[2]^[3]इसी प्रकार, कोडन जोड़ी अनुकूलन, डाइनुसेलोटाइड और कोडन अनुकूलन का संयोजन, का भी अभिव्यक्ति को बढ़ाने के लिए सफलतापूर्वक उपयोग किया गया है।^[61]

अनुवाद प्रभावशीलता को न्यूनतम करने के लिए क-मर का सबसे अध्ययनित अनुप्रयोग है टीके बनाने के लिए वायरसों को कमजोर करने के लिए कोडॉन-पेयर मानिपुलेशन का उपयोग करना। शोधकर्ताओं ने डेंगू वायरस का कारण बनने वाले वायरस को इस तरह से रीकोड किया कि इसका कोडॉन-पेयर विचारप्रधानता पशुवैज्ञानिक कोडॉन उपयोग पसंद से अधिक पृथक था।^[62] यद्यपि इसमें एक अभिन्न एमिनो एसिड अनुक्रम था, परंतु रीकोड किए गए वायरस ने महत्वपूर्ण रूप से कमजोर रोगीता दिखाई दी जबकि यह मजबूत प्रतिरक्षा प्रतिक्रिया उत्पन्न कर रहा था। यह दृष्टिपट्ट में भी कोडॉन-पेयर विचारप्रधानता मानिपुलेशन का सफलतापूर्वक उपयोग इंफ्लुएंजा वैक्सीन^[63] और मारेक का रोग हर्पेसवायरस (एमडीवी) के लिए वैक्सीन बनाने में भी किया गया है।^[64] यह उल्लेखनीय है कि एमडीवी को कमजोर करने के लिए वापसी कोडॉन-पेयर विचारप्रधानता मानिपुलेशन ने वायरस की कैंसरजनन को सफलतापूर्वक कम नहीं किया, जिससे यह दर्शाता है कि इस उपयोग के जैव प्रौद्योगिकी अनुप्रयोगों में पोटेंशियल की कमजोरी है। अब तक, कोडॉन-पेयर गैरउत्पादित वैक्सीन को अनुमति नहीं मिली है।

दो उपरांत के लेखों से स्पष्ट होता है कि कोडॉन-पेयर अनुप्रोजननीकरण के पीछे वास्तविक तंत्र का विवरण समझाने में सहायता मिलती है: कोडॉन-पेयर विचारप्रधानता द्विनुकलोटाइड विचारप्रधानता के परिणामस्वरूप होती है।।^[65]^[66] वायरस और उनके मेजबानों का अध्ययन करके, दोनों लेखकों ने यह निर्धारित किया कि वायरसों की कमजोर रूप से अनुवाद के लिए अनुपयुक्त द्विनुकलोटाइडों की वृद्धि ही उस आणविक तंत्र का परिणाम होती है जो वायरसों को कमजोर करता है।

पीसीआर , एक महत्वपूर्ण जैव प्रौद्योगिकी उपकरण में यौगिक गलनांक की पूर्वानुमान करने के लिए जीसी-सामग्री (जीसी सामग्री) का उपयोग किया जाता है।

कार्यान्वयन

स्यूडोकोड

किसी रीड के संभावित के-मर का निर्धारण केवल स्ट्रिंग की लंबाई पर एक-एक करके साइकिल चलाकर और लंबाई $k$ के प्रत्येक सबस्ट्रिंग को निकालकर किया जा सकता है। इसे प्राप्त करने के लिए छद्मकोड इस प्रकार है:

procedure के-मर (string seq, integer k) is
    L ← length(seq)

    arr ← new array of L − k + 1 empty strings

    // seq में के-मर  की संख्या को पुनरावृत्त करें,
    // आउटपुट ऐरे में nth k-mer को स्टोर करना
    'for n ← 0 to L − k + 1 exclusive do

       arr[n] ← subsequence of seq from letter n inclusive to letter n + k exclusive

    return arr

जैव सूचना विज्ञान पाइपलाइनों में

क्योंकि k के मान के लिए के-अधिक्स की संख्या गणनात्मक रूप से बढ़ती है, इसलिए बड़े k के लिए (आमतौर पर >10) के-अधिक्स की गणना एक कम्प्यूटेशनली कठिन कार्य है। जबकि छोटे k मानों के लिए उपरोक्त प्सेडोकोड जैसे सरल अमलन कार्यों का कार्य करते हैं, उन्हें उच्च-प्रवाह अनुप्रयोगों या जब k बड़ा होता है, तों उसके लिए अनुकूलित करना चाहिए। इस समस्या को हल करने के लिए, विभिन्न उपकरणों का विकास किया गया है:

जेलीफ़िश के-मेर गणना के लिए एक मल्टीथ्रेडेड, लॉक-फ्री हैश तालिका का उपयोग करता है और इसमें पायथन , रूबी , और पर्ल बाइंडिंग है।^[67]
केएमसी के-मेर गणना के लिए एक उपकरण है जो अनुकूलित गति के लिए मल्टीडिस्क आर्किटेक्चर का उपयोग करने वाला उपकरण है^[68]
जरबिल हैश तालिका दृष्टिकोण का उपयोग करता है परंतु जीपीयू त्वरण के लिए अतिरिक्त समर्थन के साथ जोड़ा गया है।^[69]
के-मेर विश्लेषण टूलकिट (के-एटी) के-मेर गणना का विश्लेषण करने के लिए जेलिफ़िश के एक संशोधित संस्करण करके के-मर गणना का विश्लेषण करने के लिए उपयोग होता है।^[6]

यह भी देखें

संदर्भ

File:CC-BY icon.svg Some of the content in this article was copied from K-mer at the PLOS wiki, which is available under a Creative Commons Attribution 2.5 Generic (CC BY 2.5) license.

↑ Compeau, Phillip E C; Pevzner, Pavel A; Tesler, Glenn (November 2011). "जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें". Nature Biotechnology (in English). 29 (11): 987–991. doi:10.1038/nbt.2023. ISSN 1087-0156. PMC 5531759. PMID 22068540.
↑ ^2.0 ^2.1 Welch, Mark; Govindarajan, Sridhar; Ness, Jon E.; Villalobos, Alan; Gurney, Austin; Minshull, Jeremy; Gustafsson, Claes (2009-09-14). Kudla, Grzegorz (ed.). "एस्चेरिचिया कोलाई में सिंथेटिक जीन अभिव्यक्ति को नियंत्रित करने के लिए डिज़ाइन पैरामीटर". PLOS ONE (in English). 4 (9): e7002. Bibcode:2009PLoSO...4.7002W. doi:10.1371/journal.pone.0007002. ISSN 1932-6203. PMC 2736378. PMID 19759823.

[1] Compeau, Phillip E C; Pevzner, Pavel A; Tesler, Glenn (November 2011). "जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें". Nature Biotechnology (in English). 29 (11): 987–991. doi:10.1038/nbt.2023. ISSN 1087-0156. PMC 5531759. PMID 22068540.

[:4-2] 2.0 ^2.1 Welch, Mark; Govindarajan, Sridhar; Ness, Jon E.; Villalobos, Alan; Gurney, Austin; Minshull, Jeremy; Gustafsson, Claes (2009-09-14). Kudla, Grzegorz (ed.). "एस्चेरिचिया कोलाई में सिंथेटिक जीन अभिव्यक्ति को नियंत्रित करने के लिए डिज़ाइन पैरामीटर". PLOS ONE (in English). 4 (9): e7002. Bibcode:2009PLoSO...4.7002W. doi:10.1371/journal.pone.0007002. ISSN 1932-6203. PMC 2736378. PMID 19759823.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

Anonymous

Search