के-मेर: Difference between revisions

From Vigyanwiki
No edit summary
 
(One intermediate revision by one other user not shown)
Line 152: Line 152:
     '''return''' arr
     '''return''' arr


[[Category:Articles with hatnote templates targeting a nonexistent page]]
 
[[Category:CS1]]
 
[[Category:CS1 maint]]
 
[[Category:Created On 10/07/2023]]
 
[[Category:Machine Translated Page]]
 
[[Category:Pages with ignored display titles]]
 
[[Category:Pages with script errors]]
 
[[Category:Templates Vigyan Ready]]
 
[[Category:अमीनो अम्ल]]
 
[[Category:कम्प्यूटेशनल बायोलॉजी]]
 


=== जैव सूचना विज्ञान पाइपलाइनों में ===
=== जैव सूचना विज्ञान पाइपलाइनों में ===
Line 185: Line 185:
* [http://biorxiv.org/search/k-mer bioXriv:k-mer]
* [http://biorxiv.org/search/k-mer bioXriv:k-mer]
* [https://arxiv.org/find/all/1/all:+k%2dmer/0/1/0/all/0/1 arXiv: k-mer]
* [https://arxiv.org/find/all/1/all:+k%2dmer/0/1/0/all/0/1 arXiv: k-mer]
[[Category: न्यूक्लिक एसिड]] [[Category: व्यावहारिक गणित]] [[Category: जीव पदाथ-विद्य]] [[Category: कम्प्यूटेशनल बायोलॉजी]] [[Category: बायोइनफॉरमैटिक्स]] [[Category: अमीनो अम्ल]]


 
[[Category:Articles with hatnote templates targeting a nonexistent page]]
 
[[Category:CS1]]
[[Category: Machine Translated Page]]
[[Category:CS1 English-language sources (en)]]
[[Category:CS1 maint]]
[[Category:Created On 10/07/2023]]
[[Category:Created On 10/07/2023]]
[[Category:Vigyan Ready]]
[[Category:Machine Translated Page]]
[[Category:Pages with ignored display titles]]
[[Category:Pages with script errors]]
[[Category:Templates Vigyan Ready]]
[[Category:अमीनो अम्ल]]
[[Category:कम्प्यूटेशनल बायोलॉजी]]
[[Category:जीव पदाथ-विद्य]]
[[Category:न्यूक्लिक एसिड]]
[[Category:बायोइनफॉरमैटिक्स]]
[[Category:व्यावहारिक गणित]]

Latest revision as of 12:28, 28 July 2023

File:K-mer diagram.svg
अनुक्रम ATGG में दो 3-मेर हैं: ATG और TGG ity।

जैव सूचना विज्ञान के अंतर्गत, के-मेर जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले लंबाई के उपरज्जु को कहते हैं। इनका उपयोग प्रमुख रूप से संगणनात्मक जीनोमिक्स और अनुक्रम विश्लेषण के संदर्भ में किया जाता है जहां के-मेर, आणविकों (अर्थात् A, T, G और C) से मिलकर बने होते हैं।[1] के-मेर का उपयोग डीएनए संकलन, परजीवी जीन[2][3] अभिव्यक्ति को सुधारने, मेटाजेनोमिक[4] सैंपल में प्रजातियों की पहचान, और क्षीण टीका[5] बनाने के लिए किया जाता है। सामान्यतः, 'k-मेर' शब्द का उपयोग एक अनुक्रम के सभी उप-अनुक्रमों को संदर्भित करने के लिए किया जाता है, जिनकी लंबाई k होती है, इस प्रकार अनुक्रम AGAT में चार मोनोमेर्स (A, G, A और T), तीन 2-मेर (AG, GA, AT), दो 3-मेर (AGA और GAT) और एक 4-मेर (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई वाले एक अनुक्रम में के-मेर होंगे और कुल संभव के-मेर होंगे, यहां संभावित मोनोमेरों की संख्या है।

परिचय

के-मेर केवल लंबाई के अनुक्रम होतें हैं ,परिणामस्वरूप . उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित के-मेर निम्न रूप में दर्शाये गए हैं:

ई के लिए 8-मेर स्पेक्ट्रम का एक उदाहरण दर्शाया गया है। कोलाई 8-मेर्स आवृत्ति (अर्थात् बहुलता) की तुलना उनकी घटनाओं की संख्या से कर रहा है।
जीटीएजीजीसीटीजीटी के लिए के-मेर
k के-मेर
1 G, T, A, C
2 GT, TA, AG, GA, AG, GC, CT, TG
3 GTA, TAG, AGA, GAG, AGC, GCT, CTG, TGT
4 GTAG, TAGA, AGAG, GAGC, AGCT, GCTG, CTGT
5 GTAGA, TAGAG, AGAGC, GAGCT, AGCTG, GCTGT
6 GTAGAG, TAGAGC, AGAGCT, GAGCTG, AGCTGT
7 GTAGAGC, TAGAGCT, AGAGCTG, GAGCTGT
8 GTAGAGCT, TAGAGCTG, AGAGCTGT
9 GTAGAGCTG, TAGAGCTGT
10 GTAGAGCTGT

के-मेर को दृश्यीकरण करने का एक तरीका, के-मेर स्पेक्ट्रम कहलाता है, जिसमें एक अनुक्रम में प्रत्येक के-मेर की बहुतायत और उस बहुतायत वाले के-मेरों की संख्या का तुलनात्मक माप दिखाया जाता है।[6] एक प्रजाति के जीनोम के के-मेर स्पेक्ट्रम में मोडों की संख्या भिन्न-भिन्न होती है, जबकि अधिकांश प्रजातियों में एक मोड का वितरण होता है।[7] यहाँ तक कि सभी स्तनधारी प्राणियों में एकाधिक मोड के साथ एक बहुमोडाल वितरण होता है। के-मेर स्पेक्ट्रम के भीतर मोडों की संख्या जीनोम के विभिन्न क्षेत्रों में भी भिन्न हो सकती है: मानवों में 5' यूटीआर और एक्सोन में एकाधिक मोड के साथ के-मेर स्पेक्ट्रम होता है, जबकि 3' यूटीआर और इंट्रोनस में बहुमोडाल स्पेक्ट्रम होता है।

डीएनए के-मेर आवृत्ति को प्रभावित करने वाली शक्तियां

के-मेर के उपयोग की आवृत्ति को कई बाधाएं प्रभावित करती हैं, जो विभिन्न स्तरों पर कार्य करती हैं और प्रायः एक-दूसरे के विरोध में होती हैं। महत्वपूर्ण बात यह है कि k के अधिक मानों के लिए के-मेर पर प्रभावित करने वाली शक्तियों से भी प्रभावित होते हैं। जो न्यूनतम मानों के के-मेर पर प्रभावित कर रहे होते हैं। उदाहरण के लिए, यदि 1-मेर A किसी अनुक्रम में नहीं होता है, तो A को सम्मिलित करने वाले 2-मेर (AA, AT, AG और AC) भी नहीं होंगे, जिससे विभिन्न प्रभावों के प्रभाव को संबद्ध करते हैं।

के = 1

जब k = 1 होता है, तो डीएनए के चार के-मेर होते हैं, अर्थात् A, T, G और C आणविक स्तर पर, G और C के मध्य तीन हाइड्रोजन बंधनही होते हैं, जबकि A और T के मध्य केवल दो होते हैं। अतिरिक्त हाइड्रोजन बन्ध (और मजबूत स्टैकिंग अंतराक्रियाओं) के परिणामस्वरूप GC बंधन AT बंधन की तुलना में अधिक तापात्मक रूप से स्थिर होते हैं।[8] स्तनधारी प्राणियों और पक्षियों में Gs और Cs का अनुपात As और Ts की तुलना में अधिक होता है, जिसके कारण जीसी-सामग्री विविधता के पीछे थर्मल स्थिरता होने की अवधारणा होती थी ।[9] यद्यपि , यह अवधारणा जांच के दौरान समेर्थन नहीं प्राप्त कर पाई: विभिन्न प्रोकैरियोटों के मध्य विश्लेषण ने दिखाया कि जीसी-सामग्री और तापमान के मध्य कोई संबंध नहीं होता है, जैसा कि थर्मल अनुकूलन के अवधारणा के अनुसार होना चाहिए।[10] वास्तव में, यदि प्राकृतिक चयन जीसी-सामग्री विविधता के पीछे चलने वाला बल होता है, तो यह आवश्यक होगा कि एक पदार्थ के एकल न्यूक्लियोटाइड परिवर्तन, जो प्रायः शांत होते हैं, किसी प्राणी की सुसंगतता को परिवर्तित कर सकते है।[11]

वर्तमान प्रमाण सुझाव देता है कि जीसी-विशिष्ट जीन संवर्धन (जीबीजीसी) जीसी सामग्री में विविधता के पीछे एक चलने वाला कारक है।[11] जीबीजीसी एक पुनर्विन्यास के दौरान होने वाली प्रक्रिया है जिसमें A और T को G और C से परिवर्तित कर दिया जाता है। यह प्रक्रिया, प्राकृतिक चयन से पृथक होने के अतिरिक्त , पुनः भी जीनोम में जीसी प्रतिस्थापनों के प्रति चयनात्मक दबाव डाल सकती है।[12] इसलिए, जीबीजीसी को प्राकृतिक चयन का "प्रतारक" माना जा सकता है।[13] जीसी सामग्री उन स्थानों पर अधिक होती है जहां पुनर्विन्यास अधिक होता है। इसके अलावा, पुनर्विन्यास दरों में अधिकतम होने वाले प्राणियों में उच्च जीसी सामग्री पाई जाती है, जो जीबीजीसी की अवधारणा के प्रभावों के साथ मेल खाता है।[14] दिलचस्प बात यह है कि जीबीजीसी यूकैर्योसाइटों सीमित नहीं होता है।[15] बैक्टीरिया और आर्किया जैसे एकीकृत जीवों को भी जीन संवर्धन के माध्यम से पुनर्विन्यास का सामेरिक अनुभव होता है, जो अकार्योगामी अंगिका प्रक्रिया है जिसके परिणामस्वरूप जीनोम में कई एक ही अनुक्रम होते हैं।[16] जीवन के सभी डोमेन में पुनर्विन्यास द्वारा जीसी सामग्री को ऊपर ले जाने का मतलब है कि जीबीजीसी सर्वत्र संरक्षित होता है। यह निर्धारित करना शेष है कि जीबीजीसी एक (अधिकांशतः) शांत उत्पाद है जो जीवन के आणविक यंत्र का हिस्सा है या यह स्वयं चयन के तहत है, इसकी वास्तविक तत्व और जीवविज्ञान के लिए इसके परिणामस्वरूप लाभ या हानि वर्तमान में अज्ञात है।[17]

के = 2

जीसी-सामग्री पूर्वाग्रहों पर चर्चा करने वाले साहित्य के तुलनात्मक रूप से बड़े समूह के अतिरिक्त , द्विनाभिपूर्वक पूर्वाग्रहों के बारे में अपेक्षाकृत न्यूनतम लिखा गया है। यह ज्ञात है कि जीसी-सामग्री के विपरीत, ये द्विनाभिपूर्वक पूर्वाग्रह पूरे जीनोम में अपेक्षाकृत स्थिर होते हैं, जैसा कि ऊपर देखा गया है,या अत्यधिक भिन्न हो सकते हैं।[18] यह एक महत्वपूर्ण अंतर्दृष्टि है जिसे उपेक्षा नहीं किया जाना चाहिए। यदि द्विनाभिपूर्वक पूर्वाग्रह अनुवाद के परिणामस्वरूप दबाव के अधीन थे, तो कोडिंग क्षेत्र और गैर-कोडिंग डीएनए क्षेत्रों में द्विनाभिपूर्वक पूर्वाग्रह के पृथक पैटर्न होंगे जो कुछ डाइनुसेलोटाइड्स की न्यूनतम अनुवादात्मक दक्षता से प्रेरित होते है।[19] इसलिए यह निष्कर्ष निकाला जा सकता है कि द्विनाभिपूर्वक पक्ष को मोड़ने वाले बल अनुवाद से अस्पष्ट हों जाता हैं। द्विनाभिपूर्वक पक्षों के अनुवादिक परिकल्पना को प्रभावित करने के विरोधी प्रमाण है कि वायरसों के द्विनाभिपूर्वक पक्ष उनके मात्रिका समूह से अधिक परिवर्तित करते हैं, जो उनके मेजबानों के अनुवादिक यंत्रों को वायरल समूहों के विरुद्ध परिवर्तित करते हैं।[20]

जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार सीजी दमन है, जो मिथाइलेशन सीजी द्विनाभिपूर्वकों की डीमिनेशन के कारण सीपीजी साइट 2-मेर्स की आवृत्ति को न्यूनतम कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री न्यूनतम हो जाती है।[21] यह इंटरैक्शन k के पृथक -पृथक मानों के लिए के-मेर को प्रभावित करने वाली शक्ति के मध्य अंतर्संबंध पर प्रकाश डालता है।

द्विनाभिपूर्वक पक्ष के एक रोचक तथ्य यह है कि यह जीनवंशीय रूप से समान प्राणीजातीय जीनोम के मध्य एक "दूरी" माप के रूप में कार्य कर सकता है। घनिष्ठ रूप से संबंधित संगठनों के जीनोम के मध्य तुलनात्मक रूप से दूर संबंधित संगठनों के जोड़ों के मध्य द्विनाभिपूर्वक पक्ष अधिक समान होते हैं।[18]

के = 3

प्रोटीन जो डीएनए संकेतित करता है, बनाने के लिए इस्तेमाल की जाने वाली चालक विभिन्न प्राकृतिक एमिनो एसिड होते हैं। यद्यपि , केवल चार न्यूक्लियोटाइड होते हैं। इसलिए, न्यूक्लियोटाइड्स और एमिनो एसिड्स के मध्य एक-से-एक संबंध नहीं हो सकता है। उसी तरह, 16 2-मेर्स होते हैं, जो प्रत्येक एमिनो एसिड को स्पष्टतः प्रतिष्ठित करने के लिए पर्याप्त नहीं हैं। यद्यपि , डीएनए में 64 अलग-अलग 3-मेर्स होते हैं, जो प्रत्येक एमिनो एसिड को अद्वितीय रूप से प्रतिष्ठित करने के लिए पर्याप्त होते हैं। ये पृथक 3-मेर्स कोडॉन कहलाते हैं। यद्यपि , प्रत्येक कोडॉन केवल एक एमिनो एसिड से मिलता है, प्रत्येक एमिनो एसिड को कई कोडॉन से प्रतिष्ठित किया जा सकता है। इस प्रकार, एक ही एमिनो एसिड अनुक्रम के कई डीएनए प्रतिष्ठान बना सकता है। रोचक बात यह है कि प्रत्येक एमिनो एसिड के लिए कोडॉन का उपयोग बराबर प्रमाण में नहीं होता है। इसे कोडन उपयोग पूर्वाग्रह (सीयूबी) कहा जाता है। जब k = 3 होता है, तो सच्चा 3-मेर आवृत्ति और सीयूबी के मध्य एक अंतर किया जाना चाहिए।[22] उदाहरण के लिए, श्रृंगार एक ऐसी पदार्थ है जिसमें चार 3-मेर शब्द होते हैं (ATG, TGG, GGC और GCA), जबकि केवल दो कोडॉन (ATG और GCA) होते हैं। यद्यपि , सीयूबी 3-मेर उपयोग अवसाद का मुख्य कारक होता है (क्योंकि एक कोडिंग क्षेत्र में के-मेरों के १/३ हिस्से कोडॉन होते हैं) और इस पर ध्यान केंद्रित होता है।

विभिन्न कोडॉनों की आवृत्ति में विविधता के यथार्थ कारण को पूर्णतः समझा नहीं जा सका है। यह जाना जाता है कि कोडॉन प्राथमिकता टीआरएनए प्रचुरताओं के संगठन से संबद्ध होती है, जहां प्रचुरतम tRNA के समान कोडॉन उसी प्रमाण में अधिक आवृत्तिक होते हैं।[22] और यह जाना जाता है कि अधिक उच्च स्तर पर प्रकटित प्रोटीनों में अधिक सीयूबी होता है।[23] इससे प्रकट होता है कि अनुवादात्मक क्षमता या सटीकता के लिए चयन प्राथमिकता सीयूबी विविधता के पीछे चलने वाला बल होता है।

के = 4

द्विनाभिपूर्वक पूर्वाग्रह में देखे गए प्रभाव के समान, फ़ाइलोजेनेटिक रूप से समान जीवों के टेट्रान्यूक्लियोटाइड पूर्वाग्रह न्यूनतम निकटता से संबंधित जीवों की तुलना में अधिक समान हैं।[4]टेट्रान्यूक्लियोटाइड पूर्वाग्रह में भिन्नता का सटीक कारण अच्छी तरह से समझा नहीं गया है, परंतु यह अनुमान लगाया गया है कि यह आणविक स्तर पर आनुवंशिक स्थिरता के रखरखाव का परिणाम है।[24]

अनुप्रयोग

एक प्रजाति के जीनोम, एक जीनोमिक क्षेत्र या एक सरणी के वर्ग में एक सेट के के-मेर की आवृत्ति उपस्थित सरणी की "हस्ताक्षर" के रूप में उपयोग की जा सकती है। इन आवृत्तियों की तुलना करना अनुक्रम संरेखण से कम्प्यूटेशनली आसान होता है और इसे संरेखण-मुक्त अनुक्रम विश्लेषण में महत्वपूर्ण तकनीक के रूप में मान्यता प्राप्त है। यह एक संरेखण से पहले का पहला चरण विश्लेषण के रूप में भी उपयोग किया जा सकता है।

अनुक्रम संयोजन

यह आँकड़ा चित्र k-मेर्स (इस परिप्रेक्ष्य में 4-मेर्स) में पढ़ाई गई सीक्वेंस को छोटे क-मेर्स में विभाजित करने की प्रक्रिया को दिखाता है जिससे इसे दे ब्रुइन आरेख में उपयोग किया जा सके। (A) में प्राथमिक रूप से डीएनए के सेगमेंट को सीक्वेंस किया जा रहा है दिखाया जाता है। (B) में पढ़ाई से उत्पन्न हुए पढ़ने दिखाए जाते हैं और यह भी दिखाता है कि वे कैसे मिलते हैं। हालांकि, इस एलाइनमेंट की समस्या यह है कि वे k-2 से परत करते हैं, न कि k-1 (जो दे ब्रुइन आरेख में आवश्यक होता है)। (C) में पढ़ाई को छोटे 4-मेर्स में विभाजित किया जाता है। (D) में दोहराए गए 4-मेर्स को छोड़ देता है और फिर उनके एलाइनमेंट को दिखाता है। ध्यान दें कि ये k-मेर्स k-1 से परत करते हैं और फिर दे ब्रुइन आरेख में उपयोग किए जा सकते हैं।

सिरणी संचालन में, के-मेर का उपयोग दे ब्रुइन आरेख के निर्माण के दौरान किया जाता है।[25][26] डी ब्रुइन आरेख बनाने के लिए, प्रत्येक सिरा में संग्रहीत के-मेर को संग्रहीत किया जाना चाहिए, जिसकी लंबाई होती है, और इसे एक दूसरे सिरे में 𝐿 − 1 द्वारा ओवरलैप करना चाहिए क्योंकि एक वर्टेक्स बनाया जा सके। अगली पीढ़ी अनुक्रम द्वारा उत्पन्न किए जाने वाले रीड के सामान्यतः विभिन्न रीड लंबाई होती हैं। उदाहरण के लिए, आईल्यूमिना की अनुक्रम प्रौद्योगिकी द्वारा 100-मेर की रीड को दर्ज किया जाता है। यद्यपि , अनुक्रम में पाए जाने वाले संपूर्ण संभावित 100-मेर में से केवल छोटा हिस्सा वास्तव में उत्पन्न होता है। इसका कारण है रीड त्रुटियाँ, परंतु अधिक महत्वपूर्ण है, अनुक्रम के दौरान संचालन होने वाले सीधे कवरेज को दी जाती है। समस्या यह है कि इन संभावित के-अधिक के छोटे हिस्से दे ब्रुइन आरेख की मुख्य मान्यता को उल्लंघन करते हैं, जहां सभी के-अधिक रीड्स को संचालन में आग्रहित होने की अपेक्षा होती है कि इसके पास अपने पड़ोसी के-अधिक से के माध्यम से ओवरलैप हो जाता है।

इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर में विभाजित होता है, क्योंकि परिणामी छोटे के-मेर उस छोटे आकार के सभी संभावित के-मेर का प्रतिनिधित्व करेंगे जो जीनोम में उपस्थित होते हैं।[27] इसके अलावा, के-मेर को छोटे आकारों में विभाजित करने से विभिन्न प्रारंभिक पढ़ने की लंबाई की समस्या को न्यूनतम करने में भी सहायता मिलती है। इस उदाहरण में, पांच रीड्स जीनोम के सभी संभावित 7-मेर्स का लेखा जोखा नहीं देते हैं, और इस प्रकार, एक डी ब्रुइज़न आरेख़ नहीं बनाया जा सकता है। परंतु , जब उन्हें 4-मेर्स में विभाजित किया जाता है, तो परिणामस्वरूप उपक्रम दे ब्रुइन आरेख का उपयोग करके जीनोम का पुनर्निर्माण करने के लिए पर्याप्त होते हैं।

अनुक्रम संचालन के लिए सीधे उपयोग किए जाने के अलावा, के-मेर का उपयोग जीनोम मिस-संचालन का पता लगाने के लिए भी किया जा सकता है, जो कि अधिक प्रस्तुत किए गए के-मेर की पहचान करके होता है जो संयुक्त किए गए दोहराए गए अनुक्रम (डीएनए) की उपस्थिति का सुझाव देता है।[28] इसके अलावा, के-मेर का उपयोग यूकेरियोटिक जीनोम संचालन के दौरान जीवाणु संदूषण का पता लगाने के लिए भी किया जाता है,जो मेटाजेनोमिक्स के क्षेत्र से लाए गए एक दृष्टिकोण से उधारण किया गया है।[29][30]

के-मेर आकार का विकल्प

के-मेर आकार के चुनाव का अनुक्रम संयोजन पर बहुत पृथक प्रभाव पड़ते हैं। ये प्रभाव छोटे आकार और बड़े आकार के के-मेर के मध्य अत्यधिक भिन्न होते हैं। इसलिए, प्रभावों को संतुलित करने वाले उपयुक्त आकार को चुनने के लिए विभिन्न के-मेर आकारों की समझ प्राप्त की जानी चाहिए। आकारों के प्रभाव निम्न उल्लिखित हैं।

न्यूनतम के-मेर आकार
  • न्यूनतम के-मेर आकार से आरेख़ में संग्रहीत किनारों की मात्रा न्यूनतम हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को न्यूनतम करने में सहायता मिलेगी।
  • छोटे आकार होने से सभी के-मेर के ओवरलैप होने की संभावना बढ़ जाएगी, और इस तरह, डी ब्रुइज़न आरेख के निर्माण के लिए आवश्यक अनुवर्तीताएं होंगी।[31]
  • यद्यपि , छोटे आकार के k-mer होने से, आपको एकल k-mer में ले जाने वाले आरेख़ में कई शीर्ष होने का भी जोखिम होता है। इसलिए, इससे जीनोम का पुनर्निर्माण और अधिक कठिन हो जाएगा क्योंकि बड़ी मात्रा में शीर्षों को पार करने की आवश्यकता के कारण पथ अस्पष्टता का एक उच्च स्तर हमारे सामने आ सकती है।
  • के-मेर छोटे हो जाने से जानकारी नष्ट हो जाती है।
    • 'उदा. 'AGTCGTAGATGCTG की संभावना ACGT से न्यूनतम है, और इस प्रकार, अधिक मात्रा में जानकारी रखती है।
  • छोटे के-मेर में डीएनए में उन क्षेत्रों को हल करने में सक्षम नहीं होने की भी समस्या होती है जहां छोटे सूक्ष्म उपग्रह या दोहराव होते हैं। ऐसा इसलिए है क्योंकि छोटे के-मेर पूरी तरह से दोहराव क्षेत्र के अंदर बैठे रहेंगे और इसलिए यह निर्धारित करना कठिन है कि वास्तव में कितनी पुनरावृत्ति हुई है।
    • 'उदा. 'अनुवर्ती ATGTGTGTGTGTGTACG के लिए, यदि 16 से न्यूनतम के-मेर आकार चुना जाता है, तो टीजी की पुनरावृत्ति की मात्रा खो जाएगी। ऐसा इसलिए है क्योंकि अधिकांश के-मेर दोहराए गए क्षेत्र में बैठेंगे और पुनरावृत्ति की मात्रा को संदर्भित करने के अतिरिक्त उसी के-मेर के पुनरावृत्ति के रूप में खारिज कर दिया जा सकता है।
उच्च के-मेर आकार
  • बड़े आकार के के-मेर होने से आरेख़ में किनारों की संख्या बढ़ जाएगी, जिसके परिणामस्वरूप, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा बढ़ जाएगी।
  • के-मेर का आकार बढ़ाने से शीर्षों की संख्या भी न्यूनतम हो जाएगी। इससे जीनोम के निर्माण में सहायता मिलेगी क्योंकि आरेख़ में पार करने के लिए न्यूनतम रास्ते होंगे।[31]*
  • बड़े के-मेर में प्रत्येक के-मेर से बाहरी शीर्ष न होने का जोखिम भी अधिक होता है। यह बड़े के-मेर के कारण यह जोखिम बढ़ रहा है कि यह किसी अन्य k-mer के साथ ओवरलैप नहीं होगा . इसलिए, इससे रीड्स में गड़बड़ी हो सकती है, और इस तरह, अधिक मात्रा में छोटे संपर्क हो सकते हैं।
  • बड़े के-मेर आकार छोटे पुनरावृत्ति वाले क्षेत्रों की समस्या को न्यूनतम करने में सहायता करते हैं। यह इस तथ्य के कारण है कि के-मेर में पुनरावृत्ति क्षेत्र और निकटवर्ती डीएनए अनुक्रमों का संतुलन होगा (बशर्ते यह पर्याप्त बड़ा आकार हो) जो उस विशेष क्षेत्र में पुनरावृत्ति की मात्रा को हल करने में सहायता कर सकता है।

आनुवंशिकी और जीनोमिक्स

रोग संबंधी परिप्रेक्ष्य में, द्विनुकलोटाइड अधिकार को रोगाणुता से जुड़े आनुवंशिक द्वीपों की पहचान में प्रारंभ किया जा चुका है।[11] पूर्व अध्ययन ने यह भी दर्शाया है कि चतुर्णुकलोटाइड अधिकार प्रोकर्योट्स[32] और यूकर्योट्स[33] में क्षैतिज जीन स्थानांतरण की सक्षमता को सफलतापूर्वक देख सकते हैं।

क-मेरों का एक और अनुप्रयोग जीनोमिक्स-आधारित टैक्सोनोमी में होता है। उदाहरण के रूप में, मध्यम सफलता के साथ एर्विनिया के प्रजातियों के मध्य जीसी-सामग्री का उपयोग किया गया है।[34] टैक्सोनोमी के लिए जीसी-सामग्री के सीधे उपयोग के समान ही डीएनए की मेल्टिंग तापमान, अर्थात टीएम, का उपयोग किया जाता है।[35] क्योंकि जीसी बन्ध अधिक तापतन स्थिर होते हैं, जीसी सामग्री वाले संकेत में उच्च टीएम प्रदर्शित करती है। 1987 में, बैक्टीरियल सिस्टमाटिक्स के प्रति दृष्टिकोण को समाधान करने के लिए एड हॉक समिति ने फाइटोजेनेटिक प्रजाति संकल्प के हिस्से के रूप में जाति सीमाओं की निर्धारण में डेल्टा टीएम का उपयोग करने की प्रार्थना की, यद्यपि यह प्रार्थना वैज्ञानिक समुदाय में प्रभावी नहीं रही है।

आनुवंशिकता और जीनोमिक्स के अन्य अनुप्रयोग में सम्मिलित हैं:

  • आरएनए अनुक्रम डेटा से आरएनए आयसोफॉर्म की मात्रा का मापन होता है।[36]
  • मानव माइटोकॉन्ड्रियल हैप्लोग्रुप का वर्गीकरण करता है। [37]
  • जीनोम्स में पुनर्जनन स्थलों का पता लगाना होता है।[38]
  • के-मेर आवृत्ति बनाम के-अधिक गहराई का उपयोग करके जीनोम आकार का अनुमान लगाया जाता है। [39]
  • फ्लैंकिंग क्षेत्रों द्वारा सीपीजी द्वीपों का वर्णन किया जाता है। [40][41]
  • पुनरावृत्ति तत्व जैसे ट्रांसपोजेबल तत्व के नए पत्ते का खोज करना होता है ।[42]
  • प्रजातियों की डीएनए बारकोडिंग का पता लगाना होता है ।।[7][43]
  • प्रोटीन-बाइंडिंग सिक्वेंस मोटिफ का वर्णन किया जाता है। [44]
  • अगली पीढ़ी के डीएनए अनुक्रमण डेटा का उपयोग करके उत्परिवर्तन या बहुरूपता (जीव विज्ञान) की पहचान करना होता है।[45]


मेटाजेनोमिक्स

मेटाजेनोमिक्स में क-मेर आवृत्ति और स्पेक्ट्रम विविधता का व्यापक उपयोग विश्लेषण[46][47] और बिनिंग के लिए किया जाता है। बिनिंग में, सीक्वेंसिंग रीड्स को प्रत्येक जीवाणु (या संचालनक टैक्सोनोमिक इकाई) के लिए "बिन्स" में अलग करने की चुनौती होती है, जिन्हें पुनः वे आस्थापित किए जाएंगे। टीईटीआरए एक महत्वपूर्ण उपकरण है जो मेटाजेनोमिक प्रारूप को लेता है और उन्हें उनके चतुर्नुक्लियोटाइड (k = 4) आवृत्ति के आधार पर जीवाणुओं में बिन्स में डालता है।[48] मेटाजेनोमिक बिनिंग के लिए क-मेर आवृत्ति पर आधारित अन्य उपकरण हैं कंपोस्टबिन (k = 6),[49] पीसीएहिर,[50] फाइलोपाइथिया (5 ≤ k ≤ 6),[[51] क्लार्क (k ≥ 20),[52] और टैकोटाकोआ (2 ≤ k ≤ 6).[53] वर्तमान की विकासों ने मेटाजेनोमिक बिनिंग[54] में क-मेर का उपयोग करके गहन अध्ययन को भी प्रारंभ किया है।

मेटाजेनोमिक्स के अन्य अनुप्रयोग सम्मिलित हैं:

  • कच्चे रीड्स से रीडिंग फ्रेम की पुनःप्राप्ति करता है।[55]
  • मेटागेनोमिक प्रारूपों में प्रजातियों की प्रमुखता का अनुमान लगाता है।[56]
  • प्रारूपों में उपस्थित प्रजातियों की निर्धारण करता है।[57][58]
  • प्रारूपों से रोगों के लिए बायोमार्कर की पहचान करता है। [59]

जैव प्रौद्योगिकी

अनुवाद संबंधी दक्षता को नियंत्रित करने के लिए जैव प्रौद्योगिकी अनुप्रयोगों में डीएनए अनुक्रमों में के-मेर आवृत्तियों को संशोधित करने का बड़े पैमाने पर उपयोग किया गया है।विशेष रूप से, इसका उपयोग प्रोटीन उत्पादन दर को उच्च या निम्न स्तर पर नियंत्रित करने के लिए किया गया है।

प्रोटीन उत्पादन बढ़ाने के संबंध में, प्रतिकूल द्विनाभिपूर्वक आवृत्ति को न्यूनतम करने से प्रोटीन संश्लेषण की उच्च दर प्राप्त होती है।[60] इसके अलावा, कोडॉन उपयोग विभेद को संश्लेषण दर को बढ़ाने वाले समेरूपी अनुक्रमों का निर्माण करने के लिए संशोधित किया गया है।[2][3]इसी प्रकार, कोडन जोड़ी अनुकूलन, डाइनुसेलोटाइड और कोडन अनुकूलन का संयोजन, का भी अभिव्यक्ति को बढ़ाने के लिए सफलतापूर्वक उपयोग किया गया है।[61]

अनुवाद प्रभावशीलता को न्यूनतम करने के लिए क-मेर का सबसे अध्ययनित अनुप्रयोग है टीके बनाने के लिए वायरसों को कमजोर करने के लिए कोडॉन-पेयर मानिपुलेशन का उपयोग करना। शोधकर्ताओं ने डेंगू वायरस का कारण बनने वाले वायरस को इस तरह से रीकोड किया कि इसका कोडॉन-पेयर विचारप्रधानता पशुवैज्ञानिक कोडॉन उपयोग पसंद से अधिक पृथक था।[62] यद्यपि इसमें एक अभिन्न एमिनो एसिड अनुक्रम था, परंतु रीकोड किए गए वायरस ने महत्वपूर्ण रूप से कमजोर रोगीता दिखाई दी जबकि यह मजबूत प्रतिरक्षा प्रतिक्रिया उत्पन्न कर रहा था। यह दृष्टिपट्ट में भी कोडॉन-पेयर विचारप्रधानता मानिपुलेशन का सफलतापूर्वक उपयोग इंफ्लुएंजा वैक्सीन[63] और मारेक का रोग हर्पेसवायरस (एमडीवी) के लिए वैक्सीन बनाने में भी किया गया है।[64] यह उल्लेखनीय है कि एमडीवी को कमजोर करने के लिए वापसी कोडॉन-पेयर विचारप्रधानता मानिपुलेशन ने वायरस की कैंसरजनन को सफलतापूर्वक कम नहीं किया, जिससे यह दर्शाता है कि इस उपयोग के जैव प्रौद्योगिकी अनुप्रयोगों में पोटेंशियल की कमजोरी है। अब तक, कोडॉन-पेयर गैरउत्पादित वैक्सीन को अनुमति नहीं मिली है।

दो उपरांत के लेखों से स्पष्ट होता है कि कोडॉन-पेयर अनुप्रोजननीकरण के पीछे वास्तविक तंत्र का विवरण समझाने में सहायता मिलती है: कोडॉन-पेयर विचारप्रधानता द्विनुकलोटाइड विचारप्रधानता के परिणामस्वरूप होती है।।[65][66] वायरस और उनके मेजबानों का अध्ययन करके, दोनों लेखकों ने यह निर्धारित किया कि वायरसों की कमजोर रूप से अनुवाद के लिए अनुपयुक्त द्विनुकलोटाइडों की वृद्धि ही उस आणविक तंत्र का परिणाम होती है जो वायरसों को कमजोर करता है।

पीसीआर , एक महत्वपूर्ण जैव प्रौद्योगिकी उपकरण में यौगिक गलनांक की पूर्वानुमान करने के लिए जीसी-सामग्री (जीसी सामग्री) का उपयोग किया जाता है।

कार्यान्वयन

स्यूडोकोड

किसी रीड के संभावित के-मेर का निर्धारण केवल स्ट्रिंग की लंबाई पर एक-एक करके साइकिल चलाकर और लंबाई के प्रत्येक सबस्ट्रिंग को निकालकर किया जा सकता है। इसे प्राप्त करने के लिए छद्मकोड इस प्रकार है:

procedure k-mers(string seq, integer k) is
    L ← length(seq)
    arr ← new array of L − k + 1 empty strings

    // iterate over the number of k-mers in seq, 
    // storing the nth k-mer in the output array
    for n ← 0 to L − k + 1 exclusive do
        arr[n] ← subsequence of seq from letter n inclusive to letter n + k exclusive

    return arr







जैव सूचना विज्ञान पाइपलाइनों में

क्योंकि k के मान के लिए के-मेर की संख्या गणनात्मक रूप से बढ़ती है, इसलिए बड़े k के लिए (सामान्यतः >10) के-मेर की गणना एक संगणनीय रूप से कठिन कार्य है। जबकि छोटे k मानों के लिए उपरोक