के-मेर

जैव सूचना विज्ञान के अंतर्गत, के-मर्स जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले लंबाई $$k$$ के उपरज्जु को कहते हैं। प्रमुख रूप से संगणनात्मक जीनोमिक्स और अनुक्रम विश्लेषण के संदर्भ में उपयोग होते हैं, जहां k-मर्स आणविकों (अर्थात् A, T, G और C) से मिलकर बने होते हैं। k-मर्स का उपयोग डीएनए संकलन, परजीवी जीन   अभिव्यक्ति को सुधारने, मेटाजेनोमिक सैंपल में प्रजातियों की पहचान, और क्षीण टीकाकरण बनाने के लिए किया जाता है। सामान्यतया, k-मर्स शब्द का उपयोग लंबाई L के एक अनुक्रम के सभी उपस्त्रिंशों के लिए किया जाता है, जिसका अर्थ होता है कि एक अनुक्रम AGAT के चार मोनोमर (A, G, A और T), तीन 2-मर्स (AG, GA, AT), दो 3-मर्स (AGA और GAT) और एक 4-मर्स (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई $$L$$ वाले एक अनुक्रम में $$L - k + 1$$ k-मर्स होंगे और $$n^{k}$$ कुल संभव k-मर्स होंगे, यहां $$n$$ संभावित मोनोमरों की संख्या है।

परिचय
के-मेर्स केवल लंबाई $$k$$ हैं ,परिणामस्वरूप. उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित k-mers निम्न दर्शाये गए हैं: क-मर्स को दृश्यीकरण करने की एक विधि, क-मर्स स्पेक्ट्रम, एक अनुक्रम में प्रत्येक क-मर्स की बहुतायत को उस बहुतायत के साथ क-मर्सों की संख्या के खिलाफ दर्शाती है। एक प्रजाति के जीनोम के लिए क-मर्स स्पेक्ट्रम में क-मर्सों की मोड की संख्या भिन्न होती है, ज्यादातर प्रजातियों का एन्यूनतम ोडल वितरण होता है। यद्यपि, सभी स्तनधारी प्राणियों का बहुमोडल वितरण होता है। क-मर्स स्पेक्ट्रम में मोडों की संख्या जीनोम के विभिन्न क्षेत्रों के मध्य भी भिन्न हो सकती है: मानवों में 5' यूटीआर और एक्सॉन में एन्यूनतम ोडल क-मर्स स्पेक्ट्रम होता है, परंतु 3' यूटीआर और इंट्रॉन्स में बहुमोडल स्पेक्ट्रम होता है।

डीएनए के-मेर आवृत्ति को प्रभावित करने वाली शक्तियां
क-मर्स के उपयोग की आवृत्ति को कई बाधाएं प्रभावित करती हैं, जो विभिन्न स्तरों पर कार्य करती हैं और प्रायः एक-दूसरे के विरोध में होती हैं। महत्वपूर्ण बात यह है कि k के अधिक मानों के लिए क-मर्स पर प्रभावित करने वाली शक्तियों से भी प्रभावित होते हैं। जो न्यूनतम मानों के क-मर्स पर प्रभावित कर रहे होते हैं। उदाहरण के लिए, यदि 1-मर A किसी अनुक्रम में नहीं होता है, तो A को सम्मिलित करने वाले 2-मर (AA, AT, AG और AC) भी नहीं होंगे, जिससे विभिन्न प्रभावों के प्रभाव को संबद्ध करते हैं।

के = 1
जब k = 1 होता है, तो डीएनए के चार क-मर्स होते हैं, अर्थात् A, T, G और C। आणविक स्तर पर, G और C के मध्य तीन हाइड्रोजन बंधन होते हैं, जबकि A और T के मध्य केवल दो होते हैं। अतिरिक्त हाइड्रोजन बॉन्ड (और मजबूत स्टैकिंग अंतराक्रियाओं) के परिणामस्वरूप GC बंधन AT बंधन की तुलना में अधिक तापात्मक रूप से स्थिर होते हैं। स्तनधारी प्राणियों और पक्षियों में Gs और Cs का अनुपात As और Ts की तुलना में अधिक होता है (जीसी-सामग्री), जिसके कारण जीसी-सामग्री विविधता के पीछे थर्मल स्थिरता होने की अवधारणा हुई थी । यद्यपि, यह अवधारणा जांच के दौरान समर्थन नहीं प्राप्त कर पाई: विभिन्न प्रोकैरियोटों के मध्य विश्लेषण ने दिखाया कि जीसी-सामग्री और तापमान के मध्य कोई संबंध नहीं है, जैसा कि थर्मल अनुकूलन के अवधारणा के अनुसार होना चाहिए। वास्तव में, यदि प्राकृतिक चयन जीसी-सामग्री विविधता के पीछे चलने वाला बल होता है, तो यह आवश्यक होगा कि एक पदार्थ के एकल न्यूक्लियोटाइड परिवर्तन, जो प्रायः मौन होते हैं, किसी प्राणी की सुसंगतता को परिवर्तित कर सकते है।

वर्तमान प्रमाण सुझाव देता है कि जीसी-विशिष्ट जीन संवर्धन (जीबीजीसी) जीसी सामग्री में विविधता के पीछे एक चलने वाला कारक है। जीबीजीसी एक पुनर्विन्यास के दौरान होने वाली प्रक्रिया है जिसमें A और T को G और C से परिवर्तित कर दिया जाता है। यह प्रक्रिया, प्राकृतिक चयन से पृथक होने के अतिरिक्त, पुनः भी जीनोम में जीसी प्रतिस्थापनों के प्रति चयनात्मक दबाव डाल सकती है। इसलिए, जीबीजीसी को प्राकृतिक चयन का "प्रतारक" माना जा सकता है। जीसी सामग्री उन स्थानों पर अधिक होती है जहां पुनर्विन्यास अधिक होता है। इसके अलावा, पुनर्विन्यास दरों में अधिकतम होने वाले प्राणियों में उच्च जीसी सामग्री पाई जाती है, जो जीबीजीसी की अवधारणा के प्रभावों के साथ मेल खाता है। दिलचस्प बात यह है कि जीबीजीसी यूकैर्योसाइटों सीमित नहीं होता है। बैक्टीरिया और आर्किया जैसे एकीकृत जीवों को भी जीन संवर्धन के माध्यम से पुनर्विन्यास का सामरिक अनुभव होता है, जो अकार्योगामी अंगिका प्रक्रिया है जिसके परिणामस्वरूप जीनोम में कई एक ही अनुक्रम होते हैं। जीवन के सभी डोमेन में पुनर्विन्यास द्वारा जीसी सामग्री को ऊपर ले जाने का मतलब है कि जीबीजीसी सर्वत्र संरक्षित होता है। यह निर्धारित करना बाकी है कि जीबीजीसी एक (अधिकांशतः) शांत उत्पाद है जो जीवन के आणविक यंत्र का हिस्सा है या यह स्वयं चयन के तहत है, इसकी वास्तविक तत्व और जीवविज्ञान के लिए इसके परिणामस्वरूप लाभ या हानि वर्तमान में अज्ञात है।

के = 2
जीसी-सामग्री पूर्वाग्रहों पर चर्चा करने वाले साहित्य के तुलनात्मक रूप से बड़े समूह के अतिरिक्त, द्विनाभिपूर्वक पूर्वाग्रहों के बारे में अपेक्षाकृत न्यूनतम लिखा गया है। यह ज्ञात है कि जीसी-सामग्री के विपरीत, ये द्विनाभिपूर्वक पूर्वाग्रह पूरे जीनोम में अपेक्षाकृत स्थिर होते हैं, जैसा कि ऊपर देखा गया है, काफी भिन्न हो सकते हैं। यह एक महत्वपूर्ण अंतर्दृष्टि है जिसे नजरअंदाज नहीं किया जाना चाहिए। यदि द्विनाभिपूर्वक पूर्वाग्रह अनुवाद के परिणामस्वरूप दबाव के अधीन थे, तो कोडिंग क्षेत्र और गैर-कोडिंग डीएनए क्षेत्रों में द्विनाभिपूर्वक पूर्वाग्रह के पृथक -पृथक पैटर्न होंगे जो कुछ डाइनुसेलोटाइड्स की न्यूनतम  अनुवादात्मक दक्षता से प्रेरित होते  होंगे। क्योंकि ऐसा नहीं है,  इसलिए यह निष्कर्ष निकाला जा सकता है कि द्विनाभिपूर्वक पक्ष को मोड़ने वाले बल अनुवाद से अस्पष्ट हैं। द्विनाभिपूर्वक पक्षों के अनुवादिक परिकल्पना को प्रभावित करने के विरोधी प्रमाण है कि वायरसों के द्विनाभिपूर्वक पक्ष उनके मात्रिका परिवार से अधिक परिवर्तित करते हैं, जो उनके मेजबानों के अनुवादिक यंत्रों को वायरल परिवारों के विरुद्ध परिवर्तित करते हैं।।

जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार सीजी दमन है, जो मिथाइलेशन सीजी द्विनाभिपूर्वकों की डीमिनेशन के कारण सीपीजी साइट 2-मेर्स की आवृत्ति को न्यूनतम कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री न्यूनतम  हो जाती है। यह इंटरैक्शन k के पृथक -पृथक  मानों के लिए k-mers को प्रभावित करने वाली शक्ति के मध्य  अंतर्संबंध पर प्रकाश डालता है।

द्विनाभिपूर्वक पक्ष के एक रोचक तथ्य यह है कि यह जीनवंशीय रूप से समान प्राणीजातीय जीनोम के मध्य  एक "दूरी" माप के रूप में कार्य कर सकता है। घनिष्ठ रूप से संबंधित संगठनों के जीनोम के मध्य   तुलनात्मक रूप से दूर संबंधित संगठनों के जोड़ों के मध्य द्विनाभिपूर्वक पक्ष अधिक समान होते हैं।

के = 3
प्रोटीन जो डीएनए संकेतित करता है, बनाने के लिए इस्तेमाल की जाने वाली चालक विभिन्न प्राकृतिक एमिनो एसिड होते हैं। यद्यपि , केवल चार न्यूक्लियोटाइड होते हैं। इसलिए, न्यूक्लियोटाइड्स और एमिनो एसिड्स के मध्य   एक-से-एक संबंध नहीं हो सकता है। उसी तरह, 16 2-मर्स होते हैं, जो प्रत्येक एमिनो एसिड को स्पष्टतः प्रतिष्ठित करने के लिए पर्याप्त नहीं हैं। यद्यपि   , डीएनए में 64 अलग-अलग 3-मर्स होते हैं, जो प्रत्येक एमिनो एसिड को अद्वितीय रूप से प्रतिष्ठित करने के लिए पर्याप्त होते हैं। ये पृथक 3-मर्स कोडॉन कहलाते हैं। यद्यपि , प्रत्येक कोडॉन केवल एक एमिनो एसिड से मिलता है, प्रत्येक एमिनो एसिड को कई कोडॉन से प्रतिष्ठित किया जा सकता है। इस प्रकार, एक ही एमिनो एसिड अनुक्रम के कई डीएनए प्रतिष्ठान बना सकता है। रोचक बात यह है कि प्रत्येक एमिनो एसिड के लिए कोडॉन का उपयोग बराबर प्रमाण में नहीं होता है। इसे कोडन उपयोग पूर्वाग्रह (सीयूबी) कहा जाता है। जब k = 3 होता है, तो सच्चा 3-मर आवृत्ति और सीयूबी के मध्य   एक अंतर किया जाना चाहिए। उदाहरण के लिए, श्रृंगार एक ऐसी पदार्थ है जिसमें चार 3-मर शब्द होते हैं (ATG, TGG, GGC और GCA), जबकि केवल दो कोडॉन (ATG और GCA) होते हैं। यद्यपि , सीयूबी 3-मर उपयोग अवसाद का मुख्य कारक होता है (क्योंकि एक कोडिंग क्षेत्र में के-मरों के १/३ हिस्से कोडॉन होते हैं) और इस पर ध्यान केंद्रित होता है।

विभिन्न कोडॉनों की आवृत्ति में विविधता के यथार्थ कारण को पूर्णतः समझा जा सका नहीं है। यह जाना जाता है कि कोडॉन प्राथमिकता टीआरएनए प्रचुरताओं के संगठन से संबद्ध होती है, जहां प्रचुरतम tRNA के समान कोडॉन उसी प्रमाण में अधिक आवृत्तिक होते हैं। और यह जाना जाता है कि अधिक उच्च स्तर पर प्रकटित प्रोटीनों में अधिक सीयूबी होता है। इससे प्रकट होता है कि अनुवादात्मक क्षमता या सटीकता के लिए चयन प्राथमिकता सीयूबी विविधता के पीछे चलने वाला बल होता है।

के = 4
द्विनाभिपूर्वक पूर्वाग्रह में देखे गए प्रभाव के समान, फ़ाइलोजेनेटिक रूप से समान जीवों के टेट्रान्यूक्लियोटाइड पूर्वाग्रह न्यूनतम निकटता से संबंधित जीवों की तुलना में अधिक समान हैं। टेट्रान्यूक्लियोटाइड पूर्वाग्रह में भिन्नता का सटीक कारण अच्छी तरह से समझा नहीं गया है, परंतु  यह अनुमान लगाया गया है कि यह आणविक स्तर पर आनुवंशिक स्थिरता के रखरखाव का परिणाम है।

अनुप्रयोग
एक प्रजाति के जीनोम, एक जीनोमिक क्षेत्र या एक सरणी के वर्ग में एक सेट के क-मर्स की आवृत्ति उपस्थित सरणी की "हस्ताक्षर" के रूप में उपयोग की जा सकती है। इन आवृत्तियों की तुलना करना अनुक्रम संरेखण से कम्प्यूटेशनली आसान होता है और इसे संरेखण-मुक्त अनुक्रम विश्लेषण में महत्वपूर्ण तकनीक के रूप में मान्यता प्राप्त है। यह एक संरेखण से पहले का पहला चरण विश्लेषण के रूप में भी उपयोग किया जा सकता है।

अनुक्रम संयोजन
सिरणी संचालन में, क-मर्स का उपयोग दे ब्रुइन ग्राफ के निर्माण के दौरान किया जाता है। डी ब्रुइन ग्राफ बनाने के लिए, प्रत्येक सिरा में संग्रहीत क-मर्स को संग्रहीत किया जाना चाहिए, जिसकी लंबाई $$ L$$ होती है, और इसे एक दूसरे सिरे में 𝐿 − 1 द्वारा ओवरलैप करना चाहिए ताकि एक वर्टेक्स बनाया जा सके। अगली पीढ़ी सीक्वेंसिंग द्वारा उत्पन्न किए जाने वाले रीड के आमतौर पर विभिन्न रीड लंबाई होती हैं। उदाहरण के लिए, आईल्यूमिना की सीक्वेंसिंग प्रौद्योगिकी द्वारा 100-मर की रीड को दर्ज किया जाता है। हालांकि, सीक्वेंसिंग में पाए जाने वाले संपूर्ण संभावित 100-मर में से केवल छोटा हिस्सा वास्तव में उत्पन्न होता है। इसका कारण है रीड त्रुटियाँ, लेकिन अधिक महत्वपूर्ण है, सीक्वेंसिंग के दौरान संचालन होने वाले सीधे कवरेज के गड़े होने। समस्या यह है कि इन संभावित k-मर के छोटे हिस्से दे ब्रुइन ग्राफ की मुख्य मान्यता को उल्लंघन करते हैं, जहां सभी k-मर रीड्स को संचालन में आग्रहित होने की अपेक्षा होती है कि इसके पास अपने पड़ोसी k-मर से $$k-1$$ के माध्यम से ओवरलैप हो जाता है। इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर्स में तोड़ना है, ताकि परिणामी छोटे के-मेर्स उस छोटे आकार के सभी संभावित के-मेर्स का प्रतिनिधित्व करेंगे जो जीनोम में उपस्थित होते हैं। इसके अलावा, के-मर्स को छोटे आकारों में विभाजित करने से विभिन्न प्रारंभिक पढ़ने की लंबाई की समस्या को न्यूनतम करने में भी सहायता मिलती है। इस उदाहरण में, पांच रीड्स जीनोम के सभी संभावित 7-मेर्स का हिसाब नहीं देते हैं, और इस प्रकार, एक डी ब्रुइज़न ग्राफ़ नहीं बनाया जा सकता है। परंतु, जब उन्हें 4-मेर्स में विभाजित किया जाता है, तो परिणामी अनुवर्ती डी ब्रुइज़न ग्राफ का उपयोग करके जीनोम को पुनः  से बनाने के लिए पर्याप्त होते हैं।

अनुक्रम असेंबली के लिए सीधे उपयोग किए जाने के अलावा, के-मर्स का उपयोग जीनोम गलत-असेंबली का पता लगाने के लिए भी किया जा सकता है, जो कि अधिक प्रस्तुत किए गए के-मर्स की पहचान करके होता है जो संयुक्त किए गए दोहराए गए अनुक्रम (डीएनए) की उपस्थिति का सुझाव देता है। इसके अलावा, के-मर्स का उपयोग यूकेरियोटिक जीनोम असेंबली के दौरान जीवाणु संदूषण का पता लगाने के लिए भी किया जाता है, जो मेटागेनोमिक्स के क्षेत्र से उधार लिया गया एक दृष्टिकोण है।

के-मेर आकार का विकल्प
के-मेर आकार के चुनाव का अनुक्रम संयोजन पर कई पृथक -पृथक प्रभाव पड़ते हैं। ये प्रभाव छोटे आकार और बड़े आकार के के-मेर्स के मध्य  काफी भिन्न होते हैं। इसलिए, प्रभावों को संतुलित करने वाले उपयुक्त आकार को चुनने के लिए विभिन्न के-मेर आकारों की समझ हासिल की जानी चाहिए। आकारों के प्रभाव नीचे उल्लिखित हैं।

न्यूनतम के-मेर आकार

 * न्यूनतम के-मेर आकार से ग्राफ़ में संग्रहीत किनारों की मात्रा न्यूनतम  हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को न्यूनतम  करने में मदद मिलेगी।
 * छोटे आकार होने से सभी के-मर्स के ओवरलैप होने की संभावना बढ़ जाएगी, और इस तरह, डी ब्रुइज़न ग्राफ के निर्माण के लिए आवश्यक अनुवर्तीताएं होंगी।
 * हालाँकि, छोटे आकार के k-mer होने से, आपको एकल k-mer में ले जाने वाले ग्राफ़ में कई शीर्ष होने का भी जोखिम होता है। इसलिए, इससे जीनोम का पुनर्निर्माण और अधिक कठिन हो जाएगा क्योंकि बड़ी मात्रा में शीर्षों को पार करने की आवश्यकता के कारण पथ अस्पष्टता का एक उच्च स्तर है।
 * के-मर्स छोटे हो जाने से जानकारी नष्ट हो जाती है।
 * 'उदा. 'AGTसीजीTAGATGCTG की संभावना AसीजीT से न्यूनतम है, और इस प्रकार, अधिक मात्रा में जानकारी रखती है (अधिक जानकारी के लिए एन्ट्रापी (सूचना सिद्धांत) देखें)।
 * छोटे के-मर्स में डीएनए में उन क्षेत्रों को हल करने में सक्षम नहीं होने की भी समस्या होती है जहां छोटे सूक्ष्म उपग्रह या दोहराव होते हैं। ऐसा इसलिए है क्योंकि छोटे के-मर्स पूरी तरह से दोहराव क्षेत्र के भीतर बैठे रहेंगे और इसलिए यह निर्धारित करना कठिन है कि वास्तव में कितनी पुनरावृत्ति हुई है।
 * 'उदा. 'अनुवर्ती ATGTGTGTGTGTGTAसीजी के लिए, यदि 16 से न्यूनतम के-मेर आकार चुना जाता है, तो टीजी की पुनरावृत्ति की मात्रा खो जाएगी। ऐसा इसलिए है क्योंकि अधिकांश के-मेर दोहराए गए क्षेत्र में बैठेंगे और दोहराव की मात्रा को संदर्भित करने के बजाय उसी के-मेर के दोहराव के रूप में खारिज कर दिया जा सकता है।

उच्च के-मेर आकार

 * बड़े आकार के k-mers होने से ग्राफ़ में किनारों की संख्या बढ़ जाएगी, जिसके परिणामस्वरूप, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा बढ़ जाएगी।
 * के-मर्स का आकार बढ़ाने से शीर्षों की संख्या भी न्यूनतम हो जाएगी। इससे जीनोम के निर्माण में मदद मिलेगी क्योंकि ग्राफ़ में पार करने के लिए न्यूनतम  रास्ते होंगे। *बड़े k-mers में प्रत्येक k-mer से बाहरी शीर्ष न होने का जोखिम भी अधिक होता है। यह बड़े k-mers के कारण यह जोखिम बढ़ रहा है कि यह किसी अन्य k-mer के साथ ओवरलैप नहीं होगा $$k-1$$. इसलिए, इससे रीड्स में गड़बड़ी हो सकती है, और इस तरह, अधिक मात्रा में छोटे  संपर्क ्स हो सकते हैं।
 * बड़े के-मेर आकार छोटे दोहराव वाले क्षेत्रों की समस्या को न्यूनतम करने में मदद करते हैं। यह इस तथ्य के कारण है कि के-मेर में दोहराव क्षेत्र और निकटवर्ती डीएनए अनुक्रमों का संतुलन होगा (बशर्ते यह पर्याप्त बड़ा आकार हो) जो उस विशेष क्षेत्र में दोहराव की मात्रा को हल करने में मदद कर सकता है।

आनुवंशिकी और जीनोमिक्स
रोग के संबंध में, रोगजनकता से जुड़े आनुवंशिक द्वीपों का पता लगाने के लिए द्विनाभिपूर्वक पूर्वाग्रह को लागू किया गया है। पहले के काम से यह भी पता चला है कि टेट्रान्यूक्लियोटाइड पूर्वाग्रह दोनों प्रोकैरियोट्स में क्षैतिज जीन स्थानांतरण का प्रभावी ढंग से पता लगाने में सक्षम हैं और यूकेरियोट्स। के-मर्स का एक अन्य अनुप्रयोग जीनोमिक्स-आधारित वर्गीकरण में है। उदाहरण के लिए, जीसी-सामग्री का उपयोग मध्यम सफलता के साथ एर्विनिया की प्रजातियों के मध्य अंतर करने के लिए किया गया है। वर्गीकरण उद्देश्यों के लिए जीसी-सामग्री के प्रत्यक्ष उपयोग के समान टी का उपयोग है m, डीएनए का पिघलने का तापमान। चूँकि GC बांड अधिक ऊष्मीय रूप से स्थिर होते हैं, उच्च GC सामग्री वाले अनुक्रम उच्च T प्रदर्शित करते हैं m. 1987 में, बैक्टीरियल सिस्टमैटिक्स के दृष्टिकोण के समाधान पर तदर्थ समिति ने ΔT के उपयोग का प्रस्ताव रखा m प्रजाति #फ़ाइलोजेनेटिक, क्लैडिस्टिक, या विकासवादी प्रजातियों के हिस्से के रूप में प्रजातियों की सीमाओं को निर्धारित करने में कारक के रूप में, यद्यपि इस प्रस्ताव को वैज्ञानिक समुदाय के भीतर आकर्षण प्राप्त नहीं हुआ है। आनुवंशिकी और जीनोमिक्स के अन्य अनुप्रयोगों में सम्मिलित हैं:


 * RNA-Seq|RNA-seq डेटा से जीन आइसोफॉर्म मात्रा का ठहराव * मानव माइटोकॉन्ड्रियल हैप्लोग्रुप का वर्गीकरण * जीनोम में पुनर्संयोजन स्थलों का पता लगाना * के-मेर आवृत्ति बनाम के-मेर गहराई का उपयोग करके जीनोम आकार का अनुमान
 * फ़्लैंकिंग क्षेत्रों द्वारा सीपीजी साइट की विशेषता
 * ट्रांसपोज़ेबल तत्व जैसे बार-बार अनुक्रम का नए सिरे से पता लगाना *प्रजातियों की डीएनए बारकोडिंग।
 * प्रोटीन-बाध्यकारी अनुक्रम रूपांकन की विशेषता
 * अगली पीढ़ी के डीएनए अनुक्रमण डेटा का उपयोग करके उत्परिवर्तन या बहुरूपता (जीव विज्ञान) की पहचान

मेटाजेनोमिक्स
के-मेर आवृत्ति और स्पेक्ट्रम भिन्नता दोनों विश्लेषणों के लिए मेटागेनोमिक्स में भारी उपयोग किया जाता है और बिनिंग. बिनिंग में, चुनौती प्रत्येक जीव (या परिचालन टैक्सोनोमिक इकाई) के लिए रीड्स के डिब्बे में अनुक्रमण को पृथक करना है, जिसे फिर इकट्ठा किया जाएगा। टीईटीआरए एक उल्लेखनीय उपकरण है जो मेटागेनोमिक नमूने लेता है और उन्हें उनके टेट्रान्यूक्लियोटाइड (के = 4) आवृत्तियों के आधार पर जीवों में जोड़ता है। अन्य उपकरण जो मेटागेनोमिक बिनिंग के लिए के-मेर आवृत्ति पर निर्भर करते हैं, वे हैं कंपोस्टबिन (के = 6), पीसीएहिर, फाइलोपाइथिया (5 ≤ के ≤ 6), क्लार्क (k ≥ 20), और TACOA (2 ≤ k ≤ 6)। हाल के विकासों ने के-मर्स का उपयोग करके मेटागेनोमिक बिनिंग में गहन शिक्षण भी लागू किया है। मेटागेनोमिक्स के भीतर अन्य अनुप्रयोगों में सम्मिलित हैं:


 * कच्चे रीड्स से रीडिंग फ्रेम की रिकवरी
 * मेटागेनोमिक नमूनों में प्रजातियों की बहुतायत का अनुमान * नमूनों में कौन सी प्रजातियाँ उपस्थित हैं इसका निर्धारण
 * नमूनों से रोगों के लिए बायोमार्कर की पहचान

जैव प्रौद्योगिकी
अनुवाद संबंधी दक्षता को नियंत्रित करने के लिए जैव प्रौद्योगिकी अनुप्रयोगों में डीएनए अनुक्रमों में के-मेर आवृत्तियों को संशोधित करने का बड़े पैमाने पर उपयोग किया गया है। विशेष रूप से, इसका उपयोग प्रोटीन उत्पादन दर को ऊपर और नीचे नियंत्रित करने दोनों के लिए किया गया है।

प्रोटीन उत्पादन बढ़ाने के संबंध में, प्रतिकूल द्विनाभिपूर्वक आवृत्ति को न्यूनतम करने से प्रोटीन संश्लेषण की उच्च दर प्राप्त होती है। इसके अलावा, अधिक प्रोटीन अभिव्यक्ति दर के साथ पर्यायवाची अनुक्रम बनाने के लिए कोडन उपयोग पूर्वाग्रह को संशोधित किया गया है।  इसी प्रकार, कोडन जोड़ी अनुकूलन, डाइनुसेलोटाइड और कोडन अनुकूलन का संयोजन, का भी अभिव्यक्ति को बढ़ाने के लिए सफलतापूर्वक उपयोग किया गया है। ट्रांसलेशनल दक्षता को न्यूनतम करने के लिए के-मर्स का सबसे अधिक अध्ययन किया गया अनुप्रयोग टीके बनाने के लिए वायरस को न्यूनतम जोर करने के लिए कोडन-जोड़ी हेरफेर है। शोधकर्ता डेंगू वायरस को फिर से कोड करने में सक्षम थे, वह वायरस जो डेंगू बुखार का कारण बनता है, जैसे कि इसका कोडन-जोड़ी पूर्वाग्रह जंगली प्रकार की तुलना में स्तनधारी कोडन-उपयोग प्राथमिकता से अधिक भिन्न था। यद्यपि एक समान अमीनो-एसिड अनुक्रम युक्त, पुन: कोडित वायरस ने एक मजबूत प्रतिरक्षा प्रतिक्रिया प्राप्त करते हुए रोगजनक को काफी न्यूनतम जोर कर दिया। इन्फ्लूएंजा का टीका बनाने के लिए भी इस दृष्टिकोण का प्रभावी ढंग से उपयोग किया गया है साथ ही मारेक रोग|मारेक रोग हर्पीसवायरस (एमडीवी) के लिए एक टीका। विशेष रूप से, एमडीवी को न्यूनतम  करने के लिए नियोजित कोडन-जोड़ी पूर्वाग्रह हेरफेर ने वायरस के  कैंसरजनन  को प्रभावी ढंग से न्यूनतम  नहीं किया, जो इस दृष्टिकोण के जैव प्रौद्योगिकी अनुप्रयोगों में संभावित न्यूनतम जोरी को उजागर करता है। आज तक, किसी भी कोडन-जोड़ी डीऑप्टिमाइज़्ड वैक्सीन को उपयोग के लिए अनुमोदित नहीं किया गया है।

बाद के दो लेख कोडन-जोड़ी डीऑप्टिमाइज़ेशन के अंतर्निहित वास्तविक तंत्र को समझाने में मदद करते हैं: कोडन-जोड़ी पूर्वाग्रह द्विनाभिपूर्वक पूर्वाग्रह का परिणाम है। वायरस और उनके मेजबानों का अध्ययन करके, लेखकों के दोनों समूह यह निष्कर्ष निकालने में सक्षम थे कि आणविक तंत्र जिसके परिणामस्वरूप वायरस का क्षीणन होता है, अनुवाद के लिए खराब रूप से अनुकूल द्विनाभिपूर्वक में वृद्धि है।

जीसी-सामग्री, न्यूक्लिक एसिड थर्मोडायनामिक्स#डिनेचुरेशन पर इसके प्रभाव के कारण, पॉलीमरेज़ श्रृंखला प्रतिक्रिया#ऑप्टिमाइज़ेशन, एक अन्य महत्वपूर्ण जैव प्रौद्योगिकी उपकरण में एनीलिंग तापमान की भविष्यवाणी करने के लिए उपयोग की जाती है।

स्यूडोकोड
किसी रीड के संभावित k-mers का निर्धारण केवल स्ट्रिंग की लंबाई पर एक-एक करके साइकिल चलाकर और लंबाई के प्रत्येक सबस्ट्रिंग को निकालकर किया जा सकता है। $$k$$. इसे प्राप्त करने के लिए छद्मकोड इस प्रकार है: प्रक्रिया k-mers(स्ट्रिंग seq, पूर्णांक k) है एल ← length(seq) गिरफ्तारी ← एल - के + 1 खाली स्ट्रिंग की नई सरणी // seq में k-mers की संख्या को पुनरावृत्त करें, // आउटपुट ऐरे में nth k-mer को स्टोर करना 'के लिए' n ← 0 'से' L - k + 1 विशेष 'करें' arr[n] ← अक्षर n से लेकर अक्षर n + k विशेष तक seq का क्रम 'वापसी' गिरफ्तार

जैव सूचना विज्ञान पाइपलाइनों में
क्योंकि k के मानों के लिए k-mers की संख्या तेजी से बढ़ती है, k के बड़े मानों के लिए k-mers की गणना करना (आमतौर पर >10) एक न्यूनतम ्प्यूटेशनल रूप से कठिन कार्य है। जबकि उपरोक्त छद्म कोड जैसे सरल कार्यान्वयन k के छोटे मानों के लिए काम करते हैं, उन्हें उच्च-थ्रूपुट अनुप्रयोगों के लिए या जब k बड़ा होता है तो अनुकूलित करने की आवश्यकता होती है। इस समस्या को हल करने के लिए, विभिन्न उपकरण विकसित किए गए हैं:


 * जेलीफ़िश के-मेर गिनती के लिए एक मल्टीथ्रेडेड, लॉक-फ्री हैश तालिका  का उपयोग करता है और इसमें पायथन (प्रोग्रामिंग भाषा), रूबी (प्रोग्रामिंग भाषा), और पर्ल बाइंडिंग है।
 * KMC के-मेर गिनती के लिए एक उपकरण है जो अनुकूलित गति के लिए मल्टीडिस्क आर्किटेक्चर का उपयोग करता है
 * Gerbil हैश टेबल दृष्टिकोण का उपयोग करता है परंतु GPU त्वरण के लिए अतिरिक्त समर्थन के साथ
 * के-मेर विश्लेषण टूलकिट (KAT) के-मेर गणना का विश्लेषण करने के लिए जेलिफ़िश के एक संशोधित संस्करण का उपयोग करता है

यह भी देखें

 * oligonucleotide
 * जीनोमिक हस्ताक्षर

संदर्भ

 * CC-BY icon.svg Some of the content in this article was copied from K-mer at the PLOS wiki, which is available under a Creative Commons Attribution 2.5 Generic (CC BY 2.5) license.

बाहरी संबंध

 * bioXriv:k-mer
 * arXiv: k-mer