के-मेर

जैव सूचना विज्ञान के अंतर्गत, के-मर जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले $$k$$ लंबाई के उपरज्जु  को कहते हैं। इनका उपयोग प्रमुख रूप से संगणनात्मक जीनोमिक्स और अनुक्रम विश्लेषण के संदर्भ में किया जाता है जहां के-मर, आणविकों (अर्थात् A, T, G और C) से मिलकर बने होते हैं। के-मर का उपयोग डीएनए संकलन, परजीवी जीन   अभिव्यक्ति को सुधारने, मेटाजेनोमिक सैंपल में प्रजातियों की पहचान, और क्षीण टीका बनाने के लिए किया जाता है। सामान्यतः, 'k-मर' शब्द का उपयोग एक अनुक्रम के सभी उप-अनुक्रमों को संदर्भित करने के लिए किया जाता है, जिनकी लंबाई k होती है, इस प्रकार अनुक्रम AGAT में चार मोनोमर्स (A, G, A और T), तीन 2-मर (AG, GA, AT), दो 3-मर (AGA और GAT) और एक 4-मर (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई $$L$$ वाले एक अनुक्रम में $$L - k + 1$$ के-मर होंगे और $$n^{k}$$ कुल संभव के-मर होंगे, यहां $$n$$ संभावित मोनोमरों की संख्या है।

परिचय
के-मर केवल $$k$$ लंबाई के अनुक्रम होतें हैं ,परिणामस्वरूप. उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित के-मर निम्न रूप में दर्शाये गए हैं: के-मर को दृश्यीकरण करने का एक तरीका, के-मर स्पेक्ट्रम कहलाता है, जिसमें एक अनुक्रम में प्रत्येक के-मर की बहुतायत और उस बहुतायत वाले के-मरों की संख्या का तुलनात्मक माप दिखाया जाता है। एक प्रजाति के जीनोम के के-मर स्पेक्ट्रम में मोडों की संख्या भिन्न-भिन्न होती है, जबकि अधिकांश प्रजातियों में एक मोड का वितरण होता है। यहाँ तक कि सभी स्तनधारी प्राणियों में एकाधिक मोड के साथ एक बहुमोडाल वितरण होता है। के-मर स्पेक्ट्रम के भीतर मोडों की संख्या जीनोम के विभिन्न क्षेत्रों में भी भिन्न हो सकती है: मानवों में 5' यूटीआर और एक्सोन में एकाधिक मोड के साथ के-मर स्पेक्ट्रम होता है, जबकि 3' यूटीआर और इंट्रोनस में बहुमोडाल स्पेक्ट्रम होता है।

डीएनए के-मर आवृत्ति को प्रभावित करने वाली शक्तियां
के-मर के उपयोग की आवृत्ति को कई बाधाएं प्रभावित करती हैं, जो विभिन्न स्तरों पर कार्य करती हैं और प्रायः एक-दूसरे के विरोध में होती हैं। महत्वपूर्ण बात यह है कि k के अधिक मानों के लिए के-मर पर प्रभावित करने वाली शक्तियों से भी प्रभावित होते हैं। जो न्यूनतम मानों के के-मर पर प्रभावित कर रहे होते हैं। उदाहरण के लिए, यदि 1-मर A किसी अनुक्रम में नहीं होता है, तो A को सम्मिलित करने वाले 2-मर (AA, AT, AG और AC) भी नहीं होंगे, जिससे विभिन्न प्रभावों के प्रभाव को संबद्ध करते हैं।

के = 1
जब k = 1 होता है, तो डीएनए के चार के-मर होते हैं, अर्थात् A, T, G और C आणविक स्तर पर, G और C के मध्य तीन हाइड्रोजन बंधनही होते हैं, जबकि A और T के मध्य केवल दो होते हैं। अतिरिक्त हाइड्रोजन बन्ध (और मजबूत स्टैकिंग अंतराक्रियाओं) के परिणामस्वरूप GC बंधन AT बंधन की तुलना में अधिक तापात्मक रूप से स्थिर होते हैं। स्तनधारी प्राणियों और पक्षियों में Gs और Cs का अनुपात As और Ts की तुलना में अधिक होता है, जिसके कारण जीसी-सामग्री विविधता के पीछे थर्मल स्थिरता होने की अवधारणा होती थी । यद्यपि, यह अवधारणा जांच के दौरान समर्थन नहीं प्राप्त कर पाई: विभिन्न प्रोकैरियोटों के मध्य विश्लेषण ने दिखाया कि जीसी-सामग्री और तापमान के मध्य कोई संबंध नहीं होता है, जैसा कि थर्मल अनुकूलन के अवधारणा के अनुसार होना चाहिए। वास्तव में, यदि प्राकृतिक चयन जीसी-सामग्री विविधता के पीछे चलने वाला बल होता है, तो यह आवश्यक होगा कि एक पदार्थ के एकल न्यूक्लियोटाइड परिवर्तन, जो प्रायः शांत होते हैं, किसी प्राणी की सुसंगतता को परिवर्तित कर सकते है।

वर्तमान प्रमाण सुझाव देता है कि जीसी-विशिष्ट जीन संवर्धन (जीबीजीसी) जीसी सामग्री में विविधता के पीछे एक चलने वाला कारक है। जीबीजीसी एक पुनर्विन्यास के दौरान होने वाली प्रक्रिया है जिसमें A और T को G और C से परिवर्तित कर दिया जाता है। यह प्रक्रिया, प्राकृतिक चयन से पृथक होने के अतिरिक्त, पुनः भी जीनोम में जीसी प्रतिस्थापनों के प्रति चयनात्मक दबाव डाल सकती है। इसलिए, जीबीजीसी को प्राकृतिक चयन का "प्रतारक" माना जा सकता है। जीसी सामग्री उन स्थानों पर अधिक होती है जहां पुनर्विन्यास अधिक होता है। इसके अलावा, पुनर्विन्यास दरों में अधिकतम होने वाले प्राणियों में उच्च जीसी सामग्री पाई जाती है, जो जीबीजीसी की अवधारणा के प्रभावों के साथ मेल खाता है। दिलचस्प बात यह है कि जीबीजीसी यूकैर्योसाइटों सीमित नहीं होता है। बैक्टीरिया और आर्किया जैसे एकीकृत जीवों को भी जीन संवर्धन के माध्यम से पुनर्विन्यास का सामरिक अनुभव होता है, जो अकार्योगामी अंगिका प्रक्रिया है जिसके परिणामस्वरूप जीनोम में कई एक ही अनुक्रम होते हैं। जीवन के सभी डोमेन में पुनर्विन्यास द्वारा जीसी सामग्री को ऊपर ले जाने का मतलब है कि जीबीजीसी सर्वत्र संरक्षित होता है। यह निर्धारित करना शेष है कि जीबीजीसी एक (अधिकांशतः) शांत उत्पाद है जो जीवन के आणविक यंत्र का हिस्सा है या यह स्वयं चयन के तहत है, इसकी वास्तविक तत्व और जीवविज्ञान के लिए इसके परिणामस्वरूप लाभ या हानि वर्तमान में अज्ञात है।

के = 2
जीसी-सामग्री पूर्वाग्रहों पर चर्चा करने वाले साहित्य के तुलनात्मक रूप से बड़े समूह के अतिरिक्त, द्विनाभिपूर्वक पूर्वाग्रहों के बारे में अपेक्षाकृत न्यूनतम लिखा गया है। यह ज्ञात है कि जीसी-सामग्री के विपरीत, ये द्विनाभिपूर्वक पूर्वाग्रह पूरे जीनोम में अपेक्षाकृत स्थिर होते हैं, जैसा कि ऊपर देखा गया है,या अत्यधिक भिन्न हो सकते हैं। यह एक महत्वपूर्ण अंतर्दृष्टि है जिसे उपेक्षा नहीं किया जाना चाहिए। यदि द्विनाभिपूर्वक पूर्वाग्रह अनुवाद के परिणामस्वरूप दबाव के अधीन थे, तो कोडिंग क्षेत्र और गैर-कोडिंग डीएनए क्षेत्रों में द्विनाभिपूर्वक पूर्वाग्रह के पृथक पैटर्न होंगे जो कुछ डाइनुसेलोटाइड्स की न्यूनतम अनुवादात्मक दक्षता से प्रेरित होते है। इसलिए यह निष्कर्ष निकाला जा सकता है कि द्विनाभिपूर्वक पक्ष को मोड़ने वाले बल अनुवाद से अस्पष्ट हों जाता हैं। द्विनाभिपूर्वक पक्षों के अनुवादिक परिकल्पना को प्रभावित करने के विरोधी प्रमाण है कि वायरसों के द्विनाभिपूर्वक पक्ष उनके मात्रिका समूह से अधिक परिवर्तित करते हैं, जो उनके मेजबानों के अनुवादिक यंत्रों को वायरल समूहों के विरुद्ध परिवर्तित करते हैं।

जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार सीजी दमन है, जो मिथाइलेशन सीजी द्विनाभिपूर्वकों की डीमिनेशन के कारण सीपीजी साइट 2-मर्स की आवृत्ति को न्यूनतम कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री न्यूनतम  हो जाती है। यह इंटरैक्शन k के पृथक -पृथक  मानों के लिए के-मर  को प्रभावित करने वाली शक्ति के मध्य  अंतर्संबंध पर प्रकाश डालता है।

द्विनाभिपूर्वक पक्ष के एक रोचक तथ्य यह है कि यह जीनवंशीय रूप से समान प्राणीजातीय जीनोम के मध्य  एक "दूरी" माप के रूप में कार्य कर सकता है। घनिष्ठ रूप से संबंधित संगठनों के जीनोम के मध्य   तुलनात्मक रूप से दूर संबंधित संगठनों के जोड़ों के मध्य द्विनाभिपूर्वक पक्ष अधिक समान होते हैं।

के = 3
प्रोटीन जो डीएनए संकेतित करता है, बनाने के लिए इस्तेमाल की जाने वाली चालक विभिन्न प्राकृतिक एमिनो एसिड होते हैं। यद्यपि , केवल चार न्यूक्लियोटाइड होते हैं। इसलिए, न्यूक्लियोटाइड्स और एमिनो एसिड्स के मध्य   एक-से-एक संबंध नहीं हो सकता है। उसी तरह, 16 2-मर्स होते हैं, जो प्रत्येक एमिनो एसिड को स्पष्टतः प्रतिष्ठित करने के लिए पर्याप्त नहीं हैं। यद्यपि   , डीएनए में 64 अलग-अलग 3-मर्स होते हैं, जो प्रत्येक एमिनो एसिड को अद्वितीय रूप से प्रतिष्ठित करने के लिए पर्याप्त होते हैं। ये पृथक 3-मर्स कोडॉन कहलाते हैं। यद्यपि , प्रत्येक कोडॉन केवल एक एमिनो एसिड से मिलता है, प्रत्येक एमिनो एसिड को कई कोडॉन से प्रतिष्ठित किया जा सकता है। इस प्रकार, एक ही एमिनो एसिड अनुक्रम के कई डीएनए प्रतिष्ठान बना सकता है। रोचक बात यह है कि प्रत्येक एमिनो एसिड के लिए कोडॉन का उपयोग बराबर प्रमाण में नहीं होता है। इसे कोडन उपयोग पूर्वाग्रह (सीयूबी) कहा जाता है। जब k = 3 होता है, तो सच्चा 3-मर आवृत्ति और सीयूबी के मध्य   एक अंतर किया जाना चाहिए। उदाहरण के लिए, श्रृंगार एक ऐसी पदार्थ है जिसमें चार 3-मर शब्द होते हैं (ATG, TGG, GGC और GCA), जबकि केवल दो कोडॉन (ATG और GCA) होते हैं। यद्यपि , सीयूबी 3-मर उपयोग अवसाद का मुख्य कारक होता है (क्योंकि एक कोडिंग क्षेत्र में के-मरों के १/३ हिस्से कोडॉन होते हैं) और इस पर ध्यान केंद्रित होता है।

विभिन्न कोडॉनों की आवृत्ति में विविधता के यथार्थ कारण को पूर्णतः समझा नहीं जा सका है। यह जाना जाता है कि कोडॉन प्राथमिकता टीआरएनए प्रचुरताओं के संगठन से संबद्ध होती है, जहां प्रचुरतम tRNA के समान कोडॉन उसी प्रमाण में अधिक आवृत्तिक होते हैं। और यह जाना जाता है कि अधिक उच्च स्तर पर प्रकटित प्रोटीनों में अधिक सीयूबी होता है। इससे प्रकट होता है कि अनुवादात्मक क्षमता या सटीकता के लिए चयन प्राथमिकता सीयूबी विविधता के पीछे चलने वाला बल होता है।

के = 4
द्विनाभिपूर्वक पूर्वाग्रह में देखे गए प्रभाव के समान, फ़ाइलोजेनेटिक रूप से समान जीवों के टेट्रान्यूक्लियोटाइड पूर्वाग्रह न्यूनतम निकटता से संबंधित जीवों की तुलना में अधिक समान हैं। टेट्रान्यूक्लियोटाइड पूर्वाग्रह में भिन्नता का सटीक कारण अच्छी तरह से समझा नहीं गया है, परंतु  यह अनुमान लगाया गया है कि यह आणविक स्तर पर आनुवंशिक स्थिरता के रखरखाव का परिणाम है।

अनुप्रयोग
एक प्रजाति के जीनोम, एक जीनोमिक क्षेत्र या एक सरणी के वर्ग में एक सेट के के-मर की आवृत्ति उपस्थित सरणी की "हस्ताक्षर" के रूप में उपयोग की जा सकती है। इन आवृत्तियों की तुलना करना अनुक्रम संरेखण से कम्प्यूटेशनली आसान होता है और इसे संरेखण-मुक्त अनुक्रम विश्लेषण में महत्वपूर्ण तकनीक के रूप में मान्यता प्राप्त है। यह एक संरेखण से पहले का पहला चरण विश्लेषण के रूप में भी उपयोग किया जा सकता है।

अनुक्रम संयोजन
सिरणी संचालन में, के-मर का उपयोग दे ब्रुइन आरेख के निर्माण के दौरान किया जाता है। डी ब्रुइन आरेख बनाने के लिए, प्रत्येक सिरा में संग्रहीत के-मर को संग्रहीत किया जाना चाहिए, जिसकी लंबाई $$ L$$ होती है, और इसे एक दूसरे सिरे में 𝐿 − 1 द्वारा ओवरलैप करना चाहिए क्योंकि  एक वर्टेक्स बनाया जा सके। अगली पीढ़ी अनुक्रम द्वारा उत्पन्न किए जाने वाले रीड के सामान्यतः  विभिन्न रीड लंबाई होती हैं। उदाहरण के लिए, आईल्यूमिना की अनुक्रम प्रौद्योगिकी द्वारा 100-मर की रीड को दर्ज किया जाता है। यद्यपि, अनुक्रम में पाए जाने वाले संपूर्ण संभावित 100-मर में से केवल छोटा हिस्सा वास्तव में उत्पन्न होता है। इसका कारण है रीड त्रुटियाँ, परंतु अधिक महत्वपूर्ण है, अनुक्रम के दौरान संचालन होने वाले सीधे कवरेज को दी जाती है। समस्या यह है कि इन संभावित के-अधिक के छोटे हिस्से दे ब्रुइन आरेख की मुख्य मान्यता को उल्लंघन करते हैं, जहां सभी के-अधिक रीड्स को संचालन में आग्रहित होने की अपेक्षा होती है कि इसके पास अपने पड़ोसी के-अधिक से $$k-1$$ के माध्यम से ओवरलैप हो जाता है। इस समस्या का समाधान इन के-मर आकार के रीड्स को छोटे के-मर में विभाजित होता है, क्योंकि परिणामी छोटे के-मर उस छोटे आकार के सभी संभावित के-मर का प्रतिनिधित्व करेंगे जो जीनोम में उपस्थित होते हैं। इसके अलावा, के-मर  को छोटे आकारों में विभाजित करने से विभिन्न प्रारंभिक पढ़ने की लंबाई की समस्या को न्यूनतम  करने में भी सहायता मिलती है। इस उदाहरण में, पांच रीड्स जीनोम के सभी संभावित 7-मर्स का लेखा जोखा  नहीं देते हैं, और इस प्रकार, एक डी ब्रुइज़न आरेख़ नहीं बनाया जा सकता है। परंतु, जब उन्हें 4-मर्स में विभाजित किया जाता है, तो परिणामस्वरूप उपक्रम दे ब्रुइन आरेख का उपयोग करके जीनोम का पुनर्निर्माण करने के लिए पर्याप्त होते हैं।

अनुक्रम संचालन के लिए सीधे उपयोग किए जाने के अलावा, के-मर का उपयोग जीनोम मिस-संचालन का पता लगाने के लिए भी किया जा सकता है, जो कि अधिक प्रस्तुत किए गए के-मर  की पहचान करके होता है जो संयुक्त किए गए दोहराए गए अनुक्रम (डीएनए) की उपस्थिति का सुझाव देता है। इसके अलावा, के-मर  का उपयोग यूकेरियोटिक जीनोम संचालन के दौरान जीवाणु संदूषण का पता लगाने के लिए भी किया जाता है,जो मेटाजेनोमिक्स के क्षेत्र से लाए गए एक दृष्टिकोण से उधारण किया गया है।

के-मर आकार का विकल्प
के-मर आकार के चुनाव का अनुक्रम संयोजन पर बहुत पृथक प्रभाव पड़ते हैं। ये प्रभाव छोटे आकार और बड़े आकार के के-मर के मध्य अत्यधिक भिन्न होते हैं। इसलिए, प्रभावों को संतुलित करने वाले उपयुक्त आकार को चुनने के लिए विभिन्न के-मर आकारों की समझ प्राप्त की जानी चाहिए। आकारों के प्रभाव निम्न उल्लिखित हैं।

न्यूनतम के-मर आकार

 * न्यूनतम के-मर आकार से आरेख़ में संग्रहीत किनारों की मात्रा न्यूनतम  हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को न्यूनतम  करने में सहायता मिलेगी।
 * छोटे आकार होने से सभी के-मर के ओवरलैप होने की संभावना बढ़ जाएगी, और इस तरह, डी ब्रुइज़न आरेख के निर्माण के लिए आवश्यक अनुवर्तीताएं होंगी।
 * यद्यपि, छोटे आकार के k-mer होने से, आपको एकल k-mer में ले जाने वाले आरेख़ में कई शीर्ष होने का भी जोखिम होता है। इसलिए, इससे जीनोम का पुनर्निर्माण और अधिक कठिन हो जाएगा क्योंकि बड़ी मात्रा में शीर्षों को पार करने की आवश्यकता के कारण पथ अस्पष्टता का एक उच्च स्तर हमारे सामने आ सकती है।
 * के-मर छोटे हो जाने से जानकारी नष्ट हो जाती है।
 * 'उदा. 'AGTCGTAGATGCTG की संभावना ACGT से न्यूनतम है, और इस प्रकार, अधिक मात्रा में जानकारी रखती है।
 * छोटे के-मर में डीएनए में उन क्षेत्रों को हल करने में सक्षम नहीं होने की भी समस्या होती है जहां छोटे सूक्ष्म उपग्रह या दोहराव होते हैं। ऐसा इसलिए है क्योंकि छोटे के-मर  पूरी तरह से दोहराव क्षेत्र के अंदर  बैठे रहेंगे और इसलिए यह निर्धारित करना कठिन है कि वास्तव में कितनी पुनरावृत्ति हुई है।
 * 'उदा. 'अनुवर्ती ATGTGTGTGTGTGTACG के लिए, यदि 16 से न्यूनतम के-मर आकार चुना जाता है, तो टीजी की पुनरावृत्ति की मात्रा खो जाएगी। ऐसा इसलिए है क्योंकि अधिकांश के-मर दोहराए गए क्षेत्र में बैठेंगे और पुनरावृत्ति की मात्रा को संदर्भित करने के अतिरिक्त   उसी के-मर के पुनरावृत्ति के रूप में खारिज कर दिया जा सकता है।

उच्च के-मर आकार

 * बड़े आकार के के-मर होने से आरेख़ में किनारों की संख्या बढ़ जाएगी, जिसके परिणामस्वरूप, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा बढ़ जाएगी।
 * के-मर का आकार बढ़ाने से शीर्षों की संख्या भी न्यूनतम  हो जाएगी। इससे जीनोम के निर्माण में सहायता मिलेगी क्योंकि आरेख़ में पार करने के लिए न्यूनतम  रास्ते होंगे। *
 * बड़े के-मर में प्रत्येक के-मर  से बाहरी शीर्ष न होने का जोखिम भी अधिक होता है। यह बड़े के-मर  के कारण यह जोखिम बढ़ रहा है कि यह किसी अन्य k-mer के साथ $$k-1$$ ओवरलैप नहीं होगा . इसलिए, इससे रीड्स में गड़बड़ी हो सकती है, और इस तरह, अधिक मात्रा में छोटे  संपर्क हो सकते हैं।
 * बड़े के-मर आकार छोटे पुनरावृत्ति वाले क्षेत्रों की समस्या को न्यूनतम करने में सहायता करते हैं। यह इस तथ्य के कारण है कि के-मर में पुनरावृत्ति क्षेत्र और निकटवर्ती डीएनए अनुक्रमों का संतुलन होगा (बशर्ते यह पर्याप्त बड़ा आकार हो) जो उस विशेष क्षेत्र में पुनरावृत्ति की मात्रा को हल करने में सहायता कर सकता है।

आनुवंशिकी और जीनोमिक्स
रोग संबंधी परिप्रेक्ष्य में, द्विनुकलोटाइड अधिकार को रोगाणुता से जुड़े आनुवंशिक द्वीपों की पहचान में प्रारंभ किया जा चुका है। पूर्व अध्ययन ने यह भी दर्शाया है कि चतुर्णुकलोटाइड अधिकार प्रोकर्योट्स और यूकर्योट्स में क्षैतिज जीन स्थानांतरण की सक्षमता को सफलतापूर्वक देख सकते हैं।

क-मरों का एक और अनुप्रयोग जीनोमिक्स-आधारित टैक्सोनोमी में होता है। उदाहरण के रूप में, मध्यम सफलता के साथ एर्विनिया के प्रजातियों के मध्य जीसी-सामग्री का उपयोग किया गया है। टैक्सोनोमी के लिए जीसी-सामग्री के सीधे उपयोग के समान ही डीएनए की मेल्टिंग तापमान, अर्थात टीएम, का उपयोग किया जाता है। क्योंकि जीसी बन्ध  अधिक तापतन स्थिर होते हैं, जीसी सामग्री वाले संकेत में उच्च टीएम प्रदर्शित करती है। 1987 में, बैक्टीरियल सिस्टमाटिक्स के प्रति दृष्टिकोण को समाधान करने के लिए एड हॉक समिति ने फाइटोजेनेटिक प्रजाति संकल्प के हिस्से के रूप में जाति सीमाओं की निर्धारण में डेल्टा टीएम का उपयोग करने की प्रार्थना की, यद्यपि यह प्रार्थना वैज्ञानिक समुदाय में प्रभावी नहीं रही है।

आनुवंशिकता और जीनोमिक्स के अन्य अनुप्रयोग में सम्मिलित हैं:


 * आरएनए अनुक्रम डेटा से आरएनए आयसोफॉर्म की मात्रा का मापन होता है।
 * मानव माइटोकॉन्ड्रियल हैप्लोग्रुप का वर्गीकरण करता है।
 * जीनोम्स में पुनर्जनन स्थलों का पता लगाना होता है।
 * के-मर आवृत्ति बनाम के-अधिक गहराई का उपयोग करके जीनोम आकार का अनुमान लगाया जाता  है।
 * फ्लैंकिंग क्षेत्रों द्वारा सीपीजी द्वीपों का वर्णन किया जाता है।
 * पुनरावृत्ति तत्व जैसे ट्रांसपोजेबल तत्व के नए पत्ते का खोज करना होता है ।
 * प्रजातियों की डीएनए बारकोडिंग का पता लगाना होता है ।।
 * प्रोटीन-बाइंडिंग सिक्वेंस मोटिफ का वर्णन किया जाता है।
 * अगली पीढ़ी के डीएनए अनुक्रमण डेटा का उपयोग करके उत्परिवर्तन या बहुरूपता (जीव विज्ञान) की पहचान करना होता है।

मेटाजेनोमिक्स
मेटाजेनोमिक्स में क-मर आवृत्ति और स्पेक्ट्रम विविधता का व्यापक उपयोग विश्लेषण  और बिनिंग के लिए किया जाता है। बिनिंग में, सीक्वेंसिंग रीड्स को प्रत्येक जीवाणु (या संचालनक टैक्सोनोमिक इकाई) के लिए "बिन्स" में अलग करने की चुनौती होती है, जिन्हें पुनः  वे आस्थापित किए जाएंगे। टीईटीआरए एक महत्वपूर्ण उपकरण है जो मेटाजेनोमिक प्रारूप को लेता है और उन्हें उनके चतुर्नुक्लियोटाइड (k = 4) आवृत्ति के आधार पर जीवाणुओं में बिन्स में डालता है। मेटाजेनोमिक बिनिंग के लिए क-मर आवृत्ति पर आधारित अन्य उपकरण हैं कंपोस्टबिन (k = 6), पीसीएहिर, फाइलोपाइथिया (5 ≤ k ≤ 6),[ क्लार्क (k ≥ 20), और टैकोटाकोआ (2 ≤ k ≤ 6). वर्तमान की विकासों ने मेटाजेनोमिक बिनिंग में क-मर का उपयोग करके गहन अध्ययन को भी प्रारंभ किया है।

मेटाजेनोमिक्स के अन्य अनुप्रयोग सम्मिलित हैं:
 * कच्चे रीड्स से रीडिंग फ्रेम की पुनःप्राप्ति करता है।
 * मेटागेनोमिक प्रारूपों में प्रजातियों की प्रमुखता का अनुमान लगाता है।
 * प्रारूपों में उपस्थित प्रजातियों की निर्धारण करता है।
 * प्रारूपों से रोगों के लिए बायोमार्कर की पहचान करता  है।

जैव प्रौद्योगिकी
अनुवाद संबंधी दक्षता को नियंत्रित करने के लिए जैव प्रौद्योगिकी अनुप्रयोगों में डीएनए अनुक्रमों में के-मर आवृत्तियों को संशोधित करने का बड़े पैमाने पर उपयोग किया गया है।विशेष रूप से, इसका उपयोग प्रोटीन उत्पादन दर को उच्च या निम्न स्तर पर नियंत्रित करने के लिए किया गया है।

प्रोटीन उत्पादन बढ़ाने के संबंध में, प्रतिकूल द्विनाभिपूर्वक आवृत्ति को न्यूनतम करने से प्रोटीन संश्लेषण की उच्च दर प्राप्त होती है। इसके अलावा, कोडॉन उपयोग विभेद को संश्लेषण दर को बढ़ाने वाले समरूपी अनुक्रमों का निर्माण करने के लिए संशोधित किया गया है।  इसी प्रकार, कोडन जोड़ी अनुकूलन, डाइनुसेलोटाइड और कोडन अनुकूलन का संयोजन, का भी अभिव्यक्ति को बढ़ाने के लिए सफलतापूर्वक उपयोग किया गया है।

अनुवाद प्रभावशीलता को न्यूनतम करने के लिए क-मर का सबसे अध्ययनित अनुप्रयोग है टीके बनाने के लिए वायरसों को कमजोर करने के लिए कोडॉन-पेयर मानिपुलेशन का उपयोग करना। शोधकर्ताओं ने डेंगू वायरस का कारण बनने वाले वायरस को इस तरह से रीकोड किया कि इसका कोडॉन-पेयर विचारप्रधानता पशुवैज्ञानिक कोडॉन उपयोग पसंद से अधिक पृथक  था। यद्यपि इसमें एक अभिन्न एमिनो एसिड अनुक्रम था, परंतु रीकोड किए गए वायरस ने महत्वपूर्ण रूप से कमजोर रोगीता दिखाई दी जबकि यह मजबूत प्रतिरक्षा प्रतिक्रिया उत्पन्न कर रहा था। यह दृष्टिपट्ट में भी कोडॉन-पेयर विचारप्रधानता मानिपुलेशन का सफलतापूर्वक उपयोग  इंफ्लुएंजा वैक्सीन और मारेक का रोग हर्पेसवायरस (एमडीवी) के लिए वैक्सीन बनाने में भी किया गया है। यह उल्लेखनीय है कि एमडीवी को कमजोर करने के लिए वापसी कोडॉन-पेयर विचारप्रधानता मानिपुलेशन ने वायरस की  कैंसरजनन को सफलतापूर्वक कम नहीं किया, जिससे यह दर्शाता  है कि इस उपयोग के जैव प्रौद्योगिकी अनुप्रयोगों में पोटेंशियल की कमजोरी है। अब तक, कोडॉन-पेयर गैरउत्पादित वैक्सीन को अनुमति नहीं मिली है।

दो उपरांत के लेखों से स्पष्ट होता है कि कोडॉन-पेयर अनुप्रोजननीकरण के पीछे वास्तविक तंत्र का विवरण समझाने में सहायता  मिलती है: कोडॉन-पेयर विचारप्रधानता द्विनुकलोटाइड विचारप्रधानता के परिणामस्वरूप होती है।।  वायरस और उनके मेजबानों का अध्ययन करके, दोनों लेखकों ने यह निर्धारित किया कि वायरसों की कमजोर रूप से अनुवाद के लिए अनुपयुक्त द्विनुकलोटाइडों की वृद्धि ही उस आणविक तंत्र का परिणाम होती है जो वायरसों को कमजोर करता है।

पीसीआर, एक महत्वपूर्ण जैव प्रौद्योगिकी उपकरण में यौगिक गलनांक की पूर्वानुमान करने के लिए जीसी-सामग्री (जीसी सामग्री) का उपयोग किया जाता है।

स्यूडोकोड
किसी रीड के संभावित के-मर का निर्धारण केवल स्ट्रिंग की लंबाई पर एक-एक करके साइकिल चलाकर और लंबाई $$k$$ के प्रत्येक सबस्ट्रिंग को निकालकर किया जा सकता है। इसे प्राप्त करने के लिए छद्मकोड इस प्रकार है: procedure k-mers(string seq, integer k) is L ← length(seq) arr ← new array of L − k + 1 empty strings // iterate over the number of k-mers in seq, // storing the nth k-mer in the output array for n ← 0 to L − k + 1 exclusive do arr[n] ← subsequence of seq from letter n inclusive to letter n + k exclusive return arr

जैव सूचना विज्ञान पाइपलाइनों में
क्योंकि k के मान के लिए के-मर की संख्या गणनात्मक रूप से बढ़ती है, इसलिए बड़े k के लिए (सामान्यतः >10) के-मर की गणना एक संगणनीय रूप से कठिन कार्य है। जबकि छोटे k मानों के लिए उपरोक्त छद्मकोड जैसे सरल अमलन कार्यों का कार्य करते हैं, उन्हें उच्च-प्रवाह अनुप्रयोगों या जब k बड़ा होता है, तों उसके लिए अनुकूलित करना चाहिए। इस समस्या को हल करने के लिए, विभिन्न उपकरणों का विकास किया गया है:


 * जेलीफ़िश के-मर गणना के लिए एक मल्टीथ्रेडेड, लॉक-फ्री हैश तालिका का उपयोग करता है और इसमें पायथन, रूबी , और पर्ल बाइंडिंग है।
 * केएमसी के-मर गणना के लिए एक उपकरण है जो अनुकूलित गति के लिए मल्टीडिस्क आर्किटेक्चर का उपयोग करने वाला उपकरण है
 * जरबिल हैश तालिका दृष्टिकोण का उपयोग करता है परंतु जीपीयू त्वरण के लिए अतिरिक्त समर्थन के साथ जोड़ा गया है।
 * के-मर विश्लेषण टूलकिट (के-एटी) के-मर गणना का विश्लेषण करने के लिए जेलिफ़िश के एक संशोधित संस्करण करके के-मर गणना का विश्लेषण करने के लिए उपयोग होता है।

यह भी देखें

 * ऑलिगोन्यूक्लियोटाइड
 * जीनोमिक हस्ताक्षर

संदर्भ

 * CC-BY icon.svg Some of the content in this article was copied from K-mer at the PLOS wiki, which is available under a Creative Commons Attribution 2.5 Generic (CC BY 2.5) license.

बाहरी संबंध

 * bioXriv:k-mer
 * arXiv: k-mer