के-मेर

जैव सूचना विज्ञान में, k-mers लंबाई के सबस्ट्रिंग हैं $$k$$ एक जैविक अनुक्रम के अंतर्गत समाहित। मुख्य रूप से कम्प्यूटेशनल जीनोमिक्स और अनुक्रम विश्लेषण के संदर्भ में उपयोग किया जाता है, जिसमें के-मेर्स न्यूक्लियोटाइड (यानी ए, टी, जी और सी) से बने होते हैं, के-मेर्स को अनुक्रम असेंबली में पूंजीकृत किया जाता है, प्रोटीन उत्पादन में सुधार, बिनिंग (मेटागेनोमिक्स), और क्षीण टीका बनाएं। आमतौर पर, k-mer शब्द किसी अनुक्रम की लंबाई के सभी अनुक्रमों को संदर्भित करता है $$k$$, जैसे कि अनुक्रम AGAT में चार मोनोमर (A, G, A, और T), तीन 2-mer (AG, GA, AT), दो 3-mer (AGA और GAT) और एक 4-mer (AGAT) होंगे।. अधिक सामान्यतः, लंबाई का एक क्रम $$L$$ होगा $$L - k + 1$$ के-मेर्स और $$n^{k}$$ कुल संभावित k-mers, कहाँ $$n$$ संभावित मोनोमर्स की संख्या है (उदाहरण के लिए डीएनए के मामले में चार)।

परिचय
के-मेर्स केवल लंबाई हैं $$k$$ परिणाम. उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित k-mers नीचे दिखाए गए हैं: के-मेर्स को देखने की एक विधि, 'के-मेर स्पेक्ट्रम', एक अनुक्रम में प्रत्येक के-मेर की बहुलता बनाम उस बहुलता के साथ के-मेर की संख्या को दर्शाती है। किसी प्रजाति के जीनोम के लिए के-मेर स्पेक्ट्रम में मोड की संख्या अलग-अलग होती है, अधिकांश प्रजातियों में एक समान वितरण होता है। हालाँकि, सभी स्तनपायी जीवों का बहुविध वितरण होता है। के-मेर स्पेक्ट्रम के भीतर मोड की संख्या जीनोम के क्षेत्रों के बीच भी भिन्न हो सकती है: मनुष्यों के पास पांच प्राइम अनट्रांसलेटेड क्षेत्र में यूनिमॉडल के-मेर स्पेक्ट्रा है|5' यूटीआर और एक्सॉन लेकिन तीन प्राइम अनट्रांसलेटेड क्षेत्र में मल्टीमॉडल स्पेक्ट्रा|3' यूटीआर और परिचय.

डीएनए को प्रभावित करने वाली ताकतें k-mer आवृत्ति
के-मेर उपयोग की आवृत्ति कई स्तरों पर काम करने वाली कई ताकतों से प्रभावित होती है, जो अक्सर संघर्ष में रहती हैं। यह ध्यान रखना महत्वपूर्ण है कि k के उच्च मानों के लिए k-mer, k के निम्न मानों को प्रभावित करने वाली शक्तियों से भी प्रभावित होते हैं। उदाहरण के लिए, यदि 1-मेर ए एक अनुक्रम में नहीं होता है, तो ए (एए, एटी, एजी, और एसी) वाले 2-मेरों में से कोई भी घटित नहीं होगा, जिससे विभिन्न बलों के प्रभाव जुड़ेंगे।

के = 1
जब k = 1, चार डीएनए k-mers होते हैं, यानी, A, T, G, और C. आणविक स्तर पर, G और C के बीच तीन हाइड्रोजन बंधन होते हैं, जबकि A और T के बीच केवल दो होते हैं। GC अतिरिक्त हाइड्रोजन बॉन्ड (और मजबूत स्टैकिंग इंटरैक्शन) के परिणामस्वरूप बॉन्ड, एटी बॉन्ड की तुलना में अधिक थर्मल रूप से स्थिर होते हैं। स्तनधारियों और पक्षियों में Gs और Cs से As और Ts (GC-सामग्री) का अनुपात अधिक होता है, जिससे यह परिकल्पना सामने आई कि थर्मल स्थिरता GC-सामग्री भिन्नता का एक प्रेरक कारक थी। हालाँकि, आशाजनक होने के बावजूद, यह परिकल्पना जांच के दायरे में नहीं आई: विभिन्न प्रकार के प्रोकैरियोट्स के बीच विश्लेषण से तापमान के साथ जीसी-सामग्री के सहसंबंध का कोई सबूत नहीं मिला, जैसा कि थर्मल अनुकूलन परिकल्पना भविष्यवाणी करेगी। वास्तव में, यदि प्राकृतिक चयन जीसी-सामग्री भिन्नता के पीछे प्रेरक शक्ति होता, तो किसी जीव की फिटनेस को बदलने के लिए एकल न्यूक्लियोटाइड बहुरूपता की आवश्यकता होती, जो अक्सर पर्यायवाची प्रतिस्थापन होता है। बल्कि, वर्तमान साक्ष्य बताते हैं कि जीन रूपांतरण#जीसी-पक्षपाती जीन रूपांतरण|जीसी-पक्षपाती जीन रूपांतरण (जीबीजीसी) जीसी सामग्री में भिन्नता के पीछे एक प्रेरक कारक है। जीबीजीसी एक ऐसी प्रक्रिया है जो आनुवंशिक पुनर्संयोजन के दौरान होती है जो As और Ts को Gs और Cs से प्रतिस्थापित करती है। यह प्रक्रिया, हालांकि प्राकृतिक चयन से अलग है, फिर भी जीनोम में तय किए जा रहे जीसी प्रतिस्थापन के प्रति पक्षपातपूर्ण डीएनए पर चयनात्मक दबाव डाल सकती है। इसलिए जीबीजीसी को प्राकृतिक चयन के धोखेबाज के रूप में देखा जा सकता है। जैसा कि अपेक्षित होगा, अधिक पुनर्संयोजन का अनुभव करने वाली साइटों पर जीसी सामग्री अधिक है। इसके अलावा, जीबीजीसी परिकल्पना के पूर्वानुमानित प्रभावों को ध्यान में रखते हुए, पुनर्संयोजन की उच्च दर वाले जीव उच्च जीसी सामग्री प्रदर्शित करते हैं। दिलचस्प बात यह है कि जीबीजीसी यूकैर्योसाइटों  तक ही सीमित नहीं दिखता है। बैक्टीरिया और आर्किया जैसे अलैंगिक जीव भी जीन रूपांतरण के माध्यम से पुनर्संयोजन का अनुभव करते हैं, समजात अनुक्रम प्रतिस्थापन की एक प्रक्रिया जिसके परिणामस्वरूप पूरे जीनोम में कई समान अनुक्रम होते हैं। यह पुनर्संयोजन जीवन के सभी क्षेत्रों में जीसी सामग्री को बढ़ाने में सक्षम है, यह बताता है कि जीबीजीसी सार्वभौमिक रूप से संरक्षित है। क्या जीबीजीसी जीवन की आणविक मशीनरी का (अधिकतर) तटस्थ उपोत्पाद है या स्वयं चयन के अधीन है, यह निर्धारित किया जाना बाकी है। जीबीजीसी का सटीक तंत्र और विकासवादी लाभ या नुकसान फिलहाल अज्ञात है।

के = 2
जीसी-सामग्री पूर्वाग्रहों पर चर्चा करने वाले साहित्य के तुलनात्मक रूप से बड़े समूह के बावजूद, डाइन्यूक्लियोटाइड पूर्वाग्रहों के बारे में अपेक्षाकृत कम लिखा गया है। यह ज्ञात है कि जीसी-सामग्री के विपरीत, ये डाइन्यूक्लियोटाइड पूर्वाग्रह पूरे जीनोम में अपेक्षाकृत स्थिर होते हैं, जैसा कि ऊपर देखा गया है, काफी भिन्न हो सकते हैं। यह एक महत्वपूर्ण अंतर्दृष्टि है जिसे नजरअंदाज नहीं किया जाना चाहिए। यदि डाइन्यूक्लियोटाइड पूर्वाग्रह अनुवाद (जीवविज्ञान) के परिणामस्वरूप दबाव के अधीन थे, तो कोडिंग क्षेत्र और गैर-कोडिंग डीएनए क्षेत्रों में डाइन्यूक्लियोटाइड पूर्वाग्रह के अलग-अलग पैटर्न होंगे जो कुछ डाइनुसेलोटाइड्स की कम अनुवादात्मक दक्षता से प्रेरित होंगे। क्योंकि ऐसा नहीं है, इसलिए यह अनुमान लगाया जा सकता है कि डाइन्यूक्लियोटाइड पूर्वाग्रह को नियंत्रित करने वाली ताकतें अनुवाद से स्वतंत्र हैं। डाइन्यूक्लियोटाइड पूर्वाग्रह को प्रभावित करने वाले ट्रांसलेशनल दबावों के खिलाफ अतिरिक्त सबूत यह तथ्य है कि वायरस के डाइन्यूक्लियोटाइड बायस, जो ट्रांसलेशनल दक्षता पर बहुत अधिक निर्भर करते हैं, उनके मेजबानों की तुलना में उनके वायरल परिवार द्वारा अधिक आकार में होते हैं, जिनकी ट्रांसलेशनल मशीनरी वायरस हाईजैक कर लेते हैं। जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार सीजी दमन है, जो मिथाइलेशन#डीएनए/आरएनए मिथाइलेशन सीजी डायन्यूक्लियोटाइड्स के डीमिनेशन के कारण सीपीजी साइट 2-मेर्स की आवृत्ति को कम कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री कम हो जाती है। यह इंटरैक्शन k के अलग-अलग मानों के लिए k-mers को प्रभावित करने वाली ताकतों के बीच अंतर्संबंध पर प्रकाश डालता है।

डाइन्यूक्लियोटाइड पूर्वाग्रह के बारे में एक दिलचस्प तथ्य यह है कि यह फ़ाइलोजेनेटिक रूप से समान जीनोम के बीच दूरी मापने का काम कर सकता है। निकट से संबंधित जीवों के जोड़े के जीनोम अधिक दूर से संबंधित जीवों के जोड़े की तुलना में अधिक समान डाइन्यूक्लियोटाइड पूर्वाग्रह साझा करते हैं।

के = 3
बीस प्राकृतिक एमिनो एसिड  होते हैं जिनका उपयोग डीएनए एन्कोड करने वाले प्रोटीन के निर्माण के लिए किया जाता है। हालाँकि, केवल चार न्यूक्लियोटाइड हैं। इसलिए, न्यूक्लियोटाइड और अमीनो एसिड के बीच एक-से-एक पत्राचार नहीं हो सकता है। इसी प्रकार, 16 2-मेर्स हैं, जो प्रत्येक अमीनो एसिड को स्पष्ट रूप से दर्शाने के लिए पर्याप्त नहीं है। हालाँकि, डीएनए में 64 अलग-अलग 3-मेर हैं, जो प्रत्येक अमीनो एसिड को विशिष्ट रूप से दर्शाने के लिए पर्याप्त हैं। इन गैर-अतिव्यापी 3-मेरों को जेनेटिक कोड कहा जाता है। जबकि प्रत्येक कोडन केवल एक अमीनो एसिड को मैप करता है, प्रत्येक अमीनो एसिड कोडन अपक्षयी हो सकता है। इस प्रकार, एक ही अमीनो एसिड अनुक्रम में कई डीएनए प्रतिनिधित्व हो सकते हैं। दिलचस्प बात यह है कि अमीनो एसिड के लिए प्रत्येक कोडन का उपयोग समान अनुपात में नहीं किया जाता है। इसे कोडन उपयोग पूर्वाग्रह|कोडन-उपयोग पूर्वाग्रह (सीयूबी) कहा जाता है। जब k = 3, वास्तविक 3-मेर आवृत्ति और CUB के बीच अंतर किया जाना चाहिए। उदाहरण के लिए, अनुक्रम ATGGCA में चार 3-मेर शब्द हैं (ATG, TGG, GGC, और GCA) जबकि इसमें केवल दो कोडन (ATG और GCA) हैं। हालाँकि, CUB 3-मेर उपयोग पूर्वाग्रह का एक प्रमुख प्रेरक कारक है (इसके ⅓ तक का हिसाब, क्योंकि कोडिंग क्षेत्र में ⅓ k-mers कोडन हैं) और इस अनुभाग का मुख्य फोकस होगा।

विभिन्न कोडन की आवृत्तियों के बीच भिन्नता का सटीक कारण पूरी तरह से समझा नहीं गया है। यह ज्ञात है कि कोडन वरीयता टीआरएनए प्रचुरता के साथ सहसंबद्ध है, अधिक प्रचुर मात्रा में टीआरएनए से मेल खाने वाले कोडन तदनुसार अधिक बार होते हैं और यह कि अधिक उच्च रूप से अभिव्यक्त प्रोटीन अधिक CUB प्रदर्शित करते हैं। इससे पता चलता है कि अनुवादात्मक दक्षता या सटीकता के लिए चयन CUB भिन्नता के पीछे प्रेरक शक्ति है।

के = 4
डाइन्यूक्लियोटाइड पूर्वाग्रह में देखे गए प्रभाव के समान, फ़ाइलोजेनेटिक रूप से समान जीवों के टेट्रान्यूक्लियोटाइड पूर्वाग्रह कम निकटता से संबंधित जीवों की तुलना में अधिक समान हैं। टेट्रान्यूक्लियोटाइड पूर्वाग्रह में भिन्नता का सटीक कारण अच्छी तरह से समझा नहीं गया है, लेकिन यह अनुमान लगाया गया है कि यह आणविक स्तर पर आनुवंशिक स्थिरता के रखरखाव का परिणाम है।

अनुप्रयोग
किसी प्रजाति के जीनोम में, जीनोमिक क्षेत्र में, या अनुक्रमों के एक वर्ग में k-mers के एक सेट की आवृत्ति का उपयोग अंतर्निहित अनुक्रम के हस्ताक्षर के रूप में किया जा सकता है। इन आवृत्तियों की तुलना करना अनुक्रम संरेखण की तुलना में कम्प्यूटेशनल रूप से आसान है और संरेखण-मुक्त अनुक्रम विश्लेषण में एक महत्वपूर्ण विधि है। इसका उपयोग संरेखण से पहले प्रथम चरण के विश्लेषण के रूप में भी किया जा सकता है।

अनुक्रम संयोजन
अनुक्रम असेंबली में, के-मर्स का उपयोग डी ब्रुइज़न ग्राफ़ के निर्माण के दौरान किया जाता है। डी ब्रुइज़न ग्राफ़ बनाने के लिए, के-मर्स को लंबाई के साथ प्रत्येक किनारे में संग्रहीत किया जाता है $$ L$$ द्वारा दूसरे किनारे में एक और स्ट्रिंग को ओवरलैप करना होगा $$L-1$$ एक शीर्ष (ग्राफ़ सिद्धांत) बनाने के लिए। अगली पीढ़ी के अनुक्रमण से उत्पन्न रीड्स में आम तौर पर अलग-अलग रीड लंबाई उत्पन्न होगी। उदाहरण के लिए, इलुमिना डाई अनुक्रमण की सीक्वेंसिंग तकनीक 100-मेर्स की रीडिंग कैप्चर करती है। हालाँकि, अनुक्रमण के साथ समस्या यह है कि जीनोम में मौजूद सभी संभावित 100-मेर्स में से केवल छोटे अंश ही वास्तव में उत्पन्न होते हैं। यह पढ़ने की त्रुटियों के कारण है, लेकिन इससे भी महत्वपूर्ण बात यह है कि अनुक्रमण के दौरान होने वाले साधारण कवरेज छेद हैं। समस्या यह है कि संभावित k-mers के ये छोटे अंश डी ब्रुइज़ ग्राफ़ की मुख्य धारणा का उल्लंघन करते हैं कि सभी k-mer रीड्स को जीनोम में इसके निकटवर्ती k-mer को ओवरलैप करना होगा $$k-1$$ (जो तब घटित नहीं हो सकता जब सभी संभावित k-mers मौजूद न हों)। इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर्स में तोड़ना है, ताकि परिणामी छोटे के-मेर्स उस छोटे आकार के सभी संभावित के-मेर्स का प्रतिनिधित्व करेंगे जो जीनोम में मौजूद हैं। इसके अलावा, के-मर्स को छोटे आकारों में विभाजित करने से विभिन्न प्रारंभिक पढ़ने की लंबाई की समस्या को कम करने में भी मदद मिलती है। इस उदाहरण में, पांच रीड्स जीनोम के सभी संभावित 7-मेर्स का हिसाब नहीं देते हैं, और इस प्रकार, एक डी ब्रुइज़न ग्राफ़ नहीं बनाया जा सकता है। लेकिन, जब उन्हें 4-मेर्स में विभाजित किया जाता है, तो परिणामी अनुवर्ती डी ब्रुइज़न ग्राफ का उपयोग करके जीनोम को फिर से बनाने के लिए पर्याप्त होते हैं।

अनुक्रम असेंबली के लिए सीधे उपयोग किए जाने के अलावा, के-मर्स का उपयोग जीनोम गलत-असेंबली का पता लगाने के लिए भी किया जा सकता है, जो कि अधिक प्रस्तुत किए गए के-मर्स की पहचान करके होता है जो संयुक्त किए गए दोहराए गए अनुक्रम (डीएनए) की उपस्थिति का सुझाव देता है। इसके अलावा, के-मर्स का उपयोग यूकेरियोटिक जीनोम असेंबली के दौरान जीवाणु संदूषण का पता लगाने के लिए भी किया जाता है, जो मेटागेनोमिक्स के क्षेत्र से उधार लिया गया एक दृष्टिकोण है।

के-मेर आकार का विकल्प
के-मेर आकार के चुनाव का अनुक्रम संयोजन पर कई अलग-अलग प्रभाव पड़ते हैं। ये प्रभाव छोटे आकार और बड़े आकार के के-मेर्स के बीच काफी भिन्न होते हैं। इसलिए, प्रभावों को संतुलित करने वाले उपयुक्त आकार को चुनने के लिए विभिन्न के-मेर आकारों की समझ हासिल की जानी चाहिए। आकारों के प्रभाव नीचे उल्लिखित हैं।

कम के-मेर आकार

 * कम के-मेर आकार से ग्राफ़ में संग्रहीत किनारों की मात्रा कम हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को कम करने में मदद मिलेगी।
 * छोटे आकार होने से सभी के-मर्स के ओवरलैप होने की संभावना बढ़ जाएगी, और इस तरह, डी ब्रुइज़न ग्राफ के निर्माण के लिए आवश्यक अनुवर्तीताएं होंगी।
 * हालाँकि, छोटे आकार के k-mer होने से, आपको एकल k-mer में ले जाने वाले ग्राफ़ में कई शीर्ष होने का भी जोखिम होता है। इसलिए, इससे जीनोम का पुनर्निर्माण और अधिक कठिन हो जाएगा क्योंकि बड़ी मात्रा में शीर्षों को पार करने की आवश्यकता के कारण पथ अस्पष्टता का एक उच्च स्तर है।
 * के-मर्स छोटे हो जाने से जानकारी नष्ट हो जाती है।
 * 'उदा. 'AGTCGTAGATGCTG की संभावना ACGT से कम है, और इस प्रकार, अधिक मात्रा में जानकारी रखती है (अधिक जानकारी के लिए एन्ट्रापी (सूचना सिद्धांत) देखें)।
 * छोटे के-मर्स में डीएनए में उन क्षेत्रों को हल करने में सक्षम नहीं होने की भी समस्या होती है जहां छोटे सूक्ष्म उपग्रह या दोहराव होते हैं। ऐसा इसलिए है क्योंकि छोटे के-मर्स पूरी तरह से दोहराव क्षेत्र के भीतर बैठे रहेंगे और इसलिए यह निर्धारित करना कठिन है कि वास्तव में कितनी पुनरावृत्ति हुई है।
 * 'उदा. 'अनुवर्ती ATGTGTGTGTGTGTACG के लिए, यदि 16 से कम के-मेर आकार चुना जाता है, तो टीजी की पुनरावृत्ति की मात्रा खो जाएगी। ऐसा इसलिए है क्योंकि अधिकांश के-मेर दोहराए गए क्षेत्र में बैठेंगे और दोहराव की मात्रा को संदर्भित करने के बजाय उसी के-मेर के दोहराव के रूप में खारिज कर दिया जा सकता है।

उच्च के-मेर आकार

 * बड़े आकार के k-mers होने से ग्राफ़ में किनारों की संख्या बढ़ जाएगी, जिसके परिणामस्वरूप, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा बढ़ जाएगी।
 * के-मर्स का आकार बढ़ाने से शीर्षों की संख्या भी कम हो जाएगी। इससे जीनोम के निर्माण में मदद मिलेगी क्योंकि ग्राफ़ में पार करने के लिए कम रास्ते होंगे। *बड़े k-mers में प्रत्येक k-mer से बाहरी शीर्ष न होने का जोखिम भी अधिक होता है। यह बड़े k-mers के कारण यह जोखिम बढ़ रहा है कि यह किसी अन्य k-mer के साथ ओवरलैप नहीं होगा $$k-1$$. इसलिए, इससे रीड्स में गड़बड़ी हो सकती है, और इस तरह, अधिक मात्रा में छोटे संपर्क ्स हो सकते हैं।
 * बड़े के-मेर आकार छोटे दोहराव वाले क्षेत्रों की समस्या को कम करने में मदद करते हैं। यह इस तथ्य के कारण है कि के-मेर में दोहराव क्षेत्र और निकटवर्ती डीएनए अनुक्रमों का संतुलन होगा (बशर्ते यह पर्याप्त बड़ा आकार हो) जो उस विशेष क्षेत्र में दोहराव की मात्रा को हल करने में मदद कर सकता है।

आनुवंशिकी और जीनोमिक्स
रोग के संबंध में, रोगजनकता से जुड़े आनुवंशिक द्वीपों का पता लगाने के लिए डाइन्यूक्लियोटाइड पूर्वाग्रह को लागू किया गया है। पहले के काम से यह भी पता चला है कि टेट्रान्यूक्लियोटाइड पूर्वाग्रह दोनों प्रोकैरियोट्स में क्षैतिज जीन स्थानांतरण का प्रभावी ढंग से पता लगाने में सक्षम हैं और यूकेरियोट्स। के-मर्स का एक अन्य अनुप्रयोग जीनोमिक्स-आधारित वर्गीकरण में है। उदाहरण के लिए, जीसी-सामग्री का उपयोग मध्यम सफलता के साथ एर्विनिया की प्रजातियों के बीच अंतर करने के लिए किया गया है। वर्गीकरण उद्देश्यों के लिए जीसी-सामग्री के प्रत्यक्ष उपयोग के समान टी का उपयोग है m, डीएनए का पिघलने का तापमान। चूँकि GC बांड अधिक ऊष्मीय रूप से स्थिर होते हैं, उच्च GC सामग्री वाले अनुक्रम उच्च T प्रदर्शित करते हैं m. 1987 में, बैक्टीरियल सिस्टमैटिक्स के दृष्टिकोण के समाधान पर तदर्थ समिति ने ΔT के उपयोग का प्रस्ताव रखा m प्रजाति #फ़ाइलोजेनेटिक, क्लैडिस्टिक, या विकासवादी प्रजातियों के हिस्से के रूप में प्रजातियों की सीमाओं को निर्धारित करने में कारक के रूप में, हालांकि इस प्रस्ताव को वैज्ञानिक समुदाय के भीतर आकर्षण प्राप्त नहीं हुआ है। आनुवंशिकी और जीनोमिक्स के अन्य अनुप्रयोगों में शामिल हैं:


 * RNA-Seq|RNA-seq डेटा से जीन आइसोफॉर्म मात्रा का ठहराव * मानव माइटोकॉन्ड्रियल हैप्लोग्रुप का वर्गीकरण * जीनोम में पुनर्संयोजन स्थलों का पता लगाना * के-मेर आवृत्ति बनाम के-मेर गहराई का उपयोग करके जीनोम आकार का अनुमान
 * फ़्लैंकिंग क्षेत्रों द्वारा सीपीजी साइट की विशेषता
 * ट्रांसपोज़ेबल तत्व जैसे बार-बार अनुक्रम का नए सिरे से पता लगाना *प्रजातियों की डीएनए बारकोडिंग।
 * प्रोटीन-बाध्यकारी अनुक्रम रूपांकन की विशेषता
 * अगली पीढ़ी के डीएनए अनुक्रमण डेटा का उपयोग करके उत्परिवर्तन या बहुरूपता (जीव विज्ञान) की पहचान

मेटाजेनोमिक्स
के-मेर आवृत्ति और स्पेक्ट्रम भिन्नता दोनों विश्लेषणों के लिए मेटागेनोमिक्स में भारी उपयोग किया जाता है और बिनिंग. बिनिंग में, चुनौती प्रत्येक जीव (या परिचालन टैक्सोनोमिक इकाई) के लिए रीड्स के डिब्बे में अनुक्रमण को अलग करना है, जिसे फिर इकट्ठा किया जाएगा। टीईटीआरए एक उल्लेखनीय उपकरण है जो मेटागेनोमिक नमूने लेता है और उन्हें उनके टेट्रान्यूक्लियोटाइड (के = 4) आवृत्तियों के आधार पर जीवों में जोड़ता है। अन्य उपकरण जो मेटागेनोमिक बिनिंग के लिए के-मेर आवृत्ति पर निर्भर करते हैं, वे हैं कंपोस्टबिन (के = 6), पीसीएहिर, फाइलोपाइथिया (5 ≤ के ≤ 6), क्लार्क (k ≥ 20), और TACOA (2 ≤ k ≤ 6)। हाल के विकासों ने के-मर्स का उपयोग करके मेटागेनोमिक बिनिंग में गहन शिक्षण भी लागू किया है। मेटागेनोमिक्स के भीतर अन्य अनुप्रयोगों में शामिल हैं:


 * कच्चे रीड्स से रीडिंग फ्रेम की रिकवरी
 * मेटागेनोमिक नमूनों में प्रजातियों की बहुतायत का अनुमान * नमूनों में कौन सी प्रजातियाँ मौजूद हैं इसका निर्धारण
 * नमूनों से रोगों के लिए बायोमार्कर की पहचान

जैव प्रौद्योगिकी
अनुवाद संबंधी दक्षता को नियंत्रित करने के लिए जैव प्रौद्योगिकी अनुप्रयोगों में डीएनए अनुक्रमों में के-मेर आवृत्तियों को संशोधित करने का बड़े पैमाने पर उपयोग किया गया है। विशेष रूप से, इसका उपयोग प्रोटीन उत्पादन दर को ऊपर और नीचे नियंत्रित करने दोनों के लिए किया गया है।

प्रोटीन उत्पादन बढ़ाने के संबंध में, प्रतिकूल डाइन्यूक्लियोटाइड आवृत्ति को कम करने से प्रोटीन संश्लेषण की उच्च दर प्राप्त होती है। इसके अलावा, अधिक प्रोटीन अभिव्यक्ति दर के साथ पर्यायवाची अनुक्रम बनाने के लिए कोडन उपयोग पूर्वाग्रह को संशोधित किया गया है। इसी प्रकार, कोडन जोड़ी अनुकूलन, डाइनुसेलोटाइड और कोडन अनुकूलन का संयोजन, का भी अभिव्यक्ति को बढ़ाने के लिए सफलतापूर्वक उपयोग किया गया है। ट्रांसलेशनल दक्षता को कम करने के लिए के-मर्स का सबसे अधिक अध्ययन किया गया अनुप्रयोग टीके बनाने के लिए वायरस को कमजोर करने के लिए कोडन-जोड़ी हेरफेर है। शोधकर्ता डेंगू वायरस को फिर से कोड करने में सक्षम थे, वह वायरस जो डेंगू बुखार का कारण बनता है, जैसे कि इसका कोडन-जोड़ी पूर्वाग्रह जंगली प्रकार की तुलना में स्तनधारी कोडन-उपयोग प्राथमिकता से अधिक भिन्न था। हालांकि एक समान अमीनो-एसिड अनुक्रम युक्त, पुन: कोडित वायरस ने एक मजबूत प्रतिरक्षा प्रतिक्रिया प्राप्त करते हुए रोगजनक को काफी कमजोर कर दिया। इन्फ्लूएंजा का टीका बनाने के लिए भी इस दृष्टिकोण का प्रभावी ढंग से उपयोग किया गया है साथ ही मारेक रोग|मारेक रोग हर्पीसवायरस (एमडीवी) के लिए एक टीका। विशेष रूप से, एमडीवी को कम करने के लिए नियोजित कोडन-जोड़ी पूर्वाग्रह हेरफेर ने वायरस के कैंसरजनन  को प्रभावी ढंग से कम नहीं किया, जो इस दृष्टिकोण के जैव प्रौद्योगिकी अनुप्रयोगों में संभावित कमजोरी को उजागर करता है। आज तक, किसी भी कोडन-जोड़ी डीऑप्टिमाइज़्ड वैक्सीन को उपयोग के लिए अनुमोदित नहीं किया गया है।

बाद के दो लेख कोडन-जोड़ी डीऑप्टिमाइज़ेशन के अंतर्निहित वास्तविक तंत्र को समझाने में मदद करते हैं: कोडन-जोड़ी पूर्वाग्रह डाइन्यूक्लियोटाइड पूर्वाग्रह का परिणाम है। वायरस और उनके मेजबानों का अध्ययन करके, लेखकों के दोनों समूह यह निष्कर्ष निकालने में सक्षम थे कि आणविक तंत्र जिसके परिणामस्वरूप वायरस का क्षीणन होता है, अनुवाद के लिए खराब रूप से अनुकूल डाइन्यूक्लियोटाइड में वृद्धि है।

जीसी-सामग्री, न्यूक्लिक एसिड थर्मोडायनामिक्स#डिनेचुरेशन पर इसके प्रभाव के कारण, पॉलीमरेज़ श्रृंखला प्रतिक्रिया#ऑप्टिमाइज़ेशन, एक अन्य महत्वपूर्ण जैव प्रौद्योगिकी उपकरण में एनीलिंग तापमान की भविष्यवाणी करने के लिए उपयोग की जाती है।

स्यूडोकोड
किसी रीड के संभावित k-mers का निर्धारण केवल स्ट्रिंग की लंबाई पर एक-एक करके साइकिल चलाकर और लंबाई के प्रत्येक सबस्ट्रिंग को निकालकर किया जा सकता है। $$k$$. इसे प्राप्त करने के लिए छद्मकोड इस प्रकार है: प्रक्रिया k-mers(स्ट्रिंग seq, पूर्णांक k) है एल ← length(seq) गिरफ्तारी ← एल - के + 1 खाली स्ट्रिंग की नई सरणी // seq में k-mers की संख्या को पुनरावृत्त करें, // आउटपुट ऐरे में nth k-mer को स्टोर करना 'के लिए' n ← 0 'से' L - k + 1 विशेष 'करें' arr[n] ← अक्षर n से लेकर अक्षर n + k विशेष तक seq का क्रम 'वापसी' गिरफ्तार

जैव सूचना विज्ञान पाइपलाइनों में
क्योंकि k के मानों के लिए k-mers की संख्या तेजी से बढ़ती है, k के बड़े मानों के लिए k-mers की गणना करना (आमतौर पर >10) एक कम्प्यूटेशनल रूप से कठिन कार्य है। जबकि उपरोक्त छद्म कोड जैसे सरल कार्यान्वयन k के छोटे मानों के लिए काम करते हैं, उन्हें उच्च-थ्रूपुट अनुप्रयोगों के लिए या जब k बड़ा होता है तो अनुकूलित करने की आवश्यकता होती है। इस समस्या को हल करने के लिए, विभिन्न उपकरण विकसित किए गए हैं:


 * जेलीफ़िश के-मेर गिनती के लिए एक मल्टीथ्रेडेड, लॉक-फ्री हैश तालिका  का उपयोग करता है और इसमें पायथन (प्रोग्रामिंग भाषा), रूबी (प्रोग्रामिंग भाषा), और पर्ल बाइंडिंग है।
 * KMC के-मेर गिनती के लिए एक उपकरण है जो अनुकूलित गति के लिए मल्टीडिस्क आर्किटेक्चर का उपयोग करता है
 * Gerbil हैश टेबल दृष्टिकोण का उपयोग करता है लेकिन GPU त्वरण के लिए अतिरिक्त समर्थन के साथ
 * के-मेर विश्लेषण टूलकिट (KAT) के-मेर गणना का विश्लेषण करने के लिए जेलिफ़िश के एक संशोधित संस्करण का उपयोग करता है

यह भी देखें

 * oligonucleotide
 * जीनोमिक हस्ताक्षर

संदर्भ

 * CC-BY icon.svg Some of the content in this article was copied from K-mer at the PLOS wiki, which is available under a Creative Commons Attribution 2.5 Generic (CC BY 2.5) license.

बाहरी संबंध

 * bioXriv:k-mer
 * arXiv: k-mer