के-मेर: Difference between revisions

Line 1:

[[File:K-mer diagram.svg|thumb|अनुक्रम ATGG में दो 3-मेर हैं: ATG और ~~TGG।~~]]जैव सूचना विज्ञान के अंतर्गत, '''के-~~मर्स~~''' जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले लंबाई <math>k</math> के [[सबस्ट्रिंग|उपरज्जु]] को कहते हैं। प्रमुख रूप से [[कम्प्यूटेशनल जीनोमिक्स|संगणनात्मक जीनोमिक्स]] और [[अनुक्रम विश्लेषण]] के संदर्भ में उपयोग होते हैं, जहां k-~~मर्स~~ [[न्यूक्लियोटाइड|आणविकों]] (अर्थात् A, T, G और C) से मिलकर बने होते हैं।<ref>{{Cite journal|last1=Compeau|first1=Phillip E C|last2=Pevzner|first2=Pavel A|last3=Tesler|first3=Glenn|date=November 2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|language=en|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmid=22068540|pmc=5531759|issn=1087-0156}}</ref> k-~~मर्स~~ का उपयोग डीएनए संकलन, परजीवी जीन<ref name=":4">{{Cite journal|last1=Welch|first1=Mark|last2=Govindarajan|first2=Sridhar|last3=Ness|first3=Jon E.|last4=Villalobos|first4=Alan|last5=Gurney|first5=Austin|last6=Minshull|first6=Jeremy|last7=Gustafsson|first7=Claes|date=2009-09-14|editor-last=Kudla|editor-first=Grzegorz|title=एस्चेरिचिया कोलाई में सिंथेटिक जीन अभिव्यक्ति को नियंत्रित करने के लिए डिज़ाइन पैरामीटर|journal=PLOS ONE|language=en|volume=4|issue=9|pages=e7002|doi=10.1371/journal.pone.0007002|pmid=19759823|pmc=2736378|issn=1932-6203|bibcode=2009PLoSO...4.7002W|doi-access=free}}</ref><ref name=":6">{{Cite journal|last1=Gustafsson|first1=Claes|last2=Govindarajan|first2=Sridhar|last3=Minshull|first3=Jeremy|date=July 2004|title=कोडन पूर्वाग्रह और विषम प्रोटीन अभिव्यक्ति|journal=Trends in Biotechnology|language=en|volume=22|issue=7|pages=346–353|doi=10.1016/j.tibtech.2004.04.006|pmid=15245907}}</ref> अभिव्यक्ति को सुधारने, मेटाजेनोमिक<ref name=":0">{{Cite journal|last1=Perry|first1=Scott C.|last2=Beiko|first2=Robert G.|date=2010-01-01|title=Distinguishing Microbial Genome Fragments Based on Their Composition: Evolutionary and Comparative Genomic Perspectives|journal=Genome Biology and Evolution|language=en|volume=2|pages=117–131|doi=10.1093/gbe/evq004|pmid=20333228|pmc=2839357|issn=1759-6653}}</ref> सैंपल में प्रजातियों की पहचान, और [[क्षीण टीका]]करण<ref>{{Cite journal|last1=Eschke|first1=Kathrin|last2=Trimpert|first2=Jakob|last3=Osterrieder|first3=Nikolaus|last4=Kunec|first4=Dusan|date=2018-01-29|editor-last=Mocarski|editor-first=Edward|title=कोडन जोड़ी पूर्वाग्रह डीऑप्टिमाइजेशन द्वारा एक बहुत ही विषैले मारेक रोग हर्पीसवायरस (एमडीवी) का क्षीणन|journal=PLOS Pathogens|language=en|volume=14|issue=1|pages=e1006857|doi=10.1371/journal.ppat.1006857|pmid=29377958|issn=1553-7374|pmc=5805365}}</ref> बनाने के लिए किया जाता है। सामान्यतया, k-~~मर्स~~ शब्द का उपयोग लंबाई L के एक अनुक्रम के सभी उपस्त्रिंशों के लिए किया जाता है, जिसका अर्थ होता है कि एक अनुक्रम AGAT के चार [[मोनोमर]] (A, G, A और T), तीन 2-मर्स (AG, GA, AT), दो 3-मर्स (AGA और GAT) और एक 4-मर्स (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई <math>L</math> वाले एक अनुक्रम में <math>L - k + 1</math> k-~~मर्स~~ होंगे और <math>n^{k}</math> कुल संभव k-~~मर्स~~ होंगे, यहां <math>n</math> संभावित मोनोमरों की संख्या है।

[[File:K-mer diagram.svg|thumb|अनुक्रम ATGG में दो 3-मेर हैं: ATG और TGG ity।]]जैव सूचना विज्ञान के अंतर्गत, '''के -अधिक''' जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले लंबाई <math>k</math> के [[सबस्ट्रिंग|उपरज्जु]] को कहते हैं। प्रमुख रूप से [[कम्प्यूटेशनल जीनोमिक्स|संगणनात्मक जीनोमिक्स]] और [[अनुक्रम विश्लेषण]] के संदर्भ में उपयोग होते हैं, जहां के-अधिक्स [[न्यूक्लियोटाइड|आणविकों]] (अर्थात् A, T, G और C) से मिलकर बने होते हैं।<ref>{{Cite journal|last1=Compeau|first1=Phillip E C|last2=Pevzner|first2=Pavel A|last3=Tesler|first3=Glenn|date=November 2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|language=en|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmid=22068540|pmc=5531759|issn=1087-0156}}</ref> के-अधिक्स का उपयोग डीएनए संकलन, परजीवी जीन<ref name=":4">{{Cite journal|last1=Welch|first1=Mark|last2=Govindarajan|first2=Sridhar|last3=Ness|first3=Jon E.|last4=Villalobos|first4=Alan|last5=Gurney|first5=Austin|last6=Minshull|first6=Jeremy|last7=Gustafsson|first7=Claes|date=2009-09-14|editor-last=Kudla|editor-first=Grzegorz|title=एस्चेरिचिया कोलाई में सिंथेटिक जीन अभिव्यक्ति को नियंत्रित करने के लिए डिज़ाइन पैरामीटर|journal=PLOS ONE|language=en|volume=4|issue=9|pages=e7002|doi=10.1371/journal.pone.0007002|pmid=19759823|pmc=2736378|issn=1932-6203|bibcode=2009PLoSO...4.7002W|doi-access=free}}</ref><ref name=":6">{{Cite journal|last1=Gustafsson|first1=Claes|last2=Govindarajan|first2=Sridhar|last3=Minshull|first3=Jeremy|date=July 2004|title=कोडन पूर्वाग्रह और विषम प्रोटीन अभिव्यक्ति|journal=Trends in Biotechnology|language=en|volume=22|issue=7|pages=346–353|doi=10.1016/j.tibtech.2004.04.006|pmid=15245907}}</ref> अभिव्यक्ति को सुधारने, मेटाजेनोमिक<ref name=":0">{{Cite journal|last1=Perry|first1=Scott C.|last2=Beiko|first2=Robert G.|date=2010-01-01|title=Distinguishing Microbial Genome Fragments Based on Their Composition: Evolutionary and Comparative Genomic Perspectives|journal=Genome Biology and Evolution|language=en|volume=2|pages=117–131|doi=10.1093/gbe/evq004|pmid=20333228|pmc=2839357|issn=1759-6653}}</ref> सैंपल में प्रजातियों की पहचान, और [[क्षीण टीका]]करण<ref>{{Cite journal|last1=Eschke|first1=Kathrin|last2=Trimpert|first2=Jakob|last3=Osterrieder|first3=Nikolaus|last4=Kunec|first4=Dusan|date=2018-01-29|editor-last=Mocarski|editor-first=Edward|title=कोडन जोड़ी पूर्वाग्रह डीऑप्टिमाइजेशन द्वारा एक बहुत ही विषैले मारेक रोग हर्पीसवायरस (एमडीवी) का क्षीणन|journal=PLOS Pathogens|language=en|volume=14|issue=1|pages=e1006857|doi=10.1371/journal.ppat.1006857|pmid=29377958|issn=1553-7374|pmc=5805365}}</ref> बनाने के लिए किया जाता है। सामान्यतया, के-अधिक्स शब्द का उपयोग लंबाई L के एक अनुक्रम के सभी उपस्त्रिंशों के लिए किया जाता है, जिसका अर्थ होता है कि एक अनुक्रम AGAT के चार [[मोनोमर]] (A, G, A और T), तीन 2-मर्स (AG, GA, AT), दो 3-मर्स (AGA और GAT) और एक 4-मर्स (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई <math>L</math> वाले एक अनुक्रम में <math>L - k + 1</math> के-अधिक्स होंगे और <math>n^{k}</math> कुल संभव के-अधिक्स होंगे, यहां <math>n</math> संभावित मोनोमरों की संख्या है।

== परिचय ==

के-मेर्स केवल लंबाई <math>k</math> हैं ,परिणामस्वरूप . उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित k-~~mers~~ निम्न दर्शाये गए हैं:

के-मेर्स केवल लंबाई <math>k</math> हैं ,परिणामस्वरूप . उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित के -अधिक निम्न दर्शाये गए हैं:

[[File:E. coli 8-mer spectrum.svg|thumb|ई के लिए 8-मेर स्पेक्ट्रम का एक उदाहरण दर्शाया गया है। कोलाई 8-मेर्स आवृत्ति (अर्थात् बहुलता) की तुलना उनकी घटनाओं की संख्या से कर रहा है।|alt=|440x440px]]

{| class="wikitable"

|+जीटीएजीजीसीटीजीटी के लिए के-मेर्स

!''k''

!के-~~मर्स~~

!के -अधिक

|-

|1

Line 53:

जीसी-सामग्री पूर्वाग्रहों पर चर्चा करने वाले साहित्य के तुलनात्मक रूप से बड़े समूह के अतिरिक्त , द्विनाभिपूर्वक पूर्वाग्रहों के बारे में अपेक्षाकृत न्यूनतम लिखा गया है। यह ज्ञात है कि जीसी-सामग्री के विपरीत, ये द्विनाभिपूर्वक पूर्वाग्रह पूरे जीनोम में अपेक्षाकृत स्थिर होते हैं, जैसा कि ऊपर देखा गया है, काफी भिन्न हो सकते हैं।<ref name=":3">{{Cite journal|last=Karlin|first=Samuel|date=October 1998|title=वैश्विक डाइन्यूक्लियोटाइड हस्ताक्षर और जीनोमिक विविधता का विश्लेषण|journal=Current Opinion in Microbiology|language=en|volume=1|issue=5|pages=598–610|doi=10.1016/S1369-5274(98)80095-7|pmid=10066522}}</ref> यह एक महत्वपूर्ण अंतर्दृष्टि है जिसे नजरअंदाज नहीं किया जाना चाहिए। यदि द्विनाभिपूर्वक पूर्वाग्रह अनुवाद के परिणामस्वरूप दबाव के अधीन थे, तो [[कोडिंग क्षेत्र]] और [[गैर-कोडिंग डीएनए]] क्षेत्रों में द्विनाभिपूर्वक पूर्वाग्रह के पृथक -पृथक पैटर्न होंगे जो कुछ डाइनुसेलोटाइड्स की न्यूनतम अनुवादात्मक दक्षता से प्रेरित होते होंगे।<ref>{{Cite journal|last1=Beutler|first1=E.|last2=Gelbart|first2=T.|last3=Han|first3=J. H.|last4=Koziol|first4=J. A.|last5=Beutler|first5=B.|date=1989-01-01|title=Evolution of the genome and the genetic code: selection at the dinucleotide level by methylation and polyribonucleotide cleavage.|journal=Proceedings of the National Academy of Sciences|language=en|volume=86|issue=1|pages=192–196|doi=10.1073/pnas.86.1.192|pmid=2463621|pmc=286430|issn=0027-8424|bibcode=1989PNAS...86..192B|doi-access=free}}</ref> क्योंकि ऐसा नहीं है, इसलिए यह निष्कर्ष निकाला जा सकता है कि द्विनाभिपूर्वक पक्ष को मोड़ने वाले बल अनुवाद से अस्पष्ट हैं। द्विनाभिपूर्वक पक्षों के अनुवादिक परिकल्पना को प्रभावित करने के विरोधी प्रमाण है कि वायरसों के द्विनाभिपूर्वक पक्ष उनके मात्रिका परिवार से अधिक परिवर्तित करते हैं, जो उनके मेजबानों के अनुवादिक यंत्रों को वायरल परिवारों के विरुद्ध परिवर्तित करते हैं।।<ref>{{Cite journal|last1=Di Giallonardo|first1=Francesca|last2=Schlub|first2=Timothy E.|last3=Shi|first3=Mang|last4=Holmes|first4=Edward C.|date=2017-04-15|editor-last=Dermody|editor-first=Terence S.|title=पशु आरएनए वायरस में डाइन्यूक्लियोटाइड संरचना मेजबान प्रजातियों की तुलना में वायरस परिवार द्वारा अधिक आकार में होती है|journal=Journal of Virology|language=en|volume=91|issue=8|doi=10.1128/JVI.02381-16|pmid=28148785|pmc=5375695|issn=0022-538X}}</ref>

जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार [[सीजी दमन]] है, जो मिथाइलेशन सीजी द्विनाभिपूर्वकों की [[डीमिनेशन]] के कारण [[सीपीजी साइट]] 2-मेर्स की आवृत्ति को न्यूनतम कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री न्यूनतम हो जाती है।<ref>{{Cite journal|last1=Żemojtel|first1=Tomasz|last2=kiełbasa|first2=Szymon M.|last3=Arndt|first3=Peter F.|last4=Behrens|first4=Sarah|last5=Bourque|first5=Guillaume|last6=Vingron|first6=Martin|date=2011-01-01|title=CpG Deamination Creates Transcription Factor–Binding Sites with High Efficiency|journal=Genome Biology and Evolution|language=en|volume=3|pages=1304–1311|doi=10.1093/gbe/evr107|pmid=22016335|pmc=3228489|issn=1759-6653}}</ref> यह इंटरैक्शन k के पृथक -पृथक मानों के लिए k-~~mers~~ को प्रभावित करने वाली शक्ति के मध्य अंतर्संबंध पर प्रकाश डालता है।

जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार [[सीजी दमन]] है, जो मिथाइलेशन सीजी द्विनाभिपूर्वकों की [[डीमिनेशन]] के कारण [[सीपीजी साइट]] 2-मेर्स की आवृत्ति को न्यूनतम कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री न्यूनतम हो जाती है।<ref>{{Cite journal|last1=Żemojtel|first1=Tomasz|last2=kiełbasa|first2=Szymon M.|last3=Arndt|first3=Peter F.|last4=Behrens|first4=Sarah|last5=Bourque|first5=Guillaume|last6=Vingron|first6=Martin|date=2011-01-01|title=CpG Deamination Creates Transcription Factor–Binding Sites with High Efficiency|journal=Genome Biology and Evolution|language=en|volume=3|pages=1304–1311|doi=10.1093/gbe/evr107|pmid=22016335|pmc=3228489|issn=1759-6653}}</ref> यह इंटरैक्शन k के पृथक -पृथक मानों के लिए के -अधिक को प्रभावित करने वाली शक्ति के मध्य अंतर्संबंध पर प्रकाश डालता है।

द्विनाभिपूर्वक पक्ष के एक रोचक तथ्य यह है कि यह जीनवंशीय रूप से समान प्राणीजातीय जीनोम के मध्य एक "दूरी" माप के रूप में कार्य कर सकता है। घनिष्ठ रूप से संबंधित संगठनों के जीनोम के मध्य तुलनात्मक रूप से दूर संबंधित संगठनों के जोड़ों के मध्य द्विनाभिपूर्वक पक्ष अधिक समान होते हैं।<ref name=":3" />

Line 67:

=== अनुक्रम संयोजन ===

[[File:k-mer-example.png|thumb|यह आंकड़ा डी ब्रूजन ग्राफ में उपयोग करने में सक्षम होने के लिए रीड्स को छोटे के-मेर्स (इस मामले में 4-मेर्स) में विभाजित करने की प्रक्रिया को दर्शाता है। (ए) अनुक्रमित किए जा रहे डीएनए के प्रारंभिक खंड को दर्शाता है। (बी) उन रीड्स को ~~दिखाता~~ है जिन्हें अनुक्रमण से आउटपुट बनाया गया था और यह भी ~~दिखाता~~ है कि वे कैसे संरेखित होते हैं।यद्यपि इस संरेखण के साथ समस्या यह है कि वे k-2 से ओवरलैप होते हैं, k-1 से नहीं (जो कि डी ब्रुइज़न ग्राफ़ में आवश्यक है)। (सी) रीड्स को छोटे 4-मेर्स में विभाजित होते हुए ~~दिखाता~~ है। (डी) बार-बार 4-मेर्स को हटा देता है और ~~फिर~~ उनका संरेखण ~~दिखाता~~ है। ध्यान दें कि ये k-~~mers~~ k-1 द्वारा ओवरलैप होते हैं और ~~फिर~~ इन्हें डी ब्रुइज़न ग्राफ़ में उपयोग किया जा सकता है।|alt=|700x700px]]सिरणी संचालन में, क-मर्स का उपयोग दे ब्रुइन ग्राफ के निर्माण के दौरान किया जाता है।<ref>{{Cite journal|last1=Nagarajan|first1=Niranjan|last2=Pop|first2=Mihai|date=2013|title=अनुक्रम संयोजन का रहस्योद्घाटन किया गया|journal=Nature Reviews Genetics|language=en|volume=14|issue=3|pages=157–167|doi=10.1038/nrg3367|pmid=23358380|s2cid=3519991|issn=1471-0056}}</ref><ref>{{cite journal|author=Li|display-authors=etal|year=2010|title=बड़े पैमाने पर समानांतर लघु पठन अनुक्रमण के साथ मानव जीनोम की डे नोवो असेंबली|journal=Genome Research|volume=20|issue=2|pages=265–272|doi=10.1101/gr.097261.109|pmc=2813482|pmid=20019144}}</ref> डी ब्रुइन ग्राफ बनाने के लिए, प्रत्येक सिरा में संग्रहीत क-मर्स को संग्रहीत किया जाना चाहिए, जिसकी लंबाई <math> L</math> होती है, और इसे एक दूसरे सिरे में 𝐿 − 1 द्वारा ओवरलैप करना चाहिए ~~ताकि~~ एक वर्टेक्स बनाया जा सके। अगली पीढ़ी ~~सीक्वेंसिंग~~ द्वारा उत्पन्न किए जाने वाले रीड के ~~आमतौर पर~~ विभिन्न रीड लंबाई होती हैं। उदाहरण के लिए, आईल्यूमिना की ~~सीक्वेंसिंग~~ प्रौद्योगिकी द्वारा 100-मर की रीड को दर्ज किया जाता है। ~~हालांकि~~, ~~सीक्वेंसिंग~~ में पाए जाने वाले संपूर्ण संभावित 100-मर में से केवल छोटा हिस्सा वास्तव में उत्पन्न होता है। इसका कारण है रीड त्रुटियाँ, ~~लेकिन~~ अधिक महत्वपूर्ण है, ~~सीक्वेंसिंग~~ के दौरान संचालन होने वाले सीधे कवरेज ~~के गड़े होने।~~ समस्या यह है कि इन संभावित k-मर के छोटे हिस्से दे ब्रुइन ग्राफ की मुख्य मान्यता को उल्लंघन करते हैं, जहां सभी k-मर रीड्स को संचालन में आग्रहित होने की अपेक्षा होती है कि इसके पास अपने पड़ोसी k-मर से <math>k-1</math> के माध्यम से ओवरलैप हो जाता है।

[[File:k-mer-example.png|thumb|यह आंकड़ा डी ब्रूजन ग्राफ में उपयोग करने में सक्षम होने के लिए रीड्स को छोटे के-मेर्स (इस मामले में 4-मेर्स) में विभाजित करने की प्रक्रिया को दर्शाता है। (ए) अनुक्रमित किए जा रहे डीएनए के प्रारंभिक खंड को दर्शाता है। (बी) उन रीड्स को दर्शाता है जिन्हें अनुक्रमण से आउटपुट बनाया गया था और यह भी दर्शाता है कि वे कैसे संरेखित होते हैं।यद्यपि इस संरेखण के साथ समस्या यह है कि वे k-2 से ओवरलैप होते हैं, k-1 से नहीं (जो कि डी ब्रुइज़न ग्राफ़ में आवश्यक है)। (सी) रीड्स को छोटे 4-मेर्स में विभाजित होते हुए दर्शाता है। (डी) बार-बार 4-मेर्स को हटा देता है और पुनः उनका संरेखण दर्शाता है। ध्यान दें कि ये के -अधिक k-1 द्वारा ओवरलैप होते हैं और पुनः इन्हें डी ब्रुइज़न ग्राफ़ में उपयोग किया जा सकता है।|alt=|700x700px]]सिरणी संचालन में, क-मर्स का उपयोग दे ब्रुइन ग्राफ के निर्माण के दौरान किया जाता है।<ref>{{Cite journal|last1=Nagarajan|first1=Niranjan|last2=Pop|first2=Mihai|date=2013|title=अनुक्रम संयोजन का रहस्योद्घाटन किया गया|journal=Nature Reviews Genetics|language=en|volume=14|issue=3|pages=157–167|doi=10.1038/nrg3367|pmid=23358380|s2cid=3519991|issn=1471-0056}}</ref><ref>{{cite journal|author=Li|display-authors=etal|year=2010|title=बड़े पैमाने पर समानांतर लघु पठन अनुक्रमण के साथ मानव जीनोम की डे नोवो असेंबली|journal=Genome Research|volume=20|issue=2|pages=265–272|doi=10.1101/gr.097261.109|pmc=2813482|pmid=20019144}}</ref> डी ब्रुइन ग्राफ बनाने के लिए, प्रत्येक सिरा में संग्रहीत क-मर्स को संग्रहीत किया जाना चाहिए, जिसकी लंबाई <math> L</math> होती है, और इसे एक दूसरे सिरे में 𝐿 − 1 द्वारा ओवरलैप करना चाहिए क्योंकि एक वर्टेक्स बनाया जा सके। अगली पीढ़ी अनुक्रम द्वारा उत्पन्न किए जाने वाले रीड के सामान्यतः विभिन्न रीड लंबाई होती हैं। उदाहरण के लिए, आईल्यूमिना की अनुक्रम प्रौद्योगिकी द्वारा 100-मर की रीड को दर्ज किया जाता है। यद्यपि , अनुक्रम में पाए जाने वाले संपूर्ण संभावित 100-मर में से केवल छोटा हिस्सा वास्तव में उत्पन्न होता है। इसका कारण है रीड त्रुटियाँ, परंतु अधिक महत्वपूर्ण है, अनुक्रम के दौरान संचालन होने वाले सीधे कवरेज को दी जाती है। समस्या यह है कि इन संभावित के-अधिक के छोटे हिस्से दे ब्रुइन ग्राफ की मुख्य मान्यता को उल्लंघन करते हैं, जहां सभी के-अधिक रीड्स को संचालन में आग्रहित होने की अपेक्षा होती है कि इसके पास अपने पड़ोसी के-अधिक से <math>k-1</math> के माध्यम से ओवरलैप हो जाता है।

इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर्स में ~~तोड़ना~~ है, ~~ताकि~~ परिणामी छोटे के-मेर्स उस छोटे आकार के सभी संभावित के-मेर्स का प्रतिनिधित्व करेंगे जो जीनोम में उपस्थित होते हैं।<ref name="debruijn">{{cite journal|last1=Compeau|first1=P.|last2=Pevzner|first2=P.|last3=Teslar|first3=G.|year=2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmc=5531759|pmid=22068540}}</ref> इसके अलावा, के-~~मर्स~~ को छोटे आकारों में विभाजित करने से विभिन्न प्रारंभिक पढ़ने की लंबाई की समस्या को न्यूनतम करने में भी सहायता मिलती है। इस उदाहरण में, पांच रीड्स जीनोम के सभी संभावित 7-मेर्स का ~~हिसाब~~ नहीं देते हैं, और इस प्रकार, एक डी ब्रुइज़न ग्राफ़ नहीं बनाया जा सकता है। परंतु , जब उन्हें 4-मेर्स में विभाजित किया जाता है, तो ~~परिणामी अनुवर्ती डी ब्रुइज़न~~ ग्राफ का उपयोग करके जीनोम ~~को पुनः से बनाने~~ के लिए पर्याप्त होते हैं।

इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर्स में विभाजित होता है, क्योंकि परिणामी छोटे के-मेर्स उस छोटे आकार के सभी संभावित के-मेर्स का प्रतिनिधित्व करेंगे जो जीनोम में उपस्थित होते हैं।<ref name="debruijn">{{cite journal|last1=Compeau|first1=P.|last2=Pevzner|first2=P.|last3=Teslar|first3=G.|year=2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmc=5531759|pmid=22068540}}</ref> इसके अलावा, के -अधिक को छोटे आकारों में विभाजित करने से विभिन्न प्रारंभिक पढ़ने की लंबाई की समस्या को न्यूनतम करने में भी सहायता मिलती है। इस उदाहरण में, पांच रीड्स जीनोम के सभी संभावित 7-मेर्स का लेखा जोखा नहीं देते हैं, और इस प्रकार, एक डी ब्रुइज़न ग्राफ़ नहीं बनाया जा सकता है। परंतु , जब उन्हें 4-मेर्स में विभाजित किया जाता है, तो परिणामस्वरूप उपक्रम दे ब्रुइन ग्राफ का उपयोग करके जीनोम का पुनर्निर्माण करने के लिए पर्याप्त होते हैं।

अनुक्रम असेंबली के लिए सीधे उपयोग किए जाने के अलावा, के-मर्स का उपयोग जीनोम गलत-असेंबली का पता लगाने के लिए भी किया जा सकता है, जो कि अधिक प्रस्तुत किए गए के-मर्स की पहचान करके होता है जो संयुक्त किए गए दोहराए गए अनुक्रम (डीएनए) की उपस्थिति का सुझाव देता है।<ref>{{cite journal|author=Phillippy, Schatz, Pop|year=2008|title=Genome assembly forensics: finding the elusive mis-assembly|journal=Bioinformatics|volume=9|issue=3|page=R55|doi=10.1186/gb-2008-9-3-r55|pmc=2397507|pmid=18341692}}</ref> इसके अलावा, के-मर्स का उपयोग यूकेरियोटिक जीनोम असेंबली के दौरान जीवाणु संदूषण का पता लगाने के लिए भी किया जाता है, जो मेटागेनोमिक्स के क्षेत्र से उधार लिया गया एक दृष्टिकोण है।<ref>{{cite journal|author=Delmont, Eren|year=2016|title=Identifying contamination with advanced visualization and analysis practices: metagenomic approaches for eukaryotic genome assemblies|journal=PeerJ|volume=4|page=e1839|doi=10.7717/peerj.1839|pmid=27069789|pmc=4824900}}</ref><ref>{{cite journal|author=Bemm|display-authors=etal|year=2016|title=Genome of a tardigrade: Horizontal gene transfer or bacterial contamination?|journal=Proceedings of the National Academy of Sciences|volume=113|issue=22|pages=E3054–E3056|doi=10.1073/pnas.1525116113|pmc=4896698|pmid=27173902|bibcode=2016PNAS..113E3054B |doi-access=free}}</ref>

अनुक्रम संचालन के लिए सीधे उपयोग किए जाने के अलावा, के -अधिक का उपयोग जीनोम मिस-संचालन का पता लगाने के लिए भी किया जा सकता है, जो कि अधिक प्रस्तुत किए गए के -अधिक की पहचान करके होता है जो संयुक्त किए गए दोहराए गए अनुक्रम (डीएनए) की उपस्थिति का सुझाव देता है।<ref>{{cite journal|author=Phillippy, Schatz, Pop|year=2008|title=Genome assembly forensics: finding the elusive mis-assembly|journal=Bioinformatics|volume=9|issue=3|page=R55|doi=10.1186/gb-2008-9-3-r55|pmc=2397507|pmid=18341692}}</ref> इसके अलावा, के -अधिक का उपयोग यूकेरियोटिक जीनोम संचालन के दौरान जीवाणु संदूषण का पता लगाने के लिए भी किया जाता है,जो मेटाजेनोमिक्स के क्षेत्र से लाए गए एक दृष्टिकोण से उधारण किया गया है।<ref>{{cite journal|author=Delmont, Eren|year=2016|title=Identifying contamination with advanced visualization and analysis practices: metagenomic approaches for eukaryotic genome assemblies|journal=PeerJ|volume=4|page=e1839|doi=10.7717/peerj.1839|pmid=27069789|pmc=4824900}}</ref><ref>{{cite journal|author=Bemm|display-authors=etal|year=2016|title=Genome of a tardigrade: Horizontal gene transfer or bacterial contamination?|journal=Proceedings of the National Academy of Sciences|volume=113|issue=22|pages=E3054–E3056|doi=10.1073/pnas.1525116113|pmc=4896698|pmid=27173902|bibcode=2016PNAS..113E3054B |doi-access=free}}</ref>

====के-मेर आकार का विकल्प====

के-मेर आकार के चुनाव का अनुक्रम संयोजन पर कई पृथक ~~-पृथक~~ प्रभाव पड़ते हैं। ये प्रभाव छोटे आकार और बड़े आकार के के-मेर्स के मध्य ~~काफी~~ भिन्न होते हैं। इसलिए, प्रभावों को संतुलित करने वाले उपयुक्त आकार को चुनने के लिए विभिन्न के-मेर आकारों की समझ ~~हासिल~~ की जानी चाहिए। आकारों के प्रभाव ~~नीचे~~ उल्लिखित हैं।

के-मेर आकार के चुनाव का अनुक्रम संयोजन पर बहुत पृथक प्रभाव पड़ते हैं। ये प्रभाव छोटे आकार और बड़े आकार के के-मेर्स के मध्य अत्यधिक भिन्न होते हैं। इसलिए, प्रभावों को संतुलित करने वाले उपयुक्त आकार को चुनने के लिए विभिन्न के-मेर आकारों की समझ प्राप्त की जानी चाहिए। आकारों के प्रभाव निम्न उल्लिखित हैं।

=====न्यूनतम के-मेर आकार=====

*न्यूनतम के-मेर आकार से ग्राफ़ में संग्रहीत किनारों की मात्रा न्यूनतम हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को न्यूनतम करने में ~~मदद~~ मिलेगी।

*न्यूनतम के-मेर आकार से ग्राफ़ में संग्रहीत किनारों की मात्रा न्यूनतम हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को न्यूनतम करने में सहायता मिलेगी।

*छोटे आकार होने से सभी के-~~मर्स~~ के ओवरलैप होने की संभावना बढ़ जाएगी, और इस तरह, डी ब्रुइज़न ग्राफ के निर्माण के लिए आवश्यक अनुवर्तीताएं होंगी।<ref name="debruijn-2">

*छोटे आकार होने से सभी के -अधिक के ओवरलैप होने की संभावना बढ़ जाएगी, और इस तरह, डी ब्रुइज़न ग्राफ के निर्माण के लिए आवश्यक अनुवर्तीताएं होंगी।<ref name="debruijn-2">

{{cite journal

|author1=Zerbino, Daniel R. |author2=Birney, Ewan | title = Velvet: algorithms for de novo short read assembly using de Bruijn graphs

Line 89:

Line 88:

| pmc = 2336801}}

</ref>

*~~हालाँकि~~, छोटे आकार के k-mer होने से, आपको एकल k-mer में ले जाने वाले ग्राफ़ में कई शीर्ष होने का भी जोखिम होता है। इसलिए, इससे जीनोम का पुनर्निर्माण और अधिक कठिन हो जाएगा क्योंकि बड़ी मात्रा में शीर्षों को पार करने की आवश्यकता के कारण पथ अस्पष्टता का एक उच्च स्तर है।

*यद्यपि , छोटे आकार के k-mer होने से, आपको एकल k-mer में ले जाने वाले ग्राफ़ में कई शीर्ष होने का भी जोखिम होता है। इसलिए, इससे जीनोम का पुनर्निर्माण और अधिक कठिन हो जाएगा क्योंकि बड़ी मात्रा में शीर्षों को पार करने की आवश्यकता के कारण पथ अस्पष्टता का एक उच्च स्तर हमारे सामने आ सकती है।

*के-~~मर्स~~ छोटे हो जाने से जानकारी नष्ट हो जाती है।

*के -अधिक छोटे हो जाने से जानकारी नष्ट हो जाती है।

**'उदा. '~~AGTसीजीTAGATGCTG~~ की संभावना ~~AसीजीT~~ से न्यूनतम है, और इस प्रकार, अधिक मात्रा में जानकारी रखती ~~है (अधिक जानकारी के लिए [[एन्ट्रापी (सूचना सिद्धांत)]] देखें)।~~

**'उदा. 'AGTCGTAGATGCTG की संभावना ACGT से न्यूनतम है, और इस प्रकार, अधिक मात्रा में जानकारी रखती है।

*छोटे के-~~मर्स~~ में डीएनए में उन क्षेत्रों को हल करने में सक्षम नहीं होने की भी समस्या होती है जहां छोटे [[सूक्ष्म उपग्रह]] या दोहराव होते हैं। ऐसा इसलिए है क्योंकि छोटे के-~~मर्स~~ पूरी तरह से दोहराव क्षेत्र के ~~भीतर~~ बैठे रहेंगे और इसलिए यह निर्धारित करना कठिन है कि वास्तव में कितनी पुनरावृत्ति हुई है।

*छोटे के -अधिक में डीएनए में उन क्षेत्रों को हल करने में सक्षम नहीं होने की भी समस्या होती है जहां छोटे [[सूक्ष्म उपग्रह]] या दोहराव होते हैं। ऐसा इसलिए है क्योंकि छोटे के -अधिक पूरी तरह से दोहराव क्षेत्र के अंदर बैठे रहेंगे और इसलिए यह निर्धारित करना कठिन है कि वास्तव में कितनी पुनरावृत्ति हुई है।

**'उदा. 'अनुवर्ती ~~ATGTGTGTGTGTGTAसीजी~~ के लिए, यदि 16 से न्यूनतम के-मेर आकार चुना जाता है, तो टीजी की पुनरावृत्ति की मात्रा खो जाएगी। ऐसा इसलिए है क्योंकि अधिकांश के-मेर दोहराए गए क्षेत्र में बैठेंगे और ~~दोहराव~~ की मात्रा को संदर्भित करने के ~~बजाय~~ उसी के-मेर के ~~दोहराव~~ के रूप में खारिज कर दिया जा सकता है।

**'उदा. 'अनुवर्ती ATGTGTGTGTGTGTACG के लिए, यदि 16 से न्यूनतम के-मेर आकार चुना जाता है, तो टीजी की पुनरावृत्ति की मात्रा खो जाएगी। ऐसा इसलिए है क्योंकि अधिकांश के-मेर दोहराए गए क्षेत्र में बैठेंगे और पुनरावृत्ति की मात्रा को संदर्भित करने के अतिरिक्त उसी के-मेर के पुनरावृत्ति के रूप में खारिज कर दिया जा सकता है।

=====उच्च के-मेर आकार=====

*बड़े आकार के k-~~mers~~ होने से ग्राफ़ में किनारों की संख्या बढ़ जाएगी, जिसके परिणामस्वरूप, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा बढ़ जाएगी।

*बड़े आकार के के -अधिक होने से ग्राफ़ में किनारों की संख्या बढ़ जाएगी, जिसके परिणामस्वरूप, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा बढ़ जाएगी।

*के-~~मर्स~~ का आकार बढ़ाने से शीर्षों की संख्या भी न्यूनतम हो जाएगी। इससे जीनोम के निर्माण में ~~मदद~~ मिलेगी क्योंकि ग्राफ़ में पार करने के लिए न्यूनतम रास्ते होंगे।<ref name="debruijn-2" />*बड़े k-~~mers~~ में प्रत्येक k-~~mer~~ से बाहरी शीर्ष न होने का जोखिम भी अधिक होता है। यह बड़े k-~~mers~~ के कारण यह जोखिम बढ़ रहा है कि यह किसी अन्य k-mer के साथ ~~ओवरलैप नहीं होगा~~ <math>k-1</math>. इसलिए, इससे रीड्स में गड़बड़ी हो सकती है, और इस तरह, अधिक मात्रा में छोटे [[ संपर्क ]]्स हो सकते हैं।

*के -अधिक का आकार बढ़ाने से शीर्षों की संख्या भी न्यूनतम हो जाएगी। इससे जीनोम के निर्माण में सहायता मिलेगी क्योंकि ग्राफ़ में पार करने के लिए न्यूनतम रास्ते होंगे।<ref name="debruijn-2" />*

*बड़े के-मेर आकार छोटे ~~दोहराव~~ वाले क्षेत्रों की समस्या को न्यूनतम करने में ~~मदद~~ करते हैं। यह इस तथ्य के कारण है कि के-मेर में ~~दोहराव~~ क्षेत्र और निकटवर्ती डीएनए अनुक्रमों का संतुलन होगा (बशर्ते यह पर्याप्त बड़ा आकार हो) जो उस विशेष क्षेत्र में ~~दोहराव~~ की मात्रा को हल करने में ~~मदद~~ कर सकता है।

*बड़े के -अधिक में प्रत्येक के -अधिक से बाहरी शीर्ष न होने का जोखिम भी अधिक होता है। यह बड़े के -अधिक के कारण यह जोखिम बढ़ रहा है कि यह किसी अन्य k-mer के साथ <math>k-1</math> ओवरलैप नहीं होगा . इसलिए, इससे रीड्स में गड़बड़ी हो सकती है, और इस तरह, अधिक मात्रा में छोटे [[ संपर्क | संपर्क]] हो सकते हैं।

*बड़े के-मेर आकार छोटे पुनरावृत्ति वाले क्षेत्रों की समस्या को न्यूनतम करने में सहायता करते हैं। यह इस तथ्य के कारण है कि के-मेर में पुनरावृत्ति क्षेत्र और निकटवर्ती डीएनए अनुक्रमों का संतुलन होगा (बशर्ते यह पर्याप्त बड़ा आकार हो) जो उस विशेष क्षेत्र में पुनरावृत्ति की मात्रा को हल करने में सहायता कर सकता है।

=== आनुवंशिकी और जीनोमिक्स ===

रोग ~~के संबंध~~ में, ~~रोगजनकता~~ से जुड़े आनुवंशिक द्वीपों ~~का पता लगाने के लिए द्विनाभिपूर्वक पूर्वाग्रह को लागू~~ किया ~~गया~~ है।<ref name=":1" />~~पहले के काम से~~ यह भी ~~पता चला~~ है कि टेट्रान्यूक्लियोटाइड पूर्वाग्रह दोनों प्रोकैरियोट्स में [[क्षैतिज जीन स्थानांतरण]] का प्रभावी ढंग से पता लगाने में सक्षम हैं<ref>{{Cite journal|last1=Goodur|first1=Haswanee D.|last2=Ramtohul|first2=Vyasanand|last3=Baichoo|first3=Shakuntala|date=2012-11-11|title=GIDT — A tool for the identification and visualization of genomic islands in prokaryotic organisms|journal=2012 IEEE 12th International Conference on Bioinformatics & Bioengineering (BIBE)|pages=58–63|doi=10.1109/bibe.2012.6399707|isbn=978-1-4673-4358-9|s2cid=6368495}}</ref> और ~~यूकेरियोट्स।~~<ref>{{Cite journal|last1=Jaron|first1=K. S.|last2=Moravec|first2=J. C.|last3=Martinkova|first3=N.|date=2014-04-15|title=SigHunt: horizontal gene transfer finder optimized for eukaryotic genomes|journal=Bioinformatics|language=en|volume=30|issue=8|pages=1081–1086|doi=10.1093/bioinformatics/btt727|pmid=24371153|issn=1367-4803|doi-access=free}}</ref>

रोग संबंधी मामले में, द्विनुकलोटाइड अधिकार को रोगाणुता से जुड़े आनुवंशिक द्वीपों की पहचान में प्रारंभ किया जा चुका है।<ref name=":1" /> पूर्व अध्ययन ने यह भी दर्शाया है कि चतुर्णुकलोटाइड अधिकार प्रोकर्योट्स<ref>{{Cite journal|last1=Goodur|first1=Haswanee D.|last2=Ramtohul|first2=Vyasanand|last3=Baichoo|first3=Shakuntala|date=2012-11-11|title=GIDT — A tool for the identification and visualization of genomic islands in prokaryotic organisms|journal=2012 IEEE 12th International Conference on Bioinformatics & Bioengineering (BIBE)|pages=58–63|doi=10.1109/bibe.2012.6399707|isbn=978-1-4673-4358-9|s2cid=6368495}}</ref> और यूकर्योट्स<ref>{{Cite journal|last1=Jaron|first1=K. S.|last2=Moravec|first2=J. C.|last3=Martinkova|first3=N.|date=2014-04-15|title=SigHunt: horizontal gene transfer finder optimized for eukaryotic genomes|journal=Bioinformatics|language=en|volume=30|issue=8|pages=1081–1086|doi=10.1093/bioinformatics/btt727|pmid=24371153|issn=1367-4803|doi-access=free}}</ref> में [[क्षैतिज जीन स्थानांतरण]] की सक्षमता को सफलतापूर्वक देख सकते हैं।

~~के-मर्स का एक अन्य अनुप्रयोग जीनोमिक्स-आधारित वर्गीकरण~~ में ~~है। उदाहरण के लिए, जीसी-सामग्री का उपयोग मध्यम सफलता के साथ~~ [[~~एर्विनिया~~]] की प्रजातियों के मध्य अंतर करने के लिए किया गया है।<ref>{{Cite journal|last1=Starr|first1=M. P.|last2=Mandel|first2=M.|date=1969-04-01|title=फाइटोपैथोजेनिक और अन्य एंटरोबैक्टीरिया की डीएनए बेस संरचना और वर्गीकरण|journal=Journal of General Microbiology|language=en|volume=56|issue=1|pages=113–123|doi=10.1099/00221287-56-1-113|pmid=5787000|issn=0022-1287|doi-access=free}}</ref> वर्गीकरण उद्देश्यों के लिए जीसी-सामग्री के प्रत्यक्ष उपयोग के समान टी का उपयोग हैm, डीएनए का पिघलने का तापमान। चूँकि GC बांड अधिक ऊष्मीय रूप से स्थिर होते हैं, उच्च GC सामग्री वाले अनुक्रम उच्च T प्रदर्शित करते हैंm. 1987 में, बैक्टीरियल सिस्टमैटिक्स के दृष्टिकोण के समाधान पर तदर्थ समिति ने ΔT के उपयोग का प्रस्ताव रखाm प्रजाति #फ़ाइलोजेनेटिक, क्लैडिस्टिक, या विकासवादी प्रजातियों के हिस्से के रूप में प्रजातियों की सीमाओं को निर्धारित करने में कारक के रूप में, यद्यपि इस प्रस्ताव को वैज्ञानिक समुदाय के भीतर आकर्षण प्राप्त नहीं हुआ है।<ref>{{Cite journal|last1=Moore|first1=W. E. C.|last2=Stackebrandt|first2=E.|last3=Kandler|first3=O.|last4=Colwell|first4=R. R.|last5=Krichevsky|first5=M. I.|last6=Truper|first6=H. G.|last7=Murray|first7=R. G. E.|last8=Wayne|first8=L. G.|last9=Grimont|first9=P. A. D.|date=1987-10-01|title=बैक्टीरियल सिस्टमैटिक्स के दृष्टिकोण के समाधान पर तदर्थ समिति की रिपोर्ट|journal=International Journal of Systematic and Evolutionary Microbiology|language=en|volume=37|issue=4|pages=463–464|doi=10.1099/00207713-37-4-463|issn=1466-5026|doi-access=free}}</ref>

~~आनुवंशिकी और जीनोमिक्स के अन्य अनुप्रयोगों में सम्मिलित हैं:~~

* [[RNA-~~Seq]]|RNA~~-~~seq डेटा से [[जीन आइसोफॉर्म]] मात्रा का ठहराव<ref>{{cite journal|author=Patro~~, Mount, Kingsford|year=2014|title=सेलफ़िश हल्के एल्गोरिदम का उपयोग करके आरएनए-सीक्यू रीड्स से संरेखण-मुक्त आइसोफॉर्म मात्रा का ठहराव सक्षम करता है|journal=Nature Biotechnology|volume=32|issue=5|pages=462–464|arxiv=1308.3700|doi=10.1038/nbt.2862|pmc=4077321|pmid=24752080}}</ref> * मानव माइटोकॉन्ड्रियल [[~~हैप्लोग्रुप~~]] ~~का वर्गीकरण<ref>{{cite journal|author=Navarro-Gomez|display~~-authors=etal|year=2015|title=Phy-Mer: a novel alignment-free and reference-independent mitochondrial haplogroup classifier|journal=Bioinformatics|volume=31|issue=8|pages=1310–1312|doi=10.1093/bioinformatics/btu825|pmc=4393525|pmid=25505086}}</ref> * जीनोम में पुनर्संयोजन स्थलों का ~~पता लगाना~~<ref>{{Cite journal|last1=~~Wang~~|first1=~~Rong~~|last2=Xu|first2=~~Yong|last3=Liu|first3=Bin~~|date=~~2016~~|title=~~गैप्ड के-मर्स के आधार पर पुनर्संयोजन स्थान~~ की ~~पहचान~~|journal=~~Scientific Reports~~|language=en|volume=6|issue=1|pages=~~23934~~|doi=10.~~1038~~/~~srep23934~~|pmid=~~27030570|pmc=4814916~~|issn=~~2045~~-~~2322~~|~~bibcode~~=~~2016NatSR...623934W~~}}</ref> * के-~~मेर आवृत्ति बनाम~~ के~~-मेर गहराई~~ का उपयोग करके जीनोम आकार का अनुमान<ref>{{Citation|last1=Hozza|first1=Michal|title=How Big is that Genome? Estimating Genome Size and Coverage from k-mer Abundance Spectra|date=2015|work=String Processing and Information Retrieval|volume=9309|pages=199–209|editor-last=Iliopoulos|editor-first=Costas|publisher=Springer International Publishing|doi=10.1007/978-3-319-23826-5_20|isbn=9783319238258|last2=Vinař|first2=Tomáš|last3=Brejová|first3=Broňa|editor2-last=Puglisi|editor2-first=Simon|editor3-last=Yilmaz|editor3-first=Emine}}</ref><ref>{{Cite journal|last1=~~Lamichhaney~~|first1=~~Sangeet~~|last2=~~Fan~~|first2=~~Guangyi~~|last3=~~Widemo~~|first3=~~Fredrik~~|last4=~~Gunnarsson~~|first4=~~Ulrika~~|last5=~~Thalmann~~|first5=~~Doreen Schwochow~~|last6=~~Hoeppner~~|first6=~~Marc P~~|last7=~~Kerje~~|first7=Susanne|last8=Gustafson|first8=Ulla|last9=Shi|first9=Chengcheng|date=2016|title=रफ़ में वैकल्पिक प्रजनन रणनीतियों के अंतर्गत संरचनात्मक जीनोमिक परिवर्तन होते हैं (फिलोमाचस पुग्नैक्स)|journal=Nature Genetics|language=en|volume=48|issue=1|pages=84–88|doi=10.~~1038/ng~~.~~3430|pmid=26569123|issn=1061-4036|doi-access=free}}</ref>~~

क-मरों का एक और अनुप्रयोग जीनोमिक्स-आधारित टैक्सोनोमी में होता है। उदाहरण के रूप में, मध्यम सफलता के साथ [[एर्विनिया]] के प्रजातियों के मध्य जीसी-सामग्री का उपयोग किया गया है।<ref>{{Cite journal|last1=Starr|first1=M. P.|last2=Mandel|first2=M.|date=1969-04-01|title=फाइटोपैथोजेनिक और अन्य एंटरोबैक्टीरिया की डीएनए बेस संरचना और वर्गीकरण|journal=Journal of General Microbiology|language=en|volume=56|issue=1|pages=113–123|doi=10.1099/00221287-56-1-113|pmid=5787000|issn=0022-1287|doi-access=free}}</ref> टैक्सोनोमी के लिए जीसी-सामग्री के सीधे उपयोग के समान ही डीएनए की मेल्टिंग तापमान, अर्थात टीएम, का उपयोग किया जाता है।<ref>{{Cite journal|last1=Moore|first1=W. E. C.|last2=Stackebrandt|first2=E.|last3=Kandler|first3=O.|last4=Colwell|first4=R. R.|last5=Krichevsky|first5=M. I.|last6=Truper|first6=H. G.|last7=Murray|first7=R. G. E.|last8=Wayne|first8=L. G.|last9=Grimont|first9=P. A. D.|date=1987-10-01|title=बैक्टीरियल सिस्टमैटिक्स के दृष्टिकोण के समाधान पर तदर्थ समिति की रिपोर्ट|journal=International Journal of Systematic and Evolutionary Microbiology|language=en|volume=37|issue=4|pages=463–464|doi=10.1099/00207713-37-4-463|issn=1466-5026|doi-access=free}}</ref> क्योंकि जीसी बॉन्ड अधिक तापतन स्थिर होते हैं, जीसी सामग्री वाले संकेत में उच्च टीएम प्रदर्शित करती है। 1987 में, बैक्टीरियल सिस्टमाटिक्स के प्रति दृष्टिकोण को समाधान करने के लिए एड हॉक समिति ने फाइटोजेनेटिक प्रजाति संकल्प के हिस्से के रूप में जाति सीमाओं की निर्धारण में डेल्टा टीएम का उपयोग करने की प्रार्थना की, यद्यपि यह प्रार्थना वैज्ञानिक समुदाय में प्रभावी नहीं रही है।

* फ़्लैंकिंग क्षेत्रों द्वारा सीपीजी साइट की विशेषता<ref>{{cite journal|author=Chae|display-authors=etal|year=2013|title=के-मेर और के-फ़्लैंक पैटर्न

Anonymous

Search

के-मेर: Difference between revisions

Namespaces

More

Page actions

@@ Line 1: / Line 1: @@
 {{broader|एन-ग्राम}}
 {{DISPLAYTITLE:''k''-mer}}
-[[File:K-mer diagram.svg|thumb|अनुक्रम ATGG में दो 3-मेर हैं: ATG और TGG।]]जैव सूचना विज्ञान के अंतर्गत, '''के-मर्स''' जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले लंबाई <math>k</math> के [[सबस्ट्रिंग|उपरज्जु]]  को कहते हैं। प्रमुख रूप से [[कम्प्यूटेशनल जीनोमिक्स|संगणनात्मक जीनोमिक्स]] और [[अनुक्रम विश्लेषण]] के संदर्भ में उपयोग होते हैं, जहां k-मर्स [[न्यूक्लियोटाइड|आणविकों]] (अर्थात् A, T, G और C) से मिलकर बने होते हैं।<ref>{{Cite journal|last1=Compeau|first1=Phillip E C|last2=Pevzner|first2=Pavel A|last3=Tesler|first3=Glenn|date=November 2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|language=en|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmid=22068540|pmc=5531759|issn=1087-0156}}</ref> k-मर्स का उपयोग डीएनए संकलन, परजीवी जीन<ref name=":4">{{Cite journal|last1=Welch|first1=Mark|last2=Govindarajan|first2=Sridhar|last3=Ness|first3=Jon E.|last4=Villalobos|first4=Alan|last5=Gurney|first5=Austin|last6=Minshull|first6=Jeremy|last7=Gustafsson|first7=Claes|date=2009-09-14|editor-last=Kudla|editor-first=Grzegorz|title=एस्चेरिचिया कोलाई में सिंथेटिक जीन अभिव्यक्ति को नियंत्रित करने के लिए डिज़ाइन पैरामीटर|journal=PLOS ONE|language=en|volume=4|issue=9|pages=e7002|doi=10.1371/journal.pone.0007002|pmid=19759823|pmc=2736378|issn=1932-6203|bibcode=2009PLoSO...4.7002W|doi-access=free}}</ref><ref name=":6">{{Cite journal|last1=Gustafsson|first1=Claes|last2=Govindarajan|first2=Sridhar|last3=Minshull|first3=Jeremy|date=July 2004|title=कोडन पूर्वाग्रह और विषम प्रोटीन अभिव्यक्ति|journal=Trends in Biotechnology|language=en|volume=22|issue=7|pages=346–353|doi=10.1016/j.tibtech.2004.04.006|pmid=15245907}}</ref>  अभिव्यक्ति को सुधारने, मेटाजेनोमिक<ref name=":0">{{Cite journal|last1=Perry|first1=Scott C.|last2=Beiko|first2=Robert G.|date=2010-01-01|title=Distinguishing Microbial Genome Fragments Based on Their Composition: Evolutionary and Comparative Genomic Perspectives|journal=Genome Biology and Evolution|language=en|volume=2|pages=117–131|doi=10.1093/gbe/evq004|pmid=20333228|pmc=2839357|issn=1759-6653}}</ref> सैंपल में प्रजातियों की पहचान, और [[क्षीण टीका]]करण<ref>{{Cite journal|last1=Eschke|first1=Kathrin|last2=Trimpert|first2=Jakob|last3=Osterrieder|first3=Nikolaus|last4=Kunec|first4=Dusan|date=2018-01-29|editor-last=Mocarski|editor-first=Edward|title=कोडन जोड़ी पूर्वाग्रह डीऑप्टिमाइजेशन द्वारा एक बहुत ही विषैले मारेक रोग हर्पीसवायरस (एमडीवी) का क्षीणन|journal=PLOS Pathogens|language=en|volume=14|issue=1|pages=e1006857|doi=10.1371/journal.ppat.1006857|pmid=29377958|issn=1553-7374|pmc=5805365}}</ref> बनाने के लिए किया जाता है। सामान्यतया, k-मर्स शब्द का उपयोग लंबाई L के एक अनुक्रम के सभी उपस्त्रिंशों के लिए किया जाता है, जिसका अर्थ होता है कि एक अनुक्रम AGAT के चार [[मोनोमर]] (A, G, A और T), तीन 2-मर्स (AG, GA, AT), दो 3-मर्स (AGA और GAT) और एक 4-मर्स (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई <math>L</math> वाले एक अनुक्रम में <math>L - k + 1</math> k-मर्स होंगे और <math>n^{k}</math> कुल संभव k-मर्स होंगे, यहां <math>n</math> संभावित मोनोमरों की संख्या है।
+[[File:K-mer diagram.svg|thumb|अनुक्रम ATGG में दो 3-मेर हैं: ATG और TGG ity।]]जैव सूचना विज्ञान के अंतर्गत, '''के -अधिक'''  जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले लंबाई <math>k</math> के [[सबस्ट्रिंग|उपरज्जु]]  को कहते हैं। प्रमुख रूप से [[कम्प्यूटेशनल जीनोमिक्स|संगणनात्मक जीनोमिक्स]] और [[अनुक्रम विश्लेषण]] के संदर्भ में उपयोग होते हैं, जहां के-अधिक्स [[न्यूक्लियोटाइड|आणविकों]] (अर्थात् A, T, G और C) से मिलकर बने होते हैं।<ref>{{Cite journal|last1=Compeau|first1=Phillip E C|last2=Pevzner|first2=Pavel A|last3=Tesler|first3=Glenn|date=November 2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|language=en|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmid=22068540|pmc=5531759|issn=1087-0156}}</ref> के-अधिक्स का उपयोग डीएनए संकलन, परजीवी जीन<ref name=":4">{{Cite journal|last1=Welch|first1=Mark|last2=Govindarajan|first2=Sridhar|last3=Ness|first3=Jon E.|last4=Villalobos|first4=Alan|last5=Gurney|first5=Austin|last6=Minshull|first6=Jeremy|last7=Gustafsson|first7=Claes|date=2009-09-14|editor-last=Kudla|editor-first=Grzegorz|title=एस्चेरिचिया कोलाई में सिंथेटिक जीन अभिव्यक्ति को नियंत्रित करने के लिए डिज़ाइन पैरामीटर|journal=PLOS ONE|language=en|volume=4|issue=9|pages=e7002|doi=10.1371/journal.pone.0007002|pmid=19759823|pmc=2736378|issn=1932-6203|bibcode=2009PLoSO...4.7002W|doi-access=free}}</ref><ref name=":6">{{Cite journal|last1=Gustafsson|first1=Claes|last2=Govindarajan|first2=Sridhar|last3=Minshull|first3=Jeremy|date=July 2004|title=कोडन पूर्वाग्रह और विषम प्रोटीन अभिव्यक्ति|journal=Trends in Biotechnology|language=en|volume=22|issue=7|pages=346–353|doi=10.1016/j.tibtech.2004.04.006|pmid=15245907}}</ref>  अभिव्यक्ति को सुधारने, मेटाजेनोमिक<ref name=":0">{{Cite journal|last1=Perry|first1=Scott C.|last2=Beiko|first2=Robert G.|date=2010-01-01|title=Distinguishing Microbial Genome Fragments Based on Their Composition: Evolutionary and Comparative Genomic Perspectives|journal=Genome Biology and Evolution|language=en|volume=2|pages=117–131|doi=10.1093/gbe/evq004|pmid=20333228|pmc=2839357|issn=1759-6653}}</ref> सैंपल में प्रजातियों की पहचान, और [[क्षीण टीका]]करण<ref>{{Cite journal|last1=Eschke|first1=Kathrin|last2=Trimpert|first2=Jakob|last3=Osterrieder|first3=Nikolaus|last4=Kunec|first4=Dusan|date=2018-01-29|editor-last=Mocarski|editor-first=Edward|title=कोडन जोड़ी पूर्वाग्रह डीऑप्टिमाइजेशन द्वारा एक बहुत ही विषैले मारेक रोग हर्पीसवायरस (एमडीवी) का क्षीणन|journal=PLOS Pathogens|language=en|volume=14|issue=1|pages=e1006857|doi=10.1371/journal.ppat.1006857|pmid=29377958|issn=1553-7374|pmc=5805365}}</ref> बनाने के लिए किया जाता है। सामान्यतया, के-अधिक्स शब्द का उपयोग लंबाई L के एक अनुक्रम के सभी उपस्त्रिंशों के लिए किया जाता है, जिसका अर्थ होता है कि एक अनुक्रम AGAT के चार [[मोनोमर]] (A, G, A और T), तीन 2-मर्स (AG, GA, AT), दो 3-मर्स (AGA और GAT) और एक 4-मर्स (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई <math>L</math> वाले एक अनुक्रम में <math>L - k + 1</math> के-अधिक्स होंगे और <math>n^{k}</math> कुल संभव के-अधिक्स होंगे, यहां <math>n</math> संभावित मोनोमरों की संख्या है।
 == परिचय ==
-के-मेर्स केवल लंबाई <math>k</math> हैं ,परिणामस्वरूप . उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित k-mers निम्न दर्शाये गए हैं:
+के-मेर्स केवल लंबाई <math>k</math> हैं ,परिणामस्वरूप . उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित के -अधिक  निम्न दर्शाये गए हैं:
-[[File:E. coli 8-mer spectrum.svg|thumb|एस्चेरिचिया कोली|ई के लिए 8-मेर स्पेक्ट्रम का एक उदाहरण। कोलाई 8-मेर्स आवृत्ति (अर्थात् बहुलता) की तुलना उनकी घटनाओं की संख्या से कर रहा है।|alt=|440x440px]]
+[[File:E. coli 8-mer spectrum.svg|thumb|ई के लिए 8-मेर स्पेक्ट्रम का एक उदाहरण दर्शाया गया है। कोलाई 8-मेर्स आवृत्ति (अर्थात् बहुलता) की तुलना उनकी घटनाओं की संख्या से कर रहा है।|alt=|440x440px]]
 {| class="wikitable"
 |+जीटीएजीजीसीटीजीटी के लिए के-मेर्स
 !''k''
-!के-मर्स
+!के -अधिक
 |-
 |1
@@ Line 53: / Line 53: @@
 जीसी-सामग्री पूर्वाग्रहों पर चर्चा करने वाले साहित्य के तुलनात्मक रूप से बड़े समूह के अतिरिक्त , द्विनाभिपूर्वक पूर्वाग्रहों के बारे में अपेक्षाकृत न्यूनतम लिखा गया है। यह ज्ञात है कि जीसी-सामग्री के विपरीत, ये द्विनाभिपूर्वक पूर्वाग्रह पूरे जीनोम में अपेक्षाकृत स्थिर होते हैं, जैसा कि ऊपर देखा गया है, काफी भिन्न हो सकते हैं।<ref name=":3">{{Cite journal|last=Karlin|first=Samuel|date=October 1998|title=वैश्विक डाइन्यूक्लियोटाइड हस्ताक्षर और जीनोमिक विविधता का विश्लेषण|journal=Current Opinion in Microbiology|language=en|volume=1|issue=5|pages=598–610|doi=10.1016/S1369-5274(98)80095-7|pmid=10066522}}</ref> यह एक महत्वपूर्ण अंतर्दृष्टि है जिसे नजरअंदाज नहीं किया जाना चाहिए। यदि द्विनाभिपूर्वक पूर्वाग्रह अनुवाद के परिणामस्वरूप दबाव के अधीन थे, तो [[कोडिंग क्षेत्र]] और [[गैर-कोडिंग डीएनए]] क्षेत्रों में द्विनाभिपूर्वक पूर्वाग्रह के पृथक -पृथक  पैटर्न होंगे जो कुछ डाइनुसेलोटाइड्स की न्यूनतम  अनुवादात्मक दक्षता से प्रेरित होते  होंगे।<ref>{{Cite journal|last1=Beutler|first1=E.|last2=Gelbart|first2=T.|last3=Han|first3=J. H.|last4=Koziol|first4=J. A.|last5=Beutler|first5=B.|date=1989-01-01|title=Evolution of the genome and the genetic code: selection at the dinucleotide level by methylation and polyribonucleotide cleavage.|journal=Proceedings of the National Academy of Sciences|language=en|volume=86|issue=1|pages=192–196|doi=10.1073/pnas.86.1.192|pmid=2463621|pmc=286430|issn=0027-8424|bibcode=1989PNAS...86..192B|doi-access=free}}</ref> क्योंकि ऐसा नहीं है,  इसलिए यह निष्कर्ष निकाला जा सकता है कि द्विनाभिपूर्वक पक्ष को मोड़ने वाले बल अनुवाद से अस्पष्ट हैं। द्विनाभिपूर्वक पक्षों के अनुवादिक परिकल्पना को प्रभावित करने के विरोधी प्रमाण है कि वायरसों के द्विनाभिपूर्वक पक्ष उनके मात्रिका परिवार से अधिक परिवर्तित करते हैं, जो उनके मेजबानों के अनुवादिक यंत्रों को वायरल परिवारों के विरुद्ध परिवर्तित करते हैं।।<ref>{{Cite journal|last1=Di Giallonardo|first1=Francesca|last2=Schlub|first2=Timothy E.|last3=Shi|first3=Mang|last4=Holmes|first4=Edward C.|date=2017-04-15|editor-last=Dermody|editor-first=Terence S.|title=पशु आरएनए वायरस में डाइन्यूक्लियोटाइड संरचना मेजबान प्रजातियों की तुलना में वायरस परिवार द्वारा अधिक आकार में होती है|journal=Journal of Virology|language=en|volume=91|issue=8|doi=10.1128/JVI.02381-16|pmid=28148785|pmc=5375695|issn=0022-538X}}</ref>
-जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार [[सीजी दमन]] है, जो मिथाइलेशन सीजी द्विनाभिपूर्वकों की [[डीमिनेशन]] के कारण [[सीपीजी साइट]] 2-मेर्स की आवृत्ति को न्यूनतम  कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री न्यूनतम  हो जाती है।<ref>{{Cite journal|last1=Żemojtel|first1=Tomasz|last2=kiełbasa|first2=Szymon M.|last3=Arndt|first3=Peter F.|last4=Behrens|first4=Sarah|last5=Bourque|first5=Guillaume|last6=Vingron|first6=Martin|date=2011-01-01|title=CpG Deamination Creates Transcription Factor–Binding Sites with High Efficiency|journal=Genome Biology and Evolution|language=en|volume=3|pages=1304–1311|doi=10.1093/gbe/evr107|pmid=22016335|pmc=3228489|issn=1759-6653}}</ref> यह इंटरैक्शन k के पृथक -पृथक  मानों के लिए k-mers को प्रभावित करने वाली शक्ति के मध्य  अंतर्संबंध पर प्रकाश डालता है।
+जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार [[सीजी दमन]] है, जो मिथाइलेशन सीजी द्विनाभिपूर्वकों की [[डीमिनेशन]] के कारण [[सीपीजी साइट]] 2-मेर्स की आवृत्ति को न्यूनतम  कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री न्यूनतम  हो जाती है।<ref>{{Cite journal|last1=Żemojtel|first1=Tomasz|last2=kiełbasa|first2=Szymon M.|last3=Arndt|first3=Peter F.|last4=Behrens|first4=Sarah|last5=Bourque|first5=Guillaume|last6=Vingron|first6=Martin|date=2011-01-01|title=CpG Deamination Creates Transcription Factor–Binding Sites with High Efficiency|journal=Genome Biology and Evolution|language=en|volume=3|pages=1304–1311|doi=10.1093/gbe/evr107|pmid=22016335|pmc=3228489|issn=1759-6653}}</ref> यह इंटरैक्शन k के पृथक -पृथक  मानों के लिए के -अधिक  को प्रभावित करने वाली शक्ति के मध्य  अंतर्संबंध पर प्रकाश डालता है।
 द्विनाभिपूर्वक पक्ष के एक रोचक तथ्य यह है कि यह जीनवंशीय रूप से समान प्राणीजातीय जीनोम के मध्य   एक "दूरी" माप के रूप में कार्य कर सकता है। घनिष्ठ रूप से संबंधित संगठनों के जीनोम के मध्य   तुलनात्मक रूप से दूर संबंधित संगठनों के जोड़ों के मध्य द्विनाभिपूर्वक पक्ष अधिक समान होते हैं।<ref name=":3" />
@@ Line 67: / Line 67: @@
 === अनुक्रम संयोजन ===
-[[File:k-mer-example.png|thumb|यह आंकड़ा डी ब्रूजन ग्राफ में उपयोग करने में सक्षम होने के लिए रीड्स को छोटे के-मेर्स (इस मामले में 4-मेर्स) में विभाजित करने की प्रक्रिया को दर्शाता है। (ए) अनुक्रमित किए जा रहे डीएनए के प्रारंभिक खंड को दर्शाता है। (बी) उन रीड्स को दिखाता है जिन्हें अनुक्रमण से आउटपुट बनाया गया था और यह भी दिखाता है कि वे कैसे संरेखित होते हैं।यद्यपि    इस संरेखण के साथ समस्या यह है कि वे k-2 से ओवरलैप होते हैं, k-1 से नहीं (जो कि डी ब्रुइज़न ग्राफ़ में आवश्यक है)। (सी) रीड्स को छोटे 4-मेर्स में विभाजित होते हुए दिखाता है। (डी) बार-बार 4-मेर्स को हटा देता है और फिर उनका संरेखण दिखाता है। ध्यान दें कि ये k-mers k-1 द्वारा ओवरलैप होते हैं और फिर इन्हें डी ब्रुइज़न ग्राफ़ में उपयोग किया जा सकता है।|alt=|700x700px]]सिरणी संचालन में, क-मर्स का उपयोग दे ब्रुइन ग्राफ के निर्माण के दौरान किया जाता है।<ref>{{Cite journal|last1=Nagarajan|first1=Niranjan|last2=Pop|first2=Mihai|date=2013|title=अनुक्रम संयोजन का रहस्योद्घाटन किया गया|journal=Nature Reviews Genetics|language=en|volume=14|issue=3|pages=157–167|doi=10.1038/nrg3367|pmid=23358380|s2cid=3519991|issn=1471-0056}}</ref><ref>{{cite journal|author=Li|display-authors=etal|year=2010|title=बड़े पैमाने पर समानांतर लघु पठन अनुक्रमण के साथ मानव जीनोम की डे नोवो असेंबली|journal=Genome Research|volume=20|issue=2|pages=265–272|doi=10.1101/gr.097261.109|pmc=2813482|pmid=20019144}}</ref> डी ब्रुइन ग्राफ बनाने के लिए, प्रत्येक सिरा में संग्रहीत क-मर्स को संग्रहीत किया जाना चाहिए, जिसकी लंबाई <math> L</math> होती है, और इसे एक दूसरे सिरे में 𝐿 − 1 द्वारा ओवरलैप करना चाहिए ताकि एक वर्टेक्स बनाया जा सके। अगली पीढ़ी सीक्वेंसिंग द्वारा उत्पन्न किए जाने वाले रीड के आमतौर पर विभिन्न रीड लंबाई होती हैं। उदाहरण के लिए, आईल्यूमिना की सीक्वेंसिंग प्रौद्योगिकी द्वारा 100-मर की रीड को दर्ज किया जाता है। हालांकि, सीक्वेंसिंग में पाए जाने वाले संपूर्ण संभावित 100-मर में से केवल छोटा हिस्सा वास्तव में उत्पन्न होता है। इसका कारण है रीड त्रुटियाँ, लेकिन अधिक महत्वपूर्ण है, सीक्वेंसिंग के दौरान संचालन होने वाले सीधे कवरेज के गड़े होने। समस्या यह है कि इन संभावित k-मर के छोटे हिस्से दे ब्रुइन ग्राफ की मुख्य मान्यता को उल्लंघन करते हैं, जहां सभी k-मर रीड्स को संचालन में आग्रहित होने की अपेक्षा होती है कि इसके पास अपने पड़ोसी k-मर से <math>k-1</math> के माध्यम से ओवरलैप हो जाता है।
+[[File:k-mer-example.png|thumb|यह आंकड़ा डी ब्रूजन ग्राफ में उपयोग करने में सक्षम होने के लिए रीड्स को छोटे के-मेर्स (इस मामले में 4-मेर्स) में विभाजित करने की प्रक्रिया को दर्शाता है। (ए) अनुक्रमित किए जा रहे डीएनए के प्रारंभिक खंड को दर्शाता है। (बी) उन रीड्स को दर्शाता  है जिन्हें अनुक्रमण से आउटपुट बनाया गया था और यह भी दर्शाता  है कि वे कैसे संरेखित होते हैं।यद्यपि    इस संरेखण के साथ समस्या यह है कि वे k-2 से ओवरलैप होते हैं, k-1 से नहीं (जो कि डी ब्रुइज़न ग्राफ़ में आवश्यक है)। (सी) रीड्स को छोटे 4-मेर्स में विभाजित होते हुए दर्शाता  है। (डी) बार-बार 4-मेर्स को हटा देता है और पुनः  उनका संरेखण दर्शाता  है। ध्यान दें कि ये के -अधिक  k-1 द्वारा ओवरलैप होते हैं और पुनः  इन्हें डी ब्रुइज़न ग्राफ़ में उपयोग किया जा सकता है।|alt=|700x700px]]सिरणी संचालन में, क-मर्स का उपयोग दे ब्रुइन ग्राफ के निर्माण के दौरान किया जाता है।<ref>{{Cite journal|last1=Nagarajan|first1=Niranjan|last2=Pop|first2=Mihai|date=2013|title=अनुक्रम संयोजन का रहस्योद्घाटन किया गया|journal=Nature Reviews Genetics|language=en|volume=14|issue=3|pages=157–167|doi=10.1038/nrg3367|pmid=23358380|s2cid=3519991|issn=1471-0056}}</ref><ref>{{cite journal|author=Li|display-authors=etal|year=2010|title=बड़े पैमाने पर समानांतर लघु पठन अनुक्रमण के साथ मानव जीनोम की डे नोवो असेंबली|journal=Genome Research|volume=20|issue=2|pages=265–272|doi=10.1101/gr.097261.109|pmc=2813482|pmid=20019144}}</ref> डी ब्रुइन ग्राफ बनाने के लिए, प्रत्येक सिरा में संग्रहीत क-मर्स को संग्रहीत किया जाना चाहिए, जिसकी लंबाई <math> L</math> होती है, और इसे एक दूसरे सिरे में 𝐿 − 1 द्वारा ओवरलैप करना चाहिए क्योंकि  एक वर्टेक्स बनाया जा सके। अगली पीढ़ी अनुक्रम द्वारा उत्पन्न किए जाने वाले रीड के सामान्यतः  विभिन्न रीड लंबाई होती हैं। उदाहरण के लिए, आईल्यूमिना की अनुक्रम प्रौद्योगिकी द्वारा 100-मर की रीड को दर्ज किया जाता है। यद्यपि , अनुक्रम में पाए जाने वाले संपूर्ण संभावित 100-मर में से केवल छोटा हिस्सा वास्तव में उत्पन्न होता है। इसका कारण है रीड त्रुटियाँ, परंतु अधिक महत्वपूर्ण है, अनुक्रम के दौरान संचालन होने वाले सीधे कवरेज को दी जाती है। समस्या यह है कि इन संभावित के-अधिक के छोटे हिस्से दे ब्रुइन ग्राफ की मुख्य मान्यता को उल्लंघन करते हैं, जहां सभी के-अधिक रीड्स को संचालन में आग्रहित होने की अपेक्षा होती है कि इसके पास अपने पड़ोसी के-अधिक से <math>k-1</math> के माध्यम से ओवरलैप हो जाता है।
-इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर्स में तोड़ना है, ताकि परिणामी छोटे के-मेर्स उस छोटे आकार के सभी संभावित के-मेर्स का प्रतिनिधित्व करेंगे जो जीनोम में उपस्थित होते हैं।<ref name="debruijn">{{cite journal|last1=Compeau|first1=P.|last2=Pevzner|first2=P.|last3=Teslar|first3=G.|year=2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmc=5531759|pmid=22068540}}</ref> इसके अलावा, के-मर्स को छोटे आकारों में विभाजित करने से विभिन्न प्रारंभिक पढ़ने की लंबाई की समस्या को न्यूनतम  करने में भी सहायता मिलती है। इस उदाहरण में, पांच रीड्स जीनोम के सभी संभावित 7-मेर्स का हिसाब नहीं देते हैं, और इस प्रकार, एक डी ब्रुइज़न ग्राफ़ नहीं बनाया जा सकता है। परंतु , जब उन्हें 4-मेर्स में विभाजित किया जाता है, तो परिणामी अनुवर्ती डी ब्रुइज़न ग्राफ का उपयोग करके जीनोम को पुनः  से बनाने के लिए पर्याप्त होते हैं।
+इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर्स में विभाजित होता है, क्योंकि  परिणामी छोटे के-मेर्स उस छोटे आकार के सभी संभावित के-मेर्स का प्रतिनिधित्व करेंगे जो जीनोम में उपस्थित होते हैं।<ref name="debruijn">{{cite journal|last1=Compeau|first1=P.|last2=Pevzner|first2=P.|last3=Teslar|first3=G.|year=2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmc=5531759|pmid=22068540}}</ref> इसके अलावा, के -अधिक  को छोटे आकारों में विभाजित करने से विभिन्न प्रारंभिक पढ़ने की लंबाई की समस्या को न्यूनतम  करने में भी सहायता मिलती है। इस उदाहरण में, पांच रीड्स जीनोम के सभी संभावित 7-मेर्स का लेखा जोखा  नहीं देते हैं, और इस प्रकार, एक डी ब्रुइज़न ग्राफ़ नहीं बनाया जा सकता है। परंतु , जब उन्हें 4-मेर्स में विभाजित किया जाता है, तो परिणामस्वरूप उपक्रम दे ब्रुइन ग्राफ का उपयोग करके जीनोम का पुनर्निर्माण करने के लिए पर्याप्त होते हैं।
-अनुक्रम असेंबली के लिए सीधे उपयोग किए जाने के अलावा, के-मर्स का उपयोग जीनोम गलत-असेंबली का पता लगाने के लिए भी किया जा सकता है, जो कि अधिक प्रस्तुत किए गए के-मर्स की पहचान करके होता है जो संयुक्त किए गए दोहराए गए अनुक्रम (डीएनए) की उपस्थिति का सुझाव देता है।<ref>{{cite journal|author=Phillippy, Schatz, Pop|year=2008|title=Genome assembly forensics: finding the elusive mis-assembly|journal=Bioinformatics|volume=9|issue=3|page=R55|doi=10.1186/gb-2008-9-3-r55|pmc=2397507|pmid=18341692}}</ref> इसके अलावा, के-मर्स का उपयोग यूकेरियोटिक जीनोम असेंबली के दौरान जीवाणु संदूषण का पता लगाने के लिए भी किया जाता है, जो मेटागेनोमिक्स के क्षेत्र से उधार लिया गया एक दृष्टिकोण है।<ref>{{cite journal|author=Delmont, Eren|year=2016|title=Identifying contamination with advanced visualization and analysis practices: metagenomic approaches for eukaryotic genome assemblies|journal=PeerJ|volume=4|page=e1839|doi=10.7717/peerj.1839|pmid=27069789|pmc=4824900}}</ref><ref>{{cite journal|author=Bemm|display-authors=etal|year=2016|title=Genome of a tardigrade: Horizontal gene transfer or bacterial contamination?|journal=Proceedings of the National Academy of Sciences|volume=113|issue=22|pages=E3054–E3056|doi=10.1073/pnas.1525116113|pmc=4896698|pmid=27173902|bibcode=2016PNAS..113E3054B |doi-access=free}}</ref>
+अनुक्रम संचालन के लिए सीधे उपयोग किए जाने के अलावा, के -अधिक  का उपयोग जीनोम मिस-संचालन का पता लगाने के लिए भी किया जा सकता है, जो कि अधिक प्रस्तुत किए गए के -अधिक  की पहचान करके होता है जो संयुक्त किए गए दोहराए गए अनुक्रम (डीएनए) की उपस्थिति का सुझाव देता है।<ref>{{cite journal|author=Phillippy, Schatz, Pop|year=2008|title=Genome assembly forensics: finding the elusive mis-assembly|journal=Bioinformatics|volume=9|issue=3|page=R55|doi=10.1186/gb-2008-9-3-r55|pmc=2397507|pmid=18341692}}</ref> इसके अलावा, के -अधिक  का उपयोग यूकेरियोटिक जीनोम संचालन के दौरान जीवाणु संदूषण का पता लगाने के लिए भी किया जाता है,जो मेटाजेनोमिक्स के क्षेत्र से लाए गए एक दृष्टिकोण से उधारण किया गया है।<ref>{{cite journal|author=Delmont, Eren|year=2016|title=Identifying contamination with advanced visualization and analysis practices: metagenomic approaches for eukaryotic genome assemblies|journal=PeerJ|volume=4|page=e1839|doi=10.7717/peerj.1839|pmid=27069789|pmc=4824900}}</ref><ref>{{cite journal|author=Bemm|display-authors=etal|year=2016|title=Genome of a tardigrade: Horizontal gene transfer or bacterial contamination?|journal=Proceedings of the National Academy of Sciences|volume=113|issue=22|pages=E3054–E3056|doi=10.1073/pnas.1525116113|pmc=4896698|pmid=27173902|bibcode=2016PNAS..113E3054B |doi-access=free}}</ref>
 ====के-मेर आकार का विकल्प====
-के-मेर आकार के चुनाव का अनुक्रम संयोजन पर कई पृथक -पृथक  प्रभाव पड़ते हैं। ये प्रभाव छोटे आकार और बड़े आकार के के-मेर्स के मध्य  काफी भिन्न होते हैं। इसलिए, प्रभावों को संतुलित करने वाले उपयुक्त आकार को चुनने के लिए विभिन्न के-मेर आकारों की समझ हासिल की जानी चाहिए। आकारों के प्रभाव नीचे उल्लिखित हैं।
+के-मेर आकार के चुनाव का अनुक्रम संयोजन पर बहुत पृथक प्रभाव पड़ते हैं। ये प्रभाव छोटे आकार और बड़े आकार के के-मेर्स के मध्य अत्यधिक भिन्न होते हैं। इसलिए, प्रभावों को संतुलित करने वाले उपयुक्त आकार को चुनने के लिए विभिन्न के-मेर आकारों की समझ प्राप्त की जानी चाहिए। आकारों के प्रभाव निम्न उल्लिखित हैं।
 =====न्यूनतम  के-मेर आकार=====
-*न्यूनतम  के-मेर आकार से ग्राफ़ में संग्रहीत किनारों की मात्रा न्यूनतम  हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को न्यूनतम  करने में मदद मिलेगी।
+*न्यूनतम  के-मेर आकार से ग्राफ़ में संग्रहीत किनारों की मात्रा न्यूनतम  हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को न्यूनतम  करने में सहायता मिलेगी।
-*छोटे आकार होने से सभी के-मर्स के ओवरलैप होने की संभावना बढ़ जाएगी, और इस तरह, डी ब्रुइज़न ग्राफ के निर्माण के लिए आवश्यक अनुवर्तीताएं होंगी।<ref name="debruijn-2">
+*छोटे आकार होने से सभी के -अधिक  के ओवरलैप होने की संभावना बढ़ जाएगी, और इस तरह, डी ब्रुइज़न ग्राफ के निर्माण के लिए आवश्यक अनुवर्तीताएं होंगी।<ref name="debruijn-2">
 {{cite journal
    |author1=Zerbino, Daniel R. |author2=Birney, Ewan | title = Velvet: algorithms for de novo short read assembly using de Bruijn graphs
@@ Line 89: / Line 88: @@
    | pmc = 2336801}}
 </ref>
-*हालाँकि, छोटे आकार के k-mer होने से, आपको एकल k-mer में ले जाने वाले ग्राफ़ में कई शीर्ष होने का भी जोखिम होता है। इसलिए, इससे जीनोम का पुनर्निर्माण और अधिक कठिन हो जाएगा क्योंकि बड़ी मात्रा में शीर्षों को पार करने की आवश्यकता के कारण पथ अस्पष्टता का एक उच्च स्तर है।
+*यद्यपि , छोटे आकार के k-mer होने से, आपको एकल k-mer में ले जाने वाले ग्राफ़ में कई शीर्ष होने का भी जोखिम होता है। इसलिए, इससे जीनोम का पुनर्निर्माण और अधिक कठिन हो जाएगा क्योंकि बड़ी मात्रा में शीर्षों को पार करने की आवश्यकता के कारण पथ अस्पष्टता का एक उच्च स्तर हमारे सामने आ सकती है।
-*के-मर्स छोटे हो जाने से जानकारी नष्ट हो जाती है।
+*के -अधिक  छोटे हो जाने से जानकारी नष्ट हो जाती है।
-**'उदा. 'AGTसीजीTAGATGCTG की संभावना AसीजीT से न्यूनतम  है, और इस प्रकार, अधिक मात्रा में जानकारी रखती है (अधिक जानकारी के लिए [[एन्ट्रापी (सूचना सिद्धांत)]] देखें)।
+**'उदा. 'AGTCGTAGATGCTG की संभावना ACGT से न्यूनतम  है, और इस प्रकार, अधिक मात्रा में जानकारी रखती है।
-*छोटे के-मर्स में डीएनए में उन क्षेत्रों को हल करने में सक्षम नहीं होने की भी समस्या होती है जहां छोटे [[सूक्ष्म उपग्रह]] या दोहराव होते हैं। ऐसा इसलिए है क्योंकि छोटे के-मर्स पूरी तरह से दोहराव क्षेत्र के भीतर बैठे रहेंगे और इसलिए यह निर्धारित करना कठिन है कि वास्तव में कितनी पुनरावृत्ति हुई है।
+*छोटे के -अधिक  में डीएनए में उन क्षेत्रों को हल करने में सक्षम नहीं होने की भी समस्या होती है जहां छोटे [[सूक्ष्म उपग्रह]] या दोहराव होते हैं। ऐसा इसलिए है क्योंकि छोटे के -अधिक  पूरी तरह से दोहराव क्षेत्र के अंदर  बैठे रहेंगे और इसलिए यह निर्धारित करना कठिन है कि वास्तव में कितनी पुनरावृत्ति हुई है।
-**'उदा. 'अनुवर्ती ATGTGTGTGTGTGTAसीजी के लिए, यदि 16 से न्यूनतम  के-मेर आकार चुना जाता है, तो टीजी की पुनरावृत्ति की मात्रा खो जाएगी। ऐसा इसलिए है क्योंकि अधिकांश के-मेर दोहराए गए क्षेत्र में बैठेंगे और दोहराव की मात्रा को संदर्भित करने के बजाय उसी के-मेर के दोहराव के रूप में खारिज कर दिया जा सकता है।
+**'उदा. 'अनुवर्ती ATGTGTGTGTGTGTACG के लिए, यदि 16 से न्यूनतम  के-मेर आकार चुना जाता है, तो टीजी की पुनरावृत्ति की मात्रा खो जाएगी। ऐसा इसलिए है क्योंकि अधिकांश के-मेर दोहराए गए क्षेत्र में बैठेंगे और पुनरावृत्ति की मात्रा को संदर्भित करने के अतिरिक्त   उसी के-मेर के पुनरावृत्ति के रूप में खारिज कर दिया जा सकता है।
 =====उच्च के-मेर आकार=====
-*बड़े आकार के k-mers होने से ग्राफ़ में किनारों की संख्या बढ़ जाएगी, जिसके परिणामस्वरूप, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा बढ़ जाएगी।
+*बड़े आकार के के -अधिक  होने से ग्राफ़ में किनारों की संख्या बढ़ जाएगी, जिसके परिणामस्वरूप, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा बढ़ जाएगी।
-*के-मर्स का आकार बढ़ाने से शीर्षों की संख्या भी न्यूनतम  हो जाएगी। इससे जीनोम के निर्माण में मदद मिलेगी क्योंकि ग्राफ़ में पार करने के लिए न्यूनतम  रास्ते होंगे।<ref name="debruijn-2" />*बड़े k-mers में प्रत्येक k-mer से बाहरी शीर्ष न होने का जोखिम भी अधिक होता है। यह बड़े k-mers के कारण यह जोखिम बढ़ रहा है कि यह किसी अन्य k-mer के साथ ओवरलैप नहीं होगा <math>k-1</math>. इसलिए, इससे रीड्स में गड़बड़ी हो सकती है, और इस तरह, अधिक मात्रा में छोटे [[ संपर्क ]]्स हो सकते हैं।
+*के -अधिक  का आकार बढ़ाने से शीर्षों की संख्या भी न्यूनतम  हो जाएगी। इससे जीनोम के निर्माण में सहायता मिलेगी क्योंकि ग्राफ़ में पार करने के लिए न्यूनतम  रास्ते होंगे।<ref name="debruijn-2" />*
-*बड़े के-मेर आकार छोटे दोहराव वाले क्षेत्रों की समस्या को न्यूनतम  करने में मदद करते हैं। यह इस तथ्य के कारण है कि के-मेर में दोहराव क्षेत्र और निकटवर्ती डीएनए अनुक्रमों का संतुलन होगा (बशर्ते यह पर्याप्त बड़ा आकार हो) जो उस विशेष क्षेत्र में दोहराव की मात्रा को हल करने में मदद कर सकता है।
+*बड़े के -अधिक  में प्रत्येक के -अधिक  से बाहरी शीर्ष न होने का जोखिम भी अधिक होता है। यह बड़े के -अधिक  के कारण यह जोखिम बढ़ रहा है कि यह किसी अन्य k-mer के साथ <math>k-1</math> ओवरलैप नहीं होगा . इसलिए, इससे रीड्स में गड़बड़ी हो सकती है, और इस तरह, अधिक मात्रा में छोटे [[ संपर्क | संपर्क]] हो सकते हैं।
+*बड़े के-मेर आकार छोटे पुनरावृत्ति वाले क्षेत्रों की समस्या को न्यूनतम  करने में सहायता करते हैं। यह इस तथ्य के कारण है कि के-मेर में पुनरावृत्ति क्षेत्र और निकटवर्ती डीएनए अनुक्रमों का संतुलन होगा (बशर्ते यह पर्याप्त बड़ा आकार हो) जो उस विशेष क्षेत्र में पुनरावृत्ति की मात्रा को हल करने में सहायता कर सकता है।
 === आनुवंशिकी और जीनोमिक्स ===
-रोग के संबंध में, रोगजनकता से जुड़े आनुवंशिक द्वीपों का पता लगाने के लिए द्विनाभिपूर्वक पूर्वाग्रह को लागू किया गया है।<ref name=":1" />पहले के काम से यह भी पता चला है कि टेट्रान्यूक्लियोटाइड पूर्वाग्रह दोनों प्रोकैरियोट्स में [[क्षैतिज जीन स्थानांतरण]] का प्रभावी ढंग से पता लगाने में सक्षम हैं<ref>{{Cite journal|last1=Goodur|first1=Haswanee D.|last2=Ramtohul|first2=Vyasanand|last3=Baichoo|first3=Shakuntala|date=2012-11-11|title=GIDT — A tool for the identification and visualization of genomic islands in prokaryotic organisms|journal=2012 IEEE 12th International Conference on Bioinformatics & Bioengineering (BIBE)|pages=58–63|doi=10.1109/bibe.2012.6399707|isbn=978-1-4673-4358-9|s2cid=6368495}}</ref> और यूकेरियोट्स।<ref>{{Cite journal|last1=Jaron|first1=K. S.|last2=Moravec|first2=J. C.|last3=Martinkova|first3=N.|date=2014-04-15|title=SigHunt: horizontal gene transfer finder optimized for eukaryotic genomes|journal=Bioinformatics|language=en|volume=30|issue=8|pages=1081–1086|doi=10.1093/bioinformatics/btt727|pmid=24371153|issn=1367-4803|doi-access=free}}</ref>
+रोग संबंधी मामले में, द्विनुकलोटाइड अधिकार को रोगाणुता से जुड़े आनुवंशिक द्वीपों की पहचान में प्रारंभ किया जा चुका है।<ref name=":1" /> पूर्व अध्ययन ने यह भी दर्शाया है कि चतुर्णुकलोटाइड अधिकार प्रोकर्योट्स<ref>{{Cite journal|last1=Goodur|first1=Haswanee D.|last2=Ramtohul|first2=Vyasanand|last3=Baichoo|first3=Shakuntala|date=2012-11-11|title=GIDT — A tool for the identification and visualization of genomic islands in prokaryotic organisms|journal=2012 IEEE 12th International Conference on Bioinformatics & Bioengineering (BIBE)|pages=58–63|doi=10.1109/bibe.2012.6399707|isbn=978-1-4673-4358-9|s2cid=6368495}}</ref> और यूकर्योट्स<ref>{{Cite journal|last1=Jaron|first1=K. S.|last2=Moravec|first2=J. C.|last3=Martinkova|first3=N.|date=2014-04-15|title=SigHunt: horizontal gene transfer finder optimized for eukaryotic genomes|journal=Bioinformatics|language=en|volume=30|issue=8|pages=1081–1086|doi=10.1093/bioinformatics/btt727|pmid=24371153|issn=1367-4803|doi-access=free}}</ref> में [[क्षैतिज जीन स्थानांतरण]] की सक्षमता को सफलतापूर्वक देख सकते हैं।
-के-मर्स का एक अन्य अनुप्रयोग जीनोमिक्स-आधारित वर्गीकरण में है। उदाहरण के लिए, जीसी-सामग्री का उपयोग मध्यम सफलता के साथ [[एर्विनिया]] की प्रजातियों के मध्य  अंतर करने के लिए किया गया है।<ref>{{Cite journal|last1=Starr|first1=M. P.|last2=Mandel|first2=M.|date=1969-04-01|title=फाइटोपैथोजेनिक और अन्य एंटरोबैक्टीरिया की डीएनए बेस संरचना और वर्गीकरण|journal=Journal of General Microbiology|language=en|volume=56|issue=1|pages=113–123|doi=10.1099/00221287-56-1-113|pmid=5787000|issn=0022-1287|doi-access=free}}</ref> वर्गीकरण उद्देश्यों के लिए जीसी-सामग्री के प्रत्यक्ष उपयोग के समान टी का उपयोग है<small>m</small>, डीएनए का पिघलने का तापमान। चूँकि GC बांड अधिक ऊष्मीय रूप से स्थिर होते हैं, उच्च GC सामग्री वाले अनुक्रम उच्च T प्रदर्शित करते हैं<small>m</small>. 1987 में, बैक्टीरियल सिस्टमैटिक्स के दृष्टिकोण के समाधान पर तदर्थ समिति ने ΔT के उपयोग का प्रस्ताव रखा<small>m</small> प्रजाति #फ़ाइलोजेनेटिक, क्लैडिस्टिक, या विकासवादी प्रजातियों के हिस्से के रूप में प्रजातियों की सीमाओं को निर्धारित करने में कारक के रूप में, यद्यपि इस प्रस्ताव को वैज्ञानिक समुदाय के भीतर आकर्षण प्राप्त नहीं हुआ है।<ref>{{Cite journal|last1=Moore|first1=W. E. C.|last2=Stackebrandt|first2=E.|last3=Kandler|first3=O.|last4=Colwell|first4=R. R.|last5=Krichevsky|first5=M. I.|last6=Truper|first6=H. G.|last7=Murray|first7=R. G. E.|last8=Wayne|first8=L. G.|last9=Grimont|first9=P. A. D.|date=1987-10-01|title=बैक्टीरियल सिस्टमैटिक्स के दृष्टिकोण के समाधान पर तदर्थ समिति की रिपोर्ट|journal=International Journal of Systematic and Evolutionary Microbiology|language=en|volume=37|issue=4|pages=463–464|doi=10.1099/00207713-37-4-463|issn=1466-5026|doi-access=free}}</ref>
-आनुवंशिकी और जीनोमिक्स के अन्य अनुप्रयोगों में सम्मिलित  हैं:
-* [[RNA-Seq]]|RNA-seq डेटा से [[जीन आइसोफॉर्म]] मात्रा का ठहराव<ref>{{cite journal|author=Patro, Mount, Kingsford|year=2014|title=सेलफ़िश हल्के एल्गोरिदम का उपयोग करके आरएनए-सीक्यू रीड्स से संरेखण-मुक्त आइसोफॉर्म मात्रा का ठहराव सक्षम करता है|journal=Nature Biotechnology|volume=32|issue=5|pages=462–464|arxiv=1308.3700|doi=10.1038/nbt.2862|pmc=4077321|pmid=24752080}}</ref> * मानव माइटोकॉन्ड्रियल [[हैप्लोग्रुप]] का वर्गीकरण<ref>{{cite journal|author=Navarro-Gomez|display-authors=etal|year=2015|title=Phy-Mer: a novel alignment-free and reference-independent mitochondrial haplogroup classifier|journal=Bioinformatics|volume=31|issue=8|pages=1310–1312|doi=10.1093/bioinformatics/btu825|pmc=4393525|pmid=25505086}}</ref> * जीनोम में पुनर्संयोजन स्थलों का पता लगाना<ref>{{Cite journal|last1=Wang|first1=Rong|last2=Xu|first2=Yong|last3=Liu|first3=Bin|date=2016|title=गैप्ड के-मर्स के आधार पर पुनर्संयोजन स्थान की पहचान|journal=Scientific Reports|language=en|volume=6|issue=1|pages=23934|doi=10.1038/srep23934|pmid=27030570|pmc=4814916|issn=2045-2322|bibcode=2016NatSR...623934W}}</ref> * के-मेर आवृत्ति बनाम के-मेर गहराई का उपयोग करके जीनोम आकार का अनुमान<ref>{{Citation|last1=Hozza|first1=Michal|title=How Big is that Genome? Estimating Genome Size and Coverage from k-mer Abundance Spectra|date=2015|work=String Processing and Information Retrieval|volume=9309|pages=199–209|editor-last=Iliopoulos|editor-first=Costas|publisher=Springer International Publishing|doi=10.1007/978-3-319-23826-5_20|isbn=9783319238258|last2=Vinař|first2=Tomáš|last3=Brejová|first3=Broňa|editor2-last=Puglisi|editor2-first=Simon|editor3-last=Yilmaz|editor3-first=Emine}}</ref><ref>{{Cite journal|last1=Lamichhaney|first1=Sangeet|last2=Fan|first2=Guangyi|last3=Widemo|first3=Fredrik|last4=Gunnarsson|first4=Ulrika|last5=Thalmann|first5=Doreen Schwochow|last6=Hoeppner|first6=Marc P|last7=Kerje|first7=Susanne|last8=Gustafson|first8=Ulla|last9=Shi|first9=Chengcheng|date=2016|title=रफ़ में वैकल्पिक प्रजनन रणनीतियों के अंतर्गत संरचनात्मक जीनोमिक परिवर्तन होते हैं (फिलोमाचस पुग्नैक्स)|journal=Nature Genetics|language=en|volume=48|issue=1|pages=84–88|doi=10.1038/ng.3430|pmid=26569123|issn=1061-4036|doi-access=free}}</ref>
+क-मरों का एक और अनुप्रयोग जीनोमिक्स-आधारित टैक्सोनोमी में होता है। उदाहरण के रूप में, मध्यम सफलता के साथ [[एर्विनिया]] के प्रजातियों के मध्य जीसी-सामग्री का उपयोग किया गया है।<ref>{{Cite journal|last1=Starr|first1=M. P.|last2=Mandel|first2=M.|date=1969-04-01|title=फाइटोपैथोजेनिक और अन्य एंटरोबैक्टीरिया की डीएनए बेस संरचना और वर्गीकरण|journal=Journal of General Microbiology|language=en|volume=56|issue=1|pages=113–123|doi=10.1099/00221287-56-1-113|pmid=5787000|issn=0022-1287|doi-access=free}}</ref> टैक्सोनोमी के लिए जीसी-सामग्री के सीधे उपयोग के समान ही डीएनए की मेल्टिंग तापमान, अर्थात  टीएम, का उपयोग किया जाता है।<ref>{{Cite journal|last1=Moore|first1=W. E. C.|last2=Stackebrandt|first2=E.|last3=Kandler|first3=O.|last4=Colwell|first4=R. R.|last5=Krichevsky|first5=M. I.|last6=Truper|first6=H. G.|last7=Murray|first7=R. G. E.|last8=Wayne|first8=L. G.|last9=Grimont|first9=P. A. D.|date=1987-10-01|title=बैक्टीरियल सिस्टमैटिक्स के दृष्टिकोण के समाधान पर तदर्थ समिति की रिपोर्ट|journal=International Journal of Systematic and Evolutionary Microbiology|language=en|volume=37|issue=4|pages=463–464|doi=10.1099/00207713-37-4-463|issn=1466-5026|doi-access=free}}</ref> क्योंकि जीसी बॉन्ड अधिक तापतन स्थिर होते हैं, जीसी सामग्री वाले संकेत में उच्च टीएम प्रदर्शित करती है। 1987 में, बैक्टीरियल सिस्टमाटिक्स के प्रति दृष्टिकोण को समाधान करने के लिए एड हॉक समिति ने फाइटोजेनेटिक प्रजाति संकल्प के हिस्से के रूप में जाति सीमाओं की निर्धारण में डेल्टा टीएम का उपयोग करने की प्रार्थना की, यद्यपि यह प्रार्थना वैज्ञानिक समुदाय में प्रभावी नहीं रही है।
-* फ़्लैंकिंग क्षेत्रों द्वारा सीपीजी साइट की विशेषता<ref>{{cite journal|author=Chae|display-authors=etal|year=2013|title=के-मेर और के-फ़्लैंक पैटर्न