के-मेर: Difference between revisions
From Vigyanwiki
No edit summary |
|||
| Line 1: | Line 1: | ||
{{broader|एन-ग्राम}} | {{broader|एन-ग्राम}} | ||
{{DISPLAYTITLE:''k''-mer}} | {{DISPLAYTITLE:''k''-mer}} | ||
[[File:K-mer diagram.svg|thumb|अनुक्रम ATGG में दो 3-मेर हैं: ATG और | [[File:K-mer diagram.svg|thumb|अनुक्रम ATGG में दो 3-मेर हैं: ATG और TGG ity।]]जैव सूचना विज्ञान के अंतर्गत, '''के -अधिक''' जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले लंबाई <math>k</math> के [[सबस्ट्रिंग|उपरज्जु]] को कहते हैं। प्रमुख रूप से [[कम्प्यूटेशनल जीनोमिक्स|संगणनात्मक जीनोमिक्स]] और [[अनुक्रम विश्लेषण]] के संदर्भ में उपयोग होते हैं, जहां के-अधिक्स [[न्यूक्लियोटाइड|आणविकों]] (अर्थात् A, T, G और C) से मिलकर बने होते हैं।<ref>{{Cite journal|last1=Compeau|first1=Phillip E C|last2=Pevzner|first2=Pavel A|last3=Tesler|first3=Glenn|date=November 2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|language=en|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmid=22068540|pmc=5531759|issn=1087-0156}}</ref> के-अधिक्स का उपयोग डीएनए संकलन, परजीवी जीन<ref name=":4">{{Cite journal|last1=Welch|first1=Mark|last2=Govindarajan|first2=Sridhar|last3=Ness|first3=Jon E.|last4=Villalobos|first4=Alan|last5=Gurney|first5=Austin|last6=Minshull|first6=Jeremy|last7=Gustafsson|first7=Claes|date=2009-09-14|editor-last=Kudla|editor-first=Grzegorz|title=एस्चेरिचिया कोलाई में सिंथेटिक जीन अभिव्यक्ति को नियंत्रित करने के लिए डिज़ाइन पैरामीटर|journal=PLOS ONE|language=en|volume=4|issue=9|pages=e7002|doi=10.1371/journal.pone.0007002|pmid=19759823|pmc=2736378|issn=1932-6203|bibcode=2009PLoSO...4.7002W|doi-access=free}}</ref><ref name=":6">{{Cite journal|last1=Gustafsson|first1=Claes|last2=Govindarajan|first2=Sridhar|last3=Minshull|first3=Jeremy|date=July 2004|title=कोडन पूर्वाग्रह और विषम प्रोटीन अभिव्यक्ति|journal=Trends in Biotechnology|language=en|volume=22|issue=7|pages=346–353|doi=10.1016/j.tibtech.2004.04.006|pmid=15245907}}</ref> अभिव्यक्ति को सुधारने, मेटाजेनोमिक<ref name=":0">{{Cite journal|last1=Perry|first1=Scott C.|last2=Beiko|first2=Robert G.|date=2010-01-01|title=Distinguishing Microbial Genome Fragments Based on Their Composition: Evolutionary and Comparative Genomic Perspectives|journal=Genome Biology and Evolution|language=en|volume=2|pages=117–131|doi=10.1093/gbe/evq004|pmid=20333228|pmc=2839357|issn=1759-6653}}</ref> सैंपल में प्रजातियों की पहचान, और [[क्षीण टीका]]करण<ref>{{Cite journal|last1=Eschke|first1=Kathrin|last2=Trimpert|first2=Jakob|last3=Osterrieder|first3=Nikolaus|last4=Kunec|first4=Dusan|date=2018-01-29|editor-last=Mocarski|editor-first=Edward|title=कोडन जोड़ी पूर्वाग्रह डीऑप्टिमाइजेशन द्वारा एक बहुत ही विषैले मारेक रोग हर्पीसवायरस (एमडीवी) का क्षीणन|journal=PLOS Pathogens|language=en|volume=14|issue=1|pages=e1006857|doi=10.1371/journal.ppat.1006857|pmid=29377958|issn=1553-7374|pmc=5805365}}</ref> बनाने के लिए किया जाता है। सामान्यतया, के-अधिक्स शब्द का उपयोग लंबाई L के एक अनुक्रम के सभी उपस्त्रिंशों के लिए किया जाता है, जिसका अर्थ होता है कि एक अनुक्रम AGAT के चार [[मोनोमर]] (A, G, A और T), तीन 2-मर्स (AG, GA, AT), दो 3-मर्स (AGA और GAT) और एक 4-मर्स (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई <math>L</math> वाले एक अनुक्रम में <math>L - k + 1</math> के-अधिक्स होंगे और <math>n^{k}</math> कुल संभव के-अधिक्स होंगे, यहां <math>n</math> संभावित मोनोमरों की संख्या है। | ||
== परिचय == | == परिचय == | ||
के-मेर्स केवल लंबाई <math>k</math> हैं ,परिणामस्वरूप . उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित | के-मेर्स केवल लंबाई <math>k</math> हैं ,परिणामस्वरूप . उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित के -अधिक निम्न दर्शाये गए हैं: | ||
[[File:E. coli 8-mer spectrum.svg|thumb | [[File:E. coli 8-mer spectrum.svg|thumb|ई के लिए 8-मेर स्पेक्ट्रम का एक उदाहरण दर्शाया गया है। कोलाई 8-मेर्स आवृत्ति (अर्थात् बहुलता) की तुलना उनकी घटनाओं की संख्या से कर रहा है।|alt=|440x440px]] | ||
{| class="wikitable" | {| class="wikitable" | ||
|+जीटीएजीजीसीटीजीटी के लिए के-मेर्स | |+जीटीएजीजीसीटीजीटी के लिए के-मेर्स | ||
!''k'' | !''k'' | ||
!के- | !के -अधिक | ||
|- | |- | ||
|1 | |1 | ||
| Line 53: | Line 53: | ||
जीसी-सामग्री पूर्वाग्रहों पर चर्चा करने वाले साहित्य के तुलनात्मक रूप से बड़े समूह के अतिरिक्त , द्विनाभिपूर्वक पूर्वाग्रहों के बारे में अपेक्षाकृत न्यूनतम लिखा गया है। यह ज्ञात है कि जीसी-सामग्री के विपरीत, ये द्विनाभिपूर्वक पूर्वाग्रह पूरे जीनोम में अपेक्षाकृत स्थिर होते हैं, जैसा कि ऊपर देखा गया है, काफी भिन्न हो सकते हैं।<ref name=":3">{{Cite journal|last=Karlin|first=Samuel|date=October 1998|title=वैश्विक डाइन्यूक्लियोटाइड हस्ताक्षर और जीनोमिक विविधता का विश्लेषण|journal=Current Opinion in Microbiology|language=en|volume=1|issue=5|pages=598–610|doi=10.1016/S1369-5274(98)80095-7|pmid=10066522}}</ref> यह एक महत्वपूर्ण अंतर्दृष्टि है जिसे नजरअंदाज नहीं किया जाना चाहिए। यदि द्विनाभिपूर्वक पूर्वाग्रह अनुवाद के परिणामस्वरूप दबाव के अधीन थे, तो [[कोडिंग क्षेत्र]] और [[गैर-कोडिंग डीएनए]] क्षेत्रों में द्विनाभिपूर्वक पूर्वाग्रह के पृथक -पृथक पैटर्न होंगे जो कुछ डाइनुसेलोटाइड्स की न्यूनतम अनुवादात्मक दक्षता से प्रेरित होते होंगे।<ref>{{Cite journal|last1=Beutler|first1=E.|last2=Gelbart|first2=T.|last3=Han|first3=J. H.|last4=Koziol|first4=J. A.|last5=Beutler|first5=B.|date=1989-01-01|title=Evolution of the genome and the genetic code: selection at the dinucleotide level by methylation and polyribonucleotide cleavage.|journal=Proceedings of the National Academy of Sciences|language=en|volume=86|issue=1|pages=192–196|doi=10.1073/pnas.86.1.192|pmid=2463621|pmc=286430|issn=0027-8424|bibcode=1989PNAS...86..192B|doi-access=free}}</ref> क्योंकि ऐसा नहीं है, इसलिए यह निष्कर्ष निकाला जा सकता है कि द्विनाभिपूर्वक पक्ष को मोड़ने वाले बल अनुवाद से अस्पष्ट हैं। द्विनाभिपूर्वक पक्षों के अनुवादिक परिकल्पना को प्रभावित करने के विरोधी प्रमाण है कि वायरसों के द्विनाभिपूर्वक पक्ष उनके मात्रिका परिवार से अधिक परिवर्तित करते हैं, जो उनके मेजबानों के अनुवादिक यंत्रों को वायरल परिवारों के विरुद्ध परिवर्तित करते हैं।।<ref>{{Cite journal|last1=Di Giallonardo|first1=Francesca|last2=Schlub|first2=Timothy E.|last3=Shi|first3=Mang|last4=Holmes|first4=Edward C.|date=2017-04-15|editor-last=Dermody|editor-first=Terence S.|title=पशु आरएनए वायरस में डाइन्यूक्लियोटाइड संरचना मेजबान प्रजातियों की तुलना में वायरस परिवार द्वारा अधिक आकार में होती है|journal=Journal of Virology|language=en|volume=91|issue=8|doi=10.1128/JVI.02381-16|pmid=28148785|pmc=5375695|issn=0022-538X}}</ref> | जीसी-सामग्री पूर्वाग्रहों पर चर्चा करने वाले साहित्य के तुलनात्मक रूप से बड़े समूह के अतिरिक्त , द्विनाभिपूर्वक पूर्वाग्रहों के बारे में अपेक्षाकृत न्यूनतम लिखा गया है। यह ज्ञात है कि जीसी-सामग्री के विपरीत, ये द्विनाभिपूर्वक पूर्वाग्रह पूरे जीनोम में अपेक्षाकृत स्थिर होते हैं, जैसा कि ऊपर देखा गया है, काफी भिन्न हो सकते हैं।<ref name=":3">{{Cite journal|last=Karlin|first=Samuel|date=October 1998|title=वैश्विक डाइन्यूक्लियोटाइड हस्ताक्षर और जीनोमिक विविधता का विश्लेषण|journal=Current Opinion in Microbiology|language=en|volume=1|issue=5|pages=598–610|doi=10.1016/S1369-5274(98)80095-7|pmid=10066522}}</ref> यह एक महत्वपूर्ण अंतर्दृष्टि है जिसे नजरअंदाज नहीं किया जाना चाहिए। यदि द्विनाभिपूर्वक पूर्वाग्रह अनुवाद के परिणामस्वरूप दबाव के अधीन थे, तो [[कोडिंग क्षेत्र]] और [[गैर-कोडिंग डीएनए]] क्षेत्रों में द्विनाभिपूर्वक पूर्वाग्रह के पृथक -पृथक पैटर्न होंगे जो कुछ डाइनुसेलोटाइड्स की न्यूनतम अनुवादात्मक दक्षता से प्रेरित होते होंगे।<ref>{{Cite journal|last1=Beutler|first1=E.|last2=Gelbart|first2=T.|last3=Han|first3=J. H.|last4=Koziol|first4=J. A.|last5=Beutler|first5=B.|date=1989-01-01|title=Evolution of the genome and the genetic code: selection at the dinucleotide level by methylation and polyribonucleotide cleavage.|journal=Proceedings of the National Academy of Sciences|language=en|volume=86|issue=1|pages=192–196|doi=10.1073/pnas.86.1.192|pmid=2463621|pmc=286430|issn=0027-8424|bibcode=1989PNAS...86..192B|doi-access=free}}</ref> क्योंकि ऐसा नहीं है, इसलिए यह निष्कर्ष निकाला जा सकता है कि द्विनाभिपूर्वक पक्ष को मोड़ने वाले बल अनुवाद से अस्पष्ट हैं। द्विनाभिपूर्वक पक्षों के अनुवादिक परिकल्पना को प्रभावित करने के विरोधी प्रमाण है कि वायरसों के द्विनाभिपूर्वक पक्ष उनके मात्रिका परिवार से अधिक परिवर्तित करते हैं, जो उनके मेजबानों के अनुवादिक यंत्रों को वायरल परिवारों के विरुद्ध परिवर्तित करते हैं।।<ref>{{Cite journal|last1=Di Giallonardo|first1=Francesca|last2=Schlub|first2=Timothy E.|last3=Shi|first3=Mang|last4=Holmes|first4=Edward C.|date=2017-04-15|editor-last=Dermody|editor-first=Terence S.|title=पशु आरएनए वायरस में डाइन्यूक्लियोटाइड संरचना मेजबान प्रजातियों की तुलना में वायरस परिवार द्वारा अधिक आकार में होती है|journal=Journal of Virology|language=en|volume=91|issue=8|doi=10.1128/JVI.02381-16|pmid=28148785|pmc=5375695|issn=0022-538X}}</ref> | ||
जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार [[सीजी दमन]] है, जो मिथाइलेशन सीजी द्विनाभिपूर्वकों की [[डीमिनेशन]] के कारण [[सीपीजी साइट]] 2-मेर्स की आवृत्ति को न्यूनतम कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री न्यूनतम हो जाती है।<ref>{{Cite journal|last1=Żemojtel|first1=Tomasz|last2=kiełbasa|first2=Szymon M.|last3=Arndt|first3=Peter F.|last4=Behrens|first4=Sarah|last5=Bourque|first5=Guillaume|last6=Vingron|first6=Martin|date=2011-01-01|title=CpG Deamination Creates Transcription Factor–Binding Sites with High Efficiency|journal=Genome Biology and Evolution|language=en|volume=3|pages=1304–1311|doi=10.1093/gbe/evr107|pmid=22016335|pmc=3228489|issn=1759-6653}}</ref> यह इंटरैक्शन k के पृथक -पृथक मानों के लिए | जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार [[सीजी दमन]] है, जो मिथाइलेशन सीजी द्विनाभिपूर्वकों की [[डीमिनेशन]] के कारण [[सीपीजी साइट]] 2-मेर्स की आवृत्ति को न्यूनतम कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री न्यूनतम हो जाती है।<ref>{{Cite journal|last1=Żemojtel|first1=Tomasz|last2=kiełbasa|first2=Szymon M.|last3=Arndt|first3=Peter F.|last4=Behrens|first4=Sarah|last5=Bourque|first5=Guillaume|last6=Vingron|first6=Martin|date=2011-01-01|title=CpG Deamination Creates Transcription Factor–Binding Sites with High Efficiency|journal=Genome Biology and Evolution|language=en|volume=3|pages=1304–1311|doi=10.1093/gbe/evr107|pmid=22016335|pmc=3228489|issn=1759-6653}}</ref> यह इंटरैक्शन k के पृथक -पृथक मानों के लिए के -अधिक को प्रभावित करने वाली शक्ति के मध्य अंतर्संबंध पर प्रकाश डालता है। | ||
द्विनाभिपूर्वक पक्ष के एक रोचक तथ्य यह है कि यह जीनवंशीय रूप से समान प्राणीजातीय जीनोम के मध्य एक "दूरी" माप के रूप में कार्य कर सकता है। घनिष्ठ रूप से संबंधित संगठनों के जीनोम के मध्य तुलनात्मक रूप से दूर संबंधित संगठनों के जोड़ों के मध्य द्विनाभिपूर्वक पक्ष अधिक समान होते हैं।<ref name=":3" /> | द्विनाभिपूर्वक पक्ष के एक रोचक तथ्य यह है कि यह जीनवंशीय रूप से समान प्राणीजातीय जीनोम के मध्य एक "दूरी" माप के रूप में कार्य कर सकता है। घनिष्ठ रूप से संबंधित संगठनों के जीनोम के मध्य तुलनात्मक रूप से दूर संबंधित संगठनों के जोड़ों के मध्य द्विनाभिपूर्वक पक्ष अधिक समान होते हैं।<ref name=":3" /> | ||
| Line 67: | Line 67: | ||
=== अनुक्रम संयोजन === | === अनुक्रम संयोजन === | ||
[[File:k-mer-example.png|thumb|यह आंकड़ा डी ब्रूजन ग्राफ में उपयोग करने में सक्षम होने के लिए रीड्स को छोटे के-मेर्स (इस मामले में 4-मेर्स) में विभाजित करने की प्रक्रिया को दर्शाता है। (ए) अनुक्रमित किए जा रहे डीएनए के प्रारंभिक खंड को दर्शाता है। (बी) उन रीड्स को | [[File:k-mer-example.png|thumb|यह आंकड़ा डी ब्रूजन ग्राफ में उपयोग करने में सक्षम होने के लिए रीड्स को छोटे के-मेर्स (इस मामले में 4-मेर्स) में विभाजित करने की प्रक्रिया को दर्शाता है। (ए) अनुक्रमित किए जा रहे डीएनए के प्रारंभिक खंड को दर्शाता है। (बी) उन रीड्स को दर्शाता है जिन्हें अनुक्रमण से आउटपुट बनाया गया था और यह भी दर्शाता है कि वे कैसे संरेखित होते हैं।यद्यपि इस संरेखण के साथ समस्या यह है कि वे k-2 से ओवरलैप होते हैं, k-1 से नहीं (जो कि डी ब्रुइज़न ग्राफ़ में आवश्यक है)। (सी) रीड्स को छोटे 4-मेर्स में विभाजित होते हुए दर्शाता है। (डी) बार-बार 4-मेर्स को हटा देता है और पुनः उनका संरेखण दर्शाता है। ध्यान दें कि ये के -अधिक k-1 द्वारा ओवरलैप होते हैं और पुनः इन्हें डी ब्रुइज़न ग्राफ़ में उपयोग किया जा सकता है।|alt=|700x700px]]सिरणी संचालन में, क-मर्स का उपयोग दे ब्रुइन ग्राफ के निर्माण के दौरान किया जाता है।<ref>{{Cite journal|last1=Nagarajan|first1=Niranjan|last2=Pop|first2=Mihai|date=2013|title=अनुक्रम संयोजन का रहस्योद्घाटन किया गया|journal=Nature Reviews Genetics|language=en|volume=14|issue=3|pages=157–167|doi=10.1038/nrg3367|pmid=23358380|s2cid=3519991|issn=1471-0056}}</ref><ref>{{cite journal|author=Li|display-authors=etal|year=2010|title=बड़े पैमाने पर समानांतर लघु पठन अनुक्रमण के साथ मानव जीनोम की डे नोवो असेंबली|journal=Genome Research|volume=20|issue=2|pages=265–272|doi=10.1101/gr.097261.109|pmc=2813482|pmid=20019144}}</ref> डी ब्रुइन ग्राफ बनाने के लिए, प्रत्येक सिरा में संग्रहीत क-मर्स को संग्रहीत किया जाना चाहिए, जिसकी लंबाई <math> L</math> होती है, और इसे एक दूसरे सिरे में 𝐿 − 1 द्वारा ओवरलैप करना चाहिए क्योंकि एक वर्टेक्स बनाया जा सके। अगली पीढ़ी अनुक्रम द्वारा उत्पन्न किए जाने वाले रीड के सामान्यतः विभिन्न रीड लंबाई होती हैं। उदाहरण के लिए, आईल्यूमिना की अनुक्रम प्रौद्योगिकी द्वारा 100-मर की रीड को दर्ज किया जाता है। यद्यपि , अनुक्रम में पाए जाने वाले संपूर्ण संभावित 100-मर में से केवल छोटा हिस्सा वास्तव में उत्पन्न होता है। इसका कारण है रीड त्रुटियाँ, परंतु अधिक महत्वपूर्ण है, अनुक्रम के दौरान संचालन होने वाले सीधे कवरेज को दी जाती है। समस्या यह है कि इन संभावित के-अधिक के छोटे हिस्से दे ब्रुइन ग्राफ की मुख्य मान्यता को उल्लंघन करते हैं, जहां सभी के-अधिक रीड्स को संचालन में आग्रहित होने की अपेक्षा होती है कि इसके पास अपने पड़ोसी के-अधिक से <math>k-1</math> के माध्यम से ओवरलैप हो जाता है। | ||
इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर्स में | इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर्स में विभाजित होता है, क्योंकि परिणामी छोटे के-मेर्स उस छोटे आकार के सभी संभावित के-मेर्स का प्रतिनिधित्व करेंगे जो जीनोम में उपस्थित होते हैं।<ref name="debruijn">{{cite journal|last1=Compeau|first1=P.|last2=Pevzner|first2=P.|last3=Teslar|first3=G.|year=2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmc=5531759|pmid=22068540}}</ref> इसके अलावा, के -अधिक को छोटे आकारों में विभाजित करने से विभिन्न प्रारंभिक पढ़ने की लंबाई की समस्या को न्यूनतम करने में भी सहायता मिलती है। इस उदाहरण में, पांच रीड्स जीनोम के सभी संभावित 7-मेर्स का लेखा जोखा नहीं देते हैं, और इस प्रकार, एक डी ब्रुइज़न ग्राफ़ नहीं बनाया जा सकता है। परंतु , जब उन्हें 4-मेर्स में विभाजित किया जाता है, तो परिणामस्वरूप उपक्रम दे ब्रुइन ग्राफ का उपयोग करके जीनोम का पुनर्निर्माण करने के लिए पर्याप्त होते हैं। | ||
अनुक्रम संचालन के लिए सीधे उपयोग किए जाने के अलावा, के -अधिक का उपयोग जीनोम मिस-संचालन का पता लगाने के लिए भी किया जा सकता है, जो कि अधिक प्रस्तुत किए गए के -अधिक की पहचान करके होता है जो संयुक्त किए गए दोहराए गए अनुक्रम (डीएनए) की उपस्थिति का सुझाव देता है।<ref>{{cite journal|author=Phillippy, Schatz, Pop|year=2008|title=Genome assembly forensics: finding the elusive mis-assembly|journal=Bioinformatics|volume=9|issue=3|page=R55|doi=10.1186/gb-2008-9-3-r55|pmc=2397507|pmid=18341692}}</ref> इसके अलावा, के -अधिक का उपयोग यूकेरियोटिक जीनोम संचालन के दौरान जीवाणु संदूषण का पता लगाने के लिए भी किया जाता है,जो मेटाजेनोमिक्स के क्षेत्र से लाए गए एक दृष्टिकोण से उधारण किया गया है।<ref>{{cite journal|author=Delmont, Eren|year=2016|title=Identifying contamination with advanced visualization and analysis practices: metagenomic approaches for eukaryotic genome assemblies|journal=PeerJ|volume=4|page=e1839|doi=10.7717/peerj.1839|pmid=27069789|pmc=4824900}}</ref><ref>{{cite journal|author=Bemm|display-authors=etal|year=2016|title=Genome of a tardigrade: Horizontal gene transfer or bacterial contamination?|journal=Proceedings of the National Academy of Sciences|volume=113|issue=22|pages=E3054–E3056|doi=10.1073/pnas.1525116113|pmc=4896698|pmid=27173902|bibcode=2016PNAS..113E3054B |doi-access=free}}</ref> | |||
====के-मेर आकार का विकल्प==== | ====के-मेर आकार का विकल्प==== | ||
के-मेर आकार के चुनाव का अनुक्रम संयोजन पर | के-मेर आकार के चुनाव का अनुक्रम संयोजन पर बहुत पृथक प्रभाव पड़ते हैं। ये प्रभाव छोटे आकार और बड़े आकार के के-मेर्स के मध्य अत्यधिक भिन्न होते हैं। इसलिए, प्रभावों को संतुलित करने वाले उपयुक्त आकार को चुनने के लिए विभिन्न के-मेर आकारों की समझ प्राप्त की जानी चाहिए। आकारों के प्रभाव निम्न उल्लिखित हैं। | ||
=====न्यूनतम के-मेर आकार===== | =====न्यूनतम के-मेर आकार===== | ||
*न्यूनतम के-मेर आकार से ग्राफ़ में संग्रहीत किनारों की मात्रा न्यूनतम हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को न्यूनतम करने में | *न्यूनतम के-मेर आकार से ग्राफ़ में संग्रहीत किनारों की मात्रा न्यूनतम हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को न्यूनतम करने में सहायता मिलेगी। | ||
*छोटे आकार होने से सभी के- | *छोटे आकार होने से सभी के -अधिक के ओवरलैप होने की संभावना बढ़ जाएगी, और इस तरह, डी ब्रुइज़न ग्राफ के निर्माण के लिए आवश्यक अनुवर्तीताएं होंगी।<ref name="debruijn-2"> | ||
{{cite journal | {{cite journal | ||
|author1=Zerbino, Daniel R. |author2=Birney, Ewan | title = Velvet: algorithms for de novo short read assembly using de Bruijn graphs | |author1=Zerbino, Daniel R. |author2=Birney, Ewan | title = Velvet: algorithms for de novo short read assembly using de Bruijn graphs | ||
| Line 89: | Line 88: | ||
| pmc = 2336801}} | | pmc = 2336801}} | ||
</ref> | </ref> | ||
* | *यद्यपि , छोटे आकार के k-mer होने से, आपको एकल k-mer में ले जाने वाले ग्राफ़ में कई शीर्ष होने का भी जोखिम होता है। इसलिए, इससे जीनोम का पुनर्निर्माण और अधिक कठिन हो जाएगा क्योंकि बड़ी मात्रा में शीर्षों को पार करने की आवश्यकता के कारण पथ अस्पष्टता का एक उच्च स्तर हमारे सामने आ सकती है। | ||
*के- | *के -अधिक छोटे हो जाने से जानकारी नष्ट हो जाती है। | ||
**'उदा. ' | **'उदा. 'AGTCGTAGATGCTG की संभावना ACGT से न्यूनतम है, और इस प्रकार, अधिक मात्रा में जानकारी रखती है। | ||
*छोटे के- | *छोटे के -अधिक में डीएनए में उन क्षेत्रों को हल करने में सक्षम नहीं होने की भी समस्या होती है जहां छोटे [[सूक्ष्म उपग्रह]] या दोहराव होते हैं। ऐसा इसलिए है क्योंकि छोटे के -अधिक पूरी तरह से दोहराव क्षेत्र के अंदर बैठे रहेंगे और इसलिए यह निर्धारित करना कठिन है कि वास्तव में कितनी पुनरावृत्ति हुई है। | ||
**'उदा. 'अनुवर्ती | **'उदा. 'अनुवर्ती ATGTGTGTGTGTGTACG के लिए, यदि 16 से न्यूनतम के-मेर आकार चुना जाता है, तो टीजी की पुनरावृत्ति की मात्रा खो जाएगी। ऐसा इसलिए है क्योंकि अधिकांश के-मेर दोहराए गए क्षेत्र में बैठेंगे और पुनरावृत्ति की मात्रा को संदर्भित करने के अतिरिक्त उसी के-मेर के पुनरावृत्ति के रूप में खारिज कर दिया जा सकता है। | ||
=====उच्च के-मेर आकार===== | =====उच्च के-मेर आकार===== | ||
*बड़े आकार के | *बड़े आकार के के -अधिक होने से ग्राफ़ में किनारों की संख्या बढ़ जाएगी, जिसके परिणामस्वरूप, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा बढ़ जाएगी। | ||
*के- | *के -अधिक का आकार बढ़ाने से शीर्षों की संख्या भी न्यूनतम हो जाएगी। इससे जीनोम के निर्माण में सहायता मिलेगी क्योंकि ग्राफ़ में पार करने के लिए न्यूनतम रास्ते होंगे।<ref name="debruijn-2" />* | ||
*बड़े के-मेर आकार छोटे | *बड़े के -अधिक में प्रत्येक के -अधिक से बाहरी शीर्ष न होने का जोखिम भी अधिक होता है। यह बड़े के -अधिक के कारण यह जोखिम बढ़ रहा है कि यह किसी अन्य k-mer के साथ <math>k-1</math> ओवरलैप नहीं होगा . इसलिए, इससे रीड्स में गड़बड़ी हो सकती है, और इस तरह, अधिक मात्रा में छोटे [[ संपर्क | संपर्क]] हो सकते हैं। | ||
*बड़े के-मेर आकार छोटे पुनरावृत्ति वाले क्षेत्रों की समस्या को न्यूनतम करने में सहायता करते हैं। यह इस तथ्य के कारण है कि के-मेर में पुनरावृत्ति क्षेत्र और निकटवर्ती डीएनए अनुक्रमों का संतुलन होगा (बशर्ते यह पर्याप्त बड़ा आकार हो) जो उस विशेष क्षेत्र में पुनरावृत्ति की मात्रा को हल करने में सहायता कर सकता है। | |||
=== आनुवंशिकी और जीनोमिक्स === | === आनुवंशिकी और जीनोमिक्स === | ||
रोग | रोग संबंधी मामले में, द्विनुकलोटाइड अधिकार को रोगाणुता से जुड़े आनुवंशिक द्वीपों की पहचान में प्रारंभ किया जा चुका है।<ref name=":1" /> पूर्व अध्ययन ने यह भी दर्शाया है कि चतुर्णुकलोटाइड अधिकार प्रोकर्योट्स<ref>{{Cite journal|last1=Goodur|first1=Haswanee D.|last2=Ramtohul|first2=Vyasanand|last3=Baichoo|first3=Shakuntala|date=2012-11-11|title=GIDT — A tool for the identification and visualization of genomic islands in prokaryotic organisms|journal=2012 IEEE 12th International Conference on Bioinformatics & Bioengineering (BIBE)|pages=58–63|doi=10.1109/bibe.2012.6399707|isbn=978-1-4673-4358-9|s2cid=6368495}}</ref> और यूकर्योट्स<ref>{{Cite journal|last1=Jaron|first1=K. S.|last2=Moravec|first2=J. C.|last3=Martinkova|first3=N.|date=2014-04-15|title=SigHunt: horizontal gene transfer finder optimized for eukaryotic genomes|journal=Bioinformatics|language=en|volume=30|issue=8|pages=1081–1086|doi=10.1093/bioinformatics/btt727|pmid=24371153|issn=1367-4803|doi-access=free}}</ref> में [[क्षैतिज जीन स्थानांतरण]] की सक्षमता को सफलतापूर्वक देख सकते हैं। | ||
क-मरों का एक और अनुप्रयोग जीनोमिक्स-आधारित टैक्सोनोमी में होता है। उदाहरण के रूप में, मध्यम सफलता के साथ [[एर्विनिया]] के प्रजातियों के मध्य जीसी-सामग्री का उपयोग किया गया है।<ref>{{Cite journal|last1=Starr|first1=M. P.|last2=Mandel|first2=M.|date=1969-04-01|title=फाइटोपैथोजेनिक और अन्य एंटरोबैक्टीरिया की डीएनए बेस संरचना और वर्गीकरण|journal=Journal of General Microbiology|language=en|volume=56|issue=1|pages=113–123|doi=10.1099/00221287-56-1-113|pmid=5787000|issn=0022-1287|doi-access=free}}</ref> टैक्सोनोमी के लिए जीसी-सामग्री के सीधे उपयोग के समान ही डीएनए की मेल्टिंग तापमान, अर्थात टीएम, का उपयोग किया जाता है।<ref>{{Cite journal|last1=Moore|first1=W. E. C.|last2=Stackebrandt|first2=E.|last3=Kandler|first3=O.|last4=Colwell|first4=R. R.|last5=Krichevsky|first5=M. I.|last6=Truper|first6=H. G.|last7=Murray|first7=R. G. E.|last8=Wayne|first8=L. G.|last9=Grimont|first9=P. A. D.|date=1987-10-01|title=बैक्टीरियल सिस्टमैटिक्स के दृष्टिकोण के समाधान पर तदर्थ समिति की रिपोर्ट|journal=International Journal of Systematic and Evolutionary Microbiology|language=en|volume=37|issue=4|pages=463–464|doi=10.1099/00207713-37-4-463|issn=1466-5026|doi-access=free}}</ref> क्योंकि जीसी बॉन्ड अधिक तापतन स्थिर होते हैं, जीसी सामग्री वाले संकेत में उच्च टीएम प्रदर्शित करती है। 1987 में, बैक्टीरियल सिस्टमाटिक्स के प्रति दृष्टिकोण को समाधान करने के लिए एड हॉक समिति ने फाइटोजेनेटिक प्रजाति संकल्प के हिस्से के रूप में जाति सीमाओं की निर्धारण में डेल्टा टीएम का उपयोग करने की प्रार्थना की, यद्यपि यह प्रार्थना वैज्ञानिक समुदाय में प्रभावी नहीं रही है। | |||