के-मेर: Difference between revisions

Revision as of 21:46, 19 July 2023

अनुक्रम ATGG में दो 3-मेर हैं: ATG और TGG ity।

जैव सूचना विज्ञान के अंतर्गत, के-मर जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले $k$ लंबाई के उपरज्जु को कहते हैं। प्रमुख रूप से संगणनात्मक जीनोमिक्स और अनुक्रम विश्लेषण के संदर्भ में उपयोग होते हैं, जहां के-अधिक्स आणविकों (अर्थात् A, T, G और C) से मिलकर बने होते हैं।^[1] के-अधिक्स का उपयोग डीएनए संकलन, परजीवी जीन^[2]^[3] अभिव्यक्ति को सुधारने, मेटाजेनोमिक^[4] सैंपल में प्रजातियों की पहचान, और क्षीण टीकाकरण^[5] बनाने के लिए किया जाता है। सामान्यतया, के-अधिक्स शब्द का उपयोग लंबाई L के एक अनुक्रम के सभी उपस्त्रिंशों के लिए किया जाता है, जिसका अर्थ होता है कि एक अनुक्रम AGAT के चार मोनोमर (A, G, A और T), तीन 2-मर्स (AG, GA, AT), दो 3-मर्स (AGA और GAT) और एक 4-मर्स (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई $L$ वाले एक अनुक्रम में $L-k+1$ के-अधिक्स होंगे और $n^{k}$ कुल संभव के-अधिक्स होंगे, यहां $n$ संभावित मोनोमरों की संख्या है।

परिचय

के-मेर्स केवल लंबाई $k$ हैं ,परिणामस्वरूप . उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित के-मर निम्न दर्शाये गए हैं:

File:E. coli 8-mer spectrum.svg

ई के लिए 8-मेर स्पेक्ट्रम का एक उदाहरण दर्शाया गया है। कोलाई 8-मेर्स आवृत्ति (अर्थात् बहुलता) की तुलना उनकी घटनाओं की संख्या से कर रहा है।

जीटीएजीजीसीटीजीटी के लिए के-मेर्स
k	के-मर
1	G, T, A, C
2	GT, TA, AG, GA, AG, GC, CT, TG
3	GTA, TAG, AGA, GAG, AGC, GCT, CTG, TGT
4	GTAG, TAGA, AGAG, GAGC, AGCT, GCTG, CTGT
5	GTAGA, TAGAG, AGAGC, GAGCT, AGCTG, GCTGT
6	GTAGAG, TAGAGC, AGAGCT, GAGCTG, AGCTGT
7	GTAGAGC, TAGAGCT, AGAGCTG, GAGCTGT
8	GTAGAGCT, TAGAGCTG, AGAGCTGT
9	GTAGAGCTG, TAGAGCTGT
10	GTAGAGCTGT

क-मर्स को दृश्यीकरण करने की एक विधि, क-मर्स स्पेक्ट्रम, एक अनुक्रम में प्रत्येक क-मर्स की बहुतायत को उस बहुतायत के साथ क-मर्सों की संख्या के खिलाफ दर्शाती है।^[6] एक प्रजाति के जीनोम के लिए क-मर्स स्पेक्ट्रम में क-मर्सों की मोड की संख्या भिन्न होती है, ज्यादातर प्रजातियों का एन्यूनतम ोडल वितरण होता है।^[7] यद्यपि, सभी स्तनधारी प्राणियों का बहुमोडल वितरण होता है। क-मर्स स्पेक्ट्रम में मोडों की संख्या जीनोम के विभिन्न क्षेत्रों के मध्य भी भिन्न हो सकती है: मानवों में 5' यूटीआर और एक्सॉन में एन्यूनतम ोडल क-मर्स स्पेक्ट्रम होता है, परंतु 3' यूटीआर और इंट्रॉन्स में बहुमोडल स्पेक्ट्रम होता है।

डीएनए के-मेर आवृत्ति को प्रभावित करने वाली शक्तियां

क-मर्स के उपयोग की आवृत्ति को कई बाधाएं प्रभावित करती हैं, जो विभिन्न स्तरों पर कार्य करती हैं और प्रायः एक-दूसरे के विरोध में होती हैं। महत्वपूर्ण बात यह है कि k के अधिक मानों के लिए क-मर्स पर प्रभावित करने वाली शक्तियों से भी प्रभावित होते हैं। जो न्यूनतम मानों के क-मर्स पर प्रभावित कर रहे होते हैं। उदाहरण के लिए, यदि 1-मर A किसी अनुक्रम में नहीं होता है, तो A को सम्मिलित करने वाले 2-मर (AA, AT, AG और AC) भी नहीं होंगे, जिससे विभिन्न प्रभावों के प्रभाव को संबद्ध करते हैं।

के = 1

जब k = 1 होता है, तो डीएनए के चार क-मर्स होते हैं, अर्थात् A, T, G और C। आणविक स्तर पर, G और C के मध्य तीन हाइड्रोजन बंधन होते हैं, जबकि A और T के मध्य केवल दो होते हैं। अतिरिक्त हाइड्रोजन बॉन्ड (और मजबूत स्टैकिंग अंतराक्रियाओं) के परिणामस्वरूप GC बंधन AT बंधन की तुलना में अधिक तापात्मक रूप से स्थिर होते हैं।^[8] स्तनधारी प्राणियों और पक्षियों में Gs और Cs का अनुपात As और Ts की तुलना में अधिक होता है (जीसी-सामग्री), जिसके कारण जीसी-सामग्री विविधता के पीछे थर्मल स्थिरता होने की अवधारणा हुई थी ।^[9] यद्यपि , यह अवधारणा जांच के दौरान समर्थन नहीं प्राप्त कर पाई: विभिन्न प्रोकैरियोटों के मध्य विश्लेषण ने दिखाया

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

@@ Line 1: / Line 1: @@
 {{broader|एन-ग्राम}}
 {{DISPLAYTITLE:''k''-mer}}
-[[File:K-mer diagram.svg|thumb|अनुक्रम ATGG में दो 3-मेर हैं: ATG और TGG ity।]]जैव सूचना विज्ञान के अंतर्गत, '''के -अधिक'''  जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले लंबाई <math>k</math> के [[सबस्ट्रिंग|उपरज्जु]]  को कहते हैं। प्रमुख रूप से [[कम्प्यूटेशनल जीनोमिक्स|संगणनात्मक जीनोमिक्स]] और [[अनुक्रम विश्लेषण]] के संदर्भ में उपयोग होते हैं, जहां के-अधिक्स [[न्यूक्लियोटाइड|आणविकों]] (अर्थात् A, T, G और C) से मिलकर बने होते हैं।<ref>{{Cite journal|last1=Compeau|first1=Phillip E C|last2=Pevzner|first2=Pavel A|last3=Tesler|first3=Glenn|date=November 2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|language=en|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmid=22068540|pmc=5531759|issn=1087-0156}}</ref> के-अधिक्स का उपयोग डीएनए संकलन, परजीवी जीन<ref name=":4">{{Cite journal|last1=Welch|first1=Mark|last2=Govindarajan|first2=Sridhar|last3=Ness|first3=Jon E.|last4=Villalobos|first4=Alan|last5=Gurney|first5=Austin|last6=Minshull|first6=Jeremy|last7=Gustafsson|first7=Claes|date=2009-09-14|editor-last=Kudla|editor-first=Grzegorz|title=एस्चेरिचिया कोलाई में सिंथेटिक जीन अभिव्यक्ति को नियंत्रित करने के लिए डिज़ाइन पैरामीटर|journal=PLOS ONE|language=en|volume=4|issue=9|pages=e7002|doi=10.1371/journal.pone.0007002|pmid=19759823|pmc=2736378|issn=1932-6203|bibcode=2009PLoSO...4.7002W|doi-access=free}}</ref><ref name=":6">{{Cite journal|last1=Gustafsson|first1=Claes|last2=Govindarajan|first2=Sridhar|last3=Minshull|first3=Jeremy|date=July 2004|title=कोडन पूर्वाग्रह और विषम प्रोटीन अभिव्यक्ति|journal=Trends in Biotechnology|language=en|volume=22|issue=7|pages=346–353|doi=10.1016/j.tibtech.2004.04.006|pmid=15245907}}</ref>  अभिव्यक्ति को सुधारने, मेटाजेनोमिक<ref name=":0">{{Cite journal|last1=Perry|first1=Scott C.|last2=Beiko|first2=Robert G.|date=2010-01-01|title=Distinguishing Microbial Genome Fragments Based on Their Composition: Evolutionary and Comparative Genomic Perspectives|journal=Genome Biology and Evolution|language=en|volume=2|pages=117–131|doi=10.1093/gbe/evq004|pmid=20333228|pmc=2839357|issn=1759-6653}}</ref> सैंपल में प्रजातियों की पहचान, और [[क्षीण टीका]]करण<ref>{{Cite journal|last1=Eschke|first1=Kathrin|last2=Trimpert|first2=Jakob|last3=Osterrieder|first3=Nikolaus|last4=Kunec|first4=Dusan|date=2018-01-29|editor-last=Mocarski|editor-first=Edward|title=कोडन जोड़ी पूर्वाग्रह डीऑप्टिमाइजेशन द्वारा एक बहुत ही विषैले मारेक रोग हर्पीसवायरस (एमडीवी) का क्षीणन|journal=PLOS Pathogens|language=en|volume=14|issue=1|pages=e1006857|doi=10.1371/journal.ppat.1006857|pmid=29377958|issn=1553-7374|pmc=5805365}}</ref> बनाने के लिए किया जाता है। सामान्यतया, के-अधिक्स शब्द का उपयोग लंबाई L के एक अनुक्रम के सभी उपस्त्रिंशों के लिए किया जाता है, जिसका अर्थ होता है कि एक अनुक्रम AGAT के चार [[मोनोमर]] (A, G, A और T), तीन 2-मर्स (AG, GA, AT), दो 3-मर्स (AGA और GAT) और एक 4-मर्स (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई <math>L</math> वाले एक अनुक्रम में <math>L - k + 1</math> के-अधिक्स होंगे और <math>n^{k}</math> कुल संभव के-अधिक्स होंगे, यहां <math>n</math> संभावित मोनोमरों की संख्या है।
+[[File:K-mer diagram.svg|thumb|अनुक्रम ATGG में दो 3-मेर हैं: ATG और TGG ity।]]जैव सूचना विज्ञान के अंतर्गत, '''के-मर''' जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले <math>k</math> लंबाई  के [[सबस्ट्रिंग|उपरज्जु]]  को कहते हैं। प्रमुख रूप से [[कम्प्यूटेशनल जीनोमिक्स|संगणनात्मक जीनोमिक्स]] और [[अनुक्रम विश्लेषण]] के संदर्भ में उपयोग होते हैं, जहां के-अधिक्स [[न्यूक्लियोटाइड|आणविकों]] (अर्थात् A, T, G और C) से मिलकर बने होते हैं।<ref>{{Cite journal|last1=Compeau|first1=Phillip E C|last2=Pevzner|first2=Pavel A|last3=Tesler|first3=Glenn|date=November 2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|language=en|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmid=22068540|pmc=5531759|issn=1087-0156}}</ref> के-अधिक्स का उपयोग डीएनए संकलन, परजीवी जीन<ref name=":4">{{Cite journal|last1=Welch|first1=Mark|last2=Govindarajan|first2=Sridhar|last3=Ness|first3=Jon E.|last4=Villalobos|first4=Alan|last5=Gurney|first5=Austin|last6=Minshull|first6=Jeremy|last7=Gustafsson|first7=Claes|date=2009-09-14|editor-last=Kudla|editor-first=Grzegorz|title=एस्चेरिचिया कोलाई में सिंथेटिक जीन अभिव्यक्ति को नियंत्रित करने के लिए डिज़ाइन पैरामीटर|journal=PLOS ONE|language=en|volume=4|issue=9|pages=e7002|doi=10.1371/journal.pone.0007002|pmid=19759823|pmc=2736378|issn=1932-6203|bibcode=2009PLoSO...4.7002W|doi-access=free}}</ref><ref name=":6">{{Cite journal|last1=Gustafsson|first1=Claes|last2=Govindarajan|first2=Sridhar|last3=Minshull|first3=Jeremy|date=July 2004|title=कोडन पूर्वाग्रह और विषम प्रोटीन अभिव्यक्ति|journal=Trends in Biotechnology|language=en|volume=22|issue=7|pages=346–353|doi=10.1016/j.tibtech.2004.04.006|pmid=15245907}}</ref>  अभिव्यक्ति को सुधारने, मेटाजेनोमिक<ref name=":0">{{Cite journal|last1=Perry|first1=Scott C.|last2=Beiko|first2=Robert G.|date=2010-01-01|title=Distinguishing Microbial Genome Fragments Based on Their Composition: Evolutionary and Comparative Genomic Perspectives|journal=Genome Biology and Evolution|language=en|volume=2|pages=117–131|doi=10.1093/gbe/evq004|pmid=20333228|pmc=2839357|issn=1759-6653}}</ref> सैंपल में प्रजातियों की पहचान, और [[क्षीण टीका]]करण<ref>{{Cite journal|last1=Eschke|first1=Kathrin|last2=Trimpert|first2=Jakob|last3=Osterrieder|first3=Nikolaus|last4=Kunec|first4=Dusan|date=2018-01-29|editor-last=Mocarski|editor-first=Edward|title=कोडन जोड़ी पूर्वाग्रह डीऑप्टिमाइजेशन द्वारा एक बहुत ही विषैले मारेक रोग हर्पीसवायरस (एमडीवी) का क्षीणन|journal=PLOS Pathogens|language=en|volume=14|issue=1|pages=e1006857|doi=10.1371/journal.ppat.1006857|pmid=29377958|issn=1553-7374|pmc=5805365}}</ref> बनाने के लिए किया जाता है। सामान्यतया, के-अधिक्स शब्द का उपयोग लंबाई L के एक अनुक्रम के सभी उपस्त्रिंशों के लिए किया जाता है, जिसका अर्थ होता है कि एक अनुक्रम AGAT के चार [[मोनोमर]] (A, G, A और T), तीन 2-मर्स (AG, GA, AT), दो 3-मर्स (AGA और GAT) और एक 4-मर्स (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई <math>L</math> वाले एक अनुक्रम में <math>L - k + 1</math> के-अधिक्स होंगे और <math>n^{k}</math> कुल संभव के-अधिक्स होंगे, यहां <math>n</math> संभावित मोनोमरों की संख्या है।
 == परिचय ==
-के-मेर्स केवल लंबाई <math>k</math> हैं ,परिणामस्वरूप . उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित के -अधिक  निम्न दर्शाये गए हैं:
+के-मेर्स केवल लंबाई <math>k</math> हैं ,परिणामस्वरूप . उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित के-मर  निम्न दर्शाये गए हैं:
 [[File:E. coli 8-mer spectrum.svg|thumb|ई के लिए 8-मेर स्पेक्ट्रम का एक उदाहरण दर्शाया गया है। कोलाई 8-मेर्स आवृत्ति (अर्थात् बहुलता) की तुलना उनकी घटनाओं की संख्या से कर रहा है।|alt=|440x440px]]
 {| class="wikitable"
 |+जीटीएजीजीसीटीजीटी के लिए के-मेर्स
 !''k''
-!के -अधिक
+!के-मर
 |-
 |1
@@ Line 53: / Line 53: @@
 जीसी-सामग्री पूर्वाग्रहों पर चर्चा करने वाले साहित्य के तुलनात्मक रूप से बड़े समूह के अतिरिक्त , द्विनाभिपूर्वक पूर्वाग्रहों के बारे में अपेक्षाकृत न्यूनतम लिखा गया है। यह ज्ञात है कि जीसी-सामग्री के विपरीत, ये द्विनाभिपूर्वक पूर्वाग्रह पूरे जीनोम में अपेक्षाकृत स्थिर होते हैं, जैसा कि ऊपर देखा गया है, काफी भिन्न हो सकते हैं।<ref name=":3">{{Cite journal|last=Karlin|first=Samuel|date=October 1998|title=वैश्विक डाइन्यूक्लियोटाइड हस्ताक्षर और जीनोमिक विविधता का विश्लेषण|journal=Current Opinion in Microbiology|language=en|volume=1|issue=5|pages=598–610|doi=10.1016/S1369-5274(98)80095-7|pmid=10066522}}</ref> यह एक महत्वपूर्ण अंतर्दृष्टि है जिसे नजरअंदाज नहीं किया जाना चाहिए। यदि द्विनाभिपूर्वक पूर्वाग्रह अनुवाद के परिणामस्वरूप दबाव के अधीन थे, तो [[कोडिंग क्षेत्र]] और [[गैर-कोडिंग डीएनए]] क्षेत्रों में द्विनाभिपूर्वक पूर्वाग्रह के पृथक -पृथक  पैटर्न होंगे जो कुछ डाइनुसेलोटाइड्स की न्यूनतम  अनुवादात्मक दक्षता से प्रेरित होते  होंगे।<ref>{{Cite journal|last1=Beutler|first1=E.|last2=Gelbart|first2=T.|last3=Han|first3=J. H.|last4=Koziol|first4=J. A.|last5=Beutler|first5=B.|date=1989-01-01|title=Evolution of the genome and the genetic code: selection at the dinucleotide level by methylation and polyribonucleotide cleavage.|journal=Proceedings of the National Academy of Sciences|language=en|volume=86|issue=1|pages=192–196|doi=10.1073/pnas.86.1.192|pmid=2463621|pmc=286430|issn=0027-8424|bibcode=1989PNAS...86..192B|doi-access=free}}</ref> क्योंकि ऐसा नहीं है,  इसलिए यह निष्कर्ष निकाला जा सकता है कि द्विनाभिपूर्वक पक्ष को मोड़ने वाले बल अनुवाद से अस्पष्ट हैं। द्विनाभिपूर्वक पक्षों के अनुवादिक परिकल्पना को प्रभावित करने के विरोधी प्रमाण है कि वायरसों के द्विनाभिपूर्वक पक्ष उनके मात्रिका परिवार से अधिक परिवर्तित करते हैं, जो उनके मेजबानों के अनुवादिक यंत्रों को वायरल परिवारों के विरुद्ध परिवर्तित करते हैं।।<ref>{{Cite journal|last1=Di Giallonardo|first1=Francesca|last2=Schlub|first2=Timothy E.|last3=Shi|first3=Mang|last4=Holmes|first4=Edward C.|date=2017-04-15|editor-last=Dermody|editor-first=Terence S.|title=पशु आरएनए वायरस में डाइन्यूक्लियोटाइड संरचना मेजबान प्रजातियों की तुलना में वायरस परिवार द्वारा अधिक आकार में होती है|journal=Journal of Virology|language=en|volume=91|issue=8|doi=10.1128/JVI.02381-16|pmid=28148785|pmc=5375695|issn=0022-538X}}</ref>
-जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार [[सीजी दमन]] है, जो मिथाइलेशन सीजी द्विनाभिपूर्वकों की [[डीमिनेशन]] के कारण [[सीपीजी साइट]] 2-मेर्स की आवृत्ति को न्यूनतम  कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री न्यूनतम  हो जाती है।<ref>{{Cite journal|last1=Żemojtel|first1=Tomasz|last2=kiełbasa|first2=Szymon M.|last3=Arndt|first3=Peter F.|last4=Behrens|first4=Sarah|last5=Bourque|first5=Guillaume|last6=Vingron|first6=Martin|date=2011-01-01|title=CpG Deamination Creates Transcription Factor–Binding Sites with High Efficiency|journal=Genome Biology and Evolution|language=en|volume=3|pages=1304–1311|doi=10.1093/gbe/evr107|pmid=22016335|pmc=3228489|issn=1759-6653}}</ref> यह इंटरैक्शन k के पृथक -पृथक  मानों के लिए के -अधिक  को प्रभावित करने वाली शक्ति के मध्य  अंतर्संबंध पर प्रकाश डालता है।
+जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार [[सीजी दमन]] है, जो मिथाइलेशन सीजी द्विनाभिपूर्वकों की [[डीमिनेशन]] के कारण [[सीपीजी साइट]] 2-मेर्स की आवृत्ति को न्यूनतम  कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री न्यूनतम  हो जाती है।<ref>{{Cite journal|last1=Żemojtel|first1=Tomasz|last2=kiełbasa|first2=Szymon M.|last3=Arndt|first3=Peter F.|last4=Behrens|first4=Sarah|last5=Bourque|first5=Guillaume|last6=Vingron|first6=Martin|date=2011-01-01|title=CpG Deamination Creates Transcription Factor–Binding Sites with High Efficiency|journal=Genome Biology and Evolution|language=en|volume=3|pages=1304–1311|doi=10.1093/gbe/evr107|pmid=22016335|pmc=3228489|issn=1759-6653}}</ref> यह इंटरैक्शन k के पृथक -पृथक  मानों के लिए के-मर  को प्रभावित करने वाली शक्ति के मध्य  अंतर्संबंध पर प्रकाश डालता है।
 द्विनाभिपूर्वक पक्ष के एक रोचक तथ्य यह है कि यह जीनवंशीय रूप से समान प्राणीजातीय जीनोम के मध्य   एक "दूरी" माप के रूप में कार्य कर सकता है। घनिष्ठ रूप से संबंधित संगठनों के जीनोम के मध्य   तुलनात्मक रूप से दूर संबंधित संगठनों के जोड़ों के मध्य द्विनाभिपूर्वक पक्ष अधिक समान होते हैं।<ref name=":3" />
@@ Line 67: / Line 67: @@
 === अनुक्रम संयोजन ===
-[[File:k-mer-example.png|thumb|यह आंकड़ा डी ब्रूजन ग्राफ में उपयोग करने में सक्षम होने के लिए रीड्स को छोटे के-मेर्स (इस मामले में 4-मेर्स) में विभाजित करने की प्रक्रिया को दर्शाता है। (ए) अनुक्रमित किए जा रहे डीएनए के प्रारंभिक खंड को दर्शाता है। (बी) उन रीड्स को दर्शाता  है जिन्हें अनुक्रमण से आउटपुट बनाया गया था और यह भी दर्शाता  है कि वे कैसे संरेखित होते हैं।यद्यपि    इस संरेखण के साथ समस्या यह है कि वे k-2 से ओवरलैप होते हैं, k-1 से नहीं (जो कि डी ब्रुइज़न ग्राफ़ में आवश्यक है)। (सी) रीड्स को छोटे 4-मेर्स में विभाजित होते हुए दर्शाता  है। (डी) बार-बार 4-मेर्स को हटा देता है और पुनः  उनका संरेखण दर्शाता  है। ध्यान दें कि ये के -अधिक  k-1 द्वारा ओवरलैप होते हैं और पुनः  इन्हें डी ब्रुइज़न ग्राफ़ में उपयोग किया जा सकता है।|alt=|700x700px]]सिरणी संचालन में, क-मर्स का उपयोग दे ब्रुइन ग्राफ के निर्माण के दौरान किया जाता है।<ref>{{Cite journal|last1=Nagarajan|first1=Niranjan|last2=Pop|first2=Mihai|date=2013|title=अनुक्रम संयोजन का रहस्योद्घाटन किया गया|journal=Nature Reviews Genetics|language=en|volume=14|issue=3|pages=157–167|doi=10.1038/nrg3367|pmid=23358380|s2cid=3519991|issn=1471-0056}}</ref><ref>{{cite journal|author=Li|display-authors=etal|year=2010|title=बड़े पैमाने पर समानांतर लघु पठन अनुक्रमण के साथ मानव जीनोम की डे नोवो असेंबली|journal=Genome Research|volume=20|issue=2|pages=265–272|doi=10.1101/gr.097261.109|pmc=2813482|pmid=20019144}}</ref> डी ब्रुइन ग्राफ बनाने के लिए, प्रत्येक सिरा में संग्रहीत क-मर्स को संग्रहीत किया जाना चाहिए, जिसकी लंबाई <math> L</math> होती है, और इसे एक दूसरे सिरे में 𝐿 − 1 द्वारा ओवरलैप करना चाहिए क्योंकि  एक वर्टेक्स बनाया जा सके। अगली पीढ़ी अनुक्रम द्वारा उत्पन्न किए जाने वाले रीड के सामान्यतः  विभिन्न रीड लंबाई होती हैं। उदाहरण के लिए, आईल्यूमिना की अनुक्रम प्रौद्योगिकी द्वारा 100-मर की रीड को दर्ज किया जाता है। यद्यपि , अनुक्रम में पाए जाने वाले संपूर्ण संभावित 100-मर में से केवल छोटा हिस्सा वास्तव में उत्पन्न होता है। इसका कारण है रीड त्रुटियाँ, परंतु अधिक महत्वपूर्ण है, अनुक्रम के दौरान संचालन होने वाले सीधे कवरेज को दी जाती है। समस्या यह है कि इन संभावित के-अधिक के छोटे हिस्से दे ब्रुइन ग्राफ की मुख्य मान्यता को उल्लंघन करते हैं, जहां सभी के-अधिक रीड्स को संचालन में आग्रहित होने की अपेक्षा होती है कि इसके पास अपने पड़ोसी के-अधिक से <math>k-1</math> के माध्यम से ओवरलैप हो जाता है।
+[[File:k-mer-example.png|thumb|यह आंकड़ा डी ब्रूजन ग्राफ में उपयोग करने में सक्षम होने के लिए रीड्स को छोटे के-मेर्स (इस मामले में 4-मेर्स) में विभाजित करने की प्रक्रिया को दर्शाता है। (ए) अनुक्रमित किए जा रहे डीएनए के प्रारंभिक खंड को दर्शाता है। (बी) उन रीड्स को दर्शाता  है जिन्हें अनुक्रमण से आउटपुट बनाया गया था और यह भी दर्शाता  है कि वे कैसे संरेखित होते हैं।यद्यपि    इस संरेखण के साथ समस्या यह है कि वे k-2 से ओवरलैप होते हैं, k-1 से नहीं (जो कि डी ब्रुइज़न ग्राफ़ में आवश्यक है)। (सी) रीड्स को छोटे 4-मेर्स में विभाजित होते हुए दर्शाता  है। (डी) बार-बार 4-मेर्स को हटा देता है और पुनः  उनका संरेखण दर्शाता  है। ध्यान दें कि ये के-मर  k-1 द्वारा ओवरलैप होते हैं और पुनः  इन्हें डी ब्रुइज़न ग्राफ़ में उपयोग किया जा सकता है।|alt=|700x700px]]सिरणी संचालन में, क-मर्स का उपयोग दे ब्रुइन ग्राफ के निर्माण के दौरान किया जाता है।<ref>{{Cite journal|last1=Nagarajan|first1=Niranjan|last2=Pop|first2=Mihai|date=2013|title=अनुक्रम संयोजन का रहस्योद्घाटन किया गया|journal=Nature Reviews Genetics|language=en|volume=14|issue=3|pages=157–167|doi=10.1038/nrg3367|pmid=23358380|s2cid=3519991|issn=1471-0056}}</ref><ref>{{cite journal|author=Li|display-authors=etal|year=2010|title=बड़े पैमाने पर समानांतर लघु पठन अनुक्रमण के साथ मानव जीनोम की डे नोवो असेंबली|journal=Genome Research|volume=20|issue=2|pages=265–272|doi=10.1101/gr.097261.109|pmc=2813482|pmid=20019144}}</ref> डी ब्रुइन ग्राफ बनाने के लिए, प्रत्येक सिरा में संग्रहीत क-मर्स को संग्रहीत किया जाना चाहिए, जिसकी लंबाई <math> L</math> होती है, और इसे एक दूसरे सिरे में 𝐿 − 1 द्वारा ओवरलैप करना चाहिए क्योंकि  एक वर्टेक्स बनाया जा सके। अगली पीढ़ी अनुक्रम द्वारा उत्पन्न किए जाने वाले रीड के सामान्यतः  विभिन्न रीड लंबाई होती हैं। उदाहरण के लिए, आईल्यूमिना की अनुक्रम प्रौद्योगिकी द्वारा 100-मर की रीड को दर्ज किया जाता है। यद्यपि , अनुक्रम में पाए जाने वाले संपूर्ण संभावित 100-मर में से केवल छोटा हिस्सा वास्तव में उत्पन्न होता है। इसका कारण है रीड त्रुटियाँ, परंतु अधिक महत्वपूर्ण है, अनुक्रम के दौरान संचालन होने वाले सीधे कवरेज को दी जाती है। समस्या यह है कि इन संभावित के-अधिक के छोटे हिस्से दे ब्रुइन ग्राफ की मुख्य मान्यता को उल्लंघन करते हैं, जहां सभी के-अधिक रीड्स को संचालन में आग्रहित होने की अपेक्षा होती है कि इसके पास अपने पड़ोसी के-अधिक से <math>k-1</math> के माध्यम से ओवरलैप हो जाता है।
-इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर्स में विभाजित होता है, क्योंकि  परिणामी छोटे के-मेर्स उस छोटे आकार के सभी संभावित के-मेर्स का प्रतिनिधित्व करेंगे जो जीनोम में उपस्थित होते हैं।<ref name="debruijn">{{cite journal|last1=Compeau|first1=P.|last2=Pevzner|first2=P.|last3=Teslar|first3=G.|year=2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmc=5531759|pmid=22068540}}</ref> इसके अलावा, के -अधिक  को छोटे आकारों में विभाजित करने से विभिन्न प्रारंभिक पढ़ने की लंबाई की समस्या को न्यूनतम  करने में भी सहायता मिलती है। इस उदाहरण में, पांच रीड्स जीनोम के सभी संभावित 7-मेर्स का लेखा जोखा  नहीं देते हैं, और इस प्रकार, एक डी ब्रुइज़न ग्राफ़ नहीं बनाया जा सकता है। परंतु , जब उन्हें 4-मेर्स में विभाजित किया जाता है, तो परिणामस्वरूप उपक्रम दे ब्रुइन ग्राफ का उपयोग करके जीनोम का पुनर्निर्माण करने के लिए पर्याप्त होते हैं।
+इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर्स में विभाजित होता है, क्योंकि  परिणामी छोटे के-मेर्स उस छोटे आकार के सभी संभावित के-मेर्स का प्रतिनिधित्व करेंगे जो जीनोम में उपस्थित होते हैं।<ref name="debruijn">{{cite journal|last1=Compeau|first1=P.|last2=Pevzner|first2=P.|last3=Teslar|first3=G.|year=2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmc=5531759|pmid=22068540}}</ref> इसके अलावा, के-मर  को छोटे आकारों में विभाजित करने से विभिन्न प्रारंभिक पढ़ने की लंबाई की समस्या को न्यूनतम  करने में भी सहायता मिलती है। इस उदाहरण में, पांच रीड्स जीनोम के सभी संभावित 7-मेर्स का लेखा जोखा  नहीं देते हैं, और इस प्रकार, एक डी ब्रुइज़न ग्राफ़ नहीं बनाया जा सकता है। परंतु , जब उन्हें 4-मेर्स में विभाजित किया जाता है, तो परिणामस्वरूप उपक्रम दे ब्रुइन ग्राफ का उपयोग करके जीनोम का पुनर्निर्माण करने के लिए पर्याप्त होते हैं।
-अनुक्रम संचालन के लिए सीधे उपयोग किए जाने के अलावा, के -अधिक  का उपयोग जीनोम मिस-संचालन का पता लगाने के लिए भी किया जा सकता है, जो कि अधिक प्रस्तुत किए गए के -अधिक  की पहचान करके होता है जो संयुक्त किए गए दोहराए गए अनुक्रम (डीएनए) की उपस्थिति का सुझाव देता है।<ref>{{cite journal|author=Phillippy, Schatz, Pop|year=2008|title=Genome assembly forensics: finding the elusive mis-assembly|journal=Bioinformatics|volume=9|issue=3|page=R55|doi=10.1186/gb-2008-9-3-r55|pmc=2397507|pmid=18341692}}</ref> इसके अलावा, के -अधिक  का उपयोग यूकेरियोटिक जीनोम संचालन के दौरान जीवाणु संदूषण का पता लगाने के लिए भी किया जाता है,जो मेटाजेनोमिक्स के क्षेत्र से लाए गए एक दृष्टिकोण से उधारण किया गया है।<ref>{{cite journal|author=Delmont, Eren|year=2016|title=Identifying contamination with advanced visualization and analysis practices: metagenomic approaches for eukaryotic genome assemblies|journal=PeerJ|volume=4|page=e1839|doi=10.7717/peerj.1839|pmid=27069789|pmc=4824900}}</ref><ref>{{cite journal|author=Bemm|display-authors=etal|year=2016|title=Genome of a tardigrade: Horizontal gene transfer or bacterial contamination?|journal=Proceedings of the National Academy of Sciences|volume=113|issue=22|pages=E3054–E3056|doi=10.1073/pnas.1525116113|pmc=4896698|pmid=27173902|bibcode=2016PNAS..113E3054B |doi-access=free}}</ref>
+अनुक्रम संचालन के लिए सीधे उपयोग किए जाने के अलावा, के-मर  का उपयोग जीनोम मिस-संचालन का पता लगाने के लिए भी किया जा सकता है, जो कि अधिक प्रस्तुत किए गए के-मर  की पहचान करके होता है जो संयुक्त किए गए दोहराए गए अनुक्रम (डीएनए) की उपस्थिति का सुझाव देता है।<ref>{{cite journal|author=Phillippy, Schatz, Pop|year=2008|title=Genome assembly forensics: finding the elusive mis-assembly|journal=Bioinformatics|volume=9|issue=3|page=R55|doi=10.1186/gb-2008-9-3-r55|pmc=2397507|pmid=18341692}}</ref> इसके अलावा, के-मर  का उपयोग यूकेरियोटिक जीनोम संचालन के दौरान जीवाणु संदूषण का पता लगाने के लिए भी किया जाता है,जो मेटाजेनोमिक्स के क्षेत्र से लाए गए एक दृष्टिकोण से उधारण किया गया है।<ref>{{cite journal|author=Delmont, Eren|year=2016|title=Identifying contamination with advanced visualization and analysis practices: metagenomic approaches for eukaryotic genome assemblies|journal=PeerJ|volume=4|page=e1839|doi=10.7717/peerj.1839|pmid=27069789|pmc=4824900}}</ref><ref>{{cite journal|author=Bemm|display-authors=etal|year=2016|title=Genome of a tardigrade: Horizontal gene transfer or bacterial contamination?|journal=Proceedings of the National Academy of Sciences|volume=113|issue=22|pages=E3054–E3056|doi=10.1073/pnas.1525116113|pmc=4896698|pmid=27173902|bibcode=2016PNAS..113E3054B |doi-access=free}}</ref>
 ====के-मेर आकार का विकल्प====
 के-मेर आकार के चुनाव का अनुक्रम संयोजन पर बहुत पृथक प्रभाव पड़ते हैं। ये प्रभाव छोटे आकार और बड़े आकार के के-मेर्स के मध्य अत्यधिक भिन्न होते हैं। इसलिए, प्रभावों को संतुलित करने वाले उपयुक्त आकार को चुनने के लिए विभिन्न के-मेर आकारों की समझ प्राप्त की जानी चाहिए। आकारों के प्रभाव निम्न उल्लिखित हैं।
@@ Line 76: / Line 76: @@
 =====न्यूनतम  के-मेर आकार=====
 *न्यूनतम  के-मेर आकार से ग्राफ़ में संग्रहीत किनारों की मात्रा न्यूनतम  हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को न्यूनतम  करने में सहायता मिलेगी।
-*छोटे आकार होने से सभी के -अधिक  के ओवरलैप होने की संभावना बढ़ जाएगी, और इस तरह, डी ब्रुइज़न ग्राफ के निर्माण के लिए आवश्यक अनुवर्तीताएं होंगी।<ref name="debruijn-2">
+*छोटे आकार होने से सभी के-मर  के ओवरलैप होने की संभावना बढ़ जाएगी, और इस तरह, डी ब्रुइज़न ग्राफ के निर्माण के लिए आवश्यक अनुवर्तीताएं होंगी।<ref name="debruijn-2">
 {{cite journal
    |author1=Zerbino, Daniel R. |author2=Birney, Ewan | title = Velvet: algorithms for de novo short read assembly using de Bruijn graphs
@@ Line 89: / Line 89: @@
 </ref>
 *यद्यपि , छोटे आकार के k-mer होने से, आपको एकल k-mer में ले जाने वाले ग्राफ़ में कई शीर्ष होने का भी जोखिम होता है। इसलिए, इससे जीनोम का पुनर्निर्माण और अधिक कठिन हो जाएगा क्योंकि बड़ी मात्रा में शीर्षों को पार करने की आवश्यकता के कारण पथ अस्पष्टता का एक उच्च स्तर हमारे सामने आ सकती है।
-*के -अधिक  छोटे हो जाने से जानकारी नष्ट हो जाती है।
+*के-मर  छोटे हो जाने से जानकारी नष्ट हो जाती है।
 **'उदा. 'AGTCGTAGATGCTG की संभावना ACGT से न्यूनतम  है, और इस प्रकार, अधिक मात्रा में जानकारी रखती है।
-*छोटे के -अधिक  में डीएनए में उन क्षेत्रों को हल करने में सक्षम नहीं होने की भी समस्या होती है जहां छोटे [[सूक्ष्म उपग्रह]] या दोहराव होते हैं। ऐसा इसलिए है क्योंकि छोटे के -अधिक  पूरी तरह से दोहराव क्षेत्र के अंदर  बैठे रहेंगे और इसलिए यह निर्धारित करना कठिन है कि वास्तव में कितनी पुनरावृत्ति हुई है।
+*छोटे के-मर  में डीएनए में उन क्षेत्रों को हल करने में सक्षम नहीं होने की भी समस्या होती है जहां छोटे [[सूक्ष्म उपग्रह]] या दोहराव होते हैं। ऐसा इसलिए है क्योंकि छोटे के-मर  पूरी तरह से दोहराव क्षेत्र के अंदर  बैठे रहेंगे और इसलिए यह निर्धारित करना कठिन है कि वास्तव में कितनी पुनरावृत्ति हुई है।
 **'उदा. 'अनुवर्ती ATGTGTGTGTGTGTACG के लिए, यदि 16 से न्यूनतम  के-मेर आकार चुना जाता है, तो टीजी की पुनरावृत्ति की मात्रा खो जाएगी। ऐसा इसलिए है क्योंकि अधिकांश के-मेर दोहराए गए क्षेत्र में बैठेंगे और पुनरावृत्ति की मात्रा को संदर्भित करने के अतिरिक्त   उसी के-मेर के पुनरावृत्ति के रूप में खारिज कर दिया जा सकता है।
 =====उच्च के-मेर आकार=====
-*बड़े आकार के के -अधिक  होने से ग्राफ़ में किनारों की संख्या बढ़ जाएगी, जिसके परिणामस्वरूप, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा बढ़ जाएगी।
+*बड़े आकार के के-मर  होने से ग्राफ़ में किनारों की संख्या बढ़ जाएगी, जिसके परिणामस्वरूप, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा बढ़ जाएगी।
-*के -अधिक  का आकार बढ़ाने से शीर्षों की संख्या भी न्यूनतम  हो जाएगी। इससे जीनोम के निर्माण में सहायता मिलेगी क्योंकि ग्राफ़ में पार करने के लिए न्यूनतम  रास्ते होंगे।<ref name="debruijn-2" />*
+*के-मर  का आकार बढ़ाने से शीर्षों की संख्या भी न्यूनतम  हो जाएगी। इससे जीनोम के निर्माण में सहायता मिलेगी क्योंकि ग्राफ़ में पार करने के लिए न्यूनतम  रास्ते होंगे।<ref name="debruijn-2" />*
-*बड़े के -अधिक  में प्रत्येक के -अधिक  से बाहरी शीर्ष न होने का जोखिम भी अधिक होता है। यह बड़े के -अधिक  के कारण यह जोखिम बढ़ रहा है कि यह किसी अन्य k-mer के साथ <math>k-1</math> ओवरलैप नहीं होगा . इसलिए, इससे रीड्स में गड़बड़ी हो सकती है, और इस तरह, अधिक मात्रा में छोटे [[ संपर्क | संपर्क]] हो सकते हैं।
+*बड़े के-मर  में प्रत्येक के-मर  से बाहरी शीर्ष न होने का जोखिम भी अधिक होता है। यह बड़े के-मर  के कारण यह जोखिम बढ़ रहा है कि यह किसी अन्य k-mer के साथ <math>k-1</math> ओवरलैप नहीं होगा . इसलिए, इससे रीड्स में गड़बड़ी हो सकती है, और इस तरह, अधिक मात्रा में छोटे [[ संपर्क | संपर्क]] हो सकते हैं।
 *बड़े के-मेर आकार छोटे पुनरावृत्ति वाले क्षेत्रों की समस्या को न्यूनतम  करने में सहायता करते हैं। यह इस तथ्य के कारण है कि के-मेर में पुनरावृत्ति क्षेत्र और निकटवर्ती डीएनए अनुक्रमों का संतुलन होगा (बशर्ते यह पर्याप्त बड़ा आकार हो) जो उस विशेष क्षेत्र में पुनरावृत्ति की मात्रा को हल करने में सहायता कर सकता है।
@@ Line 140: / Line 140: @@
 === स्यूडोकोड ===
-किसी रीड के संभावित के -अधिक  का निर्धारण केवल स्ट्रिंग की लंबाई पर एक-एक करके साइकिल चलाकर और लंबाई <math>k</math> के प्रत्येक सबस्ट्रिंग को निकालकर किया जा सकता है। इसे प्राप्त करने के लिए छद्मकोड इस प्रकार है:
+किसी रीड के संभावित के-मर  का निर्धारण केवल स्ट्रिंग की लंबाई पर एक-एक करके साइकिल चलाकर और लंबाई <math>k</math> के प्रत्येक सबस्ट्रिंग को निकालकर किया जा सकता है। इसे प्राप्त करने के लिए छद्मकोड इस प्रकार है:
-  '''procedure''' के -अधिक (string seq, integer k) '''is'''
+  '''procedure''' के-मर (string seq, integer k) '''is'''
       L ← length(seq)
       arr ← new array of L − k + 1 empty strings
-  <nowiki> </nowiki>   // seq में के -अधिक  की संख्या को पुनरावृत्त करें,
+  <nowiki> </nowiki>   // seq में के-मर  की संख्या को पुनरावृत्त करें,
   <nowiki> </nowiki>   // आउटपुट ऐरे में nth k-mer को स्टोर करना
   <nowiki> </nowiki>   ''''for''' n ← 0 '''to''' L − k + 1 exclusive '''do'''

Anonymous

Search

के-मेर: Difference between revisions

Namespaces

More

Page actions

Revision as of 21:46, 19 July 2023

Contents

परिचय

डीएनए के-मेर आवृत्ति को प्रभावित करने वाली शक्तियां

के = 1