के-मेर: Difference between revisions
No edit summary |
|||
| Line 1: | Line 1: | ||
{{broader|एन-ग्राम}} | {{broader|एन-ग्राम}} | ||
{{DISPLAYTITLE:''k''-mer}} | {{DISPLAYTITLE:''k''-mer}} | ||
[[File:K-mer diagram.svg|thumb|अनुक्रम ATGG में दो 3-मेर हैं: ATG और TGG ity।]]जैव सूचना विज्ञान के अंतर्गत, '''के - | [[File:K-mer diagram.svg|thumb|अनुक्रम ATGG में दो 3-मेर हैं: ATG और TGG ity।]]जैव सूचना विज्ञान के अंतर्गत, '''के-मर''' जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले <math>k</math> लंबाई के [[सबस्ट्रिंग|उपरज्जु]] को कहते हैं। प्रमुख रूप से [[कम्प्यूटेशनल जीनोमिक्स|संगणनात्मक जीनोमिक्स]] और [[अनुक्रम विश्लेषण]] के संदर्भ में उपयोग होते हैं, जहां के-अधिक्स [[न्यूक्लियोटाइड|आणविकों]] (अर्थात् A, T, G और C) से मिलकर बने होते हैं।<ref>{{Cite journal|last1=Compeau|first1=Phillip E C|last2=Pevzner|first2=Pavel A|last3=Tesler|first3=Glenn|date=November 2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|language=en|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmid=22068540|pmc=5531759|issn=1087-0156}}</ref> के-अधिक्स का उपयोग डीएनए संकलन, परजीवी जीन<ref name=":4">{{Cite journal|last1=Welch|first1=Mark|last2=Govindarajan|first2=Sridhar|last3=Ness|first3=Jon E.|last4=Villalobos|first4=Alan|last5=Gurney|first5=Austin|last6=Minshull|first6=Jeremy|last7=Gustafsson|first7=Claes|date=2009-09-14|editor-last=Kudla|editor-first=Grzegorz|title=एस्चेरिचिया कोलाई में सिंथेटिक जीन अभिव्यक्ति को नियंत्रित करने के लिए डिज़ाइन पैरामीटर|journal=PLOS ONE|language=en|volume=4|issue=9|pages=e7002|doi=10.1371/journal.pone.0007002|pmid=19759823|pmc=2736378|issn=1932-6203|bibcode=2009PLoSO...4.7002W|doi-access=free}}</ref><ref name=":6">{{Cite journal|last1=Gustafsson|first1=Claes|last2=Govindarajan|first2=Sridhar|last3=Minshull|first3=Jeremy|date=July 2004|title=कोडन पूर्वाग्रह और विषम प्रोटीन अभिव्यक्ति|journal=Trends in Biotechnology|language=en|volume=22|issue=7|pages=346–353|doi=10.1016/j.tibtech.2004.04.006|pmid=15245907}}</ref> अभिव्यक्ति को सुधारने, मेटाजेनोमिक<ref name=":0">{{Cite journal|last1=Perry|first1=Scott C.|last2=Beiko|first2=Robert G.|date=2010-01-01|title=Distinguishing Microbial Genome Fragments Based on Their Composition: Evolutionary and Comparative Genomic Perspectives|journal=Genome Biology and Evolution|language=en|volume=2|pages=117–131|doi=10.1093/gbe/evq004|pmid=20333228|pmc=2839357|issn=1759-6653}}</ref> सैंपल में प्रजातियों की पहचान, और [[क्षीण टीका]]करण<ref>{{Cite journal|last1=Eschke|first1=Kathrin|last2=Trimpert|first2=Jakob|last3=Osterrieder|first3=Nikolaus|last4=Kunec|first4=Dusan|date=2018-01-29|editor-last=Mocarski|editor-first=Edward|title=कोडन जोड़ी पूर्वाग्रह डीऑप्टिमाइजेशन द्वारा एक बहुत ही विषैले मारेक रोग हर्पीसवायरस (एमडीवी) का क्षीणन|journal=PLOS Pathogens|language=en|volume=14|issue=1|pages=e1006857|doi=10.1371/journal.ppat.1006857|pmid=29377958|issn=1553-7374|pmc=5805365}}</ref> बनाने के लिए किया जाता है। सामान्यतया, के-अधिक्स शब्द का उपयोग लंबाई L के एक अनुक्रम के सभी उपस्त्रिंशों के लिए किया जाता है, जिसका अर्थ होता है कि एक अनुक्रम AGAT के चार [[मोनोमर]] (A, G, A और T), तीन 2-मर्स (AG, GA, AT), दो 3-मर्स (AGA और GAT) और एक 4-मर्स (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई <math>L</math> वाले एक अनुक्रम में <math>L - k + 1</math> के-अधिक्स होंगे और <math>n^{k}</math> कुल संभव के-अधिक्स होंगे, यहां <math>n</math> संभावित मोनोमरों की संख्या है। | ||
== परिचय == | == परिचय == | ||
के-मेर्स केवल लंबाई <math>k</math> हैं ,परिणामस्वरूप . उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित के - | के-मेर्स केवल लंबाई <math>k</math> हैं ,परिणामस्वरूप . उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित के-मर निम्न दर्शाये गए हैं: | ||
[[File:E. coli 8-mer spectrum.svg|thumb|ई के लिए 8-मेर स्पेक्ट्रम का एक उदाहरण दर्शाया गया है। कोलाई 8-मेर्स आवृत्ति (अर्थात् बहुलता) की तुलना उनकी घटनाओं की संख्या से कर रहा है।|alt=|440x440px]] | [[File:E. coli 8-mer spectrum.svg|thumb|ई के लिए 8-मेर स्पेक्ट्रम का एक उदाहरण दर्शाया गया है। कोलाई 8-मेर्स आवृत्ति (अर्थात् बहुलता) की तुलना उनकी घटनाओं की संख्या से कर रहा है।|alt=|440x440px]] | ||
{| class="wikitable" | {| class="wikitable" | ||
|+जीटीएजीजीसीटीजीटी के लिए के-मेर्स | |+जीटीएजीजीसीटीजीटी के लिए के-मेर्स | ||
!''k'' | !''k'' | ||
!के - | !के-मर | ||
|- | |- | ||
|1 | |1 | ||
| Line 53: | Line 53: | ||
जीसी-सामग्री पूर्वाग्रहों पर चर्चा करने वाले साहित्य के तुलनात्मक रूप से बड़े समूह के अतिरिक्त , द्विनाभिपूर्वक पूर्वाग्रहों के बारे में अपेक्षाकृत न्यूनतम लिखा गया है। यह ज्ञात है कि जीसी-सामग्री के विपरीत, ये द्विनाभिपूर्वक पूर्वाग्रह पूरे जीनोम में अपेक्षाकृत स्थिर होते हैं, जैसा कि ऊपर देखा गया है, काफी भिन्न हो सकते हैं।<ref name=":3">{{Cite journal|last=Karlin|first=Samuel|date=October 1998|title=वैश्विक डाइन्यूक्लियोटाइड हस्ताक्षर और जीनोमिक विविधता का विश्लेषण|journal=Current Opinion in Microbiology|language=en|volume=1|issue=5|pages=598–610|doi=10.1016/S1369-5274(98)80095-7|pmid=10066522}}</ref> यह एक महत्वपूर्ण अंतर्दृष्टि है जिसे नजरअंदाज नहीं किया जाना चाहिए। यदि द्विनाभिपूर्वक पूर्वाग्रह अनुवाद के परिणामस्वरूप दबाव के अधीन थे, तो [[कोडिंग क्षेत्र]] और [[गैर-कोडिंग डीएनए]] क्षेत्रों में द्विनाभिपूर्वक पूर्वाग्रह के पृथक -पृथक पैटर्न होंगे जो कुछ डाइनुसेलोटाइड्स की न्यूनतम अनुवादात्मक दक्षता से प्रेरित होते होंगे।<ref>{{Cite journal|last1=Beutler|first1=E.|last2=Gelbart|first2=T.|last3=Han|first3=J. H.|last4=Koziol|first4=J. A.|last5=Beutler|first5=B.|date=1989-01-01|title=Evolution of the genome and the genetic code: selection at the dinucleotide level by methylation and polyribonucleotide cleavage.|journal=Proceedings of the National Academy of Sciences|language=en|volume=86|issue=1|pages=192–196|doi=10.1073/pnas.86.1.192|pmid=2463621|pmc=286430|issn=0027-8424|bibcode=1989PNAS...86..192B|doi-access=free}}</ref> क्योंकि ऐसा नहीं है, इसलिए यह निष्कर्ष निकाला जा सकता है कि द्विनाभिपूर्वक पक्ष को मोड़ने वाले बल अनुवाद से अस्पष्ट हैं। द्विनाभिपूर्वक पक्षों के अनुवादिक परिकल्पना को प्रभावित करने के विरोधी प्रमाण है कि वायरसों के द्विनाभिपूर्वक पक्ष उनके मात्रिका परिवार से अधिक परिवर्तित करते हैं, जो उनके मेजबानों के अनुवादिक यंत्रों को वायरल परिवारों के विरुद्ध परिवर्तित करते हैं।।<ref>{{Cite journal|last1=Di Giallonardo|first1=Francesca|last2=Schlub|first2=Timothy E.|last3=Shi|first3=Mang|last4=Holmes|first4=Edward C.|date=2017-04-15|editor-last=Dermody|editor-first=Terence S.|title=पशु आरएनए वायरस में डाइन्यूक्लियोटाइड संरचना मेजबान प्रजातियों की तुलना में वायरस परिवार द्वारा अधिक आकार में होती है|journal=Journal of Virology|language=en|volume=91|issue=8|doi=10.1128/JVI.02381-16|pmid=28148785|pmc=5375695|issn=0022-538X}}</ref> | जीसी-सामग्री पूर्वाग्रहों पर चर्चा करने वाले साहित्य के तुलनात्मक रूप से बड़े समूह के अतिरिक्त , द्विनाभिपूर्वक पूर्वाग्रहों के बारे में अपेक्षाकृत न्यूनतम लिखा गया है। यह ज्ञात है कि जीसी-सामग्री के विपरीत, ये द्विनाभिपूर्वक पूर्वाग्रह पूरे जीनोम में अपेक्षाकृत स्थिर होते हैं, जैसा कि ऊपर देखा गया है, काफी भिन्न हो सकते हैं।<ref name=":3">{{Cite journal|last=Karlin|first=Samuel|date=October 1998|title=वैश्विक डाइन्यूक्लियोटाइड हस्ताक्षर और जीनोमिक विविधता का विश्लेषण|journal=Current Opinion in Microbiology|language=en|volume=1|issue=5|pages=598–610|doi=10.1016/S1369-5274(98)80095-7|pmid=10066522}}</ref> यह एक महत्वपूर्ण अंतर्दृष्टि है जिसे नजरअंदाज नहीं किया जाना चाहिए। यदि द्विनाभिपूर्वक पूर्वाग्रह अनुवाद के परिणामस्वरूप दबाव के अधीन थे, तो [[कोडिंग क्षेत्र]] और [[गैर-कोडिंग डीएनए]] क्षेत्रों में द्विनाभिपूर्वक पूर्वाग्रह के पृथक -पृथक पैटर्न होंगे जो कुछ डाइनुसेलोटाइड्स की न्यूनतम अनुवादात्मक दक्षता से प्रेरित होते होंगे।<ref>{{Cite journal|last1=Beutler|first1=E.|last2=Gelbart|first2=T.|last3=Han|first3=J. H.|last4=Koziol|first4=J. A.|last5=Beutler|first5=B.|date=1989-01-01|title=Evolution of the genome and the genetic code: selection at the dinucleotide level by methylation and polyribonucleotide cleavage.|journal=Proceedings of the National Academy of Sciences|language=en|volume=86|issue=1|pages=192–196|doi=10.1073/pnas.86.1.192|pmid=2463621|pmc=286430|issn=0027-8424|bibcode=1989PNAS...86..192B|doi-access=free}}</ref> क्योंकि ऐसा नहीं है, इसलिए यह निष्कर्ष निकाला जा सकता है कि द्विनाभिपूर्वक पक्ष को मोड़ने वाले बल अनुवाद से अस्पष्ट हैं। द्विनाभिपूर्वक पक्षों के अनुवादिक परिकल्पना को प्रभावित करने के विरोधी प्रमाण है कि वायरसों के द्विनाभिपूर्वक पक्ष उनके मात्रिका परिवार से अधिक परिवर्तित करते हैं, जो उनके मेजबानों के अनुवादिक यंत्रों को वायरल परिवारों के विरुद्ध परिवर्तित करते हैं।।<ref>{{Cite journal|last1=Di Giallonardo|first1=Francesca|last2=Schlub|first2=Timothy E.|last3=Shi|first3=Mang|last4=Holmes|first4=Edward C.|date=2017-04-15|editor-last=Dermody|editor-first=Terence S.|title=पशु आरएनए वायरस में डाइन्यूक्लियोटाइड संरचना मेजबान प्रजातियों की तुलना में वायरस परिवार द्वारा अधिक आकार में होती है|journal=Journal of Virology|language=en|volume=91|issue=8|doi=10.1128/JVI.02381-16|pmid=28148785|pmc=5375695|issn=0022-538X}}</ref> | ||
जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार [[सीजी दमन]] है, जो मिथाइलेशन सीजी द्विनाभिपूर्वकों की [[डीमिनेशन]] के कारण [[सीपीजी साइट]] 2-मेर्स की आवृत्ति को न्यूनतम कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री न्यूनतम हो जाती है।<ref>{{Cite journal|last1=Żemojtel|first1=Tomasz|last2=kiełbasa|first2=Szymon M.|last3=Arndt|first3=Peter F.|last4=Behrens|first4=Sarah|last5=Bourque|first5=Guillaume|last6=Vingron|first6=Martin|date=2011-01-01|title=CpG Deamination Creates Transcription Factor–Binding Sites with High Efficiency|journal=Genome Biology and Evolution|language=en|volume=3|pages=1304–1311|doi=10.1093/gbe/evr107|pmid=22016335|pmc=3228489|issn=1759-6653}}</ref> यह इंटरैक्शन k के पृथक -पृथक मानों के लिए के - | जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार [[सीजी दमन]] है, जो मिथाइलेशन सीजी द्विनाभिपूर्वकों की [[डीमिनेशन]] के कारण [[सीपीजी साइट]] 2-मेर्स की आवृत्ति को न्यूनतम कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री न्यूनतम हो जाती है।<ref>{{Cite journal|last1=Żemojtel|first1=Tomasz|last2=kiełbasa|first2=Szymon M.|last3=Arndt|first3=Peter F.|last4=Behrens|first4=Sarah|last5=Bourque|first5=Guillaume|last6=Vingron|first6=Martin|date=2011-01-01|title=CpG Deamination Creates Transcription Factor–Binding Sites with High Efficiency|journal=Genome Biology and Evolution|language=en|volume=3|pages=1304–1311|doi=10.1093/gbe/evr107|pmid=22016335|pmc=3228489|issn=1759-6653}}</ref> यह इंटरैक्शन k के पृथक -पृथक मानों के लिए के-मर को प्रभावित करने वाली शक्ति के मध्य अंतर्संबंध पर प्रकाश डालता है। | ||
द्विनाभिपूर्वक पक्ष के एक रोचक तथ्य यह है कि यह जीनवंशीय रूप से समान प्राणीजातीय जीनोम के मध्य एक "दूरी" माप के रूप में कार्य कर सकता है। घनिष्ठ रूप से संबंधित संगठनों के जीनोम के मध्य तुलनात्मक रूप से दूर संबंधित संगठनों के जोड़ों के मध्य द्विनाभिपूर्वक पक्ष अधिक समान होते हैं।<ref name=":3" /> | द्विनाभिपूर्वक पक्ष के एक रोचक तथ्य यह है कि यह जीनवंशीय रूप से समान प्राणीजातीय जीनोम के मध्य एक "दूरी" माप के रूप में कार्य कर सकता है। घनिष्ठ रूप से संबंधित संगठनों के जीनोम के मध्य तुलनात्मक रूप से दूर संबंधित संगठनों के जोड़ों के मध्य द्विनाभिपूर्वक पक्ष अधिक समान होते हैं।<ref name=":3" /> | ||
| Line 67: | Line 67: | ||
=== अनुक्रम संयोजन === | === अनुक्रम संयोजन === | ||
[[File:k-mer-example.png|thumb|यह आंकड़ा डी ब्रूजन ग्राफ में उपयोग करने में सक्षम होने के लिए रीड्स को छोटे के-मेर्स (इस मामले में 4-मेर्स) में विभाजित करने की प्रक्रिया को दर्शाता है। (ए) अनुक्रमित किए जा रहे डीएनए के प्रारंभिक खंड को दर्शाता है। (बी) उन रीड्स को दर्शाता है जिन्हें अनुक्रमण से आउटपुट बनाया गया था और यह भी दर्शाता है कि वे कैसे संरेखित होते हैं।यद्यपि इस संरेखण के साथ समस्या यह है कि वे k-2 से ओवरलैप होते हैं, k-1 से नहीं (जो कि डी ब्रुइज़न ग्राफ़ में आवश्यक है)। (सी) रीड्स को छोटे 4-मेर्स में विभाजित होते हुए दर्शाता है। (डी) बार-बार 4-मेर्स को हटा देता है और पुनः उनका संरेखण दर्शाता है। ध्यान दें कि ये के - | [[File:k-mer-example.png|thumb|यह आंकड़ा डी ब्रूजन ग्राफ में उपयोग करने में सक्षम होने के लिए रीड्स को छोटे के-मेर्स (इस मामले में 4-मेर्स) में विभाजित करने की प्रक्रिया को दर्शाता है। (ए) अनुक्रमित किए जा रहे डीएनए के प्रारंभिक खंड को दर्शाता है। (बी) उन रीड्स को दर्शाता है जिन्हें अनुक्रमण से आउटपुट बनाया गया था और यह भी दर्शाता है कि वे कैसे संरेखित होते हैं।यद्यपि इस संरेखण के साथ समस्या यह है कि वे k-2 से ओवरलैप होते हैं, k-1 से नहीं (जो कि डी ब्रुइज़न ग्राफ़ में आवश्यक है)। (सी) रीड्स को छोटे 4-मेर्स में विभाजित होते हुए दर्शाता है। (डी) बार-बार 4-मेर्स को हटा देता है और पुनः उनका संरेखण दर्शाता है। ध्यान दें कि ये के-मर k-1 द्वारा ओवरलैप होते हैं और पुनः इन्हें डी ब्रुइज़न ग्राफ़ में उपयोग किया जा सकता है।|alt=|700x700px]]सिरणी संचालन में, क-मर्स का उपयोग दे ब्रुइन ग्राफ के निर्माण के दौरान किया जाता है।<ref>{{Cite journal|last1=Nagarajan|first1=Niranjan|last2=Pop|first2=Mihai|date=2013|title=अनुक्रम संयोजन का रहस्योद्घाटन किया गया|journal=Nature Reviews Genetics|language=en|volume=14|issue=3|pages=157–167|doi=10.1038/nrg3367|pmid=23358380|s2cid=3519991|issn=1471-0056}}</ref><ref>{{cite journal|author=Li|display-authors=etal|year=2010|title=बड़े पैमाने पर समानांतर लघु पठन अनुक्रमण के साथ मानव जीनोम की डे नोवो असेंबली|journal=Genome Research|volume=20|issue=2|pages=265–272|doi=10.1101/gr.097261.109|pmc=2813482|pmid=20019144}}</ref> डी ब्रुइन ग्राफ बनाने के लिए, प्रत्येक सिरा में संग्रहीत क-मर्स को संग्रहीत किया जाना चाहिए, जिसकी लंबाई <math> L</math> होती है, और इसे एक दूसरे सिरे में 𝐿 − 1 द्वारा ओवरलैप करना चाहिए क्योंकि एक वर्टेक्स बनाया जा सके। अगली पीढ़ी अनुक्रम द्वारा उत्पन्न किए जाने वाले रीड के सामान्यतः विभिन्न रीड लंबाई होती हैं। उदाहरण के लिए, आईल्यूमिना की अनुक्रम प्रौद्योगिकी द्वारा 100-मर की रीड को दर्ज किया जाता है। यद्यपि , अनुक्रम में पाए जाने वाले संपूर्ण संभावित 100-मर में से केवल छोटा हिस्सा वास्तव में उत्पन्न होता है। इसका कारण है रीड त्रुटियाँ, परंतु अधिक महत्वपूर्ण है, अनुक्रम के दौरान संचालन होने वाले सीधे कवरेज को दी जाती है। समस्या यह है कि इन संभावित के-अधिक के छोटे हिस्से दे ब्रुइन ग्राफ की मुख्य मान्यता को उल्लंघन करते हैं, जहां सभी के-अधिक रीड्स को संचालन में आग्रहित होने की अपेक्षा होती है कि इसके पास अपने पड़ोसी के-अधिक से <math>k-1</math> के माध्यम से ओवरलैप हो जाता है। | ||
इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर्स में विभाजित होता है, क्योंकि परिणामी छोटे के-मेर्स उस छोटे आकार के सभी संभावित के-मेर्स का प्रतिनिधित्व करेंगे जो जीनोम में उपस्थित होते हैं।<ref name="debruijn">{{cite journal|last1=Compeau|first1=P.|last2=Pevzner|first2=P.|last3=Teslar|first3=G.|year=2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmc=5531759|pmid=22068540}}</ref> इसके अलावा, के - | इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर्स में विभाजित होता है, क्योंकि परिणामी छोटे के-मेर्स उस छोटे आकार के सभी संभावित के-मेर्स का प्रतिनिधित्व करेंगे जो जीनोम में उपस्थित होते हैं।<ref name="debruijn">{{cite journal|last1=Compeau|first1=P.|last2=Pevzner|first2=P.|last3=Teslar|first3=G.|year=2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmc=5531759|pmid=22068540}}</ref> इसके अलावा, के-मर को छोटे आकारों में विभाजित करने से विभिन्न प्रारंभिक पढ़ने की लंबाई की समस्या को न्यूनतम करने में भी सहायता मिलती है। इस उदाहरण में, पांच रीड्स जीनोम के सभी संभावित 7-मेर्स का लेखा जोखा नहीं देते हैं, और इस प्रकार, एक डी ब्रुइज़न ग्राफ़ नहीं बनाया जा सकता है। परंतु , जब उन्हें 4-मेर्स में विभाजित किया जाता है, तो परिणामस्वरूप उपक्रम दे ब्रुइन ग्राफ का उपयोग करके जीनोम का पुनर्निर्माण करने के लिए पर्याप्त होते हैं। | ||
अनुक्रम संचालन के लिए सीधे उपयोग किए जाने के अलावा, के - | अनुक्रम संचालन के लिए सीधे उपयोग किए जाने के अलावा, के-मर का उपयोग जीनोम मिस-संचालन का पता लगाने के लिए भी किया जा सकता है, जो कि अधिक प्रस्तुत किए गए के-मर की पहचान करके होता है जो संयुक्त किए गए दोहराए गए अनुक्रम (डीएनए) की उपस्थिति का सुझाव देता है।<ref>{{cite journal|author=Phillippy, Schatz, Pop|year=2008|title=Genome assembly forensics: finding the elusive mis-assembly|journal=Bioinformatics|volume=9|issue=3|page=R55|doi=10.1186/gb-2008-9-3-r55|pmc=2397507|pmid=18341692}}</ref> इसके अलावा, के-मर का उपयोग यूकेरियोटिक जीनोम संचालन के दौरान जीवाणु संदूषण का पता लगाने के लिए भी किया जाता है,जो मेटाजेनोमिक्स के क्षेत्र से लाए गए एक दृष्टिकोण से उधारण किया गया है।<ref>{{cite journal|author=Delmont, Eren|year=2016|title=Identifying contamination with advanced visualization and analysis practices: metagenomic approaches for eukaryotic genome assemblies|journal=PeerJ|volume=4|page=e1839|doi=10.7717/peerj.1839|pmid=27069789|pmc=4824900}}</ref><ref>{{cite journal|author=Bemm|display-authors=etal|year=2016|title=Genome of a tardigrade: Horizontal gene transfer or bacterial contamination?|journal=Proceedings of the National Academy of Sciences|volume=113|issue=22|pages=E3054–E3056|doi=10.1073/pnas.1525116113|pmc=4896698|pmid=27173902|bibcode=2016PNAS..113E3054B |doi-access=free}}</ref> | ||
====के-मेर आकार का विकल्प==== | ====के-मेर आकार का विकल्प==== | ||
के-मेर आकार के चुनाव का अनुक्रम संयोजन पर बहुत पृथक प्रभाव पड़ते हैं। ये प्रभाव छोटे आकार और बड़े आकार के के-मेर्स के मध्य अत्यधिक भिन्न होते हैं। इसलिए, प्रभावों को संतुलित करने वाले उपयुक्त आकार को चुनने के लिए विभिन्न के-मेर आकारों की समझ प्राप्त की जानी चाहिए। आकारों के प्रभाव निम्न उल्लिखित हैं। | के-मेर आकार के चुनाव का अनुक्रम संयोजन पर बहुत पृथक प्रभाव पड़ते हैं। ये प्रभाव छोटे आकार और बड़े आकार के के-मेर्स के मध्य अत्यधिक भिन्न होते हैं। इसलिए, प्रभावों को संतुलित करने वाले उपयुक्त आकार को चुनने के लिए विभिन्न के-मेर आकारों की समझ प्राप्त की जानी चाहिए। आकारों के प्रभाव निम्न उल्लिखित हैं। | ||
| Line 76: | Line 76: | ||
=====न्यूनतम के-मेर आकार===== | =====न्यूनतम के-मेर आकार===== | ||
*न्यूनतम के-मेर आकार से ग्राफ़ में संग्रहीत किनारों की मात्रा न्यूनतम हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को न्यूनतम करने में सहायता मिलेगी। | *न्यूनतम के-मेर आकार से ग्राफ़ में संग्रहीत किनारों की मात्रा न्यूनतम हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को न्यूनतम करने में सहायता मिलेगी। | ||
*छोटे आकार होने से सभी के - | *छोटे आकार होने से सभी के-मर के ओवरलैप होने की संभावना बढ़ जाएगी, और इस तरह, डी ब्रुइज़न ग्राफ के निर्माण के लिए आवश्यक अनुवर्तीताएं होंगी।<ref name="debruijn-2"> | ||
{{cite journal | {{cite journal | ||
|author1=Zerbino, Daniel R. |author2=Birney, Ewan | title = Velvet: algorithms for de novo short read assembly using de Bruijn graphs | |author1=Zerbino, Daniel R. |author2=Birney, Ewan | title = Velvet: algorithms for de novo short read assembly using de Bruijn graphs | ||
| Line 89: | Line 89: | ||
</ref> | </ref> | ||
*यद्यपि , छोटे आकार के k-mer होने से, आपको एकल k-mer में ले जाने वाले ग्राफ़ में कई शीर्ष होने का भी जोखिम होता है। इसलिए, इससे जीनोम का पुनर्निर्माण और अधिक कठिन हो जाएगा क्योंकि बड़ी मात्रा में शीर्षों को पार करने की आवश्यकता के कारण पथ अस्पष्टता का एक उच्च स्तर हमारे सामने आ सकती है। | *यद्यपि , छोटे आकार के k-mer होने से, आपको एकल k-mer में ले जाने वाले ग्राफ़ में कई शीर्ष होने का भी जोखिम होता है। इसलिए, इससे जीनोम का पुनर्निर्माण और अधिक कठिन हो जाएगा क्योंकि बड़ी मात्रा में शीर्षों को पार करने की आवश्यकता के कारण पथ अस्पष्टता का एक उच्च स्तर हमारे सामने आ सकती है। | ||
*के - | *के-मर छोटे हो जाने से जानकारी नष्ट हो जाती है। | ||
**'उदा. 'AGTCGTAGATGCTG की संभावना ACGT से न्यूनतम है, और इस प्रकार, अधिक मात्रा में जानकारी रखती है। | **'उदा. 'AGTCGTAGATGCTG की संभावना ACGT से न्यूनतम है, और इस प्रकार, अधिक मात्रा में जानकारी रखती है। | ||
*छोटे के - | *छोटे के-मर में डीएनए में उन क्षेत्रों को हल करने में सक्षम नहीं होने की भी समस्या होती है जहां छोटे [[सूक्ष्म उपग्रह]] या दोहराव होते हैं। ऐसा इसलिए है क्योंकि छोटे के-मर पूरी तरह से दोहराव क्षेत्र के अंदर बैठे रहेंगे और इसलिए यह निर्धारित करना कठिन है कि वास्तव में कितनी पुनरावृत्ति हुई है। | ||
**'उदा. 'अनुवर्ती ATGTGTGTGTGTGTACG के लिए, यदि 16 से न्यूनतम के-मेर आकार चुना जाता है, तो टीजी की पुनरावृत्ति की मात्रा खो जाएगी। ऐसा इसलिए है क्योंकि अधिकांश के-मेर दोहराए गए क्षेत्र में बैठेंगे और पुनरावृत्ति की मात्रा को संदर्भित करने के अतिरिक्त उसी के-मेर के पुनरावृत्ति के रूप में खारिज कर दिया जा सकता है। | **'उदा. 'अनुवर्ती ATGTGTGTGTGTGTACG के लिए, यदि 16 से न्यूनतम के-मेर आकार चुना जाता है, तो टीजी की पुनरावृत्ति की मात्रा खो जाएगी। ऐसा इसलिए है क्योंकि अधिकांश के-मेर दोहराए गए क्षेत्र में बैठेंगे और पुनरावृत्ति की मात्रा को संदर्भित करने के अतिरिक्त उसी के-मेर के पुनरावृत्ति के रूप में खारिज कर दिया जा सकता है। | ||
=====उच्च के-मेर आकार===== | =====उच्च के-मेर आकार===== | ||
*बड़े आकार के के - | *बड़े आकार के के-मर होने से ग्राफ़ में किनारों की संख्या बढ़ जाएगी, जिसके परिणामस्वरूप, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा बढ़ जाएगी। | ||
*के - | *के-मर का आकार बढ़ाने से शीर्षों की संख्या भी न्यूनतम हो जाएगी। इससे जीनोम के निर्माण में सहायता मिलेगी क्योंकि ग्राफ़ में पार करने के लिए न्यूनतम रास्ते होंगे।<ref name="debruijn-2" />* | ||
*बड़े के - | *बड़े के-मर में प्रत्येक के-मर से बाहरी शीर्ष न होने का जोखिम भी अधिक होता है। यह बड़े के-मर के कारण यह जोखिम बढ़ रहा है कि यह किसी अन्य k-mer के साथ <math>k-1</math> ओवरलैप नहीं होगा . इसलिए, इससे रीड्स में गड़बड़ी हो सकती है, और इस तरह, अधिक मात्रा में छोटे [[ संपर्क | संपर्क]] हो सकते हैं। | ||
*बड़े के-मेर आकार छोटे पुनरावृत्ति वाले क्षेत्रों की समस्या को न्यूनतम करने में सहायता करते हैं। यह इस तथ्य के कारण है कि के-मेर में पुनरावृत्ति क्षेत्र और निकटवर्ती डीएनए अनुक्रमों का संतुलन होगा (बशर्ते यह पर्याप्त बड़ा आकार हो) जो उस विशेष क्षेत्र में पुनरावृत्ति की मात्रा को हल करने में सहायता कर सकता है। | *बड़े के-मेर आकार छोटे पुनरावृत्ति वाले क्षेत्रों की समस्या को न्यूनतम करने में सहायता करते हैं। यह इस तथ्य के कारण है कि के-मेर में पुनरावृत्ति क्षेत्र और निकटवर्ती डीएनए अनुक्रमों का संतुलन होगा (बशर्ते यह पर्याप्त बड़ा आकार हो) जो उस विशेष क्षेत्र में पुनरावृत्ति की मात्रा को हल करने में सहायता कर सकता है। | ||
| Line 140: | Line 140: | ||
=== स्यूडोकोड === | === स्यूडोकोड === | ||
किसी रीड के संभावित के - | किसी रीड के संभावित के-मर का निर्धारण केवल स्ट्रिंग की लंबाई पर एक-एक करके साइकिल चलाकर और लंबाई <math>k</math> के प्रत्येक सबस्ट्रिंग को निकालकर किया जा सकता है। इसे प्राप्त करने के लिए छद्मकोड इस प्रकार है: | ||
'''procedure''' के - | '''procedure''' के-मर (string seq, integer k) '''is''' | ||
L ← length(seq) | L ← length(seq) | ||
arr ← new array of L − k + 1 empty strings | arr ← new array of L − k + 1 empty strings | ||
<nowiki> </nowiki> // seq में के - | <nowiki> </nowiki> // seq में के-मर की संख्या को पुनरावृत्त करें, | ||
<nowiki> </nowiki> // आउटपुट ऐरे में nth k-mer को स्टोर करना | <nowiki> </nowiki> // आउटपुट ऐरे में nth k-mer को स्टोर करना | ||
<nowiki> </nowiki> ''''for''' n ← 0 '''to''' L − k + 1 exclusive '''do''' | <nowiki> </nowiki> ''''for''' n ← 0 '''to''' L − k + 1 exclusive '''do''' | ||
Revision as of 21:46, 19 July 2023
जैव सूचना विज्ञान के अंतर्गत, के-मर जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले लंबाई के उपरज्जु को कहते हैं। प्रमुख रूप से संगणनात्मक जीनोमिक्स और अनुक्रम विश्लेषण के संदर्भ में उपयोग होते हैं, जहां के-अधिक्स आणविकों (अर्थात् A, T, G और C) से मिलकर बने होते हैं।[1] के-अधिक्स का उपयोग डीएनए संकलन, परजीवी जीन[2][3] अभिव्यक्ति को सुधारने, मेटाजेनोमिक[4] सैंपल में प्रजातियों की पहचान, और क्षीण टीकाकरण[5] बनाने के लिए किया जाता है। सामान्यतया, के-अधिक्स शब्द का उपयोग लंबाई L के एक अनुक्रम के सभी उपस्त्रिंशों के लिए किया जाता है, जिसका अर्थ होता है कि एक अनुक्रम AGAT के चार मोनोमर (A, G, A और T), तीन 2-मर्स (AG, GA, AT), दो 3-मर्स (AGA और GAT) और एक 4-मर्स (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई वाले एक अनुक्रम में के-अधिक्स होंगे और कुल संभव के-अधिक्स होंगे, यहां संभावित मोनोमरों की संख्या है।
परिचय
के-मेर्स केवल लंबाई हैं ,परिणामस्वरूप . उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित के-मर निम्न दर्शाये गए हैं:
| k | के-मर |
|---|---|
| 1 | G, T, A, C |
| 2 | GT, TA, AG, GA, AG, GC, CT, TG |
| 3 | GTA, TAG, AGA, GAG, AGC, GCT, CTG, TGT |
| 4 | GTAG, TAGA, AGAG, GAGC, AGCT, GCTG, CTGT |
| 5 | GTAGA, TAGAG, AGAGC, GAGCT, AGCTG, GCTGT |
| 6 | GTAGAG, TAGAGC, AGAGCT, GAGCTG, AGCTGT |
| 7 | GTAGAGC, TAGAGCT, AGAGCTG, GAGCTGT |
| 8 | GTAGAGCT, TAGAGCTG, AGAGCTGT |
| 9 | GTAGAGCTG, TAGAGCTGT |
| 10 | GTAGAGCTGT |
क-मर्स को दृश्यीकरण करने की एक विधि, क-मर्स स्पेक्ट्रम, एक अनुक्रम में प्रत्येक क-मर्स की बहुतायत को उस बहुतायत के साथ क-मर्सों की संख्या के खिलाफ दर्शाती है।[6] एक प्रजाति के जीनोम के लिए क-मर्स स्पेक्ट्रम में क-मर्सों की मोड की संख्या भिन्न होती है, ज्यादातर प्रजातियों का एन्यूनतम ोडल वितरण होता है।[7] यद्यपि, सभी स्तनधारी प्राणियों का बहुमोडल वितरण होता है। क-मर्स स्पेक्ट्रम में मोडों की संख्या जीनोम के विभिन्न क्षेत्रों के मध्य भी भिन्न हो सकती है: मानवों में 5' यूटीआर और एक्सॉन में एन्यूनतम ोडल क-मर्स स्पेक्ट्रम होता है, परंतु 3' यूटीआर और इंट्रॉन्स में बहुमोडल स्पेक्ट्रम होता है।
डीएनए के-मेर आवृत्ति को प्रभावित करने वाली शक्तियां
क-मर्स के उपयोग की आवृत्ति को कई बाधाएं प्रभावित करती हैं, जो विभिन्न स्तरों पर कार्य करती हैं और प्रायः एक-दूसरे के विरोध में होती हैं। महत्वपूर्ण बात यह है कि k के अधिक मानों के लिए क-मर्स पर प्रभावित करने वाली शक्तियों से भी प्रभावित होते हैं। जो न्यूनतम मानों के क-मर्स पर प्रभावित कर रहे होते हैं। उदाहरण के लिए, यदि 1-मर A किसी अनुक्रम में नहीं होता है, तो A को सम्मिलित करने वाले 2-मर (AA, AT, AG और AC) भी नहीं होंगे, जिससे विभिन्न प्रभावों के प्रभाव को संबद्ध करते हैं।
के = 1
जब k = 1 होता है, तो डीएनए के चार क-मर्स होते हैं, अर्थात् A, T, G और C। आणविक स्तर पर, G और C के मध्य तीन हाइड्रोजन बंधन होते हैं, जबकि A और T के मध्य केवल दो होते हैं। अतिरिक्त हाइड्रोजन बॉन्ड (और मजबूत स्टैकिंग अंतराक्रियाओं) के परिणामस्वरूप GC बंधन AT बंधन की तुलना में अधिक तापात्मक रूप से स्थिर होते हैं।[8] स्तनधारी प्राणियों और पक्षियों में Gs और Cs का अनुपात As और Ts की तुलना में अधिक होता है (जीसी-सामग्री), जिसके कारण जीसी-सामग्री विविधता के पीछे थर्मल स्थिरता होने की अवधारणा हुई थी ।[9] यद्यपि , यह अवधारणा जांच के दौरान समर्थन नहीं प्राप्त कर पाई: विभिन्न प्रोकैरियोटों के मध्य विश्लेषण ने दिखाया