के-मेर: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 1: Line 1:
{{broader|एन-ग्राम}}
{{broader|एन-ग्राम}}
{{DISPLAYTITLE:''k''-mer}}
{{DISPLAYTITLE:''k''-mer}}
[[File:K-mer diagram.svg|thumb|अनुक्रम ATGG में दो 3-मेर हैं: ATG और TGG ity।]]जैव सूचना विज्ञान के अंतर्गत, '''के-मर''' जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले <math>k</math> लंबाई  के [[सबस्ट्रिंग|उपरज्जु]]  को कहते हैं। प्रमुख रूप से [[कम्प्यूटेशनल जीनोमिक्स|संगणनात्मक जीनोमिक्स]] और [[अनुक्रम विश्लेषण]] के संदर्भ में उपयोग होते हैं, जहां के-अधिक्स [[न्यूक्लियोटाइड|आणविकों]] (अर्थात् A, T, G और C) से मिलकर बने होते हैं।<ref>{{Cite journal|last1=Compeau|first1=Phillip E C|last2=Pevzner|first2=Pavel A|last3=Tesler|first3=Glenn|date=November 2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|language=en|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmid=22068540|pmc=5531759|issn=1087-0156}}</ref> के-अधिक्स का उपयोग डीएनए संकलन, परजीवी जीन<ref name=":4">{{Cite journal|last1=Welch|first1=Mark|last2=Govindarajan|first2=Sridhar|last3=Ness|first3=Jon E.|last4=Villalobos|first4=Alan|last5=Gurney|first5=Austin|last6=Minshull|first6=Jeremy|last7=Gustafsson|first7=Claes|date=2009-09-14|editor-last=Kudla|editor-first=Grzegorz|title=एस्चेरिचिया कोलाई में सिंथेटिक जीन अभिव्यक्ति को नियंत्रित करने के लिए डिज़ाइन पैरामीटर|journal=PLOS ONE|language=en|volume=4|issue=9|pages=e7002|doi=10.1371/journal.pone.0007002|pmid=19759823|pmc=2736378|issn=1932-6203|bibcode=2009PLoSO...4.7002W|doi-access=free}}</ref><ref name=":6">{{Cite journal|last1=Gustafsson|first1=Claes|last2=Govindarajan|first2=Sridhar|last3=Minshull|first3=Jeremy|date=July 2004|title=कोडन पूर्वाग्रह और विषम प्रोटीन अभिव्यक्ति|journal=Trends in Biotechnology|language=en|volume=22|issue=7|pages=346–353|doi=10.1016/j.tibtech.2004.04.006|pmid=15245907}}</ref>  अभिव्यक्ति को सुधारने, मेटाजेनोमिक<ref name=":0">{{Cite journal|last1=Perry|first1=Scott C.|last2=Beiko|first2=Robert G.|date=2010-01-01|title=Distinguishing Microbial Genome Fragments Based on Their Composition: Evolutionary and Comparative Genomic Perspectives|journal=Genome Biology and Evolution|language=en|volume=2|pages=117–131|doi=10.1093/gbe/evq004|pmid=20333228|pmc=2839357|issn=1759-6653}}</ref> सैंपल में प्रजातियों की पहचान, और [[क्षीण टीका]]करण<ref>{{Cite journal|last1=Eschke|first1=Kathrin|last2=Trimpert|first2=Jakob|last3=Osterrieder|first3=Nikolaus|last4=Kunec|first4=Dusan|date=2018-01-29|editor-last=Mocarski|editor-first=Edward|title=कोडन जोड़ी पूर्वाग्रह डीऑप्टिमाइजेशन द्वारा एक बहुत ही विषैले मारेक रोग हर्पीसवायरस (एमडीवी) का क्षीणन|journal=PLOS Pathogens|language=en|volume=14|issue=1|pages=e1006857|doi=10.1371/journal.ppat.1006857|pmid=29377958|issn=1553-7374|pmc=5805365}}</ref> बनाने के लिए किया जाता है। सामान्यतया, के-अधिक्स शब्द का उपयोग लंबाई L के एक अनुक्रम के सभी उपस्त्रिंशों के लिए किया जाता है, जिसका अर्थ होता है कि एक अनुक्रम AGAT के चार [[मोनोमर]] (A, G, A और T), तीन 2-मर्स (AG, GA, AT), दो 3-मर्स (AGA और GAT) और एक 4-मर्स (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई <math>L</math> वाले एक अनुक्रम में <math>L - k + 1</math> के-अधिक्स होंगे और <math>n^{k}</math> कुल संभव के-अधिक्स होंगे, यहां <math>n</math> संभावित मोनोमरों की संख्या है।
[[File:K-mer diagram.svg|thumb|अनुक्रम ATGG में दो 3-मेर हैं: ATG और TGG ity।]]जैव सूचना विज्ञान के अंतर्गत, '''के-मर''' जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले <math>k</math> लंबाई  के [[सबस्ट्रिंग|उपरज्जु]]  को कहते हैं। इनका उपयोग प्रमुख रूप से [[कम्प्यूटेशनल जीनोमिक्स|संगणनात्मक जीनोमिक्स]] और [[अनुक्रम विश्लेषण]] के संदर्भ में किया जाता है जहां के-मर, [[न्यूक्लियोटाइड|आणविकों]] (अर्थात् A, T, G और C) से मिलकर बने होते हैं।<ref>{{Cite journal|last1=Compeau|first1=Phillip E C|last2=Pevzner|first2=Pavel A|last3=Tesler|first3=Glenn|date=November 2011|title=जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें|journal=Nature Biotechnology|language=en|volume=29|issue=11|pages=987–991|doi=10.1038/nbt.2023|pmid=22068540|pmc=5531759|issn=1087-0156}}</ref> के-मर का उपयोग डीएनए संकलन, परजीवी जीन<ref name=":4">{{Cite journal|last1=Welch|first1=Mark|last2=Govindarajan|first2=Sridhar|last3=Ness|first3=Jon E.|last4=Villalobos|first4=Alan|last5=Gurney|first5=Austin|last6=Minshull|first6=Jeremy|last7=Gustafsson|first7=Claes|date=2009-09-14|editor-last=Kudla|editor-first=Grzegorz|title=एस्चेरिचिया कोलाई में सिंथेटिक जीन अभिव्यक्ति को नियंत्रित करने के लिए डिज़ाइन पैरामीटर|journal=PLOS ONE|language=en|volume=4|issue=9|pages=e7002|doi=10.1371/journal.pone.0007002|pmid=19759823|pmc=2736378|issn=1932-6203|bibcode=2009PLoSO...4.7002W|doi-access=free}}</ref><ref name=":6">{{Cite journal|last1=Gustafsson|first1=Claes|last2=Govindarajan|first2=Sridhar|last3=Minshull|first3=Jeremy|date=July 2004|title=कोडन पूर्वाग्रह और विषम प्रोटीन अभिव्यक्ति|journal=Trends in Biotechnology|language=en|volume=22|issue=7|pages=346–353|doi=10.1016/j.tibtech.2004.04.006|pmid=15245907}}</ref>  अभिव्यक्ति को सुधारने, मेटाजेनोमिक<ref name=":0">{{Cite journal|last1=Perry|first1=Scott C.|last2=Beiko|first2=Robert G.|date=2010-01-01|title=Distinguishing Microbial Genome Fragments Based on Their Composition: Evolutionary and Comparative Genomic Perspectives|journal=Genome Biology and Evolution|language=en|volume=2|pages=117–131|doi=10.1093/gbe/evq004|pmid=20333228|pmc=2839357|issn=1759-6653}}</ref> सैंपल में प्रजातियों की पहचान, और [[क्षीण टीका]]<ref>{{Cite journal|last1=Eschke|first1=Kathrin|last2=Trimpert|first2=Jakob|last3=Osterrieder|first3=Nikolaus|last4=Kunec|first4=Dusan|date=2018-01-29|editor-last=Mocarski|editor-first=Edward|title=कोडन जोड़ी पूर्वाग्रह डीऑप्टिमाइजेशन द्वारा एक बहुत ही विषैले मारेक रोग हर्पीसवायरस (एमडीवी) का क्षीणन|journal=PLOS Pathogens|language=en|volume=14|issue=1|pages=e1006857|doi=10.1371/journal.ppat.1006857|pmid=29377958|issn=1553-7374|pmc=5805365}}</ref> बनाने के लिए किया जाता है। सामान्यतः, 'k-मर' शब्द का उपयोग एक अनुक्रम के सभी उप-अनुक्रमों को संदर्भित करने के लिए किया जाता है, जिनकी लंबाई k होती है, इस प्रकार अनुक्रम AGAT में चार मोनोमर्स (A, G, A और T), तीन 2-मर (AG, GA, AT), दो 3-मर (AGA और GAT) और एक 4-मर (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई <math>L</math> वाले एक अनुक्रम में <math>L - k + 1</math> के-मर होंगे और <math>n^{k}</math> कुल संभव के-मर होंगे, यहां <math>n</math> संभावित मोनोमरों की संख्या है।


== परिचय ==
== परिचय ==
Line 155: Line 155:


=== जैव सूचना विज्ञान पाइपलाइनों में ===
=== जैव सूचना विज्ञान पाइपलाइनों में ===
क्योंकि k के मान के लिए के-अधिक्स की संख्या गणनात्मक रूप से बढ़ती है, इसलिए बड़े k के लिए (आमतौर पर >10) के-अधिक्स की गणना एक कम्प्यूटेशनली कठिन कार्य है। जबकि छोटे k मानों के लिए उपरोक्त प्सेडोकोड जैसे सरल अमलन कार्यों का कार्य  करते हैं, उन्हें उच्च-प्रवाह अनुप्रयोगों या जब k बड़ा होता है, तों उसके लिए अनुकूलित करना चाहिए। इस समस्या को हल करने के लिए, विभिन्न उपकरणों का विकास किया गया है:
क्योंकि k के मान के लिए के-मर की संख्या गणनात्मक रूप से बढ़ती है, इसलिए बड़े k के लिए (आमतौर पर >10) के-मर की गणना एक कम्प्यूटेशनली कठिन कार्य है। जबकि छोटे k मानों के लिए उपरोक्त प्सेडोकोड जैसे सरल अमलन कार्यों का कार्य  करते हैं, उन्हें उच्च-प्रवाह अनुप्रयोगों या जब k बड़ा होता है, तों उसके लिए अनुकूलित करना चाहिए। इस समस्या को हल करने के लिए, विभिन्न उपकरणों का विकास किया गया है:


* [https://github.com/gmarcais/Jellyfish/ जेलीफ़िश] के-मेर गणना के लिए एक मल्टीथ्रेडेड, लॉक-फ्री [[ हैश तालिका ]] का उपयोग करता है और इसमें [[पायथन (प्रोग्रामिंग भाषा)|पायथन]] , [[रूबी (प्रोग्रामिंग भाषा)|रूबी]] , और [[पर्ल]] बाइंडिंग है।<ref>{{Cite journal|last1=Marçais|first1=Guillaume|last2=Kingsford|first2=Carl|date=2011-03-15|title=के-मर्स की घटनाओं की कुशल समानांतर गणना के लिए एक तेज़, लॉक-मुक्त दृष्टिकोण|journal=Bioinformatics|language=en|volume=27|issue=6|pages=764–770|doi=10.1093/bioinformatics/btr011|pmid=21217122|pmc=3051319|issn=1460-2059}}</ref>
* [https://github.com/gmarcais/Jellyfish/ जेलीफ़िश] के-मेर गणना के लिए एक मल्टीथ्रेडेड, लॉक-फ्री [[ हैश तालिका ]] का उपयोग करता है और इसमें [[पायथन (प्रोग्रामिंग भाषा)|पायथन]] , [[रूबी (प्रोग्रामिंग भाषा)|रूबी]] , और [[पर्ल]] बाइंडिंग है।<ref>{{Cite journal|last1=Marçais|first1=Guillaume|last2=Kingsford|first2=Carl|date=2011-03-15|title=के-मर्स की घटनाओं की कुशल समानांतर गणना के लिए एक तेज़, लॉक-मुक्त दृष्टिकोण|journal=Bioinformatics|language=en|volume=27|issue=6|pages=764–770|doi=10.1093/bioinformatics/btr011|pmid=21217122|pmc=3051319|issn=1460-2059}}</ref>

Revision as of 22:01, 19 July 2023

File:K-mer diagram.svg
अनुक्रम ATGG में दो 3-मेर हैं: ATG और TGG ity।

जैव सूचना विज्ञान के अंतर्गत, के-मर जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले लंबाई के उपरज्जु को कहते हैं। इनका उपयोग प्रमुख रूप से संगणनात्मक जीनोमिक्स और अनुक्रम विश्लेषण के संदर्भ में किया जाता है जहां के-मर, आणविकों (अर्थात् A, T, G और C) से मिलकर बने होते हैं।[1] के-मर का उपयोग डीएनए संकलन, परजीवी जीन[2][3] अभिव्यक्ति को सुधारने, मेटाजेनोमिक[4] सैंपल में प्रजातियों की पहचान, और क्षीण टीका[5] बनाने के लिए किया जाता है। सामान्यतः, 'k-मर' शब्द का उपयोग एक अनुक्रम के सभी उप-अनुक्रमों को संदर्भित करने के लिए किया जाता है, जिनकी लंबाई k होती है, इस प्रकार अनुक्रम AGAT में चार मोनोमर्स (A, G, A और T), तीन 2-मर (AG, GA, AT), दो 3-मर (AGA और GAT) और एक 4-मर (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई वाले एक अनुक्रम में के-मर होंगे और कुल संभव के-मर होंगे, यहां संभावित मोनोमरों की संख्या है।

परिचय

के-मेर्स केवल लंबाई हैं ,परिणामस्वरूप . उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित के-मर निम्न दर्शाये गए हैं:

File:E. coli 8-mer spectrum.svg
ई के लिए 8-मेर स्पेक्ट्रम का एक उदाहरण दर्शाया गया है। कोलाई 8-मेर्स आवृत्ति (अर्थात् बहुलता) की तुलना उनकी घटनाओं की संख्या से कर रहा है।
जीटीएजीजीसीटीजीटी के लिए के-मेर्स
k के-मर
1 G, T, A, C
2 GT, TA, AG, GA, AG, GC, CT, TG
3 GTA, TAG, AGA, GAG, AGC, GCT, CTG, TGT
4 GTAG, TAGA, AGAG, GAGC, AGCT, GCTG, CTGT
5 GTAGA, TAGAG, AGAGC, GAGCT, AGCTG, GCTGT
6 GTAGAG, TAGAGC, AGAGCT, GAGCTG, AGCTGT
7 GTAGAGC, TAGAGCT, AGAGCTG, GAGCTGT
8 GTAGAGCT, TAGAGCTG, AGAGCTGT
9 GTAGAGCTG, TAGAGCTGT
10 GTAGAGCTGT

क-मर्स को दृश्यीकरण करने की एक विधि, क-मर्स स्पेक्ट्रम, एक अनुक्रम में प्रत्येक क-मर्स की बहुतायत को उस बहुतायत के साथ क-मर्सों की संख्या के खिलाफ दर्शाती है।[6] एक प्रजाति के जीनोम के लिए क-मर्स स्पेक्ट्रम में क-मर्सों की मोड की संख्या भिन्न होती है, ज्यादातर प्रजातियों का एन्यूनतम ोडल वितरण होता है।[7] यद्यपि, सभी स्तनधारी प्राणियों का बहुमोडल वितरण होता है। क-मर्स स्पेक्ट्रम में मोडों की संख्या जीनोम के विभिन्न क्षेत्रों के मध्य भी भिन्न हो सकती है: मानवों में 5' यूटीआर और एक्सॉन में एन्यूनतम ोडल क-मर्स स्पेक्ट्रम होता है, परंतु 3' यूटीआर और इंट्रॉन्स में बहुमोडल स्पेक्ट्रम होता है।

डीएनए के-मेर आवृत्ति को प्रभावित करने वाली शक्तियां

क-मर्स के उपयोग की आवृत्ति को कई बाधाएं प्रभावित करती हैं, जो विभिन्न स्तरों पर कार्य करती हैं और प्रायः एक-दूसरे के विरोध में होती हैं। महत्वपूर्ण बात यह है कि k के अधिक मानों के लिए क-मर्स पर प्रभावित करने वाली शक्तियों से भी प्रभावित होते हैं। जो न्यूनतम मानों के क-मर्स पर प्रभावित कर रहे होते हैं। उदाहरण के लिए, यदि 1-मर A किसी अनुक्रम में नहीं होता है, तो A को सम्मिलित करने वाले 2-मर (AA, AT, AG और AC) भी नहीं होंगे, जिससे विभिन्न प्रभावों के प्रभाव को संबद्ध करते हैं।

के = 1

जब k = 1 होता है, तो डीएनए के चार क-मर्स होते हैं, अर्थात् A, T, G और C। आणविक स्तर पर, G और C के मध्य तीन हाइड्रोजन बंधन होते हैं, जबकि A और T के मध्य केवल दो होते हैं। अतिरिक्त हाइड्रोजन बॉन्ड (और मजबूत स्टैकिंग अंतराक्रियाओं) के परिणामस्वरूप GC बंधन AT बंधन की तुलना में अधिक तापात्मक रूप से स्थिर होते हैं।[8] स्तनधारी प्राणियों और पक्षियों में Gs और Cs का अनुपात As और Ts की तुलना में अधिक होता है (जीसी-सामग्री), जिसके कारण जीसी-सामग्री विविधता के पीछे थर्मल स्थिरता होने की अवधारणा हुई थी ।[9] यद्यपि , यह अवधारणा जांच के दौरान समर्थन नहीं प्राप्त कर पाई: विभिन्न प्रोकैरियोटों के मध्य विश्लेषण ने दिखाया कि जीसी-सामग्री और तापमान के मध्य कोई संबंध नहीं है, जैसा कि थर्मल अनुकूलन के अवधारणा के अनुसार होना चाहिए।[10] वास्तव में, यदि प्राकृतिक चयन जीसी-सामग्री विविधता के पीछे चलने वाला बल होता है, तो यह आवश्यक होगा कि एक पदार्थ के एकल न्यूक्लियोटाइड परिवर्तन, जो प्रायः मौन होते हैं, किसी प्राणी की सुसंगतता को परिवर्तित कर सकते है।[11]

वर्तमान प्रमाण सुझाव देता है कि जीसी-विशिष्ट जीन संवर्धन (जीबीजीसी) जीसी सामग्री में विविधता के पीछे एक चलने वाला कारक है।[11] जीबीजीसी एक पुनर्विन्यास के दौरान होने वाली प्रक्रिया है जिसमें A और T को G और C से परिवर्तित कर दिया जाता है। यह प्रक्रिया, प्राकृतिक चयन से पृथक होने के अतिरिक्त , पुनः भी जीनोम में जीसी प्रतिस्थापनों के प्रति चयनात्मक दबाव डाल सकती है।[12] इसलिए, जीबीजीसी को प्राकृतिक चयन का "प्रतारक" माना जा सकता है।[13] जीसी सामग्री उन स्थानों पर अधिक होती है जहां पुनर्विन्यास अधिक होता है। इसके अलावा, पुनर्विन्यास दरों में अधिकतम होने वाले प्राणियों में उच्च जीसी सामग्री पाई जाती है, जो जीबीजीसी की अवधारणा के प्रभावों के साथ मेल खाता है।[14] दिलचस्प बात यह है कि जीबीजीसी यूकैर्योसाइटों सीमित नहीं होता है।[15] बैक्टीरिया और आर्किया जैसे एकीकृत जीवों को भी जीन संवर्धन के माध्यम से पुनर्विन्यास का सामरिक अनुभव होता है, जो अकार्योगामी अंगिका प्रक्रिया है जिसके परिणामस्वरूप जीनोम में कई एक ही अनुक्रम होते हैं।[16] जीवन के सभी डोमेन में पुनर्विन्यास द्वारा जीसी सामग्री को ऊपर ले जाने का मतलब है कि जीबीजीसी सर्वत्र संरक्षित होता है। यह निर्धारित करना बाकी है कि जीबीजीसी एक (अधिकांशतः) शांत उत्पाद है जो जीवन के आणविक यंत्र का हिस्सा है या यह स्वयं चयन के तहत है, इसकी वास्तविक तत्व और जीवविज्ञान के लिए इसके परिणामस्वरूप लाभ या हानि वर्तमान में अज्ञात है।[17]

के = 2

जीसी-सामग्री पूर्वाग्रहों पर चर्चा करने वाले साहित्य के तुलनात्मक रूप से बड़े समूह के अतिरिक्त , द्विनाभिपूर्वक पूर्वाग्रहों के बारे में अपेक्षाकृत न्यूनतम लिखा गया है। यह ज्ञात है कि जीसी-सामग्री के विपरीत, ये द्विनाभिपूर्वक पूर्वाग्रह पूरे जीनोम में अपेक्षाकृत स्थिर होते हैं, जैसा कि ऊपर देखा गया है, काफी भिन्न हो सकते हैं।[18] यह एक महत्वपूर्ण अंतर्दृष्टि है जिसे नजरअंदाज नहीं किया जाना चाहिए। यदि द्विनाभिपूर्वक पूर्वाग्रह अनुवाद के परिणामस्वरूप दबाव के अधीन थे, तो कोडिंग क्षेत्र और गैर-कोडिंग डीएनए क्षेत्रों में द्विनाभिपूर्वक पूर्वाग्रह के पृथक -पृथक पैटर्न होंगे जो कुछ डाइनुसेलोटाइड्स की न्यूनतम अनुवादात्मक दक्षता से प्रेरित होते होंगे।[19] क्योंकि ऐसा नहीं है, इसलिए यह निष्कर्ष निकाला जा सकता है कि द्विनाभिपूर्वक पक्ष को मोड़ने वाले बल अनुवाद से अस्पष्ट हैं। द्विनाभिपूर्वक पक्षों के अनुवादिक परिकल्पना को प्रभावित करने के विरोधी प्रमाण है कि वायरसों के द्विनाभिपूर्वक पक्ष उनके मात्रिका परिवार से अधिक परिवर्तित करते हैं, जो उनके मेजबानों के अनुवादिक यंत्रों को वायरल परिवारों के विरुद्ध परिवर्तित करते हैं।।[20]

जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार सीजी दमन है, जो मिथाइलेशन सीजी द्विनाभिपूर्वकों की डीमिनेशन के कारण सीपीजी साइट 2-मेर्स की आवृत्ति को न्यूनतम कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री न्यूनतम हो जाती है।[21] यह इंटरैक्शन k के पृथक -पृथक मानों के लिए के-मर को प्रभावित करने वाली शक्ति के मध्य अंतर्संबंध पर प्रकाश डालता है।

द्विनाभिपूर्वक पक्ष के एक रोचक तथ्य यह है कि यह जीनवंशीय रूप से समान प्राणीजातीय जीनोम के मध्य एक "दूरी" माप के रूप में कार्य कर सकता है। घनिष्ठ रूप से संबंधित संगठनों के जीनोम के मध्य तुलनात्मक रूप से दूर संबंधित संगठनों के जोड़ों के मध्य द्विनाभिपूर्वक पक्ष अधिक समान होते हैं।[18]

के = 3

प्रोटीन जो डीएनए संकेतित करता है, बनाने के लिए इस्तेमाल की जाने वाली चालक विभिन्न प्राकृतिक एमिनो एसिड होते हैं। यद्यपि , केवल चार न्यूक्लियोटाइड होते हैं। इसलिए, न्यूक्लियोटाइड्स और एमिनो एसिड्स के मध्य एक-से-एक संबंध नहीं हो सकता है। उसी तरह, 16 2-मर्स होते हैं, जो प्रत्येक एमिनो एसिड को स्पष्टतः प्रतिष्ठित करने के लिए पर्याप्त नहीं हैं। यद्यपि , डीएनए में 64 अलग-अलग 3-मर्स होते हैं, जो प्रत्येक एमिनो एसिड को अद्वितीय रूप से प्रतिष्ठित करने के लिए पर्याप्त होते हैं। ये पृथक 3-मर्स कोडॉन कहलाते हैं। यद्यपि , प्रत्येक कोडॉन केवल एक एमिनो एसिड से मिलता है, प्रत्येक एमिनो एसिड को कई कोडॉन से प्रतिष्ठित किया जा सकता है। इस प्रकार, एक ही एमिनो एसिड अनुक्रम के कई डीएनए प्रतिष्ठान बना सकता है। रोचक बात यह है कि प्रत्येक एमिनो एसिड के लिए कोडॉन का उपयोग बराबर प्रमाण में नहीं होता है। इसे कोडन उपयोग पूर्वाग्रह (सीयूबी) कहा जाता है। जब k = 3 होता है, तो सच्चा 3-मर आवृत्ति और सीयूबी के मध्य एक अंतर किया जाना चाहिए।[22] उदाहरण के लिए, श्रृंगार एक ऐसी पदार्थ है जिसमें चार 3-मर शब्द होते हैं (ATG, TGG, GGC और GCA), जबकि केवल दो कोडॉन (ATG और GCA) होते हैं। यद्यपि , सीयूबी 3-मर उपयोग अवसाद का मुख्य कारक होता है (क्योंकि एक कोडिंग क्षेत्र में के-मरों के १/३ हिस्से कोडॉन होते हैं) और इस पर ध्यान केंद्रित होता है।

विभिन्न कोडॉनों की आवृत्ति में विविधता के यथार्थ कारण को पूर्णतः समझा जा सका नहीं है। यह जाना जाता है कि कोडॉन प्राथमिकता टीआरएनए प्रचुरताओं के संगठन से संबद्ध होती है, जहां प्रचुरतम tRNA के समान कोडॉन उसी प्रमाण में अधिक आवृत्तिक होते हैं।[22] और यह जाना जाता है कि अधिक उच्च स्तर पर प्रकटित प्रोटीनों में अधिक सीयूबी होता है।[23] इससे प्रकट होता है कि अनुवादात्मक क्षमता या सटीकता के लिए चयन प्राथमिकता सीयूबी विविधता के पीछे चलने वाला बल होता है।

के = 4

द्विनाभिपूर्वक पूर्वाग्रह में देखे गए प्रभाव के समान, फ़ाइलोजेनेटिक रूप से समान जीवों के टेट्रान्यूक्लियोटाइड पूर्वाग्रह न्यूनतम निकटता से संबंधित जीवों की तुलना में अधिक समान हैं।[4]टेट्रान्यूक्लियोटाइड पूर्वाग्रह में भिन्नता का सटीक कारण अच्छी तरह से समझा नहीं गया है, परंतु यह अनुमान लगाया गया है कि यह आणविक स्तर पर आनुवंशिक स्थिरता के रखरखाव का परिणाम है।[24]

अनुप्रयोग

एक प्रजाति के जीनोम, एक जीनोमिक क्षेत्र या एक सरणी के वर्ग में एक सेट के क-मर्स की आवृत्ति उपस्थित सरणी की "हस्ताक्षर" के रूप में उपयोग की जा सकती है। इन आवृत्तियों की तुलना करना अनुक्रम संरेखण से कम्प्यूटेशनली आसान होता है और इसे संरेखण-मुक्त अनुक्रम विश्लेषण में महत्वपूर्ण तकनीक के रूप में मान्यता प्राप्त है। यह एक संरेखण से पहले का पहला चरण विश्लेषण के रूप में भी उपयोग किया जा सकता है।

अनुक्रम संयोजन

File:K-mer-example.png
यह आंकड़ा डी ब्रूजन ग्राफ में उपयोग करने में सक्षम होने के लिए रीड्स को छोटे के-मेर्स (इस मामले में 4-मेर्स) में विभाजित करने की प्रक्रिया को दर्शाता है। (ए) अनुक्रमित किए जा रहे डीएनए के प्रारंभिक खंड को दर्शाता है। (बी) उन रीड्स को दर्शाता है जिन्हें अनुक्रमण से आउटपुट बनाया गया था और यह भी दर्शाता है कि वे कैसे संरेखित होते हैं।यद्यपि इस संरेखण के साथ समस्या यह है कि वे k-2 से ओवरलैप होते हैं, k-1 से नहीं (जो कि डी ब्रुइज़न ग्राफ़ में आवश्यक है)। (सी) रीड्स को छोटे 4-मेर्स में विभाजित होते हुए दर्शाता है। (डी) बार-बार 4-मेर्स को हटा देता है और पुनः उनका संरेखण दर्शाता है। ध्यान दें कि ये के-मर k-1 द्वारा ओवरलैप होते हैं और पुनः इन्हें डी ब्रुइज़न ग्राफ़ में उपयोग किया जा सकता है।

सिरणी संचालन में, क-मर्स का उपयोग दे ब्रुइन ग्राफ के निर्माण के दौरान किया जाता है।[25][26] डी ब्रुइन ग्राफ बनाने के लिए, प्रत्येक सिरा में संग्रहीत क-मर्स को संग्रहीत किया जाना चाहिए, जिसकी लंबाई होती है, और इसे एक दूसरे सिरे में 𝐿 − 1 द्वारा ओवरलैप करना चाहिए क्योंकि एक वर्टेक्स बनाया जा सके। अगली पीढ़ी अनुक्रम द्वारा उत्पन्न किए जाने वाले रीड के सामान्यतः विभिन्न रीड लंबाई होती हैं। उदाहरण के लिए, आईल्यूमिना की अनुक्रम प्रौद्योगिकी द्वारा 100-मर की रीड को दर्ज किया जाता है। यद्यपि , अनुक्रम में पाए जाने वाले संपूर्ण संभावित 100-मर में से केवल छोटा हिस्सा वास्तव में उत्पन्न होता है। इसका कारण है रीड त्रुटियाँ, परंतु अधिक महत्वपूर्ण है, अनुक्रम के दौरान संचालन होने वाले सीधे कवरेज को दी जाती है। समस्या यह है कि इन संभावित के-अधिक के छोटे हिस्से दे ब्रुइन ग्राफ की मुख्य मान्यता को उल्लंघन करते हैं, जहां सभी के-अधिक रीड्स को संचालन में आग्रहित होने की अपेक्षा होती है कि इसके पास अपने पड़ोसी के-अधिक से के माध्यम से ओवरलैप हो जाता है।

इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर्स में विभाजित होता है, क्योंकि परिणामी छोटे के-मेर्स उस छोटे आकार के सभी संभावित के-मेर्स का प्रतिनिधित्व करेंगे जो जीनोम में उपस्थित होते हैं।[27] इसके अलावा, के-मर को छोटे आकारों में विभाजित करने से विभिन्न प्रारंभिक पढ़ने की लंबाई की समस्या को न्यूनतम करने में भी सहायता मिलती है। इस उदाहरण में, पांच रीड्स जीनोम के सभी संभावित 7-मेर्स का लेखा जोखा नहीं देते हैं, और इस प्रकार, एक डी ब्रुइज़न ग्राफ़ नहीं बनाया जा सकता है। परंतु , जब उन्हें 4-मेर्स में विभाजित किया जाता है, तो परिणामस्वरूप उपक्रम दे ब्रुइन ग्राफ का उपयोग करके जीनोम का पुनर्निर्माण करने के लिए पर्याप्त होते हैं।

अनुक्रम संचालन के लिए सीधे उपयोग किए जाने के अलावा, के-मर का उपयोग जीनोम मिस-संचालन का पता लगाने के लिए भी किया जा सकता है, जो कि अधिक प्रस्तुत किए गए के-मर की पहचान करके होता है जो संयुक्त किए गए दोहराए गए अनुक्रम (डीएनए) की उपस्थिति का सुझाव देता है।[28] इसके अलावा, के-मर का उपयोग यूकेरियोटिक जीनोम संचालन के दौरान जीवाणु संदूषण का पता लगाने के लिए भी किया जाता है,जो मेटाजेनोमिक्स के क्षेत्र से लाए गए एक दृष्टिकोण से उधारण किया गया है।[29][30]

के-मेर आकार का विकल्प

के-मेर आकार के चुनाव का अनुक्रम संयोजन पर बहुत पृथक प्रभाव पड़ते हैं। ये प्रभाव छोटे आकार और बड़े आकार के के-मेर्स के मध्य अत्यधिक भिन्न होते हैं। इसलिए, प्रभावों को संतुलित करने वाले उपयुक्त आकार को चुनने के लिए विभिन्न के-मेर आकारों की समझ प्राप्त की जानी चाहिए। आकारों के प्रभाव निम्न उल्लिखित हैं।

न्यूनतम के-मेर आकार
  • न्यूनतम के-मेर आकार से ग्राफ़ में संग्रहीत किनारों की मात्रा न्यूनतम हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को न्यूनतम करने में सहायता मिलेगी।
  • छोटे आकार होने से सभी के-मर के ओवरलैप होने की संभावना बढ़ जाएगी, और इस तरह, डी ब्रुइज़न ग्राफ के निर्माण के लिए आवश्यक अनुवर्तीताएं होंगी।[31]
  • यद्यपि , छोटे आकार के k-mer होने से, आपको एकल k-mer में ले जाने वाले ग्राफ़ में कई शीर्ष होने का भी जोखिम होता है। इसलिए, इससे जीनोम का पुनर्निर्माण और अधिक कठिन हो जाएगा क्योंकि बड़ी मात्रा में शीर्षों को पार करने की आवश्यकता के कारण पथ अस्पष्टता का एक उच्च स्तर हमारे सामने आ सकती है।
  • के-मर छोटे हो जाने से जानकारी नष्ट हो जाती है।
    • 'उदा. 'AGTCGTAGATGCTG की संभावना ACGT से न्यूनतम है, और इस प्रकार, अधिक मात्रा में जानकारी रखती है।
  • छोटे के-मर में डीएनए में उन क्षेत्रों को हल करने में सक्षम नहीं होने की भी समस्या होती है जहां छोटे सूक्ष्म उपग्रह या दोहराव होते हैं। ऐसा इसलिए है क्योंकि छोटे के-मर पूरी तरह से दोहराव क्षेत्र के अंदर बैठे रहेंगे और इसलिए यह निर्धारित करना कठिन है कि वास्तव में कितनी पुनरावृत्ति हुई है।
    • 'उदा. 'अनुवर्ती ATGTGTGTGTGTGTACG के लिए, यदि 16 से न्यूनतम के-मेर आकार चुना जाता है, तो टीजी की पुनरावृत्ति की मात्रा खो जाएगी। ऐसा इसलिए है क्योंकि अधिकांश के-मेर दोहराए गए क्षेत्र में बैठेंगे और पुनरावृत्ति की मात्रा को संदर्भित करने के अतिरिक्त उसी के-मेर के पुनरावृत्ति के रूप में खारिज कर दिया जा सकता है।
उच्च के-मेर आकार
  • बड़े आकार के के-मर होने से ग्राफ़ में किनारों की संख्या बढ़ जाएगी, जिसके परिणामस्वरूप, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा बढ़ जाएगी।
  • के-मर का आकार बढ़ाने से शीर्षों की संख्या भी न्यूनतम हो जाएगी। इससे जीनोम के निर्माण में सहायता मिलेगी क्योंकि ग्राफ़ में पार करने के लिए न्यूनतम रास्ते होंगे।[31]*
  • बड़े के-मर में प्रत्येक के-मर से बाहरी शीर्ष न होने का जोखिम भी अधिक होता है। यह बड़े के-मर के कारण यह जोखिम बढ़ रहा है कि यह किसी अन्य k-mer के साथ ओवरलैप नहीं होगा . इसलिए, इससे रीड्स में गड़बड़ी हो सकती है, और इस तरह, अधिक मात्रा में छोटे संपर्क हो सकते हैं।
  • बड़े के-मेर आकार छोटे पुनरावृत्ति वाले क्षेत्रों की समस्या को न्यूनतम करने में सहायता करते हैं। यह इस तथ्य के कारण है कि के-मेर में पुनरावृत्ति क्षेत्र और निकटवर्ती डीएनए अनुक्रमों का संतुलन होगा (बशर्ते यह पर्याप्त बड़ा आकार हो) जो उस विशेष क्षेत्र में पुनरावृत्ति की मात्रा को हल करने में सहायता कर सकता है।

आनुवंशिकी और जीनोमिक्स

रोग संबंधी मामले में, द्विनुकलोटाइड अधिकार को रोगाणुता से जुड़े आनुवंशिक द्वीपों की पहचान में प्रारंभ किया जा चुका है।[11] पूर्व अध्ययन ने यह भी दर्शाया है कि चतुर्णुकलोटाइड अधिकार प्रोकर्योट्स[32] और यूकर्योट्स[33] में क्षैतिज जीन स्थानांतरण की सक्षमता को सफलतापूर्वक देख सकते हैं।

क-मरों का एक और अनुप्रयोग जीनोमिक्स-आधारित टैक्सोनोमी में होता है। उदाहरण के रूप में, मध्यम सफलता के साथ एर्विनिया के प्रजातियों के मध्य जीसी-सामग्री का उपयोग किया गया है।[34] टैक्सोनोमी के लिए जीसी-सामग्री के सीधे उपयोग के समान ही डीएनए की मेल्टिंग तापमान, अर्थात टीएम, का उपयोग किया जाता है।[35] क्योंकि जीसी बॉन्ड अधिक तापतन स्थिर होते हैं, जीसी सामग्री वाले संकेत में उच्च टीएम प्रदर्शित करती है। 1987 में, बैक्टीरियल सिस्टमाटिक्स के प्रति दृष्टिकोण को समाधान करने के लिए एड हॉक समिति ने फाइटोजेनेटिक प्रजाति संकल्प के हिस्से के रूप में जाति सीमाओं की निर्धारण में डेल्टा टीएम का उपयोग करने की प्रार्थना की, यद्यपि यह प्रार्थना वैज्ञानिक समुदाय में प्रभावी नहीं रही है।

आनुवंशिकता और जीनोमिक्स के अन्य अनुप्रयोग में सम्मिलित हैं:

  • आरएनए अनुक्रम डेटा से आरएनए आयसोफॉर्म की मात्रा का मापन होता है।[36]
  • मानव माइटोकॉन्ड्रियल हैप्लोग्रुप का वर्गीकरण करता है। [37]
  • जीनोम्स में पुनर्जनन स्थलों का पता लगाना होता है।[38]
  • के-मेर आवृत्ति बनाम के-अधिक गहराई का उपयोग करके जीनोम आकार का अनुमान लगाया जाता है। [39]
  • फ्लैंकिंग क्षेत्रों द्वारा सीपीजी द्वीपों का वर्णन किया जाता है। [40][41]
  • पुनरावृत्ति तत्व जैसे ट्रांसपोजेबल तत्व के नए पत्ते का खोज करना होता है ।[42]
  • प्रजातियों की डीएनए बारकोडिंग का पता लगाना होता है ।।[7][43]
  • प्रोटीन-बाइंडिंग सिक्वेंस मोटिफ का वर्णन किया जाता है। [44]
  • अगली पीढ़ी के डीएनए अनुक्रमण डेटा का उपयोग करके उत्परिवर्तन या बहुरूपता (जीव विज्ञान) की पहचान करना होता है।[45]


मेटाजेनोमिक्स

मेटाजेनोमिक्स में क-मर आवृत्ति और स्पेक्ट्रम विविधता का व्यापक उपयोग विश्लेषण[46][47] और बिनिंग के लिए किया जाता है। बिनिंग में, सीक्वेंसिंग रीड्स को प्रत्येक जीवाणु (या संचालनक टैक्सोनोमिक इकाई) के लिए "बिन्स" में अलग करने की चुनौती होती है, जिन्हें पुनः वे आस्थापित किए जाएंगे। टीईटीआरए एक महत्वपूर्ण उपकरण है जो मेटाजेनोमिक प्रारूप को लेता है और उन्हें उनके चतुर्नुक्लियोटाइड (k = 4) आवृत्ति के आधार पर जीवाणुओं में बिन्स में डालता है।[48] मेटाजेनोमिक बिनिंग के लिए क-मर आवृत्ति पर आधारित अन्य उपकरण हैं कंपोस्टबिन (k = 6),[49] पीसीएहिर,[50] फाइलोपाइथिया (5 ≤ k ≤ 6),[[51] क्लार्क (k ≥ 20),[52] और टैकोटाकोआ (2 ≤ k ≤ 6).[53] वर्तमान की विकासों ने मेटाजेनोमिक बिनिंग[54] में क-मर का उपयोग करके गहन अध्ययन को भी प्रारंभ किया है।

मेटाजेनोमिक्स के अन्य अनुप्रयोग सम्मिलित हैं:

  • कच्चे रीड्स से रीडिंग फ्रेम की पुनःप्राप्ति करता है।[55]
  • मेटागेनोमिक प्रारूपों में प्रजातियों की प्रमुखता का अनुमान लगाता है।[56]
  • प्रारूपों में उपस्थित प्रजातियों की निर्धारण करता है।[57][58]
  • प्रारूपों से रोगों के लिए बायोमार्कर की पहचान करता है। [59]

जैव प्रौद्योगिकी

अनुवाद संबंधी दक्षता को नियंत्रित करने के लिए जैव प्रौद्योगिकी अनुप्रयोगों में डीएनए अनुक्रमों में के-मेर आवृत्तियों को संशोधित करने का बड़े पैमाने पर उपयोग किया गया है।विशेष रूप से, इसका उपयोग प्रोटीन उत्पादन दर को उच्च या निम्न स्तर पर नियंत्रित करने के लिए किया गया है।

प्रोटीन उत्पादन बढ़ाने के संबंध में, प्रतिकूल द्विनाभिपूर्वक आवृत्ति को न्यूनतम करने से प्रोटीन संश्लेषण की उच्च दर प्राप्त होती है।[60] इसके अलावा, कोडॉन उपयोग विभेद को संश्लेषण दर को बढ़ाने वाले समरूपी अनुक्रमों का निर्माण करने के लिए संशोधित किया गया है।[2][3]इसी प्रकार, कोडन जोड़ी अनुकूलन, डाइनुसेलोटाइड और कोडन अनुकूलन का संयोजन, का भी अभिव्यक्ति को बढ़ाने के लिए सफलतापूर्वक उपयोग किया गया है।[61]

अनुवाद प्रभावशीलता को न्यूनतम करने के लिए क-मर का सबसे अध्ययनित अनुप्रयोग है टीके बनाने के लिए वायरसों को कमजोर करने के लिए कोडॉन-पेयर मानिपुलेशन का उपयोग करना। शोधकर्ताओं ने डेंगू वायरस का कारण बनने वाले वायरस को इस तरह से रीकोड किया कि इसका कोडॉन-पेयर विचारप्रधानता पशुवैज्ञानिक कोडॉन उपयोग पसंद से अधिक पृथक था।[62] यद्यपि इसमें एक अभिन्न एमिनो एसिड अनुक्रम था, परंतु रीकोड किए गए वायरस ने महत्वपूर्ण रूप से क