के-मेर

अनुक्रम ATGG में दो 3-मेर हैं: ATG और TGG।

जैव सूचना विज्ञान में, k-mers लंबाई के सबस्ट्रिंग हैं $k$ एक जैविक अनुक्रम के अंतर्गत समाहित। मुख्य रूप से कम्प्यूटेशनल जीनोमिक्स और अनुक्रम विश्लेषण के संदर्भ में उपयोग किया जाता है, जिसमें के-मेर्स न्यूक्लियोटाइड (यानी ए, टी, जी और सी) से बने होते हैं, के-मेर्स को अनुक्रम असेंबली में पूंजीकृत किया जाता है,^[1] प्रोटीन उत्पादन में सुधार,^[2]^[3] बिनिंग (मेटागेनोमिक्स),^[4] और क्षीण टीका बनाएं।^[5] आमतौर पर, k-mer शब्द किसी अनुक्रम की लंबाई के सभी अनुक्रमों को संदर्भित करता है $k$ , जैसे कि अनुक्रम AGAT में चार मोनोमर (A, G, A, और T), तीन 2-mer (AG, GA, AT), दो 3-mer (AGA और GAT) और एक 4-mer (AGAT) होंगे। . अधिक सामान्यतः, लंबाई का एक क्रम $L$ होगा $L-k+1$ के-मेर्स और $n^{k}$ कुल संभावित k-mers, कहाँ $n$ संभावित मोनोमर्स की संख्या है (उदाहरण के लिए डीएनए के मामले में चार)।

परिचय

के-मेर्स केवल लंबाई हैं $k$ परिणाम. उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित k-mers नीचे दिखाए गए हैं:

ई के लिए 8-मेर स्पेक्ट्रम का एक उदाहरण। कोलाई 8-मेर्स आवृत्ति (अर्थात् बहुलता) की तुलना उनकी घटनाओं की संख्या से कर रहा है।

k-mers for GTAGAGCTGT
k	k-mers
1	G, T, A, C
2	GT, TA, AG, GA, AG, GC, CT, TG
3	GTA, TAG, AGA, GAG, AGC, GCT, CTG, TGT
4	GTAG, TAGA, AGAG, GAGC, AGCT, GCTG, CTGT
5	GTAGA, TAGAG, AGAGC, GAGCT, AGCTG, GCTGT
6	GTAGAG, TAGAGC, AGAGCT, GAGCTG, AGCTGT
7	GTAGAGC, TAGAGCT, AGAGCTG, GAGCTGT
8	GTAGAGCT, TAGAGCTG, AGAGCTGT
9	GTAGAGCTG, TAGAGCTGT
10	GTAGAGCTGT

के-मेर्स को देखने की एक विधि, 'के-मेर स्पेक्ट्रम', एक अनुक्रम में प्रत्येक के-मेर की बहुलता बनाम उस बहुलता के साथ के-मेर की संख्या को दर्शाती है।^[6] किसी प्रजाति के जीनोम के लिए के-मेर स्पेक्ट्रम में मोड की संख्या अलग-अलग होती है, अधिकांश प्रजातियों में एक समान वितरण होता है।^[7] हालाँकि, सभी स्तनपायी जीवों का बहुविध वितरण होता है। के-मेर स्पेक्ट्रम के भीतर मोड की संख्या जीनोम के क्षेत्रों के बीच भी भिन्न हो सकती है: मनुष्यों के पास पांच प्राइम अनट्रांसलेटेड क्षेत्र में यूनिमॉडल के-मेर स्पेक्ट्रा है|5' यूटीआर और एक्सॉन लेकिन तीन प्राइम अनट्रांसलेटेड क्षेत्र में मल्टीमॉडल स्पेक्ट्रा|3' यूटीआर और परिचय.

डीएनए को प्रभावित करने वाली ताकतें k-mer आवृत्ति

के-मेर उपयोग की आवृत्ति कई स्तरों पर काम करने वाली कई ताकतों से प्रभावित होती है, जो अक्सर संघर्ष में रहती हैं। यह ध्यान रखना महत्वपूर्ण है कि k के उच्च मानों के लिए k-mer, k के निम्न मानों को प्रभावित करने वाली शक्तियों से भी प्रभावित होते हैं। उदाहरण के लिए, यदि 1-मेर ए एक अनुक्रम में नहीं होता है, तो ए (एए, एटी, एजी, और एसी) वाले 2-मेरों में से कोई भी घटित नहीं होगा, जिससे विभिन्न बलों के प्रभाव जुड़ेंगे।

के = 1

जब k = 1, चार डीएनए k-mers होते हैं, यानी, A, T, G, और C. आणविक स्तर पर, G और C के बीच तीन हाइड्रोजन बंधन होते हैं, जबकि A और T के बीच केवल दो होते हैं। GC अतिरिक्त हाइड्रोजन बॉन्ड (और मजबूत स्टैकिंग इंटरैक्शन) के परिणामस्वरूप बॉन्ड, एटी बॉन्ड की तुलना में अधिक थर्मल रूप से स्थिर होते हैं।^[8] स्तनधारियों और पक्षियों में Gs और Cs से As और Ts (GC-सामग्री) का अनुपात अधिक होता है, जिससे यह परिकल्पना सामने आई कि थर्मल स्थिरता GC-सामग्री भिन्नता का एक प्रेरक कारक थी।^[9] हालाँकि, आशाजनक होने के बावजूद, यह परिकल्पना जांच के दायरे में नहीं आई: विभिन्न प्रकार के प्रोकैरियोट्स के बीच विश्लेषण से तापमान के साथ जीसी-सामग्री के सहसंबंध का कोई सबूत नहीं मिला, जैसा कि थर्मल अनुकूलन परिकल्पना भविष्यवाणी करेगी।^[10] वास्तव में, यदि प्राकृतिक चयन जीसी-सामग्री भिन्नता के पीछे प्रेरक शक्ति होता, तो किसी जीव की फिटनेस को बदलने के लिए एकल न्यूक्लियोटाइड बहुरूपता की आवश्यकता होती, जो अक्सर पर्यायवाची प्रतिस्थापन होता है।^[11] बल्कि, वर्तमान साक्ष्य बताते हैं कि जीन रूपांतरण#जीसी-पक्षपाती जीन रूपांतरण|जीसी-पक्षपाती जीन रूपांतरण (जीबीजीसी) जीसी सामग्री में भिन्नता के पीछे एक प्रेरक कारक है।^[11]जीबीजीसी एक ऐसी प्रक्रिया है जो आनुवंशिक पुनर्संयोजन के दौरान होती है जो As और Ts को Gs और Cs से प्रतिस्थापित करती है।^[12] यह प्रक्रिया, हालांकि प्राकृतिक चयन से अलग है, फिर भी जीनोम में तय किए जा रहे जीसी प्रतिस्थापन के प्रति पक्षपातपूर्ण डीएनए पर चयनात्मक दबाव डाल सकती है। इसलिए जीबीजीसी को प्राकृतिक चयन के धोखेबाज के रूप में देखा जा सकता है। जैसा कि अपेक्षित होगा, अधिक पुनर्संयोजन का अनुभव करने वाली साइटों पर जीसी सामग्री अधिक है।^[13] इसके अलावा, जीबीजीसी परिकल्पना के पूर्वानुमानित प्रभावों को ध्यान में रखते हुए, पुनर्संयोजन की उच्च दर वाले जीव उच्च जीसी सामग्री प्रदर्शित करते हैं।^[14] दिलचस्प बात यह है कि जीबीजीसी यूकैर्योसाइटों तक ही सीमित नहीं दिखता है।^[15] बैक्टीरिया और आर्किया जैसे अलैंगिक जीव भी जीन रूपांतरण के माध्यम से पुनर्संयोजन का अनुभव करते हैं, समजात अनुक्रम प्रतिस्थापन की एक प्रक्रिया जिसके परिणामस्वरूप पूरे जीनोम में कई समान अनुक्रम होते हैं।^[16] यह पुनर्संयोजन जीवन के सभी क्षेत्रों में जीसी सामग्री को बढ़ाने में सक्षम है, यह बताता है कि जीबीजीसी सार्वभौमिक रूप से संरक्षित है। क्या जीबीजीसी जीवन की आणविक मशीनरी का (अधिकतर) तटस्थ उपोत्पाद है या स्वयं चयन के अधीन है, यह निर्धारित किया जाना बाकी है। जीबीजीसी का सटीक तंत्र और विकासवादी लाभ या नुकसान फिलहाल अज्ञात है।^[17]

के = 2

जीसी-सामग्री पूर्वाग्रहों पर चर्चा करने वाले साहित्य के तुलनात्मक रूप से बड़े समूह के बावजूद, डाइन्यूक्लियोटाइड पूर्वाग्रहों के बारे में अपेक्षाकृत कम लिखा गया है। यह ज्ञात है कि जीसी-सामग्री के विपरीत, ये डाइन्यूक्लियोटाइड पूर्वाग्रह पूरे जीनोम में अपेक्षाकृत स्थिर होते हैं, जैसा कि ऊपर देखा गया है, काफी भिन्न हो सकते हैं।^[18] यह एक महत्वपूर्ण अंतर्दृष्टि है जिसे नजरअंदाज नहीं किया जाना चाहिए। यदि डाइन्यूक्लियोटाइड पूर्वाग्रह अनुवाद (जीवविज्ञान) के परिणामस्वरूप दबाव के अधीन थे, तो कोडिंग क्षेत्र और गैर-कोडिंग डीएनए क्षेत्रों में डाइन्यूक्लियोटाइड पूर्वाग्रह के अलग-अलग पैटर्न होंगे जो कुछ डाइनुसेलोटाइड्स की कम अनुवादात्मक दक्षता से प्रेरित होंगे।^[19] क्योंकि ऐसा नहीं है, इसलिए यह अनुमान लगाया जा सकता है कि डाइन्यूक्लियोटाइड पूर्वाग्रह को नियंत्रित करने वाली ताकतें अनुवाद से स्वतंत्र हैं। डाइन्यूक्लियोटाइड पूर्वाग्रह को प्रभावित करने वाले ट्रांसलेशनल दबावों के खिलाफ अतिरिक्त सबूत यह तथ्य है कि वायरस के डाइन्यूक्लियोटाइड बायस, जो ट्रांसलेशनल दक्षता पर बहुत अधिक निर्भर करते हैं, उनके मेजबानों की तुलना में उनके वायरल परिवार द्वारा अधिक आकार में होते हैं, जिनकी ट्रांसलेशनल मशीनरी वायरस हाईजैक कर लेते हैं।^[20] जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार सीजी दमन है, जो मिथाइलेशन#डीएनए/आरएनए मिथाइलेशन सीजी डायन्यूक्लियोटाइड्स के डीमिनेशन के कारण सीपीजी साइट 2-मेर्स की आवृत्ति को कम कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री कम हो जाती है।^[21] यह इंटरैक्शन k के अलग-अलग मानों के लिए k-mers को प्रभावित करने वाली ताकतों के बीच अंतर्संबंध पर प्रकाश डालता है।

डाइन्यूक्लियोटाइड पूर्वाग्रह के बारे में एक दिलचस्प तथ्य यह है कि यह फ़ाइलोजेनेटिक रूप से समान जीनोम के बीच दूरी मापने का काम कर सकता है। निकट से संबंधित जीवों के जोड़े के जीनोम अधिक दूर से संबंधित जीवों के जोड़े की तुलना में अधिक समान डाइन्यूक्लियोटाइड पूर्वाग्रह साझा करते हैं।^[18]

के = 3

बीस प्राकृतिक एमिनो एसिड होते हैं जिनका उपयोग डीएनए एन्कोड करने वाले प्रोटीन के निर्माण के लिए किया जाता है। हालाँकि, केवल चार न्यूक्लियोटाइड हैं। इसलिए, न्यूक्लियोटाइड और अमीनो एसिड के बीच एक-से-एक पत्राचार नहीं हो सकता है। इसी प्रकार, 16 2-मेर्स हैं, जो प्रत्येक अमीनो एसिड को स्पष्ट रूप से दर्शाने के लिए पर्याप्त नहीं है। हालाँकि, डीएनए में 64 अलग-अलग 3-मेर हैं, जो प्रत्येक अमीनो एसिड को विशिष्ट रूप से दर्शाने के लिए पर्याप्त हैं। इन गैर-अतिव्यापी 3-मेरों को जेनेटिक कोड कहा जाता है। जबकि प्रत्येक कोडन केवल एक अमीनो एसिड को मैप करता है, प्रत्येक अमीनो एसिड कोडन अपक्षयी हो सकता है। इस प्रकार, एक ही अमीनो एसिड अनुक्रम में कई डीएनए प्रतिनिधित्व हो सकते हैं। दिलचस्प बात यह है कि अमीनो एसिड के लिए प्रत्येक कोडन का उपयोग समान अनुपात में नहीं किया जाता है।^[22] इसे कोडन उपयोग पूर्वाग्रह|कोडन-उपयोग पूर्वाग्रह (सीयूबी) कहा जाता है। जब k = 3, वास्तविक 3-मेर आवृत्ति और CUB के बीच अंतर किया जाना चाहिए। उदाहरण के लिए, अनुक्रम ATGGCA में चार 3-मेर शब्द हैं (ATG, TGG, GGC, और GCA) जबकि इसमें केवल दो कोडन (ATG और GCA) हैं। हालाँकि, CUB 3-मेर उपयोग पूर्वाग्रह का एक प्रमुख प्रेरक कारक है (इसके ⅓ तक का हिसाब, क्योंकि कोडिंग क्षेत्र में ⅓ k-mers कोडन हैं) और इस अनुभाग का मुख्य फोकस होगा।

विभिन्न कोडन की आवृत्तियों के बीच भिन्नता का सटीक कारण पूरी तरह से समझा नहीं गया है। यह ज्ञात है कि कोडन वरीयता टीआरएनए प्रचुरता के साथ सहसंबद्ध है, अधिक प्रचुर मात्रा में टीआरएनए से मेल खाने वाले कोडन तदनुसार अधिक बार होते हैं^[22]और यह कि अधिक उच्च रूप से अभिव्यक्त प्रोटीन अधिक CUB प्रदर्शित करते हैं।^[23] इससे पता चलता है कि अनुवादात्मक दक्षता या सटीकता के लिए चयन CUB भिन्नता के पीछे प्रेरक शक्ति है।

के = 4

डाइन्यूक्लियोटाइड पूर्वाग्रह में देखे गए प्रभाव के समान, फ़ाइलोजेनेटिक रूप से समान जीवों के टेट्रान्यूक्लियोटाइड पूर्वाग्रह कम निकटता से संबंधित जीवों की तुलना में अधिक समान हैं।^[4]टेट्रान्यूक्लियोटाइड पूर्वाग्रह में भिन्नता का सटीक कारण अच्छी तरह से समझा नहीं गया है, लेकिन यह अनुमान लगाया गया है कि यह आणविक स्तर पर आनुवंशिक स्थिरता के रखरखाव का परिणाम है।^[24]

अनुप्रयोग

किसी प्रजाति के जीनोम में, जीनोमिक क्षेत्र में, या अनुक्रमों के एक वर्ग में k-mers के एक सेट की आवृत्ति का उपयोग अंतर्निहित अनुक्रम के हस्ताक्षर के रूप में किया जा सकता है। इन आवृत्तियों की तुलना करना अनुक्रम संरेखण की तुलना में कम्प्यूटेशनल रूप से आसान है और संरेखण-मुक्त अनुक्रम विश्लेषण में एक महत्वपूर्ण विधि है। इसका उपयोग संरेखण से पहले प्रथम चरण के विश्लेषण के रूप में भी किया जा सकता है।

अनुक्रम संयोजन

यह आंकड़ा डी ब्रूजन ग्राफ में उपयोग करने में सक्षम होने के लिए रीड्स को छोटे के-मेर्स (इस मामले में 4-मेर्स) में विभाजित करने की प्रक्रिया को दर्शाता है। (ए) अनुक्रमित किए जा रहे डीएनए के प्रारंभिक खंड को दर्शाता है। (बी) उन रीड्स को दिखाता है जिन्हें अनुक्रमण से आउटपुट बनाया गया था और यह भी दिखाता है कि वे कैसे संरेखित होते हैं। हालाँकि इस संरेखण के साथ समस्या यह है कि वे k-2 से ओवरलैप होते हैं, k-1 से नहीं (जो कि डी ब्रुइज़न ग्राफ़ में आवश्यक है)। (सी) रीड्स को छोटे 4-मेर्स में विभाजित होते हुए दिखाता है। (डी) बार-बार 4-मेर्स को हटा देता है और फिर उनका संरेखण दिखाता है। ध्यान दें कि ये k-mers k-1 द्वारा ओवरलैप होते हैं और फिर इन्हें डी ब्रुइज़न ग्राफ़ में उपयोग किया जा सकता है।

अनुक्रम असेंबली में, के-मर्स का उपयोग डी ब्रुइज़न ग्राफ़ के निर्माण के दौरान किया जाता है।^[25]^[26] डी ब्रुइज़न ग्राफ़ बनाने के लिए, के-मर्स को लंबाई के साथ प्रत्येक किनारे में संग्रहीत किया जाता है $L$ द्वारा दूसरे किनारे में एक और स्ट्रिंग को ओवरलैप करना होगा $L-1$ एक शीर्ष (ग्राफ़ सिद्धांत) बनाने के लिए। अगली पीढ़ी के अनुक्रमण से उत्पन्न रीड्स में आम तौर पर अलग-अलग रीड लंबाई उत्पन्न होगी। उदाहरण के लिए, इलुमिना डाई अनुक्रमण की सीक्वेंसिंग तकनीक 100-मेर्स की रीडिंग कैप्चर करती है। हालाँकि, अनुक्रमण के साथ समस्या यह है कि जीनोम में मौजूद सभी संभावित 100-मेर्स में से केवल छोटे अंश ही वास्तव में उत्पन्न होते हैं। यह पढ़ने की त्रुटियों के कारण है, लेकिन इससे भी महत्वपूर्ण बात यह है कि अनुक्रमण के दौरान होने वाले साधारण कवरेज छेद हैं। समस्या यह है कि संभावित k-mers के ये छोटे अंश डी ब्रुइज़ ग्राफ़ की मुख्य धारणा का उल्लंघन करते हैं कि सभी k-mer रीड्स को जीनोम में इसके निकटवर्ती k-mer को ओवरलैप करना होगा $k-1$ (जो तब घटित नहीं हो सकता जब सभी संभावित k-mers मौजूद न हों)।

इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर्स में तोड़ना है, ताकि परिणामी छोटे के-मेर्स उस छोटे आकार के सभी संभावित के-मेर्स का प्रतिनिधित्व करेंगे जो जीनोम में मौजूद हैं।^[27] इसके अलावा, के-मर्स को छोटे आकारों में विभाजित करने से विभिन्न प्रारंभिक पढ़ने की लंबाई की समस्या को कम करने में भी मदद मिलती है। इस उदाहरण में, पांच रीड्स जीनोम के सभी संभावित 7-मेर्स का हिसाब नहीं देते हैं, और इस प्रकार, एक डी ब्रुइज़न ग्राफ़ नहीं बनाया जा सकता है। लेकिन, जब उन्हें 4-मेर्स में विभाजित किया जाता है, तो परिणामी अनुवर्ती डी ब्रुइज़न ग्राफ का उपयोग करके जीनोम को फिर से बनाने के लिए पर्याप्त होते हैं।

अनुक्रम असेंबली के लिए सीधे उपयोग किए जाने के अलावा, के-मर्स का उपयोग जीनोम गलत-असेंबली का पता लगाने के लिए भी किया जा सकता है, जो कि अधिक प्रस्तुत किए गए के-मर्स की पहचान करके होता है जो संयुक्त किए गए दोहराए गए अनुक्रम (डीएनए) की उपस्थिति का सुझाव देता है।^[28] इसके अलावा, के-मर्स का उपयोग यूकेरियोटिक जीनोम असेंबली के दौरान जीवाणु संदूषण का पता लगाने के लिए भी किया जाता है, जो मेटागेनोमिक्स के क्षेत्र से उधार लिया गया एक दृष्टिकोण है।^[29]^[30]

के-मेर आकार का विकल्प

के-मेर आकार के चुनाव का अनुक्रम संयोजन पर कई अलग-अलग प्रभाव पड़ते हैं। ये प्रभाव छोटे आकार और बड़े आकार के के-मेर्स के बीच काफी भिन्न होते हैं। इसलिए, प्रभावों को संतुलित करने वाले उपयुक्त आकार को चुनने के लिए विभिन्न के-मेर आकारों की समझ हासिल की जानी चाहिए। आकारों के प्रभाव नीचे उल्लिखित हैं।

कम के-मेर आकार

कम के-मेर आकार से ग्राफ़ में संग्रहीत किनारों की मात्रा कम हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को कम करने में मदद मिलेगी।
छोटे आकार होने से सभी के-मर्स के ओवरलैप होने की संभावना बढ़ जाएगी, और इस तरह, डी ब्रुइज़न ग्राफ के निर्माण के लिए आवश्यक अनुवर्तीताएं होंगी।^[31]
हालाँकि, छोटे आकार के k-mer होने से, आपको एकल k-mer में ले जाने वाले ग्राफ़ में कई शीर्ष होने का भी जोखिम होता है। इसलिए, इससे जीनोम का पुनर्निर्माण और अधिक कठिन हो जाएगा क्योंकि बड़ी मात्रा में शीर्षों को पार करने की आवश्यकता के कारण पथ अस्पष्टता का एक उच्च स्तर है।
के-मर्स छोटे हो जाने से जानकारी नष्ट हो जाती है।
- 'उदा. 'AGTCGTAGATGCTG की संभावना ACGT से कम है, और इस प्रकार, अधिक मात्रा में जानकारी रखती है (अधिक जानकारी के लिए एन्ट्रापी (सूचना सिद्धांत) देखें)।
छोटे के-मर्स में डीएनए में उन क्षेत्रों को हल करने में सक्षम नहीं होने की भी समस्या होती है जहां छोटे सूक्ष्म उपग्रह या दोहराव होते हैं। ऐसा इसलिए है क्योंकि छोटे के-मर्स पूरी तरह से दोहराव क्षेत्र के भीतर बैठे रहेंगे और इसलिए यह निर्धारित करना कठिन है कि वास्तव में कितनी पुनरावृत्ति हुई है।
- 'उदा. 'अनुवर्ती ATGTGTGTGTGTGTACG के लिए, यदि 16 से कम के-मेर आकार चुना जाता है, तो टीजी की पुनरावृत्ति की मात्रा खो जाएगी। ऐसा इसलिए है क्योंकि अधिकांश के-मेर दोहराए गए क्षेत्र में बैठेंगे और दोहराव की मात्रा को संदर्भित करने के बजाय उसी के-मेर के दोहराव के रूप में खारिज कर दिया जा सकता है।

उच्च के-मेर आकार

बड़े आकार के k-mers होने से ग्राफ़ में किनारों की संख्या बढ़ जाएगी, जिसके परिणामस्वरूप, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा बढ़ जाएगी।
के-मर्स का आकार बढ़ाने से शीर्षों की संख्या भी कम हो जाएगी। इससे जीनोम के निर्माण में मदद मिलेगी क्योंकि ग्राफ़ में पार करने के लिए कम रास्ते होंगे।^[31]*बड़े k-mers में प्रत्येक k-mer से बाहरी शीर्ष न होने का जोखिम भी अधिक होता है। यह बड़े k-mers के कारण यह जोखिम बढ़ रहा है कि यह किसी अन्य k-mer के साथ ओवरलैप नहीं होगा $k-1$ . इसलिए, इससे रीड्स में गड़बड़ी हो सकती है, और इस तरह, अधिक मात्रा में छोटे संपर्क ्स हो सकते हैं।
बड़े के-मेर आकार छोटे दोहराव वाले क्षेत्रों की समस्या को कम करने में मदद करते हैं। यह इस तथ्य के कारण है कि के-मेर में दोहराव क्षेत्र और निकटवर्ती डीएनए अनुक्रमों का संतुलन होगा (बशर्ते यह पर्याप्त बड़ा आकार हो) जो उस विशेष क्षेत्र में दोहराव की मात्रा को हल करने में मदद कर सकता है।

आनुवंशिकी और जीनोमिक्स

रोग के संबंध में, रोगजनकता से जुड़े आनुवंशिक द्वीपों का पता लगाने के लिए डाइन्यूक्लियोटाइड पूर्वाग्रह को लागू किया गया है।^[11]पहले के काम से यह भी पता चला है कि टेट्रान्यूक्लियोटाइड पूर्वाग्रह दोनों प्रोकैरियोट्स में क्षैतिज जीन स्थानांतरण का प्रभावी ढंग से पता लगाने में सक्षम हैं^[32] और यूकेरियोट्स।^[33] के-मर्स का एक अन्य अनुप्रयोग जीनोमिक्स-आधारित वर्गीकरण में है। उदाहरण के लिए, जीसी-सामग्री का उपयोग मध्यम सफलता के साथ एर्विनिया की प्रजातियों के बीच अंतर करने के लिए किया गया है।^[34] वर्गीकरण उद्देश्यों के लिए जीसी-सामग्री के प्रत्यक्ष उपयोग के समान टी का उपयोग हैm, डीएनए का पिघलने का तापमान। चूँकि GC बांड अधिक ऊष्मीय रूप से स्थिर होते हैं, उच्च GC सामग्री वाले अनुक्रम उच्च T प्रदर्शित करते हैंm. 1987 में, बैक्टीरियल सिस्टमैटिक्स के दृष्टिकोण के समाधान पर तदर्थ समिति ने ΔT के उपयोग का प्रस्ताव रखाm प्रजाति #फ़ाइलोजेनेटिक, क्लैडिस्टिक, या विकासवादी प्रजातियों के हिस्से के रूप में प्रजातियों की सीमाओं को निर्धारित करने में कारक के रूप में, हालांकि इस प्रस्ताव को वैज्ञानिक समुदाय के भीतर आकर्षण प्राप्त नहीं हुआ है।^[35] आनुवंशिकी और जीनोमिक्स के अन्य अनुप्रयोगों में शामिल हैं:

RNA-Seq|RNA-seq डेटा से जीन आइसोफॉर्म मात्रा का ठहराव^[36] * मानव माइटोकॉन्ड्रियल हैप्लोग्रुप का वर्गीकरण^[37] * जीनोम में पुनर्संयोजन स्थलों का पता लगाना^[38] * के-मेर आवृत्ति बनाम के-मेर गहराई का उपयोग करके जीनोम आकार का अनुमान^[39]^[40]
फ़्लैंकिंग क्षेत्रों द्वारा सीपीजी साइट की विशेषता^[41]^[42]
ट्रांसपोज़ेबल तत्व जैसे बार-बार अनुक्रम का नए सिरे से पता लगाना^[43] *प्रजातियों की डीएनए बारकोडिंग।^[7]^[44]
प्रोटीन-बाध्यकारी अनुक्रम रूपांकन की विशेषता^[45]
अगली पीढ़ी के डीएनए अनुक्रमण डेटा का उपयोग करके उत्परिवर्तन या बहुरूपता (जीव विज्ञान) की पहचान^[46]

मेटाजेनोमिक्स

के-मेर आवृत्ति और स्पेक्ट्रम भिन्नता दोनों विश्लेषणों के लिए मेटागेनोमिक्स में भारी उपयोग किया जाता है^[47]^[48] और बिनिंग. बिनिंग में, चुनौती प्रत्येक जीव (या परिचालन टैक्सोनोमिक इकाई) के लिए रीड्स के डिब्बे में अनुक्रमण को अलग करना है, जिसे फिर इकट्ठा किया जाएगा। टीईटीआरए एक उल्लेखनीय उपकरण है जो मेटागेनोमिक नमूने लेता है और उन्हें उनके टेट्रान्यूक्लियोटाइड (के = 4) आवृत्तियों के आधार पर जीवों में जोड़ता है।^[49] अन्य उपकरण जो मेटागेनोमिक बिनिंग के लिए के-मेर आवृत्ति पर निर्भर करते हैं, वे हैं कंपोस्टबिन (के = 6),^[50] पीसीएहिर,^[51] फाइलोपाइथिया (5 ≤ के ≤ 6),^[52] क्लार्क (k ≥ 20),^[53] और TACOA (2 ≤ k ≤ 6)।^[54] हाल के विकासों ने के-मर्स का उपयोग करके मेटागेनोमिक बिनिंग में गहन शिक्षण भी लागू किया है।^[55] मेटागेनोमिक्स के भीतर अन्य अनुप्रयोगों में शामिल हैं:

कच्चे रीड्स से रीडिंग फ्रेम की रिकवरी^[56]
मेटागेनोमिक नमूनों में प्रजातियों की बहुतायत का अनुमान^[57] * नमूनों में कौन सी प्रजातियाँ मौजूद हैं इसका निर्धारण^[58]^[59]
नमूनों से रोगों के लिए बायोमार्कर की पहचान^[60]

जैव प्रौद्योगिकी

अनुवाद संबंधी दक्षता को नियंत्रित करने के लिए जैव प्रौद्योगिकी अनुप्रयोगों में डीएनए अनुक्रमों में के-मेर आवृत्तियों को संशोधित करने का बड़े पैमाने पर उपयोग किया गया है। विशेष रूप से, इसका उपयोग प्रोटीन उत्पादन दर को ऊपर और नीचे नियंत्रित करने दोनों के लिए किया गया है।

प्रोटीन उत्पादन बढ़ाने के संबंध में, प्रतिकूल डाइन्यूक्लियोटाइड आवृत्ति को कम करने से प्रोटीन संश्लेषण की उच्च दर प्राप्त होती है।^[61] इसके अलावा, अधिक प्रोटीन अभिव्यक्ति दर के साथ पर्यायवाची अनुक्रम बनाने के लिए कोडन उपयोग पूर्वाग्रह को संशोधित किया गया है।^[2]^[3]इसी प्रकार, कोडन जोड़ी अनुकूलन, डाइनुसेलोटाइड और कोडन अनुकूलन का संयोजन, का भी अभिव्यक्ति को बढ़ाने के लिए सफलतापूर्वक उपयोग किया गया है।^[62] ट्रांसलेशनल दक्षता को कम करने के लिए के-मर्स का सबसे अधिक अध्ययन किया गया अनुप्रयोग टीके बनाने के लिए वायरस को कमजोर करने के लिए कोडन-जोड़ी हेरफेर है। शोधकर्ता डेंगू वायरस को फिर से कोड करने में सक्षम थे, वह वायरस जो डेंगू बुखार का कारण बनता है, जैसे कि इसका कोडन-जोड़ी पूर्वाग्रह जंगली प्रकार की तुलना में स्तनधारी कोडन-उपयोग प्राथमिकता से अधिक भिन्न था।^[63] हालांकि एक समान अमीनो-एसिड अनुक्रम युक्त, पुन: कोडित वायरस ने एक मजबूत प्रतिरक्षा प्रतिक्रिया प्राप्त करते हुए रोगजनक को काफी कमजोर कर दिया। इन्फ्लूएंजा का टीका बनाने के लिए भी इस दृष्टिकोण का प्रभावी ढंग से उपयोग किया गया है^[64] साथ ही मारेक रोग|मारेक रोग हर्पीसवायरस (एमडीवी) के लिए एक टीका।^[65] विशेष रूप से, एमडीवी को कम करने के लिए नियोजित कोडन-जोड़ी पूर्वाग्रह हेरफेर ने वायरस के कैंसरजनन को प्रभावी ढंग से कम नहीं किया, जो इस दृष्टिकोण के जैव प्रौद्योगिकी अनुप्रयोगों में संभावित कमजोरी को उजागर करता है। आज तक, किसी भी कोडन-जोड़ी डीऑप्टिमाइज़्ड वैक्सीन को उपयोग के लिए अनुमोदित नहीं किया गया है।

बाद के दो लेख कोडन-जोड़ी डीऑप्टिमाइज़ेशन के अंतर्निहित वास्तविक तंत्र को समझाने में मदद करते हैं: कोडन-जोड़ी पूर्वाग्रह डाइन्यूक्लियोटाइड पूर्वाग्रह का परिणाम है।^[66]^[67] वायरस और उनके मेजबानों का अध्ययन करके, लेखकों के दोनों समूह यह निष्कर्ष निकालने में सक्षम थे कि आणविक तंत्र जिसके परिणामस्वरूप वायरस का क्षीणन होता है, अनुवाद के लिए खराब रूप से अनुकूल डाइन्यूक्लियोटाइड में वृद्धि है।

जीसी-सामग्री, न्यूक्लिक एसिड थर्मोडायनामिक्स#डिनेचुरेशन पर इसके प्रभाव के कारण, पॉलीमरेज़ श्रृंखला प्रतिक्रिया#ऑप्टिमाइज़ेशन, एक अन्य महत्वपूर्ण जैव प्रौद्योगिकी उपकरण में एनीलिंग तापमान की भविष्यवाणी करने के लिए उपयोग की जाती है।

कार्यान्वयन

स्यूडोकोड

किसी रीड के संभावित k-mers का निर्धारण केवल स्ट्रिंग की लंबाई पर एक-एक करके साइकिल चलाकर और लंबाई के प्रत्येक सबस्ट्रिंग को निकालकर किया जा सकता है। $k$ . इसे प्राप्त करने के लिए छद्मकोड इस प्रकार है:

प्रक्रिया k-mers(स्ट्रिंग seq, पूर्णांक k) है
    एल ← length(seq)
    गिरफ्तारी ← एल - के + 1 खाली स्ट्रिंग की नई सरणी

    // seq में k-mers की संख्या को पुनरावृत्त करें,
    // आउटपुट ऐरे में nth k-mer को स्टोर करना
    'के लिए' n ← 0 'से' L - k + 1 विशेष 'करें'
        arr[n] ← अक्षर n से लेकर अक्षर n + k विशेष तक seq का क्रम

    'वापसी' गिरफ्तार

जैव सूचना विज्ञान पाइपलाइनों में

क्योंकि k के मानों के लिए k-mers की संख्या तेजी से बढ़ती है, k के बड़े मानों के लिए k-mers की गणना करना (आमतौर पर >10) एक कम्प्यूटेशनल रूप से कठिन कार्य है। जबकि उपरोक्त छद्म कोड जैसे सरल कार्यान्वयन k के छोटे मानों के लिए काम करते हैं, उन्हें उच्च-थ्रूपुट अनुप्रयोगों के लिए या जब k बड़ा होता है तो अनुकूलित करने की आवश्यकता होती है। इस समस्या को हल करने के लिए, विभिन्न उपकरण विकसित किए गए हैं:

जेलीफ़िश के-मेर गिनती के लिए एक मल्टीथ्रेडेड, लॉक-फ्री हैश तालिका का उपयोग करता है और इसमें पायथन (प्रोग्रामिंग भाषा), रूबी (प्रोग्रामिंग भाषा), और पर्ल बाइंडिंग है।^[68]
KMC के-मेर गिनती के लिए एक उपकरण है जो अनुकूलित गति के लिए मल्टीडिस्क आर्किटेक्चर का उपयोग करता है^[69]
Gerbil हैश टेबल दृष्टिकोण का उपयोग करता है लेकिन GPU त्वरण के लिए अतिरिक्त समर्थन के साथ^[70]
के-मेर विश्लेषण टूलकिट (KAT) के-मेर गणना का विश्लेषण करने के लिए जेलिफ़िश के एक संशोधित संस्करण का उपयोग करता है^[6]

यह भी देखें

संदर्भ

File:CC-BY icon.svg Some of the content in this article was copied from K-mer at the PLOS wiki, which is available under a Creative Commons Attribution 2.5 Generic (CC BY 2.5) license.

↑

[1] ↑

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

Anonymous

Search