अनुक्रम संयोजन: Difference between revisions

Line 1:

जैव सूचना विज्ञान में, '''अनुक्रम असेंबली''' का तात्पर्य मूल अनुक्रम के पुनर्निर्माण के लिए [[अनुक्रम संरेखण]] और लंबे [[डीएनए]] अनुक्रम से टुकड़ों को संरेखित करना और विलय करना है। इसकी आवश्यकता है क्योंकि डीएनए अनुक्रमण विधि एक बार में पूरे [[जीनोम]] को '''<nowiki/>'पढ़ने'''' में सक्षम नहीं हो सकती है, किंतु उपयोग की गई विधि के आधार पर 20 से 30,000 आधारों के मध्य के छोटे टुकड़ों को पढ़ती है। सामान्यतः, छोटे टुकड़े (रीड्स) शॉटगन अनुक्रमण जीनोम डीएनए, या [[ प्रतिलेखन (आनुवांशिकी) |प्रतिलेखन (आनुवांशिकी)]] ([[व्यक्त अनुक्रम टैग]]) से उत्पन्न होते हैं।

जैव सूचना विज्ञान में, '''अनुक्रम असेंबली''' का तात्पर्य मूल अनुक्रम के पुनर्निर्माण के लिए [[अनुक्रम संरेखण]] और लंबे [[डीएनए]] अनुक्रम से टुकड़ों को संरेखित करना और विलय करना है। इसकी आवश्यकता है क्योंकि डीएनए अनुक्रमण विधि बार में पूरे [[जीनोम]] को '''<nowiki/>'पढ़ने'''' में सक्षम नहीं हो सकती है, किंतु उपयोग की गई विधि के आधार पर 20 से 30,000 आधारों के मध्य के छोटे टुकड़ों को पढ़ती है। सामान्यतः, छोटे टुकड़े (रीड्स) शॉटगन अनुक्रमण जीनोम डीएनए, या [[ प्रतिलेखन (आनुवांशिकी) |प्रतिलेखन (आनुवांशिकी)]] ([[व्यक्त अनुक्रम टैग]]) से उत्पन्न होते हैं।

अनुक्रम संयोजन की समस्या की तुलना किसी पुस्तक की कई प्रतियां लेने, उनमें से प्रत्येक को एक अलग कटर के साथ श्रेडर से गुजारने और कटे हुए टुकड़ों को देखकर पुस्तक के पाठ को वापस एक साथ जोड़ने से की जा सकती है। इस कार्य की स्पष्ट कठिनाई के अतिरिक्त, कुछ अतिरिक्त व्यावहारिक मुद्दे भी हैं: मूल में कई दोहराए गए पैराग्राफ हो सकते हैं, और टाइपो त्रुटियों के लिए श्रेडिंग के समय कुछ टुकड़ों को संशोधित किया जा सकता है। किसी अन्य पुस्तक के अंश भी इसमें जोड़े जा सकते हैं और कुछ अंश पूरी तरह से पहचानने योग्य नहीं हो सकते हैं।

अनुक्रम संयोजन की समस्या की तुलना किसी पुस्तक की कई प्रतियां लेने, उनमें से प्रत्येक को अलग कटर के साथ श्रेडर से गुजारने और कटे हुए टुकड़ों को देखकर पुस्तक के पाठ को वापस साथ जोड़ने से की जा सकती है। इस कार्य की स्पष्ट कठिनाई के अतिरिक्त, कुछ अतिरिक्त व्यावहारिक मुद्दे भी हैं: मूल में कई दोहराए गए पैराग्राफ हो सकते हैं, और टाइपो त्रुटियों के लिए श्रेडिंग के समय कुछ टुकड़ों को संशोधित किया जा सकता है। किसी अन्य पुस्तक के अंश भी इसमें जोड़े जा सकते हैं और कुछ अंश पूरी तरह से पहचानने योग्य नहीं हो सकते हैं।

== जीनोम असेंबलर ==

पहला अनुक्रम असेंबलर 1980 के दशक के अंत और 1990 के दशक की शुरुआत में [[डीएनए सीक्वेंसर]] कहे जाने वाले स्वचालित अनुक्रमण उपकरणों द्वारा उत्पन्न बड़ी मात्रा में टुकड़ों को एक साथ जोड़ने के लिए सरल अनुक्रम संरेखण कार्यक्रमों के वेरिएंट के रूप में दिखाई देने लगा। जैसे-जैसे अनुक्रमित जीवों का आकार और जटिलता बढ़ती गई ([[प्लाज्मिड्स]] पर छोटे [[वायरस]] से लेकर [[ जीवाणु |जीवाणु]] और अंततः [[ यूकैर्योसाइटों |यूकैर्योसाइटों]] तक), इन [[जीनोम परियोजना]]ओं में उपयोग किए जाने वाले असेंबली कार्यक्रमों को संभालने के लिए तेजी से परिष्कृत रणनीतियों की आवश्यकता थी:

पहला अनुक्रम असेंबलर 1980 के दशक के अंत और 1990 के दशक की शुरुआत में [[डीएनए सीक्वेंसर]] कहे जाने वाले स्वचालित अनुक्रमण उपकरणों द्वारा उत्पन्न बड़ी मात्रा में टुकड़ों को साथ जोड़ने के लिए सरल अनुक्रम संरेखण कार्यक्रमों के वेरिएंट के रूप में दिखाई देने लगा। जैसे-जैसे अनुक्रमित जीवों का आकार और जटिलता बढ़ती गई ([[प्लाज्मिड्स]] पर छोटे [[वायरस]] से लेकर [[ जीवाणु |जीवाणु]] और अंततः [[ यूकैर्योसाइटों |यूकैर्योसाइटों]] तक), इन [[जीनोम परियोजना]]ओं में उपयोग किए जाने वाले असेंबली कार्यक्रमों को संभालने के लिए तेजी से परिष्कृत रणनीतियों की आवश्यकता थी:

* अनुक्रमण डेटा के [[टेराबाइट]]्स जिन्हें [[क्लस्टर कंप्यूटिंग]] पर प्रसंस्करण की आवश्यकता होती है;

Line 11:

* डीएनए अनुक्रमण उपकरणों से टुकड़ों में त्रुटियों को पढ़ता है, जो असेंबली को भ्रमित कर सकता है।

पहले बड़े यूकेरियोटिक जीनोम - 2000 में फल मक्खी [[ड्रोसोफिला मेलानोगास्टर]] और ठीक एक साल पश्चात् मानव जीनोम - को असेंबल करने की चुनौती का सामना करते हुए, वैज्ञानिकों ने सेलेरा असेंबलर जैसे असेंबलर विकसित किए<ref>{{cite journal|title=ड्रोसोफिला की एक संपूर्ण-जीनोम असेंबली|journal=Science |volume=287 |issue=5461 |pages=2196–204 |date=March 2000 |pmid=10731133 |doi=10.1126/science.287.5461.2196|last1=Myers|first1=E. W.|last2=Sutton|first2=GG|last3=Delcher|first3=AL|last4=Dew|first4=IM|last5=Fasulo|first5=DP|last6=Flanigan|first6=MJ|last7=Kravitz|first7=SA|last8=Mobarry|first8=CM|last9=Reinert|first9=KH|last10=Remington |first10=K. A. |last11=Anson |first11=E. L. |last12=Bolanos |first12=R. A. |last13=Chou |first13=H. H. |last14=Jordan |first14=C. M. |last15=Halpern |first15=A. L. |last16=Lonardi |first16=S |last17=Beasley |first17=E. M. |last18=Brandon |first18=R. C. |last19=Chen |first19=L |last20=Dunn |first20=P. J. |last21=Lai |first21=Z |last22=Liang |first22=Y |last23=Nusskern |first23=D. R. |last24=Zhan |first24=M |last25=Zhang |first25=Q |last26=Zheng |first26=X |last27=Rubin |first27=G. M. |last28=Adams |first28=M. D. |last29=Venter |first29=J. C. |display-authors=8 |bibcode=2000Sci...287.2196M |citeseerx=10.1.1.79.9822 |s2cid=6049420 }}</ref> और अर्चन<ref>{{cite journal |title=ARACHNE: a whole-genome shotgun assembler |journal= Genome Research|volume=12 |issue=1 |pages=177–89 |date=January 2002 |pmid=11779843 |pmc=155255 |doi=10.1101/gr.208902 |last1=Batzoglou |first1=S. |last2=Jaffe |first2=DB |last3=Stanley |first3=K |last4=Butler |first4=J |last5=Gnerre |first5=S |last6=Mauceli |first6=E |last7=Berger |first7=B |author7-link= Bonnie Berger |last8=Mesirov |first8=JP |last9=Lander |first9=ES}}</ref> 130 मिलियन (उदाहरण के लिए, फल मक्खी डी. मेलानोगास्टर) से 3 बिलियन (उदाहरण के लिए, मानव जीनोम) आधार जोड़े के जीनोम को संभालने में सक्षम। इन प्रयासों के पश्चात्, कई अन्य समूहों ने, अधिकतर प्रमुख जीनोम अनुक्रमण केंद्रों पर, बड़े पैमाने पर असेंबलर बनाए, और एक खुला स्रोत प्रयास जिसे एएमओएस के नाम से जाना जाता है<ref>{{Cite web|title=हमें विकी पसंद है|url=https://amos.sourceforge.net/wiki/index.php/AMOS|access-date=2023-01-02|website=amos.sourceforge.net}}</ref> [[ खुला स्रोत सॉफ्टवेयर |खुला स्रोत सॉफ्टवेयर]] ढांचे के अनुसार जीनोम असेंबली विधि में सभी नवाचारों को एक साथ लाने के लिए लॉन्च किया गया था।

पहले बड़े यूकेरियोटिक जीनोम - 2000 में फल मक्खी [[ड्रोसोफिला मेलानोगास्टर]] और ठीक साल पश्चात् मानव जीनोम - को असेंबल करने की चुनौती का सामना करते हुए, वैज्ञानिकों ने सेलेरा असेंबलर जैसे असेंबलर विकसित किए<ref>{{cite journal|title=ड्रोसोफिला की एक संपूर्ण-जीनोम असेंबली|journal=Science |volume=287 |issue=5461 |pages=2196–204 |date=March 2000 |pmid=10731133 |doi=10.1126/science.287.5461.2196|last1=Myers|first1=E. W.|last2=Sutton|first2=GG|last3=Delcher|first3=AL|last4=Dew|first4=IM|last5=Fasulo|first5=DP|last6=Flanigan|first6=MJ|last7=Kravitz|first7=SA|last8=Mobarry|first8=CM|last9=Reinert|first9=KH|last10=Remington |first10=K. A. |last11=Anson |first11=E. L. |last12=Bolanos |first12=R. A. |last13=Chou |first13=H. H. |last14=Jordan |first14=C. M. |last15=Halpern |first15=A. L. |last16=Lonardi |first16=S |last17=Beasley |first17=E. M. |last18=Brandon |first18=R. C. |last19=Chen |first19=L |last20=Dunn |first20=P. J. |last21=Lai |first21=Z |last22=Liang |first22=Y |last23=Nusskern |first23=D. R. |last24=Zhan |first24=M |last25=Zhang |first25=Q |last26=Zheng |first26=X |last27=Rubin |first27=G. M. |last28=Adams |first28=M. D. |last29=Venter |first29=J. C. |display-authors=8 |bibcode=2000Sci...287.2196M |citeseerx=10.1.1.79.9822 |s2cid=6049420 }}</ref> और अर्चन<ref>{{cite journal |title=ARACHNE: a whole-genome shotgun assembler |journal= Genome Research|volume=12 |issue=1 |pages=177–89 |date=January 2002 |pmid=11779843 |pmc=155255 |doi=10.1101/gr.208902 |last1=Batzoglou |first1=S. |last2=Jaffe |first2=DB |last3=Stanley |first3=K |last4=Butler |first4=J |last5=Gnerre |first5=S |last6=Mauceli |first6=E |last7=Berger |first7=B |author7-link= Bonnie Berger |last8=Mesirov |first8=JP |last9=Lander |first9=ES}}</ref> 130 मिलियन (उदाहरण के लिए, फल मक्खी डी. मेलानोगास्टर) से 3 बिलियन (उदाहरण के लिए, मानव जीनोम) आधार जोड़े के जीनोम को संभालने में सक्षम। इन प्रयासों के पश्चात्, कई अन्य समूहों ने, अधिकतर प्रमुख जीनोम अनुक्रमण केंद्रों पर, बड़े पैमाने पर असेंबलर बनाए, और खुला स्रोत प्रयास जिसे एएमओएस के नाम से जाना जाता है<ref>{{Cite web|title=हमें विकी पसंद है|url=https://amos.sourceforge.net/wiki/index.php/AMOS|access-date=2023-01-02|website=amos.sourceforge.net}}</ref> [[ खुला स्रोत सॉफ्टवेयर |खुला स्रोत सॉफ्टवेयर]] ढांचे के अनुसार जीनोम असेंबली विधि में सभी नवाचारों को साथ लाने के लिए लॉन्च किया गया था।

[[File:Seqassemble.png|thumb|रणनीति बनाएं कि एक अनुक्रम असेंबलर टुकड़े कैसे लेगा (काली पट्टी के नीचे दिखाया गया है) और अंतिम अनुक्रम (काले रंग में) को इकट्ठा करने के लिए उनके बीच ओवरलैप का मिलान करेगा। संभावित रूप से समस्याग्रस्त दोहराव अनुक्रम के ऊपर दिखाए गए हैं (ऊपर गुलाबी रंग में)। ओवरलैपिंग अंशों के बिना इन खंडों को किसी विशिष्ट क्षेत्र में निर्दिष्ट करना असंभव हो सकता है।|केंद्र|450x450px]]

Line 17:

== ईएसटी असेंबलर ==

[[ व्यक्त अनुक्रम टैग | व्यक्त अनुक्रम टैग]] या ईएसटी असेंबली एक प्रारंभिक रणनीति थी, जो 1990 के दशक के मध्य से लेकर 2000 के दशक के मध्य तक, पूरे जीनोम के अतिरिक्त व्यक्तिगत जीन को इकट्ठा करने के लिए थी। समस्या कई मायनों में जीनोम असेंबली से भिन्न है। ईएसटी असेंबली के लिए इनपुट अनुक्रम एक कोशिका के लिखित [[मैसेंजर आरएनए]] के टुकड़े हैं और पूरे जीनोम के केवल एक उपसमूह का प्रतिनिधित्व करते हैं। जीनोम और ईएसटी असेंबली के मध्य कई एल्गोरिथम संबंधी समस्याएं भिन्न होती हैं। उदाहरण के लिए, जीनोम में अधिकांशतः बड़ी मात्रा में दोहराव वाले अनुक्रम होते हैं, जो इंटरजेनिक क्षेत्रों में केंद्रित होते हैं। प्रतिलेखित जीन में बहुत कम दोहराव होते हैं, जिससे संयोजन कुछ सीमा तक आसान हो जाता है। दूसरी ओर, कुछ जीनों को बहुत अधिक संख्या में व्यक्त (प्रतिलेखित) किया जाता है (उदाहरण के लिए, [[हाउसकीपिंग जीन]]), जिसका अर्थ है कि पूरे जीनोम शॉटगन अनुक्रमण के विपरीत, रीड्स को पूरे जीनोम में समान रूप से नमूना नहीं किया जाता है।

[[ व्यक्त अनुक्रम टैग | व्यक्त अनुक्रम टैग]] या ईएसटी असेंबली प्रारंभिक रणनीति थी, जो 1990 के दशक के मध्य से लेकर 2000 के दशक के मध्य तक, पूरे जीनोम के अतिरिक्त व्यक्तिगत जीन को इकट्ठा करने के लिए थी। समस्या कई मायनों में जीनोम असेंबली से भिन्न है। ईएसटी असेंबली के लिए इनपुट अनुक्रम कोशिका के लिखित [[मैसेंजर आरएनए]] के टुकड़े हैं और पूरे जीनोम के केवल उपसमूह का प्रतिनिधित्व करते हैं। जीनोम और ईएसटी असेंबली के मध्य कई एल्गोरिथम संबंधी समस्याएं भिन्न होती हैं। उदाहरण के लिए, जीनोम में अधिकांशतः बड़ी मात्रा में दोहराव वाले अनुक्रम होते हैं, जो इंटरजेनिक क्षेत्रों में केंद्रित होते हैं। प्रतिलेखित जीन में बहुत कम दोहराव होते हैं, जिससे संयोजन कुछ सीमा तक आसान हो जाता है। दूसरी ओर, कुछ जीनों को बहुत अधिक संख्या में व्यक्त (प्रतिलेखित) किया जाता है (उदाहरण के लिए, [[हाउसकीपिंग जीन]]), जिसका अर्थ है कि पूरे जीनोम शॉटगन अनुक्रमण के विपरीत, रीड्स को पूरे जीनोम में समान रूप से नमूना नहीं किया जाता है।

ईएसटी असेंबली को (सीआईएस-) वैकल्पिक स्प्लिसिंग, [[ ट्रांस स्प्लिसिंग |ट्रांस स्प्लिसिंग]] , [[एकल न्यूकलोटाइड बहुरूपता]] और [[पोस्ट-ट्रांसक्रिप्शनल संशोधन]] जैसी सुविधाओं द्वारा और अधिक जटिल बना दिया गया है। 2008 की शुरुआत में जब आरएनए-सेक का आविष्कार किया गया था, ईएसटी अनुक्रमण को इस कहीं अधिक कुशल विधि से बदल दिया गया था, जिसे [[नई ट्रांस्क्रिप्टोम असेंबली से]] के अनुसार वर्णित किया गया था।

Line 25:

# डी-नोवो: टेम्प्लेट का उपयोग किए बिना, अनुक्रमण को असेंबल करने से पूर्ण-लंबाई (कभी-कभी उपन्यास) अनुक्रम तैयार होते हैं (डे नोवो अनुक्रम असेंबलर, डे नोवो ट्रांस्क्रिप्टोम असेंबली देखें)

# मानचित्रण/संरेखित करना: रीड्स को एक टेम्प्लेट (AKA संदर्भ) के विरुद्ध संरेखित करके असेंबल करना। एकत्रित सर्वसम्मति टेम्पलेट के समान नहीं हो सकती है।

# मानचित्रण/संरेखित करना: रीड्स को टेम्प्लेट (AKA संदर्भ) के विरुद्ध संरेखित करके असेंबल करना। एकत्रित सर्वसम्मति टेम्पलेट के समान नहीं हो सकती है।

# संदर्भ-निर्देशित: संदर्भ के अंदर सबसे समान क्षेत्र की समानता के आधार पर पठन का समूहन (चरणवार मानचित्रण)। फिर प्रत्येक समूह में पढ़े गए पाठों को लघु पाठ्य गुणवत्ता की नकल करने के लिए छोटा कर दिया जाता है। ऐसा करने की एक विशिष्ट विधि [[ के-अधिक |के-अधिक]] दृष्टिकोण है। तीसरी पीढ़ी की अनुक्रमण|लांग-रीड्स का उपयोग करके संदर्भ-निर्देशित असेंबली सबसे उपयोगी है।

# संदर्भ-निर्देशित: संदर्भ के अंदर सबसे समान क्षेत्र की समानता के आधार पर पठन का समूहन (चरणवार मानचित्रण)। फिर प्रत्येक समूह में पढ़े गए पाठों को लघु पाठ्य गुणवत्ता की नकल करने के लिए छोटा कर दिया जाता है। ऐसा करने की विशिष्ट विधि [[ के-अधिक |के-अधिक]] दृष्टिकोण है। तीसरी पीढ़ी की अनुक्रमण|लांग-रीड्स का उपयोग करके संदर्भ-निर्देशित असेंबली सबसे उपयोगी है।

संदर्भित-निर्देशित असेंबली अन्य प्रकारों का एक संयोजन है। इस प्रकार को बड़े पैमाने पर समानांतर अनुक्रमण लाभ (अर्थात कॉल गुणवत्ता) की नकल करने के लिए लंबे समय तक पढ़ी जाने वाली अनुक्रमणिका पर प्रयुक्त किया जाता है। इसके पीछे तर्क संदर्भ के अंदर छोटी विंडो द्वारा रीड्स को समूहीकृत करना है। उच्चतम गुणवत्ता और सबसे संभावित सन्निहित (कॉन्टिग) का चयन करने के लिए के-मात्र दृष्टिकोण का उपयोग करके प्रत्येक समूह में रीड्स को आकार में कम किया जाएगा। फिर एक मचान बनाने के लिए कॉन्टिग्स को एक साथ जोड़ा जाएगा। अंतिम सहमति मचान में किसी भी अंतराल को बंद करके बनाई जाती है।

संदर्भित-निर्देशित असेंबली अन्य प्रकारों का संयोजन है। इस प्रकार को बड़े पैमाने पर समानांतर अनुक्रमण लाभ (अर्थात कॉल गुणवत्ता) की नकल करने के लिए लंबे समय तक पढ़ी जाने वाली अनुक्रमणिका पर प्रयुक्त किया जाता है। इसके पीछे तर्क संदर्भ के अंदर छोटी विंडो द्वारा रीड्स को समूहीकृत करना है। उच्चतम गुणवत्ता और सबसे संभावित सन्निहित (कॉन्टिग) का चयन करने के लिए के-मात्र दृष्टिकोण का उपयोग करके प्रत्येक समूह में रीड्स को आकार में कम किया जाएगा। फिर मचान बनाने के लिए कॉन्टिग्स को साथ जोड़ा जाएगा। अंतिम सहमति मचान में किसी भी अंतराल को बंद करके बनाई जाती है।

== डी-नोवो बनाम मानचित्रण असेंबली ==

Line 34:

जटिलता और समय की आवश्यकताओं के संदर्भ में, डे-नोवो असेंबली मानचित्रण असेंबली की तुलना में धीमी और अधिक मेमोरी गहन होती हैं। यह अधिकतर इस तथ्य के कारण है कि असेंबली एल्गोरिदम को प्रत्येक रीड की तुलना हर दूसरे रीड के साथ करने की आवश्यकता होती है (एक ऑपरेशन जिसमें O(<var>n</var> की अनुभवहीन समय जटिलता होती है)<sup>2</sup>)). वर्तमान डे-नोवो जीनोम असेंबलर विभिन्न प्रकार के ग्राफ़-आधारित एल्गोरिदम का उपयोग कर सकते हैं, जैसे:

* ओवरलैप/लेआउट/आम सहमति (ओएलसी) दृष्टिकोण, जो सेंगर-डेटा असेंबलरों के लिए विशिष्ट था और एक ओवरलैप ग्राफ़ पर निर्भर करता है।

* ओवरलैप/लेआउट/आम सहमति (ओएलसी) दृष्टिकोण, जो सेंगर-डेटा असेंबलरों के लिए विशिष्ट था और ओवरलैप ग्राफ़ पर निर्भर करता है।

* डी ब्रुइज़न ग्राफ़ (डीबीजी) दृष्टिकोण, जो सोलेक्सा और एसओएलआईडी प्लेटफार्मों से लघु रीड्स के लिए सबसे व्यापक रूप से प्रयुक्त होता है। यह के-मेर ग्राफ़ पर निर्भर करता है, जो बड़ी मात्रा में लघु पठन के साथ अच्छा प्रदर्शन करता है।

* लालची ग्राफ़-आधारित दृष्टिकोण, जो OLC या DBG दृष्टिकोणों में से किसी एक का भी उपयोग कर सकता है। लालची ग्राफ-आधारित एल्गोरिदम के साथ, contigs लालची विस्तार से आगे बढ़ें, सदैव उच्चतम स्कोरिंग ओवरलैप का पालन करके जो पढ़ा जाता है उसे लेते रहें।<ref>{{Cite journal|last1=Miller|first1=Jason R.|last2=Koren|first2=Sergey|last3=Sutton|first3=Granger|date=2010-03-06|title=अगली पीढ़ी के अनुक्रमण डेटा के लिए असेंबली एल्गोरिदम|journal=Genomics|language=en|volume=95|issue=6|pages=315–327|doi=10.1016/j.ygeno.2010.03.001|pmc=2874646|pmid=20211242}}</ref>

* लालची ग्राफ़-आधारित दृष्टिकोण, जो OLC या DBG दृष्टिकोणों में से किसी का भी उपयोग कर सकता है। लालची ग्राफ-आधारित एल्गोरिदम के साथ, contigs लालची विस्तार से आगे बढ़ें, सदैव उच्चतम स्कोरिंग ओवरलैप का पालन करके जो पढ़ा जाता है उसे लेते रहें।<ref>{{Cite journal|last1=Miller|first1=Jason R.|last2=Koren|first2=Sergey|last3=Sutton|first3=Granger|date=2010-03-06|title=अगली पीढ़ी के अनुक्रमण डेटा के लिए असेंबली एल्गोरिदम|journal=Genomics|language=en|volume=95|issue=6|pages=315–327|doi=10.1016/j.ygeno.2010.03.001|pmc=2874646|pmid=20211242}}</ref>

परिचय में कटी हुई किताबों से की गई तुलना का जिक्र करते हुए: जबकि असेंबली मानचित्रण के लिए टेम्पलेट के रूप में एक बहुत ही समान पुस्तक होगी (संभवतः मुख्य पात्रों के नाम और कुछ स्थानों को बदल दिया गया है), डे-नोवो असेंबली एक और अधिक चुनौतीपूर्ण प्रस्तुत करती है इसमें चुनौती यह है कि किसी को पहले से पता नहीं चलेगा कि यह एक विज्ञान पुस्तक, एक उपन्यास, एक कैटलॉग या यहां तक कि कई किताबें बन जाएंगी। साथ ही, प्रत्येक टुकड़े की तुलना हर दूसरे टुकड़े से की जाएगी।

परिचय में कटी हुई किताबों से की गई तुलना का जिक्र करते हुए: जबकि असेंबली मानचित्रण के लिए टेम्पलेट के रूप में बहुत ही समान पुस्तक होगी (संभवतः मुख्य पात्रों के नाम और कुछ स्थानों को बदल दिया गया है), डे-नोवो असेंबली और अधिक चुनौतीपूर्ण प्रस्तुत करती है इसमें चुनौती यह है कि किसी को पहले से पता नहीं चलेगा कि यह विज्ञान पुस्तक, उपन्यास, कैटलॉग या यहां तक कि कई किताबें बन जाएंगी। साथ ही, प्रत्येक टुकड़े की तुलना हर दूसरे टुकड़े से की जाएगी।

डे-नोवो असेंबली में दोहराव को संभालने के लिए निकटतम दोहराव का प्रतिनिधित्व करने वाले ग्राफ़ सिद्धांत के निर्माण की आवश्यकता होती है। इस तरह की जानकारी पूर्ण या शॉटगन_सीक्वेंसिंग#पेयर्ड-एंड_सीक्वेंसिंग में दोहराव को कवर करने वाले एक लंबे टुकड़े को पढ़ने से प्राप्त की जा सकती है। दूसरी ओर, मानचित्रण असेंबली में, कई या बिना मिलान वाले भागों को सामान्यतः किसी अन्य संयोजन विधि पर गौर करने के लिए छोड़ दिया जाता है।<ref>{{cite web |last1=Wolf |first1=Beat |title=डे नोवो जीनोम असेंबली बनाम एक संदर्भ जीनोम की मैपिंग|url=http://beat.wolf.home.hefr.ch/documents/prague.pdf |website=University of Applied Sciences Western Switzerland |access-date=6 April 2019}}</ref>

डे-नोवो असेंबली में दोहराव को संभालने के लिए निकटतम दोहराव का प्रतिनिधित्व करने वाले ग्राफ़ सिद्धांत के निर्माण की आवश्यकता होती है। इस तरह की जानकारी पूर्ण या शॉटगन_सीक्वेंसिंग#पेयर्ड-एंड_सीक्वेंसिंग में दोहराव को कवर करने वाले लंबे टुकड़े को पढ़ने से प्राप्त की जा सकती है। दूसरी ओर, मानचित्रण असेंबली में, कई या बिना मिलान वाले भागों को सामान्यतः किसी अन्य संयोजन विधि पर गौर करने के लिए छोड़ दिया जाता है।<ref>{{cite web |last1=Wolf |first1=Beat |title=डे नोवो जीनोम असेंबली बनाम एक संदर्भ जीनोम की मैपिंग|url=http://beat.wolf.home.hefr.ch/documents/prague.pdf |website=University of Applied Sciences Western Switzerland |access-date=6 April 2019}}</ref>

== अनुक्रम असेंबली पाइपलाइन (जैव सूचना विज्ञान) ==

सामान्यतः, अनुक्रमण को एक मचान में इकट्ठा करने में तीन चरण होते हैं:

सामान्यतः, अनुक्रमण को मचान में इकट्ठा करने में तीन चरण होते हैं:

1) प्री-असेंबली: यह चरण डाउनलाइन विश्लेषण जैसे वेरिएंट कॉलिंग या अंतिम मचान अनुक्रम की अखंडता सुनिश्चित करने के लिए आवश्यक है। इस चरण में दो कालानुक्रमिक वर्कफ़्लो सम्मिलित हैं:

ए) गुणवत्ता जांच: अनुक्रमण विधि के प्रकार के आधार पर, विभिन्न त्रुटियां उत्पन्न हो सकती हैं जो गलत [[बेस कॉलिंग]] का कारण बन सकती हैं। उदाहरण के लिए, NAAAAAAAAAAAAN और NAAAAAAAAAAAAN का अनुक्रम जिसमें 12 एडेनिन सम्मिलित है, को गलत तरीके से इसके अतिरिक्त 11 एडेनिन कहा जा सकता है। लक्ष्य डीएनए/आरएनए के अत्यधिक दोहराव वाले खंड को अनुक्रमित करने के परिणामस्वरूप एक छोटी या एक अधिक आधार वाली कॉल हो सकती है। पढ़ने की गुणवत्ता सामान्यतः Phred गुणवत्ता स्कोर द्वारा मापी जाती है जो कि पढ़ने के अनुक्रम के अंदर प्रत्येक न्यूक्लियोटाइड गुणवत्ता का एक एन्कोडेड स्कोर है। कुछ अनुक्रमण विधि ों जैसे [[ पचबियो |पचबियो]] में उनके अनुक्रमित पढ़ने के लिए कोई स्कोरिंग विधि नहीं है। इस चरण में उपयोग किया जाने वाला एक सामान्य उपकरण FastQC है।<ref>{{Cite web |title=बब्राहम जैव सूचना विज्ञान - फास्टक्यूसी उच्च थ्रूपुट अनुक्रम डेटा के लिए एक गुणवत्ता नियंत्रण उपकरण|url=https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ |access-date=2022-05-09 |website=www.bioinformatics.babraham.ac.uk}}</ref> बी) रीड्स को फ़िल्टर करना: जो रीड्स गुणवत्ता जांच पास करने में विफल रहे, उन्हें सर्वोत्तम असेंबली कॉन्टिग्स प्राप्त करने के लिए फास्टक्यू फ़ाइल से हटा दिया जाना चाहिए।

ए) गुणवत्ता जांच: अनुक्रमण विधि के प्रकार के आधार पर, विभिन्न त्रुटियां उत्पन्न हो सकती हैं जो गलत [[बेस कॉलिंग]] का कारण बन सकती हैं। उदाहरण के लिए, NAAAAAAAAAAAAN और NAAAAAAAAAAAAN का अनुक्रम जिसमें 12 एडेनिन सम्मिलित है, को गलत तरीके से इसके अतिरिक्त 11 एडेनिन कहा जा सकता है। लक्ष्य डीएनए/आरएनए के अत्यधिक दोहराव वाले खंड को अनुक्रमित करने के परिणामस्वरूप छोटी या अधिक आधार वाली कॉल हो सकती है। पढ़ने की गुणवत्ता सामान्यतः Phred गुणवत्ता स्कोर द्वारा मापी जाती है जो कि पढ़ने के अनुक्रम के अंदर प्रत्येक न्यूक्लियोटाइड गुणवत्ता का एन्कोडेड स्कोर है। कुछ अनुक्रमण विधि जैसे [[ पचबियो |पचबियो]] में उनके अनुक्रमित पढ़ने के लिए कोई स्कोरिंग विधि नहीं है। इस चरण में उपयोग किया जाने वाला सामान्य उपकरण FastQC है।<ref>{{Cite web |title=बब्राहम जैव सूचना विज्ञान - फास्टक्यूसी उच्च थ्रूपुट अनुक्रम डेटा के लिए एक गुणवत्ता नियंत्रण उपकरण|url=https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ |access-date=2022-05-09 |website=www.bioinformatics.babraham.ac.uk}}</ref> बी) रीड्स को फ़िल्टर करना: जो रीड्स गुणवत्ता जांच पास करने में विफल रहे, उन्हें सर्वोत्तम असेंबली कॉन्टिग्स प्राप्त करने के लिए फास्टक्यू फ़ाइल से हटा दिया जाना चाहिए।

2) असेंबली: इस चरण के समय, प्रत्येक रीड को संभावित स्थान पर मैप करने के लिए विभिन्न मानदंडों के साथ रीड अलाइनमेंट का उपयोग किया जाएगा। किसी पाठ की अनुमानित स्थिति या तब इस पर आधारित होती है कि उसका अनुक्रम कितना अन्य पाठों या किसी संदर्भ के साथ संरेखित होता है। विभिन्न अनुक्रमण प्रौद्योगिकियों से पढ़ने के लिए विभिन्न संरेखण एल्गोरिदम का उपयोग किया जाता है। असेंबली में सामान्यतः उपयोग किए जाने वाले कुछ दृष्टिकोण डी ब्रुइज़न अनुक्रम ग्राफ और ओवरलैपिंग हैं। लंबाई, [[कवरेज (आनुवांशिकी)]], गुणवत्ता और उपयोग की गई अनुक्रमण विधि पढ़ें डीएनए अनुक्रमण के स्थितियों में सर्वोत्तम संरेखण एल्गोरिदम चुनने में प्रमुख भूमिका निभाती है।<ref>{{Cite journal |last1=Ruffalo |first1=M. |last2=LaFramboise |first2=T. |last3=Koyuturk |first3=M. |date=2011-10-15 |title=अगली पीढ़ी के अनुक्रमण रीड अलाइनमेंट के लिए एल्गोरिदम का तुलनात्मक विश्लेषण|journal=Bioinformatics |language=en |volume=27 |issue=20 |pages=2790–2796 |doi=10.1093/bioinformatics/btr477 |pmid=21856737 |issn=1367-4803|doi-access=free }}</ref> दूसरी ओर, तीसरी पीढ़ी के अनुक्रमण को संरेखित करने वाले एल्गोरिदम को उनके साथ जुड़ी उच्च त्रुटि दर को ध्यान में रखते हुए अग्रिम दृष्टिकोण की आवश्यकता होती है।

Line 51:

3) पोस्ट असेंबली: यह चरण असेंबल किए गए अनुक्रम से बहुमूल्य जानकारी निकालने पर केंद्रित है। [[तुलनात्मक जीनोमिक्स]], और जनसंख्या विश्लेषण ऐसे उदाहरण हैं जो संयोजन के पश्चात् के विश्लेषण में जाते हैं।

==विधि ी परिवर्तनों का प्रभाव==

==विधि परिवर्तनों का प्रभाव==

अनुक्रम संयोजन की जटिलता दो प्रमुख कारकों से प्रेरित होती है: टुकड़ों की संख्या और उनकी लंबाई। जबकि अधिक और लंबे टुकड़े अनुक्रम ओवरलैप की उत्तम पहचान की अनुमति देते हैं, वह समस्याएं भी उत्पन्न करते हैं क्योंकि अंतर्निहित एल्गोरिदम टुकड़ों की संख्या और उनकी लंबाई दोनों के लिए द्विघात या यहां तक कि घातीय जटिलता व्यवहार दिखाते हैं। और जबकि छोटे अनुक्रमों को संरेखित करना तेज़ होता है, वह असेंबली के लेआउट चरण को भी जटिल बनाते हैं क्योंकि छोटे रीड्स को दोहराव या समान दोहराव के साथ उपयोग करना अधिक कठिन होता है।

Line 63:

* त्रुटि दर 0.5 और 10% के मध्य है

सेंगर विधि के साथ, 20,000 से 200,000 रीड वाले बैक्टीरियल प्रोजेक्ट आसानी से एक कंप्यूटर पर इकट्ठे किए जा सकते हैं। लगभग 35 मिलियन रीड्स वाले मानव जीनोम जैसी बड़ी परियोजनाओं के लिए बड़े कंप्यूटिंग फार्म और वितरित कंप्यूटिंग की आवश्यकता होती है।

सेंगर विधि के साथ, 20,000 से 200,000 रीड वाले बैक्टीरियल प्रोजेक्ट आसानी से कंप्यूटर पर इकट्ठे किए जा सकते हैं। लगभग 35 मिलियन रीड्स वाले मानव जीनोम जैसी बड़ी परियोजनाओं के लिए बड़े कंप्यूटिंग फार्म और वितरित कंप्यूटिंग की आवश्यकता होती है।

2004/2005 तक, 454 लाइफ साइंसेज द्वारा [[pyrosequencing]] को व्यावसायिक व्यवहार्यता में लाया गया था। यह नई अनुक्रमण विधि उत्पन्न सेंगर अनुक्रमण की तुलना में बहुत कम पढ़ती है: शुरुआत में लगभग 100 आधार, अब 400-500 आधार। इसकी बहुत अधिक थ्रूपुट और कम व्यय (सेंगर अनुक्रमण की तुलना में) ने जीनोम केंद्रों द्वारा इस विधि को अपनाने को प्रेरित किया, जिसके परिणामस्वरूप अनुक्रम असेंबलरों का विकास हुआ जो रीड समूह को कुशलतापूर्वक संभाल सकते थे। रीड्स में प्रौद्योगिकी-विशिष्ट त्रुटि पैटर्न के साथ जुड़े डेटा की विशाल मात्रा ने असेंबलरों के विकास में देरी की; 2004 की शुरुआत में 454 से केवल [[नवसिखुआ]] असेंबलर उपलब्ध था। 2007 के मध्य में रिलीज़ हुई,<ref>{{Cite web|title=MIRA 2.9.8 for 454 and 454 / Sanger hybrid assembly|url=https://groups.google.com/g/bionet.software/c/s0s0gBHQTw4|access-date=2023-01-02|website=groups.google.com}}</ref> शेवरेक्स एट अल द्वारा MIRA असेंबलर का हाइब्रिड संस्करण। पहला स्वतंत्र रूप से उपलब्ध असेंबलर था जो 454 रीड्स के साथ-साथ 454 रीड्स और सेंगर रीड्स के मिश्रण को भी असेंबल कर सकता था। विभिन्न अनुक्रमण प्रौद्योगिकियों से अनुक्रमों को इकट्ठा करके पश्चात् में हाइब्रिड जीनोम असेंबली तैयार की गई।

2006 से, [[इलुमिना (कंपनी)]] (पहले सोलेक्सा) विधि उपलब्ध है और एक अनुक्रमण मशीन पर प्रति रन लगभग 100 मिलियन रीड्स उत्पन्न कर सकती है। इसकी तुलना मानव जीनोम परियोजना के 35 मिलियन रीड्स से करें, जिसे सैकड़ों अनुक्रमण मशीनों पर तैयार करने में कई वर्षों की आवश्यकता थी। इलुमिना प्रारंभ में केवल 36 आधारों की लंबाई तक सीमित थी, जिससे यह डे नोवो असेंबली (जैसे कि डे नोवो ट्रांस्क्रिप्टोम असेंबली) के लिए कम उपयुक्त थी, किन्तु प्रौद्योगिकी के नए पुनरावृत्तियों ने 3-400बीपी क्लोन के दोनों सिरों से 100 बेस से ऊपर पढ़ने की लंबाई प्राप्त की। . 2007 के अंत में SHARCGS असेंबलर की घोषणा की गई<ref>{{cite journal |title=SHARCGS, डे नोवो जीनोमिक अनुक्रमण के लिए एक तेज़ और अत्यधिक सटीक शॉर्ट-रीड असेंबली एल्गोरिदम|journal=Genome Research|volume=17 |issue=11 |pages=1697–706 |date=November 2007 |pmid=17908823 |pmc=2045152 |doi=10.1101/gr.6435207 |last1=Dohm |first1=J. C. |last2=Lottaz |first2=C. |last3=Borodina |first3=T. |last4=Himmelbauer |first4=H.}}</ref> डोहम एट अल द्वारा। पहला प्रकाशित असेंबलर था जिसका उपयोग सोलेक्सा रीड्स के साथ असेंबली के लिए किया गया था। इसका तुरंत कई अन्य लोगों ने अनुसरण किया।

2006 से, [[इलुमिना (कंपनी)]] (पहले सोलेक्सा) विधि उपलब्ध है और अनुक्रमण मशीन पर प्रति रन लगभग 100 मिलियन रीड्स उत्पन्न कर सकती है। इसकी तुलना मानव जीनोम परियोजना के 35 मिलियन रीड्स से करें, जिसे सैकड़ों अनुक्रमण मशीनों पर तैयार करने में कई वर्षों की आवश्यकता थी। इलुमिना प्रारंभ में केवल 36 आधारों की लंबाई तक सीमित थी, जिससे यह डे नोवो असेंबली (जैसे कि डे नोवो ट्रांस्क्रिप्टोम असेंबली) के लिए कम उपयुक्त थी, किन्तु प्रौद्योगिकी के नए पुनरावृत्तियों ने 3-400बीपी क्लोन के दोनों सिरों से 100 बेस से ऊपर पढ़ने की लंबाई प्राप्त की। . 2007 के अंत में SHARCGS असेंबलर की घोषणा की गई<ref>{{cite journal |title=SHARCGS, डे नोवो जीनोमिक अनुक्रमण के लिए एक तेज़ और अत्यधिक सटीक शॉर्ट-रीड असेंबली एल्गोरिदम|journal=Genome Research|volume=17 |issue=11 |pages=1697–706 |date=November 2007 |pmid=17908823 |pmc=2045152 |doi=10.1101/gr.6435207 |last1=Dohm |first1=J. C. |last2=Lottaz |first2=C. |last3=Borodina |first3=T. |last4=Himmelbauer |first4=H.}}</ref> डोहम एट अल द्वारा। पहला प्रकाशित असेंबलर था जिसका उपयोग सोलेक्सा रीड्स के साथ असेंबली के लिए किया गया था। इसका तुरंत कई अन्य लोगों ने अनुसरण किया।

पश्चात् में, [[एप्लाइड बायोसिस्टम्स]] से [[एबीआई ठोस अनुक्रमण]], [[आयन टोरेंट]] और एसएमआरटी सीक्वेंसिंग जैसी नई प्रौद्योगिकियां जारी की गईं और नई प्रौद्योगिकियां (जैसे [[ नैनोपोर अनुक्रमण |नैनोपोर अनुक्रमण]] ) उभरती रहीं। इन प्रौद्योगिकियों की उच्च त्रुटि दर के अतिरिक्त वह असेंबली के लिए महत्वपूर्ण हैं क्योंकि उनकी लंबी पढ़ने की लंबाई दोहराव की समस्या का समाधान करने में सहायता करती है। एक पूर्ण दोहराव के माध्यम से इकट्ठा करना असंभव है जो अधिकतम पढ़ी गई लंबाई से अधिक लंबा है; यद्यपि, जैसे-जैसे पढ़ा जाना लंबा होता जाता है, पूर्ण दोहराव की संभावना उतनी ही बड़ी होती जाती है। इससे लंबे समय [[एसएमआरटी अनुक्रमण]] पढ़ने से दोहराव को इकट्ठा करने में लाभ मिलता है, यदि उनकी त्रुटिहीनता कम हो (~ 85%)।

पश्चात् में, [[एप्लाइड बायोसिस्टम्स]] से [[एबीआई ठोस अनुक्रमण]], [[आयन टोरेंट]] और एसएमआरटी सीक्वेंसिंग जैसी नई प्रौद्योगिकियां जारी की गईं और नई प्रौद्योगिकियां (जैसे [[ नैनोपोर अनुक्रमण |नैनोपोर अनुक्रमण]] ) उभरती रहीं। इन प्रौद्योगिकियों की उच्च त्रुटि दर के अतिरिक्त वह असेंबली के लिए महत्वपूर्ण हैं क्योंकि उनकी लंबी पढ़ने की लंबाई दोहराव की समस्या का समाधान करने में सहायता करती है। पूर्ण दोहराव के माध्यम से इकट्ठा करना असंभव है जो अधिकतम पढ़ी गई लंबाई से अधिक लंबा है; यद्यपि, जैसे-जैसे पढ़ा जाना लंबा होता जाता है, पूर्ण दोहराव की संभावना उतनी ही बड़ी होती जाती है। इससे लंबे समय [[एसएमआरटी अनुक्रमण]] पढ़ने से दोहराव को इकट्ठा करने में लाभ मिलता है, यदि उनकी त्रुटिहीनता कम हो (~ 85%)।

== असेंबली एल्गोरिदम ==

विभिन्न जीवों के जीनोम के अंदर उच्च जटिलता का एक विशिष्ट क्षेत्र होता है। इसलिए, विभिन्न कम्प्यूटेशनल दृष्टिकोण की आवश्यकता है। सामान्यतः उपयोग किए जाने वाले कुछ एल्गोरिदम हैं:

विभिन्न जीवों के जीनोम के अंदर उच्च जटिलता का विशिष्ट क्षेत्र होता है। इसलिए, विभिन्न कम्प्यूटेशनल दृष्टिकोण की आवश्यकता है। सामान्यतः उपयोग किए जाने वाले कुछ एल्गोरिदम हैं:

* ग्राफ असेंबली: कंप्यूटर विज्ञान में ग्राफ सिद्धांत पर आधारित है। डी ब्रुइज़न ग्राफ़ इस दृष्टिकोण का एक उदाहरण है और रीड्स से सन्निहित को इकट्ठा करने के लिए के-मर्स का उपयोग करता है।

* ग्राफ असेंबली: कंप्यूटर विज्ञान में ग्राफ सिद्धांत पर आधारित है। डी ब्रुइज़न ग्राफ़ इस दृष्टिकोण का उदाहरण है और रीड्स से सन्निहित को इकट्ठा करने के लिए के-मर्स का उपयोग करता है।

* लालची ग्राफ़ असेंबली: यह दृष्टिकोण असेंबली में प्रत्येक जोड़े गए रीड को स्कोर करता है और ओवरलैपिंग क्षेत्र से उच्चतम संभव स्कोर का चयन करता है।

अनुक्रम खंडों के एक समूह को देखते हुए, वस्तु को एक लंबा अनुक्रम ढूंढना है जिसमें सभी टुकड़े सम्मिलित हों (अनुक्रम असेंबली के प्रकार के अनुसार चित्र देखें):

अनुक्रम खंडों के समूह को देखते हुए, वस्तु को लंबा अनुक्रम ढूंढना है जिसमें सभी टुकड़े सम्मिलित हों (अनुक्रम असेंबली के प्रकार के अनुसार चित्र देखें):

# सभी टुकड़ों के जोड़ीवार संरेखण की गणना करें।

# सबसे बड़े ओवरलैप वाले दो टुकड़े चुनें।

# चुने हुए अंशों को मर्ज करें.

# चरण 2 और 3 को तब तक दोहराएँ जब तक कि केवल एक टुकड़ा न रह जाए।

# चरण 2 और 3 को तब तक दोहराएँ जब तक कि केवल टुकड़ा न रह जाए।

परिणाम समस्या का इष्टतम समाधान नहीं हो सकता है।

Line 100:

|विभिन्न

|https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

|यह एक सामान्य उपकरण है जिसका उपयोग [[Illumina, Inc.|इलुमिना]], [[454 Life Sciences|454]] और [[Pacific Biosciences|PacBio]] जैसी विभिन्न अनुक्रमण प्रौद्योगिकियों से रीड्स की गुणवत्ता की जांच करने के लिए किया जाता है।

|यह सामान्य उपकरण है जिसका उपयोग [[Illumina, Inc.|इलुमिना]], [[454 Life Sciences|454]] और [[Pacific Biosciences|PacBio]] जैसी विभिन्न अनुक्रमण प्रौद्योगिकियों से रीड्स की गुणवत्ता की जांच करने के लिए किया जाता है।

|-

Anonymous

Search

अनुक्रम संयोजन: Difference between revisions

Namespaces

More

Page actions

@@ Line 1: / Line 1: @@
-जैव सूचना विज्ञान में, '''अनुक्रम असेंबली''' का तात्पर्य मूल अनुक्रम के पुनर्निर्माण के लिए [[अनुक्रम संरेखण]] और लंबे [[डीएनए]] अनुक्रम से टुकड़ों को संरेखित करना और विलय करना है। इसकी आवश्यकता है क्योंकि डीएनए अनुक्रमण विधि एक बार में पूरे [[जीनोम]] को '''<nowiki/>'पढ़ने'''' में सक्षम नहीं हो सकती है, किंतु उपयोग की गई विधि के आधार पर 20 से 30,000 आधारों के मध्य के छोटे टुकड़ों को पढ़ती है। सामान्यतः, छोटे टुकड़े (रीड्स) शॉटगन अनुक्रमण जीनोम डीएनए, या [[ प्रतिलेखन (आनुवांशिकी) |प्रतिलेखन (आनुवांशिकी)]] ([[व्यक्त अनुक्रम टैग]]) से उत्पन्न होते हैं।
+जैव सूचना विज्ञान में, '''अनुक्रम असेंबली''' का तात्पर्य मूल अनुक्रम के पुनर्निर्माण के लिए [[अनुक्रम संरेखण]] और लंबे [[डीएनए]] अनुक्रम से टुकड़ों को संरेखित करना और विलय करना है। इसकी आवश्यकता है क्योंकि डीएनए अनुक्रमण विधि बार में पूरे [[जीनोम]] को '''<nowiki/>'पढ़ने'''' में सक्षम नहीं हो सकती है, किंतु उपयोग की गई विधि के आधार पर 20 से 30,000 आधारों के मध्य के छोटे टुकड़ों को पढ़ती है। सामान्यतः, छोटे टुकड़े (रीड्स) शॉटगन अनुक्रमण जीनोम डीएनए, या [[ प्रतिलेखन (आनुवांशिकी) |प्रतिलेखन (आनुवांशिकी)]] ([[व्यक्त अनुक्रम टैग]]) से उत्पन्न होते हैं।
-अनुक्रम संयोजन की समस्या की तुलना किसी पुस्तक की कई प्रतियां लेने, उनमें से प्रत्येक को एक अलग कटर के साथ श्रेडर से गुजारने और कटे हुए टुकड़ों को देखकर पुस्तक के पाठ को वापस एक साथ जोड़ने से की जा सकती है। इस कार्य की स्पष्ट कठिनाई के अतिरिक्त, कुछ अतिरिक्त व्यावहारिक मुद्दे भी हैं: मूल में कई दोहराए गए पैराग्राफ हो सकते हैं, और टाइपो त्रुटियों के लिए श्रेडिंग के समय कुछ टुकड़ों को संशोधित किया जा सकता है। किसी अन्य पुस्तक के अंश भी इसमें जोड़े जा सकते हैं और कुछ अंश पूरी तरह से पहचानने योग्य नहीं हो सकते हैं।
+अनुक्रम संयोजन की समस्या की तुलना किसी पुस्तक की कई प्रतियां लेने, उनमें से प्रत्येक को अलग कटर के साथ श्रेडर से गुजारने और कटे हुए टुकड़ों को देखकर पुस्तक के पाठ को वापस साथ जोड़ने से की जा सकती है। इस कार्य की स्पष्ट कठिनाई के अतिरिक्त, कुछ अतिरिक्त व्यावहारिक मुद्दे भी हैं: मूल में कई दोहराए गए पैराग्राफ हो सकते हैं, और टाइपो त्रुटियों के लिए श्रेडिंग के समय कुछ टुकड़ों को संशोधित किया जा सकता है। किसी अन्य पुस्तक के अंश भी इसमें जोड़े जा सकते हैं और कुछ अंश पूरी तरह से पहचानने योग्य नहीं हो सकते हैं।
 == जीनोम असेंबलर ==
-पहला अनुक्रम असेंबलर 1980 के दशक के अंत और 1990 के दशक की शुरुआत में [[डीएनए सीक्वेंसर]] कहे जाने वाले स्वचालित अनुक्रमण उपकरणों द्वारा उत्पन्न बड़ी मात्रा में टुकड़ों को एक साथ जोड़ने के लिए सरल अनुक्रम संरेखण कार्यक्रमों के वेरिएंट के रूप में दिखाई देने लगा। जैसे-जैसे अनुक्रमित जीवों का आकार और जटिलता बढ़ती गई ([[प्लाज्मिड्स]] पर छोटे [[वायरस]] से लेकर [[ जीवाणु |जीवाणु]] और अंततः [[ यूकैर्योसाइटों |यूकैर्योसाइटों]] तक), इन [[जीनोम परियोजना]]ओं में उपयोग किए जाने वाले असेंबली कार्यक्रमों को संभालने के लिए तेजी से परिष्कृत रणनीतियों की आवश्यकता थी:
+पहला अनुक्रम असेंबलर 1980 के दशक के अंत और 1990 के दशक की शुरुआत में [[डीएनए सीक्वेंसर]] कहे जाने वाले स्वचालित अनुक्रमण उपकरणों द्वारा उत्पन्न बड़ी मात्रा में टुकड़ों को साथ जोड़ने के लिए सरल अनुक्रम संरेखण कार्यक्रमों के वेरिएंट के रूप में दिखाई देने लगा। जैसे-जैसे अनुक्रमित जीवों का आकार और जटिलता बढ़ती गई ([[प्लाज्मिड्स]] पर छोटे [[वायरस]] से लेकर [[ जीवाणु |जीवाणु]] और अंततः [[ यूकैर्योसाइटों |यूकैर्योसाइटों]] तक), इन [[जीनोम परियोजना]]ओं में उपयोग किए जाने वाले असेंबली कार्यक्रमों को संभालने के लिए तेजी से परिष्कृत रणनीतियों की आवश्यकता थी:
 * अनुक्रमण डेटा के [[टेराबाइट]]्स जिन्हें [[क्लस्टर कंप्यूटिंग]] पर प्रसंस्करण की आवश्यकता होती है;
@@ Line 11: / Line 11: @@
 * डीएनए अनुक्रमण उपकरणों से टुकड़ों में त्रुटियों को पढ़ता है, जो असेंबली को भ्रमित कर सकता है।
-पहले बड़े यूकेरियोटिक जीनोम - 2000 में फल मक्खी [[ड्रोसोफिला मेलानोगास्टर]] और ठीक एक साल पश्चात् मानव जीनोम - को असेंबल करने की चुनौती का सामना करते हुए, वैज्ञानिकों ने सेलेरा असेंबलर जैसे असेंबलर विकसित किए<ref>{{cite journal|title=ड्रोसोफिला की एक संपूर्ण-जीनोम असेंबली|journal=Science |volume=287 |issue=5461 |pages=2196–204 |date=March 2000 |pmid=10731133 |doi=10.1126/science.287.5461.2196|last1=Myers|first1=E. W.|last2=Sutton|first2=GG|last3=Delcher|first3=AL|last4=Dew|first4=IM|last5=Fasulo|first5=DP|last6=Flanigan|first6=MJ|last7=Kravitz|first7=SA|last8=Mobarry|first8=CM|last9=Reinert|first9=KH|last10=Remington |first10=K. A. |last11=Anson |first11=E. L. |last12=Bolanos |first12=R. A. |last13=Chou |first13=H. H. |last14=Jordan |first14=C. M. |last15=Halpern |first15=A. L. |last16=Lonardi |first16=S |last17=Beasley |first17=E. M. |last18=Brandon |first18=R. C. |last19=Chen |first19=L |last20=Dunn |first20=P. J. |last21=Lai |first21=Z |last22=Liang |first22=Y |last23=Nusskern |first23=D. R. |last24=Zhan |first24=M |last25=Zhang |first25=Q |last26=Zheng |first26=X |last27=Rubin |first27=G. M. |last28=Adams |first28=M. D. |last29=Venter |first29=J. C. |display-authors=8 |bibcode=2000Sci...287.2196M |citeseerx=10.1.1.79.9822 |s2cid=6049420 }}</ref> और अर्चन<ref>{{cite journal |title=ARACHNE: a whole-genome shotgun assembler |journal= Genome Research|volume=12 |issue=1 |pages=177–89 |date=January 2002 |pmid=11779843 |pmc=155255 |doi=10.1101/gr.208902 |last1=Batzoglou |first1=S. |last2=Jaffe |first2=DB |last3=Stanley |first3=K |last4=Butler |first4=J |last5=Gnerre |first5=S |last6=Mauceli |first6=E |last7=Berger |first7=B |author7-link= Bonnie Berger |last8=Mesirov |first8=JP |last9=Lander |first9=ES}}</ref> 130 मिलियन (उदाहरण के लिए, फल मक्खी डी. मेलानोगास्टर) से 3 बिलियन (उदाहरण के लिए, मानव जीनोम) आधार जोड़े के जीनोम को संभालने में सक्षम। इन प्रयासों के पश्चात्, कई अन्य समूहों ने, अधिकतर प्रमुख जीनोम अनुक्रमण केंद्रों पर, बड़े पैमाने पर असेंबलर बनाए, और एक खुला स्रोत प्रयास जिसे एएमओएस के नाम से जाना जाता है<ref>{{Cite web|title=हमें विकी पसंद है|url=https://amos.sourceforge.net/wiki/index.php/AMOS|access-date=2023-01-02|website=amos.sourceforge.net}}</ref> [[ खुला स्रोत सॉफ्टवेयर |खुला स्रोत सॉफ्टवेयर]] ढांचे के अनुसार जीनोम असेंबली विधि में सभी नवाचारों को एक साथ लाने के लिए लॉन्च किया गया था।
+पहले बड़े यूकेरियोटिक जीनोम - 2000 में फल मक्खी [[ड्रोसोफिला मेलानोगास्टर]] और ठीक साल पश्चात् मानव जीनोम - को असेंबल करने की चुनौती का सामना करते हुए, वैज्ञानिकों ने सेलेरा असेंबलर जैसे असेंबलर विकसित किए<ref>{{cite journal|title=ड्रोसोफिला की एक संपूर्ण-जीनोम असेंबली|journal=Science |volume=287 |issue=5461 |pages=2196–204 |date=March 2000 |pmid=10731133 |doi=10.1126/science.287.5461.2196|last1=Myers|first1=E. W.|last2=Sutton|first2=GG|last3=Delcher|first3=AL|last4=Dew|first4=IM|last5=Fasulo|first5=DP|last6=Flanigan|first6=MJ|last7=Kravitz|first7=SA|last8=Mobarry|first8=CM|last9=Reinert|first9=KH|last10=Remington |first10=K. A. |last11=Anson |first11=E. L. |last12=Bolanos |first12=R. A. |last13=Chou |first13=H. H. |last14=Jordan |first14=C. M. |last15=Halpern |first15=A. L. |last16=Lonardi |first16=S |last17=Beasley |first17=E. M. |last18=Brandon |first18=R. C. |last19=Chen |first19=L |last20=Dunn |first20=P. J. |last21=Lai |first21=Z |last22=Liang |first22=Y |last23=Nusskern |first23=D. R. |last24=Zhan |first24=M |last25=Zhang |first25=Q |last26=Zheng |first26=X |last27=Rubin |first27=G. M. |last28=Adams |first28=M. D. |last29=Venter |first29=J. C. |display-authors=8 |bibcode=2000Sci...287.2196M |citeseerx=10.1.1.79.9822 |s2cid=6049420 }}</ref> और अर्चन<ref>{{cite journal |title=ARACHNE: a whole-genome shotgun assembler |journal= Genome Research|volume=12 |issue=1 |pages=177–89 |date=January 2002 |pmid=11779843 |pmc=155255 |doi=10.1101/gr.208902 |last1=Batzoglou |first1=S. |last2=Jaffe |first2=DB |last3=Stanley |first3=K |last4=Butler |first4=J |last5=Gnerre |first5=S |last6=Mauceli |first6=E |last7=Berger |first7=B |author7-link= Bonnie Berger |last8=Mesirov |first8=JP |last9=Lander |first9=ES}}</ref> 130 मिलियन (उदाहरण के लिए, फल मक्खी डी. मेलानोगास्टर) से 3 बिलियन (उदाहरण के लिए, मानव जीनोम) आधार जोड़े के जीनोम को संभालने में सक्षम। इन प्रयासों के पश्चात्, कई अन्य समूहों ने, अधिकतर प्रमुख जीनोम अनुक्रमण केंद्रों पर, बड़े पैमाने पर असेंबलर बनाए, और खुला स्रोत प्रयास जिसे एएमओएस के नाम से जाना जाता है<ref>{{Cite web|title=हमें विकी पसंद है|url=https://amos.sourceforge.net/wiki/index.php/AMOS|access-date=2023-01-02|website=amos.sourceforge.net}}</ref> [[ खुला स्रोत सॉफ्टवेयर |खुला स्रोत सॉफ्टवेयर]] ढांचे के अनुसार जीनोम असेंबली विधि में सभी नवाचारों को साथ लाने के लिए लॉन्च किया गया था।
 [[File:Seqassemble.png|thumb|रणनीति बनाएं कि एक अनुक्रम असेंबलर टुकड़े कैसे लेगा (काली पट्टी के नीचे दिखाया गया है) और अंतिम अनुक्रम (काले रंग में) को इकट्ठा करने के लिए उनके बीच ओवरलैप का मिलान करेगा। संभावित रूप से समस्याग्रस्त दोहराव अनुक्रम के ऊपर दिखाए गए हैं (ऊपर गुलाबी रंग में)। ओवरलैपिंग अंशों के बिना इन खंडों को किसी विशिष्ट क्षेत्र में निर्दिष्ट करना असंभव हो सकता है।|केंद्र|450x450px]]
@@ Line 17: / Line 17: @@
 == ईएसटी असेंबलर ==
-[[ व्यक्त अनुक्रम टैग | व्यक्त अनुक्रम टैग]] या ईएसटी असेंबली एक प्रारंभिक रणनीति थी, जो 1990 के दशक के मध्य से लेकर 2000 के दशक के मध्य तक, पूरे जीनोम के अतिरिक्त व्यक्तिगत जीन को इकट्ठा करने के लिए थी। समस्या कई मायनों में जीनोम असेंबली से भिन्न है। ईएसटी असेंबली के लिए इनपुट अनुक्रम एक कोशिका के लिखित [[मैसेंजर आरएनए]] के टुकड़े हैं और पूरे जीनोम के केवल एक उपसमूह का प्रतिनिधित्व करते हैं। जीनोम और ईएसटी असेंबली के मध्य कई एल्गोरिथम संबंधी समस्याएं भिन्न होती हैं। उदाहरण के लिए, जीनोम में अधिकांशतः बड़ी मात्रा में दोहराव वाले अनुक्रम होते हैं, जो इंटरजेनिक क्षेत्रों में केंद्रित होते हैं। प्रतिलेखित जीन में बहुत कम दोहराव होते हैं, जिससे संयोजन कुछ सीमा तक आसान हो जाता है। दूसरी ओर, कुछ जीनों को बहुत अधिक संख्या में व्यक्त (प्रतिलेखित) किया जाता है (उदाहरण के लिए, [[हाउसकीपिंग जीन]]), जिसका अर्थ है कि पूरे जीनोम शॉटगन अनुक्रमण के विपरीत, रीड्स को पूरे जीनोम में समान रूप से नमूना नहीं किया जाता है।
+[[ व्यक्त अनुक्रम टैग | व्यक्त अनुक्रम टैग]] या ईएसटी असेंबली प्रारंभिक रणनीति थी, जो 1990 के दशक के मध्य से लेकर 2000 के दशक के मध्य तक, पूरे जीनोम के अतिरिक्त व्यक्तिगत जीन को इकट्ठा करने के लिए थी। समस्या कई मायनों में जीनोम असेंबली से भिन्न है। ईएसटी असेंबली के लिए इनपुट अनुक्रम कोशिका के लिखित [[मैसेंजर आरएनए]] के टुकड़े हैं और पूरे जीनोम के केवल उपसमूह का प्रतिनिधित्व करते हैं। जीनोम और ईएसटी असेंबली के मध्य कई एल्गोरिथम संबंधी समस्याएं भिन्न होती हैं। उदाहरण के लिए, जीनोम में अधिकांशतः बड़ी मात्रा में दोहराव वाले अनुक्रम होते हैं, जो इंटरजेनिक क्षेत्रों में केंद्रित होते हैं। प्रतिलेखित जीन में बहुत कम दोहराव होते हैं, जिससे संयोजन कुछ सीमा तक आसान हो जाता है। दूसरी ओर, कुछ जीनों को बहुत अधिक संख्या में व्यक्त (प्रतिलेखित) किया जाता है (उदाहरण के लिए, [[हाउसकीपिंग जीन]]), जिसका अर्थ है कि पूरे जीनोम शॉटगन अनुक्रमण के विपरीत, रीड्स को पूरे जीनोम में समान रूप से नमूना नहीं किया जाता है।
 ईएसटी असेंबली को (सीआईएस-) वैकल्पिक स्प्लिसिंग, [[ ट्रांस स्प्लिसिंग |ट्रांस स्प्लिसिंग]] , [[एकल न्यूकलोटाइड बहुरूपता]] और [[पोस्ट-ट्रांसक्रिप्शनल संशोधन]] जैसी सुविधाओं द्वारा और अधिक जटिल बना दिया गया है। 2008 की शुरुआत में जब आरएनए-सेक का आविष्कार किया गया था, ईएसटी अनुक्रमण को इस कहीं अधिक कुशल विधि से बदल दिया गया था, जिसे [[नई ट्रांस्क्रिप्टोम असेंबली से]] के अनुसार वर्णित किया गया था।
@@ Line 25: / Line 25: @@
 # डी-नोवो: टेम्प्लेट का उपयोग किए बिना, अनुक्रमण को असेंबल करने से पूर्ण-लंबाई (कभी-कभी उपन्यास) अनुक्रम तैयार होते हैं (डे नोवो अनुक्रम असेंबलर, डे नोवो ट्रांस्क्रिप्टोम असेंबली देखें)
-# मानचित्रण/संरेखित करना: रीड्स को एक टेम्प्लेट (AKA संदर्भ) के विरुद्ध संरेखित करके असेंबल करना। एकत्रित सर्वसम्मति टेम्पलेट के समान नहीं हो सकती है।
+# मानचित्रण/संरेखित करना: रीड्स को टेम्प्लेट (AKA संदर्भ) के विरुद्ध संरेखित करके असेंबल करना। एकत्रित सर्वसम्मति टेम्पलेट के समान नहीं हो सकती है।
-# संदर्भ-निर्देशित: संदर्भ के अंदर सबसे समान क्षेत्र की समानता के आधार पर पठन का समूहन (चरणवार मानचित्रण)। फिर प्रत्येक समूह में पढ़े गए पाठों को लघु पाठ्य गुणवत्ता की नकल करने के लिए छोटा कर दिया जाता है। ऐसा करने की एक विशिष्ट विधि [[ के-अधिक |के-अधिक]] दृष्टिकोण है। तीसरी पीढ़ी की अनुक्रमण|लांग-रीड्स का उपयोग करके संदर्भ-निर्देशित असेंबली सबसे उपयोगी है।
+# संदर्भ-निर्देशित: संदर्भ के अंदर सबसे समान क्षेत्र की समानता के आधार पर पठन का समूहन (चरणवार मानचित्रण)। फिर प्रत्येक समूह में पढ़े गए पाठों को लघु पाठ्य गुणवत्ता की नकल करने के लिए छोटा कर दिया जाता है। ऐसा करने की विशिष्ट विधि [[ के-अधिक |के-अधिक]] दृष्टिकोण है। तीसरी पीढ़ी की अनुक्रमण|लांग-रीड्स का उपयोग करके संदर्भ-निर्देशित असेंबली सबसे उपयोगी है।
-संदर्भित-निर्देशित असेंबली अन्य प्रकारों का एक संयोजन है। इस प्रकार को बड़े पैमाने पर समानांतर अनुक्रमण लाभ (अर्थात कॉल गुणवत्ता) की नकल करने के लिए लंबे समय तक पढ़ी जाने वाली अनुक्रमणिका पर प्रयुक्त किया जाता है। इसके पीछे तर्क संदर्भ के अंदर छोटी विंडो द्वारा रीड्स को समूहीकृत करना है। उच्चतम गुणवत्ता और सबसे संभावित सन्निहित (कॉन्टिग) का चयन करने के लिए के-मात्र दृष्टिकोण का उपयोग करके प्रत्येक समूह में रीड्स को आकार में कम किया जाएगा। फिर एक मचान बनाने के लिए कॉन्टिग्स को एक साथ जोड़ा जाएगा। अंतिम सहमति मचान में किसी भी अंतराल को बंद करके बनाई जाती है।
+संदर्भित-निर्देशित असेंबली अन्य प्रकारों का संयोजन है। इस प्रकार को बड़े पैमाने पर समानांतर अनुक्रमण लाभ (अर्थात कॉल गुणवत्ता) की नकल करने के लिए लंबे समय तक पढ़ी जाने वाली अनुक्रमणिका पर प्रयुक्त किया जाता है। इसके पीछे तर्क संदर्भ के अंदर छोटी विंडो द्वारा रीड्स को समूहीकृत करना है। उच्चतम गुणवत्ता और सबसे संभावित सन्निहित (कॉन्टिग) का चयन करने के लिए के-मात्र दृष्टिकोण का उपयोग करके प्रत्येक समूह में रीड्स को आकार में कम किया जाएगा। फिर मचान बनाने के लिए कॉन्टिग्स को साथ जोड़ा जाएगा। अंतिम सहमति मचान में किसी भी अंतराल को बंद करके बनाई जाती है।
 == डी-नोवो बनाम मानचित्रण असेंबली ==
@@ Line 34: / Line 34: @@
 जटिलता और समय की आवश्यकताओं के संदर्भ में, डे-नोवो असेंबली मानचित्रण असेंबली की तुलना में धीमी और अधिक मेमोरी गहन होती हैं। यह अधिकतर इस तथ्य के कारण है कि असेंबली एल्गोरिदम को प्रत्येक रीड की तुलना हर दूसरे रीड के साथ करने की आवश्यकता होती है (एक ऑपरेशन जिसमें O(<var>n</var> की अनुभवहीन समय जटिलता होती है)<sup>2</sup>)). वर्तमान डे-नोवो जीनोम असेंबलर विभिन्न प्रकार के ग्राफ़-आधारित एल्गोरिदम का उपयोग कर सकते हैं, जैसे:
-* ओवरलैप/लेआउट/आम सहमति (ओएलसी) दृष्टिकोण, जो सेंगर-डेटा असेंबलरों के लिए विशिष्ट था और एक ओवरलैप ग्राफ़ पर निर्भर करता है।
+* ओवरलैप/लेआउट/आम सहमति (ओएलसी) दृष्टिकोण, जो सेंगर-डेटा असेंबलरों के लिए विशिष्ट था और ओवरलैप ग्राफ़ पर निर्भर करता है।
 * डी ब्रुइज़न ग्राफ़ (डीबीजी) दृष्टिकोण, जो सोलेक्सा और एसओएलआईडी प्लेटफार्मों से लघु रीड्स के लिए सबसे व्यापक रूप से प्रयुक्त होता है। यह के-मेर ग्राफ़ पर निर्भर करता है, जो बड़ी मात्रा में लघु पठन के साथ अच्छा प्रदर्शन करता है।
-* लालची ग्राफ़-आधारित दृष्टिकोण, जो OLC या DBG दृष्टिकोणों में से किसी एक का भी उपयोग कर सकता है। लालची ग्राफ-आधारित एल्गोरिदम के साथ, contigs लालची विस्तार से आगे बढ़ें, सदैव उच्चतम स्कोरिंग ओवरलैप का पालन करके जो पढ़ा जाता है उसे लेते रहें।<ref>{{Cite journal|last1=Miller|first1=Jason R.|last2=Koren|first2=Sergey|last3=Sutton|first3=Granger|date=2010-03-06|title=अगली पीढ़ी के अनुक्रमण डेटा के लिए असेंबली एल्गोरिदम|journal=Genomics|language=en|volume=95|issue=6|pages=315–327|doi=10.1016/j.ygeno.2010.03.001|pmc=2874646|pmid=20211242}}</ref>
+* लालची ग्राफ़-आधारित दृष्टिकोण, जो OLC या DBG दृष्टिकोणों में से किसी का भी उपयोग कर सकता है। लालची ग्राफ-आधारित एल्गोरिदम के साथ, contigs लालची विस्तार से आगे बढ़ें, सदैव उच्चतम स्कोरिंग ओवरलैप का पालन करके जो पढ़ा जाता है उसे लेते रहें।<ref>{{Cite journal|last1=Miller|first1=Jason R.|last2=Koren|first2=Sergey|last3=Sutton|first3=Granger|date=2010-03-06|title=अगली पीढ़ी के अनुक्रमण डेटा के लिए असेंबली एल्गोरिदम|journal=Genomics|language=en|volume=95|issue=6|pages=315–327|doi=10.1016/j.ygeno.2010.03.001|pmc=2874646|pmid=20211242}}</ref>
-परिचय में कटी हुई किताबों से की गई तुलना का जिक्र करते हुए: जबकि असेंबली मानचित्रण के लिए टेम्पलेट के रूप में एक बहुत ही समान पुस्तक होगी (संभवतः मुख्य पात्रों के नाम और कुछ स्थानों को बदल दिया गया है), डे-नोवो असेंबली एक और अधिक चुनौतीपूर्ण प्रस्तुत करती है इसमें चुनौती यह है कि किसी को पहले से पता नहीं चलेगा कि यह एक विज्ञान पुस्तक, एक उपन्यास, एक कैटलॉग या यहां तक कि कई किताबें बन जाएंगी। साथ ही, प्रत्येक टुकड़े की तुलना हर दूसरे टुकड़े से की जाएगी।
+परिचय में कटी हुई किताबों से की गई तुलना का जिक्र करते हुए: जबकि असेंबली मानचित्रण के लिए टेम्पलेट के रूप में बहुत ही समान पुस्तक होगी (संभवतः मुख्य पात्रों के नाम और कुछ स्थानों को बदल दिया गया है), डे-नोवो असेंबली और अधिक चुनौतीपूर्ण प्रस्तुत करती है इसमें चुनौती यह है कि किसी को पहले से पता नहीं चलेगा कि यह विज्ञान पुस्तक, उपन्यास, कैटलॉग या यहां तक कि कई किताबें बन जाएंगी। साथ ही, प्रत्येक टुकड़े की तुलना हर दूसरे टुकड़े से की जाएगी।
-डे-नोवो असेंबली में दोहराव को संभालने के लिए निकटतम दोहराव का प्रतिनिधित्व करने वाले ग्राफ़ सिद्धांत के निर्माण की आवश्यकता होती है। इस तरह की जानकारी पूर्ण या शॉटगन_सीक्वेंसिंग#पेयर्ड-एंड_सीक्वेंसिंग में दोहराव को कवर करने वाले एक लंबे टुकड़े को पढ़ने से प्राप्त की जा सकती है। दूसरी ओर, मानचित्रण असेंबली में, कई या बिना मिलान वाले भागों को सामान्यतः किसी अन्य संयोजन विधि पर गौर करने के लिए छोड़ दिया जाता है।<ref>{{cite web |last1=Wolf |first1=Beat |title=डे नोवो जीनोम असेंबली बनाम एक संदर्भ जीनोम की मैपिंग|url=http://beat.wolf.home.hefr.ch/documents/prague.pdf |website=University of Applied Sciences Western Switzerland |access-date=6 April 2019}}</ref>
+डे-नोवो असेंबली में दोहराव को संभालने के लिए निकटतम दोहराव का प्रतिनिधित्व करने वाले ग्राफ़ सिद्धांत के निर्माण की आवश्यकता होती है। इस तरह की जानकारी पूर्ण या शॉटगन_सीक्वेंसिंग#पेयर्ड-एंड_सीक्वेंसिंग में दोहराव को कवर करने वाले लंबे टुकड़े को पढ़ने से प्राप्त की जा सकती है। दूसरी ओर, मानचित्रण असेंबली में, कई या बिना मिलान वाले भागों को सामान्यतः किसी अन्य संयोजन विधि पर गौर करने के लिए छोड़ दिया जाता है।<ref>{{cite web |last1=Wolf |first1=Beat |title=डे नोवो जीनोम असेंबली बनाम एक संदर्भ जीनोम की मैपिंग|url=http://beat.wolf.home.hefr.ch/documents/prague.pdf |website=University of Applied Sciences Western Switzerland |access-date=6 April 2019}}</ref>
 == अनुक्रम असेंबली पाइपलाइन (जैव सूचना विज्ञान) ==
-सामान्यतः, अनुक्रमण को एक मचान में इकट्ठा करने में तीन चरण होते हैं:
+सामान्यतः, अनुक्रमण को मचान में इकट्ठा करने में तीन चरण होते हैं:
 ) प्री-असेंबली: यह चरण डाउनलाइन विश्लेषण जैसे वेरिएंट कॉलिंग या अंतिम मचान अनुक्रम की अखंडता सुनिश्चित करने के लिए आवश्यक है। इस चरण में दो कालानुक्रमिक वर्कफ़्लो सम्मिलित हैं:
-ए) गुणवत्ता जांच: अनुक्रमण विधि के प्रकार के आधार पर, विभिन्न त्रुटियां उत्पन्न हो सकती हैं जो गलत [[बेस कॉलिंग]] का कारण बन सकती हैं। उदाहरण के लिए, NAAAAAAAAAAAAN और NAAAAAAAAAAAAN का अनुक्रम जिसमें 12 एडेनिन सम्मिलित है, को गलत तरीके से इसके अतिरिक्त 11 एडेनिन कहा जा सकता है। लक्ष्य डीएनए/आरएनए के अत्यधिक दोहराव वाले खंड को अनुक्रमित करने के परिणामस्वरूप एक छोटी या एक अधिक आधार वाली कॉल हो सकती है। पढ़ने की गुणवत्ता सामान्यतः Phred गुणवत्ता स्कोर द्वारा मापी जाती है जो कि पढ़ने के अनुक्रम के अंदर प्रत्येक न्यूक्लियोटाइड गुणवत्ता का एक एन्कोडेड स्कोर है। कुछ अनुक्रमण विधि ों जैसे [[ पचबियो |पचबियो]] में उनके अनुक्रमित पढ़ने के लिए कोई स्कोरिंग विधि नहीं है। इस चरण में उपयोग किया जाने वाला एक सामान्य उपकरण FastQC है।<ref>{{Cite web |title=बब्राहम जैव सूचना विज्ञान - फास्टक्यूसी उच्च थ्रूपुट अनुक्रम डेटा के लिए एक गुणवत्ता नियंत्रण उपकरण|url=https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ |access-date=2022-05-09 |website=www.bioinformatics.babraham.ac.uk}}</ref> बी) रीड्स को फ़िल्टर करना: जो रीड्स गुणवत्ता जांच पास करने में विफल रहे, उन्हें सर्वोत्तम असेंबली कॉन्टिग्स प्राप्त करने के लिए फास्टक्यू फ़ाइल से हटा दिया जाना चाहिए।
+ए) गुणवत्ता जांच: अनुक्रमण विधि के प्रकार के आधार पर, विभिन्न त्रुटियां उत्पन्न हो सकती हैं जो गलत [[बेस कॉलिंग]] का कारण बन सकती हैं। उदाहरण के लिए, NAAAAAAAAAAAAN और NAAAAAAAAAAAAN का अनुक्रम जिसमें 12 एडेनिन सम्मिलित है, को गलत तरीके से इसके अतिरिक्त 11 एडेनिन कहा जा सकता है। लक्ष्य डीएनए/आरएनए के अत्यधिक दोहराव वाले खंड को अनुक्रमित करने के परिणामस्वरूप छोटी या अधिक आधार वाली कॉल हो सकती है। पढ़ने की गुणवत्ता सामान्यतः Phred गुणवत्ता स्कोर द्वारा मापी जाती है जो कि पढ़ने के अनुक्रम के अंदर प्रत्येक न्यूक्लियोटाइड गुणवत्ता का एन्कोडेड स्कोर है। कुछ अनुक्रमण विधि जैसे [[ पचबियो |पचबियो]] में उनके अनुक्रमित पढ़ने के लिए कोई स्कोरिंग विधि नहीं है। इस चरण में उपयोग किया जाने वाला सामान्य उपकरण FastQC है।<ref>{{Cite web |title=बब्राहम जैव सूचना विज्ञान - फास्टक्यूसी उच्च थ्रूपुट अनुक्रम डेटा के लिए एक गुणवत्ता नियंत्रण उपकरण|url=https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ |access-date=2022-05-09 |website=www.bioinformatics.babraham.ac.uk}}</ref> बी) रीड्स को फ़िल्टर करना: जो रीड्स गुणवत्ता जांच पास करने में विफल रहे, उन्हें सर्वोत्तम असेंबली कॉन्टिग्स प्राप्त करने के लिए फास्टक्यू फ़ाइल से हटा दिया जाना चाहिए।
 ) असेंबली: इस चरण के समय, प्रत्येक रीड को संभावित स्थान पर मैप करने के लिए विभिन्न मानदंडों के साथ रीड अलाइनमेंट का उपयोग किया जाएगा। किसी पाठ की अनुमानित स्थिति या तब इस पर आधारित होती है कि उसका अनुक्रम कितना अन्य पाठों या किसी संदर्भ के साथ संरेखित होता है। विभिन्न अनुक्रमण प्रौद्योगिकियों से पढ़ने के लिए विभिन्न संरेखण एल्गोरिदम का उपयोग किया जाता है। असेंबली में सामान्यतः उपयोग किए जाने वाले कुछ दृष्टिकोण डी ब्रुइज़न अनुक्रम ग्राफ और ओवरलैपिंग हैं। लंबाई, [[कवरेज (आनुवांशिकी)]], गुणवत्ता और उपयोग की गई अनुक्रमण विधि पढ़ें डीएनए अनुक्रमण के स्थितियों में सर्वोत्तम संरेखण एल्गोरिदम चुनने में प्रमुख भूमिका निभाती है।<ref>{{Cite journal |last1=Ruffalo |first1=M. |last2=LaFramboise |first2=T. |last3=Koyuturk |first3=M. |date=2011-10-15 |title=अगली पीढ़ी के अनुक्रमण रीड अलाइनमेंट के लिए एल्गोरिदम का तुलनात्मक विश्लेषण|journal=Bioinformatics |language=en |volume=27 |issue=20 |pages=2790–2796 |doi=10.1093/bioinformatics/btr477 |pmid=21856737 |issn=1367-4803|doi-access=free }}</ref> दूसरी ओर, तीसरी पीढ़ी के अनुक्रमण को संरेखित करने वाले एल्गोरिदम को उनके साथ जुड़ी उच्च त्रुटि दर को ध्यान में रखते हुए अग्रिम दृष्टिकोण की आवश्यकता होती है।
@@ Line 51: / Line 51: @@
 ) पोस्ट असेंबली: यह चरण असेंबल किए गए अनुक्रम से बहुमूल्य जानकारी निकालने पर केंद्रित है। [[तुलनात्मक जीनोमिक्स]], और जनसंख्या विश्लेषण ऐसे उदाहरण हैं जो संयोजन के पश्चात् के विश्लेषण में जाते हैं।
-==विधि ी परिवर्तनों का प्रभाव==
+==विधि परिवर्तनों का प्रभाव==
 अनुक्रम संयोजन की जटिलता दो प्रमुख कारकों से प्रेरित होती है: टुकड़ों की संख्या और उनकी लंबाई। जबकि अधिक और लंबे टुकड़े अनुक्रम ओवरलैप की उत्तम पहचान की अनुमति देते हैं, वह समस्याएं भी उत्पन्न करते हैं क्योंकि अंतर्निहित एल्गोरिदम टुकड़ों की संख्या और उनकी लंबाई दोनों के लिए द्विघात या यहां तक कि घातीय जटिलता व्यवहार दिखाते हैं। और जबकि छोटे अनुक्रमों को संरेखित करना तेज़ होता है, वह असेंबली के लेआउट चरण को भी जटिल बनाते हैं क्योंकि छोटे रीड्स को दोहराव या समान दोहराव के साथ उपयोग करना अधिक कठिन होता है।
@@ Line 63: / Line 63: @@
 * त्रुटि दर 0.5 और 10% के मध्य है
-सेंगर विधि के साथ, 20,000 से 200,000 रीड वाले बैक्टीरियल प्रोजेक्ट आसानी से एक कंप्यूटर पर इकट्ठे किए जा सकते हैं। लगभग 35 मिलियन रीड्स वाले मानव जीनोम जैसी बड़ी परियोजनाओं के लिए बड़े कंप्यूटिंग फार्म और वितरित कंप्यूटिंग की आवश्यकता होती है।
+सेंगर विधि के साथ, 20,000 से 200,000 रीड वाले बैक्टीरियल प्रोजेक्ट आसानी से कंप्यूटर पर इकट्ठे किए जा सकते हैं। लगभग 35 मिलियन रीड्स वाले मानव जीनोम जैसी बड़ी परियोजनाओं के लिए बड़े कंप्यूटिंग फार्म और वितरित कंप्यूटिंग की आवश्यकता होती है।
 /2005 तक, 454 लाइफ साइंसेज द्वारा [[pyrosequencing]] को व्यावसायिक व्यवहार्यता में लाया गया था। यह नई अनुक्रमण विधि उत्पन्न सेंगर अनुक्रमण की तुलना में बहुत कम पढ़ती है: शुरुआत में लगभग 100 आधार, अब 400-500 आधार। इसकी बहुत अधिक थ्रूपुट और कम व्यय (सेंगर अनुक्रमण की तुलना में) ने जीनोम केंद्रों द्वारा इस विधि को अपनाने को प्रेरित किया, जिसके परिणामस्वरूप अनुक्रम असेंबलरों का विकास हुआ जो रीड समूह को कुशलतापूर्वक संभाल सकते थे। रीड्स में प्रौद्योगिकी-विशिष्ट त्रुटि पैटर्न के साथ जुड़े डेटा की विशाल मात्रा ने असेंबलरों के विकास में देरी की; 2004 की शुरुआत में 454 से केवल [[नवसिखुआ]] असेंबलर उपलब्ध था। 2007 के मध्य में रिलीज़ हुई,<ref>{{Cite web|title=MIRA 2.9.8 for 454 and 454 / Sanger hybrid assembly|url=https://groups.google.com/g/bionet.software/c/s0s0gBHQTw4|access-date=2023-01-02|website=groups.google.com}}</ref> शेवरेक्स एट अल द्वारा MIRA असेंबलर का हाइब्रिड संस्करण। पहला स्वतंत्र रूप से उपलब्ध असेंबलर था जो 454 रीड्स के साथ-साथ 454 रीड्स और सेंगर रीड्स के मिश्रण को भी असेंबल कर सकता था। विभिन्न अनुक्रमण प्रौद्योगिकियों से अनुक्रमों को इकट्ठा करके पश्चात् में हाइब्रिड जीनोम असेंबली तैयार की गई।
-से, [[इलुमिना (कंपनी)]] (पहले सोलेक्सा) विधि उपलब्ध है और एक अनुक्रमण मशीन पर प्रति रन लगभग 100 मिलियन रीड्स उत्पन्न कर सकती है। इसकी तुलना मानव जीनोम परियोजना के 35 मिलियन रीड्स से करें, जिसे सैकड़ों अनुक्रमण मशीनों पर तैयार करने में कई वर्षों की आवश्यकता थी। इलुमिना प्रारंभ में केवल 36 आधारों की लंबाई तक सीमित थी, जिससे यह डे नोवो असेंबली (जैसे कि डे नोवो ट्रांस्क्रिप्टोम असेंबली) के लिए कम उपयुक्त थी, किन्तु प्रौद्योगिकी के नए पुनरावृत्तियों ने 3-400बीपी क्लोन के दोनों सिरों से 100 बेस से ऊपर पढ़ने की लंबाई प्राप्त की। . 2007 के अंत में SHARCGS असेंबलर की घोषणा की गई<ref>{{cite journal |title=SHARCGS, डे नोवो जीनोमिक अनुक्रमण के लिए एक तेज़ और अत्यधिक सटीक शॉर्ट-रीड असेंबली एल्गोरिदम|journal=Genome Research|volume=17 |issue=11 |pages=1697–706 |date=November 2007 |pmid=17908823 |pmc=2045152 |doi=10.1101/gr.6435207 |last1=Dohm |first1=J. C. |last2=Lottaz |first2=C. |last3=Borodina |first3=T. |last4=Himmelbauer |first4=H.}}</ref> डोहम एट अल द्वारा। पहला प्रकाशित असेंबलर था जिसका उपयोग सोलेक्सा रीड्स के साथ असेंबली के लिए किया गया था। इसका तुरंत कई अन्य लोगों ने अनुसरण किया।
+से, [[इलुमिना (कंपनी)]] (पहले सोलेक्सा) विधि उपलब्ध है और अनुक्रमण मशीन पर प्रति रन लगभग 100 मिलियन रीड्स उत्पन्न कर सकती है। इसकी तुलना मानव जीनोम परियोजना के 35 मिलियन रीड्स से करें, जिसे सैकड़ों अनुक्रमण मशीनों पर तैयार करने में कई वर्षों की आवश्यकता थी। इलुमिना प्रारंभ में केवल 36 आधारों की लंबाई तक सीमित थी, जिससे यह डे नोवो असेंबली (जैसे कि डे नोवो ट्रांस्क्रिप्टोम असेंबली) के लिए कम उपयुक्त थी, किन्तु प्रौद्योगिकी के नए पुनरावृत्तियों ने 3-400बीपी क्लोन के दोनों सिरों से 100 बेस से ऊपर पढ़ने की लंबाई प्राप्त की। . 2007 के अंत में SHARCGS असेंबलर की घोषणा की गई<ref>{{cite journal |title=SHARCGS, डे नोवो जीनोमिक अनुक्रमण के लिए एक तेज़ और अत्यधिक सटीक शॉर्ट-रीड असेंबली एल्गोरिदम|journal=Genome Research|volume=17 |issue=11 |pages=1697–706 |date=November 2007 |pmid=17908823 |pmc=2045152 |doi=10.1101/gr.6435207 |last1=Dohm |first1=J. C. |last2=Lottaz |first2=C. |last3=Borodina |first3=T. |last4=Himmelbauer |first4=H.}}</ref> डोहम एट अल द्वारा। पहला प्रकाशित असेंबलर था जिसका उपयोग सोलेक्सा रीड्स के साथ असेंबली के लिए किया गया था। इसका तुरंत कई अन्य लोगों ने अनुसरण किया।
-पश्चात् में, [[एप्लाइड बायोसिस्टम्स]] से [[एबीआई ठोस अनुक्रमण]], [[आयन टोरेंट]] और एसएमआरटी सीक्वेंसिंग जैसी नई प्रौद्योगिकियां जारी की गईं और नई प्रौद्योगिकियां (जैसे [[ नैनोपोर अनुक्रमण |नैनोपोर अनुक्रमण]] ) उभरती रहीं। इन प्रौद्योगिकियों की उच्च त्रुटि दर के अतिरिक्त वह असेंबली के लिए महत्वपूर्ण हैं क्योंकि उनकी लंबी पढ़ने की लंबाई दोहराव की समस्या का समाधान करने में सहायता करती है। एक पूर्ण दोहराव के माध्यम से इकट्ठा करना असंभव है जो अधिकतम पढ़ी गई लंबाई से अधिक लंबा है; यद्यपि, जैसे-जैसे पढ़ा जाना लंबा होता जाता है, पूर्ण दोहराव की संभावना उतनी ही बड़ी होती जाती है। इससे लंबे समय [[एसएमआरटी अनुक्रमण]] पढ़ने से दोहराव को इकट्ठा करने में लाभ मिलता है, यदि उनकी त्रुटिहीनता कम हो (~ 85%)।
+पश्चात् में, [[एप्लाइड बायोसिस्टम्स]] से [[एबीआई ठोस अनुक्रमण]], [[आयन टोरेंट]] और एसएमआरटी सीक्वेंसिंग जैसी नई प्रौद्योगिकियां जारी की गईं और नई प्रौद्योगिकियां (जैसे [[ नैनोपोर अनुक्रमण |नैनोपोर अनुक्रमण]] ) उभरती रहीं। इन प्रौद्योगिकियों की उच्च त्रुटि दर के अतिरिक्त वह असेंबली के लिए महत्वपूर्ण हैं क्योंकि उनकी लंबी पढ़ने की लंबाई दोहराव की समस्या का समाधान करने में सहायता करती है। पूर्ण दोहराव के माध्यम से इकट्ठा करना असंभव है जो अधिकतम पढ़ी गई लंबाई से अधिक लंबा है; यद्यपि, जैसे-जैसे पढ़ा जाना लंबा होता जाता है, पूर्ण दोहराव की संभावना उतनी ही बड़ी होती जाती है। इससे लंबे समय [[एसएमआरटी अनुक्रमण]] पढ़ने से दोहराव को इकट्ठा करने में लाभ मिलता है, यदि उनकी त्रुटिहीनता कम हो (~ 85%)।
 == असेंबली एल्गोरिदम ==
-विभिन्न जीवों के जीनोम के अंदर उच्च जटिलता का एक विशिष्ट क्षेत्र होता है। इसलिए, विभिन्न कम्प्यूटेशनल दृष्टिकोण की आवश्यकता है। सामान्यतः उपयोग किए जाने वाले कुछ एल्गोरिदम हैं:
+विभिन्न जीवों के जीनोम के अंदर उच्च जटिलता का विशिष्ट क्षेत्र होता है। इसलिए, विभिन्न कम्प्यूटेशनल दृष्टिकोण की आवश्यकता है। सामान्यतः उपयोग किए जाने वाले कुछ एल्गोरिदम हैं:
-* ग्राफ असेंबली: कंप्यूटर विज्ञान में ग्राफ सिद्धांत पर आधारित है। डी ब्रुइज़न ग्राफ़ इस दृष्टिकोण का एक उदाहरण है और रीड्स से सन्निहित को इकट्ठा करने के लिए के-मर्स का उपयोग करता है।
+* ग्राफ असेंबली: कंप्यूटर विज्ञान में ग्राफ सिद्धांत पर आधारित है। डी ब्रुइज़न ग्राफ़ इस दृष्टिकोण का उदाहरण है और रीड्स से सन्निहित को इकट्ठा करने के लिए के-मर्स का उपयोग करता है।
 * लालची ग्राफ़ असेंबली: यह दृष्टिकोण असेंबली में प्रत्येक जोड़े गए रीड को स्कोर करता है और ओवरलैपिंग क्षेत्र से उच्चतम संभव स्कोर का चयन करता है।
-अनुक्रम खंडों के एक समूह को देखते हुए, वस्तु को एक लंबा अनुक्रम ढूंढना है जिसमें सभी टुकड़े सम्मिलित हों (अनुक्रम असेंबली के प्रकार के अनुसार चित्र देखें):
+अनुक्रम खंडों के समूह को देखते हुए, वस्तु को लंबा अनुक्रम ढूंढना है जिसमें सभी टुकड़े सम्मिलित हों (अनुक्रम असेंबली के प्रकार के अनुसार चित्र देखें):
 # सभी टुकड़ों के जोड़ीवार संरेखण की गणना करें।
 # सबसे बड़े ओवरलैप वाले दो टुकड़े चुनें।
 # चुने हुए अंशों को मर्ज करें.
-# चरण 2 और 3 को तब तक दोहराएँ जब तक कि केवल एक टुकड़ा न रह जाए।
+# चरण 2 और 3 को तब तक दोहराएँ जब तक कि केवल टुकड़ा न रह जाए।
 परिणाम समस्या का इष्टतम समाधान नहीं हो सकता है।
@@ Line 100: / Line 100: @@
 |विभिन्न
 |https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
-|यह एक सामान्य उपकरण है जिसका उपयोग [[Illumina, Inc.|इलुमिना]], [[454 Life Sciences|454]] और [[Pacific Biosciences|PacBio]] जैसी विभिन्न अनुक्रमण प्रौद्योगिकियों से रीड्स की गुणवत्ता की जांच करने के लिए किया जाता है।
+|यह सामान्य उपकरण है जिसका उपयोग [[Illumina, Inc.|इलुमिना]], [[454 Life Sciences|454]] और [[Pacific Biosciences|PacBio]] जैसी विभिन्न अनुक्रमण प्रौद्योगिकियों से रीड्स की गुणवत्ता की जांच करने के लिए किया जाता है।
 |-