जीनोमिक अनुक्रमण डेटा का संपीड़न

उच्च-थ्रूपुट अनुक्रमण प्रौद्योगिकियों के कारण जीनोम अनुक्रमण लागत में नाटकीय गिरावट आई है और जीनोमिक डेटा का आश्चर्यजनक रूप से तेजी से संचय हुआ है। ये प्रौद्योगिकियां महत्वाकांक्षी जीनोम अनुक्रमण प्रयासों को सक्षम कर रही हैं, जैसे कि 1000 जीनोम प्रोजेक्ट और 1001 (अरबिडोप्सिस थालियाना1000 जीनोम परियोजना जीनोमिक डेटा की जबरदस्त मात्रा का भंडारण और स्थानांतरण एक मुख्यधारा की समस्या बन गई है, जो विशेष रूप से जीनोमिक डेटा के लिए डिज़ाइन किए गए उच्च-प्रदर्शन संपीड़न उपकरणों के विकास को प्रेरित करती है। जीनोमिक पुन: अनुक्रमण डेटा को संग्रहीत और प्रबंधित करने के लिए नए एल्गोरिदम और उपकरणों के विकास में रुचि की हालिया वृद्धि जीनोमिक डेटा संपीड़न के लिए कुशल तरीकों की बढ़ती मांग पर जोर देती है।

सामान्य अवधारणाएँ
जबकि मानक डेटा संपीड़न उपकरण (उदाहरण के लिए, ज़िप और आरएआर) का उपयोग अनुक्रम डेटा (उदाहरण के लिए, GenBank  फ्लैट फ़ाइल डेटाबेस) को संपीड़ित करने के लिए किया जा रहा है, इस दृष्टिकोण की अत्यधिक आलोचना की गई है क्योंकि जीनोमिक अनुक्रमों में अक्सर दोहराव वाली सामग्री होती है (उदाहरण के लिए, माइक्रोसैटेलाइट अनुक्रम) या कई अनुक्रम उच्च स्तर की समानता प्रदर्शित करते हैं (उदाहरण के लिए, एक ही प्रजाति के कई जीनोम अनुक्रम)। इसके अतिरिक्त, अनुक्रमण डेटा को संपीड़ित करने के लिए जीनोमिक अनुक्रमों के सांख्यिकीय और सूचना-सैद्धांतिक गुणों का संभावित रूप से उपयोग किया जा सकता है।

बेस वेरिएंट
एक संदर्भ टेम्पलेट की उपलब्धता के साथ, केवल अंतर (उदाहरण के लिए, एकल न्यूक्लियोटाइड प्रतिस्थापन और सम्मिलन/विलोपन) को रिकॉर्ड करने की आवश्यकता होती है, जिससे संग्रहीत की जाने वाली जानकारी की मात्रा काफी कम हो जाती है। सापेक्ष संपीड़न की धारणा विशेष रूप से जीनोम पुन: अनुक्रमण परियोजनाओं में स्पष्ट है जहां उद्देश्य व्यक्तिगत जीनोम में विविधताओं की खोज करना है। एक संदर्भ एकल न्यूक्लियोटाइड बहुरूपता (एकल-न्यूक्लियोटाइड बहुरूपता) मानचित्र का उपयोग, जैसे कि डीबीएसएनपी, का उपयोग भंडारण के लिए वेरिएंट की संख्या को और बेहतर बनाने के लिए किया जा सकता है।

सापेक्ष जीनोमिक निर्देशांक
एक अन्य उपयोगी विचार निरपेक्ष निर्देशांक के बदले सापेक्ष जीनोमिक निर्देशांक को संग्रहीत करना है। उदाहरण के लिए, 'Position1Base1Position2Base2...' प्रारूप में अनुक्रम भिन्न आधारों का प्रतिनिधित्व करते हुए, '123C125T130G' को '0C2T5G' तक छोटा किया जा सकता है, जहां पूर्णांक वेरिएंट के बीच अंतराल का प्रतिनिधित्व करते हैं। लागत पूर्ण निर्देशांक और सुधार कारक (इस उदाहरण में '123') के भंडारण को पुनर्प्राप्त करने के लिए आवश्यक मामूली अंकगणितीय गणना है।

जीनोम के बारे में पूर्व जानकारी
यदि जीनोम अनुक्रमों के पूल में प्रतिस्थापन की सभी संभावित स्थिति पहले से ज्ञात हो तो और कमी प्राप्त की जा सकती है। उदाहरण के लिए, यदि मानव आबादी में एसएनपी के सभी स्थान ज्ञात हैं, तो भिन्न समन्वय जानकारी को रिकॉर्ड करने की कोई आवश्यकता नहीं है (उदाहरण के लिए, '123C125T130G' को 'CTG' में संक्षिप्त किया जा सकता है)। हालाँकि, यह दृष्टिकोण शायद ही कभी उपयुक्त होता है क्योंकि ऐसी जानकारी आमतौर पर अधूरी या अनुपलब्ध होती है।

जीनोमिक निर्देशांक एन्कोडिंग
अतिरिक्त संपीड़न लाभ प्रदान करने के लिए समन्वित पूर्णांकों को बाइनरी रूप में परिवर्तित करने के लिए एन्कोडिंग योजनाओं का उपयोग किया जाता है। एन्कोडिंग डिज़ाइन, जैसे कि गोलोम्ब कोड और हफ़मैन कोड, को जीनोमिक डेटा संपीड़न टूल में शामिल किया गया है।     बेशक, एन्कोडिंग योजनाओं में डिकोडिंग एल्गोरिदम शामिल होते हैं। डिकोडिंग योजना का चयन संभावित रूप से अनुक्रम सूचना पुनर्प्राप्ति की दक्षता को प्रभावित करता है।

एल्गोरिथम डिज़ाइन विकल्प
जीनोमिक डेटा को संपीड़ित करने के लिए एक सार्वभौमिक दृष्टिकोण आवश्यक रूप से इष्टतम नहीं हो सकता है, क्योंकि एक विशेष विधि विशिष्ट उद्देश्यों और लक्ष्यों के लिए अधिक उपयुक्त हो सकती है। इस प्रकार, कई डिज़ाइन विकल्प जो संभावित रूप से संपीड़न प्रदर्शन को प्रभावित करते हैं, विचार के लिए महत्वपूर्ण हो सकते हैं।

संदर्भ अनुक्रम
सापेक्ष संपीड़न के लिए संदर्भ अनुक्रम का चयन संपीड़न प्रदर्शन को प्रभावित कर सकता है। अधिक विशिष्ट संदर्भ अनुक्रम (उदाहरण के लिए, संशोधित कैम्ब्रिज संदर्भ अनुक्रम) पर सर्वसम्मति संदर्भ अनुक्रम चुनने से उच्च संपीड़न अनुपात हो सकता है क्योंकि सर्वसम्मति संदर्भ में इसके डेटा में कम पूर्वाग्रह हो सकता है। हालाँकि, संपीड़ित होने वाले अनुक्रम के स्रोत के बारे में ज्ञान का उपयोग अधिक संपीड़न लाभ प्राप्त करने के लिए किया जा सकता है। एकाधिक संदर्भ अनुक्रमों का उपयोग करने का विचार प्रस्तावित किया गया है। ब्रैंडन एट अल. (2009) एक उदाहरण के रूप में माइटोकॉन्ड्रियल डीएनए वैरिएंट डेटा के संपीड़न का उपयोग करते हुए, जातीय समूह-विशिष्ट संदर्भ अनुक्रम टेम्पलेट्स के संभावित उपयोग का संकेत दिया गया (चित्र 2 देखें)। लेखकों ने संशोधित कैम्ब्रिज संदर्भ अनुक्रम के सापेक्ष अफ्रीकियों, एशियाई और यूरेशियाई लोगों के माइटोकॉन्ड्रियल डीएनए अनुक्रमों में पक्षपाती हैप्लोटाइप वितरण पाया। उनके परिणाम से पता चलता है कि संशोधित कैम्ब्रिज संदर्भ अनुक्रम हमेशा इष्टतम नहीं हो सकता है क्योंकि जब इसका उपयोग जातीय रूप से दूर के व्यक्तियों के डेटा के विरुद्ध किया जाता है तो अधिक संख्या में वेरिएंट को संग्रहीत करने की आवश्यकता होती है। इसके अतिरिक्त, सांख्यिकीय गुणों के आधार पर एक संदर्भ अनुक्रम तैयार किया जा सकता है या इंजीनियर किया गया  संपीड़न अनुपात में सुधार करने के लिए.

एन्कोडिंग योजनाएं
विभिन्न आधारों और जीनोमिक निर्देशांकों को एनकोड करने के लिए विभिन्न प्रकार की एन्कोडिंग योजनाओं के अनुप्रयोग का पता लगाया गया है। निश्चित कोड, जैसे कि गोलोम्ब कोड और चावल कोड, तब उपयुक्त होते हैं जब वैरिएंट या समन्वय (पूर्णांक के रूप में दर्शाया गया) वितरण अच्छी तरह से परिभाषित होता है। परिवर्तनीय कोड, जैसे हफ़मैन कोड, एक अधिक सामान्य एन्ट्रापी एन्कोडिंग योजना प्रदान करते हैं जब अंतर्निहित संस्करण और/या समन्वय वितरण अच्छी तरह से परिभाषित नहीं होता है (यह आमतौर पर जीनोमिक अनुक्रम डेटा में मामला है)।

जीनोमिक पुनः अनुक्रमण डेटा संपीड़न उपकरण की सूची
वर्तमान में उपलब्ध जीनोमिक डेटा संपीड़न उपकरणों का संपीड़न अनुपात मानव जीनोम के लिए 65 गुना और 1,200 गुना के बीच है।      एक ही जीनोम के बहुत करीबी वेरिएंट या संशोधनों को बहुत कुशलता से संपीड़ित किया जा सकता है (उदाहरण के लिए, 18,133 संपीड़न अनुपात की सूचना दी गई थी) एक ही ए. थालियाना जीनोम के दो संशोधनों के लिए, जो 99.999% समान हैं)। हालाँकि, ऐसा संपीड़न एक ही जीव के विभिन्न जीनोम (व्यक्तियों) के लिए विशिष्ट संपीड़न अनुपात का संकेत नहीं है। इन उपकरणों में सबसे आम एन्कोडिंग योजना हफ़मैन कोडिंग है, जिसका उपयोग दोषरहित डेटा संपीड़न के लिए किया जाता है।