जीनोमिक अनुक्रमण डेटा का संपीड़न

उच्च-थ्रूपुट अनुक्रमण प्रौद्योगिकियों के कारण जीनोम अनुक्रमण लागत में नाटकीय गिरावट आई है और जीनोमिक आँकड़े का आश्चर्यजनक रूप से तेजी से संचय हुआ है। ये प्रौद्योगिकियां महत्वाकांक्षी जीनोम अनुक्रमण प्रयासों को सक्षम कर रही हैं, जैसे कि 1000 जीनोम परियोजना और 1001 (अरबिडोप्सिस थालियाना1000 जीनोम परियोजना जीनोमिक आँकड़े की जबरदस्त मात्रा का भंडारण और स्थानांतरण एक मुख्यधारा की समस्या बन गई है, जो विशेष रूप से जीनोमिक आँकड़े के लिए अभिकल्पित किए गए उच्च-प्रदर्शन संपीड़न उपकरणों के विकास को प्रेरित करती है। जीनोमिक पुन: अनुक्रमण आँकड़े को संग्रहीत और प्रबंधित करने के लिए नए कलन विधि और उपकरणों के विकास में रुचि की हालिया वृद्धि जीनोमिक आँकड़े संपीड़न के लिए कुशल तरीकों की बढ़ती मांग पर जोर देती है।

सामान्य अवधारणाएँ
जबकि मानक आँकड़े संपीड़न उपकरण (उदाहरण के लिए, ज़िप और आरएआर) का उपयोग अनुक्रम आँकड़े (उदाहरण के लिए, GenBank  फ्लैट फ़ाइल आँकड़ेबेस) को संपीड़ित करने के लिए किया जा रहा है, इस दृष्टिकोण की अत्यधिक आलोचना की गई है क्योंकि जीनोमिक अनुक्रमों में अधिकांशत: दोहराव वाली सामग्री होती है (उदाहरण के लिए, माइक्रोसैटेलाइट अनुक्रम) या कई अनुक्रम उच्च स्तर की समानता प्रदर्शित करते हैं (उदाहरण के लिए, एक ही प्रजाति के कई जीनोम अनुक्रम)। इसके अतिरिक्त, अनुक्रमण आँकड़े को संपीड़ित करने के लिए जीनोमिक अनुक्रमों के सांख्यिकीय और सूचना-सैद्धांतिक गुणों का संभावित रूप से उपयोग किया जा सकता है।

बेस वेरिएंट
एक संदर्भ टेम्पलेट की उपलब्धता के साथ, केवल अंतर (उदाहरण के लिए, एकल न्यूक्लियोटाइड प्रतिस्थापन और सम्मिलन/विलोपन) को अभिलेखित करने की आवश्यकता होती है, जिससे संग्रहीत की जाने वाली जानकारी की मात्रा काफी कम हो जाती है। सापेक्ष संपीड़न की धारणा विशेष रूप से जीनोम पुन: अनुक्रमण परियोजनाओं में स्पष्ट है जहां उद्देश्य व्यक्तिगत जीनोम में विविधताओं की खोज करना है। एक संदर्भ एकल न्यूक्लियोटाइड बहुरूपता (एकल-न्यूक्लियोटाइड बहुरूपता) मानचित्र का उपयोग, जैसे कि डीबीएसएनपी, का उपयोग भंडारण के लिए वेरिएंट की संख्या को और बेहतर बनाने के लिए किया जा सकता है।

सापेक्ष जीनोमिक निर्देशांक
एक अन्य उपयोगी विचार निरपेक्ष निर्देशांक के बदले सापेक्ष जीनोमिक निर्देशांक को संग्रहीत करना है। उदाहरण के लिए, स्थिति1आधार1स्थिति2आधार2...('Position1Base1Position2Base2...') प्रारूप में अनुक्रम भिन्न आधारों का प्रतिनिधित्व करते हुए, '123C125T130G' को '0C2T5G' तक छोटा किया जा सकता है, जहां पूर्णांक वेरिएंट के बीच अंतराल का प्रतिनिधित्व करते हैं। लागत पूर्ण निर्देशांक और सुधार कारक (इस उदाहरण में '123') के भंडारण को पुनर्प्राप्त करने के लिए आवश्यक मामूली अंकगणितीय गणना है।

जीनोम के बारे में पूर्व जानकारी
यदि जीनोम अनुक्रमों के पूल में प्रतिस्थापन की सभी संभावित स्थिति पहले से ज्ञात हो तो और कमी प्राप्त की जा सकती है। उदाहरण के लिए, यदि मानव आबादी में एसएनपी के सभी स्थान ज्ञात हैं, तो भिन्न समन्वय जानकारी को अभिलेखित करने की कोई आवश्यकता नहीं है (उदाहरण के लिए, '123C125T130G' को 'CTG' में संक्षिप्त किया जा सकता है)। चूंकि, यह दृष्टिकोण शायद ही कभी उपयुक्त होता है क्योंकि ऐसी जानकारी सामान्यत: अधूरी या अनुपलब्ध होती है।

जीनोमिक निर्देशांक कूटलेखन
अतिरिक्त संपीड़न लाभ प्रदान करने के लिए समन्वित पूर्णांकों को द्विआधारी रूप में परिवर्तित करने के लिए कूटलेखन योजनाओं का उपयोग किया जाता है। कूटलेखन अभिकल्पित, जैसे कि गोलोम्ब कूट और हफ़मैन कूट, को जीनोमिक आँकड़े संपीड़न टूल में सम्मलित किया गया है।     बेशक, कूटलेखन योजनाओं में विकोडन कलन विधि सम्मलित होते हैं। विकोडन योजना का चयन संभावित रूप से अनुक्रम सूचना पुनर्प्राप्ति की दक्षता को प्रभावित करता है।

कलनविधि अभिकल्पित विकल्प
जीनोमिक आँकड़े को संपीड़ित करने के लिए एक सार्वभौमिक दृष्टिकोण आवश्यक रूप से इष्टतम नहीं हो सकता है, क्योंकि एक विशेष विधि विशिष्ट उद्देश्यों और लक्ष्यों के लिए अधिक उपयुक्त हो सकती है। इस प्रकार, कई अभिकल्पित विकल्प जो संभावित रूप से संपीड़न प्रदर्शन को प्रभावित करते हैं, विचार के लिए महत्वपूर्ण हो सकते हैं।

संदर्भ अनुक्रम
सापेक्ष संपीड़न के लिए संदर्भ अनुक्रम का चयन संपीड़न प्रदर्शन को प्रभावित कर सकता है। अधिक विशिष्ट संदर्भ अनुक्रम (उदाहरण के लिए, संशोधित कैम्ब्रिज संदर्भ अनुक्रम) पर सर्वसम्मति संदर्भ अनुक्रम चुनने से उच्च संपीड़न अनुपात हो सकता है क्योंकि सर्वसम्मति संदर्भ में इसके आँकड़े में कम पूर्वाग्रह हो सकता है। चूंकि, संपीड़ित होने वाले अनुक्रम के स्रोत के बारे में ज्ञान का उपयोग अधिक संपीड़न लाभ प्राप्त करने के लिए किया जा सकता है। एकाधिक संदर्भ अनुक्रमों का उपयोग करने का विचार प्रस्तावित किया गया है। ब्रैंडन एट अल. (2009) एक उदाहरण के रूप में सूत्रकणिकीय डी.एन.ए वैरिएंट आँकड़े के संपीड़न का उपयोग करते हुए, जातीय समूह-विशिष्ट संदर्भ अनुक्रम टेम्पलेट्स के संभावित उपयोग का संकेत दिया गया (चित्र 2 देखें)। लेखकों ने संशोधित कैम्ब्रिज संदर्भ अनुक्रम के सापेक्ष अफ्रीकियों, एशियाई और यूरेशियाई लोगों के सूत्रकणिकीय डी.एन.ए अनुक्रमों में पक्षपाती हैप्लोटाइप वितरण पाया है। उनके परिणाम से पता चलता है कि संशोधित कैम्ब्रिज संदर्भ अनुक्रम हमेशा इष्टतम नहीं हो सकता है क्योंकि जब इसका उपयोग जातीय रूप से दूर के व्यक्तियों के आँकड़े के विरुद्ध किया जाता है तो अधिक संख्या में वेरिएंट को संग्रहीत करने की आवश्यकता होती है। इसके अतिरिक्त, सांख्यिकीय गुणों के आधार पर एक संदर्भ अनुक्रम तैयार किया जा सकता है या इंजीनियर किया गया  संपीड़न अनुपात में सुधार करने के लिए है।

कूटलेखन योजनाएं
विभिन्न आधारों और जीनोमिक निर्देशांकों को कूटलेखन करने के लिए विभिन्न प्रकार की कूटलेखन योजनाओं के अनुप्रयोग का पता लगाया गया है। निश्चित कूट, जैसे कि गोलोम्ब कूट और राइस कूट, तब उपयुक्त होते हैं जब वैरिएंट या समन्वय (पूर्णांक के रूप में दर्शाया गया) वितरण अच्छी तरह से परिभाषित होता है। परिवर्तनीय कूट, जैसे हफ़मैन कूट, एक अधिक सामान्य एन्ट्रापी कूटलेखन योजना प्रदान करते हैं जब अंतर्निहित संस्करण और/या समन्वय वितरण अच्छी तरह से परिभाषित नहीं होता है (यह सामान्यत: जीनोमिक अनुक्रम आँकड़े में स्थितिा है)।

जीनोमिक पुनः अनुक्रमण आँकड़े संपीड़न उपकरण की सूची
वर्तमान में उपलब्ध जीनोमिक आँकड़े संपीड़न उपकरणों का संपीड़न अनुपात मानव जीनोम के लिए 65 गुना और 1,200 गुना के बीच है।      एक ही जीनोम के बहुत करीबी वेरिएंट या संशोधनों को बहुत कुशलता से संपीड़ित किया जा सकता है (उदाहरण के लिए, 18,133 संपीड़न अनुपात की सूचना दी गई थी) एक ही ए. थालियाना जीनोम के दो संशोधनों के लिए, जो 99.999% समान हैं)। चूंकि, ऐसा संपीड़न एक ही जीव के विभिन्न जीनोम (व्यक्तियों) के लिए विशिष्ट संपीड़न अनुपात का संकेत नहीं है। इन उपकरणों में सबसे सामान्य कूटलेखन योजना हफ़मैन कूटलेखन है, जिसका उपयोग दोषरहित आँकड़े संपीड़न के लिए किया जाता है।