अनुक्रमिक पैटर्न खनन

अनुक्रमिक पैटर्न खनन डेटा खनन का एक मुख्य विषय है, जो डेटा उदाहरणों के बीच सांख्यिकीय रूप से प्रासंगिक पैटर्न खोजने से संबंधित होता है, जहां मूल्यांकन को अनुक्रम में वितरित किया जाता है। सामान्य रूप से यह माना जाता है कि मूल्यांकन असतत होता हैं, और इस प्रकार समय श्रृंखला खनन निकटता से संबंधित है, लेकिन सामान्य रूप से इसको एक अलग गतिविधि माना जाता है। तथा अनुक्रमिक पैटर्न खनन संरचित डेटा खनन का एक विशेष स्थिति होती है।

इस क्षेत्र में कई प्रमुख पारंपरिक कम्प्यूटेशनल समस्याओं का समाधान किया गया है। इनमें अनुक्रम की जानकारी के लिए कुशल डेटाबेस और सूचियाँ बनाना, बार-बार होने वाले पैटर्न को निकालना, समानता के लिए अनुक्रमों की तुलना करना और लापता अनुक्रम सदस्यों को पुनर्प्राप्त करना सम्मिलित होता है। सामान्य रूप से अनुक्रम खनन की समस्याओं को श्रृंखला खनन के रूप में वर्गीकृत किया जा सकता है जो सामान्य रूप से श्रृंखला प्रसंस्करण कलन विधि और आइटमसेट खनन पर आधारित होता है, जो संगठन नियम सीखने पर आधारित होता है। स्थानीय प्रक्रिया प्रारूप अनुक्रमिक पैटर्न खनन को अधिक जटिल पैटर्न तक विस्तारित करते हैं। जिसमें अनुक्रमिक क्रम निर्माण केअतिरिक्त (अनन्य) विकल्प, लूप और समवर्ती निर्माण सम्मिलित हो सकते हैं।

श्रृंखला खनन
श्रृंखला खनन सामान्य रूप से अनुक्रम में दिखाई देने वाली वस्तुओं के लिए सीमित वर्णमाला से संबंधित होता है, लेकिन अनुक्रम स्वयं सामान्य रूप से बहुत लंबा हो सकता है। वे एक वर्णमाला के उदाहरण हो सकते हैं, जो ASCII वर्ण समुच्चय में प्राकृतिक भाषा पाठ में उपयोग किए जाते हैं, न्यूक्लियोटाइड आधार 'A', 'G', 'C और 'T', DNA अनुक्रमों में या प्रोटीन अनुक्रमों के लिए अमीनो अम्ल जीव विज्ञान के अनुप्रयोगों में स्ट्रिंग्स में वर्णमाला की व्यवस्था के विश्लेषण का उपयोग जीन और प्रोटीन अनुक्रमों की जांच करने के लिए उनके गुणों को निर्धारित करने के लिए किया जा सकता है। DNA या प्रोटीन के अक्षरों के क्रम को जानना अपने आप में अंतिम लक्ष्य नहीं होता है। लेकिन प्रमुख कार्य इसकी संरचना और जैविक कार्य के संदर्भ में अनुक्रम को समझना होता है। यह सामान्य रूप से पहले प्रत्येक अनुक्रम के अन्दर अलग-अलग क्षेत्रों या संरचनात्मक इकाइयों की पहचान करके और पुनः प्रत्येक संरचनात्मक इकाई को कार्य निर्दिष्ट करके प्राप्त किया जाता है। कई परिस्थितियों में इसके लिए पहले अध्ययन किए गए अनुक्रमों के साथ दिए गए अनुक्रम की तुलना करने की आवश्यकता होती है। जो श्रृंखला में सम्मिलन (आनुवांशिकी), विलोपन और उत्परिवर्तन होने पर श्रृंखला के बीच तुलना जटिल हो जाती है।

जैव सूचना विज्ञान अनुक्रम तुलना के लिए प्रमुख कलनविधि का एक सर्वेक्षण और वर्गीकरण अबूएलहोडा और घनम 2010 द्वारा प्रस्तुत किया गया है, जिसमें निम्न सम्मिलित होते हैं।
 * बार-बार होने वाली समस्याएं: जो एकल अनुक्रमों पर संचालन के साथ काम करता है और सटीक श्रृंखला खोज कलनविधि या अनुमानित श्रृंखला मिलान विधियों पर आधारित हो सकता है, जो बिखरी हुई निश्चित लंबाई और अधिकतम लंबाई और अग्रानुक्रम को दोहराता है, तथा अद्वितीय अनुगामी और लापता (अन-वर्तनी) अनुगामी को खोजता है।
 * संरेखण की समस्याएं: जो पहले एक या एक से अधिक अनुक्रमों को संरेखित करके तार के बीच तुलना से निपटता है। तथा लोकप्रिय विधियों के उदाहरणों में डेटाबेस में एकाधिक अनुक्रमों के साथ एकल अनुक्रम की तुलना करने के लिए विस्फोट और एकाधिक संरेखण के लिए ClustalW सम्मिलित होता हैं। संरेखण कलनविधि या तो सटीक या अनुमानित तरीकों पर आधारित हो सकते हैं, और इसे वैश्विक संरेखण, अर्ध-वैश्विक संरेखण और स्थानीय संरेखण के रूप में भी वर्गीकृत किया जा सकता है। अनुक्रम संरेखण देखें।

आइटमसेट खनन
अनुक्रम खनन में कुछ समस्याएं बार-बार आने वाले आइटमसेट और उनके दिखाई देने वाले क्रम की खोज करने के लिए स्वयं को उधार देती हैं, उदाहरण के लिए कोई यदि कोई ग्राहक कार खरीदता है, तो वह 1 सप्ताह के अन्दर बीमा खरीद सकता है। यह इन नियमों की मांग कर रहा है। या भण्डार की कीमतों के संदर्भ में, यदि नोकिया और एरिक्सन के ऊपर यह तो संभावना होती है, कि मोटोरोला और सैमसंग 2 दिनों के अन्दर परंपरागत रूप से बड़े लेनदेन में अधिकांश होने वाली वस्तुओं के बीच नियमितताओं की खोज के लिए विपणन अनुप्रयोगों में आइटमसेट खनन का उपयोग किया जाता है। उदाहरण के लिए एक उच्चमार्केट में ग्राहक खरीदारी टोकरी के लेन-देन का विश्लेषण करके, एक नियम बना सकता है, जो पढ़ता है कि यदि कोई ग्राहक एक साथ प्याज और आलू खरीदता है, तो वह उसी लेनदेन में हैमबर्गर खाद्य भी खरीद सकता है।

आइटम सेट खनन के लिए प्रमुख कलनविधि का एक सर्वेक्षण और वर्गीकरण हान एट अल द्वारा 2007 मे प्रस्तुत किया गया है।

निरन्तर आइटमसेट खनन के लिए अनुक्रम डेटाबेस पर लागू होने वाली दो सामान्य तकनीकें प्रभावशाली प्रागनुभव कलनविधि और अधिक-हाल की FP-वृद्धि तकनीक प्रमुख होती हैं।

अनुप्रयोग
उत्पादों की एक बड़ी विविधता और उपयोगकर्ता के खरीद व्यवहार के साथ जिस चट्टान पर उत्पादों को प्रदर्शित किया जा रहा है, वह खुदरा वातावरण में सबसे महत्वपूर्ण संसाधनों में से एक है। खुदरा विक्रेता न केवल अपना लाभ बढ़ा सकते हैं, बल्कि चट्टान आवंटन स्थान और उत्पादों के प्रदर्शन के उचित प्रबंधन से लागत को भी कम कर सकते हैं। तथा इस समस्या को हल करने के लिए, जॉर्ज और बीनू ने 2013 मे पहले से ही निर्धारित स्पैन कलनविधि का उपयोग करके माइन उपयोगकर्ता ख़रीदने के पैटर्न के लिए एक दृष्टिकोण प्रस्तावित किया है और माइन्ड क्रय पैटर्न के क्रम के आधार पर उत्पादों को अलमारियों पर रखा गया है।

एल्गोरिदम
सामान्य रूप से निम्नलिखित उपयोग किए जाने वाले कलन विधि में सम्मिलित हैं।
 * जीएसपी कलन विधि
 * समतुल्यता वर्गों (SPADE) का उपयोग करके अनुक्रमिक पैटर्न कि खोज
 * फ्रीस्पैन
 * प्रीफिक्सस्पैन
 * एमएपीरेस
 * Seq2Pat (बाधा-आधारित अनुक्रमिक पैटर्न खनन के लिए)

इस पेज में लापता आंतरिक लिंक की सूची

 * एसोसिएशन नियम सीखना
 * म्यूटेशन
 * जीवविज्ञान
 * समारोह (जीव विज्ञान)
 * पैटर्न खरीदना

बाहरी संबंध

 * SPMF includes open-source implementations of GSP, PrefixSpan, SPADE, SPAM and many others.