अनुक्रमिक पैटर्न खनन

अनुक्रमिक पैटर्न खनन डेटा खनन का एक मुख्य विषय है, जो डेटा उदाहरणों के बीच सांख्यिकीय रूप से प्रासंगिक पैटर्न खोजने से संबंधित होता है, जहां मूल्यांकन को अनुक्रम में वितरित किया जाता है। सामान्य रूप से यह माना जाता है कि मूल्यांकन असतत होता हैं, और इस प्रकार समय श्रृंखला खनन निकटता से संबंधित है, लेकिन सामान्य रूप से इसको एक अलग गतिविधि माना जाता है। तथा अनुक्रमिक पैटर्न खनन संरचित डेटा खनन का एक विशेष स्थिति होती है।

इस क्षेत्र में कई प्रमुख पारंपरिक कम्प्यूटेशनल समस्याओं का समाधान किया गया है। इनमें अनुक्रम की जानकारी के लिए कुशल डेटाबेस और सूचियाँ बनाना, बार-बार होने वाले पैटर्न को निकालना, समानता के लिए अनुक्रमों की तुलना करना और लापता अनुक्रम सदस्यों को पुनर्प्राप्त करना सम्मिलित होता है। सामान्य रूप से अनुक्रम खनन की समस्याओं को श्रृंखला खनन के रूप में वर्गीकृत किया जा सकता है जो सामान्य रूप से श्रृंखला प्रसंस्करण कलन विधि और आइटमसेट खनन पर आधारित होता है, जो संगठन नियम सीखने पर आधारित होता है। स्थानीय प्रक्रिया प्रारूप अनुक्रमिक पैटर्न खनन को अधिक जटिल पैटर्न तक विस्तारित करते हैं। जिसमें अनुक्रमिक क्रम निर्माण केअतिरिक्त (अनन्य) विकल्प, लूप और समवर्ती निर्माण सम्मिलित हो सकते हैं।

श्रृंखला खनन
स्ट्रिंग खनन आमतौर पर अनुक्रम में दिखाई देने वाली वस्तुओं के लिए सीमित वर्णमाला से संबंधित है, लेकिन अनुक्रम स्वयं आमतौर पर बहुत लंबा हो सकता है। एक वर्णमाला के उदाहरण वे हो सकते हैं जो ASCII वर्ण सेट में प्राकृतिक भाषा पाठ, न्यूक्लियोटाइड बेस 'ए', 'जी', 'सी' और 'टी' [[डीएनए अनुक्रम]]ों में, या प्रोटीन अनुक्रमों के लिए अमीनो अम्ल में उपयोग किए जाते हैं। जीव विज्ञान अनुप्रयोगों में स्ट्रिंग्स में वर्णमाला की व्यवस्था के विश्लेषण का उपयोग जीन और प्रोटीन अनुक्रमों की जांच करने के लिए उनके गुणों को निर्धारित करने के लिए किया जा सकता है। डीएनए या प्रोटीन के अक्षरों के क्रम को जानना अपने आप में अंतिम लक्ष्य नहीं है। बल्कि, प्रमुख कार्य इसकी संरचना और कार्य (जीव विज्ञान) के संदर्भ में अनुक्रम को समझना है। यह आमतौर पर पहले प्रत्येक अनुक्रम के भीतर अलग-अलग क्षेत्रों या संरचनात्मक इकाइयों की पहचान करके और फिर प्रत्येक संरचनात्मक इकाई को एक कार्य निर्दिष्ट करके प्राप्त किया जाता है। कई मामलों में इसके लिए पहले अध्ययन किए गए अनुक्रमों के साथ दिए गए अनुक्रम की तुलना करने की आवश्यकता होती है। एक स्ट्रिंग में सम्मिलन (आनुवांशिकी), विलोपन (आनुवांशिकी) और उत्परिवर्तन होने पर तार के बीच तुलना जटिल हो जाती है।

बायोइन्फॉर्मेटिक्स के लिए अनुक्रम तुलना के लिए प्रमुख एल्गोरिदम का एक सर्वेक्षण और टैक्सोनॉमी अबूएलहोडा और घानेम (2010) द्वारा प्रस्तुत किया गया है, जिसमें शामिल हैं:
 * दोहराव से संबंधित समस्याएं: जो एकल अनुक्रमों पर संचालन से निपटती हैं और स्ट्रिंग खोज एल्गोरिथ्म या अनुमानित स्ट्रिंग मिलान विधियों पर आधारित हो सकती हैं, जो बिखरी हुई निश्चित लंबाई और अधिकतम लंबाई को दोहराती हैं, अग्रानुक्रम दोहराती हैं, और अद्वितीय अनुगामी और लापता (अन-वर्तनी) का पता लगाती हैं। ) अनुवर्ती।
 * संरेखण समस्याएं: जो पहले एक या अधिक अनुक्रमों को संरेखित करके तारों के बीच तुलना से निपटती हैं; लोकप्रिय विधियों के उदाहरणों में डेटाबेस में एकाधिक अनुक्रमों के साथ एकल अनुक्रम की तुलना करने के लिए BLAST और एकाधिक संरेखण के लिए ClustalW शामिल हैं। संरेखण एल्गोरिदम या तो सटीक या अनुमानित तरीकों पर आधारित हो सकते हैं, और इसे वैश्विक संरेखण, अर्ध-वैश्विक संरेखण और स्थानीय संरेखण के रूप में भी वर्गीकृत किया जा सकता है। अनुक्रम संरेखण देखें।

आइटमसेट खनन
सीक्वेंस खनन में कुछ समस्याएं बार-बार आइटमसेट और उनके दिखाई देने वाले क्रम की खोज करने के लिए खुद को उधार देती हैं, उदाहरण के लिए, यदि कोई {ग्राहक कार खरीदता है}, तो वह 1 सप्ताह के भीतर {बीमा खरीद} सकता है, या स्टॉक की कीमतों के संदर्भ में, यदि {नोकिया अप और एरिक्सन अप}, तो यह संभावना है कि {मोटोरोला अप और सैमसंग अप} 2 दिनों के भीतर। परंपरागत रूप से, बड़े लेनदेन में अक्सर होने वाली वस्तुओं के बीच नियमितताओं की खोज के लिए विपणन अनुप्रयोगों में आइटमसेट खनन का उपयोग किया जाता है। उदाहरण के लिए, एक सुपरमार्केट में ग्राहक खरीदारी टोकरी के लेन-देन का विश्लेषण करके, एक नियम तैयार किया जा सकता है जो पढ़ता है कि यदि कोई ग्राहक एक साथ प्याज और आलू खरीदता है, तो वह उसी लेनदेन में हैमबर्गर मांस भी खरीद सकता है।

आइटम सेट खनन के लिए प्रमुख एल्गोरिदम का एक सर्वेक्षण और वर्गीकरण हान एट अल द्वारा प्रस्तुत किया गया है। (2007)। एसोसिएशन रूल लर्निंग खनन के लिए सीक्वेंस डेटाबेस पर लागू होने वाली दो सामान्य तकनीकें हैं प्रभावशाली एप्रीओरी एल्गोरिदम और हाल ही में एसोसिएशन रूल लर्निंग #FP-ग्रोथ एल्गोरिथम | FP-ग्रोथ तकनीक।

अनुप्रयोग
उत्पादों की एक बड़ी विविधता और उपयोगकर्ता के खरीद व्यवहार के साथ, जिस शेल्फ पर उत्पादों को प्रदर्शित किया जा रहा है, वह खुदरा वातावरण में सबसे महत्वपूर्ण संसाधनों में से एक है। खुदरा विक्रेता न केवल अपना लाभ बढ़ा सकते हैं, बल्कि शेल्फ स्पेस आवंटन और उत्पादों के प्रदर्शन के उचित प्रबंधन से लागत भी कम कर सकते हैं। इस समस्या को हल करने के लिए, जॉर्ज और बीनू (2013) ने PrefixSpan एल्गोरिथम का उपयोग करके माइन यूज़र ख़रीदने के पैटर्न के लिए एक दृष्टिकोण प्रस्तावित किया है और माइन्ड क्रय पैटर्न के क्रम के आधार पर उत्पादों को अलमारियों पर रखा है।

एल्गोरिदम
आमतौर पर इस्तेमाल किए जाने वाले एल्गोरिदम में शामिल हैं:
 * जीएसपी एल्गोरिदम
 * समतुल्यता वर्गों (SPADE) का उपयोग करके अनुक्रमिक पैटर्न डिस्कवरी
 * फ्रीस्पैन
 * प्रीफिक्सस्पैन
 * एमएपीरेस
 * Seq2Pat (बाधा-आधारित अनुक्रमिक पैटर्न खनन के लिए)

इस पेज में लापता आंतरिक लिंक की सूची

 * एसोसिएशन नियम सीखना
 * म्यूटेशन
 * जीवविज्ञान
 * समारोह (जीव विज्ञान)
 * पैटर्न खरीदना

बाहरी संबंध

 * SPMF includes open-source implementations of GSP, PrefixSpan, SPADE, SPAM and many others.