डेटा प्री-प्रोसेसिंग

डेटा प्रीप्रोसेसिंग प्रदर्शन को सुनिश्चित करने या बढ़ाने के लिए उपयोग किए जाने से पहले डेटा में हेरफेर या छोड़ने का उल्लेख कर सकता है, और डेटा माइनिंग प्रक्रिया में एक महत्वपूर्ण कदम है। वाक्यांश "कचरा अंदर, कचरा बाहर" विशेष रूप से डेटा माइनिंग और मशीन लर्निंग की परियोजनाओं पर लागू होता है। डेटा-इकट्ठा करने के तरीकों को अक्सर ढीले ढंग से नियंत्रित किया जाता है, जिसके परिणामस्वरूप आउट-ऑफ़-रेंज मान (जैसे, आय: -100), असंभव डेटा संयोजन (जैसे, लिंग: पुरुष, गर्भवती: हाँ), और अनुपलब्ध मान आदि।

इस तरह की समस्याओं के लिए सावधानी से छानबीन नहीं किए गए डेटा का विश्लेषण करने से भ्रामक परिणाम उत्पन्न हो सकते हैं। इस प्रकार, कोई भी विश्लेषण चलाने से पहले डेटा का प्रतिनिधित्व और गुणवत्ता सबसे पहले और सबसे महत्वपूर्ण है। अक्सर, डेटा प्रीप्रोसेसिंग मशीन लर्निंग प्रोजेक्ट का सबसे महत्वपूर्ण चरण होता है, विशेष रूप से कम्प्यूटेशनल बायोलॉजी में। यदि बहुत अधिक अप्रासंगिक और निरर्थक जानकारी मौजूद है या शोरगुल और अविश्वसनीय डेटा है, तो प्रशिक्षण चरण के दौरान ज्ञान की खोज करना अधिक कठिन होता है। डेटा तैयार करने और फ़िल्टर करने के चरणों में काफी मात्रा में संसाधन समय लग सकता है। डेटा प्रीप्रोसेसिंग के उदाहरणों में डेटा की सफाई, उदाहरण चयन, डेटा सामान्यीकरण, वन-हॉट, डेटा परिवर्तन, सुविधा निकासी और फीचर चयन आदि शामिल हैं। डेटा प्रीप्रोसेसिंग का उत्पाद अंतिम प्रशिक्षण सेट है।

डेटा प्रीप्रोसेसिंग उस तरीके को प्रभावित कर सकता है जिसमें अंतिम डेटा प्रोसेसिंग के परिणामों की व्याख्या की जा सकती है। इस पहलू पर सावधानीपूर्वक विचार किया जाना चाहिए जब परिणामों की व्याख्या एक महत्वपूर्ण बिंदु हो, जैसे कि (रसायन विज्ञान) के बहुविविध प्रसंस्करण में।

डेटा प्रीप्रोसेसिंग के कार्य

 * डेटा सफाई
 * डेटा संपादन
 * डेटा में कमी
 * डेटा तकरार

उदाहरण
इस उदाहरण में हमारे पास हमारे डेटासेट में 5 वयस्क हैं जिनके पास पुरुष या महिला का लिंग है और चाहे वे गर्भवती हों या नहीं। हम पता लगा सकते हैं कि वयस्क 3 और 5 असंभव डेटा संयोजन हैं। हम डेटा की सफाई कर सकते हैं और इस तरह के डेटा को अपनी टेबल से हटाना चुन सकते हैं। हम ऐसे डेटा को हटा देते हैं क्योंकि हम यह निर्धारित कर सकते हैं कि डेटासेट में मौजूद ऐसा डेटा उपयोगकर्ता प्रविष्टि त्रुटियों या डेटा दूषित होने के कारण होता है। इस तरह के डेटा को हटाने का एक कारण यह हो सकता है कि असंभव डेटा डेटा खनन प्रक्रिया के बाद के चरणों में गणना या डेटा  के कार्यसाधन प्रक्रिया को प्रभावित करेगा। हम एक डेटा संपादन कर सकते हैं और यह जानकर कि वयस्क गर्भवती है, हम वयस्क के लिंग को बदल सकते हैं, हम यह अनुमान लगा सकते हैं कि वयस्क महिला है और तदनुसार परिवर्तन कर सकते हैं। डेटा खनन प्रक्रिया के भीतर बाद के चरणों में डेटा हेरफेर करते समय डेटा का स्पष्ट विश्लेषण करने के लिए हम डेटासेट को संपादित करते हैं।
 * }
 * }
 * }
 * }
 * }

हम डेटा कटौती के एक रूप का उपयोग कर सकते हैं और सेक्स द्वारा डेटा को सॉर्ट कर सकते हैं और ऐसा करके हम अपने डेटासेट को सरल बना सकते हैं और चुन सकते हैं कि हम किस सेक्स पर अधिक ध्यान केंद्रित करना चाहते हैं।
 * }
 * }
 * }
 * }
 * }


 * }
 * }
 * }
 * }
 * }

डाटा माइनिंग
डेटा प्रीप्रोसेसिंग की उत्पत्ति डेटा माइनिंग में स्थित है। विचार मौजूदा जानकारी और सामग्री में खोज को एकत्र करना है। बाद में यह माना गया कि मशीन लर्निंग और न्यूरल नेटवर्क के लिए डेटा प्रीप्रोसेसिंग चरण की भी आवश्यकता होती है। तो यह एक सार्वभौमिक तकनीक बन गई है जिसका उपयोग सामान्य रूप से कंप्यूटिंग में किया जाता है।

डेटा प्रीप्रोसेसिंग डेटा सफाई के उपयोग के साथ अवांछित डेटा को हटाने की अनुमति देता है, यह उपयोगकर्ता को डेटा माइनिंग प्रक्रिया में बाद में डेटा हेरफेर के लिए प्रीप्रोसेसिंग चरण के बाद अधिक मूल्यवान जानकारी रखने के लिए डेटासेट रखने की अनुमति देता है। डेटा भ्रष्टाचार या मानवीय त्रुटि को सही करने के लिए इस तरह के डेटासेट को संपादित करना एक भ्रम मैट्रिक्स में पाए जाने वाले वास्तविक सकारात्मक, सच्चे नकारात्मक, गलत सकारात्मक और गलत नकारात्मक जैसे सटीक परिमाणक प्राप्त करने के लिए एक महत्वपूर्ण कदम है जो आमतौर पर एक चिकित्सा निदान के लिए उपयोग किया जाता है। उपयोगकर्ता डेटा फ़ाइलों को एक साथ जोड़ने में सक्षम हैं और डेटा से किसी भी अनावश्यक शोर को फ़िल्टर करने के लिए प्रीप्रोसेसिंग का उपयोग करते हैं जो उच्च सटीकता की अनुमति दे सकता है। उपयोगकर्ता पांडा लाइब्रेरी के साथ पायथन प्रोग्रामिंग स्क्रिप्ट का उपयोग करते हैं जो उन्हें डेटा-फ़्रेम के रूप में कोमा से अलग किए गए मानों से डेटा आयात करने की क्षमता देता है। डेटा-फ्रेम का उपयोग तब डेटा में हेरफेर करने के लिए किया जाता है जो एक्सेल में अन्यथा करना चुनौतीपूर्ण हो सकता है। पांडा (सॉफ्टवेयर) जो एक शक्तिशाली उपकरण है जो डेटा विश्लेषण और हेरफेर करने की अनुमति देता है; जो डेटा विज़ुअलाइज़ेशन, सांख्यिकीय संचालन और बहुत कुछ आसान बनाता है। कई लोग ऐसे कार्यों को करने के लिए भी R (प्रोग्रामिंग भाषा) का उपयोग करते हैं।

एक उपयोगकर्ता मौजूदा फ़ाइलों को एक नए में बदलने का कारण कई कारणों से है। डेटा प्रीप्रोसेसिंग का उद्देश्य लापता मूल्यों को जोड़ना, कुल जानकारी, श्रेणियों के साथ डेटा लेबल करना (डेटा बिनिंग) और एक प्रक्षेपवक्र को सुचारू करना है।प्रमुख घटक विश्लेषण और फीचर चयन जैसी अधिक उन्नत तकनीकें सांख्यिकीय सूत्रों के साथ काम कर रही हैं और जटिल पर लागू होती हैं। डेटासेट जो जीपीएस ट्रैकर्स और मोशन कैप्चर डिवाइस द्वारा रिकॉर्ड किए जाते हैं।

सिमेंटिक डेटा प्रीप्रोसेसिंग
अर्थ-संबंधी डेटा माइनिंग डेटा माइनिंग का एक सबसेट है जो विशेष रूप से डेटा माइनिंग प्रक्रिया में औपचारिक शब्दार्थ जैसे डोमेन ज्ञान को शामिल करने का प्रयास करता है। डोमेन ज्ञान उस वातावरण का ज्ञान है जिसमें डेटा संसाधित किया गया था। डोमेन ज्ञान का डेटा माइनिंग के कई पहलुओं पर सकारात्मक प्रभाव हो सकता है, जैसे कि प्रीप्रोसेसिंग चरण के दौरान अनावश्यक या असंगत डेटा को फ़िल्टर करना। डोमेन ज्ञान भी बाधा के रूप में काम करता है। यह डेटा के लिए एक गाइड के रूप में खोज और कार्य करने के लिए आवश्यक स्थान को कम करने के लिए पूर्व ज्ञान के सेट के रूप में कार्य करने का उपयोग करके करता है। सीधे शब्दों में कहें तो सिमेंटिक प्रीप्रोसेसिंग उक्त डेटा के मूल वातावरण का अधिक सही और कुशलता से उपयोग करके डेटा को फ़िल्टर करना चाहता है।

ऐसी जटिल समस्याएं हैं जो मौजूदा जानकारी का बेहतर विश्लेषण करने के लिए अधिक विस्तृत तकनीकों द्वारा हल करने के लिए कह रही हैं। अलग-अलग संख्यात्मक मानों को एक ही मान में एकत्र करने के लिए एक सरल स्क्रिप्ट बनाने के बजाय, यह सिमेंटिक आधारित डेटा प्रीप्रोसेसिंग पर ध्यान केंद्रित करने के लिए समझ में आता है। विचार एक समर्पित सत्तामीमांसा का निर्माण करना है, जो उच्च स्तर पर समझाता है कि समस्या क्या है। सिमेंटिक डेटा माइनिंग और सिमेंटिक प्री-प्रोसेसिंग के संबंध में, ऑन्कोलॉजी शब्दार्थ ज्ञान और डेटा को अवधारणात्मक और औपचारिक रूप से परिभाषित करने का एक तरीका है। प्रोटेग (सॉफ्टवेयर) एक ऑन्कोलॉजी के निर्माण के लिए मानक उपकरण है। सामान्य तौर पर, ऑन्कोलॉजी का उपयोग डेटा, एप्लिकेशन, एल्गोरिदम और सिमेंटिक बेमेल से उत्पन्न होने वाले परिणामों के बीच अंतराल को पाटता है। नतीजतन, ऑन्कोलॉजी के साथ सिमेंटिक डेटा माइनिंग के कई अनुप्रयोग हैं जहां सिमेंटिक अस्पष्टता डेटा सिस्टम की उपयोगिता और दक्षता को प्रभावित कर सकती है। अनुप्रयोगों में चिकित्सा क्षेत्र, भाषा प्रसंस्करण, बैंकिंग, और यहां तक ​​कि ट्यूशन, और भी बहुत कुछ शामिल हैं।

सिमेंटिक डेटा माइनिंग और ऑन्कोलॉजिकल आधारित दृष्टिकोण का उपयोग करने की विभिन्न ताकतें हैं। जैसा कि पहले उल्लेख किया गया है, ये उपकरण प्रति-प्रसंस्करण चरण के दौरान डेटा सेट से गैर-वांछनीय डेटा को फ़िल्टर करके मदद कर सकते हैं। इसके अतिरिक्त, अच्छी तरह से डिज़ाइन किए गए ऑन्कोलॉजी में एकीकृत अच्छी तरह से संरचित औपचारिक शब्दार्थ शक्तिशाली डेटा लौटा सकते हैं जिन्हें मशीनों द्वारा आसानी से पढ़ा और संसाधित किया जा सकता है। सिमेंटिक डेटा प्रोसेसिंग के चिकित्सा उपयोग में इसका एक विशेष रूप से उपयोगी उदाहरण मौजूद है। उदाहरण के तौर पर, एक मरीज को मेडिकल इमरजेंसी हो रही है और उसे अस्पताल ले जाया जा रहा है। आपातकालीन उत्तरदाता रोगी की मदद करने के लिए सबसे अच्छी दवा का पता लगाने की कोशिश कर रहे हैं। सामान्य डेटा प्रोसेसिंग के तहत, यह सुनिश्चित करने के लिए रोगी के सभी मेडिकल डेटा को खंगालना कि उन्हें सबसे अच्छा इलाज मिल रहा है, इसमें बहुत अधिक समय लग सकता है और रोगियों के स्वास्थ्य या यहाँ तक कि जीवन को जोखिम में डाल सकता है। हालांकि, सिमेंटिकली प्रोसेस्ड ऑन्कोलॉजी का उपयोग करते हुए, पहले उत्तरदाता रोगी के जीवन को बचा सकते हैं। सिमेंटिक रीजनर जैसे उपकरण ऑन्कोलॉजी (सूचना विज्ञान) का उपयोग यह पता लगाने के लिए कर सकते हैं कि रोगी को कौन सी सबसे अच्छी दवा दी जानी चाहिए, जो उनके चिकित्सा इतिहास पर आधारित है, जैसे कि यदि उन्हें कोई निश्चित कैंसर या अन्य स्थितियाँ हैं, तो बस उपयोग की जाने वाली प्राकृतिक भाषा की जाँच करके। रोगी का मेडिकल रिकॉर्ड। यह पहले उत्तरदाताओं को रोगी के चिकित्सा इतिहास के बारे में चिंता किए बिना जल्दी और कुशलता से दवा की खोज करने की अनुमति देगा, क्योंकि सिमेंटिक रीजनर ने पहले ही इस डेटा का विश्लेषण कर लिया होगा और समाधान ढूंढ लिया होगा। सामान्य तौर पर, यह सिमेंटिक डेटा माइनिंग और ऑन्कोलॉजी का उपयोग करने की अविश्वसनीय ताकत को दर्शाता है। वे उपयोगकर्ता की ओर से त्वरित और अधिक कुशल डेटा निष्कर्षण की अनुमति देते हैं, क्योंकि उपयोगकर्ता के पास खाते के लिए कम चर होते हैं, क्योंकि डेटा के लिए बनाए गए शब्दार्थ पूर्व-संसाधित डेटा और ऑन्कोलॉजी ने इनमें से कई चरों के लिए पहले से ही हिसाब लगाया है। हालाँकि, इस दृष्टिकोण में कुछ कमियाँ हैं। अर्थात्, इसमें अपेक्षाकृत छोटे डेटा सेट के साथ भी उच्च मात्रा में कम्प्यूटेशनल शक्ति और जटिलता की आवश्यकता होती है। इसके परिणामस्वरूप सिमेंटिक डेटा प्रोसेसिंग सिस्टम के निर्माण और रखरखाव में उच्च लागत और बढ़ी हुई कठिनाइयाँ हो सकती हैं। इसे कुछ हद तक कम किया जा सकता है यदि डेटा सेट पहले से ही व्यवस्थित और स्वरूपित है, लेकिन फिर भी, मानक डेटा प्रोसेसिंग की तुलना में जटिलता अभी भी अधिक है।

नीचे एक सरल आरेख है जो कुछ प्रक्रियाओं को जोड़ता है, विशेष रूप से सिमेंटिक डेटा माइनिंग और ऑन्कोलॉजी में उनका उपयोग।

आरेख एक डेटा सेट को दो भागों में विभाजित होने का चित्रण करता है: इसके डोमेन की विशेषताएँ, या डोमेन ज्ञान, और फिर वास्तविक अधिग्रहीत डेटा। डोमेन विशेषताओं को तब उपयोगकर्ता द्वारा समझा जाने वाला डोमेन ज्ञान बनने के लिए संसाधित किया जाता है जिसे डेटा पर लागू किया जा सकता है। इस बीच, डेटा सेट को संसाधित और संग्रहीत किया जाता है ताकि डोमेन ज्ञान उस पर लागू हो सके, ताकि प्रक्रिया जारी रह सके। यह एप्लिकेशन ऑन्कोलॉजी बनाता है। वहां से, ऑन्कोलॉजी का उपयोग डेटा और प्रक्रिया के परिणामों का विश्लेषण करने के लिए किया जा सकता है।

फ़ज़ी प्रीप्रोसेसिंग जटिल समस्याओं को हल करने के लिए एक और अधिक उन्नत तकनीक है। फ़ज़ी प्रीप्रोसेसिंग और फ़ज़ी डेटा माइनिंग फजी सेट का उपयोग करते हैं। ये डेटा सेट दो तत्वों से बने होते हैं: एक सेट और सेट के लिए एक सदस्यता फ़ंक्शन जिसमें 0 और 1 शामिल होते हैं। फ़ज़ी प्रीप्रोसेसिंग इस फ़ज़ी डेटा सेट का उपयोग भाषाई जानकारी के साथ संख्यात्मक मानों को आधार बनाने के लिए करता है। कच्चे डेटा को तब प्राकृतिक भाषा में रूपांतरित किया जाता है। अंततः, फ़ज़ी डेटा माइनिंग का लक्ष्य अपूर्ण डेटाबेस जैसी अचूक जानकारी से निपटने में मदद करना है। वर्तमान में फ़ज़ी प्रीप्रोसेसिंग, साथ ही अन्य फ़ज़ी आधारित डेटा माइनिंग तकनीकों का तंत्रिका नेटवर्क और कृत्रिम बुद्धिमत्ता के साथ लगातार उपयोग होता है।

इस पेज में लापता आंतरिक लिंक की सूची

 * आधार सामग्री की गुणवत्ता
 * लापता मूल्य
 * आंकड़ा संग्रहण
 * एक-गर्म
 * डेटा तैयारी
 * झूठी सकारात्मक और झूठी नकारात्मक
 * अल्पविराम से अलग किये गए मान
 * असमंजस का जाल
 * आर (प्रोग्रामिंग भाषा)
 * सत्तामीमांसा (सूचना विज्ञान)

बाहरी संबंध

 * Online Data Processing Compendium
 * Data preprocessing in predictive data mining. Knowledge Eng. Review 34: e1 (2019)