डेटा प्री-प्रोसेसिंग

डेटा पूर्व-प्रसंस्करण प्रदर्शन को सुनिश्चित करने या बढ़ाने के लिए उपयोग किए जाने से पहले डेटा में परिवर्तन या पतन का उल्लेख कर सकता है, जो डेटा माइनिंग प्रक्रिया में एक महत्वपूर्ण कदम है। वाक्यांश "कचरा अंदर, कचरा बाहर" विशेष रूप से डेटा माइनिंग और मशीन विद्वता की परियोजनाओं पर लागू होता है। डेटा-इकट्ठा करने के तरीकों को प्रायः सामान्य तरीकों से नियंत्रित किया जाता है, जिसके परिणामस्वरूप आउट-ऑफ़-रेंज मान(जैसे, आय: -100), असंभव डेटा संयोजन(जैसे, लिंग: पुरुष, गर्भवती: हाँ), और अनुपलब्ध मान आदि।

इस तरह की समस्याओं के लिए सावधानी से परीक्षण नहीं किए गए जिससे डेटा का विश्लेषण करने से भ्रामक परिणाम उत्पन्न हो सकते हैं। इस प्रकार, कोई भी विश्लेषण चलाने से पहले डेटा का प्रतिनिधित्व और गुणवत्ता सबसे पहले और सबसे महत्वपूर्ण है। प्रायः, डेटा पूर्व-प्रसंस्करण मशीन विद्वता प्रोजेक्ट का सबसे महत्वपूर्ण चरण होता है, विशेष रूप से कम्प्यूटेशनल बायोलॉजी में। यदि बहुत अधिक अप्रासंगिक और निरर्थक जानकारी उपलब्ध है या विस्तृत और अविश्वसनीय डेटा है, तो प्रशिक्षण चरण के दौरान ज्ञान की खोज करना अधिक कठिन होता है। डेटा तैयार करने और फ़िल्टर करने के चरणों में काफी मात्रा में संसाधन समय लग सकता है। डेटा पूर्व-प्रसंस्करण के उदाहरणों में डेटा अपमार्जन, उदाहरण चयन, डेटा सामान्यीकरण, वन-हॉट, डेटा परिवर्तन, सुविधा निकासी और फीचर चयन आदि सम्मिलित हैं। डेटा पूर्व-प्रसंस्करण का उत्पाद अंतिम प्रशिक्षण वर्ग है।

डेटा पूर्व-प्रसंस्करण उस तरीके को प्रभावित कर सकता है जिसमें अंतिम डेटा प्रोसेसिंग के परिणामों की व्याख्या की जा सकती है। इस पहलू पर सावधानीपूर्वक विचार किया जाना चाहिए जब परिणामों की व्याख्या एक महत्वपूर्ण बिंदु हो, जैसे कि(रसायन विज्ञान) के बहुविविध प्रसंस्करण में।

डेटा पूर्व-प्रसंस्करण के कार्य

 * डेटा अपमार्जन
 * डेटा संपादन
 * डेटा में कमी
 * डेटा संक्षेपण

उदाहरण
इस उदाहरण में हमारे पास हमारे डेटा वर्ग में 5 वयस्क हैं जो पुरुष या महिला है और चाहे वे गर्भवती हों या नहीं। हम पता लगा सकते हैं कि वयस्क 3 और 5 असंभव डेटा संयोजन हैं। हम डेटा का अपमार्जन कर सकते हैं और इस तरह के डेटा को अपनी सारणी से हटा सकते हैं। हम ऐसे डेटा को हटा देते हैं क्योंकि हम यह निर्धारित कर सकते हैं कि डेटावर्ग में उपलब्ध ऐसा डेटा उपयोगकर्ता प्रविष्टि त्रुटियों या डेटा दूषित होने के कारण होता है। इस तरह के डेटा को हटाने का एक कारण यह हो सकता है कि असंभव डेटा डेटा प्रकलन प्रक्रिया के बाद के चरणों में गणना या डेटा के कार्यसाधन प्रक्रिया को प्रभावित करेगा। हम एक डेटा संपादन कर सकते हैं और यह जानने के लिए कि वयस्क गर्भवती है, हम वयस्क के लिंग को बदल सकते हैं, हम यह अनुमान लगा सकते हैं कि वयस्क महिला है और तदनुसार परिवर्तन कर सकते हैं। डेटा प्रकलन प्रक्रिया के भीतर बाद के चरणों में डेटा परिवर्तन करते समय डेटा का स्पष्ट विश्लेषण करने के लिए हम डेटावर्ग को संपादित करते हैं।
 * }
 * }
 * }
 * }
 * }

हम डेटा कटौती के एक रूप का उपयोग कर सकते हैं और लिंग द्वारा डेटा को श्रेणीबद्ध कर सकते हैं और ऐसा करके हम अपने डेटावर्ग को सरल बना सकते हैं और चुन सकते हैं कि हम किस लिंग पर अधिक ध्यान केंद्रित करना चाहते हैं।
 * }
 * }
 * }
 * }
 * }


 * }
 * }
 * }
 * }
 * }

डाटा माइनिंग
डेटा पूर्व-प्रसंस्करण की उत्पत्ति डेटा माइनिंग में स्थित है। विचार उपलब्धता जानकारी और सामग्री में खोज को एकत्र करना है। बाद में यह माना गया कि मशीन विद्वता और न्यूरल नेटवर्क के लिए डेटा पूर्व-प्रसंस्करण चरण की भी आवश्यकता होती है। तो यह एक सार्वभौमिक तकनीक बन गई है जिसका उपयोग सामान्य रूप से कंप्यूटिंग में किया जाता है।

डेटा पूर्व-प्रसंस्करण डेटा अपमार्जन के उपयोग के साथ अवांछित डेटा को हटाने की अनुमति देता है, यह उपयोगकर्ता को डेटा माइनिंग प्रक्रिया में बाद में डेटा परिवर्तन के लिए पूर्व-प्रसंस्करण चरण के बाद अधिक मूल्यवान जानकारी रखने के लिए डेटावर्ग रखने की अनुमति देता है। डेटा भ्रष्टाचार या मानवीय त्रुटि को सही करने के लिए इस तरह के डेटावर्ग को संपादित करना एक भ्रम आव्यूह में पाए जाने वाले वास्तविक सकारात्मक, सच्चे नकारात्मक, गलत सकारात्मक और गलत नकारात्मक जैसे सटीक परिमाणक प्राप्त करने के लिए एक महत्वपूर्ण कदम है जो सामान्यतः एक चिकित्सा निदान के लिए उपयोग किया जाता है। उपयोगकर्ता डेटा फ़ाइलों को एक साथ जोड़ने में सक्षम हैं और डेटा से किसी भी अनावश्यक ध्वनि को फ़िल्टर करने के लिए पूर्व-प्रसंस्करण का उपयोग करते हैं जो उच्च सटीकता की अनुमति दे सकता है। उपयोगकर्ता पांडा लाइब्रेरी के साथ पायथन प्रोग्रामिंग स्क्रिप्ट का उपयोग करते हैं जो उन्हें डेटा-फ़्रेम के रूप में कोमा से अलग किए गए मानों से डेटा आयात करने की क्षमता देता है। डेटा-फ्रेम का उपयोग तब डेटा में परिवर्तन करने के लिए किया जाता है जो एक्सेल में करना चुनौतीपूर्ण हो सकता है। पांडा(सॉफ्टवेयर) जो एक शक्तिशाली उपकरण है जो डेटा विश्लेषण और परिवर्तन करने की अनुमति देता है; जो डेटा दृश्यकरण, सांख्यिकीय संचालन और बहुत कुछ आसान बनाता है। कई लोग ऐसे कार्यों को करने के लिए भी R(प्रोग्रामिंग भाषा) का उपयोग करते हैं।

एक उपयोगकर्ता उपलब्ध फ़ाइलों को एक नए रूप में बदलने का कारण कई प्रावधानों से है। डेटा पूर्व-प्रसंस्करण का उद्देश्य लापता मूल्यों को जोड़ना, कुल जानकारी, श्रेणियों के साथ डेटा लेबल करना(डेटा बिनिंग) और एक प्रक्षेप वक्र को सुचारू करना है।प्रमुख घटक विश्लेषण और फीचर चयन जैसी अधिक उन्नत तकनीकें सांख्यिकीय सूत्रों के साथ काम कर रही हैं और जटिल पर लागू होती हैं। डेटावर्ग जो जीपीएस ट्रैकर्स और मोशन कैप्चर डिवाइस द्वारा रिकॉर्ड किए जाते हैं।

सिमेंटिक डेटा पूर्व-प्रसंस्करण
अर्थ-संबंधी डेटा माइनिंग डेटा माइनिंग का एक सबवर्ग है जो विशेष रूप से डेटा माइनिंग प्रक्रिया में औपचारिक शब्दार्थ जैसे डोमेन ज्ञान को सम्मिलित करने का प्रयास करता है। डोमेन ज्ञान उस वातावरण का ज्ञान है जिसमें डेटा संसाधित किया गया था। डोमेन ज्ञान का डेटा माइनिंग के कई पहलुओं पर सकारात्मक प्रभाव हो सकता है, जैसे कि पूर्व-प्रसंस्करण चरण के दौरान अनावश्यक या असंगत डेटा को फ़िल्टर करना। डोमेन ज्ञान भी बाधा के रूप में काम करता है। यह डेटा के लिए एक गाइड के रूप में खोज और कार्य करने के लिए आवश्यक स्थान को कम करने के लिए पूर्व ज्ञान के वर्ग के रूप में कार्य करने का उपयोग करके करता है। सीधे शब्दों में कहें तो सिमेंटिक पूर्व-प्रसंस्करण उक्त डेटा के मूल वातावरण का अधिक सही और कुशलता से उपयोग करके डेटा को फ़िल्टर करना चाहता है।

ऐसी जटिल समस्याएं हैं जो उपलब्ध जानकारी का बेहतर विश्लेषण करने के लिए अधिक विस्तृत तकनीकों द्वारा हल करने के लिए कह रही हैं। अलग-अलग संख्यात्मक मानों को एक ही मान में एकत्र करने के लिए एक सरल स्क्रिप्ट बनाने के अतिरिक्त, यह सिमेंटिक आधारित डेटा पूर्व-प्रसंस्करण पर ध्यान केंद्रित करने के लिए समझ में आता है। विचार एक समर्पित सत्तामीमांसा का निर्माण करना है, जो उच्च स्तर पर समझाता है कि समस्या क्या है। सिमेंटिक डेटा माइनिंग और सिमेंटिक पूर्व-प्रसंस्करण के संबंध में, कैंसर विज्ञान शब्दार्थ ज्ञान और डेटा को अवधारणात्मक और औपचारिक रूप से परिभाषित करने का एक तरीका है। प्रोटेग(सॉफ्टवेयर) एक कैंसर विज्ञान के निर्माण के लिए मानक उपकरण है। सामान्यतः, कैंसर विज्ञान का उपयोग डेटा, एप्लिकेशन, एल्गोरिदम और सिमेंटिक से उत्पन्न होने वाले परिणामों के बीच अंतराल को पाटता है। परिणामतः, कैंसर विज्ञान के साथ सिमेंटिक डेटा माइनिंग के कई अनुप्रयोग हैं जहां सिमेंटिक अस्पष्टता डेटा सिस्टम की उपयोगिता और दक्षता को प्रभावित कर सकती है। अनुप्रयोगों में चिकित्सा क्षेत्र, भाषा प्रसंस्करण, बैंकिंग, और यहां तक ​​कि शिक्षण, और भी बहुत कुछ सम्मिलित हैं।

सिमेंटिक डेटा माइनिंग और ऑन्कोलॉजिकल आधारित दृष्टिकोण का उपयोग करने की विभिन्न ताकतें हैं। जैसा कि पहले उल्लेख किया गया है, ये उपकरण प्रति-प्रसंस्करण चरण के दौरान डेटा वर्ग से गैर-वांछनीय डेटा को फ़िल्टर करके मदद कर सकते हैं। इसके अतिरिक्त, अच्छी तरह से डिज़ाइन किए गए कैंसर विज्ञान में एकीकृत अच्छी तरह से संरचित औपचारिक शब्दार्थ शक्तिशाली डेटा लौटा सकते हैं जिन्हें मशीनों द्वारा आसानी से पढ़ा और संसाधित किया जा सकता है। सिमेंटिक डेटा प्रोसेसिंग के चिकित्सा उपयोग में इसका एक विशेष रूप से उपयोगी उदाहरण उपलब्ध है। उदाहरण के तौर पर, एक मरीज को मेडिकल इमरजेंसी हो रही है और उसे अस्पताल ले जाया जा रहा है। आपातकालीन उत्तरदाता रोगी की मदद करने के लिए सबसे अच्छी दवा का पता लगाने की कोशिश कर रहे हैं। सामान्य डेटा प्रोसेसिंग के तहत, यह सुनिश्चित करने के लिए रोगी के सभी मेडिकल डेटा को खंगालना कि उन्हें सबसे अच्छा इलाज मिल रहा है, इसमें बहुत अधिक समय लग सकता है और रोगियों के स्वास्थ्य या यहाँ तक कि जीवन को संकट में डाल सकता है। हालांकि, सिमेंटिकली प्रोसेस्ड कैंसर विज्ञान का उपयोग करते हुए, पहले उत्तरदाता रोगी के जीवन को बचा सकते हैं। सिमेंटिक रीजनर जैसे उपकरण कैंसर विज्ञान(सूचना विज्ञान) का उपयोग यह पता लगाने के लिए कर सकते हैं कि रोगी को कौन सी सबसे अच्छी दवा दी जानी चाहिए, जो उनके चिकित्सा इतिहास पर आधारित है, जैसे कि यदि उन्हें कोई निश्चित कैंसर या अन्य स्थितियाँ हैं, तो बस उपयोग की जाने वाली प्राकृतिक भाषा की जाँच करके। रोगी का मेडिकल रिकॉर्ड। यह पहले उत्तरदाताओं को रोगी के चिकित्सा इतिहास के बारे में चिंता किए बिना जल्दी और कुशलता से दवा की खोज करने की अनुमति देगा, क्योंकि सिमेंटिक रीजनर ने पहले ही इस डेटा का विश्लेषण कर लिया होगा और समाधान ढूंढ लिया होगा। सामान्यतः, यह सिमेंटिक डेटा माइनिंग और कैंसर विज्ञान का उपयोग करने की अविश्वसनीय ताकत को दर्शाता है। वे उपयोगकर्ता की ओर से त्वरित और अधिक कुशल डेटा निष्कर्षण की अनुमति देते हैं, क्योंकि उपयोगकर्ता के पास खाते के लिए कम चर होते हैं, क्योंकि डेटा के लिए बनाए गए शब्दार्थ पूर्व-संसाधित डेटा और कैंसर विज्ञान ने इनमें से कई चरों के लिए पहले से ही हिसाब लगाया है। हालाँकि, इस दृष्टिकोण में कुछ कमियाँ हैं। अर्थात्, इसमें अपेक्षाकृत छोटे डेटा वर्ग के साथ भी उच्च मात्रा में कम्प्यूटेशनल शक्ति और जटिलता की आवश्यकता होती है। इसके परिणामस्वरूप सिमेंटिक डेटा प्रोसेसिंग सिस्टम के निर्माण और रखरखाव में उच्च लागत और बढ़ी हुई कठिनाइयाँ हो सकती हैं। इसे कुछ हद तक कम किया जा सकता है यदि डेटा वर्ग पहले से ही व्यवस्थित और स्वरूपित है, लेकिन फिर भी, मानक डेटा प्रोसेसिंग की तुलना में जटिलता अभी भी अधिक है।

नीचे एक सरल आरेख है जो कुछ प्रक्रियाओं को जोड़ता है, विशेष रूप से सिमेंटिक डेटा माइनिंग और कैंसर विज्ञान में उनका उपयोग।

आरेख एक डेटा वर्ग को दो भागों में विभाजित होने का चित्रण करता है: इसके डोमेन की विशेषताएँ, या डोमेन ज्ञान, और फिर वास्तविक अधिग्रहीत डेटा। डोमेन विशेषताओं को तब उपयोगकर्ता द्वारा समझा जाने वाला डोमेन ज्ञान बनने के लिए संसाधित किया जाता है जिसे डेटा पर लागू किया जा सकता है। इस बीच, डेटा वर्ग को संसाधित और संग्रहीत किया जाता है ताकि डोमेन ज्ञान उस पर लागू हो सके, ताकि प्रक्रिया जारी रह सके। यह एप्लिकेशन कैंसर विज्ञान बनाता है। वहां से, कैंसर विज्ञान का उपयोग डेटा और प्रक्रिया के परिणामों का विश्लेषण करने के लिए किया जा सकता है।

फ़ज़ी पूर्व-प्रसंस्करण जटिल समस्याओं को हल करने के लिए एक और अधिक उन्नत तकनीक है। फ़ज़ी पूर्व-प्रसंस्करण और फ़ज़ी डेटा माइनिंग फजी वर्ग का उपयोग करते हैं। ये डेटा वर्ग दो तत्वों से बने होते हैं: एक वर्ग और वर्ग के लिए एक सदस्यता फ़ंक्शन जिसमें 0 और 1 सम्मिलित होते हैं। फ़ज़ी पूर्व-प्रसंस्करण इस फ़ज़ी डेटा वर्ग का उपयोग भाषाई जानकारी के साथ संख्यात्मक मानों को आधार बनाने के लिए करता है। कच्चे डेटा को तब प्राकृतिक भाषा में रूपांतरित किया जाता है। अंततः, फ़ज़ी डेटा माइनिंग का लक्ष्य अपूर्ण डेटाबेस जैसी अचूक जानकारी से निपटने में मदद करना है। वर्तमान में फ़ज़ी पूर्व-प्रसंस्करण, साथ ही अन्य फ़ज़ी आधारित डेटा माइनिंग तकनीकों का तंत्रिका नेटवर्क और कृत्रिम बुद्धिमत्ता के साथ लगातार उपयोग होता है।

इस पेज में लापता आंतरिक लिंक की सूची

 * आधार सामग्री की गुणवत्ता
 * लापता मूल्य
 * आंकड़ा संग्रहण
 * एक-गर्म
 * डेटा तैयारी
 * झूठी सकारात्मक और झूठी नकारात्मक
 * अल्पविराम से अलग किये गए मान
 * असमंजस का जाल
 * आर(प्रोग्रामिंग भाषा)
 * सत्तामीमांसा(सूचना विज्ञान)

बाहरी संबंध

 * Online Data Processing Compendium
 * Data preprocessing in predictive data mining. Kनहींwledge Eng. Review 34: e1(2019)