डेटा सम्मिश्रण

डेटा सम्मिश्रण एक ऐसी प्रक्रिया है जिसके तहत कई स्रोतों से बड़ा डेटा प्राप्त किया जाता है एक एकल डेटा वेयरहाउस या डेटा सेट में विलय कर दिया जाता है। यह न केवल विभिन्न फ़ाइल स्वरूपों या डेटा के अलग-अलग स्रोतों के विलय से संबंधित है, बल्कि डेटा की विभिन्न किस्मों से भी संबंधित है। डेटा सम्मिश्रण व्यवसाय विश्लेषकों को डेटा के विस्तार से निपटने की अनुमति देता है जिसकी उन्हें अच्छी गुणवत्ता वाली व्यावसायिक बुद्धिमत्ता के आधार पर महत्वपूर्ण व्यावसायिक निर्णय लेने के लिए आवश्यकता होती है। डेटा विज्ञान द्वारा किसी भी व्यावहारिक हस्तक्षेप के लिए स्रोतों को बहुत तेज़ी से मर्ज करने के लिए डेटा विश्लेषण की आवश्यकताओं के कारण डेटा मिश्रण को डेटा एकीकरण से अलग बताया गया है। डेटा स्रोतों को संयोजित करने के लिए विश्लेषकों की बढ़ती मांग का प्रतिनिधित्व करते हुए, कई सॉफ्टवेयर कंपनियों ने बड़ी वृद्धि देखी है और लाखों डॉलर जुटाए हैं, बाज़ार में कुछ शुरुआती प्रवेशकों के साथ अब सार्वजनिक कंपनियाँ। उदाहरणों में अमेज़न वेब सेवाएँ, एल्टरेक्स, माइक्रोसॉफ्ट पावर क्वेरी शामिल हैं। और अपने ऊपर लेना, जो कई अलग-अलग डेटा स्रोतों से डेटा को संयोजित करने में सक्षम बनाता है, उदाहरण के लिए, टेक्स्ट फ़ाइलें, डेटाबेस, XML, JSON, और संरचित और अर्ध-संरचित डेटा के कई अन्य रूप। डेटा ब्लेंडिंग कई मायनों में एक्सट्रेक्ट, ट्रांसफॉर्म, लोड के समान है। ईटीएल और डेटा ब्लेंडिंग दोनों विभिन्न स्रोतों से डेटा लेते हैं और उन्हें संयोजित करते हैं। हालाँकि, ETL का उपयोग डेटा को लक्ष्य डेटाबेस में मर्ज और संरचना करने के लिए किया जाता है, अक्सर एक डेटा वेयरहाउस. डेटा सम्मिश्रण थोड़ा अलग है क्योंकि यह एक विशिष्ट समय पर किसी विशिष्ट उपयोग के मामले के लिए डेटा को जोड़ने के बारे में है। कुछ सॉफ़्टवेयर के साथ, डेटा को डेटाबेस में नहीं लिखा जाता है, जो ईटीएल से बहुत अलग है। उदाहरण के लिए, Google डेटा स्टूडियो के साथ और झांकी सॉफ्टवेयर, डेटा मिश्रण रिपोर्टिंग परत पर होता है; यह कहीं लिखा नहीं है, केवल प्रदर्शित किया गया है।

झांकी में डेटा सम्मिश्रण
टेबल्यू सॉफ़्टवेयर में, डेटा सम्मिश्रण डेटा विज़ुअलाइज़ेशन में एकाधिक डेटा स्रोतों से डेटा को संयोजित करने की एक तकनीक है। डेटा स्रोतों को अलग-अलग संग्रहीत किया जाता है और केवल रिपोर्टिंग परत पर डैशबोर्ड (व्यवसाय) में एक साथ प्रदर्शित किया जाता है। यह टेबल्यू डेटा मिश्रण को डेटा सम्मिश्रण की अन्य परिभाषाओं से अलग करने वाली प्रमुख अवधारणाओं में से एक है।

अन्य प्रमुख विभेदक डेटा जॉइन की ग्रैन्युलैरिटी है। आम तौर पर, डेटा को एकल डेटा सेट में मिश्रित करते समय, यह एक शामिल हों (एसक्यूएल)  का उपयोग करेगा, जो आमतौर पर जहां संभव हो वहां एक आईडी फ़ील्ड का उपयोग करके सबसे अधिक दानेदार स्तर पर जुड़ जाएगा। टेबल्यू में डेटा मिश्रण कम से कम बारीक स्तर पर होना चाहिए।

Google डेटा स्टूडियो में डेटा सम्मिश्रण
Google डेटा स्टूडियो में, डेटा स्रोतों को एक डेटा स्रोत के रिकॉर्ड को 4 अन्य डेटा स्रोतों के रिकॉर्ड के साथ जोड़कर संयोजित किया जाता है। टेबलू के समान, डेटा मिश्रण केवल रिपोर्टिंग परत पर होता है। मिश्रित डेटा को कभी भी एक अलग संयुक्त डेटा स्रोत के रूप में संग्रहीत नहीं किया जाता है।

डेटा सम्मिश्रण की चुनौतियाँ
सबसे आम कस्टम मेटाडेटा प्रश्न है: यह डेटासेट मेरे अन्य डेटासेट के साथ कैसे मिश्रित हो सकता है (जुड़ सकता है या जुड़ सकता है)? 2015 फॉरेस्टर कंसल्टिंग अध्ययन में पाया गया कि 52 प्रतिशत कंपनियां 50 या अधिक डेटा स्रोतों का मिश्रण कर रही हैं और 12 प्रतिशत 1,000 से अधिक स्रोतों का मिश्रण कर रही हैं।

यह भी देखें

 * डेटा तैयारी
 * डाटा संलयन
 * डेटा की गड़बड़ी
 * डेटा सफाई
 * डेटा संपादन
 * डेटा स्क्रैपिंग
 * डेटा क्यूरेशन
 * डेटा प्री-प्रोसेसिंग