डेटा सम्मिश्रण

डेटा सम्मिश्रण ऐसी प्रक्रिया होती है जिसके अनुसार अनेक स्रोतों से बड़ा डेटा प्राप्त किया जाता है एकल डेटा वेयरहाउस या डेटा समूह में विलय कर दिया जाता है। यह न केवल विभिन्न फ़ाइल स्वरूपों या डेटा के भिन्न-भिन्न स्रोतों के विलय से संबंधित है, किंतु डेटा की विभिन्न किस्मों से भी संबंधित है। डेटा सम्मिश्रण व्यवसाय विश्लेषकों को डेटा के विस्तार से निपटने की अनुमति देता है जिसकी उन्हें अच्छी गुणवत्ता वाली व्यावसायिक बुद्धिमत्ता के आधार पर महत्वपूर्ण व्यावसायिक निर्णय लेने के लिए आवश्यकता होती है।

डेटा विज्ञान द्वारा किसी भी व्यावहारिक हस्तक्षेप के लिए स्रोतों को बहुत तेज़ी से मर्ज करने के लिए डेटा विश्लेषण की आवश्यकताओं के कारण डेटा मिश्रण को डेटा एकीकरण से भिन्न बताया गया है।

डेटा स्रोतों को संयोजित करने के लिए विश्लेषकों की बढ़ती मांग का प्रतिनिधित्व करते हुए, अनेक सॉफ्टवेयर कंपनियों ने बड़ी वृद्धि देखी है और लाखों डॉलर जुटाए हैं, बाज़ार में कुछ प्रारंभिक प्रवेशकों के साथ वर्तमान सार्वजनिक कंपनियाँ। उदाहरणों में अमेज़न वेब सेवाएँ, एल्टरेक्स, माइक्रोसॉफ्ट पावर क्वेरी सम्मिलित हैं। और अपने ऊपर लेना, जो अनेक भिन्न-भिन्न डेटा स्रोतों से डेटा को संयोजित करने में सक्षम बनाता है, उदाहरण के लिए, टेक्स्ट फ़ाइलें, डेटाबेस, एक्सएमएल, जेएसओएन, और संरचित और अर्ध-संरचित डेटा के अनेक अन्य रूप।

डेटा ब्लेंडिंग अनेक मायनों में एक्सट्रेक्ट, ट्रांसफॉर्म, लोड के समान है। ईटीएल और डेटा ब्लेंडिंग दोनों विभिन्न स्रोतों से डेटा लेते हैं और उन्हें संयोजित करते हैं। चूँकि, ईटीएल का उपयोग डेटा को लक्ष्य डेटाबेस में मर्ज और संरचना करने के लिए किया जाता है, अधिकांशतः डेटा वेयरहाउस. डेटा सम्मिश्रण थोड़ा भिन्न है क्योंकि यह विशिष्ट समय पर किसी विशिष्ट उपयोग के स्थिति के लिए डेटा को जोड़ने के बारे में है। कुछ सॉफ़्टवेयर के साथ, डेटा को डेटाबेस में नहीं लिखा जाता है, जो ईटीएल से बहुत भिन्न है। उदाहरण के लिए, गूगल डेटा स्टूडियो के साथ और झांकी सॉफ्टवेयर, डेटा मिश्रण सूची परत पर होता है; यह कहीं लिखा नहीं है, केवल प्रदर्शित किया गया है।

झांकी में डेटा सम्मिश्रण
टेबल्यू सॉफ़्टवेयर में, डेटा सम्मिश्रण डेटा विज़ुअलाइज़ेशन में एकाधिक डेटा स्रोतों से डेटा को संयोजित करने की विधि है। डेटा स्रोतों को भिन्न-भिन्न संग्रहीत किया जाता है और केवल सूची परत पर डैशबोर्ड (व्यवसाय) में साथ प्रदर्शित किया जाता है। यह टेबल्यू डेटा मिश्रण को डेटा सम्मिश्रण की अन्य परिभाषाओं से भिन्न करने वाली प्रमुख अवधारणाओं में से है।

अन्य प्रमुख विभेदक डेटा जॉइन की ग्रैन्युलैरिटी है। सामान्यतः, डेटा को एकल डेटा समूह में मिश्रित करते समय, यह सम्मिलित हों (एसक्यूएल) का उपयोग करेगा, जो सामान्यतः जहां संभव हो वहां आईडी फ़ील्ड का उपयोग करके सबसे अधिक दानेदार स्तर पर जुड़ जाएगा। टेबल्यू में डेटा मिश्रण कम से कम बारीक स्तर पर होना चाहिए।

गूगल डेटा स्टूडियो में डेटा सम्मिश्रण
गूगल डेटा स्टूडियो में, डेटा स्रोतों को डेटा स्रोत के रिकॉर्ड को 4 अन्य डेटा स्रोतों के रिकॉर्ड के साथ जोड़कर संयोजित किया जाता है। टेबलू के समान, डेटा मिश्रण केवल सूची परत पर होता है। मिश्रित डेटा को कभी भी भिन्न संयुक्त डेटा स्रोत के रूप में संग्रहीत नहीं किया जाता है।

डेटा सम्मिश्रण की चुनौतियाँ
सबसे आम कस्टम मेटाडेटा प्रश्न है: यह डेटासमूह मेरे अन्य डेटासमूह के साथ कैसे मिश्रित हो सकता है (जुड़ सकता है या जुड़ सकता है)? 2015 फॉरेस्टर कंसल्टिंग अध्ययन में पाया गया कि 52 प्रतिशत कंपनियां 50 या अधिक डेटा स्रोतों का मिश्रण कर रही हैं और 12 प्रतिशत 1,000 से अधिक स्रोतों का मिश्रण कर रही हैं।

यह भी देखें

 * डेटा तैयारी
 * डाटा संलयन
 * डेटा की अस्तव्यस्तता
 * डेटा सफाई
 * डेटा संपादन
 * डेटा स्क्रैपिंग
 * डेटा क्यूरेशन
 * डेटा प्री-प्रोसेसिंग