डेटा सम्मिश्रण

डेटा सम्मिश्रण ऐसी प्रक्रिया होती है जिसके अनुसार अनेक स्रोतों से बड़ा डेटा एकल डेटा वेयरहाउस या डेटा समूह में विलय कर दिया जाता है। यह न केवल विभिन्न फ़ाइल स्वरूपों या डेटा के भिन्न-भिन्न स्रोतों के विलय से संबंधित होता है, किंतु डेटा की विभिन्न किस्मों से भी संबंधित होता है। इस प्रकार डेटा सम्मिश्रण व्यवसाय विश्लेषकों को डेटा के विस्तार से निपटने की अनुमति देता है जिसकी उन्हें अच्छी गुणवत्ता वाली व्यावसायिक बुद्धिमत्ता के आधार पर महत्वपूर्ण व्यावसायिक निर्णय लेने के लिए आवश्यकता होती है।

डेटा विज्ञान द्वारा किसी भी व्यावहारिक हस्तक्षेप के लिए स्रोतों को अधिक तेज़ी से मर्ज करने के लिए डेटा विश्लेषण की आवश्यकताओं के कारण डेटा मिश्रण को डेटा एकीकरण से भिन्न बताया गया है।

डेटा स्रोतों को संयोजित करने के लिए विश्लेषकों की बढ़ती मांग का प्रतिनिधित्व करते हुए अनेक सॉफ्टवेयर कंपनियों ने बड़ी वृद्धि देखी है और लाखों डॉलर जुटाए हैं, अतः बाज़ार में कुछ प्रारंभिक प्रवेशकों के साथ वर्तमान सार्वजनिक कंपनियाँ होती है। उदाहरणों में अमेज़न वेब सेवाएँ, एल्टरेक्स, माइक्रोसॉफ्ट पावर क्वेरी सम्मिलित होते हैं। जो अनेक भिन्न-भिन्न डेटा स्रोतों से डेटा को संयोजित करने में सक्षम बनाता है, उदाहरण के लिए, टेक्स्ट फ़ाइलें, डेटाबेस, एक्सएमएल, जेएसओएन, संरचित और अर्ध-संरचित डेटा के अनेक अन्य रूप होते है।

सामान्यतः डेटा ब्लेंडिंग अनेक मायनों में एक्सट्रेक्ट, ट्रांसफॉर्म, लोड के समान होता है। इस प्रकार ईटीएल और डेटा ब्लेंडिंग दोनों विभिन्न स्रोतों से डेटा लेते हैं और उन्हें संयोजित करते हैं। चूँकि, ईटीएल का उपयोग डेटा को लक्ष्य डेटाबेस में मर्ज और संरचना करने के लिए किया जाता है, अतः अधिकांशतः डेटा वेयरहाउस. डेटा सम्मिश्रण थोड़ा भिन्न होता है जिससे कि यह विशिष्ट समय पर किसी विशिष्ट उपयोग की स्थिति के लिए डेटा को जोड़ने के बारे में होता है। कुछ सॉफ़्टवेयर के साथ, डेटा को डेटाबेस में नहीं लिखा जाता है, जो ईटीएल से अधिक भिन्न होता है। उदाहरण के लिए, गूगल डेटा स्टूडियो के साथ और झांकी सॉफ्टवेयर, डेटा मिश्रण सूची परत पर होता है। इस प्रकार यह कहीं लिखा नहीं है, केवल प्रदर्शित किया गया है।

झांकी में डेटा सम्मिश्रण
टेबल्यू सॉफ़्टवेयर में, डेटा सम्मिश्रण डेटा विज़ुअलाइज़ेशन में एकाधिक डेटा स्रोतों से डेटा को संयोजित करने की विधि होती है। इस प्रकार डेटा स्रोतों को भिन्न प्रकार से संग्रहीत किया जाता है और केवल सूची परत पर डैशबोर्ड (व्यवसाय) में साथ प्रदर्शित किया जाता है। अतः यह टेबल्यू डेटा मिश्रण को डेटा सम्मिश्रण की अन्य परिभाषाओं से भिन्न करने वाली प्रमुख अवधारणाओं में होता है।

अन्य प्रमुख विभेदक डेटा जॉइन की ग्रैन्युलैरिटी है। सामान्यतः, डेटा को एकल डेटा समूह में मिश्रित करते समय, यह सम्मिलित (एसक्यूएल) होने का उपयोग करता है, जो सामान्यतः जहां संभव होता है, वहां आईडी क्षेत्र का उपयोग करके सबसे अधिक दानेदार स्तर पर जुड़ जाता है। इस प्रकार टेबल्यू में डेटा मिश्रण कम से कम सूक्ष्म स्तर पर होता है।

गूगल डेटा स्टूडियो में डेटा सम्मिश्रण
गूगल डेटा स्टूडियो में, डेटा स्रोतों को डेटा स्रोत के रिकॉर्ड को 4 अन्य डेटा स्रोतों के रिकॉर्ड के साथ जोड़कर संयोजित किया जाता है।

टेबलू के समान, डेटा मिश्रण केवल सूची परत पर होता है। इस प्रकार मिश्रित डेटा को कभी भी भिन्न संयुक्त डेटा स्रोत के रूप में संग्रहीत नहीं किया जाता है।

डेटा सम्मिश्रण की चुनौतियाँ
सबसे सामान्य कस्टम मेटाडेटा प्रश्न यह होता है कि यह डेटासमूह मेरे अन्य डेटासमूह के साथ कैसे मिश्रित हो सकता है (जुड़ सकता है या जुड़ सकता है)? सन्न 2015 फॉरेस्टर कंसल्टिंग अध्ययन में पाया गया कि 52 प्रतिशत कंपनियां 50 या अधिक डेटा स्रोतों का मिश्रण कर रही हैं और 12 प्रतिशत 1,000 से अधिक स्रोतों का मिश्रण कर रही हैं।

यह भी देखें

 * डेटा तैयारी
 * डाटा संलयन
 * डेटा की अस्तव्यस्तता
 * डेटा सफाई
 * डेटा संपादन
 * डेटा स्क्रैपिंग
 * डेटा क्यूरेशन
 * डेटा प्री-प्रोसेसिंग