मात्रात्मक सामान्यीकरण

सांख्यिकी में, क्वांटाइल सामान्यीकरण सांख्यिकीय गुणों में दो संभाव्यता वितरण को समान बनाने की एक तकनीक है। समान लंबाई के संदर्भ वितरण के लिए परीक्षण वितरण को मात्रात्मक-सामान्यीकृत करने के लिए, परीक्षण वितरण को क्रमबद्ध करें और संदर्भ वितरण को क्रमबद्ध करें। परीक्षण वितरण में उच्चतम प्रविष्टि तब संदर्भ वितरण में उच्चतम प्रविष्टि का मान लेती है, संदर्भ वितरण में अगली उच्चतम प्रविष्टि, और इसी तरह, जब तक कि परीक्षण वितरण संदर्भ वितरण का गड़बड़ी न हो जाए।

संदर्भ वितरण के बिना, दो या दो से अधिक वितरणों को एक-दूसरे के लिए सामान्यीकृत करने के लिए, पहले की तरह क्रमबद्ध करें, फिर वितरण के औसत (आमतौर पर, अंकगणितीय माध्य) पर सेट करें। तो सभी मामलों में उच्चतम मान उच्चतम मानों का माध्य बन जाता है, दूसरा उच्चतम मान दूसरे उच्चतम मानों का माध्य बन जाता है, इत्यादि। आम तौर पर एक संदर्भ वितरण गॉसियन वितरण या पॉइसन वितरण जैसे मानक सांख्यिकीय वितरणों में से एक होगा। संदर्भ वितरण यादृच्छिक रूप से या वितरण के संचयी वितरण फ़ंक्शन से नियमित नमूने लेने से उत्पन्न किया जा सकता है। हालाँकि, किसी भी संदर्भ वितरण का उपयोग किया जा सकता है।

माइक्रोएरे डेटा विश्लेषण में क्वांटाइल सामान्यीकरण का अक्सर उपयोग किया जाता है। इसे क्वांटाइल मानकीकरण के रूप में पेश किया गया था और फिर इसका नाम बदलकर क्वांटाइल सामान्यीकरण कर दिया गया।

उदाहरण
बहुत छोटे डेटासेट पर इस तरह के सामान्यीकरण का एक त्वरित उदाहरण:

सारणी 1 से 3, जीन ए से डी

ए 5 4 3 बी 2 1 4 सी 3 4 6 डी 4 2 8

प्रत्येक कॉलम के लिए निम्नतम से उच्चतम तक एक रैंक निर्धारित करें और संख्या i-iv निर्दिष्ट करें

ए iv iii मैं बी मैं मैं ii सी ii iii iii डी iii ii iv

इन रैंक मानों को बाद में उपयोग करने के लिए अलग रखा गया है। डेटा के पहले सेट पर वापस जाएँ। कॉलम मानों के पहले सेट को पुनर्व्यवस्थित करें ताकि प्रत्येक कॉलम निम्नतम से उच्चतम मान तक जाने के क्रम में हो। (पहले कॉलम में 5,2,3,4 हैं। इसे 2,3,4,5 में पुनर्व्यवस्थित किया गया है। दूसरे कॉलम 4,1,4,2 को 1,2,4,4 में पुनर्व्यवस्थित किया गया है, और कॉलम 3 में शामिल हैं 3,4,6,8 वही रहता है क्योंकि यह पहले से ही निम्नतम से उच्चतम मान के क्रम में है।) परिणाम यह है:

ए 5 4 3 बन जाता है ए 2 1 3 बी 2 1 4 बन जाता है बी 3 2 4 C 3 4 6, C 4 4 6 बन जाता है डी 4 2 8, डी 5 4 8 बन जाता है

अब रैंक निर्धारित करने के लिए प्रत्येक पंक्ति का माध्य ज्ञात करें

ए (2 + 1 + 3)/3 = 2.00 = रैंक I बी (3 + 2 + 4)/3 = 3.00 = रैंक ii सी (4 + 4 + 6)/3 = 4.67 = रैंक iii डी (5 + 4 + 8)/3 = 5.67 = रैंक iv

अब रैंकिंग क्रम लें और नए मानों को प्रतिस्थापित करें

ए iv iii मैं बी मैं मैं ii सी ii iii iii डी iii ii iv

बन जाता है:

ए 5.67 4.67 2.00 बी 2.00 2.00 3.00 सी 3.00 4.67 4.67 डी 4.67 3.00 5.67

ये नए सामान्यीकृत मूल्य हैं।

हालाँकि, ध्यान दें कि जब, कॉलम दो की तरह, मान रैंक में बंधे होते हैं, तो उन्हें रैंक के अनुरूप मानों का माध्य सौंपा जाना चाहिए, यदि वे अलग-अलग होते तो वे सामान्य रूप से प्रतिनिधित्व करते। कॉलम 2 के मामले में, वे रैंक iii और iv का प्रतिनिधित्व करते हैं। इसलिए हम दो बंधी हुई रैंक iii प्रविष्टियों को रैंक iii के लिए 4.67 और रैंक iv के लिए 5.67 का माध्य निर्दिष्ट करते हैं, जो कि 5.17 है। और इसलिए हम सामान्यीकृत मूल्यों के निम्नलिखित सेट पर पहुंचते हैं:

ए 5.67 5.17 2.00 बी 2.00 2.00 3.00 सी 3.00 5.17 4.67 डी 4.67 3.00 5.67

नए मूल्यों का वितरण समान है और अब उनकी तुलना आसानी से की जा सकती है। यहां तीनों स्तंभों में से प्रत्येक के लिए सारांश आंकड़े दिए गए हैं:

न्यूनतम. :2.000 मिनट. :2.000 मिनट. :2.000 प्रथम क्वे.:2.750 प्रथम क्वे.:2.750 प्रथम क्वे.:2.750 माध्यिका :3.833 माध्यिका :4.083 माध्यिका :3.833 माध्य :3.833 माध्य :3.833 माध्य :3.833 तीसरा क्वा.:4.917 तीसरा क्वा.:5.167 तीसरा क्वा.:4.917 अधिकतम. :5.667 अधिकतम. :5.167 अधिकतम. :5.667

बाहरी संबंध

 * Normalization of Affymetrix Chips