समग्र कार्य

डेटाबेस प्रबंधन में, एक समग्र फ़ंक्शन या एकत्रीकरण फ़ंक्शन एक सबरूटीन है जहां एकल सारांश आँकड़े बनाने के लिए कई पंक्तियों के मानों को एक साथ संसाधित किया जाता है। सामान्य समग्र कार्यों में शामिल हैं:


 * औसत (यानी, अंकगणितीय माध्य)
 * गिनती
 * अधिकतम
 * माध्यिका
 * न्यूनतम
 * मोड (सांख्यिकी)
 * रेंज (सांख्यिकी)
 * संक्षेप

अन्य में शामिल हैं:


 * नानमीन (मतलब NaN मानों को अनदेखा करना, जिसे शून्य या शून्य के रूप में भी जाना जाता है)
 * मानक विचलन

औपचारिक रूप से, एक समग्र फ़ंक्शन इनपुट के रूप में एक सेट (कंप्यूटर विज्ञान), एक मल्टीसेट (अमूर्त डेटा प्रकार) (बैग), या कुछ इनपुट डोमेन से एक सूची (कंप्यूटिंग) लेता है। $I$ और आउटपुट डोमेन के एक तत्व को आउटपुट करता है $O$. इनपुट और आउटपुट डोमेन समान हो सकते हैं, जैसे कि, या भिन्न हो सकता है, जैसे कि के लिए.

समग्र कार्य आम तौर पर कई प्रोग्रामिंग भाषाओं, स्प्रेडशीट्स और रिलेशनल बीजगणित में होते हैं।  e> फ़ंक्शन, जैसा कि SQL:2016 मानक में परिभाषित है एकाधिक पंक्तियों से डेटा को एक एकल संयोजित स्ट्रिंग में एकत्रित करता है।

इकाई-संबंध मॉडल में, एकत्रीकरण को चित्र 1 में दिखाए अनुसार संबंध और उसकी संस्थाओं के चारों ओर एक आयत के साथ दर्शाया गया है ताकि यह दर्शाया जा सके कि इसे एक समग्र इकाई के रूप में माना जा रहा है।

विघटित समुच्चय कार्य
समग्र फ़ंक्शन एक बॉटलनेक (सॉफ़्टवेयर) प्रस्तुत करते हैं, क्योंकि उन्हें संभावित रूप से एक ही बार में सभी इनपुट मानों की आवश्यकता होती है। वितरित कंप्यूटिंग में, ऐसी गणनाओं को छोटे टुकड़ों में विभाजित करना वांछनीय है, और कार्य को, आमतौर पर समानांतर कंप्यूटिंग, एक विभाजन और जीत एल्गोरिथ्म के माध्यम से वितरित करना है।

कुछ समुच्चय कार्यों की गणना उपसमुच्चय के लिए समुच्चय की गणना करके और फिर इन समुच्चयों को एकत्रित करके की जा सकती है; उदाहरणों में शामिल,  ,  , और. अन्य मामलों में समुच्चय की गणना उपसमुच्चय के लिए सहायक संख्याओं की गणना करके, इन सहायक संख्याओं को एकत्र करके और अंत में कुल संख्या की गणना करके की जा सकती है; उदाहरणों में शामिल  (योग और गिनती पर नज़र रखना, अंत में विभाजित करना) और   (अधिकतम और न्यूनतम पर नज़र रखना, अंत में घटाना)। अन्य मामलों में पूरे सेट का एक बार में विश्लेषण किए बिना कुल की गणना नहीं की जा सकती है, हालांकि कुछ मामलों में अनुमान वितरित किए जा सकते हैं; उदाहरणों में शामिल   (गणना-विशिष्ट समस्या), , और.

ऐसे फ़ंक्शंस को विघटित एकत्रीकरण फ़ंक्शंस कहा जाता है या विघटित समुच्चय कार्य। सबसे सरल को स्व-विघटित एकत्रीकरण कार्यों के रूप में संदर्भित किया जा सकता है, जिन्हें उन कार्यों के रूप में परिभाषित किया गया है $f$ जैसे कि एक मर्ज ऑपरेटर है $\diamond$ ऐसा है कि
 * $$f(X \uplus Y) = f(X) \diamond f(Y)$$

कहाँ $\uplus$ मल्टीसेट्स का संघ है (मोनोइड समरूपता देखें)।

उदाहरण के लिए, :
 * $$\operatorname{SUM}({x}) = x$$, एक सिंगलटन के लिए;
 * $$\operatorname{SUM}(X \uplus Y) = \operatorname{SUM}(X) + \operatorname{SUM}(Y)$$, अर्थात विलय $\diamond$ बस जोड़ है.


 * $$\operatorname{COUNT}({x}) = 1$$,
 * $$\operatorname{COUNT}(X \uplus Y) = \operatorname{COUNT}(X) + \operatorname{COUNT}(Y)$$.


 * $$\operatorname{MAX}({x}) = x$$,
 * $$\operatorname{MAX}(X \uplus Y) = \max\bigl(\operatorname{MAX}(X), \operatorname{MAX}(Y)\bigr)$$.


 * $\operatorname{MIN}({x}) = x$ ,
 * $$\operatorname{MIN}(X \uplus Y) = \min\bigl(\operatorname{MIN}(X), \operatorname{MIN}(Y)\bigr)$$.

ध्यान दें कि स्व-विघटित एकत्रीकरण कार्यों को अलग-अलग लागू करके जोड़ा जा सकता है (औपचारिक रूप से, उत्पाद लेना), इसलिए उदाहरण के लिए कोई दोनों की गणना कर सकता है  और   एक ही समय में, दो नंबरों को ट्रैक करके।

अधिक सामान्यतः, कोई एक विघटित एकत्रीकरण फ़ंक्शन को परिभाषित कर सकता है $f$ एक के रूप में जिसे अंतिम फ़ंक्शन की संरचना के रूप में व्यक्त किया जा सकता है $g$ और एक स्व-विघटित एकत्रीकरण फ़ंक्शन $h$, $$f = g \circ h, f(X) = g(h(X))$$. उदाहरण के लिए, = /  और  = −.

MapReduce फ्रेमवर्क में, इन चरणों को InitialReduce (व्यक्तिगत रिकॉर्ड/सिंगलटन सेट पर मान), कम्बाइन (दो एकत्रीकरण पर बाइनरी मर्ज), और फाइनलReduce (सहायक मान पर अंतिम फ़ंक्शन) के रूप में जाना जाता है। और विघटित एकत्रीकरण को शफ़ल चरण से पहले ले जाना इनिशियलरिड्यूस चरण के रूप में जाना जाता है,

ऑनलाइन विश्लेषणात्मक प्रसंस्करण (ओएलएपी) में डीकंपोजेबल एग्रीगेशन फ़ंक्शन महत्वपूर्ण हैं, क्योंकि वे आधार डेटा के बजाय OLAP घन में पूर्व-गणना किए गए परिणामों पर एकत्रीकरण प्रश्नों की गणना करने की अनुमति देते हैं। उदाहरण के लिए, इसका समर्थन करना आसान है,  ,  , और   OLAP में, चूँकि इन्हें OLAP क्यूब के प्रत्येक सेल के लिए गणना की जा सकती है और फिर सारांशित (रोल अप) किया जा सकता है, लेकिन इसका समर्थन करना मुश्किल है  , क्योंकि इसकी गणना प्रत्येक दृश्य के लिए अलग से की जानी चाहिए।

अन्य विघटित समुच्चय कार्य
समग्र डेटा से औसत और मानक विचलन की गणना करने के लिए, प्रत्येक समूह के लिए उपलब्ध होना आवश्यक है: मानों का कुल (Σxi = SUM(x)), मानों की संख्या (N=COUNT(x)) और मानों के वर्गों का योग (Σx)i2=SUM(xप्रत्येक समूह के 2)) : $$\operatorname{AVG}(X \uplus Y) = \bigl(\operatorname{AVG}(X) * \operatorname{COUNT}(X) + \operatorname{AVG}(Y) * \operatorname{COUNT}(Y)\bigr) / \bigl(\operatorname{COUNT}(X) + \operatorname{COUNT}(Y)\bigr)$$ या $$\operatorname{AVG}(X \uplus Y) = \bigl(\operatorname{SUM}(X) + \operatorname{SUM}(Y)\bigr) / \bigl(\operatorname{COUNT}(X) + \operatorname{COUNT}(Y)\bigr)$$ या, केवल यदि COUNT(X)=COUNT(Y) $$\operatorname{AVG}(X \uplus Y) = \bigl(\operatorname{AVG}(X) + \operatorname{AVG}(Y)\bigr) / 2$$ : समूहों के मानक विचलन की गणना करने के लिए मानों के वर्गों का योग महत्वपूर्ण है $$\operatorname{SUM}(X^2 \uplus Y^2) = \operatorname{SUM}(X^2)+\operatorname{SUM}(Y^2)$$ : सभी बिंदुओं पर समान संभावनाओं वाली एक सीमित जनसंख्या के लिए, हमारे पास है $$\operatorname{STDDEV}(X) = s(x) = \sqrt{\frac{1}{N}\sum_{i=1}^N(x_i-\overline{x})^2} = \sqrt{\frac{1}{N} \left(\sum_{i=1}^N x_i^2\right) - (\overline{x})^2} = \sqrt{\operatorname{SUM}(x^2) / \operatorname{COUNT}(x) - \operatorname{AVG}(x) ^2} $$ इसका मतलब यह है कि मानक विचलन मानों के वर्गों के औसत और औसत मान के वर्ग के बीच अंतर के वर्गमूल के बराबर है। $$\operatorname{STDDEV}(X \uplus Y) = \sqrt{\operatorname{SUM}(X^2 \uplus Y^2) / \operatorname{COUNT}(X \uplus Y) - \operatorname{AVG}(X \uplus Y) ^2}$$ $$\operatorname{STDDEV}(X \uplus Y) = \sqrt{\bigl(\operatorname{SUM}(X^2)+\operatorname{SUM}(Y^2)\bigr) / \bigl(\operatorname{COUNT}(X) + \operatorname{COUNT}(Y) \bigr) - \bigl((\operatorname{SUM}(X) + \operatorname{SUM}(Y)) / (\operatorname{COUNT}(X) + \operatorname{COUNT}(Y))\bigr)^2}$$

यह भी देखें

 * क्रॉस-सारणीकरण उर्फ ​​आकस्मिकता तालिका
 * डेटा ड्रिलिंग
 * डेटा खनन
 * डाटा प्रासेसिंग
 * निकालें, रूपांतरित करें, लोड करें
 * फ़ोल्ड (उच्च-क्रम फ़ंक्शन)
 * ग्रुप बाय (एसक्यूएल), एसक्यूएल क्लॉज
 * ओलाप क्यूब
 * ऑनलाइन विश्लेषणात्मक प्रक्रिया
 * पिवट तालिका
 * संबंधपरक बीजगणित
 * अविभाज्य वस्तुओं पर उपयोगिता कार्य#उपयोगिता कार्यों का समुच्चय
 * विश्लेषण के लिए एक्सएमएल
 * एग्रीगेटआईक्यू
 * मानचित्र छोटा करना

अग्रिम पठन

 * Oracle Aggregate Functions: MAX, MIN, COUNT, SUM, AVG Examples
 * Oracle Aggregate Functions: MAX, MIN, COUNT, SUM, AVG Examples

बाहरी संबंध

 * Aggregate Functions (Transact-SQL)