अपसरण (सांख्यिकी)

सूचना ज्यामिति में, विचलन एक प्रकार की सांख्यिकीय दूरी है: एक बाइनरी फ़ंक्शन जो एक संभाव्यता वितरण से दूसरे सांख्यिकीय कई गुना पर अलगाव को स्थापित करता है।

सबसे सरल विचलन यूक्लिडियन दूरी (SED) है, और विचलन को SED के सामान्यीकरण के रूप में देखा जा सकता है। अन्य सबसे महत्वपूर्ण विचलन सापेक्ष एन्ट्रॉपी (कुल्बैक-लीब्लर विचलन, केएल विचलन) है, जो सूचना सिद्धांत के लिए केंद्रीय है। कई अन्य विशिष्ट विचलन और विचलन के वर्ग हैं, विशेष रूप से f-divergence|f-divergences और Bregman विचलन (देखें ).

परिभाषा
एक अलग करने योग्य कई गुना दिया गया $$M$$ आयाम का $$n$$, पर एक अंतर $$M$$ एक है $$C^2$$-समारोह $$D: M\times M\to [0, \infty)$$ संतुष्टि देने वाला: सांख्यिकी के अनुप्रयोगों में, कई गुना $$M$$ आमतौर पर एक पैरामीट्रिक परिवार के मापदंडों का स्थान होता है।
 * 1) $$D(p, q) \geq 0$$ सभी के लिए $$p, q \in M$$ (गैर-नकारात्मकता),
 * 2) $$D(p, q) = 0$$ अगर और केवल अगर $$p=q$$ (सकारात्मकता),
 * 3) हर मोड़ पर $$p\in M$$, $$D(p, p+dp)$$ अत्यल्प विस्थापनों के लिए धनात्मक-निश्चित द्विघात रूप है $$dp$$ से $$p$$.

शर्त 3 ​​का मतलब है $$D$$ स्पर्शरेखा स्थान पर एक आंतरिक उत्पाद को परिभाषित करता है $$T_pM$$ हरएक के लिए $$p\in M$$. तब से $$D$$ है $$C^2$$ पर $$M$$, यह रिमेंनियन मीट्रिक को परिभाषित करता है $$g$$ पर $$M$$.

स्थानीय रूप से $$p\in M$$, हम निर्देशांक के साथ एक स्थानीय समन्वय चार्ट बना सकते हैं $$x$$, तो विचलन है $$D(x(p), x(p) + dx) = \textstyle\frac{1}{2} dx^T g_p(x) dx + O(|dx|^3)$$कहाँ $$g_p(x)$$ आकार का एक मैट्रिक्स है $$n\times n$$. यह बिंदु पर रिमेंनियन मीट्रिक है $$p$$ निर्देशांक में व्यक्त किया गया $$x$$.

स्थिति 3 के आयामी विश्लेषण से पता चलता है कि विचलन में वर्ग दूरी का आयाम है।

द्वैत विचलन $$D^*$$ परिभाषित किया जाता है
 * $$D^*(p, q) = D(q, p).$$

जब हम इसके विपरीत करना चाहते हैं $$D$$ ख़िलाफ़ $$D^*$$, हम सन्दर्भ देते है $$D$$ प्राथमिक विचलन के रूप में।

किसी विचलन को देखते हुए $$D$$, इसके सममित संस्करण को इसके दोहरे विचलन के साथ औसत करके प्राप्त किया जाता है:
 * $$D_S(p, q) = \textstyle\frac{1}{2}\big(D(p,q) + D(q, p)\big).$$

अन्य समान अवधारणाओं से अंतर
मीट्रिक (गणित) के विपरीत, डाइवर्जेंस को सममित होने की आवश्यकता नहीं है, और विषमता अनुप्रयोगों में महत्वपूर्ण है। तद्नुसार, अक्सर p और q के बीच के बजाय p या p से q के विचलन को असमान रूप से संदर्भित किया जाता है। दूसरे, डाइवर्जेंस वर्ग दूरी का सामान्यीकरण करते हैं, रेखीय दूरी का नहीं, और इस प्रकार त्रिकोण असमानता को संतुष्ट नहीं करते हैं, लेकिन कुछ डाइवर्जेंस (जैसे कि ब्रेगमैन डाइवर्जेंस#गुण) पाइथागोरस प्रमेय के सामान्यीकरण को संतुष्ट करते हैं।

सामान्य आँकड़ों और संभाव्यता में, विचलन आमतौर पर किसी भी प्रकार के कार्य को संदर्भित करता है $$D(p, q)$$, कहाँ $$p, q$$ संभाव्यता वितरण या विचाराधीन अन्य वस्तुएं हैं, जैसे कि शर्तें 1, 2 संतुष्ट हैं। सूचना ज्यामिति में प्रयुक्त विचलन के लिए शर्त 3 ​​आवश्यक है।

एक उदाहरण के रूप में, संभाव्यता उपायों की कुल भिन्नता दूरी, आमतौर पर इस्तेमाल किया जाने वाला सांख्यिकीय विचलन, स्थिति 3 को संतुष्ट नहीं करता है।

नोटेशन
विचलन के लिए संकेतन क्षेत्रों के बीच महत्वपूर्ण रूप से भिन्न होता है, हालांकि कुछ परंपराएं हैं।

डायवर्जेंस को आमतौर पर एक अपरकेस 'डी' के साथ नोट किया जाता है, जैसा कि में है $$D(x, y)$$, उन्हें मीट्रिक दूरियों से अलग करने के लिए, जिन्हें लोअरकेस 'डी' के साथ नोट किया गया है। जब कई डायवर्जेंस उपयोग में होते हैं, तो वे आमतौर पर सबस्क्रिप्ट के साथ अलग-अलग होते हैं, जैसे कि $$D_\text{KL}$$ कुल्बैक-लीब्लर डाइवर्जेंस (KL डाइवर्जेंस) के लिए।

अक्सर मापदंडों के बीच एक अलग विभाजक का उपयोग किया जाता है, विशेष रूप से विषमता पर जोर देने के लिए। सूचना सिद्धांत में, आमतौर पर एक डबल बार का उपयोग किया जाता है: $$D(p \parallel q)$$; यह समान है, लेकिन सशर्त संभाव्यता के लिए संकेतन से अलग है, $$P(A | B)$$, और सापेक्ष एन्ट्रॉपी के रूप में विचलन को सापेक्ष माप के रूप में व्याख्या करने पर जोर देता है; केएल विचलन के लिए यह अंकन सामान्य है। इसके बजाय एक कोलन का उपयोग किया जा सकता है, जैसा $$D(p : q)$$; यह दो वितरणों का समर्थन करने वाली सापेक्ष जानकारी पर जोर देता है।

मापदंडों के लिए अंकन भी भिन्न होता है। अपरकेस $$P, Q$$ प्रायिकता वितरण के रूप में मापदंडों की व्याख्या करता है, जबकि लोअरकेस $$p, q$$ या $$x, y$$ अंतरिक्ष में बिंदुओं के रूप में उनकी ज्यामितीय रूप से व्याख्या करता है, और $$\mu_1, \mu_2$$ या $$m_1, m_2$$ उन्हें उपायों के रूप में व्याख्या करता है।

ज्यामितीय गुण
डायवर्जेंस के कई गुणों को प्राप्त किया जा सकता है यदि हम एस को एक सांख्यिकीय कई गुना तक सीमित करते हैं, जिसका अर्थ है कि इसे परिमित-आयामी समन्वय प्रणाली θ के साथ पैरामीट्रिज किया जा सकता है, ताकि वितरण के लिए p ∈ S हम लिख सकते हैं p = p(θ).

एक जोड़ी अंक के लिए p, q ∈ S निर्देशांक θ के साथp और θq, डी (पी, क्यू) के आंशिक डेरिवेटिव को निरूपित करें
 * $$\begin{align}

D((\partial_i)_p, q) \ \ &\stackrel{\mathrm{def}}{=}\ \ \tfrac{\partial}{\partial\theta^i_p} D(p, q), \\ D((\partial_i\partial_j)_p, (\partial_k)_q) \ \ &\stackrel{\mathrm{def}}{=}\ \ \tfrac{\partial}{\partial\theta^i_p} \tfrac{\partial}{\partial\theta^j_p}\tfrac{\partial}{\partial\theta^k_q}D(p, q), \ \ \mathrm{etc.} \end{align}$$ अब हम इन कार्यों को एक विकर्ण तक सीमित करते हैं p = q, और निरूपित करें
 * $$\begin{align}

D[\partial_i, \cdot]\ &:\ p \mapsto D((\partial_i)_p, p), \\ D[\partial_i, \partial_j]\ &:\ p \mapsto D((\partial_i)_p, (\partial_j)_p),\ \ \mathrm{etc.} \end{align}$$ परिभाषा के अनुसार, फलन D(p, q) को न्यूनतम किया जाता है p = q, और इसलिए
 * $$\begin{align}

& D[\partial_i, \cdot] = D[\cdot, \partial_i] = 0, \\ & D[\partial_i\partial_j, \cdot] = D[\cdot, \partial_i\partial_j] = -D[\partial_i, \partial_j] \ \equiv\ g_{ij}^{(D)}, \end{align}$$ जहां मैट्रिक्स जी(D) सकारात्मक अर्ध-निश्चित मैट्रिक्स है | सकारात्मक अर्ध-निश्चित है और कई गुना एस पर एक अद्वितीय रिमेंनियन मीट्रिक परिभाषित करता है।

डायवर्जेंस डी (·, ·) भी कनेक्शन-मुक्त affine कनेक्शन के एक अद्वितीय मरोड़ को परिभाषित करता है ∇ (डी)  गुणांक के साथ

\Gamma_{ij,k}^{(D)} = -D[\partial_i\partial_j, \partial_k], $$ और इस कनेक्शन के लिए दोहरी संबंध कनेक्शन ∇* दोहरी विचलन डी* द्वारा उत्पन्न होता है।

इस प्रकार, एक विचलन डी (·, ·) एक सांख्यिकीय कई गुना पर एक अद्वितीय द्वैतवादी संरचना उत्पन्न करता है (जी(डी) ∇, ∇ (डी) ∇, ∇ (डी*)). इसका विलोम भी सत्य है: प्रत्येक मरोड़-मुक्त द्वैतवादी संरचना एक सांख्यिकीय कई गुना पर कुछ विश्व स्तर पर परिभाषित विचलन समारोह से प्रेरित होती है (जो कि अद्वितीय होने की आवश्यकता नहीं है)। उदाहरण के लिए, जब D एक f-विचलन है कुछ फ़ंक्शन ƒ(·) के लिए, तो यह रीमैनियन मीट्रिक उत्पन्न करता है g(Df) = c·g और कनेक्शन ∇(Df) = ∇(α), जहां g कैनोनिकल फिशर सूचना मीट्रिक है, ∇(ए) α-कनेक्शन है, c = ƒ′′(1), और α = 3 + 2ƒ′′′(1)/ƒ′′(1).

उदाहरण
दो सबसे महत्वपूर्ण विचलन सापेक्ष एंट्रॉपी (कुल्बैक-लीब्लर विचलन, केएल विचलन) हैं, जो सूचना सिद्धांत और आंकड़ों के लिए केंद्रीय है, और स्क्वायर यूक्लिडियन दूरी (एसईडी)। अधिकतम एंट्रॉपी और कम से कम वर्गों के सिद्धांत के माध्यम से, विशेष रूप से लॉजिस्टिक प्रतिगमन और रैखिक प्रतिगमन में, इन दो भिन्नताओं को कम करना मुख्य तरीका है कि रैखिक उलटा समस्या हल हो जाती है।

डाइवर्जेंस के दो सबसे महत्वपूर्ण वर्ग हैं एफ-डाइवर्जेंस|एफ-डाइवर्जेंस और ब्रैगमैन डाइवर्जेंस; हालाँकि, साहित्य में अन्य प्रकार के विचलन कार्यों का भी सामना करना पड़ता है। कुल्बैक-लीब्लर विचलन एकमात्र विचलन है जो एक एफ-विचलन और ब्रैगमैन विचलन दोनों है; चुकता यूक्लिडियन विचलन एक ब्रेगमैन विचलन है (फ़ंक्शन के अनुरूप $x^2$), लेकिन f-विचलन नहीं।

एफ विचलन
उत्तल कार्य दिया गया $$f:[0, \infty)\to (-\infty, \infty]$$ ऐसा है कि $$f(0) = \lim_{t\to 0^+}f(t), f(1) = 0$$, द्वारा उत्पन्न एफ-विचलन $$f$$ परिभाषित किया जाता है

D_f(p, q) = \int p(x)f\bigg(\frac{q(x)}{p(x)}\bigg) dx $$

ब्रैगमैन डायवर्जेंस
ब्रैगमैन डायवर्जेंस उत्तल सेटों पर उत्तल कार्यों के अनुरूप हैं। एक कड़ाई से उत्तल कार्य दिया गया है, निरंतर भिन्न कार्य $F$ एक उत्तल सेट पर, जिसे ब्रैगमैन जनरेटर के रूप में जाना जाता है, ब्रैगमैन डाइवर्जेंस उत्तलता को मापता है: के रैखिक सन्निकटन की त्रुटि $F$ से $q$ पर मान के सन्निकटन के रूप में $p$:
 * $$D_F(p, q) = F(p)-F(q)-\langle \nabla F(q), p-q\rangle. $$

ब्रैगमैन विचलन के लिए दोहरी विचलन उत्तल संयुग्म द्वारा उत्पन्न विचलन है F*}मूल विचलन के ब्रेगमैन जनरेटर का }। उदाहरण के लिए, यूक्लिडियन दूरी के वर्ग के लिए, जनरेटर है $x^2$, जबकि सापेक्ष एन्ट्रापी के लिए जनरेटर ऋणात्मक एन्ट्रापी है $x \log x$.

इतिहास
अपसरण शब्द का उपयोग - यह किस प्रकार के कार्यों को संदर्भित करता है, और विभिन्न सांख्यिकीय दूरियों को क्या कहा जाता है - समय के साथ महत्वपूर्ण रूप से भिन्न होता है, लेकिन सी द्वारा। 2000 सूचना ज्यामिति के भीतर, विशेष रूप से पाठ्यपुस्तक में वर्तमान उपयोग पर तय किया गया था.

एक सांख्यिकीय दूरी के लिए विचलन शब्द का उपयोग अनौपचारिक रूप से सी से विभिन्न संदर्भों में किया गया था। 1910 से सी। 1940. इसका औपचारिक उपयोग कम से कम दिनांकित है, उनके संभाव्यता वितरण द्वारा परिभाषित दो सांख्यिकीय आबादी के बीच विचलन के माप पर हकदार है, जो भट्टाचार्य दूरी को परिभाषित करता है, और , दो बहुराष्ट्रीय आबादी के बीच विचलन के माप पर हकदार, जिसने भट्टाचार्य कोण को परिभाषित किया। में कुल्बैक-लीब्लर विचलन के लिए इसके उपयोग से यह शब्द लोकप्रिय हुआ और पाठ्यपुस्तक में इसका उपयोग. विचलन शब्द का प्रयोग आम तौर पर किया जाता था सांख्यिकीय दूरियों के लिए। सांख्यिकीय दूरियों के पूर्व उपयोगों के अनेक संदर्भ में दिए गए हैं  और.

वास्तव में सममित विचलन को संदर्भित करने के लिए विचलन का उपयोग किया गया था (यह फ़ंक्शन पहले से ही 1948 में हेरोल्ड जेफरीस द्वारा परिभाषित और उपयोग किया गया था), भेदभाव के लिए औसत जानकारी के रूप में असममित कार्य का जिक्र करते हुए ... प्रति अवलोकन, जबकि असममित कार्य को निर्देशित विचलन के रूप में संदर्भित करता है।  आम तौर पर इस तरह के एक समारोह को विचलन के गुणांक के रूप में संदर्भित किया जाता है, और दिखाया गया है कि कई मौजूदा कार्यों को एफ-विचलन के रूप में व्यक्त किया जा सकता है, जेफरीस के समारोह को जेफरीस के विचलन के उपाय (आज जेफरीस विचलन), और कुल्बैक-लीब्लर के असममित समारोह के रूप में संदर्भित किया गया है। (प्रत्येक दिशा में) कुलबैक और लीब्लर के भेदभावपूर्ण जानकारी के उपायों के रूप में (आज कुल्बैक-लीब्लर विचलन)।

विचलन की सूचना ज्यामिति परिभाषा (इस लेख का विषय) को शुरू में अर्ध-दूरी सहित वैकल्पिक शब्दों द्वारा संदर्भित किया गया था और कंट्रास्ट फ़ंक्शन, हालांकि विचलन का उपयोग किया गया था  के लिए $α$-विचलन, और सामान्य वर्ग के लिए मानक बन गया है।

विचलन शब्द एक दूरी (मीट्रिक) के विपरीत है, क्योंकि सममित विचलन त्रिभुज असमानता को संतुष्ट नहीं करता है। उदाहरण के लिए, ब्रैगमैन दूरी शब्द अभी भी पाया जाता है, लेकिन ब्रैगमैन डाइवर्जेंस अब पसंद किया जाता है।

सांकेतिक रूप से, ने उनके असममित कार्य को निरूपित किया $$I(1:2)$$, जबकि  उनके कार्यों को लोअरकेस 'डी' के रूप में दर्शाता है $$d\left(P_1, P_2\right)$$.

यह भी देखें

 * सांख्यिकीय दूरी

ग्रन्थसूची

 * . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9
 * . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9
 * . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9
 * . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9
 * . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9
 * . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9
 * . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9
 * . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9
 * . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9
 * . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9
 * . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9
 * . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9
 * . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9
 * . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9