ब्रेगमैन विचलन

गणित में, विशेष रूप से सांख्यिकी और सूचना ज्यामिति, एक ब्रैगमैन डाइवर्जेंस या ब्रैगमैन दूरी दो बिंदुओं के बीच अंतर का एक उपाय है, जिसे कड़ाई से उत्तल कार्य के संदर्भ में परिभाषित किया गया है; वे डायवर्जेंस (सांख्यिकी) का एक महत्वपूर्ण वर्ग बनाते हैं। जब बिंदुओं की व्याख्या संभाव्यता वितरण के रूप में की जाती है - विशेष रूप से या तो पैरामीट्रिक मॉडल के पैरामीटर के मान के रूप में या देखे गए मानों के डेटा सेट के रूप में - परिणामी दूरी एक सांख्यिकीय दूरी होती है। सबसे बुनियादी ब्रैगमैन डाइवर्जेंस वर्ग यूक्लिडियन दूरी है।

ब्रेगमैन डायवर्जेंस मीट्रिक (गणित) के समान हैं, लेकिन न तो त्रिकोण असमानता (कभी) और न ही समरूपता (सामान्य रूप से) को संतुष्ट करते हैं। हालांकि, वे पायथागॉरियन प्रमेय के एक सामान्यीकरण को संतुष्ट करते हैं, और सूचना ज्यामिति में संबंधित सांख्यिकीय कई गुना (दोहरी) फ्लैट कई गुना के रूप में व्याख्या की जाती है। यह अनुकूलन सिद्धांत की कई तकनीकों को ब्रैगमैन डायवर्जेंस के लिए सामान्यीकृत करने की अनुमति देता है, ज्यामितीय रूप से कम से कम वर्गों के सामान्यीकरण के रूप में।

ब्रेगमैन डाइवर्जेंस का नाम रूसी गणितज्ञ लेव एम. ब्रेगमैन के नाम पर रखा गया है, जिन्होंने 1967 में इस अवधारणा को पेश किया था।

परिभाषा
होने देना $$F: \Omega \to \mathbb{R} $$ उत्तल सेट पर परिभाषित एक सतत-भिन्न, सख्ती से उत्तल कार्य बनें $$\Omega$$.

बिंदुओं के लिए F से जुड़ी Bregman दूरी $$p, q \in \Omega$$ बिंदु p पर F के मान और बिंदु p पर मूल्यांकन किए गए बिंदु q के चारों ओर F के पहले क्रम के टेलर विस्तार के बीच का अंतर है:
 * $$D_F(p, q) = F(p)-F(q)-\langle \nabla F(q), p-q\rangle. $$

गुण

 * गैर-नकारात्मकता: $$D_F(p, q) \ge 0$$ सभी के लिए $$p$$, $$q$$. यह उत्तलता का परिणाम है $$F$$.
 * सकारात्मकता : कब $$F$$ सख्ती से उत्तल है, $$D_F(p, q) = 0$$ आईएफएफ $$p=q$$.
 * एफ़िन अंतर तक विशिष्टता: $$D_F = D_G$$ आईएफएफ $$F-G$$ एक affine कार्य है।
 * उत्तलता: $$D_F(p, q)$$ अपने पहले तर्क में उत्तल है, लेकिन जरूरी नहीं कि दूसरे तर्क में हो। अगर एफ सख्ती से उत्तल है, तो $$D_F(p, q)$$ अपने पहले तर्क में सख्ती से उत्तल है।
 * उदाहरण के लिए, f(x) = |x| लें, इसे 0 पर चिकना करें, फिर लें $$y = 1, x_1 = 0.1, x_2 = -0.9, x_3 = 0.9x_1 + 0.1x_2$$, तब $$D_f(y, x_3) \approx 1 > 0.9 D_f(y, x_1) + 0.1 D_f(y, x_2) \approx 0.2$$.
 * रैखिकता: यदि हम ब्रैगमैन दूरी को फ़ंक्शन 'एफ' पर एक ऑपरेटर के रूप में सोचते हैं, तो यह गैर-नकारात्मक गुणांक के संबंध में रैखिक है। दूसरे शब्दों में, के लिए $$F_1, F_2$$ सख्ती से उत्तल और अलग-अलग, और $$\lambda \ge 0$$,
 * $$D_{F_1 + \lambda F_2}(p, q) = D_{F_1}(p, q) + \lambda D_{F_2}(p, q)$$


 * द्वैत: यदि F सख्ती से उत्तल है, तो फलन F में उत्तल संयुग्म है $$F^*$$ जो सख्ती से उत्तल भी है और कुछ उत्तल सेट पर लगातार भिन्न होता है $$\Omega^*$$. ब्रेगमैन दूरी के संबंध में परिभाषित किया गया $$F^*$$ से द्वैत है $$D_F(p, q)$$ जैसा


 * $$D_{F^*}(p^*, q^*) = D_F(q, p)$$
 * यहाँ, $$p^* = \nabla F(p)$$ और $$q^* = \nabla F(q)$$ p और q के संगत द्वैत बिंदु हैं।

किसी के लिए $$p,q,z$$
 * मिनिमाइज़र के रूप में माध्य: ब्रेगमैन डाइवर्जेंस के बारे में एक महत्वपूर्ण परिणाम यह है कि, एक यादृच्छिक वेक्टर दिया गया है, माध्य वेक्टर यादृच्छिक वेक्टर से अपेक्षित ब्रेगमैन विचलन को कम करता है। यह परिणाम पाठ्यपुस्तक के परिणाम का सामान्यीकरण करता है कि एक सेट का मतलब सेट में तत्वों के लिए कुल चुकता त्रुटि को कम करता है। यह परिणाम सदिश मामले के लिए (बनर्जी और अन्य 2005) द्वारा सिद्ध किया गया था, और (फ्रिग्यिक और अन्य 2008) द्वारा कार्यों/वितरणों के मामले में विस्तारित किया गया था। यह परिणाम महत्वपूर्ण है क्योंकि यह विशेष रूप से बेयसियन अनुमान में एक यादृच्छिक सेट के प्रतिनिधि के रूप में एक माध्य का उपयोग करके उचित ठहराता है।
 * ब्रेगमैन बॉल्स बाउंडेड हैं, और एक्स बंद होने पर कॉम्पैक्ट हैं: ब्रैगमैन बॉल को त्रिज्या आर के साथ एक्स पर केंद्रित परिभाषित करें $$B_f(x, r):= \left\{y\in X: D_f(y, x)\leq r\right\}$$. कब $$X\subset \R^n$$ परिमित आयामी है, $$\forall x\in X$$, अगर $$x$$ के सापेक्ष आंतरिक भाग में है $$X$$, या अगर $$X$$ पर स्थानीय रूप से बंद है $$x$$ (अर्थात, एक बंद गेंद मौजूद है $$B(x, r)$$ पर केंद्रित है $$x$$, ऐसा है कि $$B(x,r) \cap X$$ बंद है), फिर $$B_f(x, r)$$ सभी के लिए बाध्य है $$r$$ . अगर $$X$$ बंद है तो $$B_f(x, r)$$ सभी के लिए सघन है $$r$$.
 * कोसाइन का नियम:
 * $$D_F(p, q) = D_F(p, z) + D_F(z, q) - (p - z)^T(\nabla F(q) - \nabla F(z))$$


 * समांतर चतुर्भुज कानून: किसी के लिए भी $$\theta, \theta_1, \theta_2$$,

$$B_{F}\left(\theta_{1}: \theta\right)+B_{F}\left(\theta_{2}: \theta\right)=B_{F}\left(\theta_{1}: \frac{\theta_{1}+\theta_{2}}{2}\right)+B_{F}\left(\theta_{2}: \frac{\theta_{1}+\theta_{2}}{2}\right)+2 B_{F}\left(\frac{\theta_{1}+\theta_{2}}{2}: \theta\right)$$* ब्रेगमैन प्रोजेक्शन: किसी के लिए भी $$W\subset \Omega$$, के ब्रेगमैन प्रोजेक्शन को परिभाषित करें $$q$$ पर $$W$$: $$P_W(q) = \text{argmin}_{\omega\in W} D_F(\omega, q)$$. तब
 * अगर $$W$$ उत्तल है, तो प्रक्षेपण अद्वितीय है यदि यह मौजूद है;
 * अगर $$W$$ बंद और उत्तल है, और $$\Omega\subset \R^n$$ परिमित-आयामी है, तो प्रक्षेपण मौजूद है और अद्वितीय है।
 * सामान्यीकृत पाइथागोरस प्रमेय: किसी के लिए $$v\in \Omega, a\in W $$,

$$D_F(a, v) \ge D_F(a, P_W(v)) + D_F(P_W(v), v).$$ यह एक समानता है अगर $$P_W(v)$$ के सापेक्ष आंतरिक भाग में है $$W$$.

विशेष रूप से, यह तब होता है जब $$W$$ एक एफ़िन सेट है।


 * त्रिभुज असमानता का अभाव: चूंकि ब्रैगमैन डाइवर्जेंस अनिवार्य रूप से वर्ग यूक्लिडियन दूरी का सामान्यीकरण है, इसलिए कोई त्रिभुज असमानता नहीं है। वास्तव में, $$D_F(z, x) - D_F(z, y) - D_F(y, x) = \langle\nabla f(y) - \nabla f(x), z-y\rangle$$, जो सकारात्मक या नकारात्मक हो सकता है।

प्रमाण

 * गैर-नकारात्मकता और सकारात्मकता: जेन्सेन की असमानता का उपयोग करें।
 * एफ़िन अंतर तक विशिष्टता: कुछ ठीक करें $$x\in \Omega$$, तो किसी और के लिए $$y\in \Omega$$, हमारे पास परिभाषा के अनुसार है$$F(y) - G(y) = F(x) - G(x) + \langle\nabla F(x) - \nabla G(x), y-x \rangle $$.
 * पहले तर्क में उत्तलता: परिभाषा के अनुसार, और F की उत्तलता का उपयोग करें। सख्त उत्तलता के लिए समान।
 * एफ में रैखिकता, कोसाइन का नियम, समांतर चतुर्भुज कानून: परिभाषा के अनुसार।
 * द्वैत: का चित्र 1 देखें।
 * ब्रेगमैन गेंदें बंधी हुई हैं, और एक्स बंद होने पर कॉम्पैक्ट हैं:

हल करना $$x\in X$$. एफ़िन ट्रांसफ़ॉर्मेशन चालू करें $$f$$, ताकि $$\nabla f(x) = 0$$.

कुछ लें $$\epsilon > 0$$, ऐसा है कि $$\partial B(x, \epsilon) \subset X$$. फिर के रेडियल-दिशात्मक व्युत्पन्न पर विचार करें $$f$$ यूक्लिडियन क्षेत्र पर $$\partial B(x, \epsilon)$$.

$$\langle\nabla f(y), (y-x)\rangle$$ सभी के लिए $$y\in \partial B(x, \epsilon)$$.

तब से $$\partial B(x, \epsilon)\subset \R^n$$ कॉम्पैक्ट है, यह न्यूनतम मूल्य प्राप्त करता है $$\delta$$ कुछ $$y_0\in \partial B(x, \epsilon)$$.

तब से $$f$$ सख्ती से उत्तल है, $$\delta > 0$$. तब $$B_f(x, r)\subset B(x, r/\delta)\cap X$$.

तब से $$D_f(y, x)$$ है $$C^1$$ में $$y$$, $$D_f$$ में निरंतर है $$y$$, इस प्रकार $$B_f(x, r)$$ बंद है अगर $$X$$ है।


 * प्रोजेक्शन $$P_W$$ अच्छी तरह से परिभाषित है जब $$W$$ बंद और उत्तल है।

हल करना $$v\in X$$. कुछ लें $$w\in W$$, तो करने दें $$r := D_f(w, v)$$. फिर ब्रेगमैन बॉल ड्रा करें $$B_f(v, r)\cap W$$. यह बंद और घिरा हुआ है, इस प्रकार कॉम्पैक्ट है। तब से $$D_f(\cdot, v)$$ उस पर निरंतर और सख्ती से उत्तल है, और नीचे से घिरा हुआ है $$0$$, यह उस पर एक अद्वितीय न्यूनतम प्राप्त करता है।


 * पायथागॉरियन असमानता।

कोज्या नियम द्वारा, $$D_f(w, v) - D(w, P_W(v)) - D_f(P_W(v), v) = \langle \nabla_y D_f(y, v)|_{y = P_W(v)}, w - P_W(v)\rangle$$, जो होना चाहिए $$\geq 0$$, तब से $$P_W(v)$$ कम करता है $$D_f(\cdot, v)$$ में $$X$$, और $$X$$ उत्तल है।


 * पायथागॉरियन समानता जब $$P_W(v)$$ के सापेक्ष आंतरिक भाग में है $$X$$.

अगर $$\langle \nabla_y D_f(y, v)|_{y = P_W(v)}, w - P_W(v)\rangle > 0$$, तब से $$w$$ सापेक्ष इंटीरियर में है, हम इससे आगे बढ़ सकते हैं $$P_W(v)$$ के विपरीत दिशा में $$w$$, कम करने के लिए $$D_f(y, v)$$, विरोधाभास।

इस प्रकार $$\langle \nabla_y D_f(y, v)|_{y = P_W(v)}, w - P_W(v)\rangle = 0$$.

वर्गीकरण प्रमेय
$$
 * एकमात्र सममित ब्रैगमैन डायवर्जेंस पर $$X\subset \R^n$$ सामान्यीकृत यूक्लिडियन दूरी (महालनोबिस दूरी) का वर्ग है, अर्थात, $$D_f(y, x) = (y-x)^T A (y-x)$$ कुछ सकारात्मक निश्चितता के लिए $$A$$.

निम्नलिखित दो लक्षण वर्णन विचलन के लिए हैं $$\Gamma_n$$, पर सभी संभाव्यता उपायों का सेट $$\{1, 2, ..., n\}$$, साथ $$n \geq 2$$.

विचलन को परिभाषित कीजिए $$\Gamma_n$$ प्रकार के किसी भी कार्य के रूप में $$D: \Gamma_n \times \Gamma_n \to [0, \infty]$$, ऐसा है कि $$D(x, x) = 0$$ सभी के लिए $$x\in\Gamma_n$$, तब:
 * केवल अंतर है $$\Gamma_n$$ वह दोनों एक ब्रैगमैन डाइवर्जेंस और एक च-विचलन  कुल्बैक-लीब्लर डाइवर्जेंस है।
 * अगर $$n \geq 3$$, फिर किसी भी ब्रैगमैन विचलन पर $$\Gamma_n$$ जो डेटा प्रोसेसिंग असमानता को संतुष्ट करता है वह कुल्बैक-लीब्लर विचलन होना चाहिए। (वास्तव में, पर्याप्तता की एक कमजोर धारणा ही काफी है।) प्रतिउदाहरण तब मौजूद होते हैं जब $$n = 2$$. एक ब्रेगमैन विचलन दिया $$D_F$$, इसके विपरीत, द्वारा परिभाषित $$D_F^*(v, w) = D_F(w, v)$$, आम तौर पर ब्रैगमैन डाइवर्जेंस नहीं है। उदाहरण के लिए, कुल्बैक-लीबर विचलन एक ब्रैगमैन विचलन और एक एफ-विचलन दोनों है। इसका उल्टा भी एक एफ-डाइवर्जेंस है, लेकिन उपरोक्त लक्षण वर्णन से, रिवर्स केएल डाइवर्जेंस ब्रैगमैन डाइवर्जेंस नहीं हो सकता है।

उदाहरण

 * चुकता यूक्लिडियन दूरी $$D_F(x,y) = \|x - y\|^2$$ उत्तल कार्य द्वारा उत्पन्न ब्रैगमैन दूरी का विहित उदाहरण है $$F(x) = \|x\|^2$$
 * वर्ग महलानोबिस दूरी, $$D_F(x,y)=\tfrac{1}{2}(x-y)^T Q (x-y)$$ जो उत्तल कार्य द्वारा उत्पन्न होता है $$F(x) = \tfrac{1}{2} x^T Q x$$. इसे उपरोक्त वर्गित यूक्लिडियन दूरी के सामान्यीकरण के रूप में माना जा सकता है।
 * सामान्यीकृत कुल्बैक-लीब्लर विचलन
 * $$D_F(p, q) = \sum_i p(i) \log \frac{p(i)}{q(i)} - \sum p(i) + \sum q(i)$$ : नकारात्मक एन्ट्रापी (सूचना सिद्धांत) फ़ंक्शन द्वारा उत्पन्न होता है
 * $$F(p) = \sum_i p(i)\log p(i)$$
 * सिंप्लेक्स तक सीमित होने पर, यह देता है $$D_F(p, q) = \sum_i p(i) \log \frac{p(i)}{q(i)}$$, सामान्य कुलबैक-लीब्लर विचलन।


 * इटाकुरा-साइतो दूरी,
 * $$D_F(p, q) = \sum_i \left(\frac {p(i)}{q(i)} - \log \frac{p(i)}{q(i)} - 1 \right)$$
 * उत्तल कार्य द्वारा उत्पन्न होता है
 * $$F(p) = - \sum_i \log p(i)$$

प्रक्षेप्य द्वैत का सामान्यीकरण
कम्प्यूटेशनल ज्यामिति में एक महत्वपूर्ण उपकरण प्रोजेक्टिव द्वैत का विचार है, जो घटना और ऊपर-नीचे के रिश्तों को संरक्षित करते हुए हाइपरप्लेन और इसके विपरीत मैप करता है। प्रक्षेपी द्वैत के कई विश्लेषणात्मक रूप हैं: एक सामान्य रूप बिंदु को मैप करता है $$p = (p_1, \ldots p_d)$$ हाइपरप्लेन के लिए $$x_{d+1} = \sum_1^d 2p_i x_i$$. इस मानचित्रण की व्याख्या की जा सकती है (हाइपरप्लेन को उसके सामान्य से पहचानना) उत्तल संयुग्म मानचित्रण के रूप में जो बिंदु p को उसके दोहरे बिंदु पर ले जाता है $$p^* = \nabla F(p)$$, जहां एफ डी-डायमेंशनल पैराबोलॉइड को परिभाषित करता है $$x_{d+1} = \sum x_i^2$$.

यदि हम अब पैराबोलॉइड को मनमाना उत्तल फ़ंक्शन द्वारा प्रतिस्थापित करते हैं, तो हम एक अलग दोहरी मैपिंग प्राप्त करते हैं जो मानक प्रोजेक्टिव दोहरी की घटनाओं और ऊपर-नीचे गुणों को बरकरार रखता है। इसका तात्पर्य है कि कम्प्यूटेशनल ज्यामिति में प्राकृतिक दोहरी अवधारणाएं जैसे वोरोनोई आरेख  और डेलाउने त्रिकोण एक मनमाना ब्रेगमैन डाइवर्जेंस द्वारा परिभाषित दूरी के स्थानों में अपना अर्थ बनाए रखते हैं। इस प्रकार, सामान्य ज्यामिति से एल्गोरिदम सीधे इन स्थानों तक विस्तारित होते हैं (बोइसोनेट, नीलसन और नॉक, 2010)

ब्रैगमैन डायवर्जेंस का सामान्यीकरण
ब्रेगमैन डायवर्जेंस की व्याख्या तिरछी जेन्सेन-शैनन डाइवर्जेंस के सीमित मामलों के रूप में की जा सकती है (नीलसन और बोल्ट्ज, 2011 देखें)। जेन्सेन डाइवर्जेंस को तुलनात्मक उत्तलता का उपयोग करके सामान्यीकृत किया जा सकता है, और इन तिरछे जेन्सेन डाइवर्जेंस सामान्यीकरण के मामलों को सीमित करने से सामान्यीकृत ब्रेगमैन डाइवर्जेंस प्राप्त होता है (नीलसन और नॉक, 2017 देखें)। ब्रैगमैन तार विचलन एक स्पर्शरेखा के बजाय एक जीवा लेकर प्राप्त किया जाता है।

अन्य वस्तुओं पर ब्रैगमैन विचलन
ब्रैगमैन डायवर्जेंस को मेट्रिसेस के बीच, कार्यों के बीच और उपायों (वितरण) के बीच भी परिभाषित किया जा सकता है। मेट्रिसेस के बीच ब्रेगमैन डाइवर्जेंस में स्टीन की हानि और वॉन न्यूमैन एन्ट्रॉपी शामिल हैं। कार्यों के बीच ब्रैगमैन डाइवर्जेंस में कुल वर्ग त्रुटि, सापेक्ष एन्ट्रापी और वर्ग पूर्वाग्रह शामिल हैं; फ्रिग्यिक एट अल द्वारा संदर्भ देखें। परिभाषाओं और गुणों के लिए नीचे। इसी तरह ब्रैगमैन डायवर्जेंस को भी सेट पर परिभाषित किया गया है, एक सबमॉड्यूलर सेट फ़ंक्शन के माध्यम से जिसे उत्तल फ़ंक्शन के असतत एनालॉग के रूप में जाना जाता है। सबमॉड्यूलर ब्रेगमैन डायवर्जेंस में हैमिंग दूरी, सटीक और रिकॉल, पारस्परिक जानकारी और कुछ अन्य सेट आधारित दूरी उपायों (अय्यर एंड बिलम्स, 2012 देखें) जैसे कई असतत दूरी के उपाय शामिल हैं।

सामान्य मैट्रिक्स ब्रैगमैन डाइवर्जेंस की सूची के लिए, तालिका 15.1 देखें।

अनुप्रयोग
मशीन लर्निंग में, ब्रेगमैन डायवर्जेंस का उपयोग द्वि-टेम्पर्ड लॉजिस्टिक लॉस की गणना के लिए किया जाता है, जो शोर डेटासेट के साथ सॉफ्टमैक्स फ़ंक्शन से बेहतर प्रदर्शन करता है। ब्रैगमैन डाइवर्जेंस का उपयोग दर्पण उतरना  के निर्माण में किया जाता है, जिसमें मशीन लर्निंग में उपयोग किए जाने वाले ऑप्टिमाइज़ेशन एल्गोरिदम जैसे कि  ढतला हुआ वंश  और  बचाव एल्गोरिथ्म  शामिल हैं।