ब्रेगमैन विचलन

गणित में, विशेष रूप से सांख्यिकी और सूचना ज्यामिति, ब्रैगमैन डाइवर्जेंस या ब्रैगमैन दूरी दो बिंदुओं के बीच के अंतर का एक उपाय है, जिसे सख्ती से उत्तल कार्य के संदर्भ में परिभाषित किया गया है; वे डायवर्जेंस (सांख्यिकी) का महत्वपूर्ण वर्ग बनाते हैं। जब बिंदुओं की व्याख्या संभाव्यता वितरण के रूप में की जाती है - विशेष रूप से या तो पैरामीट्रिक मॉडल के पैरामीटर के मान के रूप में या देखे गए मानों के डेटा समुच्चय के रूप में - परिणामी दूरी सांख्यिकीय दूरी होती है। सबसे बुनियादी ब्रैगमैन डाइवर्जेंस वर्ग यूक्लिडियन दूरी है।

ब्रेगमैन डायवर्जेंस मीट्रिक (गणित) के समान हैं, लेकिन न तो त्रिकोण असमानता (कभी) और न ही समरूपता (सामान्य रूप से) को संतुष्ट करते हैं। चूंकि, वे पायथागॉरियन प्रमेय के सामान्यीकरण को संतुष्ट करते हैं, और सूचना ज्यामिति में संबंधित सांख्यिकीय बहुरूपता (दोहरी) फ्लैट बहुरूपता के रूप में व्याख्या की जाती है। यह अनुकूलन सिद्धांत की कई तकनीकों को ब्रैगमैन डायवर्जेंस के लिए सामान्यीकृत करने की अनुमति देता है, ज्यामितीय रूप से कम से कम वर्गों के सामान्यीकरण के रूप में।

ब्रेगमैन डाइवर्जेंस का नाम रूसी गणितज्ञ लेव एम. ब्रेगमैन के नाम पर रखा गया है, जिन्होंने 1967 में इस अवधारणा को प्रस्तुत किया था।

परिभाषा
मान लीजिये $$F: \Omega \to \mathbb{R} $$ को उत्तल समुच्चय $$\Omega$$ पर परिभाषित एक निरंतर-भिन्न, सख्ती से उत्तल फ़ंक्शन है।

बिंदु $$p, q \in \Omega$$ के लिए F से जुड़ी ब्रैगमैन दूरी, बिंदु p पर F के मान और बिंदु p पर मूल्यांकन किए गए बिंदु q के आसपास F के प्रथम-क्रम टेलर विस्तार के मूल्य के बीच का अंतर है:
 * $$D_F(p, q) = F(p)-F(q)-\langle \nabla F(q), p-q\rangle. $$

गुण

 * गैर-नकारात्मकता: $$D_F(p, q) \ge 0$$ सभी $$p$$,$$q$$ के लिए यह $$F$$ की उत्तलता का परिणाम है।
 * सकारात्मकता: जब $$F$$ सख्ती से उत्तल होता है, तो $$D_F(p, q) = 0$$ यदि $$p=q$$ है।
 * एफ़िन अंतर तक विशिष्टता: $$D_F = D_G$$ यदि $$F-G$$ एक एफ़िन फ़ंक्शन है।
 * उत्तलता: $$D_F(p, q)$$ अपने पहले तर्क में उत्तल है, लेकिन आवश्यक नहीं कि दूसरे तर्क में हो यदि $$F$$ सख्ती से उत्तल है, तो $$D_F(p, q)$$ अपने पहले तर्क में सख्ती से उत्तल है।
 * उदाहरण के लिए, f(x) = |x| मान लें, इसे 0 पर समतल करें, फिर मान लें $$y = 1, x_1 = 0.1, x_2 = -0.9, x_3 = 0.9x_1 + 0.1x_2$$, जब $$D_f(y, x_3) \approx 1 > 0.9 D_f(y, x_1) + 0.1 D_f(y, x_2) \approx 0.2$$ होता है।
 * रैखिकता: यदि हम ब्रैगमैन दूरी को फ़ंक्शन $$F$$ पर एक ऑपरेटर के रूप में सोचते हैं, तो यह गैर-नकारात्मक गुणांक के संबंध में रैखिक है। दूसरे शब्दों में, $$F_1, F_2$$ के लिए सख्ती से उत्तल और अवकलनीय, और $$\lambda \ge 0$$,
 * $$D_{F_1 + \lambda F_2}(p, q) = D_{F_1}(p, q) + \lambda D_{F_2}(p, q)$$


 * द्वैत: यदि F सख्ती से उत्तल है, तो फ़ंक्शन F में एक उत्तल संयुग्म $$F^*$$ है जो सख्ती से उत्तल भी है और कुछ उत्तल समुच्चय $$\Omega^*$$ पर लगातार भिन्न होता है। $$F^*$$ के संबंध में परिभाषित ब्रैगमैन दूरी $$D_F(p, q)$$ के रूप में द्वैत है, जैसे$$D_{F^*}(p^*, q^*) = D_F(q, p)$$


 * यहाँ, $$p^* = \nabla F(p)$$ और $$q^* = \nabla F(q)$$ p और q के अनुरूप दोहरे बिंदु हैं।

किसी भी $$p,q,z$$ के लिए
 * मिनिमाइज़र के रूप में माध्य: ब्रेगमैन डाइवर्जेंस के बारे में महत्वपूर्ण परिणाम यह है कि, यादृच्छिक सदिश दिया गया है, माध्य सदिश यादृच्छिक सदिश से अपेक्षित ब्रेगमैन विचलन को कम करता है। यह परिणाम पाठ्यपुस्तक के परिणाम का सामान्यीकरण करता है कि समुच्चय का मतलब समुच्चय में तत्वों के लिए कुल चुकता त्रुटि को कम करता है। यह परिणाम सदिश स्थितियों के लिए (बनर्जी और अन्य 2005) द्वारा सिद्ध किया गया था, और (फ्रिग्यिक और अन्य 2008) द्वारा कार्यों/वितरणों के स्थितियों में विस्तारित किया गया था। यह परिणाम महत्वपूर्ण है क्योंकि यह विशेष रूप से बेयसियन अनुमान में यादृच्छिक समुच्चय के प्रतिनिधि के रूप में माध्य का उपयोग करके उचित ठहराता है।
 * ब्रेगमैन बॉल्स बाउंडेड हैं, और $$X$$ संवृत होने पर संहत हैं: ब्रैगमैन बॉल को त्रिज्या $$R$$ के साथ $$X$$ पर केंद्रित परिभाषित करें $$B_f(x, r):= \left\{y\in X: D_f(y, x)\leq r\right\}$$, जब $$X\subset \R^n$$ परिमित आयामी होता है, $$\forall x\in X$$, यदि $$x$$ के सापेक्ष आंतरिक भाग में $$X$$ है, या यदि $$X$$ पर स्थानीय रूप से संवृत है $$x$$ (अर्थात, संवृत गेंद उपलब्ध है $$B(x, r)$$ पर केंद्रित है $$x$$, ऐसा है कि $$B(x,r) \cap X$$ संवृत है), फिर $$B_f(x, r)$$ सभी के लिए बाध्य है $$r$$ . यदि $$X$$ संवृत है तो $$B_f(x, r)$$ सभी के लिए सघन $$r$$ है।
 * कोसाइन का नियम:
 * $$D_F(p, q) = D_F(p, z) + D_F(z, q) - (p - z)^T(\nabla F(q) - \nabla F(z))$$


 * समांतर चतुर्भुज नियम: किसी भी $$\theta, \theta_1, \theta_2$$ के लिए,

$$B_{F}\left(\theta_{1}: \theta\right)+B_{F}\left(\theta_{2}: \theta\right)=B_{F}\left(\theta_{1}: \frac{\theta_{1}+\theta_{2}}{2}\right)+B_{F}\left(\theta_{2}: \frac{\theta_{1}+\theta_{2}}{2}\right)+2 B_{F}\left(\frac{\theta_{1}+\theta_{2}}{2}: \theta\right)$$* ब्रेगमैन प्रोजेक्शन: किसी के लिए भी $$W\subset \Omega$$, के ब्रेगमैन प्रोजेक्शन को परिभाषित करें $$q$$ पर $$W$$: $$P_W(q) = \text{argmin}_{\omega\in W} D_F(\omega, q)$$
 * यदि $$W$$ उत्तल है, तो प्रक्षेपण अद्वितीय है यदि यह उपलब्ध है;
 * यदि $$W$$ संवृत और उत्तल है, और $$\Omega\subset \R^n$$ परिमित-आयामी है, तो प्रक्षेपण उपलब्ध है और अद्वितीय है।
 * सामान्यीकृत पाइथागोरस प्रमेय: किसी के लिए $$v\in \Omega, a\in W $$,

$$D_F(a, v) \ge D_F(a, P_W(v)) + D_F(P_W(v), v).$$

यह समानता है यदि $$P_W(v)$$ के सापेक्ष आंतरिक भाग में $$W$$ है।

विशेष रूप से, यह तब होता है जब $$W$$ एफ़िन समुच्चय है।


 * त्रिभुज असमानता का अभाव: चूंकि ब्रैगमैन डाइवर्जेंस अनिवार्य रूप से वर्ग यूक्लिडियन दूरी का सामान्यीकरण है, इसलिए कोई त्रिभुज असमानता नहीं है। वास्तव में, $$D_F(z, x) - D_F(z, y) - D_F(y, x) = \langle\nabla f(y) - \nabla f(x), z-y\rangle$$, जो सकारात्मक या नकारात्मक हो सकता है।

प्रमाण

 * गैर-नकारात्मकता और सकारात्मकता: जेन्सेन की असमानता का उपयोग करें।
 * एफ़िन अंतर तक विशिष्टता: कुछ ठीक करें $$x\in \Omega$$, तो किसी और के लिए $$y\in \Omega$$, हमारे पास परिभाषा के अनुसार है$$F(y) - G(y) = F(x) - G(x) + \langle\nabla F(x) - \nabla G(x), y-x \rangle $$.
 * पहले तर्क में उत्तलता: परिभाषा के अनुसार, और F की उत्तलता का उपयोग करें। सख्त उत्तलता के लिए समान।
 * एफ में रैखिकता, कोसाइन का नियम, समांतर चतुर्भुज नियम: परिभाषा के अनुसार।
 * द्वैत: का चित्र 1 देखें।
 * ब्रेगमैन गेंदें बंधी हुई हैं, और एक्स संवृत होने पर संहत हैं:

हल करना $$x\in X$$. एफ़िन ट्रांसफ़ॉर्मेशन चालू करें $$f$$, जिससे की $$\nabla f(x) = 0$$.

कुछ लें $$\epsilon > 0$$, ऐसा है कि $$\partial B(x, \epsilon) \subset X$$. फिर के रेडियल-दिशात्मक व्युत्पन्न पर विचार करें $$f$$ यूक्लिडियन क्षेत्र पर $$\partial B(x, \epsilon)$$.

$$\langle\nabla f(y), (y-x)\rangle$$ सभी के लिए $$y\in \partial B(x, \epsilon)$$.

तब से $$\partial B(x, \epsilon)\subset \R^n$$ संहत है, यह न्यूनतम मूल्य प्राप्त करता है $$\delta$$ कुछ $$y_0\in \partial B(x, \epsilon)$$.

तब से $$f$$ सख्ती से उत्तल है, $$\delta > 0$$. तब $$B_f(x, r)\subset B(x, r/\delta)\cap X$$.

तब से $$D_f(y, x)$$ है $$C^1$$ में $$y$$, $$D_f$$ में निरंतर है $$y$$, इस प्रकार $$B_f(x, r)$$ संवृत है यदि $$X$$ है।


 * प्रोजेक्शन $$P_W$$ अच्छी प्रकार से परिभाषित है जब $$W$$ संवृत और उत्तल है।

हल करना $$v\in X$$. कुछ लें $$w\in W$$, तो करने दें $$r := D_f(w, v)$$. फिर ब्रेगमैन बॉल ड्रा करें $$B_f(v, r)\cap W$$. यह संवृत और घिरा हुआ है, इस प्रकार संहत है। तब से $$D_f(\cdot, v)$$ उस पर निरंतर और सख्ती से उत्तल है, और नीचे से घिरा हुआ है $$0$$, यह उस पर अद्वितीय न्यूनतम प्राप्त करता है।


 * पायथागॉरियन असमानता।

कोज्या नियम द्वारा, $$D_f(w, v) - D(w, P_W(v)) - D_f(P_W(v), v) = \langle \nabla_y D_f(y, v)|_{y = P_W(v)}, w - P_W(v)\rangle$$, जो होना चाहिए $$\geq 0$$, तब से $$P_W(v)$$ कम करता है $$D_f(\cdot, v)$$ में $$X$$, और $$X$$ उत्तल है।


 * पायथागॉरियन समानता जब $$P_W(v)$$ के सापेक्ष आंतरिक भाग में है $$X$$.

यदि $$\langle \nabla_y D_f(y, v)|_{y = P_W(v)}, w - P_W(v)\rangle > 0$$, तब से $$w$$ सापेक्ष इंटीरियर में है, हम इससे आगे बढ़ सकते हैं $$P_W(v)$$ के विपरीत दिशा में $$w$$, कम करने के लिए $$D_f(y, v)$$, विरोधाभास।

इस प्रकार $$\langle \nabla_y D_f(y, v)|_{y = P_W(v)}, w - P_W(v)\rangle = 0$$.

वर्गीकरण प्रमेय
$$
 * एकमात्र सममित ब्रैगमैन डायवर्जेंस पर $$X\subset \R^n$$ सामान्यीकृत यूक्लिडियन दूरी (महालनोबिस दूरी) का वर्ग है, अर्थात, $$D_f(y, x) = (y-x)^T A (y-x)$$ कुछ सकारात्मक निश्चितता के लिए $$A$$.

निम्नलिखित दो लक्षण वर्णन विचलन के लिए हैं $$\Gamma_n$$, पर सभी संभाव्यता माध्यमों का समुच्चय $$\{1, 2, ..., n\}$$, साथ $$n \geq 2$$.

विचलन को परिभाषित कीजिए $$\Gamma_n$$ प्रकार के किसी भी कार्य के रूप में $$D: \Gamma_n \times \Gamma_n \to [0, \infty]$$, ऐसा है कि $$D(x, x) = 0$$ सभी के लिए $$x\in\Gamma_n$$, तब:
 * मात्र एक अंतर है $$\Gamma_n$$ वह दोनों ब्रैगमैन डाइवर्जेंस और च-विचलन  कुल्बैक-लीब्लर डाइवर्जेंस है।
 * यदि $$n \geq 3$$, फिर किसी भी ब्रैगमैन विचलन पर $$\Gamma_n$$ जो डेटा प्रोसेसिंग असमानता को संतुष्ट करता है वह कुल्बैक-लीब्लर विचलन होना चाहिए वास्तव में, पर्याप्तता की कमजोर धारणा ही पर्याप्त है। प्रतिउदाहरण तब उपलब्ध होते हैं जब $$n = 2$$. एक ब्रेगमैन विचलन दिया $$D_F$$, इसके विपरीत, द्वारा परिभाषित $$D_F^*(v, w) = D_F(w, v)$$, सामान्यतः ब्रैगमैन डाइवर्जेंस नहीं है। उदाहरण के लिए, कुल्बैक-लीबर विचलन ब्रैगमैन विचलन और एफ-विचलन दोनों है। इसका उत्क्रम भी एफ-डाइवर्जेंस है, लेकिन उपरोक्त लक्षण वर्णन से, रिवर्स केएल डाइवर्जेंस ब्रैगमैन डाइवर्जेंस नहीं हो सकता है।

उदाहरण

 * चुकता यूक्लिडियन दूरी $$D_F(x,y) = \|x - y\|^2$$ उत्तल कार्य द्वारा उत्पन्न ब्रैगमैन दूरी का विहित उदाहरण है $$F(x) = \|x\|^2$$
 * वर्ग महलानोबिस दूरी, $$D_F(x,y)=\tfrac{1}{2}(x-y)^T Q (x-y)$$ जो उत्तल कार्य द्वारा उत्पन्न होता है $$F(x) = \tfrac{1}{2} x^T Q x$$. इसे उपरोक्त वर्गित यूक्लिडियन दूरी के सामान्यीकरण के रूप में माना जा सकता है।
 * सामान्यीकृत कुल्बैक-लीब्लर विचलन
 * $$D_F(p, q) = \sum_i p(i) \log \frac{p(i)}{q(i)} - \sum p(i) + \sum q(i)$$ : नकारात्मक एन्ट्रापी (सूचना सिद्धांत) फ़ंक्शन द्वारा उत्पन्न होता है
 * $$F(p) = \sum_i p(i)\log p(i)$$
 * सिंप्लेक्स तक सीमित होने पर, यह देता है $$D_F(p, q) = \sum_i p(i) \log \frac{p(i)}{q(i)}$$, सामान्य कुलबैक-लीब्लर विचलन।


 * इटाकुरा-साइतो दूरी,
 * $$D_F(p, q) = \sum_i \left(\frac {p(i)}{q(i)} - \log \frac{p(i)}{q(i)} - 1 \right)$$
 * उत्तल कार्य द्वारा उत्पन्न होता है
 * $$F(p) = - \sum_i \log p(i)$$

प्रक्षेप्य द्वैत का सामान्यीकरण
कम्प्यूटेशनल ज्यामिति में महत्वपूर्ण उपकरण प्रोजेक्टिव द्वैत का विचार है, जो घटना और ऊपर-नीचे के रिश्तों को संरक्षित करते हुए हाइपरप्लेन और इसके विपरीत मैप करता है। प्रक्षेपी द्वैत के कई विश्लेषणात्मक रूप हैं: सामान्य रूप बिंदु को मैप करता है $$p = (p_1, \ldots p_d)$$ हाइपरप्लेन के लिए $$x_{d+1} = \sum_1^d 2p_i x_i$$. इस मानचित्रण की व्याख्या की जा सकती है (हाइपरप्लेन को उसके सामान्य से पहचानना) उत्तल संयुग्म मानचित्रण के रूप में जो बिंदु p को उसके दोहरे बिंदु पर ले जाता है $$p^* = \nabla F(p)$$, जहां एफ डी-डायमेंशनल पैराबोलॉइड को परिभाषित करता है $$x_{d+1} = \sum x_i^2$$.

यदि हम अब पैराबोलॉइड को मनमाना उत्तल फ़ंक्शन द्वारा प्रतिस्थापित करते हैं, तो हम भिन्न दोहरी मैपिंग प्राप्त करते हैं जो मानक प्रोजेक्टिव दोहरी की घटनाओं और ऊपर-नीचे गुणों को निरंतर रखता है। इसका तात्पर्य है कि कम्प्यूटेशनल ज्यामिति में प्राकृतिक दोहरी अवधारणाएं जैसे  वोरोनोई आरेख  और डेलाउने त्रिकोण मनमाना ब्रेगमैन डाइवर्जेंस द्वारा परिभाषित दूरी के स्थानों में अपना अर्थ बनाए रखते हैं। इस प्रकार, सामान्य ज्यामिति से एल्गोरिदम सीधे इन स्थानों तक विस्तारित होते हैं (बोइसोनेट, नीलसन और नॉक, 2010)

ब्रैगमैन डायवर्जेंस का सामान्यीकरण
ब्रेगमैन डायवर्जेंस की व्याख्या तिरछी जेन्सेन-शैनन डाइवर्जेंस के सीमित स्थितियों के रूप में की जा सकती है (नीलसन और बोल्ट्ज, 2011 देखें)। जेन्सेन डाइवर्जेंस को तुलनात्मक उत्तलता का उपयोग करके सामान्यीकृत किया जा सकता है, और इन तिरछे जेन्सेन डाइवर्जेंस सामान्यीकरण के स्थितियों को सीमित करने से सामान्यीकृत ब्रेगमैन डाइवर्जेंस प्राप्त होता है (नीलसन और नॉक, 2017 देखें)। ब्रैगमैन तार विचलन स्पर्शरेखा के अतिरिक्त जीवा लेकर प्राप्त किया जाता है।

अन्य वस्तुओं पर ब्रैगमैन विचलन
ब्रैगमैन डायवर्जेंस को मेट्रिसेस के बीच, कार्यों के बीच और माध्यमों (वितरण) के बीच भी परिभाषित किया जा सकता है। मेट्रिसेस के बीच ब्रेगमैन डाइवर्जेंस में स्टीन की हानि और वॉन न्यूमैन एन्ट्रॉपी सम्मलित हैं। कार्यों के बीच ब्रैगमैन डाइवर्जेंस में कुल वर्ग त्रुटि, सापेक्ष एन्ट्रापी और वर्ग पूर्वाग्रह सम्मलित हैं; फ्रिग्यिक एट अल द्वारा संदर्भ देखें। परिभाषाओं और गुणों के लिए नीचे। इसी प्रकार ब्रैगमैन डायवर्जेंस को भी समुच्चय पर परिभाषित किया गया है, सबमॉड्यूलर समुच्चय फ़ंक्शन के माध्यम से जिसे उत्तल फ़ंक्शन के असतत एनालॉग के रूप में जाना जाता है। सबमॉड्यूलर ब्रेगमैन डायवर्जेंस में हैमिंग दूरी, उपयुक्त और रिकॉल, पारस्परिक जानकारी और कुछ अन्य समुच्चय आधारित दूरी माध्यमों (अय्यर एंड बिलम्स, 2012 देखें) जैसे कई असतत दूरी के उपाय सम्मलित हैं।

सामान्य मैट्रिक्स ब्रैगमैन डाइवर्जेंस की सूची के लिए, तालिका 15.1 देखें।

अनुप्रयोग
मशीन लर्निंग में, ब्रेगमैन डायवर्जेंस का उपयोग द्वि-टेम्पर्ड लॉजिस्टिक लॉस की गणना के लिए किया जाता है, जो शोर डेटासमुच्चय के साथ सॉफ्टमैक्स फ़ंक्शन से उत्तम प्रदर्शन करता है।

ब्रैगमैन डाइवर्जेंस का उपयोग दर्पण उतरना के निर्माण में किया जाता है, जिसमें मशीन लर्निंग में उपयोग किए जाने वाले ऑप्टिमाइज़ेशन एल्गोरिदम जैसे कि ढतला हुआ वंश और बचाव एल्गोरिथ्म सम्मलित हैं।