क्रॉस एन्ट्रापी

सूचना सिद्धांत में, दो संभाव्यता वितरणों के मध्य तिर्यक्-एन्ट्रॉपी $$p$$ और $$q$$ यदि समुच्चय के लिए उपयोग की जाने वाली कोडिंग योजना अनुमानित संभाव्यता वितरण के लिए अनुकूलित है, तो घटनाओं के समान अंतर्निहित समुच्चय पर समुच्चय से खींची गई घटना की पहचान करने के लिए आवश्यक  अंश ्स की औसत संख्या को मापता है। $$q$$, वास्तविक वितरण के बजाय $$p$$.

परिभाषा
वितरण की तिर्यक्-एन्ट्रॉपी $$q$$ वितरण के सापेक्ष $$p$$ किसी दिए गए समुच्चय को इस प्रकार परिभाषित किया गया है:


 * $$H(p, q) = -\operatorname{E}_p[\log q]$$,

जहाँ $$E_p[\cdot]$$ वितरण के संबंध में अपेक्षित मान ऑपरेटर है $$p$$.

परिभाषा कुल्बैक-लीब्लर विचलन का उपयोग करके तैयार की जा सकती है $$D_{\mathrm{KL}}(p \parallel q)$$, का विचलन $$p$$ से $$q$$ (की सापेक्ष एन्ट्रापी के रूप में भी जाना जाता है $$p$$ इसके संबंध में $$q$$).


 * $$H(p, q) = H(p) + D_{\mathrm{KL}}(p \parallel q),$$

जहाँ $$H(p)$$ की सूचना एन्ट्रापी है $$p$$.

असतत यादृच्छिक चर संभाव्यता वितरण के लिए $$p$$ और $$q$$ उसी समर्थन के साथ (माप सिद्धांत) $$\mathcal{X}$$ इसका अर्थ यह है

निरंतर यादृच्छिक चर वितरण की स्थिति अनुरूप है। हमें यह मानना ​​होगा $$p$$ और $$q$$ कुछ संदर्भ माप (गणित) के संबंध में बिल्कुल निरंतर हैं $$r$$ (सामान्यतः $$r$$ बोरेल समुच्चय सिग्मा-बीजगणित|σ-बीजगणित) पर एक लेब्सेग माप है। मान लीजिए कि $$P$$ और $$Q$$ की संभाव्यता घनत्व फलन हो $$p$$ और $$q$$ इसके संबंध में $$r$$. तब


 * $$-\int_\mathcal{X} P(x)\, \log Q(x)\, dr(x) = \operatorname{E}_p[-\log Q]$$

और इसलिए

एनबी: संकेतन $$H(p,q)$$ का उपयोग एक अलग अवधारणा, संयुक्त एन्ट्रापी के लिए भी किया जाता है $$p$$ और $$q$$.

प्रेरणा
सूचना सिद्धांत में, क्राफ्ट की असमानता | क्राफ्ट-मैकमिलन प्रमेय स्थापित करता है कि एक मान की पहचान करने के लिए किसी संदेश को कोड करने के लिए कोई भी सीधे डिकोड करने योग्य कोडिंग योजना $$x_i$$ संभावनाओं के एक समुच्चय से बाहर $$\{x_1,\ldots,x_n\}$$ इसे एक अंतर्निहित संभाव्यता वितरण का प्रतिनिधित्व करने के रूप में देखा जा सकता है $$q(x_i) = \left(\frac{1}{2}\right)^{\ell_i}$$ ऊपर $$\{x_1, \ldots, x_n\}$$, जहाँ $$\ell_i$$ के लिए कोड की लंबाई है $$x_i$$ टुकड़ों में. इसलिए, गलत वितरण होने पर तिर्यक्-एन्ट्रॉपी की व्याख्या प्रति प्रदत्त अपेक्षित संदेश-लंबाई के रूप में की जा सकती है $$q$$ मान लिया गया है जबकि प्रदत्त वास्तव में एक वितरण का अनुसरण करता है $$p$$. इसीलिए अपेक्षा को वास्तविक संभाव्यता वितरण पर ले लिया जाता है $$p$$ और नहीं $$q$$. वास्तव में वास्तविक वितरण के अंतर्गत अपेक्षित संदेश-लंबाई $$p$$ है


 * $$ \operatorname{E}_p[\ell] = - \operatorname{E}_p\left[\frac{\ln{q(x)}}{\ln(2)}\right] = - \operatorname{E}_p\left[\log_2 {q(x)}\right] = - \sum_{x_i} p(x_i)\, \log_2 q(x_i) = -\sum_x p(x)\, \log_2 q(x) = H(p, q). $$

अनुमान
ऐसी कई स्थितियाँ हैं जहाँ तिर्यक्-एन्ट्रॉपी को मापने की आवश्यकता है परन्तु वितरण $$p$$ अज्ञात है। एक उदाहरण भाषा निदर्शिंग है, जहां एक प्रशिक्षण समुच्चय के आधार पर एक निदर्श बनाया जाता है $$T$$, और फिर इसकी तिर्यक्-एन्ट्रॉपी को एक परीक्षण समुच्चय पर मापा जाता है ताकि यह आकलन किया जा सके कि परीक्षण प्रदत्त की भविष्यवाणी करने में निदर्श कितना सटीक है। इस उदाहरण में, $$p$$ किसी भी कोष में शब्दों का वास्तविक वितरण है, और $$q$$ निदर्श द्वारा अनुमानित शब्दों का वितरण है। चूँकि वास्तविक वितरण अज्ञात है, तिर्यक्-एन्ट्रापी की सीधे गणना नहीं की जा सकती। इन स्थितियों में, तिर्यक्-एन्ट्रॉपी के अनुमान की गणना निम्नलिखित सूत्र का उपयोग करके की जाती है:


 * $$H(T,q) = -\sum_{i=1}^N \frac{1}{N} \log_2 q(x_i)$$

जहाँ $$N$$ परीक्षण समुच्चय का आकार है, और $$q(x)$$ घटना की संभावना है $$x$$ प्रशिक्षण समुच्चय से अनुमान लगाया गया। दूसरे शब्दों में, $$q(x_i)$$ निदर्श का संभाव्यता अनुमान है कि पाठ का i-वां शब्द है $$x_i$$. राशि का औसत निकाला जाता है $$N$$ परीक्षण के शब्द. यह वास्तविक तिर्यक्-एन्ट्रॉपी की एक मोंटे कार्लो विधि है, जहां परीक्षण समुच्चय को निदर्श के रूप में माना जाता है $$p(x)$$.

अधिकतम संभावना से संबंध
वर्गीकरण समस्याओं में हम विभिन्न परिणामों की संभावना का अनुमान लगाना चाहते हैं। मान लीजिए परिणाम की अनुमानित संभावना है $$i$$ होना $$q_{\theta}(X=i)$$ अनुकूलित मापदंडों के साथ $$\theta$$ और परिणाम की आवृत्ति (अनुभवजन्य संभाव्यता) दें $$i$$ प्रशिक्षण समुच्चय में हो $$p(X=i)$$. प्रशिक्षण समुच्चय में एन सशर्त रूप से स्वतंत्र निदर्शो को देखते हुए, मापदंडों की संभावना $$\theta$$ निदर्श का $$q_{\theta}(X=x)$$ प्रशिक्षण समुच्चय पर है


 * $$\mathcal{L}(\theta)=\prod_{i \in X} (\mbox{est. probability of } i)^{\mbox{number of occurrences of } i} = \prod_i q_{\theta}(X=i)^{N p(X=i)}$$

जहां अंतिम अभिव्यक्ति बहुपद पीएमएफ की परिभाषा के कारण है। इसलिए, लॉग-संभावना, से विभाजित है $$N$$ है


 * $$\frac{1}{N}\log(\mathcal{L}(\theta))=\frac{1}{N} \log \prod_i q_{\theta}(X=i)^{N p(X=i)} = \sum_i p(X=i) \log q_{\theta}(X=i) = -H(p, q)$$

ताकि मापदंडों के संबंध में अधिकतम संभावना अनुमान लगाया जा सके $$\theta$$ तिर्यक्-एन्ट्रॉपी को कम करने के समान है।

तिर्यक्-एन्ट्रॉपी न्यूनतमकरण
तिर्यक्-एन्ट्रॉपी न्यूनतमकरण का उपयोग प्रायः अनुकूलन और दुर्लभ-घटना संभाव्यता आकलन में किया जाता है। किसी वितरण $$q$$ की तुलना करते समय एक निश्चित संदर्भ वितरण $$p$$ के विरुद्ध, तिर्यक्-एन्ट्रॉपी और कुल्बैक-लीब्लर विचलन एक योगात्मक स्थिरांक तक समान हैं (चूंकि $$p$$ निश्चित है): गिब्स की असमानता के अनुसार, केएल विचलन के लिए, और $$\mathrm{H}(p)$$ तिर्यक्-एन्ट्रॉपी के लिए, जब दोनों अपने न्यूनतम मान $$p = q$$ लेते हैं, जो $$0$$ है। इंजीनियरिंग साहित्य में, केएल विचलन को कम करने के सिद्धांत (कुलबैक के कुलबैक-लीबलर विचलन#न्यूनतम भेदभाव जानकारी का सिद्धांत) को प्रायः न्यूनतम तिर्यक्-एन्ट्रॉपी (एमसीई), या मिनक्सेंट का सिद्धांत कहा जाता है।

हालाँकि, जैसा कि लेख में चर्चा की गई है कुल्बैक-लीब्लर विचलन, कभी-कभी वितरण $$q$$ निश्चित पूर्व संदर्भ वितरण और वितरण $$p$$ है। यथासंभव, $$q$$ कुछ बाधाओं के अधीन समीप होने के लिए अनुकूलित किया गया है। इस स्थिति में दोनों न्यूनतमकरण समतुल्य नहीं हैं। इससे साहित्य में कुछ अस्पष्टता उत्पन्न हो गई है, कुछ लेखकों ने तिर्यक्-एन्ट्रॉपी $$D_{\mathrm{KL}}(p \parallel q)$$ और इसके बजाय $$H(p, q)$$ को पुनः स्थापित करके असंगतता को हल करने का प्रयास किया है। वास्तव में, तिर्यक्-एंट्रॉपी सापेक्ष एन्ट्रॉपी का दूसरा नाम है, कवर और थॉमस और अच्छा देखें। वहीं दूसरी ओर, $$H(p, q)$$ साहित्य से सहमत नहीं है और भ्रामक हो सकता है।

तिर्यक्-एन्ट्रॉपी हानि फलन और तार्किक प्रतिक्रमण
यंत्र अधिगम और अनुकूलन में हानि फलनों को परिभाषित करने के लिए तिर्यक्-एन्ट्रॉपी का उपयोग किया जा सकता है। वास्तविक संभावना $$p_i$$ वास्तविक लेबल और दिया गया वितरण $$q_i$$ है। वर्तमान निदर्श का अनुमानित मान है। इसे लॉग हानि (या लघुगणक हानि या तार्किक हानि) के रूप में भी जाना जाता है; लॉग हानि और तिर्यक्-एन्ट्रॉपी हानि शब्द परस्पर विनिमय के लिए उपयोग किए जाते हैं।

अधिक विशेष रूप से, एक द्विआधारी प्रतिक्रमण निदर्श पर विचार करें जिसका उपयोग टिप्पणियों को दो संभावित वर्गों में वर्गीकृत करने के लिए किया जा सकता है (प्रायः केवल $$0$$ और $$1$$ लेबल किया जाता है)। किसी दिए गए अवलोकन के लिए निदर्श का प्रेक्षण, निविष्टि सुविधाओं का एक सदिश $$ x $$ दिया गया है, एक संभाव्यता के रूप में व्याख्या की जा सकती है, जो अवलोकन को वर्गीकृत करने के आधार के रूप में कार्य करती है। तार्किक प्रतिक्रमण में, संभावना को तार्किक फलन $$g(z) = 1/(1+e^{-z})$$ का उपयोग करके निदर्श किया जाता है जहाँ $$ z $$ निविष्टि सदिश के कुछ फलन $$x$$ है, सामान्यतः केवल एक रैखिक फलन है। प्रेक्षण की संभावना $$y=1$$ द्वारा दी गयी है।
 * $$q_{y=1} = \hat{y} \equiv g(\mathbf{w}\cdot\mathbf{x}) = \frac 1 {1+e^{-\mathbf{w}\cdot\mathbf{x}}},$$

जहां भार का सदिश $$\mathbf{w}$$ को प्रवणता अवरोहांक जैसे कुछ उपयुक्त कलन विधियों के माध्यम से अनुकूलित किया गया है। इसी प्रकार, प्रेक्षण खोजने की पूरक संभावना केवल $$y=0$$ द्वारा दी गयी है।
 * $$q_{y=0} = 1-\hat{y}$$

अपना अंकन स्थापित करने के बाद, $$p\in\{y,1-y\}$$ और $$q\in\{\hat{y},1-\hat{y}\}$$, हम $$p$$ और $$q$$ के मध्य असमानता का माप प्राप्त करने के लिए तिर्यक्-एन्ट्रॉपी का उपयोग कर सकते हैं:
 * $$H(p,q)\ =\ -\sum_i p_i\log q_i\ =\ -y\log\hat{y} - (1-y)\log(1-\hat{y})$$

तार्किक प्रतिक्रमण सामान्यतः उन सभी अवलोकनों के लिए लॉग हानि को अनुकूलित करता है जिन पर इसे प्रशिक्षित किया जाता है, जो निदर्श में औसत तिर्यक्-एन्ट्रॉपी को अनुकूलित करने के समान है। उदाहरण के लिए, मान लीजिए हमारे पास, $$N$$ प्रत्येक निदर्श के साथ निदर्श अनुक्रमित $$n=1,\dots,N$$ है। हानि फलन का औसत तब दिया जाता है:


 * $$\begin{align}

J(\mathbf{w})\ &=\ \frac1N\sum_{n=1}^N H(p_n,q_n)\ =\ -\frac1N\sum_{n=1}^N\ \bigg[y_n \log \hat y_n + (1 - y_n)  \log (1 - \hat y_n)\bigg]\,, \end{align}$$ जहाँ $$\hat{y}_n\equiv g(\mathbf{w}\cdot\mathbf{x}_n) = 1/(1+e^{-\mathbf{w}\cdot\mathbf{x}_n}) $$, $$g(z)$$ के साथ पहले की तरह तार्किक फलन है।

तार्किक हानि को कभी-कभी तिर्यक्-एन्ट्रॉपी हानि कहा जाता है। इसे लॉग हानि के रूप में भी जाना जाता है (इस स्थिति में, द्वि-आधारी लेबल को प्रायः {−1,+1} द्वारा दर्शाया जाता है)।

टिप्पणी: तार्किक प्रतिक्रमण के लिए तिर्यक्-एन्ट्रॉपी हानि का प्रवणता रैखिक प्रतिक्रमण के लिए वर्ग त्रुटि हानि के प्रवणता के समान है। अर्थात परिभाषित करें:


 * $$X^T=\begin{pmatrix}

1&x_{11}&\dots&x_{1p}\\ 1&x_{21}&\cdots&x_{2p}\\ \vdots & \vdots && \vdots \\ 1&x_{n1}&\cdots&x_{np}\\ \end{pmatrix}\in \mathbb{R}^{n\times(p+1)}$$
 * $$\hat{y_i} = \hat{f}(x_{i1},\dots,x_{ip}) = \frac{1}{1+\exp(-\beta_0-\beta_1x_{i1}-\dots-\beta_px_{ip})}$$
 * $$L(\overrightarrow{\beta})=-\sum_{i=1}^N [y_i\log \hat{y}_i+(1-y_i)\log(1-\hat{y}_i)]$$

फिर हमारे पास परिणाम है:


 * $$\frac{\partial}{\partial\overrightarrow{\beta}}L(\overrightarrow{\beta})=X^T(\hat{Y}-Y)$$

प्रमाण इस प्रकार है। किसी $$\hat{y}_i$$ के लिए, अपने पास है:


 * $$\frac{\partial}{\partial\beta_0}\ln\frac{1}{1+e^{-\beta_0+k_0}} = \frac{e^{-\beta_0+k_0}}{1+e^{-\beta_0+k_0}}$$
 * $$\frac{\partial}{\partial \beta_0}\ln \left(1-\frac{1}{1+e^{-\beta_0+k_0}}\right)=\frac{-1}{1+e^{-\beta_0+k_0}}$$
 * $$\begin{align}

\frac{\partial}{\partial\beta_0}L(\overrightarrow{\beta})&=-\sum_{i=1}^{N}\left[\frac{y_i \cdot e^{-\beta_0+k_0}}{1+e^{-\beta_0+k_0}}-(1-y_i)\frac{1}{1+e^{-\beta_0+k_0}}\right]\\ &=-\sum_{i=1}^{N}[y_i-\hat{y}_i] = \sum_{i=1}^{N}(\hat{y}_i-y_i) \end{align}$$
 * $$\frac{\partial}{\partial \beta_1}\ln \frac{1}{1+e^{-\beta_1x_{i1}+k_1}} = \frac{x_{i1}e^{k_1}}{e^{\beta_1x_{i1}}+e^{k_1}}$$
 * $$\frac{\partial}{\partial \beta_1}\ln\left[1-\frac{1}{1+e^{-\beta_1x_{i1}+k_1}}\right] = \frac{-x_{i1}e^{\beta_1x_{i1}}}{e^{\beta_1x_{i1}}+e^{k_1}}$$
 * $$\frac{\partial}{\partial\beta_1}L(\overrightarrow{\beta}) = -\sum_{i=1}^N x_{i1}(y_i-\hat{y}_i) = \sum_{i=1}^N x_{i1}(\hat{y}_i-y_i)$$

इसी तरह, हम अंततः वांछित परिणाम प्राप्त करते हैं।

यह भी देखें

 * तिर्यक्-एन्ट्रॉपी विधि
 * तार्किक प्रतिक्रमण
 * प्रतिबंधी एन्ट्रापी
 * अधिकतम संभावना अनुमान
 * परस्पर सूचना

बाहरी संबंध

 * Cross Entropy