क्रॉस एन्ट्रापी

सूचना सिद्धांत में, दो संभाव्यता वितरणों $$p$$ और $$q$$ के मध्य तिर्यक्-एन्ट्रॉपी यदि समुच्चय के लिए उपयोग की जाने वाली कोडन योजना अनुमानित वास्तविक वितरण $$p$$ के बजाय संभाव्यता वितरण $$q$$ के लिए अनुकूलित है, तो घटनाओं के समान अंतर्निहित समुच्चय पर समुच्चय से खींची गई घटना की पहचान करने के लिए आवश्यक अंश की औसत संख्या को मापता है।

परिभाषा
वितरण $$q$$ की तिर्यक्-एन्ट्रॉपी वितरण $$p$$ के सापेक्ष किसी दिए गए समुच्चय को इस प्रकार परिभाषित किया गया है:


 * $$H(p, q) = -\operatorname{E}_p[\log q]$$

जहाँ $$E_p[\cdot]$$ वितरण $$p$$ के संबंध में अपेक्षित मान संचालक है।

परिभाषा कुल्बैक-लीब्लर विचलन $$D_{\mathrm{KL}}(p \parallel q)$$ का उपयोग करके तैयार की जा सकती है, विचलन $$p$$ से $$q$$ का (इसके संबंध में $$q$$, $$p$$ की सापेक्ष एन्ट्रापी के रूप में भी जाना जाता है)।


 * $$H(p, q) = H(p) + D_{\mathrm{KL}}(p \parallel q),$$

जहाँ $$H(p)$$ की एन्ट्रापी $$p$$ है।

असतत संभाव्यता वितरण $$p$$ और $$q$$ के लिए, उसी समर्थन $$\mathcal{X}$$ के साथ (माप सिद्धांत) इसका अर्थ यह है:

सतत वितरण की स्थिति समान है। हमें यह मानना ​​होगा कि कुछ संदर्भ माप $$r$$ के संबंध में $$p$$ और $$q$$ बिल्कुल सतत हैं (सामान्यतः $$r$$ बोरेल σ-बीजगणित पर एक लेब्सेग माप है। मान लीजिए कि $$P$$ और $$Q$$,  $$p$$ और $$q$$ के संभाव्यता घनत्व फलन $$r$$ हैं। तब


 * $$-\int_\mathcal{X} P(x)\, \log Q(x)\, dr(x) = \operatorname{E}_p[-\log Q]$$

और इसलिए

एनबी: संकेतन $$H(p,q)$$ का उपयोग एक अलग अवधारणा, संयुक्त एन्ट्रापी $$p$$ और $$q$$ के लिए भी किया जाता है।

प्रेरणा
सूचना सिद्धांत में, क्राफ्ट-मैकमिलन प्रमेय स्थापित करता है कि एक मान की पहचान करने के लिए किसी संकेत को कोड करने के लिए कोई भी सीधे डिकोड करने योग्य कोडन योजना $$x_i$$ संभावनाओं के एक समुच्चय से बाहर $$\{x_1,\ldots,x_n\}$$ को एक अंतर्निहित संभाव्यता वितरण $$q(x_i) = \left(\frac{1}{2}\right)^{\ell_i}$$ के ऊपर $$\{x_1, \ldots, x_n\}$$ का प्रतिनिधित्व करने के रूप में देखा जा सकता है, जहाँ $$\ell_i$$ के लिए कोड की लंबाई $$x_i$$ द्वयंकों में है। इसलिए, गलत वितरण $$q$$ होने पर तिर्यक्-एन्ट्रॉपी की व्याख्या प्रति प्रदत्त अपेक्षित संकेत-लंबाई के रूप में की जा सकती है, मान लिया गया है जबकि प्रदत्त वास्तव में एक वितरण $$p$$ का अनुसरण करता है। इसीलिए अपेक्षा को वास्तविक संभाव्यता वितरण $$p$$ पर ले लिया जाता है और $$q$$ पर नहीं। वास्तव में वास्तविक वितरण $$p$$ के अंतर्गत अपेक्षित संकेत-लंबाई है।


 * $$ \operatorname{E}_p[\ell] = - \operatorname{E}_p\left[\frac{\ln{q(x)}}{\ln(2)}\right] = - \operatorname{E}_p\left[\log_2 {q(x)}\right] = - \sum_{x_i} p(x_i)\, \log_2 q(x_i) = -\sum_x p(x)\, \log_2 q(x) = H(p, q). $$

अनुमान
ऐसी कई स्थितियाँ हैं जहाँ तिर्यक्-एन्ट्रॉपी को मापने की आवश्यकता है परन्तु वितरण $$p$$ अज्ञात है। एक उदाहरण भाषा मॉडलिंग है, जहां एक प्रशिक्षण समुच्चय के आधार पर एक निदर्श $$T$$ बनाया जाता है और फिर इसकी तिर्यक्-एन्ट्रॉपी को एक परीक्षण समुच्चय पर मापा जाता है ताकि यह आकलन किया जा सके कि परीक्षण प्रदत्त की भविष्यवाणी करने में निदर्श कितना सटीक है। इस उदाहरण में, $$p$$ किसी भी कोष में शब्दों का वास्तविक वितरण है, और $$q$$ निदर्श द्वारा अनुमानित शब्दों का वितरण है। चूँकि वास्तविक वितरण अज्ञात है, तिर्यक्-एन्ट्रापी की सीधे गणना नहीं की जा सकती। इन स्थितियों में, तिर्यक्-एन्ट्रॉपी के अनुमान की गणना निम्नलिखित सूत्र का उपयोग करके की जाती है:


 * $$H(T,q) = -\sum_{i=1}^N \frac{1}{N} \log_2 q(x_i)$$

जहाँ $$N$$ परीक्षण समुच्चय का आकार और $$q(x)$$ घटना की प्रायिकता $$x$$ है, प्रशिक्षण समुच्चय से अनुमान लगाया गया। दूसरे शब्दों में, $$q(x_i)$$ निदर्श का प्रायिकता अनुमान है कि पाठ का i-वां शब्द $$x_i$$है। $$N$$ परीक्षण के शब्द के योग का औसत निकाला जाता है। यह वास्तविक तिर्यक्-एन्ट्रॉपी की एक मोंटे कार्लो विधि है, जहां परीक्षण समुच्चय को निदर्श $$p(x)$$ के रूप में माना जाता है।

अधिकतम संभावना से संबंध
वर्गीकरण समस्याओं में हम विभिन्न परिणामों की प्रायिकता का अनुमान लगाना चाहते हैं। मान लीजिए कि परिणाम की अनुमानित प्रायिकता $$i$$ है, $$q_{\theta}(X=i)$$ अनुकूलित किए जाने वाले मापदंडों $$\theta$$ के साथ और परिणाम की आवृत्ति (अनुभवजन्य प्रायिकता), $$i$$ प्रशिक्षण में समुच्चय $$p(X=i)$$हैं। प्रशिक्षण समुच्चय में N सशर्त रूप से स्वतंत्र निदर्शो को देखते हुए, मापदंडों $$\theta$$ की प्रायिकता का निदर्श $$q_{\theta}(X=x)$$ प्रशिक्षण समुच्चय पर है।


 * $$\mathcal{L}(\theta)=\prod_{i \in X} (\mbox{est. probability of } i)^{\mbox{number of occurrences of } i} = \prod_i q_{\theta}(X=i)^{N p(X=i)}$$

जहां अंतिम अभिव्यक्ति बहुपद पीएमएफ की परिभाषा के कारण है। इसलिए, लॉग-संभावना से विभाजित $$N$$ है।


 * $$\frac{1}{N}\log(\mathcal{L}(\theta))=\frac{1}{N} \log \prod_i q_{\theta}(X=i)^{N p(X=i)} = \sum_i p(X=i) \log q_{\theta}(X=i) = -H(p, q)$$

ताकि मापदंडों $$\theta$$ के संबंध में संभावना को अधिकतम किया जा सके, तिर्यक्-एन्ट्रॉपी को कम करने के समान है।

तिर्यक्-एन्ट्रॉपी न्यूनतमकरण
तिर्यक्-एन्ट्रॉपी न्यूनतमकरण का उपयोग प्रायः अनुकूलन और दुर्लभ-घटना संभाव्यता आकलन में किया जाता है। किसी वितरण $$q$$ की तुलना करते समय एक निश्चित संदर्भ वितरण $$p$$ के विरुद्ध, तिर्यक्-एन्ट्रॉपी और कुल्बैक-लीब्लर विचलन एक योगात्मक स्थिरांक तक समान हैं (चूंकि $$p$$ निश्चित है): गिब्स की असमानता के अनुसार, केएल विचलन के लिए और $$\mathrm{H}(p)$$ तिर्यक्-एन्ट्रॉपी के लिए, जब दोनों अपने न्यूनतम मान $$p = q$$ लेते हैं, जो $$0$$ है। अभियांत्रिकी साहित्य में, केएल विचलन को कम करने के सिद्धांत (कुल्बैक के "न्यूनतम विभेदन सूचना का सिद्धांत") को प्रायः न्यूनतम तिर्यक्-एन्ट्रॉपी (MCE), या मिनक्सेंट का सिद्धांत कहा जाता है।

हालाँकि, जैसा कि लेख में चर्चा की गई है कुल्बैक-लीब्लर विचलन, कभी-कभी वितरण $$q$$ निश्चित पूर्व संदर्भ वितरण और वितरण $$p$$ है। यथासंभव, $$q$$ कुछ बाधाओं के अधीन समीप होने के लिए अनुकूलित किया गया है। इस स्थिति में दोनों न्यूनतमकरण समतुल्य नहीं हैं। इससे साहित्य में कुछ अस्पष्टता उत्पन्न हो गई है, कुछ लेखकों ने तिर्यक्-एन्ट्रॉपी $$D_{\mathrm{KL}}(p \parallel q)$$ और इसके बजाय $$H(p, q)$$ को पुनः स्थापित करके असंगतता को हल करने का प्रयास किया है। वास्तव में, तिर्यक्-एंट्रॉपी सापेक्ष एन्ट्रॉपी का दूसरा नाम है, कवर और थॉमस और अच्छा देखें। वहीं दूसरी ओर, $$H(p, q)$$ साहित्य से सहमत नहीं है और भ्रामक हो सकता है।

तिर्यक्-एन्ट्रॉपी हानि फलन और तार्किक प्रतिक्रमण
यंत्र अधिगम और अनुकूलन में हानि फलनों को परिभाषित करने के लिए तिर्यक्-एन्ट्रॉपी का उपयोग किया जा सकता है। वास्तविक संभावना $$p_i$$ वास्तविक लेबल और दिया गया वितरण $$q_i$$ है। वर्तमान निदर्श का अनुमानित मान है। इसे लॉग हानि (या लघुगणक हानि या तार्किक हानि) के रूप में भी जाना जाता है; लॉग हानि और तिर्यक्-एन्ट्रॉपी हानि शब्द परस्पर विनिमय के लिए उपयोग किए जाते हैं।

अधिक विशेष रूप से, एक द्विआधारी प्रतिक्रमण निदर्श पर विचार करें जिसका उपयोग टिप्पणियों को दो संभावित वर्गों में वर्गीकृत करने के लिए किया जा सकता है (प्रायः केवल $$0$$ और $$1$$ लेबल किया जाता है)। किसी दिए गए अवलोकन के लिए निदर्श का प्रेक्षण, निविष्टि सुविधाओं का एक सदिश $$ x $$ दिया गया है, एक संभाव्यता के रूप में व्याख्या की जा सकती है, जो अवलोकन को वर्गीकृत करने के आधार के रूप में कार्य करती है। तार्किक प्रतिक्रमण में, संभावना को तार्किक फलन $$g(z) = 1/(1+e^{-z})$$ का उपयोग करके निदर्श किया जाता है जहाँ $$ z $$ निविष्टि सदिश के कुछ फलन $$x$$ है, सामान्यतः केवल एक रैखिक फलन है। प्रेक्षण की संभावना $$y=1$$ द्वारा दी गयी है।
 * $$q_{y=1} = \hat{y} \equiv g(\mathbf{w}\cdot\mathbf{x}) = \frac 1 {1+e^{-\mathbf{w}\cdot\mathbf{x}}},$$

जहां भार का सदिश $$\mathbf{w}$$ को प्रवणता अवरोहांक जैसे कुछ उपयुक्त कलन विधियों के माध्यम से अनुकूलित किया गया है। इसी प्रकार, प्रेक्षण खोजने की पूरक संभावना केवल $$y=0$$ द्वारा दी गयी है।
 * $$q_{y=0} = 1-\hat{y}$$

अपना अंकन स्थापित करने के बाद, $$p\in\{y,1-y\}$$ और $$q\in\{\hat{y},1-\hat{y}\}$$, हम $$p$$ और $$q$$ के मध्य असमानता का माप प्राप्त करने के लिए तिर्यक्-एन्ट्रॉपी का उपयोग कर सकते हैं:
 * $$H(p,q)\ =\ -\sum_i p_i\log q_i\ =\ -y\log\hat{y} - (1-y)\log(1-\hat{y})$$

तार्किक प्रतिक्रमण सामान्यतः उन सभी अवलोकनों के लिए लॉग हानि को अनुकूलित करता है जिन पर इसे प्रशिक्षित किया जाता है, जो निदर्श में औसत तिर्यक्-एन्ट्रॉपी को अनुकूलित करने के समान है। उदाहरण के लिए, मान लीजिए हमारे पास, $$N$$ प्रत्येक निदर्श के साथ निदर्श अनुक्रमित $$n=1,\dots,N$$ है। हानि फलन का औसत तब दिया जाता है:


 * $$\begin{align}

J(\mathbf{w})\ &=\ \frac1N\sum_{n=1}^N H(p_n,q_n)\ =\ -\frac1N\sum_{n=1}^N\ \bigg[y_n \log \hat y_n + (1 - y_n)  \log (1 - \hat y_n)\bigg]\,, \end{align}$$ जहाँ $$\hat{y}_n\equiv g(\mathbf{w}\cdot\mathbf{x}_n) = 1/(1+e^{-\mathbf{w}\cdot\mathbf{x}_n}) $$, $$g(z)$$ के साथ पहले की तरह तार्किक फलन है।

तार्किक हानि को कभी-कभी तिर्यक्-एन्ट्रॉपी हानि कहा जाता है। इसे लॉग हानि के रूप में भी जाना जाता है (इस स्थिति में, द्वि-आधारी लेबल को प्रायः {−1,+1} द्वारा दर्शाया जाता है)।

टिप्पणी: तार्किक प्रतिक्रमण के लिए तिर्यक्-एन्ट्रॉपी हानि का प्रवणता रैखिक प्रतिक्रमण के लिए वर्ग त्रुटि हानि के प्रवणता के समान है। अर्थात परिभाषित करें:


 * $$X^T=\begin{pmatrix}

1&x_{11}&\dots&x_{1p}\\ 1&x_{21}&\cdots&x_{2p}\\ \vdots & \vdots && \vdots \\ 1&x_{n1}&\cdots&x_{np}\\ \end{pmatrix}\in \mathbb{R}^{n\times(p+1)}$$
 * $$\hat{y_i} = \hat{f}(x_{i1},\dots,x_{ip}) = \frac{1}{1+\exp(-\beta_0-\beta_1x_{i1}-\dots-\beta_px_{ip})}$$
 * $$L(\overrightarrow{\beta})=-\sum_{i=1}^N [y_i\log \hat{y}_i+(1-y_i)\log(1-\hat{y}_i)]$$

फिर हमारे पास परिणाम है:


 * $$\frac{\partial}{\partial\overrightarrow{\beta}}L(\overrightarrow{\beta})=X^T(\hat{Y}-Y)$$

प्रमाण इस प्रकार है। किसी $$\hat{y}_i$$ के लिए, अपने पास है:


 * $$\frac{\partial}{\partial\beta_0}\ln\frac{1}{1+e^{-\beta_0+k_0}} = \frac{e^{-\beta_0+k_0}}{1+e^{-\beta_0+k_0}}$$
 * $$\frac{\partial}{\partial \beta_0}\ln \left(1-\frac{1}{1+e^{-\beta_0+k_0}}\right)=\frac{-1}{1+e^{-\beta_0+k_0}}$$
 * $$\begin{align}

\frac{\partial}{\partial\beta_0}L(\overrightarrow{\beta})&=-\sum_{i=1}^{N}\left[\frac{y_i \cdot e^{-\beta_0+k_0}}{1+e^{-\beta_0+k_0}}-(1-y_i)\frac{1}{1+e^{-\beta_0+k_0}}\right]\\ &=-\sum_{i=1}^{N}[y_i-\hat{y}_i] = \sum_{i=1}^{N}(\hat{y}_i-y_i) \end{align}$$
 * $$\frac{\partial}{\partial \beta_1}\ln \frac{1}{1+e^{-\beta_1x_{i1}+k_1}} = \frac{x_{i1}e^{k_1}}{e^{\beta_1x_{i1}}+e^{k_1}}$$
 * $$\frac{\partial}{\partial \beta_1}\ln\left[1-\frac{1}{1+e^{-\beta_1x_{i1}+k_1}}\right] = \frac{-x_{i1}e^{\beta_1x_{i1}}}{e^{\beta_1x_{i1}}+e^{k_1}}$$
 * $$\frac{\partial}{\partial\beta_1}L(\overrightarrow{\beta}) = -\sum_{i=1}^N x_{i1}(y_i-\hat{y}_i) = \sum_{i=1}^N x_{i1}(\hat{y}_i-y_i)$$

इसी तरह, हम अंततः वांछित परिणाम प्राप्त करते हैं।

यह भी देखें

 * तिर्यक्-एन्ट्रॉपी विधि
 * तार्किक प्रतिक्रमण
 * प्रतिबंधी एन्ट्रापी
 * अधिकतम संभावना अनुमान
 * परस्पर सूचना

बाहरी संबंध

 * Cross Entropy