क्रॉस एन्ट्रापी

सूचना सिद्धांत में, दो संभाव्यता वितरणों के बीच क्रॉस-एन्ट्रॉपी $$p$$ और $$q$$ यदि सेट के लिए उपयोग की जाने वाली कोडिंग योजना अनुमानित संभाव्यता वितरण के लिए अनुकूलित है, तो घटनाओं के समान अंतर्निहित सेट पर सेट से खींची गई घटना की पहचान करने के लिए आवश्यक अंश ्स की औसत संख्या को मापता है। $$q$$, वास्तविक वितरण के बजाय $$p$$.

परिभाषा
वितरण की क्रॉस-एन्ट्रॉपी $$q$$ वितरण के सापेक्ष $$p$$ किसी दिए गए सेट को इस प्रकार परिभाषित किया गया है:


 * $$H(p, q) = -\operatorname{E}_p[\log q]$$,

कहाँ $$E_p[\cdot]$$ वितरण के संबंध में अपेक्षित मूल्य ऑपरेटर है $$p$$.

परिभाषा कुल्बैक-लीब्लर विचलन का उपयोग करके तैयार की जा सकती है $$D_{\mathrm{KL}}(p \parallel q)$$, का विचलन $$p$$ से $$q$$ (की सापेक्ष एन्ट्रापी के रूप में भी जाना जाता है $$p$$ इसके संबंध में $$q$$).


 * $$H(p, q) = H(p) + D_{\mathrm{KL}}(p \parallel q),$$

कहाँ $$H(p)$$ की सूचना एन्ट्रापी है $$p$$.

असतत यादृच्छिक चर संभाव्यता वितरण के लिए $$p$$ और $$q$$ उसी समर्थन के साथ (माप सिद्धांत) $$\mathcal{X}$$ इसका मतलब यह है

निरंतर यादृच्छिक चर वितरण की स्थिति अनुरूप है। हमें यह मानना ​​होगा $$p$$ और $$q$$ कुछ संदर्भ माप (गणित) के संबंध में बिल्कुल निरंतर हैं $$r$$ (आम तौर पर $$r$$ बोरेल सेट सिग्मा-बीजगणित|σ-बीजगणित) पर एक लेब्सेग माप है। होने देना $$P$$ और $$Q$$ की संभाव्यता घनत्व फलन हो $$p$$ और $$q$$ इसके संबंध में $$r$$. तब


 * $$-\int_\mathcal{X} P(x)\, \log Q(x)\, dr(x) = \operatorname{E}_p[-\log Q]$$

और इसलिए

एनबी: संकेतन $$H(p,q)$$ का उपयोग एक अलग अवधारणा, संयुक्त एन्ट्रापी के लिए भी किया जाता है $$p$$ और $$q$$.

प्रेरणा
सूचना सिद्धांत में, क्राफ्ट की असमानता | क्राफ्ट-मैकमिलन प्रमेय स्थापित करता है कि एक मूल्य की पहचान करने के लिए किसी संदेश को कोड करने के लिए कोई भी सीधे डिकोड करने योग्य कोडिंग योजना $$x_i$$ संभावनाओं के एक सेट से बाहर $$\{x_1,\ldots,x_n\}$$ इसे एक अंतर्निहित संभाव्यता वितरण का प्रतिनिधित्व करने के रूप में देखा जा सकता है $$q(x_i) = \left(\frac{1}{2}\right)^{\ell_i}$$ ऊपर $$\{x_1, \ldots, x_n\}$$, कहाँ $$\ell_i$$ के लिए कोड की लंबाई है $$x_i$$ टुकड़ों में. इसलिए, गलत वितरण होने पर क्रॉस-एन्ट्रॉपी की व्याख्या प्रति डेटा अपेक्षित संदेश-लंबाई के रूप में की जा सकती है $$q$$ मान लिया गया है जबकि डेटा वास्तव में एक वितरण का अनुसरण करता है $$p$$. इसीलिए अपेक्षा को वास्तविक संभाव्यता वितरण पर ले लिया जाता है $$p$$ और नहीं $$q$$. वास्तव में वास्तविक वितरण के तहत अपेक्षित संदेश-लंबाई $$p$$ है


 * $$ \operatorname{E}_p[\ell] = - \operatorname{E}_p\left[\frac{\ln{q(x)}}{\ln(2)}\right] = - \operatorname{E}_p\left[\log_2 {q(x)}\right] = - \sum_{x_i} p(x_i)\, \log_2 q(x_i) = -\sum_x p(x)\, \log_2 q(x) = H(p, q). $$

अनुमान
ऐसी कई स्थितियाँ हैं जहाँ क्रॉस-एन्ट्रॉपी को मापने की आवश्यकता है लेकिन वितरण $$p$$ अज्ञात है। एक उदाहरण भाषा मॉडलिंग है, जहां एक प्रशिक्षण सेट के आधार पर एक मॉडल बनाया जाता है $$T$$, और फिर इसकी क्रॉस-एन्ट्रॉपी को एक परीक्षण सेट पर मापा जाता है ताकि यह आकलन किया जा सके कि परीक्षण डेटा की भविष्यवाणी करने में मॉडल कितना सटीक है। इस उदाहरण में, $$p$$ किसी भी कोष में शब्दों का वास्तविक वितरण है, और $$q$$ मॉडल द्वारा अनुमानित शब्दों का वितरण है। चूँकि वास्तविक वितरण अज्ञात है, क्रॉस-एन्ट्रापी की सीधे गणना नहीं की जा सकती। इन मामलों में, क्रॉस-एन्ट्रॉपी के अनुमान की गणना निम्नलिखित सूत्र का उपयोग करके की जाती है:


 * $$H(T,q) = -\sum_{i=1}^N \frac{1}{N} \log_2 q(x_i)$$

कहाँ $$N$$ परीक्षण सेट का आकार है, और $$q(x)$$ घटना की संभावना है $$x$$ प्रशिक्षण सेट से अनुमान लगाया गया। दूसरे शब्दों में, $$q(x_i)$$ मॉडल का संभाव्यता अनुमान है कि पाठ का i-वां शब्द है $$x_i$$. राशि का औसत निकाला जाता है $$N$$ परीक्षण के शब्द. यह वास्तविक क्रॉस-एन्ट्रॉपी की एक मोंटे कार्लो विधि है, जहां परीक्षण सेट को नमूने के रूप में माना जाता है $$p(x)$$.

अधिकतम संभावना से संबंध
वर्गीकरण समस्याओं में हम विभिन्न परिणामों की संभावना का अनुमान लगाना चाहते हैं। मान लीजिए परिणाम की अनुमानित संभावना है $$i$$ होना $$q_{\theta}(X=i)$$ अनुकूलित मापदंडों के साथ $$\theta$$ और परिणाम की आवृत्ति (अनुभवजन्य संभाव्यता) दें $$i$$ प्रशिक्षण सेट में हो $$p(X=i)$$. प्रशिक्षण सेट में एन सशर्त रूप से स्वतंत्र नमूनों को देखते हुए, मापदंडों की संभावना $$\theta$$ मॉडल का $$q_{\theta}(X=x)$$ प्रशिक्षण सेट पर है


 * $$\mathcal{L}(\theta)=\prod_{i \in X} (\mbox{est. probability of } i)^{\mbox{number of occurrences of } i} = \prod_i q_{\theta}(X=i)^{N p(X=i)}$$

जहां अंतिम अभिव्यक्ति बहुपद पीएमएफ की परिभाषा के कारण है। इसलिए, लॉग-संभावना, से विभाजित है $$N$$ है


 * $$\frac{1}{N}\log(\mathcal{L}(\theta))=\frac{1}{N} \log \prod_i q_{\theta}(X=i)^{N p(X=i)} = \sum_i p(X=i) \log q_{\theta}(X=i) = -H(p, q)$$

ताकि मापदंडों के संबंध में अधिकतम संभावना अनुमान लगाया जा सके $$\theta$$ क्रॉस-एन्ट्रॉपी को कम करने के समान है।

क्रॉस-एन्ट्रॉपी न्यूनतमकरण
क्रॉस-एन्ट्रॉपी न्यूनतमकरण का उपयोग अक्सर अनुकूलन और दुर्लभ-घटना संभाव्यता आकलन में किया जाता है। किसी वितरण की तुलना करते समय $$q$$ एक निश्चित संदर्भ वितरण के विरुद्ध $$p$$, क्रॉस-एन्ट्रॉपी और कुल्बैक-लीब्लर विचलन एक योगात्मक स्थिरांक तक समान हैं (चूंकि $$p$$ निश्चित है): गिब्स की असमानता के अनुसार, जब दोनों अपने न्यूनतम मान लेते हैं $$p = q$$, जो है $$0$$ केएल विचलन के लिए, और $$\mathrm{H}(p)$$ क्रॉस-एन्ट्रॉपी के लिए. इंजीनियरिंग साहित्य में, केएल विचलन को कम करने के सिद्धांत (कुलबैक के कुलबैक-लीबलर विचलन#न्यूनतम भेदभाव जानकारी का सिद्धांत) को अक्सर न्यूनतम क्रॉस-एन्ट्रॉपी (एमसीई), या मिनक्सेंट का सिद्धांत कहा जाता है।

हालाँकि, जैसा कि लेख कुल्बैक-लीब्लर डाइवर्जेंस में चर्चा की गई है, कभी-कभी वितरण $$q$$ निश्चित पूर्व संदर्भ वितरण, और वितरण है $$p$$ के करीब होने के लिए अनुकूलित किया गया है $$q$$ यथासंभव, कुछ बाधाओं के अधीन। इस मामले में दोनों न्यूनतमकरण समतुल्य नहीं हैं। इससे साहित्य में कुछ अस्पष्टता पैदा हो गई है, कुछ लेखकों ने क्रॉस-एन्ट्रॉपी को पुनः स्थापित करके असंगतता को हल करने का प्रयास किया है। $$D_{\mathrm{KL}}(p \parallel q)$$, इसके बजाय $$H(p, q)$$. वास्तव में, क्रॉस-एंट्रॉपी सापेक्ष एन्ट्रॉपी का दूसरा नाम है, कवर और थॉमस देखें और अच्छा। वहीं दूसरी ओर, $$H(p, q)$$ साहित्य से सहमत नहीं है और भ्रामक हो सकता है।

क्रॉस-एन्ट्रॉपी हानि फ़ंक्शन और लॉजिस्टिक रिग्रेशन
यंत्र अधिगम और अनुकूलन में हानि फ़ंक्शन को परिभाषित करने के लिए क्रॉस-एन्ट्रॉपी का उपयोग किया जा सकता है। सच्ची संभावना $$p_i$$ सही लेबल और दिया गया वितरण है $$q_i$$ वर्तमान मॉडल का अनुमानित मूल्य है। इसे लॉग लॉस (या लॉगरिदमिक लॉस) के रूप में भी जाना जाता है या रसद हानि); लॉग लॉस और क्रॉस-एन्ट्रॉपी लॉस शब्द परस्पर विनिमय के लिए उपयोग किए जाते हैं। अधिक विशेष रूप से, एक  द्विआधारी प्रतिगमन  मॉडल पर विचार करें जिसका उपयोग टिप्पणियों को दो संभावित वर्गों में वर्गीकृत करने के लिए किया जा सकता है (अक्सर बस लेबल किया जाता है) $$0$$ और $$1$$). किसी दिए गए अवलोकन के लिए मॉडल का आउटपुट, इनपुट सुविधाओं का एक वेक्टर दिया गया है $$ x $$, एक संभाव्यता के रूप में व्याख्या की जा सकती है, जो अवलोकन को वर्गीकृत करने के आधार के रूप में कार्य करती है। संभार तन्त्र परावर्तन  में, संभावना को लॉजिस्टिक फ़ंक्शन का उपयोग करके मॉडल किया जाता है $$g(z) = 1/(1+e^{-z})$$ कहाँ $$ z $$ इनपुट वेक्टर का कुछ कार्य है $$x$$, आमतौर पर सिर्फ एक रैखिक कार्य। आउटपुट की संभावना $$y=1$$ द्वारा दिया गया है
 * $$q_{y=1} = \hat{y} \equiv g(\mathbf{w}\cdot\mathbf{x}) = \frac 1 {1+e^{-\mathbf{w}\cdot\mathbf{x}}},$$

जहां वजन का वेक्टर $$\mathbf{w}$$ कुछ उपयुक्त एल्गोरिदम जैसे कि ढतला हुआ वंश  के माध्यम से अनुकूलित किया गया है। इसी प्रकार, आउटपुट खोजने की पूरक संभावना $$y=0$$ बस द्वारा दिया गया है
 * $$q_{y=0} = 1-\hat{y}$$

अपना अंकन स्थापित करने के बाद, $$p\in\{y,1-y\}$$ और $$q\in\{\hat{y},1-\hat{y}\}$$, हम बीच असमानता का माप प्राप्त करने के लिए क्रॉस-एन्ट्रॉपी का उपयोग कर सकते हैं $$p$$ और $$q$$:
 * $$H(p,q)\ =\ -\sum_i p_i\log q_i\ =\ -y\log\hat{y} - (1-y)\log(1-\hat{y})$$

लॉजिस्टिक रिग्रेशन आम तौर पर उन सभी अवलोकनों के लिए लॉग लॉस को अनुकूलित करता है जिन पर इसे प्रशिक्षित किया जाता है, जो नमूने में औसत क्रॉस-एन्ट्रॉपी को अनुकूलित करने के समान है। उदाहरण के लिए, मान लीजिए हमारे पास है $$N$$ प्रत्येक नमूने के साथ नमूने अनुक्रमित $$n=1,\dots,N$$. हानि फ़ंक्शन का औसत तब दिया जाता है:


 * $$\begin{align}

J(\mathbf{w})\ &=\ \frac1N\sum_{n=1}^N H(p_n,q_n)\ =\ -\frac1N\sum_{n=1}^N\ \bigg[y_n \log \hat y_n + (1 - y_n)  \log (1 - \hat y_n)\bigg]\,, \end{align}$$ कहाँ $$\hat{y}_n\equiv g(\mathbf{w}\cdot\mathbf{x}_n) = 1/(1+e^{-\mathbf{w}\cdot\mathbf{x}_n}) $$, साथ $$g(z)$$ पहले की तरह लॉजिस्टिक फ़ंक्शन।

लॉजिस्टिक हानि को कभी-कभी क्रॉस-एन्ट्रॉपी हानि कहा जाता है। इसे लॉग लॉस के रूप में भी जाना जाता है (इस मामले में, बाइनरी लेबल को अक्सर {−1,+1} द्वारा दर्शाया जाता है)। टिप्पणी: लॉजिस्टिक रिग्रेशन के लिए क्रॉस-एन्ट्रॉपी हानि का ग्रेडिएंट रैखिक रिग्रेशन के लिए वर्ग त्रुटि हानि के ग्रेडिएंट के समान है। यानी परिभाषित करें


 * $$X^T=\begin{pmatrix}

1&x_{11}&\dots&x_{1p}\\ 1&x_{21}&\cdots&x_{2p}\\ \vdots & \vdots && \vdots \\ 1&x_{n1}&\cdots&x_{np}\\ \end{pmatrix}\in \mathbb{R}^{n\times(p+1)}$$
 * $$\hat{y_i} = \hat{f}(x_{i1},\dots,x_{ip}) = \frac{1}{1+\exp(-\beta_0-\beta_1x_{i1}-\dots-\beta_px_{ip})}$$
 * $$L(\overrightarrow{\beta})=-\sum_{i=1}^N [y_i\log \hat{y}_i+(1-y_i)\log(1-\hat{y}_i)]$$

फिर हमारे पास परिणाम है


 * $$\frac{\partial}{\partial\overrightarrow{\beta}}L(\overrightarrow{\beta})=X^T(\hat{Y}-Y)$$

प्रमाण इस प्रकार है. किसी के लिए $$\hat{y}_i$$, अपने पास


 * $$\frac{\partial}{\partial\beta_0}\ln\frac{1}{1+e^{-\beta_0+k_0}} = \frac{e^{-\beta_0+k_0}}{1+e^{-\beta_0+k_0}}$$
 * $$\frac{\partial}{\partial \beta_0}\ln \left(1-\frac{1}{1+e^{-\beta_0+k_0}}\right)=\frac{-1}{1+e^{-\beta_0+k_0}}$$
 * $$\begin{align}

\frac{\partial}{\partial\beta_0}L(\overrightarrow{\beta})&=-\sum_{i=1}^{N}\left[\frac{y_i \cdot e^{-\beta_0+k_0}}{1+e^{-\beta_0+k_0}}-(1-y_i)\frac{1}{1+e^{-\beta_0+k_0}}\right]\\ &=-\sum_{i=1}^{N}[y_i-\hat{y}_i] = \sum_{i=1}^{N}(\hat{y}_i-y_i) \end{align}$$
 * $$\frac{\partial}{\partial \beta_1}\ln \frac{1}{1+e^{-\beta_1x_{i1}+k_1}} = \frac{x_{i1}e^{k_1}}{e^{\beta_1x_{i1}}+e^{k_1}}$$
 * $$\frac{\partial}{\partial \beta_1}\ln\left[1-\frac{1}{1+e^{-\beta_1x_{i1}+k_1}}\right] = \frac{-x_{i1}e^{\beta_1x_{i1}}}{e^{\beta_1x_{i1}}+e^{k_1}}$$
 * $$\frac{\partial}{\partial\beta_1}L(\overrightarrow{\beta}) = -\sum_{i=1}^N x_{i1}(y_i-\hat{y}_i) = \sum_{i=1}^N x_{i1}(\hat{y}_i-y_i)$$

इसी तरह, हम अंततः वांछित परिणाम प्राप्त करते हैं।

यह भी देखें

 * क्रॉस-एन्ट्रॉपी विधि
 * संभार तन्त्र परावर्तन
 * सशर्त एन्ट्रापी
 * अधिकतम संभावना अनुमान
 * आपसी जानकारी

बाहरी संबंध

 * Cross Entropy