क्रॉस एन्ट्रापी: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Information theory measure}} {{Information theory}} सूचना सिद्धांत में, दो संभाव्यता वितर...")
 
No edit summary
 
(5 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Information theory measure}}
{{Short description|Information theory measure}}
{{Information theory}}
{{Information theory}}
[[सूचना सिद्धांत]] में, दो संभाव्यता वितरणों के बीच क्रॉस-एन्ट्रॉपी <math>p</math> और <math>q</math> यदि सेट के लिए उपयोग की जाने वाली कोडिंग योजना अनुमानित संभाव्यता वितरण के लिए अनुकूलित है, तो घटनाओं के समान अंतर्निहित सेट पर सेट से खींची गई घटना की पहचान करने के लिए आवश्यक [[ अंश ]]्स की औसत संख्या को मापता है। <math>q</math>, वास्तविक वितरण के बजाय <math>p</math>.
[[सूचना सिद्धांत]] में, दो संभाव्यता वितरणों <math>p</math> और <math>q</math> के मध्य '''तिर्यक्-एन्ट्रॉपी''' यदि समुच्चय के लिए उपयोग की जाने वाली कोडन योजना अनुमानित वास्तविक वितरण  <math>p</math> के बजाय संभाव्यता वितरण <math>q</math> के लिए अनुकूलित है, तो घटनाओं के समान अंतर्निहित समुच्चय पर समुच्चय से खींची गई घटना की पहचान करने के लिए आवश्यक [[ अंश |अंश]] की औसत संख्या को मापता है।  


== परिभाषा ==
== परिभाषा ==
वितरण की क्रॉस-एन्ट्रॉपी <math>q</math> वितरण के सापेक्ष <math>p</math> किसी दिए गए सेट को इस प्रकार परिभाषित किया गया है:
वितरण <math>q</math> की तिर्यक्-एन्ट्रॉपी वितरण <math>p</math> के सापेक्ष किसी दिए गए समुच्चय को इस प्रकार परिभाषित किया गया है:


:<math>H(p, q) = -\operatorname{E}_p[\log q]</math>,
:<math>H(p, q) = -\operatorname{E}_p[\log q]</math>


कहाँ <math>E_p[\cdot]</math> वितरण के संबंध में [[अपेक्षित मूल्य]] ऑपरेटर है <math>p</math>.
जहाँ <math>E_p[\cdot]</math> वितरण <math>p</math> के संबंध में [[अपेक्षित मूल्य|अपेक्षित मान]] संचालक है।


परिभाषा कुल्बैक-लीब्लर विचलन का उपयोग करके तैयार की जा सकती है <math>D_{\mathrm{KL}}(p \parallel q)</math>, का विचलन <math>p</math> से <math>q</math> (की सापेक्ष एन्ट्रापी के रूप में भी जाना जाता है <math>p</math> इसके संबंध में <math>q</math>).
परिभाषा कुल्बैक-लीब्लर विचलन <math>D_{\mathrm{KL}}(p \parallel q)</math> का उपयोग करके तैयार की जा सकती है, विचलन <math>p</math> से <math>q</math> का (इसके संबंध में <math>q</math>, <math>p</math> की सापेक्ष एन्ट्रापी के रूप में भी जाना जाता है)


:<math>H(p, q) = H(p) + D_{\mathrm{KL}}(p \parallel q),</math>
:<math>H(p, q) = H(p) + D_{\mathrm{KL}}(p \parallel q),</math>
कहाँ <math>H(p)</math> की [[सूचना एन्ट्रापी]] है <math>p</math>.
जहाँ <math>H(p)</math> की [[सूचना एन्ट्रापी|एन्ट्रापी]] <math>p</math> है।


[[असतत यादृच्छिक चर]] संभाव्यता वितरण के लिए <math>p</math> और <math>q</math> उसी समर्थन के साथ (माप सिद्धांत) <math>\mathcal{X}</math> इसका मतलब यह है
[[असतत यादृच्छिक चर|असतत]] संभाव्यता वितरण <math>p</math> और <math>q</math> के लिए, उसी समर्थन <math>\mathcal{X}</math> के साथ (माप सिद्धांत) इसका अर्थ यह है:


{{Equation box 1
{{Equation box 1
Line 26: Line 26:
|background colour=#F5FFFA}}
|background colour=#F5FFFA}}


[[निरंतर यादृच्छिक चर]] वितरण की स्थिति अनुरूप है। हमें यह मानना ​​होगा <math>p</math> और <math>q</math> कुछ संदर्भ [[माप (गणित)]] के संबंध में [[बिल्कुल निरंतर]] हैं <math>r</math> (आम तौर पर <math>r</math> [[बोरेल सेट]] सिग्मा-बीजगणित|σ-बीजगणित) पर एक [[लेब्सेग माप]] है। होने देना <math>P</math> और <math>Q</math> की संभाव्यता घनत्व फलन हो <math>p</math> और <math>q</math> इसके संबंध में <math>r</math>. तब
[[निरंतर यादृच्छिक चर|सतत]] वितरण की स्थिति समान है। हमें यह मानना ​​होगा कि कुछ संदर्भ माप <math>r</math> के संबंध में  <math>p</math> और <math>q</math> बिल्कुल [[निरंतर यादृच्छिक चर|सतत]] हैं (सामान्यतः <math>r</math> [[बोरेल सेट|बोरेल]] σ-बीजगणित पर एक [[लेब्सेग माप]] है। मान लीजिए कि <math>P</math> और <math>Q</math><math>p</math> और <math>q</math> के संभाव्यता घनत्व फलन <math>r</math> हैं। तब


:<math>-\int_\mathcal{X} P(x)\, \log Q(x)\, dr(x) = \operatorname{E}_p[-\log Q]</math>
:<math>-\int_\mathcal{X} P(x)\, \log Q(x)\, dr(x) = \operatorname{E}_p[-\log Q]</math>
Line 40: Line 40:
|background colour=#F5FFFA}}
|background colour=#F5FFFA}}


एनबी: संकेतन <math>H(p,q)</math> का उपयोग एक अलग अवधारणा, [[संयुक्त एन्ट्रापी]] के लिए भी किया जाता है <math>p</math> और <math>q</math>.
एनबी: संकेतन <math>H(p,q)</math> का उपयोग एक अलग अवधारणा, [[संयुक्त एन्ट्रापी]] <math>p</math> और <math>q</math> के लिए भी किया जाता है।


== प्रेरणा ==
== प्रेरणा ==
सूचना सिद्धांत में, क्राफ्ट की असमानता | क्राफ्ट-मैकमिलन प्रमेय स्थापित करता है कि एक मूल्य की पहचान करने के लिए किसी संदेश को कोड करने के लिए कोई भी सीधे डिकोड करने योग्य कोडिंग योजना <math>x_i</math> संभावनाओं के एक सेट से बाहर <math>\{x_1,\ldots,x_n\}</math> इसे एक अंतर्निहित संभाव्यता वितरण का प्रतिनिधित्व करने के रूप में देखा जा सकता है <math>q(x_i) = \left(\frac{1}{2}\right)^{\ell_i}</math> ऊपर <math>\{x_1, \ldots, x_n\}</math>, कहाँ <math>\ell_i</math> के लिए कोड की लंबाई है <math>x_i</math> टुकड़ों में. इसलिए, गलत वितरण होने पर क्रॉस-एन्ट्रॉपी की व्याख्या प्रति डेटा अपेक्षित संदेश-लंबाई के रूप में की जा सकती है <math>q</math> मान लिया गया है जबकि डेटा वास्तव में एक वितरण का अनुसरण करता है <math>p</math>. इसीलिए अपेक्षा को वास्तविक संभाव्यता वितरण पर ले लिया जाता है <math>p</math> और नहीं <math>q</math>. वास्तव में वास्तविक वितरण के तहत अपेक्षित संदेश-लंबाई <math>p</math> है
सूचना सिद्धांत में, क्राफ्ट-मैकमिलन प्रमेय स्थापित करता है कि एक मान की पहचान करने के लिए किसी संकेत को कोड करने के लिए कोई भी सीधे डिकोड करने योग्य कोडन योजना <math>x_i</math> संभावनाओं के एक समुच्चय से बाहर <math>\{x_1,\ldots,x_n\}</math> को एक अंतर्निहित संभाव्यता वितरण <math>q(x_i) = \left(\frac{1}{2}\right)^{\ell_i}</math> के ऊपर <math>\{x_1, \ldots, x_n\}</math> का प्रतिनिधित्व करने के रूप में देखा जा सकता है, जहाँ <math>\ell_i</math> के लिए कोड की लंबाई <math>x_i</math> द्वयंकों में है। इसलिए, गलत वितरण <math>q</math> होने पर तिर्यक्-एन्ट्रॉपी की व्याख्या प्रति प्रदत्त अपेक्षित संकेत-लंबाई के रूप में की जा सकती है, मान लिया गया है जबकि प्रदत्त वास्तव में एक वितरण <math>p</math> का अनुसरण करता है। इसीलिए अपेक्षा को वास्तविक संभाव्यता वितरण <math>p</math> पर ले लिया जाता है और <math>q</math> पर नहीं। वास्तव में वास्तविक वितरण <math>p</math> के अंतर्गत अपेक्षित संकेत-लंबाई है।


:<math> \operatorname{E}_p[\ell] = - \operatorname{E}_p\left[\frac{\ln{q(x)}}{\ln(2)}\right] = - \operatorname{E}_p\left[\log_2 {q(x)}\right] = - \sum_{x_i} p(x_i)\, \log_2 q(x_i)  = -\sum_x p(x)\, \log_2 q(x) = H(p, q). </math>
:<math> \operatorname{E}_p[\ell] = - \operatorname{E}_p\left[\frac{\ln{q(x)}}{\ln(2)}\right] = - \operatorname{E}_p\left[\log_2 {q(x)}\right] = - \sum_{x_i} p(x_i)\, \log_2 q(x_i)  = -\sum_x p(x)\, \log_2 q(x) = H(p, q). </math>
Line 49: Line 49:


== अनुमान ==
== अनुमान ==
ऐसी कई स्थितियाँ हैं जहाँ क्रॉस-एन्ट्रॉपी को मापने की आवश्यकता है लेकिन वितरण <math>p</math> अज्ञात है। एक उदाहरण [[भाषा मॉडल]]िंग है, जहां एक प्रशिक्षण सेट के आधार पर एक मॉडल बनाया जाता है <math>T</math>, और फिर इसकी क्रॉस-एन्ट्रॉपी को एक परीक्षण सेट पर मापा जाता है ताकि यह आकलन किया जा सके कि परीक्षण डेटा की भविष्यवाणी करने में मॉडल कितना सटीक है। इस उदाहरण में, <math>p</math> किसी भी कोष में शब्दों का वास्तविक वितरण है, और <math>q</math> मॉडल द्वारा अनुमानित शब्दों का वितरण है। चूँकि वास्तविक वितरण अज्ञात है, क्रॉस-एन्ट्रापी की सीधे गणना नहीं की जा सकती। इन मामलों में, क्रॉस-एन्ट्रॉपी के अनुमान की गणना निम्नलिखित सूत्र का उपयोग करके की जाती है:
ऐसी कई स्थितियाँ हैं जहाँ तिर्यक्-एन्ट्रॉपी को मापने की आवश्यकता है परन्तु वितरण <math>p</math> अज्ञात है। एक उदाहरण [[भाषा मॉडल|भाषा मॉडलिंग]] है, जहां एक प्रशिक्षण समुच्चय के आधार पर एक निदर्श <math>T</math> बनाया जाता है और फिर इसकी तिर्यक्-एन्ट्रॉपी को एक परीक्षण समुच्चय पर मापा जाता है ताकि यह आकलन किया जा सके कि परीक्षण प्रदत्त की भविष्यवाणी करने में निदर्श कितना सटीक है। इस उदाहरण में, <math>p</math> किसी भी कोष में शब्दों का वास्तविक वितरण है, और <math>q</math> निदर्श द्वारा अनुमानित शब्दों का वितरण है। चूँकि वास्तविक वितरण अज्ञात है, तिर्यक्-एन्ट्रापी की सीधे गणना नहीं की जा सकती। इन स्थितियों में, तिर्यक्-एन्ट्रॉपी के अनुमान की गणना निम्नलिखित सूत्र का उपयोग करके की जाती है:


:<math>H(T,q) = -\sum_{i=1}^N \frac{1}{N} \log_2 q(x_i)</math>
:<math>H(T,q) = -\sum_{i=1}^N \frac{1}{N} \log_2 q(x_i)</math>
कहाँ <math>N</math> परीक्षण सेट का आकार है, और <math>q(x)</math> घटना की संभावना है <math>x</math> प्रशिक्षण सेट से अनुमान लगाया गया। दूसरे शब्दों में, <math>q(x_i)</math> मॉडल का संभाव्यता अनुमान है कि पाठ का i-वां शब्द है <math>x_i</math>. राशि का औसत निकाला जाता है <math>N</math> परीक्षण के शब्द. यह वास्तविक क्रॉस-एन्ट्रॉपी की एक [[मोंटे कार्लो विधि]] है, जहां परीक्षण सेट को नमूने के रूप में माना जाता है <math>p(x)</math>{{Citation needed|reason=Needs to be proved|date=May 2019}}.
जहाँ <math>N</math> परीक्षण समुच्चय का आकार और <math>q(x)</math> घटना की प्रायिकता <math>x</math> है, प्रशिक्षण समुच्चय से अनुमान लगाया गया। दूसरे शब्दों में, <math>q(x_i)</math> निदर्श का प्रायिकता अनुमान है कि पाठ का i-वां शब्द <math>x_i</math>है। <math>N</math> परीक्षण के शब्द के योग का औसत निकाला जाता है। यह वास्तविक तिर्यक्-एन्ट्रॉपी की एक [[मोंटे कार्लो विधि]] है, जहां परीक्षण समुच्चय को निदर्श <math>p(x)</math> के रूप में माना जाता है।{{Citation needed|reason=सिद्ध करने की आवश्यकता है|date=मई 2019}}


== अधिकतम संभावना से संबंध ==
== अधिकतम संभावना से संबंध ==


वर्गीकरण समस्याओं में हम विभिन्न परिणामों की संभावना का अनुमान लगाना चाहते हैं। मान लीजिए परिणाम की अनुमानित संभावना है <math>i</math> होना <math>q_{\theta}(X=i)</math> अनुकूलित मापदंडों के साथ <math>\theta</math> और परिणाम की आवृत्ति (अनुभवजन्य संभाव्यता) दें <math>i</math> प्रशिक्षण सेट में हो <math>p(X=i)</math>.
वर्गीकरण समस्याओं में हम विभिन्न परिणामों की प्रायिकता का अनुमान लगाना चाहते हैं। मान लीजिए कि परिणाम की अनुमानित प्रायिकता <math>i</math> है, <math>q_{\theta}(X=i)</math> अनुकूलित किए जाने वाले मापदंडों <math>\theta</math> के साथ और परिणाम की आवृत्ति (अनुभवजन्य प्रायिकता), <math>i</math> प्रशिक्षण में समुच्चय  <math>p(X=i)</math>हैं। प्रशिक्षण समुच्चय में N [[सशर्त रूप से स्वतंत्र]] निदर्शो को देखते हुए, मापदंडों <math>\theta</math> की [[संभावना|प्रायिकता]] का निदर्श <math>q_{\theta}(X=x)</math> प्रशिक्षण समुच्चय पर है।
प्रशिक्षण सेट में एन [[सशर्त रूप से स्वतंत्र]] नमूनों को देखते हुए, मापदंडों की [[संभावना]] <math>\theta</math> मॉडल का <math>q_{\theta}(X=x)</math> प्रशिक्षण सेट पर है


:<math>\mathcal{L}(\theta)=\prod_{i \in X} (\mbox{est. probability of } i)^{\mbox{number of occurrences of } i} = \prod_i q_{\theta}(X=i)^{N p(X=i)}</math>
:<math>\mathcal{L}(\theta)=\prod_{i \in X} (\mbox{est. probability of } i)^{\mbox{number of occurrences of } i} = \prod_i q_{\theta}(X=i)^{N p(X=i)}</math>
जहां अंतिम अभिव्यक्ति बहुपद पीएमएफ की परिभाषा के कारण है। इसलिए, लॉग-संभावना, से विभाजित है <math>N</math> है
जहां अंतिम अभिव्यक्ति बहुपद पीएमएफ की परिभाषा के कारण है। इसलिए, लॉग-संभावना से विभाजित <math>N</math> है।


:<math>\frac{1}{N}\log(\mathcal{L}(\theta))=\frac{1}{N} \log \prod_i q_{\theta}(X=i)^{N p(X=i)} = \sum_i p(X=i) \log q_{\theta}(X=i) = -H(p, q)</math>
:<math>\frac{1}{N}\log(\mathcal{L}(\theta))=\frac{1}{N} \log \prod_i q_{\theta}(X=i)^{N p(X=i)} = \sum_i p(X=i) \log q_{\theta}(X=i) = -H(p, q)</math>
ताकि मापदंडों के संबंध में [[अधिकतम संभावना अनुमान]] लगाया जा सके <math>\theta</math> क्रॉस-एन्ट्रॉपी को कम करने के समान है।{{Citation needed|date=November 2022}}
ताकि मापदंडों <math>\theta</math> के संबंध में संभावना को अधिकतम किया जा सके, तिर्यक्-एन्ट्रॉपी को कम करने के समान है।{{Citation needed|date=नवंबर 2022}}


== क्रॉस-एन्ट्रॉपी न्यूनतमकरण ==
== तिर्यक्-एन्ट्रॉपी न्यूनतमकरण ==
{{Main|Cross-entropy method}}
{{Main|तिर्यक्-एन्ट्रॉपी विधि}}


क्रॉस-एन्ट्रॉपी न्यूनतमकरण का उपयोग अक्सर अनुकूलन और दुर्लभ-घटना संभाव्यता आकलन में किया जाता है। किसी वितरण की तुलना करते समय <math>q</math> एक निश्चित संदर्भ वितरण के विरुद्ध <math>p</math>, क्रॉस-एन्ट्रॉपी और कुल्बैक-लीब्लर विचलन एक योगात्मक स्थिरांक तक समान हैं (चूंकि <math>p</math> निश्चित है): गिब्स की असमानता के अनुसार, जब दोनों अपने न्यूनतम मान लेते हैं <math>p = q</math>, जो है <math>0</math> केएल विचलन के लिए, और <math>\mathrm{H}(p)</math> क्रॉस-एन्ट्रॉपी के लिए. इंजीनियरिंग साहित्य में, केएल विचलन को कम करने के सिद्धांत (कुलबैक के कुलबैक-लीबलर विचलन#न्यूनतम भेदभाव जानकारी का सिद्धांत) को अक्सर न्यूनतम क्रॉस-एन्ट्रॉपी (एमसीई), या मिनक्सेंट का सिद्धांत कहा जाता है।
तिर्यक्-एन्ट्रॉपी न्यूनतमकरण का उपयोग प्रायः अनुकूलन और दुर्लभ-घटना संभाव्यता आकलन में किया जाता है। किसी वितरण <math>q</math> की तुलना करते समय एक निश्चित संदर्भ वितरण <math>p</math> के विरुद्ध, तिर्यक्-एन्ट्रॉपी और कुल्बैक-लीब्लर विचलन एक योगात्मक स्थिरांक तक समान हैं (चूंकि <math>p</math> निश्चित है): गिब्स की असमानता के अनुसार, केएल विचलन के लिए और <math>\mathrm{H}(p)</math> तिर्यक्-एन्ट्रॉपी के लिए, जब दोनों अपने न्यूनतम मान <math>p = q</math> लेते हैं, जो <math>0</math> है। अभियांत्रिकी साहित्य में, केएल विचलन को कम करने के सिद्धांत (कुल्बैक के "न्यूनतम विभेदन सूचना का सिद्धांत") को प्रायः न्यूनतम तिर्यक्-एन्ट्रॉपी (MCE), या मिनक्सेंट का सिद्धांत कहा जाता है।


हालाँकि, जैसा कि लेख ''कुल्बैक-लीब्लर डाइवर्जेंस'' में चर्चा की गई है, कभी-कभी वितरण <math>q</math> निश्चित पूर्व संदर्भ वितरण, और वितरण है <math>p</math> के करीब होने के लिए अनुकूलित किया गया है <math>q</math> यथासंभव, कुछ बाधाओं के अधीन। इस मामले में दोनों न्यूनतमकरण समतुल्य नहीं हैं। इससे साहित्य में कुछ अस्पष्टता पैदा हो गई है, कुछ लेखकों ने क्रॉस-एन्ट्रॉपी को पुनः स्थापित करके असंगतता को हल करने का प्रयास किया है। <math>D_{\mathrm{KL}}(p \parallel q)</math>, इसके बजाय <math>H(p, q)</math>. वास्तव में, क्रॉस-एंट्रॉपी सापेक्ष एन्ट्रॉपी का दूसरा नाम है, कवर और थॉमस देखें <ref>Thomas M. Cover, Joy A. Thomas, Elements of Information Theory, 2nd Edition, Wiley, p. 80 </ref> और अच्छा।<ref> I. J. Good, Maximum Entropy for Hypothesis Formulation, Especially for Multidimensional Contingency Table, Ann. of Math. Statistics, 1963</ref> वहीं दूसरी ओर, <math>H(p, q)</math> साहित्य से सहमत नहीं है और भ्रामक हो सकता है।
हालाँकि, जैसा कि लेख में चर्चा की गई है कुल्बैक-लीब्लर विचलन, कभी-कभी वितरण <math>q</math> निश्चित पूर्व संदर्भ वितरण और वितरण <math>p</math> है। यथासंभव, <math>q</math> कुछ बाधाओं के अधीन समीप होने के लिए अनुकूलित किया गया है। इस स्थिति में दोनों न्यूनतमकरण समतुल्य नहीं हैं। इससे साहित्य में कुछ अस्पष्टता उत्पन्न हो गई है, कुछ लेखकों ने तिर्यक्-एन्ट्रॉपी <math>D_{\mathrm{KL}}(p \parallel q)</math> और इसके बजाय <math>H(p, q)</math> को पुनः स्थापित करके असंगतता को हल करने का प्रयास किया है। वास्तव में, तिर्यक्-एंट्रॉपी सापेक्ष एन्ट्रॉपी का दूसरा नाम है, कवर और थॉमस <ref>Thomas M. Cover, Joy A. Thomas, Elements of Information Theory, 2nd Edition, Wiley, p. 80 </ref> और अच्छा देखें।<ref> I. J. Good, Maximum Entropy for Hypothesis Formulation, Especially for Multidimensional Contingency Table, Ann. of Math. Statistics, 1963</ref> वहीं दूसरी ओर, <math>H(p, q)</math> साहित्य से सहमत नहीं है और भ्रामक हो सकता है।


== क्रॉस-एन्ट्रॉपी हानि फ़ंक्शन और लॉजिस्टिक रिग्रेशन ==
== तिर्यक्-एन्ट्रॉपी हानि फलन और तार्किक प्रतिक्रमण ==
[[ यंत्र अधिगम ]] और [[अनुकूलन]] में हानि फ़ंक्शन को परिभाषित करने के लिए क्रॉस-एन्ट्रॉपी का उपयोग किया जा सकता है। सच्ची संभावना <math>p_i</math> सही लेबल और दिया गया वितरण है <math>q_i</math> वर्तमान मॉडल का अनुमानित मूल्य है। इसे लॉग लॉस (या लॉगरिदमिक लॉस) के रूप में भी जाना जाता है<ref>''The Mathematics of Information Coding, Extraction and Distribution'', by George Cybenko, Dianne P. O'Leary, Jorma Rissanen, 1999, [https://books.google.com/books?id=jDrp4QEGioMC&dq=%22logarithmic+loss%22+%22log+loss%22&pg=PA82 p. 82]</ref> या रसद हानि);<ref>''Probability for Machine Learning: Discover How To Harness Uncertainty With Python'', Jason Brownlee, 2019, p. 220: "Logistic loss refers to the loss function commonly used to optimize a logistic regression model. It may also be referred to as logarithmic loss (which is confusing) or simply log loss."</ref> लॉग लॉस और क्रॉस-एन्ट्रॉपी लॉस शब्द परस्पर विनिमय के लिए उपयोग किए जाते हैं।<ref>[https://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html sklearn.metrics.log_loss]</ref>
[[ यंत्र अधिगम |यंत्र अधिगम]] और [[अनुकूलन]] में हानि फलनों को परिभाषित करने के लिए तिर्यक्-एन्ट्रॉपी का उपयोग किया जा सकता है। वास्तविक संभावना <math>p_i</math> वास्तविक लेबल और दिया गया वितरण <math>q_i</math> है। वर्तमान निदर्श का अनुमानित मान है। इसे लॉग हानि (या लघुगणक हानि या तार्किक हानि) के रूप में भी जाना जाता है;<ref>''The Mathematics of Information Coding, Extraction and Distribution'', by George Cybenko, Dianne P. O'Leary, Jorma Rissanen, 1999, [https://books.google.com/books?id=jDrp4QEGioMC&dq=%22logarithmic+loss%22+%22log+loss%22&pg=PA82 p. 82]</ref> लॉग हानि और तिर्यक्-एन्ट्रॉपी हानि शब्द परस्पर विनिमय के लिए उपयोग किए जाते हैं।<ref>[https://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html sklearn.metrics.log_loss]</ref>
अधिक विशेष रूप से, एक [[ द्विआधारी प्रतिगमन ]] मॉडल पर विचार करें जिसका उपयोग टिप्पणियों को दो संभावित वर्गों में वर्गीकृत करने के लिए किया जा सकता है (अक्सर बस लेबल किया जाता है) <math>0</math> और <math>1</math>). किसी दिए गए अवलोकन के लिए मॉडल का आउटपुट, इनपुट सुविधाओं का एक वेक्टर दिया गया है <math> x </math>, एक संभाव्यता के रूप में व्याख्या की जा सकती है, जो अवलोकन को वर्गीकृत करने के आधार के रूप में कार्य करती है। [[ संभार तन्त्र परावर्तन ]] में, संभावना को [[लॉजिस्टिक फ़ंक्शन]] का उपयोग करके मॉडल किया जाता है <math>g(z) = 1/(1+e^{-z})</math> कहाँ <math> z </math> इनपुट वेक्टर का कुछ कार्य है <math>x</math>, आमतौर पर सिर्फ एक रैखिक कार्य। आउटपुट की संभावना <math>y=1</math> द्वारा दिया गया है
 
अधिक विशेष रूप से, एक [[ द्विआधारी प्रतिगमन |द्विआधारी प्रतिक्रमण]] निदर्श पर विचार करें जिसका उपयोग टिप्पणियों को दो संभावित वर्गों में वर्गीकृत करने के लिए किया जा सकता है (प्रायः केवल  <math>0</math> और <math>1</math> लेबल किया जाता है)किसी दिए गए अवलोकन के लिए निदर्श का प्रेक्षण, निविष्टि सुविधाओं का एक सदिश <math> x </math> दिया गया है, एक संभाव्यता के रूप में व्याख्या की जा सकती है, जो अवलोकन को वर्गीकृत करने के आधार के रूप में कार्य करती है। [[लॉजिस्टिक फ़ंक्शन|तार्किक]] प्रतिक्रमण में, संभावना को [[लॉजिस्टिक फ़ंक्शन|तार्किक फलन]] <math>g(z) = 1/(1+e^{-z})</math> का उपयोग करके निदर्श किया जाता है जहाँ <math> z </math> निविष्टि सदिश के कुछ फलन <math>x</math> है, सामान्यतः केवल एक रैखिक फलन है। प्रेक्षण की संभावना <math>y=1</math> द्वारा दी गयी है।
: <math>q_{y=1} = \hat{y} \equiv g(\mathbf{w}\cdot\mathbf{x}) = \frac 1 {1+e^{-\mathbf{w}\cdot\mathbf{x}}},</math>
: <math>q_{y=1} = \hat{y} \equiv g(\mathbf{w}\cdot\mathbf{x}) = \frac 1 {1+e^{-\mathbf{w}\cdot\mathbf{x}}},</math>
जहां वजन का वेक्टर <math>\mathbf{w}</math> कुछ उपयुक्त एल्गोरिदम जैसे कि [[ ढतला हुआ वंश ]] के माध्यम से अनुकूलित किया गया है। इसी प्रकार, आउटपुट खोजने की पूरक संभावना <math>y=0</math> बस द्वारा दिया गया है
जहां भार का सदिश <math>\mathbf{w}</math> को प्रवणता अवरोहांक जैसे कुछ उपयुक्त कलन विधियों के माध्यम से अनुकूलित किया गया है। इसी प्रकार, प्रेक्षण खोजने की पूरक संभावना केवल <math>y=0</math> द्वारा दी गयी है।
: <math>q_{y=0} = 1-\hat{y}</math>
: <math>q_{y=0} = 1-\hat{y}</math>
अपना अंकन स्थापित करने के बाद, <math>p\in\{y,1-y\}</math> और <math>q\in\{\hat{y},1-\hat{y}\}</math>, हम बीच असमानता का माप प्राप्त करने के लिए क्रॉस-एन्ट्रॉपी का उपयोग कर सकते हैं <math>p</math> और <math>q</math>:
अपना अंकन स्थापित करने के बाद, <math>p\in\{y,1-y\}</math> और <math>q\in\{\hat{y},1-\hat{y}\}</math>, हम <math>p</math> और <math>q</math> के मध्य असमानता का माप प्राप्त करने के लिए तिर्यक्-एन्ट्रॉपी का उपयोग कर सकते हैं:
:<math>H(p,q)\ =\ -\sum_i p_i\log q_i\ =\ -y\log\hat{y} - (1-y)\log(1-\hat{y})</math>
:<math>H(p,q)\ =\ -\sum_i p_i\log q_i\ =\ -y\log\hat{y} - (1-y)\log(1-\hat{y})</math>
लॉजिस्टिक रिग्रेशन आम तौर पर उन सभी अवलोकनों के लिए लॉग लॉस को अनुकूलित करता है जिन पर इसे प्रशिक्षित किया जाता है, जो नमूने में औसत क्रॉस-एन्ट्रॉपी को अनुकूलित करने के समान है। उदाहरण के लिए, मान लीजिए हमारे पास है <math>N</math> प्रत्येक नमूने के साथ नमूने अनुक्रमित <math>n=1,\dots,N</math>. हानि फ़ंक्शन का औसत तब दिया जाता है:
तार्किक प्रतिक्रमण सामान्यतः उन सभी अवलोकनों के लिए लॉग हानि को अनुकूलित करता है जिन पर इसे प्रशिक्षित किया जाता है, जो निदर्श में औसत तिर्यक्-एन्ट्रॉपी को अनुकूलित करने के समान है। उदाहरण के लिए, मान लीजिए हमारे पास, <math>N</math> प्रत्येक निदर्श के साथ निदर्श अनुक्रमित <math>n=1,\dots,N</math> है। हानि फलन का औसत तब दिया जाता है:


: <math>\begin{align}
: <math>\begin{align}
     J(\mathbf{w})\ &=\ \frac1N\sum_{n=1}^N H(p_n,q_n)\ =\ -\frac1N\sum_{n=1}^N\ \bigg[y_n  \log \hat y_n + (1 - y_n)  \log (1 - \hat y_n)\bigg]\,,
     J(\mathbf{w})\ &=\ \frac1N\sum_{n=1}^N H(p_n,q_n)\ =\ -\frac1N\sum_{n=1}^N\ \bigg[y_n  \log \hat y_n + (1 - y_n)  \log (1 - \hat y_n)\bigg]\,,
\end{align}</math>
\end{align}</math>
कहाँ <math>\hat{y}_n\equiv g(\mathbf{w}\cdot\mathbf{x}_n) = 1/(1+e^{-\mathbf{w}\cdot\mathbf{x}_n}) </math>, साथ <math>g(z)</math> पहले की तरह लॉजिस्टिक फ़ंक्शन।
जहाँ <math>\hat{y}_n\equiv g(\mathbf{w}\cdot\mathbf{x}_n) = 1/(1+e^{-\mathbf{w}\cdot\mathbf{x}_n}) </math>, <math>g(z)</math> के साथ पहले की तरह तार्किक फलन है।
 
तार्किक हानि को कभी-कभी तिर्यक्-एन्ट्रॉपी हानि कहा जाता है। इसे लॉग हानि के रूप में भी जाना जाता है (इस स्थिति में, द्वि-आधारी लेबल को प्रायः {−1,+1} द्वारा दर्शाया जाता है)।<ref>{{cite book |last1=Murphy |first1=Kevin|date=2012 |title=Machine Learning: A Probabilistic Perspective |publisher=MIT |isbn=978-0262018029 }}</ref>


लॉजिस्टिक हानि को कभी-कभी क्रॉस-एन्ट्रॉपी हानि कहा जाता है। इसे लॉग लॉस के रूप में भी जाना जाता है (इस मामले में, बाइनरी लेबल को अक्सर {−1,+1} द्वारा दर्शाया जाता है)।<ref>{{cite book |last1=Murphy |first1=Kevin|date=2012 |title=Machine Learning: A Probabilistic Perspective |publisher=MIT |isbn=978-0262018029 }}</ref>
टिप्पणी: तार्किक प्रतिक्रमण के लिए तिर्यक्-एन्ट्रॉपी हानि का प्रवणता रैखिक प्रतिक्रमण के लिए वर्ग त्रुटि हानि के प्रवणता के समान है। अर्थात परिभाषित करें:
टिप्पणी: लॉजिस्टिक रिग्रेशन के लिए क्रॉस-एन्ट्रॉपी हानि का ग्रेडिएंट रैखिक रिग्रेशन के लिए वर्ग त्रुटि हानि के ग्रेडिएंट के समान है। यानी परिभाषित करें


:<math>X^T=\begin{pmatrix}
:<math>X^T=\begin{pmatrix}
Line 98: Line 99:
: <math>\hat{y_i} = \hat{f}(x_{i1},\dots,x_{ip}) = \frac{1}{1+\exp(-\beta_0-\beta_1x_{i1}-\dots-\beta_px_{ip})}</math>
: <math>\hat{y_i} = \hat{f}(x_{i1},\dots,x_{ip}) = \frac{1}{1+\exp(-\beta_0-\beta_1x_{i1}-\dots-\beta_px_{ip})}</math>
: <math>L(\overrightarrow{\beta})=-\sum_{i=1}^N [y_i\log \hat{y}_i+(1-y_i)\log(1-\hat{y}_i)]</math>
: <math>L(\overrightarrow{\beta})=-\sum_{i=1}^N [y_i\log \hat{y}_i+(1-y_i)\log(1-\hat{y}_i)]</math>
फिर हमारे पास परिणाम है
फिर हमारे पास परिणाम है:


: <math>\frac{\partial}{\partial\overrightarrow{\beta}}L(\overrightarrow{\beta})=X^T(\hat{Y}-Y)</math>
: <math>\frac{\partial}{\partial\overrightarrow{\beta}}L(\overrightarrow{\beta})=X^T(\hat{Y}-Y)</math>
प्रमाण इस प्रकार है. किसी के लिए <math>\hat{y}_i</math>, अपने पास
प्रमाण इस प्रकार है। किसी <math>\hat{y}_i</math> के लिए, अपने पास है:


: <math>\frac{\partial}{\partial\beta_0}\ln\frac{1}{1+e^{-\beta_0+k_0}} = \frac{e^{-\beta_0+k_0}}{1+e^{-\beta_0+k_0}}</math>
: <math>\frac{\partial}{\partial\beta_0}\ln\frac{1}{1+e^{-\beta_0+k_0}} = \frac{e^{-\beta_0+k_0}}{1+e^{-\beta_0+k_0}}</math>
Line 115: Line 116:


== यह भी देखें ==
== यह भी देखें ==
* [[क्रॉस-एन्ट्रॉपी विधि]]
* [[क्रॉस-एन्ट्रॉपी विधि|तिर्यक्-एन्ट्रॉपी विधि]]
* संभार तन्त्र परावर्तन
* तार्किक प्रतिक्रमण
* [[सशर्त एन्ट्रापी]]
* [[सशर्त एन्ट्रापी|प्रतिबंधी एन्ट्रापी]]
* अधिकतम संभावना अनुमान
* अधिकतम संभावना अनुमान
*[[आपसी जानकारी]]
*[[आपसी जानकारी|परस्पर सूचना]]


== संदर्भ ==
== संदर्भ ==
Line 128: Line 129:
* [http://heliosphan.org/cross-entropy.html Cross Entropy]
* [http://heliosphan.org/cross-entropy.html Cross Entropy]


{{DEFAULTSORT:Cross Entropy}}[[Category: एन्ट्रापी और सूचना]] [[Category: हानि कार्य]]
{{DEFAULTSORT:Cross Entropy}}
 
 


[[Category: Machine Translated Page]]
[[Category:All articles with unsourced statements|Cross Entropy]]
[[Category:Created On 08/07/2023]]
[[Category:Articles with hatnote templates targeting a nonexistent page|Cross Entropy]]
[[Category:Articles with invalid date parameter in template|Cross Entropy]]
[[Category:Articles with unsourced statements from नवंबर 2022|Cross Entropy]]
[[Category:Articles with unsourced statements from मई 2019|Cross Entropy]]
[[Category:Created On 08/07/2023|Cross Entropy]]
[[Category:Lua-based templates|Cross Entropy]]
[[Category:Machine Translated Page|Cross Entropy]]
[[Category:Pages with script errors|Cross Entropy]]
[[Category:Templates Vigyan Ready|Cross Entropy]]
[[Category:Templates that add a tracking category|Cross Entropy]]
[[Category:Templates that generate short descriptions|Cross Entropy]]
[[Category:Templates using TemplateData|Cross Entropy]]
[[Category:एन्ट्रापी और सूचना|Cross Entropy]]
[[Category:हानि कार्य|Cross Entropy]]

Latest revision as of 16:14, 25 July 2023

सूचना सिद्धांत में, दो संभाव्यता वितरणों और के मध्य तिर्यक्-एन्ट्रॉपी यदि समुच्चय के लिए उपयोग की जाने वाली कोडन योजना अनुमानित वास्तविक वितरण के बजाय संभाव्यता वितरण के लिए अनुकूलित है, तो घटनाओं के समान अंतर्निहित समुच्चय पर समुच्चय से खींची गई घटना की पहचान करने के लिए आवश्यक अंश की औसत संख्या को मापता है।

परिभाषा

वितरण की तिर्यक्-एन्ट्रॉपी वितरण के सापेक्ष किसी दिए गए समुच्चय को इस प्रकार परिभाषित किया गया है:

जहाँ वितरण के संबंध में अपेक्षित मान संचालक है।

परिभाषा कुल्बैक-लीब्लर विचलन का उपयोग करके तैयार की जा सकती है, विचलन से का (इसके संबंध में , की सापेक्ष एन्ट्रापी के रूप में भी जाना जाता है)।

जहाँ की एन्ट्रापी है।

असतत संभाव्यता वितरण और के लिए, उसी समर्थन के साथ (माप सिद्धांत) इसका अर्थ यह है:

 

 

 

 

(Eq.1)

सतत वितरण की स्थिति समान है। हमें यह मानना ​​होगा कि कुछ संदर्भ माप के संबंध में और बिल्कुल सतत हैं (सामान्यतः बोरेल σ-बीजगणित पर एक लेब्सेग माप है। मान लीजिए कि और , और के संभाव्यता घनत्व फलन हैं। तब

और इसलिए

 

 

 

 

(Eq.2)

एनबी: संकेतन का उपयोग एक अलग अवधारणा, संयुक्त एन्ट्रापी और के लिए भी किया जाता है।

प्रेरणा

सूचना सिद्धांत में, क्राफ्ट-मैकमिलन प्रमेय स्थापित करता है कि एक मान की पहचान करने के लिए किसी संकेत को कोड करने के लिए कोई भी सीधे डिकोड करने योग्य कोडन योजना संभावनाओं के एक समुच्चय से बाहर को एक अंतर्निहित संभाव्यता वितरण के ऊपर का प्रतिनिधित्व करने के रूप में देखा जा सकता है, जहाँ के लिए कोड की लंबाई द्वयंकों में है। इसलिए, गलत वितरण होने पर तिर्यक्-एन्ट्रॉपी की व्याख्या प्रति प्रदत्त अपेक्षित संकेत-लंबाई के रूप में की जा सकती है, मान लिया गया है जबकि प्रदत्त वास्तव में एक वितरण का अनुसरण करता है। इसीलिए अपेक्षा को वास्तविक संभाव्यता वितरण पर ले लिया जाता है और पर नहीं। वास्तव में वास्तविक वितरण के अंतर्गत अपेक्षित संकेत-लंबाई है।


अनुमान

ऐसी कई स्थितियाँ हैं जहाँ तिर्यक्-एन्ट्रॉपी को मापने की आवश्यकता है परन्तु वितरण अज्ञात है। एक उदाहरण भाषा मॉडलिंग है, जहां एक प्रशिक्षण समुच्चय के आधार पर एक निदर्श बनाया जाता है और फिर इसकी तिर्यक्-एन्ट्रॉपी को एक परीक्षण समुच्चय पर मापा जाता है ताकि यह आकलन किया जा सके कि परीक्षण प्रदत्त की भविष्यवाणी करने में निदर्श कितना सटीक है। इस उदाहरण में, किसी भी कोष में शब्दों का वास्तविक वितरण है, और निदर्श द्वारा अनुमानित शब्दों का वितरण है। चूँकि वास्तविक वितरण अज्ञात है, तिर्यक्-एन्ट्रापी की सीधे गणना नहीं की जा सकती। इन स्थितियों में, तिर्यक्-एन्ट्रॉपी के अनुमान की गणना निम्नलिखित सूत्र का उपयोग करके की जाती है:

जहाँ परीक्षण समुच्चय का आकार और घटना की प्रायिकता है, प्रशिक्षण समुच्चय से अनुमान लगाया गया। दूसरे शब्दों में, निदर्श का प्रायिकता अनुमान है कि पाठ का i-वां शब्द है। परीक्षण के शब्द के योग का औसत निकाला जाता है। यह वास्तविक तिर्यक्-एन्ट्रॉपी की एक मोंटे कार्लो विधि है, जहां परीक्षण समुच्चय को निदर्श के रूप में माना जाता है।[citation needed]

अधिकतम संभावना से संबंध

वर्गीकरण समस्याओं में हम विभिन्न परिणामों की प्रायिकता का अनुमान लगाना चाहते हैं। मान लीजिए कि परिणाम की अनुमानित प्रायिकता है, अनुकूलित किए जाने वाले मापदंडों के साथ और परिणाम की आवृत्ति (अनुभवजन्य प्रायिकता), प्रशिक्षण में समुच्चय हैं। प्रशिक्षण समुच्चय में N सशर्त रूप से स्वतंत्र निदर्शो को देखते हुए, मापदंडों की प्रायिकता का निदर्श प्रशिक्षण समुच्चय पर है।

जहां अंतिम अभिव्यक्ति बहुपद पीएमएफ की परिभाषा के कारण है। इसलिए, लॉग-संभावना से विभाजित है।

ताकि मापदंडों के संबंध में संभावना को अधिकतम किया जा सके, तिर्यक्-एन्ट्रॉपी को कम करने के समान है।[citation needed]

तिर्यक्-एन्ट्रॉपी न्यूनतमकरण

तिर्यक्-एन्ट्रॉपी न्यूनतमकरण का उपयोग प्रायः अनुकूलन और दुर्लभ-घटना संभाव्यता आकलन में किया जाता है। किसी वितरण की तुलना करते समय एक निश्चित संदर्भ वितरण के विरुद्ध, तिर्यक्-एन्ट्रॉपी और कुल्बैक-लीब्लर विचलन एक योगात्मक स्थिरांक तक समान हैं (चूंकि निश्चित है): गिब्स की असमानता के अनुसार, केएल विचलन के लिए और तिर्यक्-एन्ट्रॉपी के लिए, जब दोनों अपने न्यूनतम मान लेते हैं, जो है। अभियांत्रिकी साहित्य में, केएल विचलन को कम करने के सिद्धांत (कुल्बैक के "न्यूनतम विभेदन सूचना का सिद्धांत") को प्रायः न्यूनतम तिर्यक्-एन्ट्रॉपी (MCE), या मिनक्सेंट का सिद्धांत कहा जाता है।

हालाँकि, जैसा कि लेख में चर्चा की गई है कुल्बैक-लीब्लर विचलन, कभी-कभी वितरण निश्चित पूर्व संदर्भ वितरण और वितरण है। यथासंभव, कुछ बाधाओं के अधीन समीप होने के लिए अनुकूलित किया गया है। इस स्थिति में दोनों न्यूनतमकरण समतुल्य नहीं हैं। इससे साहित्य में कुछ अस्पष्टता उत्पन्न हो गई है, कुछ लेखकों ने तिर्यक्-एन्ट्रॉपी और इसके बजाय को पुनः स्थापित करके असंगतता को हल करने का प्रयास किया है। वास्तव में, तिर्यक्-एंट्रॉपी सापेक्ष एन्ट्रॉपी का दूसरा नाम है, कवर और थॉमस [1] और अच्छा देखें।[2] वहीं दूसरी ओर, साहित्य से सहमत नहीं है और भ्रामक हो सकता है।

तिर्यक्-एन्ट्रॉपी हानि फलन और तार्किक प्रतिक्रमण

यंत्र अधिगम और अनुकूलन में हानि फलनों को परिभाषित करने के लिए तिर्यक्-एन्ट्रॉपी का उपयोग किया जा सकता है। वास्तविक संभावना वास्तविक लेबल और दिया गया वितरण है। वर्तमान निदर्श का अनुमानित मान है। इसे लॉग हानि (या लघुगणक हानि या तार्किक हानि) के रूप में भी जाना जाता है;[3] लॉग हानि और तिर्यक्-एन्ट्रॉपी हानि शब्द परस्पर विनिमय के लिए उपयोग किए जाते हैं।[4]

अधिक विशेष रूप से, एक द्विआधारी प्रतिक्रमण निदर्श पर विचार करें जिसका उपयोग टिप्पणियों को दो संभावित वर्गों में वर्गीकृत करने के लिए किया जा सकता है (प्रायः केवल और लेबल किया जाता है)। किसी दिए गए अवलोकन के लिए निदर्श का प्रेक्षण, निविष्टि सुविधाओं का एक सदिश दिया गया है, एक संभाव्यता के रूप में व्याख्या की जा सकती है, जो अवलोकन को वर्गीकृत करने के आधार के रूप में कार्य करती है। तार्किक प्रतिक्रमण में, संभावना को तार्किक फलन का उपयोग करके निदर्श किया जाता है जहाँ निविष्टि सदिश के कुछ फलन है, सामान्यतः केवल एक रैखिक फलन है। प्रेक्षण की संभावना द्वारा दी गयी है।

जहां भार का सदिश को प्रवणता अवरोहांक जैसे कुछ उपयुक्त कलन विधियों के माध्यम से अनुकूलित किया गया है। इसी प्रकार, प्रेक्षण खोजने की पूरक संभावना केवल द्वारा दी गयी है।

अपना अंकन स्थापित करने के बाद, और , हम और के मध्य असमानता का माप प्राप्त करने के लिए तिर्यक्-एन्ट्रॉपी का उपयोग कर सकते हैं:

तार्किक प्रतिक्रमण सामान्यतः उन सभी अवलोकनों के लिए लॉग हानि को अनुकूलित करता है जिन पर इसे प्रशिक्षित किया जाता है, जो निदर्श में औसत तिर्यक्-एन्ट्रॉपी को अनुकूलित करने के समान है। उदाहरण के लिए, मान लीजिए हमारे पास, प्रत्येक निदर्श के साथ निदर्श अनुक्रमित है। हानि फलन का औसत तब दिया जाता है:

जहाँ , के साथ पहले की तरह तार्किक फलन है।

तार्किक हानि को कभी-कभी तिर्यक्-एन्ट्रॉपी हानि कहा जाता है। इसे लॉग हानि के रूप में भी जाना जाता है (इस स्थिति में, द्वि-आधारी लेबल को प्रायः {−1,+1} द्वारा दर्शाया जाता है)।[5]

टिप्पणी: तार्किक प्रतिक्रमण के लिए तिर्यक्-एन्ट्रॉपी हानि का प्रवणता रैखिक प्रतिक्रमण के लिए वर्ग त्रुटि हानि के प्रवणता के समान है। अर्थात परिभाषित करें:

फिर हमारे पास परिणाम है:

प्रमाण इस प्रकार है। किसी के लिए, अपने पास है:

इसी तरह, हम अंततः वांछित परिणाम प्राप्त करते हैं।

यह भी देखें

संदर्भ

  1. Thomas M. Cover, Joy A. Thomas, Elements of Information Theory, 2nd Edition, Wiley, p. 80
  2. I. J. Good, Maximum Entropy for Hypothesis Formulation, Especially for Multidimensional Contingency Table, Ann. of Math. Statistics, 1963
  3. The Mathematics of Information Coding, Extraction and Distribution, by George Cybenko, Dianne P. O'Leary, Jorma Rissanen, 1999, p. 82
  4. sklearn.metrics.log_loss
  5. Murphy, Kevin (2012). Machine Learning: A Probabilistic Perspective. MIT. ISBN 978-0262018029.


बाहरी संबंध