फिशर संसूचना

गणितीय आँकड़ों में, फ़िशर सूचना (कभी-कभी केवल सूचना कहलाती है ) जानकारी की मात्रा को मापने का एक तरीका है जो एक प्रेक्षण योग्य यादृच्छिक चर X एक वितरण के अज्ञात पैरामीटर θ के बारे में रखता है जो कि मॉडल X है। औपचारिक रूप से, यह स्कोर (सांख्यिकी) का भिन्नता है, या देखी गई जानकारी का अपेक्षित मूल्य है.

सांख्यिकीविद् रोनाल्ड फिशर (फ्रांसिस यसिड्रो एडगेवर्थ द्वारा कुछ प्रारंभिक परिणामों के बाद) द्वारा अधिकतम-संभावना अनुमान के स्पर्शोन्मुख सिद्धांत में फिशर जानकारी की भूमिका पर जोर दिया गया था। फिशर सूचना मैट्रिक्स का उपयोग अधिकतम संभावना | अधिकतम-संभावना अनुमानक से जुड़े सहप्रसरण मैट्रिक्स की गणना करने के लिए किया जाता है। इसका उपयोग परीक्षण आँकड़ों के निर्माण में भी किया जा सकता है, जैसे वाल्ड परीक्षण।

बायेसियन सांख्यिकी में, फिशर की जानकारी जेफरीस प्रायर|जेफ्रीज के नियम के अनुसार गैर-सूचनात्मक पूर्व वितरण की व्युत्पत्ति में एक भूमिका निभाती है। यह पश्च वितरण के बड़े-नमूने सहप्रसरण के रूप में भी प्रकट होता है, बशर्ते कि पूर्व पर्याप्त रूप से सुचारू हो (एक परिणाम जिसे बर्नस्टीन-वॉन मिज़ प्रमेय के रूप में जाना जाता है, जिसे घातीय परिवारों के लिए लाप्लास द्वारा प्रत्याशित किया गया था)। लाप्लास के सन्निकटन के साथ पोस्टीरियर का अनुमान लगाते समय उसी परिणाम का उपयोग किया जाता है, जहां फिशर की जानकारी फिटेड गॉसियन के सहप्रसरण के रूप में दिखाई देती है। एक वैज्ञानिक प्रकृति (भौतिक, जैविक, आदि) की सांख्यिकीय प्रणालियाँ जिनके संभावित कार्य शिफ्ट-इनवेरिएंट सिस्टम का पालन करते हैं, उन्हें अधिकतम फिशर जानकारी का पालन करने के लिए दिखाया गया है। अधिकतम का स्तर सिस्टम बाधाओं की प्रकृति पर निर्भर करता है।

परिभाषा
फ़िशर सूचना सूचना की मात्रा को मापने का एक तरीका है जो एक अवलोकन योग्य यादृच्छिक चर है $$X$$ एक अज्ञात पैरामीटर के बारे में वहन करता है $$\theta$$ जिस पर की संभावना है $$X$$ निर्भर करता है। होने देना $$f(X;\theta)$$ के लिए प्रायिकता घनत्व फलन (या प्रायिकता द्रव्यमान फलन) हो $$X$$ के मूल्य पर वातानुकूलित $$\theta$$. यह संभावना का वर्णन करता है कि हम दिए गए परिणाम का निरीक्षण करते हैं $$X$$, का ज्ञात मान दिया गया है $$\theta$$. अगर $$f$$ में परिवर्तनों के संबंध में तेजी से चरम पर है $$\theta$$, के सही मान को इंगित करना आसान है $$\theta$$ डेटा से, या समकक्ष, कि डेटा $$X$$ पैरामीटर के बारे में बहुत सारी जानकारी प्रदान करता है $$\theta$$. अगर $$f$$ समतल और फैला हुआ है, तो यह कई नमूने लेगा $$X$$ के वास्तविक वास्तविक मूल्य का अनुमान लगाने के लिए $$\theta$$ जो पूरी आबादी के नमूने का उपयोग करके प्राप्त किया जाएगा। यह किसी प्रकार के विचरण के संबंध में अध्ययन करने का सुझाव देता है $$\theta$$.

औपचारिक रूप से, के संबंध में आंशिक व्युत्पन्न $$\theta$$ प्रायिकता फलन के प्राकृतिक लघुगणक को स्कोर (सांख्यिकी) कहा जाता है। कुछ नियमितता शर्तों के तहत, यदि $$\theta$$ सही पैरामीटर है (यानी $$X$$ वास्तव में के रूप में वितरित किया जाता है $$f(X;\theta)$$), यह दिखाया जा सकता है कि स्कोर का अपेक्षित मूल्य (पहला क्षण (गणित)), सही पैरामीटर मान पर मूल्यांकन किया गया $$\theta$$, 0 है: :$$\begin{align} \operatorname{E} \left[\left. \frac{\partial}{\partial\theta} \log f(X;\theta)\right|\theta \right] ={} &\int_{\mathbb{R}} \frac{\frac{\partial}{\partial\theta} f(x;\theta)}{f(x; \theta)} f(x;\theta)\,dx \\[3pt] ={} &\frac{\partial}{\partial\theta} \int_{\mathbb{R}} f(x; \theta)\,dx \\[3pt] ={} &\frac{\partial}{\partial\theta} 1 \\ ={} & 0. \end{align}$$ फिशर जानकारी को स्कोर के विचरण के रूप में परिभाषित किया गया है:
 * $$ \mathcal{I}(\theta) = \operatorname{E} \left[\left. \left(\frac{\partial}{\partial\theta} \log f(X;\theta)\right)^2\right|\theta \right] = \int_{\mathbb{R}} \left(\frac{\partial}{\partial\theta} \log f(x;\theta)\right)^2 f(x; \theta)\,dx,$$

ध्यान दें कि $$0 \leq \mathcal{I}(\theta)$$. उच्च फिशर जानकारी वाले एक यादृच्छिक चर का अर्थ है कि स्कोर का निरपेक्ष मान अक्सर उच्च होता है। फिशर की जानकारी किसी विशेष अवलोकन का कार्य नहीं है, क्योंकि यादृच्छिक चर X को औसत कर दिया गया है।

अगर log f(x; θ) θ के संबंध में दो बार अवकलनीय है, और कुछ नियमितता शर्तों के तहत, फ़िशर जानकारी को इस रूप में भी लिखा जा सकता है
 * $$ \mathcal{I}(\theta) = - \operatorname{E} \left[\left. \frac{\partial^2}{\partial\theta^2} \log f(X;\theta)\right|\theta \right],$$

तब से
 * $$\frac{\partial^2}{\partial\theta^2} \log f(X;\theta) = \frac{\frac{\partial^2}{\partial\theta^2} f(X;\theta)}{f(X; \theta)} - \left( \frac{\frac{\partial}{\partial\theta} f(X;\theta)}{f(X; \theta)} \right)^2

= \frac{\frac{\partial^2}{\partial\theta^2} f(X;\theta)}{f(X; \theta)} - \left( \frac{\partial}{\partial\theta} \log f(X;\theta)\right)^2 $$ और
 * $$ \operatorname{E} \left[\left. \frac{\frac{\partial^2}{\partial\theta^2} f(X;\theta)}{f(X; \theta)}\right|\theta \right] = \frac{\partial^2}{\partial\theta^2} \int_{\mathbb{R}} f(x;\theta)\,dx = 0. $$

इस प्रकार, फिशर की जानकारी को समर्थन वक्र (लॉग-संभावना का ग्राफ) की वक्रता के रूप में देखा जा सकता है। अधिकतम संभावना अनुमान के पास, कम फिशर जानकारी इसलिए इंगित करती है कि अधिकतम कुंद दिखाई देता है, अर्थात, अधिकतम उथला है और समान लॉग-संभावना वाले पास के कई मूल्य हैं। इसके विपरीत, उच्च फिशर जानकारी इंगित करती है कि अधिकतम तेज है।

नियमितता की स्थिति
नियमितता की शर्तें इस प्रकार हैं:
 * 1) θ के संबंध में f(X; θ) का आंशिक व्युत्पन्न लगभग हर जगह मौजूद है। (यह शून्य सेट पर अस्तित्व में विफल हो सकता है, जब तक कि यह सेट θ पर निर्भर न हो।)
 * 2) एफ (एक्स; θ) का अभिन्न अंग θ के संबंध में अभिन्न चिह्न के तहत विभेदित किया जा सकता है।
 * 3) f(X; θ) का समर्थन (गणित) θ पर निर्भर नहीं करता है।

यदि θ एक सदिश राशि है तो θ के प्रत्येक घटक के लिए नियमितता की शर्तें होनी चाहिए। एक घनत्व का एक उदाहरण खोजना आसान है जो नियमितता की शर्तों को पूरा नहीं करता है: एक समान (0, θ) चर का घनत्व 1 और 3 की शर्तों को पूरा करने में विफल रहता है। इस मामले में, भले ही फिशर की जानकारी से गणना की जा सकती है परिभाषा, इसमें वे गुण नहीं होंगे जो इसे आमतौर पर माना जाता है।

संभावना के संदर्भ में
चूँकि दिए गए X के θ की संभावना हमेशा प्रायिकता f(X; θ) के समानुपाती होती है, उनके लघुगणक आवश्यक रूप से एक स्थिरांक से भिन्न होते हैं जो θ से स्वतंत्र होता है, और θ के संबंध में इन लघुगणकों के डेरिवेटिव आवश्यक रूप से बराबर होते हैं। इस प्रकार एक लॉग-लाइबिलिटी एल (θ; एक्स) के बजाय स्थानापन्न कर सकता है $log f(X; θ)$ फिशर सूचना की परिभाषा में।

किसी भी आकार के नमूने
मान X एकल वितरण से निकाले गए एकल नमूने का प्रतिनिधित्व कर सकता है या वितरण के संग्रह से निकाले गए नमूनों के संग्रह का प्रतिनिधित्व कर सकता है। यदि n नमूने हैं और संबंधित n वितरण सांख्यिकीय रूप से स्वतंत्र हैं, तो फ़िशर जानकारी आवश्यक रूप से एकल-नमूना फ़िशर सूचना मानों का योग होगी, इसके वितरण से प्रत्येक एकल नमूने के लिए एक। विशेष रूप से, यदि n बंटन i.i.d. तो फ़िशर जानकारी आवश्यक रूप से सामान्य वितरण से एकल नमूने की फ़िशर जानकारी का n गुना होगी।

क्रैमर-राव बाउंड
की अनौपचारिक व्युत्पत्ति द क्रैमर-राव बाउंड बताता है कि फिशर जानकारी का व्युत्क्रम θ के किसी भी निष्पक्ष अनुमानक के विचरण पर एक निचली सीमा है। एच.एल. वैन ट्रीज़ (1968) और बी. रॉय फ्रीडेन (2004) क्रैमर-राव बाउंड प्राप्त करने की निम्नलिखित विधि प्रदान करते हैं, जिसके परिणामस्वरूप फिशर जानकारी के उपयोग का वर्णन होता है।

अनौपचारिक रूप से, हम एक निष्पक्ष अनुमानक पर विचार करके प्रारंभ करते हैं $$\hat\theta(X)$$. गणितीय रूप से, निष्पक्ष का अर्थ है कि



\operatorname{E}\left[ \left. \hat\theta(X) - \theta \right| \theta \right] = \int \left(\hat\theta(x) - \theta\right) \, f(x ;\theta) \, dx = 0 \text{ regardless of the value of } \theta. $$ यह अभिव्यक्ति θ से स्वतंत्र शून्य है, इसलिए θ के संबंध में इसका आंशिक व्युत्पन्न भी शून्य होना चाहिए। उत्पाद नियम के अनुसार, यह आंशिक अवकलज भी बराबर है



0 = \frac{\partial}{\partial\theta} \int \left(\hat\theta(x) - \theta \right) \, f(x ;\theta) \,dx = \int \left(\hat\theta(x)-\theta\right) \frac{\partial f}{\partial\theta} \, dx - \int f \,dx. $$ प्रत्येक θ के लिए, प्रायिकता फलन प्रायिकता घनत्व फलन है, और इसलिए $$\int f\,dx = 1$$. के आंशिक व्युत्पन्न पर श्रृंखला नियम का उपयोग करके $$\log f$$ और फिर से विभाजित और गुणा करना $$f(x;\theta)$$, कोई इसे सत्यापित कर सकता है


 * $$\frac{\partial f}{\partial\theta} = f \, \frac{\partial \log f}{\partial\theta}.$$

उपर्युक्त में इन दो तथ्यों का प्रयोग करने पर हमें प्राप्त होता है



\int \left(\hat\theta-\theta\right) f \, \frac{\partial \log f}{\partial\theta} \, dx = 1. $$ इंटीग्रैंड देता है फैक्टरिंग

\int \left(\left(\hat\theta-\theta\right) \sqrt{f} \right) \left( \sqrt{f} \, \frac{\partial \log f}{\partial\theta} \right) \, dx = 1. $$ समाकलन में व्यंजक का वर्ग करने पर कॉशी-श्वार्ज़ असमानता प्राप्त होती है



1 = \biggl( \int \left[\left(\hat\theta-\theta\right) \sqrt{f} \right] \cdot \left[ \sqrt{f} \, \frac{\partial \log f}{\partial\theta} \right] \, dx \biggr)^2 \le \left[ \int \left(\hat\theta - \theta\right)^2 f \, dx \right] \cdot \left[ \int \left( \frac{\partial \log f}{\partial\theta} \right)^2 f \, dx \right]. $$ दूसरा ब्रैकेटेड कारक फिशर सूचना के रूप में परिभाषित किया गया है, जबकि पहला ब्रैकेटेड कारक अनुमानक की अपेक्षित माध्य-वर्ग त्रुटि है $$\hat\theta$$. पुनर्व्यवस्थित करके, असमानता हमें बताती है कि



\operatorname{Var}\left(\hat\theta\right) \geq \frac{1}{\mathcal{I}\left(\theta\right)}. $$ दूसरे शब्दों में, जिस सटीकता का हम अनुमान लगा सकते हैं, वह मौलिक रूप से संभावित कार्य की फिशर जानकारी द्वारा सीमित है।

वैकल्पिक रूप से, यादृच्छिक चर के लिए कॉची-श्वार्ज़ असमानता | कॉची-श्वार्ज़ असमानता से सीधे एक ही निष्कर्ष प्राप्त किया जा सकता है, $$|\operatorname{Cov}(AB)|^2 \le \operatorname{Var}(A)\operatorname{Var}(B)$$, यादृच्छिक चर पर लागू होता है $$\hat\theta(X)$$ और $$\partial_\theta\log f(X;\theta)$$, और यह देखते हुए कि हमारे पास निष्पक्ष अनुमानक हैं$$\operatorname{Cov}[\hat\theta(X)\partial_\theta \log f(X;\theta)] = \int dx (\hat\theta(x)-\mathrm E[\hat\theta])\partial_\theta f(x;\theta) = \partial_\theta \mathrm E[\hat\theta] = 1.$$

एकल-पैरामीटर बरनौली प्रयोग
एक बरनौली परीक्षण दो संभावित परिणामों, सफलता और असफलता के साथ एक यादृच्छिक चर है, जिसमें सफलता की संभावना θ है। परिणाम के बारे में सोचा जा सकता है कि सिक्का टॉस द्वारा निर्धारित किया जा सकता है, जिसमें हेड होने की संभावना θ और पूंछ होने की संभावना है 1 − θ.

बता दें कि एक्स एक बर्नौली परीक्षण है। X में निहित फिशर जानकारी की गणना की जा सकती है
 * $$\begin{align}

\mathcal{I}(\theta) &= -\operatorname{E}\left[\left. \frac{\partial^2}{\partial\theta^2} \log\left(\theta^X (1 - \theta)^{1 - X}\right)\right|\theta\right] \\[5pt] &= -\operatorname{E}\left[\left. \frac{\partial^2}{\partial\theta^2} \left(X\log\theta + (1 - X)\log(1 - \theta)\right)\right|\theta\right] \\[5pt] &= \operatorname{E}\left[\left. \frac{X}{\theta^2} + \frac{1 - X}{(1 - \theta)^2}\right|\theta\right] \\[5pt] &= \frac{\theta}{\theta^2} + \frac{1 - \theta}{(1 - \theta)^2} \\[5pt] &= \frac{1}{\theta(1 - \theta)}. \end{align}$$ क्योंकि फिशर की जानकारी योगात्मक है, फिशर की जानकारी n स्वतंत्र बर्नौली परीक्षणों में निहित है
 * $$\mathcal{I}(\theta) = \frac{n}{\theta(1 - \theta)}.$$

यह एन बर्नौली परीक्षणों में सफलताओं की औसत संख्या के विचरण का पारस्परिक है, इसलिए इस मामले में, क्रैमर-राव बाउंड एक समानता है।

मैट्रिक्स फॉर्म
जब एन पैरामीटर हैं, तो θ एक है N × 1 कॉलम वेक्टर $$\theta = \begin{bmatrix}\theta_1 & \theta_2 & \dots & \theta_N\end{bmatrix}^\textsf{T},$$ तब फिशर जानकारी एक रूप लेती है N × N मैट्रिक्स (गणित)। इस मैट्रिक्स को फिशर इंफॉर्मेशन मैट्रिक्स (FIM) कहा जाता है और इसमें विशिष्ट तत्व होता है



\bigl[\mathcal{I}(\theta)\bigr]_{i, j} = \operatorname{E}\left[\left. \left(\frac{\partial}{\partial\theta_i} \log f(X;\theta)\right) \left(\frac{\partial}{\partial\theta_j} \log f(X;\theta)\right) \right|\theta\right]. $$ एफआईएम एक है N × N सकारात्मक अर्ध निश्चित मैट्रिक्स। यदि यह सकारात्मक निश्चित है, तो यह एन-डायमेंशनल पैरामीटर स्थान  पर एक रिमेंनियन मीट्रिक को परिभाषित करता है। विषय सूचना ज्यामिति इसका उपयोग फिशर जानकारी को अंतर ज्यामिति से जोड़ने के लिए करती है, और उस संदर्भ में, इस मीट्रिक को फिशर सूचना मीट्रिक के रूप में जाना जाता है।

कुछ निश्चित नियमितता शर्तों के तहत, फिशर सूचना मैट्रिक्स को इस रूप में भी लिखा जा सकता है



\bigl[\mathcal{I}(\theta) \bigr]_{i, j} = -\operatorname{E}\left[\left. \frac{\partial^2}{\partial\theta_i\, \partial\theta_j} \log f(X;\theta) \right|\theta\right]\,. $$ परिणाम कई मायनों में दिलचस्प है:
 * इसे सापेक्ष एंट्रॉपी के हेसियन मैट्रिक्स के रूप में प्राप्त किया जा सकता है।
 * इसे सकारात्मक-निश्चित होने पर फिशर-राव ज्यामिति को परिभाषित करने के लिए रिमेंनियन मीट्रिक के रूप में उपयोग किया जा सकता है।
 * चर के उपयुक्त परिवर्तन के बाद, इसे यूक्लिडियन मीट्रिक से प्रेरित मीट्रिक के रूप में समझा जा सकता है।
 * अपने जटिल-मूल्यवान रूप में, यह फ़ुबिनी-अध्ययन मीट्रिक है।
 * यह विल्क्स प्रमेय के प्रमाण का प्रमुख हिस्सा है, जो संभावना सिद्धांत की आवश्यकता के बिना आत्मविश्वास क्षेत्र अनुमानों को अधिकतम संभावना अनुमान (उन स्थितियों के लिए जिनके लिए यह लागू होता है) की अनुमति देता है।
 * ऐसे मामलों में जहां उपरोक्त एफआईएम की विश्लेषणात्मक गणना मुश्किल है, एफआईएम के अनुमान के रूप में नकारात्मक लॉग-लाइबिलिटी फ़ंक्शन के हेसियन मैट्रिक्स के आसान मोंटे कार्लो अनुमानों का औसत बनाना संभव है।  अनुमान नकारात्मक लॉग-संभावना फ़ंक्शन के मान या नकारात्मक लॉग-संभावना फ़ंक्शन के ग्रेडिएंट पर आधारित हो सकते हैं; नकारात्मक लॉग-संभावना फ़ंक्शन के हेस्सियन की कोई विश्लेषणात्मक गणना आवश्यक नहीं है।

सूचना ऑर्थोगोनल पैरामीटर
हम कहते हैं कि दो पैरामीटर घटक वैक्टर θ1और θ2सूचना ऑर्थोगोनल हैं यदि फिशर सूचना मैट्रिक्स अलग-अलग ब्लॉकों में इन घटकों के साथ ब्लॉक विकर्ण है। ऑर्थोगोनल मापदंडों को इस अर्थ में निपटाना आसान है कि उनकी अधिकतम संभावना स्पर्शोन्मुख रूप से असंबद्ध है। एक सांख्यिकीय मॉडल का विश्लेषण करने के बारे में विचार करते समय, मॉडेलर को सलाह दी जाती है कि वह मॉडल के ऑर्थोगोनल पैरामीट्रिजेशन की खोज में कुछ समय निवेश करे, विशेष रूप से जब ब्याज का पैरामीटर एक-आयामी है, लेकिन उपद्रव पैरामीटर का कोई आयाम हो सकता है।

एकवचन सांख्यिकीय मॉडल
यदि फिशर सूचना मैट्रिक्स सभी के लिए सकारात्मक निश्चित है $θ$, तो संबंधित सांख्यिकीय मॉडल को नियमित कहा जाता है; अन्यथा, सांख्यिकीय मॉडल को एकवचन कहा जाता है। एकवचन सांख्यिकीय मॉडल के उदाहरणों में निम्नलिखित शामिल हैं: सामान्य मिश्रण, द्विपद मिश्रण, बहुपद मिश्रण, बायेसियन नेटवर्क, तंत्रिका नेटवर्क, रेडियल आधार कार्य, छिपे हुए मार्कोव मॉडल, स्टोचैस्टिक संदर्भ-मुक्त व्याकरण, कम रैंक प्रतिगमन, बोल्ट्जमैन मशीन।

यंत्र अधिगम में, यदि एक सांख्यिकीय मॉडल तैयार किया जाता है ताकि यह एक यादृच्छिक घटना से छिपी हुई संरचना को निकाल सके, तो यह स्वाभाविक रूप से एकवचन बन जाता है।

बहुभिन्नरूपी सामान्य वितरण
एन-वैरिएट बहुभिन्नरूपी सामान्य वितरण के लिए एफआईएम, $$\,X \sim N\left(\mu(\theta),\, \Sigma(\theta)\right)$$ एक विशेष रूप होता है। पैरामीटर के के-आयामी वेक्टर होने दें $$\theta = \begin{bmatrix} \theta_1 & \dots & \theta_K \end{bmatrix}^\textsf{T}$$ और यादृच्छिक सामान्य चर के वेक्टर हो $$X = \begin{bmatrix} X_1 & \dots & X_N \end{bmatrix}^\textsf{T}$$. मान लें कि इन यादृच्छिक चरों के माध्य मान हैं $$\,\mu(\theta) = \begin{bmatrix} \mu_1(\theta) & \dots & \mu_N(\theta) \end{bmatrix}^\textsf{T}$$, और जाने $$\,\Sigma(\theta)$$ सहप्रसरण मैट्रिक्स हो। फिर, के लिए $$1 \le m,\, n \le K$$, (एम, एन) एफआईएम की प्रविष्टि है:

\mathcal{I}_{m,n} = \frac{\partial\mu^\textsf{T}}{\partial\theta_m}\Sigma^{-1} \frac{\partial\mu}{\partial\theta_n} + \frac{1}{2}\operatorname{tr}\left(   \Sigma^{-1}\frac{\partial\Sigma}{\partial\theta_m}    \Sigma^{-1}\frac{\partial\Sigma}{\partial\theta_n}  \right), $$ कहाँ $$(\cdot)^\textsf{T}$$ एक सदिश के स्थानान्तरण को दर्शाता है, $$\operatorname{tr}(\cdot)$$ स्क्वायर मैट्रिक्स के ट्रेस (मैट्रिक्स) को दर्शाता है, और:


 * $$\begin{align}

\frac{\partial \mu}{\partial \theta_m} &= \begin{bmatrix} \dfrac{\partial\mu_1}{\partial\theta_m} & \dfrac{\partial\mu_2}{\partial\theta_m} & \cdots & \dfrac{\partial\mu_N}{\partial\theta_m} \end{bmatrix}^\textsf{T}; \\[8pt] \dfrac{\partial \Sigma}{\partial \theta_m} &= \begin{bmatrix} \dfrac{\partial\Sigma_{1,1}}{\partial\theta_m} & \dfrac{\partial\Sigma_{1,2}}{\partial\theta_m} & \cdots & \dfrac{\partial\Sigma_{1,N}}{\partial\theta_m} \\[5pt] \dfrac{\partial\Sigma_{2,1}}{\partial\theta_m} & \dfrac{\partial\Sigma_{2,2}}{\partial\theta_m} & \cdots & \dfrac{\partial\Sigma_{2,N}}{\partial\theta_m} \\ \vdots & \vdots & \ddots & \vdots \\ \dfrac{\partial\Sigma_{N,1}}{\partial\theta_m} & \dfrac{\partial\Sigma_{N,2}}{\partial\theta_m} & \cdots & \dfrac{\partial\Sigma_{N,N}}{\partial\theta_m} \end{bmatrix}. \end{align}$$ ध्यान दें कि एक विशेष, लेकिन बहुत सामान्य मामला वह है जहां $$\Sigma(\theta) = \Sigma$$, निरंतर। तब



\mathcal{I}_{m,n} = \frac{\partial\mu^\textsf{T}}{\partial\theta_m}\Sigma^{-1} \frac{\partial\mu}{\partial\theta_n}.\ $$ इस मामले में फिशर सूचना मैट्रिक्स को कम से कम वर्गों के आकलन सिद्धांत के सामान्य समीकरणों के गुणांक मैट्रिक्स के साथ पहचाना जा सकता है।

एक और विशेष मामला तब होता है जब माध्य और सहप्रसरण दो अलग-अलग वेक्टर मापदंडों पर निर्भर करते हैं, कहते हैं, β और θ। यह विशेष रूप से स्थानिक डेटा के विश्लेषण में लोकप्रिय है, जो अक्सर सहसंबद्ध अवशेषों के साथ एक रैखिक मॉडल का उपयोग करता है। इस मामले में,
 * $$\mathcal{I}(\beta, \theta) = \operatorname{diag}\left(\mathcal{I}(\beta), \mathcal{I}(\theta)\right)$$

कहाँ
 * $$\begin{align}

\mathcal{I}{(\beta)_{m,n}} &= \frac{\partial\mu^\textsf{T}}{\partial\beta_m} \Sigma^{-1} \frac{\partial\mu}{\partial\beta_n}, \\[5pt] \mathcal{I}{(\theta)_{m,n}} &= \frac{1}{2}\operatorname{tr}\left(\Sigma^{-1} \frac{\partial \Sigma}{\partial\theta_m}{\Sigma^{-1}}\frac{\partial\Sigma}{\partial\theta_n}\right) \end{align}$$

श्रृंखला नियम
एंट्रॉपी (सूचना सिद्धांत) के समान # अन्य गुण या पारस्परिक जानकारी # सशर्त पारस्परिक जानकारी, फिशर की जानकारी में एक श्रृंखला नियम अपघटन भी होता है। विशेष रूप से, यदि X और Y संयुक्त रूप से यादृच्छिक चर वितरित किए जाते हैं, तो यह इस प्रकार है: :$$\mathcal{I}_{X,Y}(\theta) = \mathcal{I}_X(\theta) + \mathcal{I}_{Y\mid X}(\theta),$$ कहाँ $$\mathcal{I}_{Y\mid X}(\theta) = \operatorname{E}_{X} \left[ \mathcal{I}_{Y\mid X = x}(\theta) \right] $$ और $$ \mathcal{I}_{Y\mid X = x}(\theta) $$ Y के सापेक्ष फिशर जानकारी है $$\theta$$ एक विशिष्ट मान X = x दिए जाने पर Y के सशर्त घनत्व के संबंध में गणना की जाती है।

एक विशेष मामले के रूप में, यदि दो यादृच्छिक चर सांख्यिकीय स्वतंत्रता हैं, तो दो यादृच्छिक चर द्वारा प्राप्त जानकारी प्रत्येक यादृच्छिक चर से अलग-अलग जानकारी का योग है:
 * $$\mathcal{I}_{X,Y}(\theta) = \mathcal{I}_X(\theta) + \mathcal{I}_Y(\theta).$$

नतीजतन, n स्वतंत्र और समान रूप से वितरित यादृच्छिक चर अवलोकनों के एक यादृच्छिक नमूने में जानकारी आकार 1 के नमूने में जानकारी का n गुना है।

एफ-विचलन
एक उत्तल समारोह दिया $$f: [0, \infty)\to(-\infty, \infty]$$ वह $$f(x)$$ सभी के लिए परिमित है $$x > 0$$, $$f(1)=0$$, और $$f(0)=\lim_{t\to 0^+} f(t) $$, (जो अनंत हो सकता है), यह f-विचलन को परिभाषित करता है $$D_f$$. तो अगर $$f$$ सख्ती से उत्तल है $$1$$, फिर स्थानीय रूप से $$\theta\in\Theta$$, फिशर सूचना मैट्रिक्स एक मीट्रिक है, इस अर्थ में कि $$(\delta\theta)^T I(\theta) (\delta\theta) = \frac{1}{f''(1)}D_f(P_{\theta+\delta\theta} \| P_{\theta})$$कहाँ $$P_\theta$$ द्वारा पैरामीट्रिज्ड वितरण है $$\theta$$. यानी यह पीडीएफ के साथ वितरण है $$f(x; \theta)$$.

इस रूप में, यह स्पष्ट है कि फिशर सूचना मैट्रिक्स एक रीमैनियन मीट्रिक है, और चर के परिवर्तन के तहत सही ढंग से भिन्न होता है। (रिपैरामेट्रिजेशन पर अनुभाग देखें)

पर्याप्त आंकड़े
एक पर्याप्तता (सांख्यिकी) द्वारा प्रदान की गई जानकारी नमूना एक्स के समान है। इसे पर्याप्त आंकड़े # फिशर-नेमैन गुणन प्रमेय का उपयोग करके देखा जा सकता है। एक पर्याप्त आंकड़े के लिए नेमैन का कारककरण मानदंड। यदि T(X) θ के लिए पर्याप्त है, तब
 * $$f(X; \theta) = g(T(X), \theta) h(X)$$

कुछ कार्यों के लिए जी और एच। θ से h(X) की स्वतंत्रता का तात्पर्य है
 * $$\frac{\partial}{\partial\theta} \log \left[f(X; \theta)\right] = \frac{\partial}{\partial\theta} \log\left[g(T(X);\theta)\right],$$

और सूचना की समानता फ़िशर सूचना की परिभाषा से अनुसरण करती है। अधिक सामान्यतः, यदि तब एक आँकड़ा है


 * $$ \mathcal{I}_T(\theta) \leq \mathcal{I}_X(\theta) $$

समानता के साथ अगर और केवल अगर टी एक पर्याप्त आंकड़ा है।

रिपैरामेट्रिजेशन
फिशर की जानकारी समस्या के पैरामीट्रिजेशन पर निर्भर करती है। यदि θ और η अनुमान समस्या के दो स्केलर पैरामीट्रिजेशन हैं, और θ η का निरंतर अलग-अलग कार्य है, तो
 * $${\mathcal I}_\eta(\eta) = {\mathcal I}_\theta(\theta(\eta)) \left( \frac{d\theta}{d\eta} \right)^2$$

कहाँ $${\mathcal I}_\eta$$ और $${\mathcal I}_\theta$$ क्रमशः η और θ के फिशर सूचना उपाय हैं। वेक्टर मामले में, मान लीजिए $${\boldsymbol \theta}$$ और $${\boldsymbol \eta}$$ k-वेक्टर हैं जो एक अनुमान समस्या को पैरामीट्रिज करते हैं, और मान लीजिए कि $${\boldsymbol \theta}$$ का एक सतत अवकलनीय फलन है $${\boldsymbol \eta}$$, तब,
 * $${\mathcal I}_{\boldsymbol \eta}({\boldsymbol \eta}) = {\boldsymbol J}^\textsf{T} {\mathcal I}_{\boldsymbol \theta} ({\boldsymbol \theta}({\boldsymbol \eta})) {\boldsymbol J}

$$ जहां (i, j) k × k जैकबियन मैट्रिक्स का वां तत्व $$\boldsymbol J$$ द्वारा परिभाषित किया गया है
 * $$J_{ij} = \frac{\partial \theta_i}{\partial \eta_j},$$

और कहाँ $${\boldsymbol J}^\textsf{T}$$ का मैट्रिक्स स्थानान्तरण है $${\boldsymbol J}.$$ सूचना ज्यामिति में, इसे रीमैनियन कई गुना पर निर्देशांक के परिवर्तन के रूप में देखा जाता है, और वक्रता के आंतरिक गुण विभिन्न पैरामीट्रिजेशन के तहत अपरिवर्तित होते हैं। सामान्य तौर पर, फिशर सूचना मैट्रिक्स थर्मोडायनामिक राज्यों के कई गुना के लिए रिमेंनियन मीट्रिक (अधिक सटीक, फिशर-राव मीट्रिक) प्रदान करता है, और चरण संक्रमणों के वर्गीकरण के लिए सूचना-ज्यामितीय जटिलता माप के रूप में उपयोग किया जा सकता है, उदाहरण के लिए, स्केलर थर्मोडायनामिक मीट्रिक टेन्सर की वक्रता एक चरण संक्रमण बिंदु पर (और केवल) विचलन करती है। थर्मोडायनामिक संदर्भ में, फिशर सूचना मैट्रिक्स सीधे संबंधित ऑर्डर पैरामीटर # ऑर्डर पैरामीटर में परिवर्तन की दर से संबंधित है। विशेष रूप से, ऐसे संबंध फिशर सूचना मैट्रिक्स के अलग-अलग तत्वों के विचलन के माध्यम से दूसरे क्रम के चरण संक्रमणों की पहचान करते हैं।

आइसोपेरिमेट्रिक असमानता
फिशर सूचना मैट्रिक्स आइसोपेरिमेट्रिक असमानता जैसी असमानता में भूमिका निभाता है। किसी दिए गए एन्ट्रापी के साथ सभी प्रायिकता वितरणों में, जिसकी फिशर सूचना मैट्रिक्स में सबसे छोटा ट्रेस है, वह गॉसियन वितरण है। यह इस तरह है कि कैसे, दिए गए आयतन वाले सभी परिबद्ध सेटों में, गोले का पृष्ठीय क्षेत्रफल सबसे छोटा होता है।

प्रमाण में एक बहुभिन्नरूपी यादृच्छिक चर लेना शामिल है $$X$$ घनत्व समारोह के साथ $$f$$ और घनत्व का परिवार बनाने के लिए एक स्थान पैरामीटर जोड़ना $$\{f(x-\theta) \mid \theta \in \mathbb{R}^n\}$$. फिर, मिन्कोव्स्की-स्टेनर सूत्र के अनुरूप, सतह क्षेत्र $$X$$ होना परिभाषित किया गया है
 * $$S(X) = \lim_{\varepsilon \to 0} \frac{e^{H(X+Z_\varepsilon)} - e^{H(X)}}{\varepsilon}$$

कहाँ $$Z_\varepsilon$$ सहप्रसरण मैट्रिक्स वाला गॉसियन चर है $$\varepsilon I$$. सतह क्षेत्र नाम उपयुक्त है क्योंकि एंट्रॉपी शक्ति $$e^{H(X)}$$ प्रभावी समर्थन सेट की मात्रा है, इसलिए $$S(X)$$ प्रभावी समर्थन सेट की मात्रा का व्युत्पन्न है, बहुत कुछ मिन्कोव्स्की-स्टेनर सूत्र की तरह। प्रमाण का शेष भाग एंट्रॉपी शक्ति असमानता का उपयोग करता है, जो ब्रून-मिन्कोव्स्की प्रमेय की तरह है|ब्रून-मिन्कोव्स्की असमानता। फिशर इंफॉर्मेशन मैट्रिक्स का ट्रेस एक कारक के रूप में पाया जाता है $$S(X)$$.

प्रयोगों का इष्टतम डिजाइन
इष्टतम डिजाइन में फिशर जानकारी का व्यापक रूप से उपयोग किया जाता है। अनुमानक-भिन्नता और फिशर जानकारी की पारस्परिकता के कारण, भिन्नता को कम करना सूचना को अधिकतम करने से मेल खाता है।

जब रैखिक मॉडल (या अरैखिक प्रतिगमन) सांख्यिकीय मॉडल में कई पैरामीटर होते हैं, तो पैरामीटर अनुमानक का अपेक्षित मान एक कॉलम वेक्टर होता है और इसका सहप्रसरण मैट्रिक्स एक मैट्रिक्स (गणित) होता है। विचरण मैट्रिक्स के व्युत्क्रम को सूचना मैट्रिक्स कहा जाता है। चूंकि पैरामीटर वेक्टर के अनुमानक का भिन्नता एक मैट्रिक्स है, भिन्नता को कम करने की समस्या जटिल है। सांख्यिकीय सिद्धांत का उपयोग करते हुए, सांख्यिकीविद् वास्तविक-मूल्यवान सारांश आँकड़ों का उपयोग करके सूचना-मैट्रिक्स को संकुचित करते हैं; वास्तविक-मूल्यवान कार्य होने के कारण, इन सूचना मानदंडों को अधिकतम किया जा सकता है।

परंपरागत रूप से, सांख्यिकीविदों ने सहप्रसरण मैट्रिक्स (एक निष्पक्ष अनुमानक के) के कुछ सारांश आंकड़ों पर विचार करके अनुमानकों और डिजाइनों का मूल्यांकन किया है, आमतौर पर सकारात्मक वास्तविक मूल्यों (जैसे निर्धारक या मैट्रिक्स ट्रेस) के साथ। सकारात्मक वास्तविक संख्याओं के साथ काम करने से कई फायदे मिलते हैं: यदि एकल पैरामीटर के अनुमानक में सकारात्मक भिन्नता है, तो भिन्नता और फिशर जानकारी दोनों सकारात्मक वास्तविक संख्याएं हैं; इसलिए वे गैर-ऋणात्मक वास्तविक संख्याओं के उत्तल शंकु के सदस्य हैं (जिनके शून्येतर सदस्य इसी शंकु में व्युत्क्रम हैं)।

कई मापदंडों के लिए, सहप्रसरण मैट्रिसेस और सूचना मैट्रिसेस, चार्ल्स लोवेनर (लोवनर) के आदेश के तहत आंशिक क्रम में सदिश स्थान के आदेश में गैर-नकारात्मक-निश्चित सममित मैट्रिसेस के उत्तल शंकु के तत्व हैं। यह शंकु मैट्रिक्स जोड़ और व्युत्क्रम के साथ-साथ सकारात्मक वास्तविक संख्याओं और आव्यूहों के गुणन के तहत बंद है। मैट्रिक्स थ्योरी और लोवेनर ऑर्डर की एक प्रदर्शनी पुकेलशेम में दिखाई देती है। अपरिवर्तनीय सिद्धांत के अर्थ में पारंपरिक इष्टतमता मानदंड सूचना मैट्रिक्स के अपरिवर्तनीय हैं; बीजगणितीय रूप से, पारंपरिक इष्टतमता मानदंड (फिशर) सूचना मैट्रिक्स (इष्टतम डिजाइन देखें) के eigenvalues ​​​​के कार्यात्मक (गणित) हैं।

बायेसियन सांख्यिकी में पूर्व जेफरीस
बायेसियन सांख्यिकी में, फिशर की जानकारी का उपयोग जेफ़रीज़ पूर्व की गणना करने के लिए किया जाता है, जो कि निरंतर वितरण मापदंडों के लिए एक मानक, गैर-सूचनात्मक पूर्व है।

कम्प्यूटेशनल न्यूरोसाइंस
फिशर की जानकारी का उपयोग न्यूरल कोड की सटीकता पर सीमाएं खोजने के लिए किया गया है। उस मामले में, एक्स आमतौर पर एक कम आयामी चर θ (जैसे उत्तेजना पैरामीटर) का प्रतिनिधित्व करने वाले कई न्यूरॉन्स की संयुक्त प्रतिक्रिया होती है। विशेष रूप से तंत्रिका प्रतिक्रियाओं के शोर में सहसंबंधों की भूमिका का अध्ययन किया गया है।

भौतिक नियमों की व्युत्पत्ति
भौतिक कानूनों के आधार के रूप में बी. रॉय फ्रीडेन द्वारा प्रस्तुत एक विवादास्पद सिद्धांत में फिशर की जानकारी एक केंद्रीय भूमिका निभाती है, एक ऐसा दावा जो विवादित रहा है।

मशीन लर्निंग
फिशर की जानकारी का उपयोग मशीन सीखने की तकनीकों में किया जाता है जैसे कि विपत्तिपूर्ण हस्तक्षेप#लोचदार वजन समेकन, जो कृत्रिम तंत्रिका नेटवर्क में भयावह हस्तक्षेप को कम करता है।

दूसरे क्रम के ग्रेडिएंट डिसेंट नेटवर्क प्रशिक्षण में फिशर की जानकारी को हानि समारोह के हेस्सियन के विकल्प के रूप में इस्तेमाल किया जा सकता है।

सापेक्ष एन्ट्रापी से संबंध
फिशर की जानकारी सापेक्ष एन्ट्रॉपी से संबंधित है। दो वितरणों के बीच सापेक्ष एन्ट्रॉपी, या कुल्बैक-लीब्लर विचलन $$p$$ और $$q$$ रूप में लिखा जा सकता है
 * $$KL(p:q) = \int p(x)\log\frac{p(x)}{q(x)} \, dx.$$

अब संभाव्यता वितरण के एक परिवार पर विचार करें $$f(x; \theta)$$ द्वारा पैरामीट्रिज्ड $$\theta \in \Theta$$. फिर परिवार में दो वितरणों के बीच कुल्बैक-लीब्लर विचलन को इस रूप में लिखा जा सकता है
 * $$D(\theta,\theta') = KL(p({}\cdot{};\theta):p({}\cdot{};\theta'))= \int f(x; \theta)\log\frac{f(x;\theta)}{f(x; \theta')} \, dx.$$

अगर $$\theta$$ तय है, तो एक ही परिवार के दो वितरणों के बीच सापेक्ष एन्ट्रापी कम से कम हो जाती है $$\theta'=\theta$$. के लिए $$\theta'$$ के करीब $$\theta$$, कोई किसी श्रृंखला में पिछले व्यंजक को दूसरे क्रम तक विस्तारित कर सकता है:


 * $$D(\theta,\theta') = \frac{1}{2}(\theta' - \theta)^\textsf{T} \left(\frac{\partial^2}{\partial\theta'_i\, \partial\theta'_j} D(\theta,\theta')\right)_{\theta'=\theta}(\theta' - \theta) + o\left( (\theta'-\theta)^2 \right)$$

लेकिन दूसरे क्रम के व्युत्पन्न को इस रूप में लिखा जा सकता है
 * $$ \left(\frac{\partial^2}{\partial\theta'_i\, \partial\theta'_j} D(\theta,\theta')\right)_{\theta'=\theta} = - \int  f(x; \theta) \left( \frac{\partial^2}{\partial\theta'_i\, \partial\theta'_j} \log(f(x; \theta'))\right)_{\theta'=\theta} \, dx = [\mathcal{I}(\theta)]_{i,j}. $$

इस प्रकार फिशर जानकारी अपने मापदंडों के संबंध में एक सशर्त वितरण के सापेक्ष एन्ट्रापी की वक्रता का प्रतिनिधित्व करती है।

इतिहास
फिशर जानकारी पर कई प्रारंभिक सांख्यिकीविदों द्वारा चर्चा की गई थी, विशेष रूप से फ्रांसिस य्सिड्रो एडगेवर्थ | एफ। वाई एडगेवर्थ। उदाहरण के लिए, सैवेज कहते हैं: इसमें [फिशर जानकारी], वह [फिशर] कुछ हद तक प्रत्याशित था (एडगेवर्थ 1908–9 esp। 502, 507–8, 662, 677–8, 82–5 और संदर्भ वह [एडगेवर्थ] पियर्सन सहित उद्धृत करता है और फाइलन 1898 [...])। कई प्रारंभिक ऐतिहासिक स्रोत हैं और इस प्रारंभिक कार्य की कई समीक्षाएँ।

यह भी देखें

 * दक्षता (सांख्यिकी)
 * देखी गई जानकारी
 * फिशर सूचना मीट्रिक
 * गठन मैट्रिक्स
 * सूचना ज्यामिति
 * जेफरीस पूर्व
 * क्रैमर-राव बाउंड
 * न्यूनतम फिशर जानकारी
 * क्वांटम फिशर जानकारी

सूचना सिद्धांत में नियोजित अन्य उपाय:
 * एंट्रॉपी (सूचना सिद्धांत)
 * कुलबैक-लीब्लर डाइवर्जेंस
 * स्वयं सूचना

संदर्भ

 * Frieden, B. R. (2004) Science from Fisher Information: A Unification. Cambridge Univ. Press. ISBN 0-521-00911-1.
 * Frieden, B. R. (2004) Science from Fisher Information: A Unification. Cambridge Univ. Press. ISBN 0-521-00911-1.
 * Frieden, B. R. (2004) Science from Fisher Information: A Unification. Cambridge Univ. Press. ISBN 0-521-00911-1.
 * Frieden, B. R. (2004) Science from Fisher Information: A Unification. Cambridge Univ. Press. ISBN 0-521-00911-1.
 * Frieden, B. R. (2004) Science from Fisher Information: A Unification. Cambridge Univ. Press. ISBN 0-521-00911-1.
 * Frieden, B. R. (2004) Science from Fisher Information: A Unification. Cambridge Univ. Press. ISBN 0-521-00911-1.