दिष्‍ट सूचना

दिष्‍ट सूचना एक सूचना सिद्धांत आकलन है जो यादृच्छिक स्ट्रिंग$$X^n = (X_1,X_2,\dots,X_n)$$ से यादृच्छिक स्ट्रिंग $$Y^n = (Y_1,Y_2,\dots,Y_n)$$ तक सूचना प्रवाह की मात्रा निर्धारित करता है। दिष्‍ट सूचना शब्द जेम्स मैसी द्वारा गढ़ा गया था और इसे इस प्रकार परिभाषित किया गया है
 * $$I(X^n\to Y^n) \triangleq \sum_{i=1}^n I(X^i;Y_i|Y^{i-1})$$

जहाँ $$I(X^{i};Y_i|Y^{i-1})$$ सशर्त पारस्परिक सूचना है $$I(X_1,X_2,...,X_{i};Y_i|Y_1,Y_2,...,Y_{i-1})$$.

दिष्‍ट सूचना में उन समस्याओं के लिए अनुप्रयोग होते हैं जहां कारण कार्य महत्वपूर्ण भूमिका निभाता है जैसे फीडबैक वाले चैनल क्षमता, असतत मेमोरी रहित नेटवर्क की क्षमता, इन-ब्लॉक मेमोरी वाले नेटवर्क की क्षमता, कारण पक्ष की सूचना के साथ गैम्बल, कारण पक्ष की सूचना के साथ संपीड़न, वास्तविक समय नियंत्रण संचार समायोजन,  और सांख्यिकीय भौतिकी।

कारण अनुबंधन
दिष्‍ट सूचना का सार कारण अनुबंधन है। $$x^n$$पर यथोचित रूप से अनुबंधन $$y^n$$ की प्रायिकता को इस प्रकार परिभाषित किया गया है :

$$P(x^n||y^n) \triangleq \prod_{i=1}^n P(x_i|x^{i-1},y^{i})$$.

यह पारंपरिक अनुबंधन

$$P(x^n|y^n) = \prod_{i=1}^n P(x_i|x^{i-1},y^{n})$$ के लिए श्रृंखला नियम, सभी प्रतीकों $$y^{i}$$ के बजाय "अतीत" और "वर्तमान" प्रतीकों $$y^{n}$$ पर एक अनुबंधन को छोड़कर के समान है। केवल "अतीत" प्रतीकों को शामिल करने के लिए, स्थिर प्रतीक को जोड़कर विलंब का परिचय दिया जा सकता है:
 * $$P(x^n||(0,y^{n-1})) \triangleq \prod_{i=1}^n P(x_i|x^{i-1},y^{i-1})$$.

इस अभिव्यक्ति के लिए $$P(x^n||y^{n-1})$$ लिखकर संकेतन का दुरुपयोग करना आम बात है, हालांकि औपचारिक रूप से सभी स्ट्रिंग्स में प्रतीकों की संख्या समान होनी चाहिए।

कोई भी कई स्ट्रिंग्स पर अनुबंधन लगा सकता है: $$P(x^n||y^n,z^n) \triangleq \prod_{i=1}^n P(x_i|x^{i-1},y^{i},z^{i})$$.

कारण अनुबंधन एन्ट्रापी
कारणतः अनुबंधन एन्ट्रापी को इस प्रकार परिभाषित किया गया है: :$$H(X^n || Y^n)=\mathbf E\left[ -\log {P(X^n||Y^n)} \right]=\sum_{i=1}^n H(X_{i}|X^{i-1},Y^{i})$$

इसी तरह, कोई भी कई स्ट्रिंग्स पर कारणात्मक अनुबंधन कर सकता है और लिख सकता है$$H(X^n || Y^n,Z^n)=\mathbf E\left[ -\log {P(X^n||Y^n,Z^n)} \right]$$

गुण
कारण अनुबंधन के लिए अपघटन नियम है
 * $$P(x^n, y^n) = P(x^n||y^{n-1}) P(y^n||x^n)$$.

यह नियम दर्शाता है कि कोई भी उत्पाद $$P(x^n||y^{n-1}), P(y^n||x^n)$$ संयुक्त वितरण $$P(x^n, y^n)$$ देता है।

कारण अनुबंधन प्रायिकता$$P(y^n||x^n) = \prod_{i=1}^n P(y_i|y^{i-1},x^{i})$$ प्रायिकता सदिश है, यानी,
 * $$P(y^n||x^n)\geq 0 \quad\text{and}\quad \sum_{y^n} P(y^n||x^n)=1 \quad\text{for all } (x^n,y^n)$$.

दिष्‍ट सूचना को कारण अनुबंधन के संदर्भ में लिखा जा सकता है: :$$I(X^N \rightarrow Y^N)=\mathbf E\left[ \log \frac{P(Y^N||X^N)}{P(Y^N)} \right] = H(Y^n)- H(Y^n || X^n)$$.

संबंध तीन स्ट्रिंग्स तक सामान्यीकृत होता है: $$X^n$$ को $$Y^n$$ तक प्रवाहित वाली $$Z^n$$ यथोचित रूप से अनुबंधन  है
 * $$I(X^n\to Y^n || Z^n) = H(Y^n || Z^n)- H(Y^n || X^n, Z^n)$$.

सूचना का संरक्षण नियम
जेम्स मैसी और उनके बेटे पीटर मैसी द्वारा स्थापित यह नियम, दिष्‍ट सूचना और पारस्परिक सूचना से संबंधित होकर अंतर्ज्ञान देता है। नियम कहता है कि किसी के लिए भी $$X^n, Y^n $$ लिए, निम्नलिखित समानता रखती है:
 * $$I(X^n;Y^n)= I(X^n \to Y^n)+I(Y^{n-1} \to X^n).$$

इस नियम के दो वैकल्पिक रूप हैं
 * $$I(X^n;Y^n) = I(X^n \to Y^n) + I(Y^n \to X^n) - I(X^n \leftrightarrow Y^n)$$
 * $$I(X^n;Y^n) = I(X^{n-1} \to Y^n) + I(Y^{n-1} \to X^n) + I(X^n \leftrightarrow Y^n)$$

जहाँ $$I(X^n \leftrightarrow Y^n) = \sum_{i=1}^n I(X_i ; Y_i | X^{i-1}, Y^{i-1})$$.

अनुमान और अनुकूलन
दिष्‍ट सूचना का अनुमान लगाना और उसका अनुकूलन करना चुनौतीपूर्ण है क्योंकि इसमें $$n$$ शब्द हैं जहाँ $$n$$ बड़े हो सकते हैं। कई मामलों में, कोई व्यक्ति सीमित औसत को अनुकूलित करने में रुचि रखता है, अर्थात, जब $$n$$ अनंत तक बढ़ता है जिसे बहु-अक्षर अभिव्यक्ति कहा जाता है।

अनुमान
नमूनों से दिष्‍ट सूचना का अनुमान लगाना एक कठिन समस्या है क्योंकि दिष्‍ट सूचना अभिव्यक्ति नमूनों पर नहीं बल्कि संयुक्त वितरण $$\{P(x_i,y_i|x^{i-1},y^{i-1})_{i=1}^n\}$$ पर निर्भर करती हैजो अज्ञात हो सकता है। कॉन्टेक्स्ट ट्री वेइटिंग (संदर्भ वृक्ष भार) और अनुभवजन्य पैरामीट्रिक वितरण और दीर्घकालिक अल्पकालिक स्मृति का उपयोग करने पर आधारित कई एल्गोरिदम हैं।

अनुकूलन
दिष्‍ट सूचना को अधिकतम करना सूचना सिद्धांत में एक मूलभूत समस्या है। उदाहरण के लिए, चैनल वितरण $$\{P(y_i|x^{i},y^{i-1}\}_{i=1}^n)$$ को देखते हुए, उद्देश्य चैनल इनपुट वितरण $$ I(X^n\to Y^n)$$ पर $$\{P(x_i|x^{i-1},y^{i-1}\}_{i=1}^n)$$ को अनुकूलित करना हो सकता है।

ब्लाहुत-अरिमोटो, मार्कोव निर्णय प्रक्रिया,   आवर्तक तंत्रिका नेटवर्क, सुदृढीकरण और ग्राफ़िकल विधियाँ (क्यू-ग्राफ़)  सीखने पर आधारित निर्देशित जानकारी को अनुकूलित करने के लिए एल्गोरिदम हैं। ब्लाहुत-अरिमोटो एल्गोरिदम के लिए, मुख्य विचार दिष्‍ट सूचना अभिव्यक्ति की अंतिम पारस्परिक सूचना से प्रारंभ करना और पीछे की ओर जाना है। मार्कोव निर्णय प्रक्रिया के लिए,    मुख्य विचार अनुकूलन को अनंत क्षितिज औसत इनाम मार्कोव निर्णय प्रक्रिया में बदलना है। आवर्ती तंत्रिका नेटवर्क के लिए, मुख्य विचार आवर्तक तंत्रिका नेटवर्क का उपयोग करके इनपुट वितरण को मॉडल करना और ग्रेडिएंट डिसेंट का उपयोग करके मापदंडों को अनुकूलित करना है। सुदृढीकरण सीखने के लिए, मुख्य विचार सुदृढीकरण सीखने के उपकरणों का उपयोग करके क्षमता के मार्कोव निर्णय प्रक्रिया सूत्रीकरण को हल करना है, जो किसी को बड़े या यहां तक ​​कि निरंतर वर्णमाला से निपटने की सुविधा देता है।

मार्को का द्विदिश संचार का सिद्धांत
मैसी की दिष्‍ट सूचना द्विदिश संचार के सिद्धांत को विकसित करने पर मार्को के प्रारंभिक काम (1966) से प्रेरित थी। दिष्‍ट परिवर्तन सूचना की मार्को की परिभाषा मैसी की परिभाषा से थोड़ी भिन्न है, समय $$n$$ पर, पिछले प्रतीकों पर अनुबंधन केवल $$X^{n-1},Y^{n-1}$$ और एक सीमा लेता है:
 * $$T_{12} = \lim_{n \to \infty} \mathbf E\left[ -\log \frac{P(X_{n}|X^{n-1})}{P(X_{n}|X^{n-1},Y^{n-1})} \right] \quad\text{and}\quad T_{21} = \lim_{n \to \infty} \mathbf E\left[ -\log \frac{P(Y_{n}|Y^{n-1})}{P(Y_{n}|Y^{n-1},X^{n-1})} \right].$$

मार्को ने कई अन्य मात्राएँ परिभाषित कीं, जिनमें शामिल हैं: कुल सूचना को आमतौर पर एन्ट्रापी दर कहा जाता है। मार्को ने उन समस्याओं के लिए निम्नलिखित संबंध दिखाए जिनमें उनकी रुचि थी: उन्होंने मात्राओं को भी परिभाषित किया जिन्हें उन्होंने अवशिष्ट एन्ट्रॉपीज़ कहा: और संरक्षण नियम $$F_{1}+F_{2} = R_{1}+R_{2}+K = H_{1}+H_{2}-K$$ और कई सीमाएँ विकसित किया।
 * कुल सूचना: $$H_{1} = \lim_{n \to \infty} \mathbf E\left[ -\log P(X_{n}|X^{n-1}) \right]$$ और $$H_{2} = \lim_{n \to \infty} \mathbf E\left[ -\log P(Y_{n}|Y^{n-1}) \right]$$
 * मुक्त सूचना: $$F_{1} = \lim_{n \to \infty} \mathbf E\left[ -\log P(X_{n}|X^{n-1},Y^{n-1}) \right]$$ और $$F_{2} = \lim_{n \to \infty} \mathbf E\left[ -\log P(Y_{n}|Y^{n-1},X^{n-1}) \right]$$
 * संयोग: $$K = \lim_{n \to \infty} \mathbf E\left[ -\log \frac{P(X_{n}|X^{n-1}) P(Y_{n}|Y^{n-1})}{P(X_{n},Y_{n}|X^{n-1},Y^{n-1})} \right].$$
 * $$K = T_{12}+T_{21}$$
 * $$H_{1} = T_{12}+F_{1}$$ और $$H_{2} = T_{21}+F_{2}$$
 * $$R_{1} = H_{1}-K = F_{1}-T_{21}$$
 * $$R_{2} = H_{2}-K = F_{2}-T_{12}$$

एन्ट्रापी अन्तरित से संबंध
दिष्‍ट सूचना अन्तरित एन्ट्रापी से संबंधित है, जो मार्को की दिष्‍ट परिवर्तन सूचना $$T_{21}$$का एक छोटा संस्करण है।

समय $$i$$ पर अन्तरित एन्ट्रापी और मेमोरी $$d$$ के साथ है।

T_{X \to Y} = I(X_{i-1},\dots,X_{i-d} ; Y_i | Y_{i-1},\dots,Y_{i-d}). $$ जहां किसी में वर्तमान प्रतीक $$X_i$$ शामिल नहीं है या अतीत के प्रतीक $$X^{i-d-1},Y^{i-d-1}$$ समय से पहले $$i-d$$ है।

अन्तरित एन्ट्रापी आमतौर पर स्थिरता मानती है, अर्थात, $$T_{X \to Y}$$ समय $$i$$ पर निर्भर नहीं करता है।