दर-विरूपण सिद्धांत

दर-विरूपण सिद्धांत सूचना सिद्धांत की एक प्रमुख शाखा है जो हानिपूर्ण डेटा संपीड़न के लिए सैद्धांतिक आधार प्रदान करती है; यह प्रति प्रतीक बिट्स की न्यूनतम संख्या निर्धारित करने की समस्या को संबोधित करता है, जैसा कि आर दर द्वारा मापा जाता है, जिसे एक चैनल पर संचारित किया जाना चाहिए, ताकि स्रोत (इनपुट सिग्नल) को रिसीवर (आउटपुट) पर लगभग पुनर्निर्मित किया जा सके। सिग्नल) अपेक्षित विरूपण डी से अधिक के बिना।

परिचय
दर-विरूपण सिद्धांत एक विश्लेषणात्मक अभिव्यक्ति देता है कि हानिपूर्ण संपीड़न विधियों का उपयोग करके कितना संपीड़न प्राप्त किया जा सकता है। मौजूदा ऑडियो, भाषण, छवि और वीडियो संपीड़न तकनीकों में से कई में परिवर्तन, परिमाणीकरण और अंश -दर आवंटन प्रक्रियाएं हैं जो दर-विरूपण कार्यों के सामान्य आकार का लाभ उठाती हैं।

दर-विरूपण सिद्धांत क्लाउड शैनन द्वारा सूचना सिद्धांत पर अपने मूलभूत कार्य में बनाया गया था।

दर-विरूपण सिद्धांत में, दर को आमतौर पर संग्रहीत या प्रसारित किए जाने वाले प्रति डेटा नमूने बिट्स की संख्या के रूप में समझा जाता है। विकृति की धारणा निरंतर चर्चा का विषय है। सबसे सरल मामले में (जो वास्तव में ज्यादातर मामलों में उपयोग किया जाता है), विरूपण को इनपुट और आउटपुट सिग्नल (यानी, माध्य वर्ग त्रुटि) के बीच अंतर के वर्ग के अपेक्षित मूल्य के रूप में परिभाषित किया गया है। हालाँकि, चूँकि हम जानते हैं कि अधिकांश हानिपूर्ण संपीड़न तकनीकें डेटा पर काम करती हैं जो मानव उपभोक्ताओं (संगीत सुनना, चित्र और वीडियो देखना) द्वारा माना जाएगा, विरूपण माप को अधिमानतः मानवीय धारणा और शायद सौंदर्यशास्त्र पर आधारित होना चाहिए: बहुत हद तक संभाव्यता के उपयोग की तरह दोषरहित संपीड़न में, विरूपण उपायों को अंततः हानि कार्यों के साथ पहचाना जा सकता है जैसा कि बायेसियन अनुमान सिद्धांत और निर्णय सिद्धांत में उपयोग किया जाता है। ऑडियो संपीड़न में, अवधारणात्मक मॉडल (और इसलिए अवधारणात्मक विरूपण उपाय) अपेक्षाकृत अच्छी तरह से विकसित होते हैं और नियमित रूप से बिका हुआ 3 या वॉर्बिस जैसी संपीड़न तकनीकों में उपयोग किए जाते हैं, लेकिन अक्सर दर-विरूपण सिद्धांत में शामिल करना आसान नहीं होता है। छवि और वीडियो संपीड़न में, मानव धारणा मॉडल कम अच्छी तरह से विकसित होते हैं और समावेशन ज्यादातर जेपीईजी और एमपीईजी वेटिंग (परिमाणीकरण (सिग्नल प्रोसेसिंग), सामान्यीकरण (छवि प्रसंस्करण)) मैट्रिक्स तक सीमित होता है।

विरूपण कार्य
विरूपण फ़ंक्शन किसी प्रतीक का प्रतिनिधित्व करने की लागत को मापते हैं $$x$$ एक अनुमानित प्रतीक द्वारा $$\hat{x}$$. विशिष्ट विरूपण कार्य हैमिंग विरूपण और स्क्वेर्ड-त्रुटि विरूपण हैं।

हैमिंग विरूपण

 * $$ d(x,\hat{x}) = \begin{cases}

0 & \text{if } x = \hat{x} \\ 1 & \text{if } x \neq \hat{x} \end{cases} $$

वर्ग-त्रुटि विरूपण

 * $$ d(x,\hat{x})=\left( x-\hat{x}\right)^2 $$

दर-विरूपण कार्य
दर और विरूपण से संबंधित कार्य निम्नलिखित न्यूनतमकरण समस्या के समाधान के रूप में पाए जाते हैं:


 * $$\inf_{Q_{Y\mid X}(y\mid x)} I_Q(Y;X) \text{ subject to } D_Q \le D^*.$$

यहाँ $$Q_{Y\mid X}(y\mid x)$$, जिसे कभी-कभी परीक्षण चैनल भी कहा जाता है, संचार चैनल आउटपुट (संपीड़ित सिग्नल) का सशर्त संभाव्यता संभाव्यता घनत्व फ़ंक्शन (पीडीएफ) है $$Y$$ किसी दिए गए इनपुट के लिए (मूल संकेत) $$X$$, और $$I_Q(Y;X)$$ के बीच पारस्परिक जानकारी है $$Y$$ और $$X$$ के रूप में परिभाषित


 * $$I(Y;X) = H(Y) - H(Y\mid X) \, $$

कहाँ $$H(Y)$$ और $$H(Y\mid X)$$ क्रमशः आउटपुट सिग्नल Y की एन्ट्रापी और इनपुट सिग्नल दिए गए आउटपुट सिग्नल की सशर्त एन्ट्रापी हैं:


 * $$ H(Y) = - \int_{-\infty}^\infty P_Y (y) \log_{2} (P_Y (y))\,dy $$
 * $$ H(Y\mid X) =

- \int_{-\infty}^\infty \int_{-\infty}^\infty Q_{Y\mid X}(y\mid x) P_X (x) \log_2 (Q_{Y\mid X} (y\mid x))\, dx\, dy. $$ समस्या को विरूपण-दर फ़ंक्शन के रूप में भी तैयार किया जा सकता है, जहां हम दी गई दर बाधा के लिए प्राप्त करने योग्य विकृतियों पर न्यूनतम और सर्वोच्च पाते हैं। प्रासंगिक अभिव्यक्ति है:


 * $$\inf_{Q_{Y\mid X}(y\mid x)} E[D_Q[X,Y]] \text{ subject to } I_Q(Y;X)\leq R. $$

दोनों सूत्रीकरण ऐसे कार्यों को जन्म देते हैं जो एक दूसरे के व्युत्क्रम हैं।

आपसी जानकारी को प्रेषक के सिग्नल (H(Y)) के बारे में प्राप्तकर्ता की 'पूर्व' अनिश्चितता के उपाय के रूप में समझा जा सकता है, जो प्रेषक के सिग्नल के बारे में जानकारी प्राप्त करने के बाद बची अनिश्चितता से कम हो जाती है ($$H(Y\mid X)$$). निःसंदेह अनिश्चितता में कमी संप्रेषित सूचना की मात्रा के कारण है, जो कि है $$I \left(Y;X \right)$$.

उदाहरण के तौर पर, यदि कोई संचार नहीं है, तो $$H(Y\mid X) = H (Y)$$ और $$I(Y;X) = 0$$. वैकल्पिक रूप से, यदि संचार चैनल सही है और सिग्नल प्राप्त हुआ है $$Y$$ सिग्नल के समान है $$X$$ प्रेषक पर, फिर $$H(Y\mid X) = 0$$ और $$I(Y;X) = H(X) = H(Y)$$.

दर-विरूपण फलन की परिभाषा में, $$D_Q$$ और $$D^{*}$$ के बीच की विकृति है $$X$$ और $$Y$$ किसी प्रदत्त के लिए $$Q_{Y\mid X}(y\mid x)$$ और क्रमशः निर्धारित अधिकतम विरूपण। जब हम माध्य वर्ग त्रुटि को विरूपण माप के रूप में उपयोग करते हैं, तो हमारे पास (आयाम-निरंतर संकेतों के लिए) होता है:


 * $$D_Q = \int_{-\infty}^\infty \int_{-\infty}^\infty

P_{X,Y}(x,y) (x-y)^2\, dx\, dy = \int_{-\infty}^\infty \int_{-\infty}^\infty Q_{Y\mid X}(y\mid x)P_{X}(x) (x-y)^2\, dx\, dy. $$ जैसा कि उपरोक्त समीकरण दिखाते हैं, दर-विरूपण फ़ंक्शन की गणना के लिए इनपुट के स्टोकेस्टिक विवरण की आवश्यकता होती है $$X$$ पीडीएफ के संदर्भ में $$P_X (x)$$, और फिर सशर्त पीडीएफ खोजने का लक्ष्य है $$Q_{Y\mid X}(y\mid x)$$ जो किसी दिए गए विरूपण के लिए दर को न्यूनतम करता है $$D^{*}$$. इन परिभाषाओं को असतत और मिश्रित यादृच्छिक चर को ध्यान में रखते हुए माप-सैद्धांतिक रूप से तैयार किया जा सकता है।

इस अनुकूलन समस्या के लिए एक विश्लेषणात्मक अभिव्यक्ति समाधान प्राप्त करना अक्सर मुश्किल होता है, कुछ उदाहरणों को छोड़कर जिनके लिए हम आगे दो सबसे प्रसिद्ध उदाहरण प्रस्तुत करते हैं। किसी भी स्रोत का दर-विरूपण फ़ंक्शन कई मूलभूत गुणों का पालन करने के लिए जाना जाता है, सबसे महत्वपूर्ण यह है कि यह एक सतत फ़ंक्शन है, एकरस रूप से घटता हुआ उत्तल फ़ंक्शन (यू) फ़ंक्शन (गणित) और इस प्रकार उदाहरणों में फ़ंक्शन का आकार है विशिष्ट (यहां तक ​​कि वास्तविक जीवन में मापी गई दर-विरूपण कार्यों के रूप भी बहुत समान होते हैं)।

यद्यपि इस समस्या के विश्लेषणात्मक समाधान दुर्लभ हैं, प्रसिद्ध शैनन निचली सीमा (एसएलबी) सहित इन कार्यों की ऊपरी और निचली सीमाएँ हैं, जो वर्ग त्रुटि और स्मृतिहीन स्रोतों के मामले में बताता है कि परिमित अंतर एन्ट्रापी वाले मनमाने स्रोतों के लिए,


 * $$ R(D) \ge h(X) - h(D) \, $$

जहां h(D) विचरण D के साथ गाऊसी यादृच्छिक चर की विभेदक एन्ट्रापी है। यह निचली सीमा स्मृति और अन्य विरूपण उपायों वाले स्रोतों तक विस्तार योग्य है। एसएलबी की एक महत्वपूर्ण विशेषता यह है कि यह स्रोतों की एक विस्तृत श्रेणी के लिए कम विरूपण शासन में स्पर्शोन्मुख रूप से तंग है और कुछ अवसरों में, यह वास्तव में दर-विरूपण फ़ंक्शन के साथ मेल खाता है। शैनन लोअर बाउंड्स को आम तौर पर पाया जा सकता है यदि किन्हीं दो संख्याओं के बीच विकृति को इन दो संख्याओं के मूल्य के बीच अंतर के एक फ़ंक्शन के रूप में व्यक्त किया जा सकता है।

ब्लाहुत-अरिमोटो एल्गोरिथ्म, रिचर्ड ब्लाहुत द्वारा सह-आविष्कार किया गया, मनमाने ढंग से परिमित इनपुट / आउटपुट वर्णमाला स्रोतों के दर-विरूपण कार्यों को संख्यात्मक रूप से प्राप्त करने के लिए एक सुंदर पुनरावृत्त तकनीक है और इसे अधिक सामान्य समस्या उदाहरणों तक विस्तारित करने के लिए बहुत काम किया गया है।

स्मृति के साथ स्थिर स्रोतों के साथ काम करते समय, दर विरूपण फ़ंक्शन की परिभाषा को संशोधित करना आवश्यक है और इसे बढ़ती लंबाई के अनुक्रमों पर ली गई सीमा के अर्थ में समझा जाना चाहिए।

R(D) = \lim_{n \rightarrow \infty} R_n(D) $$ कहाँ

R_n(D) = \frac{1}{n} \inf_{Q_{Y^n\mid X^n} \in \mathcal{Q}} I(Y^n, X^n) $$ और

\mathcal{Q} = \{ Q_{Y^n\mid X^n}(Y^n\mid X^n,X_0): E[d(X^n,Y^n)] \leq D \} $$ जहां सुपरस्क्रिप्ट उस समय तक के पूर्ण अनुक्रम को दर्शाता है और सबस्क्रिप्ट 0 प्रारंभिक स्थिति को इंगित करता है।

स्मृतिहीन (स्वतंत्र) गाऊसी स्रोत वर्ग-त्रुटि विरूपण के साथ
अगर हम ऐसा मान लें $$X$$ विचरण के साथ एक सामान्य वितरण यादृच्छिक चर है $$\sigma^2$$, और यदि हम मान लें कि सिग्नल के क्रमिक नमूने $$X$$ स्टोकेस्टिक रूप से स्वतंत्र हैं (या समकक्ष, स्रोत स्मृतिहीनता है, या संकेत असंबद्ध है), हम दर-विरूपण फ़ंक्शन के लिए निम्नलिखित विश्लेषणात्मक अभिव्यक्ति पाते हैं:


 * $$ R(D) = \begin{cases}

\frac{1}{2}\log_2(\sigma_x^2/D ), & \text{if } 0 \le D \le \sigma_x^2 \\ 0, & \text{if } D > \sigma_x^2. \end{cases} $$    निम्नलिखित चित्र दिखाता है कि यह फ़ंक्शन कैसा दिखता है:

दर-विरूपण सिद्धांत हमें बताता है कि 'कोई संपीड़न प्रणाली मौजूद नहीं है जो ग्रे क्षेत्र के बाहर कार्य करती हो।' एक व्यावहारिक संपीड़न प्रणाली लाल (निचली) सीमा के जितनी करीब होती है, उतना ही बेहतर प्रदर्शन करती है। एक सामान्य नियम के रूप में, यह सीमा केवल कोडिंग ब्लॉक लंबाई पैरामीटर को बढ़ाकर ही प्राप्त की जा सकती है। फिर भी, यूनिट ब्लॉकलेंथ पर भी कोई अक्सर अच्छा (स्केलर) क्वांटाइजेशन (सिग्नल प्रोसेसिंग) पा सकता है जो दर-विरूपण फ़ंक्शन से दूरी पर काम करता है जो व्यावहारिक रूप से प्रासंगिक है। यह दर-विरूपण फ़ंक्शन केवल गाऊसी स्मृतिहीन स्रोतों के लिए लागू होता है। यह ज्ञात है कि गॉसियन स्रोत एन्कोड करने के लिए सबसे कठिन स्रोत है: किसी दिए गए माध्य वर्ग त्रुटि के लिए, इसे सबसे बड़ी संख्या में बिट्स की आवश्यकता होती है। छवियों पर काम करने वाली एक व्यावहारिक संपीड़न प्रणाली का प्रदर्शन काफी हद तक नीचे हो सकता है $$R \left(D \right)$$ निचली सीमा दिखायी गयी है।

हैमिंग विरूपण के साथ स्मृतिहीन (स्वतंत्र) बर्नौली स्रोत
हैमिंग विरूपण के साथ बर्नौली यादृच्छिक चर का दर-विरूपण फ़ंक्शन इस प्रकार दिया गया है:
 * $$ R(D) = \left\{ \begin{matrix}

H_b(p)-H_b(D), & 0 \le D \le \min{(p,1-p)} \\ 0,        & D > \min{(p,1-p)} \end{matrix} \right. $$ कहाँ $$H_b$$ बाइनरी एन्ट्रॉपी फ़ंक्शन को दर्शाता है।

के लिए दर-विरूपण फ़ंक्शन का प्लॉट $$p=0.5$$:



दर-विरूपण सिद्धांत को चैनल क्षमता से जोड़ना
मान लीजिए कि हम उपयोगकर्ता को किसी स्रोत के बारे में सूचना प्रसारित करना चाहते हैं जिसका विरूपण डी से अधिक न हो। दर-विरूपण सिद्धांत हमें बताता है कि कम से कम $$R(D)$$ स्रोत से जानकारी के बिट्स/प्रतीक उपयोगकर्ता तक अवश्य पहुंचने चाहिए। हम शैनन के चैनल कोडिंग प्रमेय से यह भी जानते हैं कि यदि स्रोत एन्ट्रॉपी एच बिट्स/प्रतीक है, और चैनल क्षमता सी है (जहां $$C < H$$), तब $$H-C$$ इस जानकारी को दिए गए चैनल पर प्रसारित करते समय बिट्स/प्रतीक खो जाएगा। उपयोगकर्ता को अधिकतम विरूपण डी के साथ पुनर्निर्माण की कोई उम्मीद रखने के लिए, हमें यह आवश्यकता लागू करनी होगी कि ट्रांसमिशन में खोई गई जानकारी अधिकतम सहनीय हानि से अधिक न हो। $$H-R(D)$$ बिट्स/प्रतीक. इसका मतलब है कि चैनल की क्षमता कम से कम इतनी बड़ी होनी चाहिए $$R(D)$$.

यह भी देखें

 * ब्लाहुत-अरिमोटो एल्गोरिदम
 * आधार - सामग्री संकोचन
 * सजावट
 * दर-विरूपण अनुकूलन
 * गोलाकार पैकिंग
 * श्वेत रव

बाहरी संबंध

 * VcDemo Image and Video Compression Learning Tool
 * VcDemo Image and Video Compression Learning Tool