स्वतंत्र और समान रूप से वितरित यादृच्छिक चर

संभाव्यता सिद्धांत और सांख्यिकी में, यादृच्छिक चर का एक संग्रह स्वतंत्र और समान रूप से वितरित होता है यदि प्रत्येक यादृच्छिक चर में दूसरों के समान संभावना वितरण होता है और सभी परस्पर स्वतंत्रता (संभावना सिद्धांत) होते हैं। इस संपत्ति को आमतौर पर i.i.d., iid, या IID के रूप में संक्षिप्त किया जाता है। IID को पहली बार सांख्यिकी में परिभाषित किया गया था और डेटा माइनिंग और सिग्नल प्रोसेसिंग जैसे विभिन्न क्षेत्रों में इसका उपयोग होता है।

परिचय
सांख्यिकी आमतौर पर यादृच्छिक नमूनों से संबंधित होती है। एक यादृच्छिक नमूने को उन वस्तुओं के समूह के रूप में माना जा सकता है जिन्हें यादृच्छिक रूप से चुना जाता है। अधिक औपचारिक रूप से, यह स्वतंत्र, समान रूप से वितरित (IID) यादृच्छिक डेटा बिंदुओं का एक क्रम है।

दूसरे शब्दों में, यादृच्छिक नमूना और IID शब्द मूल रूप से एक ही हैं। आँकड़ों में, यादृच्छिक नमूना विशिष्ट शब्दावली है, लेकिन संभाव्यता में IID कहना अधिक सामान्य है।


 * 'समान रूप से वितरित' का अर्थ है कि कोई समग्र प्रवृत्ति नहीं है - वितरण में उतार-चढ़ाव नहीं होता है और नमूने में सभी आइटम समान संभाव्यता वितरण से लिए जाते हैं।
 * 'स्वतंत्र' का अर्थ है कि नमूना आइटम सभी स्वतंत्र घटनाएँ हैं। दूसरे शब्दों में, वे किसी भी तरह से एक दूसरे से जुड़े नहीं हैं; एक चर के मान का ज्ञान दूसरे चर के मान के बारे में कोई जानकारी नहीं देता है और इसके विपरीत।

आवेदन
स्वतंत्र और समान रूप से वितरित यादृच्छिक चर अक्सर एक धारणा के रूप में उपयोग किए जाते हैं, जो अंतर्निहित गणित को सरल बनाने की प्रवृत्ति रखता है। सांख्यिकीय मॉडलिंग के व्यावहारिक अनुप्रयोगों में, हालांकि, धारणा यथार्थवादी हो भी सकती है और नहीं भी। आई.आई.डी. धारणा का उपयोग केंद्रीय सीमा प्रमेय में भी किया जाता है, जिसमें कहा गया है कि i.i.d. के योग (या औसत) का प्रायिकता वितरण परिमित भिन्नता वाले चर सामान्य वितरण तक पहुंचते हैं। अक्सर आई.आई.डी. धारणा यादृच्छिक चर के अनुक्रम के संदर्भ में उत्पन्न होती है। तब स्वतंत्र और समान रूप से वितरित का अर्थ है कि अनुक्रम में एक तत्व यादृच्छिक चर से स्वतंत्र है जो इससे पहले आया था। इस तरह एक आई.आई.डी. अनुक्रम एक मार्कोव अनुक्रम से अलग है, जहां एनवें यादृच्छिक चर के लिए संभाव्यता वितरण अनुक्रम में पिछले यादृच्छिक चर का एक कार्य है (पहले क्रम मार्कोव अनुक्रम के लिए)। एक आई.आई.डी. अनुक्रम नमूना स्थान या घटना स्थान के सभी तत्वों के लिए संभावनाओं को समान नहीं होना चाहिए। उदाहरण के लिए, बार-बार भरे हुए पासे को फेंकने से परिणाम पक्षपाती होने के बावजूद i.i.d. अनुक्रम उत्पन्न होगा।

दो यादृच्छिक चर के लिए परिभाषा
मान लीजिए कि यादृच्छिक चर $$X$$ और $$Y$$ मूल्यों को ग्रहण करने के लिए परिभाषित किया गया है $$I \subseteq \mathbb{R}$$. होने देना $$F_X(x) = \operatorname{P}(X\leq x)$$ और $$F_Y(y) = \operatorname{P}(Y\leq y)$$ के संचयी वितरण कार्य हो $$X$$ और $$Y$$, क्रमशः, और उनके संयुक्त संभाव्यता वितरण को निरूपित करें $$F_{X,Y}(x,y) = \operatorname{P}(X\leq x \land Y\leq y)$$.

दो यादृच्छिक चर $$X$$ और $$Y$$ यदि और केवल यदि समान रूप से वितरित किए जाते हैं $$F_X(x)=F_Y(x) \, \forall x \in I$$.

दो यादृच्छिक चर $$X$$ और $$Y$$ स्वतंत्र हैं अगर और केवल अगर $$F_{X,Y}(x,y) = F_{X}(x) \cdot F_{Y}(y) \, \forall x,y \in I$$. (आगे देखें .)

दो यादृच्छिक चर $$X$$ और $$Y$$ आई.आई.डी हैं अगर वे स्वतंत्र और समान रूप से वितरित हैं, यानी अगर और केवल अगर

दो से अधिक यादृच्छिक चर
के लिए परिभाषा परिभाषा स्वाभाविक रूप से दो से अधिक यादृच्छिक चर तक फैली हुई है। हम कहते हैं $$n$$ यादृच्छिक चर $$X_1,\ldots,X_n$$ आई.आई.डी हैं यदि वे स्वतंत्र हैं (आगे देखें ) और समान रूप से वितरित, यानी अगर और केवल अगर

कहाँ $$F_{X_1,\ldots,X_n}(x_1,\ldots,x_n) = \operatorname{P}(X_1\leq x_1 \land \ldots \land X_n\leq x_n)$$ के संयुक्त संचयी वितरण समारोह को दर्शाता है $$X_1,\ldots,X_n$$.

स्वतंत्रता की परिभाषा
प्रायिकता सिद्धांत में, दो घटनाएँ, $\color{red}A$ और $\definecolor{Green}{RGB}{0,128,0} \definecolor{green}{RGB}{0,128,0} \color{Green}B$, को स्वतंत्र कहा जाता है अगर और केवल अगर $\definecolor{Green}{RGB}{0,128,0} \definecolor{green}{RGB}{0,128,0} P({\color{red}A} \ \mathrm{and} \ {\color{green}B})=P({\color{red}A})P({\color{green}B})$. निम्नांकित में, $\definecolor{Green}{RGB}{0,128,0} \definecolor{green}{RGB}{0,128,0} P({\color{red}A}{\color{green}B})$ के लिए छोटा है $\definecolor{Green}{RGB}{0,128,0} \definecolor{green}{RGB}{0,128,0} P({\color{red}A} \ \mathrm{and} \ {\color{green}B})$.

मान लीजिए प्रयोग की दो घटनाएँ हैं, $\color{red}A$ और $\definecolor{Green}{RGB}{0,128,0} \definecolor{green}{RGB}{0,128,0} \color{Green}B$. अगर $P({\color{red}A})>0$, संभावना है $P(|{\color{red}A})$. आम तौर पर, की घटना $\color{red}A$ की संभावना पर प्रभाव पड़ता है $\definecolor{Green}{RGB}{0,128,0} \definecolor{green}{RGB}{0,128,0} \color{Green}B$, जिसे सशर्त संभाव्यता कहा जाता है, और केवल जब घटना होती है $\color{red}A$ होने पर कोई प्रभाव नहीं पड़ता है $\definecolor{Green}{RGB}{0,128,0} \definecolor{green}{RGB}{0,128,0} \color{Green}B$, वहाँ है $\definecolor{Green}{RGB}{0,128,0} \definecolor{green}{RGB}{0,128,0} P(|{\color{red}A})=P({\color{green}B})$.

नोट: अगर $P({\color{red}A})>0$ और $\definecolor{Green}{RGB}{0,128,0} \definecolor{green}{RGB}{0,128,0} P({\color{Green}B})>0$, तब $\color{red}A$ और $\definecolor{Green}{RGB}{0,128,0} \definecolor{green}{RGB}{0,128,0} \color{Green}B$ पारस्परिक रूप से स्वतंत्र हैं जिन्हें एक ही समय में पारस्परिक रूप से असंगत के साथ स्थापित नहीं किया जा सकता है; अर्थात्, स्वतंत्रता संगत होनी चाहिए और पारस्परिक बहिष्कार संबंधित होना चाहिए।

कल्पना करना $\color{red}A$, $\definecolor{Green}{RGB}{0,128,0} \definecolor{green}{RGB}{0,128,0} \color{Green}B$, और $\definecolor{blue}{RGB}{0,0,255} \color{blue}C$ तीन घटनाएँ हैं। अगर $\definecolor{Green}{RGB}{0,128,0} \definecolor{green}{RGB}{0,128,0} P({\color{red}A}{\color{green}B})=P({\color{red}A})P({\color{green}B})$, $\definecolor{Green}{RGB}{0,128,0} \definecolor{green}{RGB}{0,128,0} \definecolor{blue}{RGB}{0,0,255} \definecolor{Blue}{RGB}{0,0,255} P({\color{green}B}{\color{blue}C})=P({\color{green}B})P({\color{blue}C})$, $\definecolor{blue}{RGB}{0,0,255} P({\color{red}A}{\color{blue}C})=P({\color{red}A})P({\color{blue}C})$, और $\definecolor{Green}{RGB}{0,128,0} \definecolor{green}{RGB}{0,128,0} \definecolor{blue}{RGB}{0,0,255} \definecolor{Blue}{RGB}{0,0,255} P({\color{red}A}{\color{green}B}{\color{blue}C})=P({\color{red}A})P({\color{green}B})P({\color{blue}C})$ संतुष्ट हैं, तो घटनाएँ $\color{red}A$, $\definecolor{Green}{RGB}{0,128,0} \definecolor{green}{RGB}{0,128,0} \color{Green}B$, और $\definecolor{blue}{RGB}{0,0,255} \color{blue}C$ परस्पर स्वतंत्र हैं।

एक अधिक सामान्य परिभाषा है $n$ आयोजन, ${\color{red}A}_1,{\color{red}A}_2, \ldots, {\color{red}A}_n $ . यदि किसी के लिए उत्पाद घटनाओं की संभावनाएं $2, 3, \ldots, n$ घटनाएँ प्रत्येक घटना की संभावनाओं के उत्पाद के बराबर होती हैं, फिर घटनाएँ ${\color{red}A}_1,{\color{red}A}_2, \ldots, {\color{red}A}_n $ एक दूसरे से स्वतंत्र हैं।

उदाहरण 1
उचित या अनुचित रूलेट व्हील के घुमावों के परिणामों का क्रम i.i.d. इसका एक निहितार्थ यह है कि यदि रूलेट गेंद लाल रंग पर गिरती है, उदाहरण के लिए, एक पंक्ति में 20 बार, अगली स्पिन किसी भी अन्य स्पिन की तुलना में काली होने की अधिक या कम संभावना नहीं है (जुआरी का भ्रम देखें)।

फेयर या लोडेड डाइस रोल का क्रम i.i.d.

निष्पक्ष या अनुचित सिक्के के पलटने का क्रम i.i.d है।

संकेत आगे बढ़ाना और  मूर्ति प्रोद्योगिकी  में परिवर्तन की धारणा i.i.d. तात्पर्य दो विशिष्टताओं से है, i.d. भाग और मैं। भाग:

(i.d.) संकेत स्तर समय अक्ष पर संतुलित होना चाहिए;

(i।) सिग्नल स्पेक्ट्रम को चपटा होना चाहिए, यानी फ़िल्टरिंग (जैसे deconvolution) द्वारा एक सफेद शोर सिग्नल (यानी एक संकेत जहां सभी आवृत्तियों समान रूप से मौजूद हैं) में परिवर्तित किया जाना चाहिए।

उदाहरण 2
एक सिक्के को 10 बार उछालें और रिकॉर्ड करें कि सिक्का कितनी बार सिर पर गिरा।
 * 1) स्वतंत्र - लैंडिंग का प्रत्येक परिणाम दूसरे परिणाम को प्रभावित नहीं करेगा, जिसका अर्थ है कि 10 परिणाम एक दूसरे से स्वतंत्र हैं।
 * 2) समान रूप से वितरित - यदि सिक्का एक सजातीय सामग्री है, तो हर बार हेड आने की संभावना 0.5 है, जिसका अर्थ है कि हर बार संभावना समान है।

उदाहरण 3
एक पासे को 10 बार घुमाएँ और रिकॉर्ड करें कि कितनी बार परिणाम 1 आया।
 * 1) स्वतंत्र - डाइस का प्रत्येक परिणाम अगले परिणाम को प्रभावित नहीं करेगा, जिसका अर्थ है कि 10 परिणाम एक दूसरे से स्वतंत्र हैं।
 * 2) समान रूप से वितरित - यदि पासा एक सजातीय सामग्री है, तो हर बार संख्या 1 की संभावना 1/6 है, जिसका अर्थ है कि संभावना हर बार समान है।

उदाहरण 4
52 कार्ड वाले कार्ड के मानक डेक से एक कार्ड चुनें, फिर कार्ड को वापस डेक में रखें। इसे 52 बार दोहराएं। दिखाई देने वाले राजा की संख्या रिकॉर्ड करें
 * 1) स्वतंत्र - कार्ड का प्रत्येक परिणाम अगले परिणाम को प्रभावित नहीं करेगा, जिसका अर्थ है कि 52 परिणाम एक दूसरे से स्वतंत्र हैं।
 * 2) समान रूप से वितरित - इसमें से एक कार्ड निकालने के बाद, हर बार बादशाह की प्रायिकता 4/52 होती है, जिसका अर्थ है कि हर बार प्रायिकता समान होती है।

सामान्यीकरण
कई परिणाम जो पहली बार इस धारणा के तहत सिद्ध हुए थे कि यादृच्छिक चर i.i.d हैं। कमजोर वितरण धारणा के तहत भी सही साबित हुए हैं।

विनिमेय यादृच्छिक चर
सबसे सामान्य धारणा जो आई.आई.डी. के मुख्य गुणों को साझा करती है। चर विनिमेय यादृच्छिक चर हैं, जो ब्रूनो डी फिनेची द्वारा प्रस्तुत किए गए हैं। विनिमेयता का मतलब है कि हालांकि चर स्वतंत्र नहीं हो सकते हैं, भविष्य वाले पिछले वाले की तरह व्यवहार करते हैं - औपचारिक रूप से, परिमित अनुक्रम का कोई भी मूल्य उतना ही संभव है जितना कि उन मूल्यों का कोई क्रमपरिवर्तन - सममित समूह के तहत संयुक्त संभाव्यता वितरण अपरिवर्तनीय है।

यह एक उपयोगी सामान्यीकरण प्रदान करता है - उदाहरण के लिए, प्रतिस्थापन के बिना नमूना लेना स्वतंत्र नहीं है, लेकिन विनिमय योग्य है।

लेवी प्रक्रिया
स्टोचैस्टिक कैलकुलस में, आई.आई.डी. चरों को असतत समय लेवी प्रक्रिया के रूप में माना जाता है: प्रत्येक चर यह बताता है कि एक समय से दूसरे में कितना परिवर्तन होता है। उदाहरण के लिए, Bernoulli परीक्षणों के अनुक्रम की व्याख्या Bernoulli प्रक्रिया के रूप में की जाती है। निरंतर समय लेवी प्रक्रियाओं को शामिल करने के लिए इसे सामान्यीकृत किया जा सकता है, और कई लेवी प्रक्रियाओं को i.i.d की सीमा के रूप में देखा जा सकता है। चर-उदाहरण के लिए, वीनर प्रक्रिया बर्नौली प्रक्रिया की सीमा है।

मशीन लर्निंग में
मशीन लर्निंग तेजी से, अधिक सटीक परिणाम देने के लिए वर्तमान में बड़ी मात्रा में डेटा का उपयोग करता है। इसलिए, हमें समग्र प्रतिनिधित्व के साथ ऐतिहासिक डेटा का उपयोग करने की आवश्यकता है। यदि प्राप्त डेटा समग्र स्थिति का प्रतिनिधित्व नहीं करता है, तो नियमों को गलत या गलत तरीके से सारांशित किया जाएगा।

आई.आई.डी. परिकल्पना, प्रशिक्षण नमूने में व्यक्तिगत मामलों की संख्या बहुत कम हो सकती है।

यह धारणा गणितीय रूप से गणना करने के लिए अधिकतमकरण को बहुत आसान बनाती है। गणित में स्वतंत्र और समान वितरण की धारणा को देखते हुए अनुकूलन समस्याओं में संभावना कार्य की गणना सरल हो जाती है। स्वतंत्रता की मान्यता के कारण, संभावना फलन को इस प्रकार लिखा जा सकता है
 * $$l(\theta) = P(x_1, x_2, x_3,...,x_n|\theta) = P(x_1|\theta) P(x_2|\theta) P(x_3|\theta) ... P(x_n|\theta)$$

देखी गई घटना की संभावना को अधिकतम करने के लिए, लॉग फ़ंक्शन लें और पैरामीटर θ को अधिकतम करें। यानी गणना करने के लिए:
 * $$\mathop{\rm argmax}\limits_\theta \log(l(\theta))$$

कहाँ
 * $$\log(l(\theta)) = \log(P(x_1|\theta)) + \log(P(x_2|\theta)) + \log(P(x_3|\theta)) + ... + \log(P(x_n|\theta))$$

कंप्यूटर कई योगों की गणना करने के लिए बहुत कुशल है, लेकिन यह गुणन की गणना करने में कुशल नहीं है। कम्प्यूटेशनल दक्षता में वृद्धि के लिए यह सरलीकरण मुख्य कारण है। और यह लॉग ट्रांसफ़ॉर्मेशन भी अधिकतम करने की प्रक्रिया में है, कई घातीय कार्यों को रैखिक कार्यों में बदल रहा है।

दो कारणों से, व्यावहारिक अनुप्रयोगों में केंद्रीय सीमा प्रमेय का उपयोग करना आसान है।
 * 1) भले ही नमूना अधिक जटिल गैर-गाऊसी वितरण से आता है, यह अच्छी तरह से अनुमानित भी हो सकता है। क्योंकि इसे केंद्रीय सीमा प्रमेय से गॉसियन वितरण तक सरल बनाया जा सकता है। बड़ी संख्या में देखे जाने योग्य नमूनों के लिए, कई यादृच्छिक चरों के योग का लगभग सामान्य वितरण होगा।
 * 2) दूसरा कारण यह है कि मॉडल की सटीकता मॉडल इकाई की सादगी और प्रतिनिधि शक्ति के साथ-साथ डेटा की गुणवत्ता पर निर्भर करती है। क्योंकि इकाई की सरलता से व्याख्या करना और पैमाना बनाना आसान हो जाता है, और इकाई से प्रतिनिधि शक्ति + पैमाना मॉडल की सटीकता में सुधार करता है। एक गहरे तंत्रिका नेटवर्क की तरह, प्रत्येक न्यूरॉन बहुत सरल है, लेकिन मॉडल की सटीकता में सुधार के लिए अधिक जटिल सुविधाओं का प्रतिनिधित्व करने के लिए परत दर परत मजबूत प्रतिनिधि शक्ति है।

यह भी देखें

 * डी फिनेटी की प्रमेय
 * जोड़ीदार स्वतंत्रता
 * केंद्रीय सीमा प्रमेय