अधिकतम संभावना अनुमान

आंकड़ों में, अधिकतम संभावना अनुमान (एमएलई) अनुमान सिद्धांत की एक विधि है, जो कुछ देखे गए डेटा को देखते हुए अनुमानित संभाव्यता वितरण का सांख्यिकीय पैरामीटर है। यह गणितीय अनुकूलन द्वारा एक संभावना फ़ंक्शन द्वारा प्राप्त किया जाता है ताकि, अनुमानित सांख्यिकीय मॉडल के तहत, प्राप्ति (संभावना) सबसे अधिक संभावित हो। पैरामीटर स्थान में वह बिंदु अनुमान जो संभावना फ़ंक्शन को अधिकतम करता है, अधिकतम संभावना अनुमान कहलाता है। अधिकतम संभावना का तर्क सहज और लचीला दोनों है, और इस तरह यह विधि सांख्यिकीय अनुमान का एक प्रमुख साधन बन गई है। यदि संभाव्यता फ़ंक्शन अवकलनीय फ़ंक्शन है, तो मैक्सिमा खोजने के लिए व्युत्पन्न परीक्षण लागू किया जा सकता है। कुछ मामलों में, संभावना फ़ंक्शन की प्रथम-क्रम स्थितियों को विश्लेषणात्मक रूप से हल किया जा सकता है; उदाहरण के लिए, एक रेखीय प्रतिगमन मॉडल के लिए सामान्य न्यूनतम वर्ग अनुमानक संभावना को अधिकतम करता है जब यादृच्छिक त्रुटियों को समान विचरण के साथ सामान्य वितरण वितरण माना जाता है। बायेसियन अनुमान के परिप्रेक्ष्य से, एमएलई आम तौर पर अधिकतम पोस्टीरियर अनुमान के बराबर है | समान वितरण (निरंतर) पूर्व संभावना (या अनंत के मानक विचलन के साथ सामान्य वितरण पूर्व वितरण) के साथ अधिकतम पोस्टीरियर (एमएपी) अनुमान। फ़्रीक्वेंटिस्ट अनुमान में, एमएलई एक चरम अनुमानक का एक विशेष मामला है, जिसमें उद्देश्य फ़ंक्शन संभावना है।

सिद्धांत
हम एक अज्ञात संयुक्त संभाव्यता वितरण से एक यादृच्छिक नमूना (सांख्यिकी) के रूप में अवलोकनों के एक सेट को मॉडल करते हैं, जिसे सांख्यिकीय मापदंडों के एक सेट के रूप में व्यक्त किया जाता है। अधिकतम संभावना अनुमान का लक्ष्य उन मापदंडों को निर्धारित करना है जिनके लिए देखे गए डेटा में सबसे अधिक संयुक्त संभावना है। हम संयुक्त वितरण को नियंत्रित करने वाले मापदंडों को एक वेक्टर के रूप में लिखते हैं $$\; \theta = \left[ \theta_{1},\, \theta_2,\, \ldots,\, \theta_k \right]^{\mathsf{T}} \;$$ ताकि यह वितरण एक पैरामीट्रिक परिवार के अंतर्गत आ जाए $$\; \{ f(\cdot\,;\theta) \mid \theta \in \Theta \} \;,$$ कहाँ $$\, \Theta \,$$ पैरामीटर स्पेस कहा जाता है, जो यूक्लिडियन स्थान  का एक परिमित-आयामी उपसमुच्चय है। देखे गए डेटा नमूने पर संयुक्त घनत्व का मूल्यांकन करना $$\; \mathbf{y} = (y_1, y_2, \ldots, y_n) \;$$ एक वास्तविक-मूल्यवान फ़ंक्शन देता है,
 * $$\mathcal{L}_{n}(\theta) = \mathcal{L}_{n}(\theta; \mathbf{y}) = f_{n}(\mathbf{y}; \theta) \;,$$

जिसे संभाव्यता फलन कहा जाता है। स्वतंत्र और समान रूप से वितरित यादृच्छिक चर के लिए, $$f_{n}(\mathbf{y}; \theta)$$ अविभाज्य संभाव्यता घनत्व फ़ंक्शन का उत्पाद होगा:
 * $$f_{n}(\mathbf{y}; \theta) = \prod_{k=1}^n \, f_k^\mathsf{univar}(y_k; \theta) ~.$$

अधिकतम संभावना अनुमान का लक्ष्य मॉडल पैरामीटर के मानों को ढूंढना है जो पैरामीटर स्थान पर संभावना फ़ंक्शन को अधिकतम करते हैं, वह है
 * $$\hat{\theta} = \underset{\theta\in\Theta}{\operatorname{arg\;max}}\,\mathcal{L}_{n}(\theta\,;\mathbf{y}) ~.$$

सहज रूप से, यह उन पैरामीटर मानों का चयन करता है जो देखे गए डेटा को सबसे अधिक संभावित बनाते हैं। विशिष्ट मूल्य $$~ \hat{\theta} = \hat{\theta}_{n}(\mathbf{y}) \in \Theta ~$$ यह संभावना फ़ंक्शन को अधिकतम करता है $$\, \mathcal{L}_{n} \,$$ अधिकतम संभावना अनुमान कहा जाता है. इसके अलावा, यदि फ़ंक्शन $$\; \hat{\theta}_{n} : \mathbb{R}^{n} \to \Theta \;$$ इसलिए परिभाषित मापन योग्य कार्य है, तो इसे अधिकतम संभावना अनुमानक कहा जाता है। यह आम तौर पर नमूना स्थान पर परिभाषित एक फ़ंक्शन है, यानी किसी दिए गए नमूने को इसके तर्क के रूप में लेना। इसके अस्तित्व के लिए एक आवश्यकता और पर्याप्तता की शर्त यह है कि संभावना फ़ंक्शन एक पैरामीटर स्थान पर निरंतर कार्य करता है $$\, \Theta \,$$ वह सघन स्थान  है। एक खुले सेट के लिए $$\, \Theta \,$$ संभावना फलन सर्वोच्च मूल्य तक पहुंचे बिना भी बढ़ सकता है।

व्यवहार में, संभावना फ़ंक्शन के प्राकृतिक लघुगणक के साथ काम करना अक्सर सुविधाजनक होता है, जिसे लॉग-संभावना कहा जाता है:

\ell(\theta\,;\mathbf{y}) = \ln \mathcal{L}_{n}(\theta\,;\mathbf{y}) ~. $$ चूंकि लघुगणक एक मोनोटोनिक फ़ंक्शन है, अधिकतम $$\; \ell(\theta\,;\mathbf{y}) \;$$ के समान मान पर होता है $$\theta$$ जैसा कि अधिकतम होता है $$\, \mathcal{L}_{n} ~.$$ अगर $$\ell(\theta\,;\mathbf{y})$$ में अवकलनीय कार्य है $$\, \Theta \,,$$ अधिकतम (या न्यूनतम) की घटना के लिए व्युत्पन्न परीक्षण हैं
 * $$\frac{\partial \ell}{\partial \theta_{1}} = 0, \quad \frac{\partial \ell}{\partial \theta_{2}} = 0, \quad \ldots, \quad \frac{\partial \ell}{\partial \theta_{k}} = 0 ~,$$

संभाव्यता समीकरण के रूप में जाना जाता है। कुछ मॉडलों के लिए, इन समीकरणों को स्पष्ट रूप से हल किया जा सकता है $$\, \widehat{\theta\,} \,,$$ लेकिन सामान्य तौर पर अधिकतमीकरण समस्या का कोई बंद-रूप समाधान ज्ञात या उपलब्ध नहीं है, और एक एमएलई केवल गणितीय अनुकूलन के माध्यम से पाया जा सकता है। एक और समस्या यह है कि परिमित नमूनों में, संभावना समीकरणों के लिए एक फ़ंक्शन के एकाधिक शून्य मौजूद हो सकते हैं। क्या पहचानी गई जड़ $$\, \widehat{\theta\,} \,$$ संभावना समीकरण वास्तव में एक (स्थानीय) अधिकतम है या नहीं यह इस बात पर निर्भर करता है कि दूसरे क्रम के आंशिक और क्रॉस-आंशिक डेरिवेटिव का मैट्रिक्स, तथाकथित हेस्सियन मैट्रिक्स


 * $$\mathbf{H}\left(\widehat{\theta\,}\right) = \begin{bmatrix} \left. \frac{\partial^2 \ell}{\partial \theta_1^2} \right|_{\theta=\widehat{\theta\,}} & \left. \frac{\partial^2 \ell}{\partial \theta_1 \, \partial \theta_2} \right|_{\theta=\widehat{\theta\,}} & \dots & \left. \frac{\partial^2 \ell}{\partial \theta_1 \, \partial \theta_k} \right|_{\theta=\widehat{\theta\,}} \\ \left. \frac{\partial^2 \ell}{\partial \theta_2 \, \partial \theta_1} \right|_{\theta=\widehat{\theta\,}} & \left. \frac{\partial^2 \ell}{\partial \theta_2^2} \right|_{\theta=\widehat{\theta\,}} & \dots & \left. \frac{\partial^2 \ell}{\partial \theta_2 \, \partial \theta_k} \right|_{\theta=\widehat{\theta\,}} \\ \vdots & \vdots & \ddots & \vdots \\ \left. \frac{\partial^2 \ell}{\partial \theta_k \, \partial \theta_1} \right|_{\theta=\widehat{\theta\,}} & \left. \frac{\partial^2 \ell}{\partial \theta_k \, \partial \theta_2} \right|_{\theta=\widehat{\theta\,}} & \dots & \left. \frac{\partial^2 \ell}{\partial \theta_k^2} \right|_{\theta=\widehat{\theta\,}} \end{bmatrix} ~,$$

पर ऋणात्मक अर्ध-निश्चित है $$\widehat{\theta\,}$$, क्योंकि यह स्थानीय अवतल फ़ंक्शन को इंगित करता है। सुविधाजनक रूप से, अधिकांश सामान्य संभाव्यता वितरण - विशेष रूप से घातीय परिवार - लघुगणकीय रूप से अवतल फ़ंक्शन हैं।

प्रतिबंधित पैरामीटर स्थान
जबकि संभावना फ़ंक्शन का डोमेन - पैरामीटर स्पेस - आम तौर पर यूक्लिडियन स्पेस का एक परिमित-आयामी उपसमुच्चय है, अतिरिक्त प्रतिबंध (गणित) को कभी-कभी अनुमान प्रक्रिया में शामिल करने की आवश्यकता होती है। पैरामीटर स्पेस को इस प्रकार व्यक्त किया जा सकता है
 * $$\Theta = \left\{ \theta : \theta \in \mathbb{R}^{k},\; h(\theta) = 0 \right\} ~,$$

कहाँ $$\; h(\theta) = \left[ h_{1}(\theta), h_{2}(\theta), \ldots, h_{r}(\theta) \right] \;$$ एक वेक्टर-मूल्यवान फ़ंक्शन मैपिंग है $$\, \mathbb{R}^{k} \,$$ में $$\; \mathbb{R}^{r} ~.$$ सही पैरामीटर का अनुमान लगाना $$\theta$$ से संबंधित $$\Theta$$ फिर, एक व्यावहारिक मामले के रूप में, बाधा (गणित) के अधीन अधिकतम संभावना फ़ंक्शन को ढूंढना है $$~h(\theta) = 0 ~.$$ सैद्धांतिक रूप से, इस विवश अनुकूलन समस्या का सबसे स्वाभाविक दृष्टिकोण प्रतिस्थापन की विधि है, जो प्रतिबंधों को भरना है $$\; h_{1}, h_{2}, \ldots, h_{r} \;$$ एक सेट के लिए $$\; h_{1}, h_{2}, \ldots, h_{r}, h_{r+1}, \ldots, h_{k} \;$$ इस तरह से कि $$\; h^{\ast} = \left[ h_{1}, h_{2}, \ldots, h_{k} \right] \;$$ से एक-से-एक कार्य है $$\mathbb{R}^{k}$$ स्वयं के लिए, और सेटिंग द्वारा संभावना फ़ंक्शन को पुन: मापें $$\; \phi_{i} = h_{i}(\theta_{1}, \theta_{2}, \ldots, \theta_{k}) ~.$$ अधिकतम संभावना अनुमानक की समानता के कारण, एमएलई के गुण प्रतिबंधित अनुमानों पर भी लागू होते हैं। उदाहरण के लिए, एक बहुभिन्नरूपी सामान्य वितरण में सहप्रसरण मैट्रिक्स $$\, \Sigma \,$$ सकारात्मक-निश्चित मैट्रिक्स होना चाहिए|सकारात्मक-निश्चित; प्रतिस्थापित करके यह प्रतिबंध लगाया जा सकता है $$\; \Sigma = \Gamma^{\mathsf{T}} \Gamma \;,$$ कहाँ $$\Gamma$$ एक वास्तविक ऊपरी त्रिकोणीय मैट्रिक्स है और $$\Gamma^{\mathsf{T}}$$ इसका स्थानांतरण है. व्यवहार में, प्रतिबंध आमतौर पर लैग्रेंज की विधि का उपयोग करके लगाए जाते हैं, जो ऊपर परिभाषित बाधाओं को देखते हुए, प्रतिबंधित संभावना समीकरणों की ओर ले जाता है।
 * $$\frac{\partial \ell}{\partial \theta} - \frac{\partial h(\theta)^\mathsf{T}}{\partial \theta} \lambda = 0$$ और $$h(\theta) = 0 \;,$$ कहाँ $$~ \lambda = \left[ \lambda_{1}, \lambda_{2}, \ldots, \lambda_{r}\right]^\mathsf{T} ~$$ लैग्रेंज गुणक का एक कॉलम-वेक्टर है और $$\; \frac{\partial h(\theta)^\mathsf{T}}{\partial \theta} \;$$ है $k × r$आंशिक व्युत्पन्नों का जैकोबियन मैट्रिक्स। स्वाभाविक रूप से, यदि बाधाएं अधिकतम पर बाध्यकारी नहीं हैं, तो लैग्रेंज गुणक शून्य होना चाहिए। यह बदले में बाधा की वैधता के एक सांख्यिकीय परीक्षण की अनुमति देता है, जिसे लैग्रेंज गुणक परीक्षण के रूप में जाना जाता है।

गुण
एक अधिकतम संभावना अनुमानक एक चरम अनुमानक है जो θ के एक फ़ंक्शन के रूप में, उद्देश्य फ़ंक्शन को अधिकतम करके प्राप्त किया जाता है। $$\widehat{\ell\,}(\theta\,;x)$$. यदि डेटा स्वतंत्र और समान रूप से वितरित है, तो हमारे पास है

\widehat{\ell\,}(\theta\,;x)=\frac1n \sum_{i=1}^n \ln f(x_i\mid\theta), $$ यह अपेक्षित लॉग-संभावना का नमूना एनालॉग है $$\ell(\theta) = \operatorname{\mathbb E}[\, \ln f(x_i\mid\theta) \,]$$, जहां इस अपेक्षा को वास्तविक घनत्व के संबंध में लिया जाता है।

अधिकतम-संभावना अनुमानकों के पास परिमित नमूनों के लिए कोई इष्टतम गुण नहीं हैं, इस अर्थ में कि (जब परिमित नमूनों पर मूल्यांकन किया जाता है) अन्य अनुमानकों के पास वास्तविक पैरामीटर-मूल्य के आसपास अधिक एकाग्रता हो सकती है। हालाँकि, अन्य अनुमान विधियों की तरह, अधिकतम संभावना अनुमान में कई आकर्षक एसिम्प्टोटिक सिद्धांत (सांख्यिकी) होते हैं: जैसे-जैसे नमूना आकार अनंत तक बढ़ता है, अधिकतम संभावना अनुमानकों के अनुक्रम में ये गुण होते हैं: \hat{\theta} $$ के लिए अधिकतम संभावना अनुमानक है $$ \theta $$, और अगर $$ g(\theta) $$ का कोई रूपांतरण है $$ \theta $$, तो अधिकतम संभावना अनुमानक $$ \alpha = g(\theta ) $$ है $$ \hat{\alpha} = g(\hat{\theta} ) $$. इस संपत्ति को आमतौर पर कार्यात्मक समतुल्य मानचित्र के रूप में जाना जाता है। अपरिवर्तनीय गुण मनमाना परिवर्तन के लिए मान्य है $$g$$, हालाँकि प्रमाण सरल करता है यदि $$g$$ एक-से-एक परिवर्तन तक ही सीमित है।
 * एक अनुमानक की स्थिरता: एमएलई का अनुक्रम अनुमान लगाए जा रहे मूल्य की संभावना में परिवर्तित हो जाता है।
 * अपरिवर्तनीय अनुमानक: यदि $$
 * कुशल अनुमानक, यानी जब नमूना आकार अनंत तक जाता है तो यह क्रैमर-राव निचली सीमा को प्राप्त करता है। इसका मतलब यह है कि किसी भी सुसंगत अनुमानक के पास एमएलई (या इस सीमा को प्राप्त करने वाले अन्य अनुमानकों) की तुलना में कम एसिम्प्टोटिक माध्य वर्ग त्रुटि नहीं है, जिसका अर्थ यह भी है कि एमएलई में स्थानीय एसिम्प्टोटिक सामान्यता है।
 * पूर्वाग्रह के सुधार के बाद दूसरे क्रम की दक्षता।

संगति
नीचे उल्लिखित शर्तों के तहत, अधिकतम संभावना अनुमानक सुसंगत अनुमानक है। संगति का अर्थ है कि यदि डेटा उत्पन्न किया गया था $$f(\cdot\,;\theta_0)$$ और हमारे पास पर्याप्त संख्या में अवलोकन n हैं, तो θ का मान ज्ञात करना संभव है0 मनमानी परिशुद्धता के साथ. गणितीय शब्दों में इसका मतलब यह है कि जैसे ही n अनुमानक अनंत तक जाता है $$\widehat{\theta\,}$$ संभाव्यता में इसके वास्तविक मूल्य में अभिसरण:

\widehat{\theta\,}_\mathrm{mle}\ \xrightarrow{\text{p}}\ \theta_0. $$ थोड़ी मजबूत परिस्थितियों में, अनुमानक लगभग निश्चित अभिसरण (या दृढ़ता से) अभिसरण करता है:

\widehat{\theta\,}_\mathrm{mle}\ \xrightarrow{\text{a.s.}}\ \theta_0. $$ व्यावहारिक अनुप्रयोगों में, डेटा कभी भी उत्पन्न नहीं होता है $$f(\cdot\,;\theta_0)$$. की अपेक्षा, $$f(\cdot\,;\theta_0)$$ यह डेटा द्वारा उत्पन्न प्रक्रिया का एक मॉडल है, जो अक्सर आदर्श रूप में होता है। आंकड़ों में यह एक आम कहावत है कि सभी मॉडल गलत हैं। इस प्रकार, व्यावहारिक अनुप्रयोगों में सच्ची स्थिरता नहीं होती है। फिर भी, स्थिरता को अक्सर एक अनुमानकर्ता के लिए एक वांछनीय गुण माना जाता है।

एकरूपता स्थापित करने के लिए निम्नलिखित स्थितियाँ पर्याप्त हैं। 1. ·) has unique global maximum at θ0.

2. \ln f(x\mid\theta)\Bigr

3. < D(x) \quad \text{ for all } \theta\in\Theta. $

By the uniform law of large numbers, the dominance condition together with continuity establish the uniform convergence in probability of the log-likelihood:

\sup_{\theta\in\Theta} \left

4. \widehat{\ell\,}(\theta\mid x) - \ell(\theta)\,\right

5. \ \xrightarrow{\text{p}}\ 0. $
 * undefined

प्रभुत्व की स्थिति को आई.आई.डी. के मामले में नियोजित किया जा सकता है। अवलोकन. गैर-आई.आई.डी. में मामले में, अनुक्रम दिखाकर संभाव्यता में एकसमान अभिसरण की जाँच की जा सकती है $$\widehat{\ell\,}(\theta\mid x)$$ स्टोकेस्टिक समसामयिकता है।

यदि कोई यह प्रदर्शित करना चाहता है कि एमएल अनुमानक $$\widehat{\theta\,}$$ θ में परिवर्तित हो जाता है0 अभिसरण लगभग निश्चित है, तो समान अभिसरण की एक मजबूत शर्त लगभग निश्चित रूप से लागू की जानी है:

\sup_{\theta\in\Theta} \left\|\;\widehat{\ell\,}(\theta\mid x) - \ell(\theta)\;\right\| \ \xrightarrow{\text{a.s.}}\ 0. $$ इसके अतिरिक्त, यदि (जैसा कि ऊपर माना गया है) डेटा उत्पन्न किया गया था $$f(\cdot\,;\theta_0)$$, फिर कुछ शर्तों के तहत, यह भी दिखाया जा सकता है कि अधिकतम संभावना अनुमानक एक सामान्य वितरण में वितरण में अभिसरण करता है। विशेष रूप से,

\sqrt{n}\left(\widehat{\theta\,}_\mathrm{mle} - \theta_0\right)\ \xrightarrow{d}\ \mathcal{N}\left(0,\, I^{-1}\right) $$ कहाँ $ln f(x | θ)$ फिशर जानकारी है.

कार्यात्मक अपरिवर्तन
अधिकतम संभावना अनुमानक पैरामीटर मान का चयन करता है जो देखे गए डेटा को सबसे बड़ी संभावित संभावना (या निरंतर मामले में संभाव्यता घनत्व) देता है। यदि पैरामीटर में कई घटक शामिल हैं, तो हम उनके अलग-अलग अधिकतम संभावना अनुमानकों को पूर्ण पैरामीटर के एमएलई के संबंधित घटक के रूप में परिभाषित करते हैं। इसके अनुरूप, यदि $$\widehat{\theta\,}$$ के लिए एमएलई है $$\theta$$, और अगर $$g(\theta)$$ का कोई रूपांतरण है $$\theta$$, फिर एमएलई के लिए $$\alpha=g(\theta)$$ परिभाषा के अनुसार है
 * $$\widehat{\alpha} = g(\,\widehat{\theta\,}\,). \,$$

यह तथाकथित संभावना फ़ंक्शन#प्रोफ़ाइल संभावना को अधिकतम करता है:


 * $$\bar{L}(\alpha) = \sup_{\theta: \alpha = g(\theta)} L(\theta). \, $$

डेटा के कुछ परिवर्तनों के संबंध में एमएलई भी समतुल्य है। अगर $$y=g(x)$$ कहाँ $$g$$ एक से एक है और अनुमान लगाए जाने वाले मापदंडों पर निर्भर नहीं है, तो घनत्व कार्य संतुष्ट होते हैं


 * $$f_Y(y) = \frac{f_X(x)}{|g'(x)|} $$

और इसलिए संभावना कार्य करती है $$X$$ और $$Y$$ केवल एक कारक से भिन्न होता है जो मॉडल मापदंडों पर निर्भर नहीं करता है।

उदाहरण के लिए, लॉग-सामान्य वितरण के एमएलई पैरामीटर डेटा के लघुगणक में फिट किए गए सामान्य वितरण के समान हैं।

दक्षता
जैसा कि ऊपर माना गया है, यदि डेटा उत्पन्न किया गया था $$~f(\cdot\,;\theta_0)~,$$ फिर कुछ शर्तों के तहत, यह भी दिखाया जा सकता है कि अधिकतम संभावना अनुमानक एक सामान्य वितरण में वितरण में अभिसरण करता है। यह है √n-सुसंगत और स्पर्शोन्मुख रूप से कुशल, जिसका अर्थ है कि यह क्रैमर-राव सीमा तक पहुंचता है। विशेष रूप से,



\sqrt{n\,} \, \left( \widehat{\theta\,}_\text{mle} - \theta_0 \right)\ \ \xrightarrow{d}\ \ \mathcal{N} \left( 0,\ \mathcal{I}^{-1} \right) ~, $$ कहाँ $$~\mathcal{I}~$$ फिशर सूचना मैट्रिक्स है:

\mathcal{I}_{jk} = \operatorname{\mathbb E} \, \biggl[ \; -{ \frac{\partial^2\ln f_{\theta_0}(X_t)}{\partial\theta_j\,\partial\theta_k } } \; \biggr] ~. $$ विशेष रूप से, इसका मतलब है कि अधिकतम संभावना अनुमानक के अनुमानक का पूर्वाग्रह क्रम तक शून्य के बराबर है $N$.

पूर्वाग्रह के लिए सुधार के बाद दूसरे क्रम की दक्षता
हालाँकि, जब हम इस अनुमानक के वितरण के एजवर्थ विस्तार में उच्च-क्रम की शर्तों पर विचार करते हैं, तो यह पता चलता है कि $D(x)$ आदेश का पूर्वाग्रह है $θ$. यह पूर्वाग्रह (घटकवार) के बराबर है

b_h \; \equiv \; \operatorname{\mathbb E} \biggl[ \; \left( \widehat\theta_\mathrm{mle} - \theta_0 \right)_h \; \biggr] \; = \; \frac{1}{\,n\,} \, \sum_{i, j, k = 1}^m \; \mathcal{I}^{h i} \; \mathcal{I}^{j k} \left( \frac{1}{\,2\,} \, K_{i j k} \; + \; J_{j,i k} \right) $$ कहाँ $$\mathcal{I}^{j k}$$ (सुपरस्क्रिप्ट के साथ) व्युत्क्रम फिशर सूचना मैट्रिक्स के (जे,के)-वें घटक को दर्शाता है $$\mathcal{I}^{-1}$$, और



\frac{1}{\,2\,} \, K_{i j k} \; + \; J_{j,i k} \; = \; \operatorname{\mathbb E}\,\biggl[\; \frac12 \frac{\partial^3 \ln f_{\theta_0}(X_t)}{\partial\theta_i\;\partial\theta_j\;\partial\theta_k} + \frac{\;\partial\ln f_{\theta_0}(X_t)\;}{\partial\theta_j}\,\frac{\;\partial^2\ln f_{\theta_0}(X_t)\;}{\partial\theta_i \, \partial\theta_k} \; \biggr] ~. $$ इन सूत्रों का उपयोग करके अधिकतम संभावना अनुमानक के दूसरे क्रम के पूर्वाग्रह का अनुमान लगाना संभव है, और इसे घटाकर उस पूर्वाग्रह को सही करना संभव है:

\widehat{\theta\,}^*_\text{mle} = \widehat{\theta\,}_\text{mle} - \widehat{b\,} ~. $$ यह अनुमानक आदेश की शर्तों के प्रति निष्पक्ष है $N$, और इसे पूर्वाग्रह-संशोधित अधिकतम संभावना अनुमानक कहा जाता है।

यह पूर्वाग्रह-सुधारित अनुमानक है (कम से कम घुमावदार घातीय परिवार के भीतर), जिसका अर्थ है कि ऑर्डर की शर्तों तक, सभी दूसरे क्रम के पूर्वाग्रह-सुधारित अनुमानकों के बीच इसमें न्यूनतम माध्य वर्ग त्रुटि है $ε$. इस प्रक्रिया को जारी रखना संभव है, यानी तीसरे क्रम के पूर्वाग्रह-सुधार शब्द को प्राप्त करना, इत्यादि। हालाँकि, अधिकतम संभावना अनुमानक तीसरे क्रम का कुशल नहीं है।

बायेसियन अनुमान से संबंध
एक अधिकतम संभावना अनुमानक अधिकतम एक पोस्टीरियर बायेसियन अनुमानक के साथ मेल खाता है, जिसे पैरामीटर स्थान पर एक समान वितरण (निरंतर) पूर्व संभावना दी गई है। वास्तव में, अधिकतम एक पश्चवर्ती अनुमान पैरामीटर है $θ$ जो की संभावना को अधिकतम करता है $x$ बेयस प्रमेय द्वारा दिया गया डेटा दिया गया है:



\operatorname{\mathbb P}(\theta\mid x_1,x_2,\ldots,x_n) = \frac{f(x_1,x_2,\ldots,x_n\mid\theta)\operatorname{\mathbb P}(\theta)}{\operatorname{\mathbb P}(x_1,x_2,\ldots,x_n)} $$ कहाँ $$\operatorname{\mathbb P}(\theta)$$ पैरामीटर के लिए पूर्व वितरण है $1⁄√n$ और कहाँ $$\operatorname{\mathbb P}(x_1,x_2,\ldots,x_n)$$ सभी मापदंडों पर औसत डेटा की संभावना है। चूँकि हर स्वतंत्र है $1/n$, बायेसियन अनुमानक अधिकतम करके प्राप्त किया जाता है $$f(x_1,x_2,\ldots,x_n\mid\theta)\operatorname{\mathbb P}(\theta)$$ इसके संबंध में $1⁄&thinsp;n&thinsp;$. यदि हम आगे यह मान लें कि पूर्व $$\operatorname{\mathbb P}(\theta)$$ एक समान वितरण है, बायेसियन अनुमानक संभावना फ़ंक्शन को अधिकतम करके प्राप्त किया जाता है $$f(x_1,x_2,\ldots,x_n\mid\theta)$$. इस प्रकार बायेसियन अनुमानक एक समान पूर्व वितरण के लिए अधिकतम संभावना अनुमानक के साथ मेल खाता है $$\operatorname{\mathbb P}(\theta)$$.

बेयस निर्णय सिद्धांत में अधिकतम-संभावना अनुमान का अनुप्रयोग
यंत्र अधिगम में कई व्यावहारिक अनुप्रयोगों में, अधिकतम संभावना अनुमान का उपयोग पैरामीटर अनुमान के मॉडल के रूप में किया जाता है।

बायेसियन निर्णय सिद्धांत एक क्लासिफायरियर को डिजाइन करने के बारे में है जो कुल अपेक्षित जोखिम को कम करता है, खासकर, जब विभिन्न निर्णयों से जुड़ी लागत (नुकसान फ़ंक्शन) बराबर होती है, तो क्लासिफायरियर पूरे वितरण पर त्रुटि को कम कर रहा है। इस प्रकार, बेयस निर्णय नियम के रूप में कहा गया है
 * तय करना $$\;w_1\;$$ अगर $$~\operatorname{\mathbb P}(w_1|x) \; > \; \operatorname{\mathbb P}(w_2|x)~;~$$ अन्यथा निर्णय करें $$\;w_2\;$$कहाँ $$\;w_1\,, w_2\;$$ विभिन्न वर्गों की भविष्यवाणियाँ हैं। त्रुटि को न्यूनतम करने के दृष्टिकोण से इसे इस प्रकार भी कहा जा सकता है
 * $$w = \underset{ w }{\operatorname{arg\;max}} \; \int_{-\infty}^\infty \operatorname{\mathbb P}(\text{ error}\mid x)\operatorname{\mathbb P}(x)\,\operatorname{d}x~$$

कहाँ
 * $$\operatorname{\mathbb P}(\text{ error}\mid x) = \operatorname{\mathbb P}(w_1\mid x)~$$

अगर हम निर्णय लेते हैं $$\;w_2\;$$ और $$\;\operatorname{\mathbb P}(\text{ error}\mid x) = \operatorname{\mathbb P}(w_2\mid x)\;$$ अगर हम निर्णय लेते हैं $$\;w_1\;.$$ बेयस प्रमेय को लागू करके
 * $$\operatorname{\mathbb P}(w_i \mid x) = \frac{\operatorname{\mathbb P}(x \mid w_i) \operatorname{\mathbb P}(w_i)}{\operatorname{\mathbb P}(x)}$$,

और यदि हम आगे शून्य-या-एक हानि फ़ंक्शन मानते हैं, जो सभी त्रुटियों के लिए एक ही हानि है, तो बेयस निर्णय नियम को इस प्रकार पुन: तैयार किया जा सकता है:
 * $$h_\text{Bayes} = \underset{ w }{\operatorname{arg\;max}} \, \bigl[\, \operatorname{\mathbb P}(x\mid w)\,\operatorname{\mathbb P}(w) \,\bigr]\;,$$

कहाँ $$h_\text{Bayes}$$ भविष्यवाणी है और $$\;\operatorname{\mathbb P}(w)\;$$ पूर्व संभावना है.

कुल्बैक-लीबलर विचलन और क्रॉस एन्ट्रॉपी को न्यूनतम करने से संबंध
खोज $$\hat \theta$$ जो संभावना को अधिकतम करता है वह असम्बद्ध रूप से खोजने के बराबर है $$\hat \theta$$ यह संभाव्यता वितरण को परिभाषित करता है ($$Q_{\hat \theta}$$) जिसकी कुलबैक-लीबलर विचलन के संदर्भ में, वास्तविक संभाव्यता वितरण से न्यूनतम दूरी है, जिससे हमारा डेटा उत्पन्न हुआ था (यानी, द्वारा उत्पन्न) $$P_{\theta_0}$$). एक आदर्श दुनिया में, पी और क्यू एक ही हैं (और केवल एक चीज अज्ञात है $$\theta$$ जो पी को परिभाषित करता है), लेकिन भले ही वे नहीं हैं और जिस मॉडल का हम उपयोग करते हैं वह गलत निर्दिष्ट है, फिर भी एमएलई हमें निकटतम वितरण देगा (मॉडल क्यू के प्रतिबंध के भीतर जो निर्भर करता है) $$\hat \theta$$) वास्तविक वितरण के लिए $$P_{\theta_0}$$.

चूंकि कुल्बैक-लीबलर विचलन#क्रॉस एन्ट्रॉपी केवल एन्ट्रॉपी (सूचना सिद्धांत) है|शैनन की एन्ट्रॉपी प्लस केएल विचलन, और एन्ट्रॉपी के बाद से $$P_{\theta_0}$$ स्थिर है, तो एमएलई भी असम्बद्ध रूप से क्रॉस एन्ट्रापी को कम कर रहा है।

असतत समान वितरण
ऐसे मामले पर विचार करें जहां 1 से n तक क्रमांकित n टिकट एक बॉक्स में रखे गए हैं और एक को यादृच्छिक रूप से चुना गया है (समान वितरण (अलग) देखें); इस प्रकार, नमूना आकार 1 है। यदि n अज्ञात है, तो अधिकतम संभावना अनुमानक है $$\widehat{n}$$ निकाले गए टिकट पर n का अंक m है। (n<m के लिए संभावना 0 है, $1⁄&thinsp;n^{2}&thinsp;$ n ≥ m के लिए, और यह सबसे बड़ा है जब n = m। ध्यान दें कि n की अधिकतम संभावना का अनुमान संभावित मानों की सीमा के मध्य में कहीं होने के बजाय संभावित मानों {m,m +1,...} के निचले छोर पर होता है, जिसके परिणामस्वरूप कम पूर्वाग्रह होगा।) निकाले गए टिकट पर संख्या एम का अपेक्षित मूल्य, और इसलिए अपेक्षित मूल्य $$\widehat{n}$$, (n+1)/2 है। परिणामस्वरूप, 1 के नमूना आकार के साथ, n के लिए अधिकतम संभावना अनुमानक व्यवस्थित रूप से n को (n − 1)/2 से कम आंकेगा।

असतत वितरण, परिमित पैरामीटर स्थान
मान लीजिए कि कोई यह निर्धारित करना चाहता है कि एक अनुचित सिक्का कितना पक्षपातपूर्ण है। 'उल्टा और उल्टा' पी उछालने की प्रायिकता को कॉल करें। फिर लक्ष्य पी निर्धारित करना बन जाता है।

मान लीजिए कि सिक्के को 80 बार उछाला गया है: यानी नमूना x जैसा कुछ हो सकता है1= एच, एक्स2= टी, ..., एक्स80= टी, और विपरीत और विपरीत एच की संख्या की गिनती देखी जाती है।

उल्टा और उल्टा उछालने की प्रायिकता 1 − p है (इसलिए यहाँ p θ ऊपर है)। मान लीजिए कि परिणाम 49 चित और 31 ‍सामने और ‍उलटा है, और मान लीजिए कि सिक्का एक बॉक्स से लिया गया है जिसमें तीन सिक्के हैं: एक जो प्रायिकता के साथ चित देता है p =$θ$, वह जो प्रायिकता p= के साथ शीर्ष देता है$θ$ और दूसरा जो प्रायिकता p= के साथ शीर्ष देता है$θ$. सिक्कों ने अपना लेबल खो दिया है, इसलिए यह अज्ञात है कि यह कौन सा था। अधिकतम संभावना अनुमान का उपयोग करके, देखे गए डेटा को देखते हुए, जिस सिक्के की संभावना सबसे अधिक है, उसे पाया जा सकता है। 80 के बराबर नमूना आकार के साथ द्विपद वितरण के संभाव्यता द्रव्यमान फ़ंक्शन का उपयोग करके, संख्या सफलताएं 49 के बराबर होती हैं लेकिन पी (सफलता की संभावना) के विभिन्न मूल्यों के लिए, संभावना फ़ंक्शन (नीचे परिभाषित) तीन मानों में से एक लेता है:



\begin{align} \operatorname{\mathbb P}\bigl[\;\mathrm{H} = 49 \mid p=\tfrac{1}{3}\;\bigr] & = \binom{80}{49}(\tfrac{1}{3})^{49}(1-\tfrac{1}{3})^{31} \approx 0.000, \\[6pt] \operatorname{\mathbb P}\bigl[\;\mathrm{H} = 49 \mid p=\tfrac{1}{2}\;\bigr] & = \binom{80}{49}(\tfrac{1}{2})^{49}(1-\tfrac{1}{2})^{31} \approx 0.012, \\[6pt] \operatorname{\mathbb P}\bigl[\;\mathrm{H} = 49 \mid p=\tfrac{2}{3}\;\bigr] & = \binom{80}{49}(\tfrac{2}{3})^{49}(1-\tfrac{2}{3})^{31} \approx 0.054~. \end{align} $$ संभावना तब अधिकतम होती है जब $θ$ = $θ$, और इसलिए यह इसके लिए अधिकतम संभावना अनुमान है$1/n$.

असतत वितरण, सतत पैरामीटर स्थान
अब मान लीजिए कि सिक्का एक ही था लेकिन है $1/3$ कोई भी मूल्य हो सकता था 0 ≤ $1/2$ ≤ 1. संभावना फलन को अधिकतम किया जाना है

L(p) = f_D(\mathrm{H} = 49 \mid p) = \binom{80}{49} p^{49}(1 - p)^{31}~, $$ और अधिकतमीकरण सभी संभावित मूल्यों से अधिक है 0 ≤ $2/3$ ≤ 1.

इस फ़ंक्शन को अधिकतम करने का एक तरीका इसके संबंध में व्युत्पन्न है $p$ और शून्य पर सेटिंग:



\begin{align} 0 & = \frac{\partial}{\partial p} \left( \binom{80}{49} p^{49}(1-p)^{31} \right)~, \\[8pt] 0 & = 49 p^{48}(1-p)^{31} - 31 p^{49}(1-p)^{30} \\[8pt] & = p^{48}(1-p)^{30}\left[ 49 (1-p) - 31 p \right] \\[8pt] & = p^{48}(1-p)^{30}\left[ 49 - 80 p \right]~. \end{align} $$ यह तीन पदों का गुणनफल है। पहला पद 0 है जब $2/3$ = 0. दूसरा 0 है जब $p$=1. तीसरा शून्य है जब $p$ = $p$. संभावना को अधिकतम करने वाला समाधान स्पष्ट रूप से है $p$ = $n$ (तब से $p$=0 और $p$ = 0 की संभावना में 1 परिणाम)। इस प्रकार के लिए अधिकतम संभावना अनुमानक $p$ है $p$.

जैसे किसी अक्षर को प्रतिस्थापित करके इस परिणाम को आसानी से सामान्यीकृत किया जा सकता है $49/80$ 49 के स्थान पर हमारे बर्नौली परीक्षणों की 'सफलताओं' की देखी गई संख्या का प्रतिनिधित्व करने के लिए, और एक पत्र जैसे $p$ बर्नौली परीक्षणों की संख्या को दर्शाने के लिए 80 के स्थान पर। बिल्कुल वैसी ही गणना से परिणाम मिलता है $49/80$ जो किसी भी अनुक्रम के लिए अधिकतम संभावना अनुमानक है $p$ बर्नौली परीक्षणों के परिणामस्वरूप $p$ 'सफलताएँ'।

सतत वितरण, सतत पैरामीटर स्थान
सामान्य वितरण के लिए $$\mathcal{N}(\mu, \sigma^2)$$ जिसमें संभाव्यता घनत्व फ़ंक्शन है


 * $$f(x\mid \mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}\ }

\exp\left(-\frac {(x-\mu)^2}{2\sigma^2} \right), $$ के नमूने के लिए संगत संभाव्यता घनत्व फ़ंक्शन $p$स्वतंत्र रूप से समान रूप से वितरित सामान्य यादृच्छिक चर (संभावना) है


 * $$f(x_1,\ldots,x_n \mid \mu,\sigma^2) = \prod_{i=1}^n f( x_i\mid \mu, \sigma^2) = \left( \frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left( -\frac{ \sum_{i=1}^n (x_i-\mu)^2}{2\sigma^2}\right).$$

वितरण के इस परिवार के दो पैरामीटर हैं: $f(x | θ_{0})$; इसलिए हम संभावना को अधिकतम करते हैं, $$\mathcal{L} (\mu,\sigma^2) = f(x_1,\ldots,x_n \mid \mu, \sigma^2)$$, दोनों मापदंडों पर एक साथ, या यदि संभव हो तो, व्यक्तिगत रूप से।

चूँकि प्राकृतिक लघुगणक फ़ंक्शन स्वयं एक सतत कार्य है जो संभावना की सीमा (सांख्यिकी) पर सख्ती से बढ़ने वाला कार्य है, जो मान संभावना को अधिकतम करते हैं, वे इसके लघुगणक को भी अधिकतम करेंगे (लॉग-संभावना स्वयं सख्ती से बढ़ नहीं रही है)। लॉग-संभावना को इस प्रकार लिखा जा सकता है:



\log\Bigl( \mathcal{L} (\mu,\sigma^2)\Bigr) = -\frac{\,n\,}{2} \log(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (\,x_i-\mu\,)^2 $$ (नोट: लॉग-संभावना सूचना एन्ट्रापी और फिशर जानकारी से निकटता से संबंधित है।)

अब हम इस लॉग-संभावना के डेरिवेटिव की गणना निम्नानुसार करते हैं।



\begin{align} 0 & = \frac{\partial}{\partial \mu} \log\Bigl( \mathcal{L} (\mu,\sigma^2)\Bigr) = 0 - \frac{\;-2 n(\bar{x}-\mu)\;}{2\sigma^2}. \end{align} $$ कहाँ $$ \bar{x} $$ नमूना माध्य है. इसका समाधान इसके द्वारा किया जाता है


 * $$\widehat\mu = \bar{x} = \sum^n_{i=1} \frac{\,x_i\,}{n}. $$

यह वास्तव में कार्य की अधिकतम सीमा है, क्योंकि यह इसमें एकमात्र महत्वपूर्ण मोड़ है $49/80$ और दूसरा व्युत्पन्न बिल्कुल शून्य से कम है। इसका अपेक्षित मान पैरामीटर के बराबर है $s$ दिए गए वितरण का,


 * $$\operatorname{\mathbb E}\bigl[\;\widehat\mu\;\bigr] = \mu, \, $$

जिसका अर्थ है कि अधिकतम संभावना अनुमानक $$\widehat\mu$$ निष्पक्ष है.

इसी प्रकार हम लॉग-संभावना के संबंध में अंतर करते हैं $n$ और शून्य के बराबर:



\begin{align} 0 & = \frac{\partial}{\partial \sigma} \log\Bigl( \mathcal{L} (\mu,\sigma^2)\Bigr) = -\frac{\,n\,}{\sigma} + \frac{1}{\sigma^3} \sum_{i=1}^{n} (\,x_i-\mu\,)^2. \end{align} $$ जिसका समाधान किया गया है


 * $$\widehat\sigma^2 = \frac{1}{n} \sum_{i=1}^n(x_i-\mu)^2.$$

अनुमान सम्मिलित करना $$\mu = \widehat\mu$$ हमने प्राप्त


 * $$\widehat\sigma^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 = \frac{1}{n}\sum_{i=1}^n x_i^2 -\frac{1}{n^2}\sum_{i=1}^n\sum_{j=1}^n x_i x_j.$$

इसके अपेक्षित मूल्य की गणना करने के लिए, शून्य-माध्य यादृच्छिक चर (सांख्यिकीय त्रुटि) के संदर्भ में अभिव्यक्ति को फिर से लिखना सुविधाजनक है $$\delta_i \equiv \mu - x_i$$. इन वेरिएबल्स में अनुमान व्यक्त करने से पैदावार मिलती है


 * $$\widehat\sigma^2 = \frac{1}{n} \sum_{i=1}^n (\mu - \delta_i)^2 -\frac{1}{n^2}\sum_{i=1}^n\sum_{j=1}^n (\mu - \delta_i)(\mu - \delta_j).$$

उपरोक्त अभिव्यक्ति को सरल बनाते हुए, तथ्यों का उपयोग करते हुए $$\operatorname{\mathbb E}\bigl[\;\delta_i\;\bigr] = 0 $$ और $$\operatorname{E}\bigl[\;\delta_i^2\;\bigr] = \sigma^2 $$, हमें प्राप्त करने की अनुमति देता है


 * $$\operatorname{\mathbb E}\bigl[\;\widehat\sigma^2\;\bigr]= \frac{\,n-1\,}{n}\sigma^2.$$

इसका मतलब यह है कि अनुमानक $$\widehat\sigma^2$$ के लिए पक्षपाती है $$\sigma^2$$. वो भी दिखाया जा सकता है $$\widehat\sigma$$ के लिए पक्षपाती है $$\sigma$$, लेकिन वह दोनों $$\widehat\sigma^2$$ और $$\widehat\sigma$$ सुसंगत है।

औपचारिक रूप से हम कहते हैं कि अधिकतम संभावना अनुमानक $$\theta=(\mu,\sigma^2)$$ है


 * $$\widehat{\theta\,} = \left(\widehat{\mu},\widehat{\sigma}^2\right).$$

इस मामले में एमएलई को व्यक्तिगत रूप से प्राप्त किया जा सकता है। सामान्य तौर पर यह मामला नहीं हो सकता है, और एमएलई को एक साथ प्राप्त करना होगा।

सामान्य लॉग-संभावना अपने अधिकतम स्तर पर एक विशेष रूप से सरल रूप लेती है:



\log\Bigl( \mathcal{L}(\widehat\mu,\widehat\sigma)\Bigr) = \frac{\,-n\;\;}{2} \bigl(\,\log(2\pi\widehat\sigma^2) +1\,\bigr) $$ यह अधिकतम लॉग-संभावना अधिक सामान्य न्यूनतम वर्गों के लिए समान दिखाई जा सकती है, यहां तक ​​कि गैर-रेखीय न्यूनतम वर्गों के लिए भी। इसका उपयोग अक्सर संभावना-आधारित अनुमानित आत्मविश्वास अंतराल और आत्मविश्वास क्षेत्रों को निर्धारित करने में किया जाता है, जो आम तौर पर ऊपर चर्चा की गई स्पर्शोन्मुख सामान्यता का उपयोग करने वालों की तुलना में अधिक सटीक होते हैं।

गैर-स्वतंत्र चर
ऐसा हो सकता है कि चर सहसंबंधित हों, यानी स्वतंत्र न हों। दो यादृच्छिक चर $$y_1$$ और $$y_2$$ केवल तभी स्वतंत्र होते हैं जब उनका संयुक्त संभाव्यता घनत्व फ़ंक्शन व्यक्तिगत संभाव्यता घनत्व कार्यों का उत्पाद होता है, यानी।


 * $$f(y_1,y_2)=f(y_1)f(y_2)\,$$

मान लीजिए कि कोई यादृच्छिक चर से एक ऑर्डर-एन गॉसियन वेक्टर बनाता है $$(y_1,\ldots,y_n)$$, जहां प्रत्येक चर के साधन दिए गए हैं $$(\mu_1, \ldots, \mu_n)$$. इसके अलावा, मान लीजिए कि सहप्रसरण मैट्रिक्स को इसके द्वारा निरूपित किया जाता है $$\mathit\Sigma$$. इन n यादृच्छिक चरों का संयुक्त संभाव्यता घनत्व फ़ंक्शन तब दिए गए बहुभिन्नरूपी सामान्य वितरण का अनुसरण करता है:


 * $$f(y_1,\ldots,y_n)=\frac{1}{(2\pi)^{n/2}\sqrt{\det(\mathit\Sigma)}} \exp\left( -\frac{1}{2} \left[y_1-\mu_1,\ldots,y_n-\mu_n\right]\mathit\Sigma^{-1}    \left[y_1-\mu_1,\ldots,y_n-\mu_n\right]^\mathrm{T} \right)$$

द्विचर विश्लेषण मामले में, संयुक्त संभाव्यता घनत्व फ़ंक्शन इस प्रकार दिया गया है:


 * $$ f(y_1,y_2) = \frac{1}{2\pi \sigma_{1} \sigma_2 \sqrt{1-\rho^2}} \exp\left[ -\frac{1}{2(1-\rho^2)} \left(\frac{(y_1-\mu_1)^2}{\sigma_1^2} - \frac{2\rho(y_1-\mu_1)(y_2-\mu_2)}{\sigma_1\sigma_2} + \frac{(y_2-\mu_2)^2}{\sigma_2^2}\right) \right] $$

इस और अन्य मामलों में जहां एक संयुक्त घनत्व फ़ंक्शन मौजूद है, संभावना फ़ंक्शन को इस घनत्व का उपयोग करते हुए अधिकतम संभावना # सिद्धांत अनुभाग में उपरोक्त के रूप में परिभाषित किया गया है।

उदाहरण
$$X_1,\ X_2,\ldots,\ X_m$$ सेलों/बक्सों में गिनती 1 से मी तक होती है; प्रत्येक बॉक्स की एक अलग संभावना होती है (बक्से के बड़े या छोटे होने के बारे में सोचें) और हम गिरने वाली गेंदों की संख्या तय करते हैं $$n$$:$$x_1+x_2+\cdots+x_m=n$$. प्रत्येक डिब्बे की प्रायिकता है $$p_i$$, एक बाधा के साथ: $$p_1+p_2+\cdots+p_m=1$$. यह एक ऐसा मामला है जिसमें $$X_i$$ s स्वतंत्र नहीं हैं, एक वेक्टर की संयुक्त संभावना $$x_1,\ x_2,\ldots,x_m$$ बहुपद कहा जाता है और इसका रूप है:


 * $$f(x_1,x_2,\ldots,x_m\mid p_1,p_2,\ldots,p_m)=\frac{n!}{\prod x_i!}\prod p_i^{x_i}= \binom{n}{x_1,x_2,\ldots,x_m} p_1^{x_1} p_2^{x_2} \cdots p_m^{x_m}$$

अन्य सभी बक्सों से अलग लिया गया प्रत्येक बक्सा एक द्विपद है और यह उसका विस्तार है।

इसकी लॉग-संभावना है:


 * $$\ell(p_1,p_2,\ldots,p_m)=\log n!-\sum_{i=1}^m \log x_i!+\sum_{i=1}^m x_i\log p_i$$

बाधा को ध्यान में रखना होगा और लैग्रेंज मल्टीप्लायरों का उपयोग करना होगा:


 * $$L(p_1,p_2,\ldots,p_m,\lambda)=\ell(p_1,p_2,\ldots,p_m)+\lambda\left(1-\sum_{i=1}^m p_i\right)$$

सभी व्युत्पन्नों को 0 मानकर, सबसे स्वाभाविक अनुमान प्राप्त किया जाता है


 * $$\hat{p}_i=\frac{x_i}{n}$$

लॉग संभावना को अधिकतम करना, बाधाओं के साथ और बिना, बंद रूप में एक अघुलनशील समस्या हो सकती है, तो हमें पुनरावृत्त प्रक्रियाओं का उपयोग करना होगा।

पुनरावृत्त प्रक्रियाएं
विशेष मामलों को छोड़कर, संभाव्यता समीकरण
 * $$\frac{\partial \ell(\theta;\mathbf{y})}{\partial \theta} = 0$$

किसी अनुमानक के लिए स्पष्ट रूप से हल नहीं किया जा सकता $$\widehat{\theta} = \widehat{\theta}(\mathbf{y})$$. इसके बजाय, उन्हें पुनरावृत्त विधि से हल करने की आवश्यकता है: प्रारंभिक अनुमान से शुरू करना $$\theta$$ (कहना $$\widehat{\theta}_{1}$$), कोई एक अभिसरण अनुक्रम प्राप्त करना चाहता है $$\left\{ \widehat{\theta}_{r} \right\}$$. इस प्रकार की अनुकूलन समस्या के लिए कई विधियाँ उपलब्ध हैं, लेकिन सबसे अधिक उपयोग किए जाने वाले फॉर्म के अपडेटिंग फ़ॉर्मूले पर आधारित एल्गोरिदम हैं
 * $$\widehat{\theta}_{r+1} = \widehat{\theta}_{r} + \eta_{r} \mathbf{d}_r\left(\widehat{\theta}\right)$$

जहां वेक्टर $$\mathbf{d}_{r}\left(\widehat{\theta}\right)$$ r वें चरण की अवतरण दिशा और अदिश को इंगित करता है $$\eta_{r}$$ चरण की लंबाई कैप्चर करता है, सीखने की दर के रूप में भी जाना जाता है।

ढतला हुआ वंश विधि
(नोट: यहां यह अधिकतमीकरण समस्या है, इसलिए ग्रेडिएंट से पहले का चिह्न फ़्लिप किया गया है)


 * $$\eta_r\in \R^+$$ यह अभिसरण के लिए काफी छोटा है और $$\mathbf{d}_r\left(\widehat{\theta}\right) = \nabla\ell\left(\widehat{\theta}_r;\mathbf{y}\right)$$

ग्रेडिएंट डिसेंट विधि के लिए rवें पुनरावृत्ति पर ग्रेडिएंट की गणना करने की आवश्यकता होती है, लेकिन दूसरे क्रम के व्युत्पन्न के व्युत्क्रम, यानी, हेसियन मैट्रिक्स की गणना करने की आवश्यकता नहीं होती है। इसलिए, यह न्यूटन-रेफसन विधि की तुलना में कम्प्यूटेशनल रूप से तेज़ है।

न्यूटन की विधि|न्यूटन-रेफसन विधि

 * $$\eta_r = 1$$ और $$\mathbf{d}_r\left(\widehat{\theta}\right) = -\mathbf{H}^{-1}_r\left(\widehat{\theta}\right) \mathbf{s}_r\left(\widehat{\theta}\right)$$

कहाँ $$\mathbf{s}_{r}(\widehat{\theta})$$ स्कोर (सांख्यिकी) है और $$\mathbf{H}^{-1}_r \left(\widehat{\theta}\right)$$ लॉग-संभावना फ़ंक्शन के हेसियन मैट्रिक्स का व्युत्क्रमणीय मैट्रिक्स है, दोनों ने r वें पुनरावृत्ति का मूल्यांकन किया। लेकिन क्योंकि हेसियन मैट्रिक्स की गणना कम्प्यूटेशनल जटिलता है, इसलिए कई विकल्प प्रस्तावित किए गए हैं। लोकप्रिय बर्नड्ट-हॉल-हॉल-हौसमैन एल्गोरिदम अपेक्षित ग्रेडिएंट के बाहरी उत्पाद के साथ हेसियन का अनुमान लगाता है, जैसे कि


 * $$\mathbf{d}_r\left(\widehat{\theta}\right) = - \left[ \frac{1}{n} \sum_{t=1}^n \frac{\partial \ell(\theta;\mathbf{y})}{\partial \theta} \left( \frac{\partial \ell(\theta;\mathbf{y})}{\partial \theta} \right)^{\mathsf{T}} \right]^{-1} \mathbf{s}_r \left(\widehat{\theta}\right)$$

अर्ध-न्यूटन विधियाँ
अन्य अर्ध-न्यूटन विधियाँ हेसियन मैट्रिक्स का सन्निकटन देने के लिए अधिक विस्तृत सेकेंट अपडेट का उपयोग करती हैं।

डेविडन-फ्लेचर-पॉवेल फॉर्मूला
डीएफपी फॉर्मूला एक ऐसा समाधान ढूंढता है जो सममित, सकारात्मक-निश्चित और दूसरे क्रम के व्युत्पन्न के वर्तमान अनुमानित मूल्य के सबसे करीब है:
 * $$\mathbf{H}_{k+1} =

\left(I - \gamma_k y_k s_k^\mathsf{T}\right) \mathbf{H}_k \left(I - \gamma_k s_k y_k^\mathsf{T}\right) + \gamma_k y_k y_k^\mathsf{T}, $$ कहाँ


 * $$y_k = \nabla\ell(x_k + s_k) - \nabla\ell(x_k),$$
 * $$\gamma_k = \frac{1}{y_k^T s_k},$$
 * $$s_k = x_{k+1} - x_k.$$

ब्रोयडेन-फ्लेचर-गोल्डफार्ब-शैनो एल्गोरिथ्म
बीएफजीएस एक समाधान भी देता है जो सममित और सकारात्मक-निश्चित है:


 * $$B_{k+1} = B_k + \frac{y_k y_k^\mathsf{T}}{y_k^\mathsf{T} s_k} - \frac{B_k s_k s_k^\mathsf{T} B_k^\mathsf{T}}{s_k^\mathsf{T} B_k s_k}\ ,$$

कहाँ


 * $$y_k = \nabla\ell(x_k + s_k) - \nabla\ell(x_k),$$
 * $$s_k = x_{k+1} - x_k.$$

बीएफजीएस पद्धति के अभिसरण की गारंटी नहीं है जब तक कि फ़ंक्शन में इष्टतम के करीब द्विघात टेलर विस्तार न हो। हालाँकि, गैर-सुचारू अनुकूलन उदाहरणों के लिए भी बीएफजीएस का प्रदर्शन स्वीकार्य हो सकता है

स्कोरिंग एल्गोरिदम|फिशर का स्कोरिंग
एक अन्य लोकप्रिय तरीका हेसियन को फिशर सूचना मैट्रिक्स से बदलना है, $$\mathcal{I}(\theta) = \operatorname{\mathbb E}\left[\mathbf{H}_r \left(\widehat{\theta}\right)\right]$$, हमें फिशर स्कोरिंग एल्गोरिदम दे रहा है। यह प्रक्रिया सामान्यीकृत रैखिक मॉडल जैसे कई तरीकों के आकलन में मानक है।

हालांकि लोकप्रिय, अर्ध-न्यूटन विधियां एक स्थिर बिंदु पर परिवर्तित हो सकती हैं जो जरूरी नहीं कि स्थानीय या वैश्विक अधिकतम हो, बल्कि एक स्थानीय न्यूनतम या एक काठी बिंदु। इसलिए, संभावना समीकरणों के प्राप्त समाधान की वैधता का आकलन करना महत्वपूर्ण है, यह सत्यापित करके कि समाधान पर मूल्यांकन किया गया हेसियन, नकारात्मक निश्चित और अच्छी तरह से वातानुकूलित दोनों है।

इतिहास
अधिकतम संभावना के शुरुआती उपयोगकर्ता कार्ल फ्रेडरिक गॉस, पियरे-साइमन लाप्लास, थोरवाल्ड एन. थीले और फ्रांसिस य्सिड्रो एडगेवर्थ थे। हालाँकि, इसका व्यापक उपयोग 1912 और 1922 के बीच बढ़ गया जब रोनाल्ड फिशर ने सिफारिश की, व्यापक रूप से लोकप्रिय बनाया, और अधिकतम-संभावना अनुमान का सावधानीपूर्वक विश्लेषण किया (गणितीय प्रमाण पर निरर्थक प्रयासों के साथ)। अधिकतम-संभावना अनुमान अंततः 1938 में सैमुअल एस. विल्क्स द्वारा प्रकाशित एक प्रमाण में अनुमानी औचित्य से आगे निकल गया, जिसे अब विल्क्स प्रमेय कहा जाता है। प्रमेय से पता चलता है कि कई स्वतंत्र अवलोकनों से अनुमानों के लिए संभावना मानों के लघुगणक में त्रुटि असममित रूप से ची-वर्ग वितरण है|χ2-वितरित, जो मापदंडों के किसी भी अनुमान के आसपास एक विश्वास क्षेत्र के सुविधाजनक निर्धारण को सक्षम बनाता है। विल्क्स के प्रमाण का एकमात्र कठिन हिस्सा फिशर सूचना मैट्रिक्स के अपेक्षित मूल्य पर निर्भर करता है, जो फिशर द्वारा सिद्ध प्रमेय द्वारा प्रदान किया जाता है। विल्क्स ने जीवन भर प्रमेय की व्यापकता में सुधार करना जारी रखा, उनका सबसे सामान्य प्रमाण 1962 में प्रकाशित हुआ। अधिकतम संभावना अनुमान के विकास की समीक्षाएँ कई लेखकों द्वारा प्रदान की गई हैं।

संबंधित अवधारणाएँ

 * अकाइक सूचना मानदंड: एमएलई पर आधारित सांख्यिकीय मॉडल की तुलना करने के लिए एक मानदंड
 * चरम अनुमानक: आकलनकर्ताओं का एक अधिक सामान्य वर्ग जिसमें एमएलई शामिल है
 * फिशर जानकारी: सूचना मैट्रिक्स, एमएल अनुमानों के सहप्रसरण मैट्रिक्स से इसका संबंध
 * माध्य वर्ग त्रुटि: एक वितरण पैरामीटर का अनुमानक कितना 'अच्छा' है इसका एक माप (चाहे वह अधिकतम संभावना अनुमानक हो या कोई अन्य अनुमानक)
 * RANSAC: गणितीय मॉडल के दिए गए डेटा के मापदंडों का अनुमान लगाने की एक विधि जिसमें बाहरी कारकों के कारण शामिल हैं
 * राव-ब्लैकवेल प्रमेय: सर्वोत्तम संभव निष्पक्ष अनुमानक खोजने के लिए एक प्रक्रिया उत्पन्न करता है (न्यूनतम माध्य वर्ग त्रुटि होने के अर्थ में); एमएलई अक्सर प्रक्रिया के लिए एक अच्छी शुरुआत होती है
 * संभावना-अनुपात परीक्षण#एसिम्प्टोटिक वितरण: विल्क्स प्रमेय|विल्क्स प्रमेय: एकल नमूने से जानकारी का उपयोग करके, जनसंख्या के पैरामीटर मानों के लिए लगभग समान रूप से संभावित अनुमानों के क्षेत्र के आकार और आकार का अनुमान लगाने का एक साधन प्रदान करता है। एक ची-वर्ग वितरण

अन्य अनुमान विधियाँ

 * क्षणों की सामान्यीकृत विधि: अधिकतम संभावना अनुमान में संभावना समीकरण से संबंधित विधियाँ
 * एम-आकलनकर्ता: मजबूत आंकड़ों में प्रयुक्त एक दृष्टिकोण
 * अधिकतम एक पोस्टीरियरी (एमएपी) अनुमानक: जब पूर्व ज्ञान का अनुमान लगाया जाता है तो अनुमानकों की गणना करने के तरीके में अंतर के लिए
 * अधिकतम अंतर अनुमान: एक संबंधित विधि जो कई स्थितियों में अधिक मजबूत है
 * अधिकतम एन्ट्रापी का सिद्धांत
 * क्षणों की विधि (सांख्यिकी): वितरण के मापदंडों को खोजने के लिए एक और लोकप्रिय विधि
 * समर्थन की विधि, अधिकतम संभावना तकनीक का एक रूपांतर
 * न्यूनतम-दूरी का अनुमान
 * पैनल डेटा के लिए आंशिक संभावना विधियाँ
 * अर्ध-अधिकतम संभावना अनुमानक: एक एमएलई अनुमानक जो गलत निर्दिष्ट है, लेकिन फिर भी सुसंगत है
 * प्रतिबंधित अधिकतम संभावना: डेटा के परिवर्तित सेट से गणना की गई संभावना फ़ंक्शन का उपयोग करके भिन्नता

बाहरी संबंध

 * Tilevik, Andreas (2022). Maximum likelihood vs least squares in linear regression (video)