अधिकतम संभावना अनुमान

From Vigyanwiki
Revision as of 15:51, 28 August 2023 by Abhishekkshukla (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

आंकड़ों में, अधिकतम संभावना अनुमान (एमएलई) अनुमान सिद्धांत की विधि है, जो कुछ देखे गए डेटा को देखते हुए अनुमानित संभाव्यता वितरण का सांख्यिकीय मापदंड है। यह गणितीय अनुकूलन द्वारा संभावना फलन द्वारा प्राप्त किया जाता है जिससे अनुमानित सांख्यिकीय मॉडल के अनुसार, प्राप्ति (संभावना) अधिक संभावित होते है । मापदंड समिष्ट में वह बिंदु अनुमान जो संभावना फलन को अधिकतम करता है, अधिकतम संभावना अनुमान कहलाता है।[1] इस प्रकार अधिकतम संभावना का तर्क सहज और नम्य दोनों है, और इस प्रकार से यह विधि सांख्यिकीय अनुमान का प्रमुख साधन बन गई है।[2][3][4]

यदि संभाव्यता फलन अवकलनीय फलन है, तो मैक्सिमा खोजने के लिए व्युत्पन्न परीक्षण क्रियान्वित किया जा सकता है। इस प्रकार कुछ स्तिथि में, संभावना फलन की प्रथम-क्रम स्थितियों को विश्लेषणात्मक रूप से हल किया जा सकता है; उदाहरण के लिए, रेखीय प्रतिगमन मॉडल के लिए सामान्य न्यूनतम वर्ग अनुमानक संभावना को अधिकतम करता है जब यादृच्छिक त्रुटियों को समान विचरण के साथ सामान्य वितरण वितरण माना जाता है।[5]

अतः बायेसियन अनुमान के परिप्रेक्ष्य से, एमएलई सामान्यतः अधिकतम पोस्टीरियर अनुमान के समान है | इस प्रकार साधारण वितरण (निरंतर) पूर्व संभावना (या अनंत के मानक विचलन के साथ सामान्य वितरण पूर्व वितरण) के साथ अधिकतम पोस्टीरियर (एमएपी) अनुमान के समान है । किन्तु फ़्रीक्वेंटिस्ट अनुमान में, एमएलई चरम अनुमानक का विशेष स्तिथि है, जिसमें उद्देश्य फलन की संभावना है।

सिद्धांत

हम अज्ञात संयुक्त संभाव्यता वितरण से यादृच्छिक प्रतिरूप (सांख्यिकी) के रूप में अवलोकनों के समुच्चय को मॉडल करते हैं, इस प्रकार जिसे सांख्यिकीय मापदंडों के समुच्चय के रूप में व्यक्त किया जाता है। अधिकतम संभावना अनुमान का लक्ष्य उन मापदंडों को निर्धारित करना है जिनके लिए देखे गए डेटा में सबसे अधिक संयुक्त संभावना है। हम संयुक्त वितरण को नियंत्रित करने वाले मापदंडों को सदिश के रूप में लिखते हैं इस प्रकार जिससे यह वितरण पैरामीट्रिक वर्ग के अंतर्गत आ जाए जहाँ मापदंड समिष्ट कहा जाता है, जो की यूक्लिडियन समिष्ट का परिमित-आयामी उपसमुच्चय है। देखे गए डेटा प्रतिरूप पर संयुक्त घनत्व का मूल्यांकन करना वास्तविक-मूल्यवान फलन देता है,

जिसे संभाव्यता फलन कहा जाता है। स्वतंत्र और समान रूप से वितरित यादृच्छिक वरिएबल के लिए, अविभाज्य संभाव्यता घनत्व फलन का उत्पाद होगा:

अधिकतम संभावना अनुमान का लक्ष्य मॉडल मापदंड के मानों को दर्शाता है जो मापदंड समिष्ट पर संभावना फलन को अधिकतम करते हैं,[6] जब:

सहज रूप से, यह उन मापदंड मानों का चयन करता है जो देखे गए डेटा को सबसे अधिक संभावित बनाते हैं। विशिष्ट मूल्य यह संभावना फलन को अधिकतम करता है अधिकतम संभावना अनुमान कहा जाता है. इसके अतिरिक्त , यदि फलन इसलिए परिभाषित मापन योग्य कार्य है, तो इसे अधिकतम संभावना अनुमानक कहा जाता है। यह सामान्यतः प्रतिरूप समिष्ट पर परिभाषित फलन है, अर्थात किसी दिए गए प्रतिरूप को इसके तर्क के रूप में लेता है। इस प्रकार इसके अस्तित्व के लिए आवश्यकता और पर्याप्तता की नियम यह है कि संभावना फलन मापदंड समिष्ट पर निरंतर कार्य करता है वह सघन समिष्ट है।[7] संवृत समुच्चय के लिए संभावना फलन सर्वोच्च मूल्य तक पहुंचे बिना भी बढ़ सकता है।

वास्तव में , संभावना फलन के प्राकृतिक लघुगणक के साथ कार्य करना अधिकांशतः सुविधाजनक होता है, जिसे लॉग-संभावना कहा जाता है:

चूंकि लघुगणक मोनोटोनिक फलन है, अधिकतम के समान मान पर होता है जैसा कि अधिकतम होता है [8] इस प्रकार यदि में में भिन्न है अधिकतम (या न्यूनतम) की घटना के लिए व्युत्पन्न परीक्षण हैं

संभाव्यता समीकरण के रूप में जाना जाता है। कुछ मॉडलों के लिए, इन समीकरणों को स्पष्ट रूप से हल किया जा सकता है किन्तु सामान्यतः अधिकतमीकरण समस्या का कोई विवृत-रूप समाधान ज्ञात या उपलब्ध नहीं है, और एमएलई केवल गणितीय अनुकूलन के माध्यम से पाया जा सकता है। और समस्या यह है कि परिमित प्रतिरूपों में, संभावना समीकरणों के लिए फलन के एकाधिक शून्य उपस्तिथ हो सकते हैं।[9] क्या पहचानी गई जड़ संभावना समीकरण वास्तव में (स्थानीय) अधिकतम है या नहीं यह इस बात पर निर्भर करता है कि दूसरे क्रम के आंशिक और क्रॉस-आंशिक डेरिवेटिव का आव्युह , तथाकथित हेस्सियन आव्युह

इस प्रकार पर ऋणात्मक अर्ध-निश्चित है , क्योंकि यह स्थानीय अवतल फलन को इंगित करता है। सुविधाजनक रूप से, अधिकांश सामान्य संभाव्यता वितरण विशेष रूप से घातीय वर्ग - लघुगणकीय रूप से अवतल फलन हैं।[10][11]

प्रतिबंधित मापदंड समिष्ट

जबकि संभावना फलन का डोमेन मापदंड समिष्ट सामान्यतः यूक्लिडियन समिष्ट का परिमित-आयामी उपसमुच्चय है, इस प्रकार अतिरिक्त प्रतिबंध (गणित) को कभी-कभी अनुमान प्रक्रिया में सम्मिलित करने की आवश्यकता होती है। मापदंड समिष्ट को इस प्रकार व्यक्त किया जा सकता है

जहाँ सदिश-मूल्यवान फलन मैपिंग में है सही मापदंड का अनुमान लगाना से संबंधित तो , वास्तविक स्तिथि के रूप में, बाधा (गणित) के अधीन अधिकतम संभावना फलन को दर्शाता है

सैद्धांतिक रूप से, इस विवश अनुकूलन समस्या का सबसे स्वाभाविक दृष्टिकोण प्रतिस्थापन की विधि है, जो प्रतिबंधों को दर्शाता है समुच्चय के लिए इस तरह से कि से एक-से- कार्य है स्वयं के लिए, और सेटिंग द्वारा संभावना फलन को पुन: मापें [12] अधिकतम संभावना अनुमानक की समानता के कारण, एमएलई के गुण प्रतिबंधित अनुमानों पर भी क्रियान्वित होते हैं।[13] उदाहरण के लिए, बहुभिन्नरूपी सामान्य वितरण में सहप्रसरण आव्युह धनात्मक-निश्चित आव्युह होना चाहिए | धनात्मक-निश्चित; प्रतिस्थापित करके यह प्रतिबंध लगाया जा सकता है जहाँ वास्तविक ऊपरी त्रिकोणीय आव्युह है और इसका स्थानांतरण है.[14]

वास्तव में , प्रतिबंध सामान्यतः लैग्रेंज की विधि का उपयोग करके लगाए जाते हैं, जो ऊपर परिभाषित बाधाओं को देखते हुए, प्रतिबंधित संभावना समीकरणों की ओर ले जाता है।

और जहाँ लैग्रेंज गुणक का कॉलम-सदिश है और है आंशिक व्युत्पन्नों का k × r जैकोबियन आव्युह[12]स्वाभाविक रूप से, यदि बाधाएं अधिकतम पर बाध्यकारी नहीं हैं, तो लैग्रेंज गुणक शून्य होना चाहिए।[15] यह बदले में बाधा की वैधता के सांख्यिकीय परीक्षण की अनुमति देता है, जिसे लैग्रेंज गुणक परीक्षण के रूप में जाना जाता है।

गुण

अधिकतम संभावना अनुमानक चरम अनुमानक है जो θ के फलन के रूप में, उद्देश्य फलन को अधिकतम करके प्राप्त किया जाता है। . यदि डेटा स्वतंत्र और समान रूप से वितरित है, तो हमारे पास है

यह अपेक्षित लॉग-संभावना का प्रतिरूप एनालॉग है , जहां इस अपेक्षा को वास्तविक घनत्व के संबंध में लिया जाता है।

अधिकतम-संभावना अनुमानकों के पास परिमित प्रतिरूपों के लिए कोई इष्टतम गुण नहीं हैं, इस अर्थ में कि (जब परिमित प्रतिरूपों पर मूल्यांकन किया जाता है) अन्य अनुमानकों के पास वास्तविक मापदंड-मूल्य के आसपास अधिक एकाग्रता हो सकती है।[16] चूंकि , अन्य अनुमान विधियों की तरह, अधिकतम संभावना अनुमान में कई आकर्षक एसिम्प्टोटिक सिद्धांत (सांख्यिकी) होते हैं: जैसे-जैसे प्रतिरूप आकार अनंत तक बढ़ता है, अधिकतम संभावना अनुमानकों के अनुक्रम में ये गुण होते हैं:

  • अनुमानक की स्थिरता: एमएलई का अनुक्रम अनुमान लगाए जा रहे मूल्य की संभावना में परिवर्तित हो जाता है।
  • अपरिवर्तनीय अनुमानक: यदि , के लिए अधिकतम संभावना अनुमानक है और यदि , का कोई परिवर्तन है तो के लिए अधिकतम संभावना अनुमानक है। इस संपत्ति को सामान्यतः कार्यात्मक समतुल्य मानचित्र के रूप में जाना जाता है। अपरिवर्तनीय गुण मनमाना परिवर्तन के लिए मान्य है, चूंकि यदि एक-से-एक परिवर्तनों तक सीमित है तो प्रमाण सरल हो जाता है।
  • कुशल अनुमानक, अर्थात जब प्रतिरूप आकार अनंत तक जाता है तो यह क्रैमर-राव निचली सीमा को प्राप्त करता है। इसका कारण यह है कि किसी भी सुसंगत अनुमानक के पास एमएलई (या इस सीमा को प्राप्त करने वाले अन्य अनुमानकों) की तुलना में कम एसिम्प्टोटिक माध्य वर्ग त्रुटि नहीं है, जिसका अर्थ यह भी है कि एमएलई में स्थानीय एसिम्प्टोटिक सामान्यता है।
  • पूर्वाग्रह के सुधार के बाद दूसरे क्रम की दक्षता है ।

एकरूपता

नीचे उल्लिखित नियम के अनुसार, अधिकतम संभावना सुसंगत अनुमानक है। एकरूपता का अर्थ है कि यदि डेटा द्वारा उत्पन्न किया गया था और हमारे पास पर्याप्त संख्या में अवलोकन n हैं, तो मनमानी सटीकता के साथ θ0 का मान ज्ञात करना संभव है। गणितीय शब्दों में इसका अर्थ यह है कि जैसे ही n अनंत तक जाता है, अनुमानक संभाव्यता में अपने वास्तविक मान में परिवर्तित हो जाता है:

थोड़ी जटिल परिस्थितियों में, अनुमानक लगभग निश्चित अभिसरण (या दृढ़ता से) अभिसरण करता है:

वास्तविक अनुप्रयोगों में, डेटा कभी भी द्वारा उत्पन्न नहीं होता है . किन्तु , डेटा द्वारा उत्पन्न प्रक्रिया का मॉडल है, जो अधिकांशतः आदर्श रूप में होता है। आंकड़ों में यह आम कहावत है कि सभी मॉडल गलत हैं। इस प्रकार, वास्तविक अनुप्रयोगों में सच्ची स्थिरता नहीं होती है। फिर भी, स्थिरता को अधिकांशतः अनुमानकर्ता के लिए वांछनीय गुण माना जाता है।

एकरूपता स्थापित करने के लिए निम्नलिखित स्थितियाँ पर्याप्त हैं।[17]

  1. Identification of the model:

    In other words, different parameter values θ correspond to different distributions within the model. If this condition did not hold, there would be some value θ1 such that θ0 and θ1 generate an identical distribution of the observable data. Then we would not be able to distinguish between these two parameters even with an infinite amount of data—these parameters would have been observationally equivalent.

    The identification condition is absolutely necessary for the ML estimator to be consistent. When this condition holds, the limiting likelihood function (θ|·) has unique global maximum at θ0.
  2. Compactness: the parameter space Θ of the model is compact.
    Ee noncompactness.svg

    The identification condition establishes that the log-likelihood has a unique global maximum. Compactness implies that the likelihood cannot approach the maximum value arbitrarily close at some other point (as demonstrated for example in the picture on the right).

    Compactness is only a sufficient condition and not a necessary condition. Compactness can be replaced by some other conditions, such as:

    • both concavity of the log-likelihood function and compactness of some (nonempty) upper level sets of the log-likelihood function, or
    • existence of a compact neighborhood N of θ0 such that outside of N the log-likelihood function is less than the maximum by at least some ε > 0.
  3. Continuity: the function ln f(x | θ) is continuous in θ for almost all values of x:
    The continuity here can be replaced with a slightly weaker condition of upper semi-continuity.
  4. Dominance: there exists D(x) integrable with respect to the distribution f(x | θ0) such that
    By the uniform law of large numbers, the dominance condition together with continuity establish the uniform convergence in probability of the log-likelihood:

प्रभुत्व की स्थिति को आई.आई.डी. के स्तिथि में नियोजित किया जा सकता है। इस प्रकार अवलोकन. गैर-आई.आई.डी. में स्थिति में, संभाव्यता में एकसमान अभिसरण को यह दिखाकर जांचा जा सकता है कि अनुक्रम स्टोकेस्टिक रूप से समविरंतर है। यदि कोई यह प्रदर्शित करना चाहता है कि एमएल अनुमानक लगभग निश्चित रूप से θ पर आ जाता है, इस प्रकार समान अभिसरण की एक जटिल स्थिति लगभग निश्चित रूप से क्रियान्वित करनी होगी:

इसके अतिरिक्त, यदि (जैसा कि ऊपर माना गया है) डेटा द्वारा उत्पन्न किया गया था , फिर कुछ नियम के अनुसार, यह भी दिखाया जा सकता है कि अधिकतम संभावना अनुमानक सामान्य वितरण में वितरण में अभिसरण करता है। विशेष रूप से है ,[18]

जहाँ I फिशर सूचना है.

कार्यात्मक अपरिवर्तन

अधिकतम संभावना अनुमानक मापदंड मान का चयन करता है जो देखे गए डेटा को अधिक उच्च संभावित संभावना (या निरंतर स्तिथि में संभाव्यता घनत्व) देता है। इस प्रकार यदि मापदंड में कई घटक सम्मिलित हैं, तो हम उनके अलग-अलग अधिकतम संभावना अनुमानकों को पूर्ण मापदंड के एमएलई के संबंधित घटक के रूप में परिभाषित करते हैं। इसके अनुरूप, यदि , के लिए एमएलई है और यदि , 0 का कोई परिवर्तन है तो के लिए एमएलई परिभाषा के अनुसार है[19]

यह तथाकथित संभावना फलन या प्रोफ़ाइल संभावना को अधिकतम करता है:

डेटा के कुछ परिवर्तनों के संबंध में एमएलई भी समतुल्य है। यदि जहाँ से है और अनुमान लगाए जाने वाले मापदंडों पर निर्भर नहीं है, तो घनत्व फलन संतुष्ट होते हैं

और इसलिए और के लिए संभाव्यता फलन केवल एक कारक से भिन्न होते हैं जो मॉडल मापदंडों पर निर्भर नहीं करता है।

उदाहरण के लिए, लॉग-सामान्य वितरण के एमएलई मापदंड डेटा के लघुगणक में फिट किए गए सामान्य वितरण के समान हैं।

दक्षता

जैसा कि ऊपर माना गया है, यदि डेटा उत्पन्न किया गया था फिर कुछ नियम के अनुसार, यह भी दिखाया जा सकता है कि अधिकतम संभावना अनुमानक सामान्य वितरण में वितरण में अभिसरण करता है। यह है n -सुसंगत और स्पर्शोन्मुख रूप से कुशल, जिसका अर्थ है कि यह क्रैमर-राव सीमा तक पहुंचता है। विशेष रूप से,[18]

जहाँ फिशर सूचना आव्युह है:

विशेष रूप से, इसका कारण है कि अधिकतम संभावना अनुमानक का पूर्वाग्रह क्रम तक शून्य के समान 1/n  है .

पूर्वाग्रह के लिए सुधार के बाद दूसरे क्रम की दक्षता

चूंकि , जब हम इस अनुमानक के वितरण के एजवर्थ विस्तार में उच्च-क्रम की नियम पर विचार करते हैं, तो यह पता चलता है कि θmle आदेश का पूर्वाग्रह 1n है . यह पूर्वाग्रह (घटकवार) के समान है [20]

जहाँ (सुपरस्क्रिप्ट के साथ) व्युत्क्रम फिशर सूचना आव्युह के (जे,के)-वें घटक को दर्शाता है , और

इन सूत्रों का उपयोग करके अधिकतम संभावना अनुमानक के दूसरे क्रम के पूर्वाग्रह का अनुमान लगाना संभव है, और इसे घटाकर उस पूर्वाग्रह को सही करना संभव है:

यह अनुमानक आदेश की नियम के प्रति निष्पक्ष है 1/n, और इसे पूर्वाग्रह-संशोधित अधिकतम संभावना अनुमानक कहा जाता है।

यह पूर्वाग्रह-सुधारित अनुमानक है दूसरे क्रम का कुशल (कम से कम घुमावदार घातीय वर्ग के अन्दर), जिसका अर्थ है कि ऑर्डर की नियम तक, सभी दूसरे क्रम के पूर्वाग्रह-सुधारित अनुमानकों के बीच इसमें न्यूनतम माध्य वर्ग त्रुटि 1/n2 है . इस प्रक्रिया को जारी रखना संभव है, अर्थात तीसरे क्रम के पूर्वाग्रह-सुधार शब्द को प्राप्त करना, इत्यादि। चूंकि , अधिकतम संभावना अनुमानक तीसरे क्रम का कुशल नहीं है।[21]

बायेसियन अनुमान से संबंध

अधिकतम संभावना अनुमानक अधिकतम पोस्टीरियर बायेसियन अनुमानक के साथ मेल खाता है, इस प्रकार जिसे मापदंड समिष्ट पर समान वितरण (निरंतर) पूर्व संभावना दी गई है। वास्तव में, अधिकतम पश्चवर्ती अनुमान मापदंड θ है जो की संभावना को अधिकतम करता है इस प्रकार θ बेयस प्रमेय द्वारा दिया गया डेटा दिया गया है:

जहाँ मापदंड के लिए पूर्व वितरण है θ और जहाँ सभी मापदंडों पर औसत डेटा की संभावना है। चूँकि प्रत्येक स्वतंत्र है θ, बायेसियन अनुमानक अधिकतम करके प्राप्त किया जाता है इसके संबंध में θ. यदि हम आगे यह मान लें कि पूर्व समान वितरण है, बायेसियन अनुमानक संभावना फलन को अधिकतम करके प्राप्त किया जाता है . इस प्रकार बायेसियन अनुमानक समान पूर्व वितरण के लिए अधिकतम संभावना अनुमानक के साथ मेल खाता है .

बेयस निर्णय सिद्धांत में अधिकतम-संभावना अनुमान का अनुप्रयोग

यंत्र अधिगम में कई वास्तविक अनुप्रयोगों में, अधिकतम संभावना अनुमान का उपयोग मापदंड अनुमान के मॉडल के रूप में किया जाता है।

बायेसियन निर्णय सिद्धांत क्लासिफायरियर को डिजाइन करने के बारे में है जो कुल अपेक्षित कठिन परिस्थिति को कम करता है, इस प्रकार जब विभिन्न निर्णयों से जुड़ी निवेश (हानि फलन ) समान होती है, तो क्लासिफायरियर पूरे वितरण पर त्रुटि को कम कर रहा है।[22] इस प्रकार, बेयस निर्णय नियम के रूप में कहा गया है

माना यदि अन्यथा निर्णय करें जहाँ विभिन्न वर्गों की पूर्वानुमान हैं। इस प्रकार त्रुटि को न्यूनतम करने के दृष्टिकोण से इसे इस प्रकार भी कहा जा सकता है

जहाँ

यदि हम निर्णय और लेते हैं यदि हम निर्णय लेते हैं बेयस प्रमेय को क्रियान्वित करके

,

और यदि हम आगे शून्य-या- हानि फलन मानते हैं, जो सभी त्रुटियों के लिए ही हानि है, तो बेयस निर्णय नियम को इस प्रकार पुन: तैयार किया जा सकता है:

जहाँ पूर्वानुमान है और पूर्व संभावना है.

कुल्बैक-लीबलर विचलन और क्रॉस एन्ट्रॉपी को न्यूनतम करने से संबंध

जो संभावना को अधिकतम करता है वह असम्बद्ध रूप से खोजने के समान है यह संभाव्यता वितरण () को परिभाषित करता है इस प्रकार जिसकी कुलबैक-लीबलर विचलन के संदर्भ में, वास्तविक संभाव्यता वितरण से न्यूनतम दूरी है, जिससे हमारा डेटा उत्पन्न हुआ था (अर्थात , द्वारा उत्पन्न) [23] आदर्श दुनिया में, p और क्यू ही हैं (और केवल चीज अज्ञात है जो p को परिभाषित करता है), किन्तु तथापि वे नहीं हैं और जिस मॉडल का हम उपयोग करते हैं वह गलत निर्दिष्ट है, फिर भी एमएलई हमें निकटतम वितरण देगा (मॉडल क्यू के प्रतिबंध के अन्दर जो निर्भर करता है) ) वास्तविक वितरण के लिए है .[24]

चूंकि कुल्बैक-लीबलर विचलन क्रॉस एन्ट्रॉपी केवल एन्ट्रॉपी (सूचना सिद्धांत) है शैनन की एन्ट्रॉपी प्लस केएल विचलन, और एन्ट्रॉपी के बाद से स्थिर है, तो एमएलई भी असम्बद्ध रूप से क्रॉस एन्ट्रापी को कम कर रहा है।[25]

उदाहरण

असतत समान वितरण

ऐसे स्तिथि पर विचार करें जहां 1 से n तक क्रमांकित n टिकट बॉक्स में रखे गए हैं और जिसको यादृच्छिक रूप से चुना गया है (समान वितरण (अलग) देखें); इस प्रकार, प्रतिरूप आकार 1 है। यदि n अज्ञात है, तो अधिकतम संभावना अनुमानक है निकाले गए टिकट पर n का अंक m है। इस प्रकार (n<m के लिए संभावना 0 है, 1n n ≥ m के लिए, और यह सबसे बड़ा है जब n = m। ध्यान दें कि n की अधिकतम संभावना का अनुमान संभावित मानों की सीमा के मध्य में कहीं होने के अतिरिक्त संभावित मानों {m,m +1,...} के निचले छोर पर होता है, जिसके परिणामस्वरूप कम पूर्वाग्रह होगा।) निकाले गए टिकट पर संख्या एम का अपेक्षित मूल्य, और इसलिए अपेक्षित मूल्य , (n+1)/2 है। परिणामस्वरूप, 1 के प्रतिरूप आकार के साथ, n के लिए अधिकतम संभावना अनुमानक व्यवस्थित रूप से n को (n − 1)/2 से कम प्राप्त होता है।

असतत वितरण, परिमित मापदंड समिष्ट

मान लीजिए कि कोई यह निर्धारित करना चाहता है कि अन्यायपूर्ण सिक्का कितना पक्षपातपूर्ण है। हेड' p उछालने की प्रायिकता को कॉल करें। फिर लक्ष्य p निर्धारित करना बन जाता है।

मान लीजिए कि सिक्के को 80 बार उछाला गया है: अर्थात प्रतिरूप x1= H, x2= T, ..., x80= T जैसा कुछ हो सकता है, और विपरीत और विपरीत H की संख्या की गिनती देखी जाती है।

हेड उछालने की प्रायिकता 1 − p है (इसलिए यहाँ p θ ऊपर है)। मान लीजिए कि परिणाम 49 चित और 31 ‍सामने और ‍हेड है, और मान लीजिए कि सिक्का बॉक्स से लिया गया है जिसमें तीन सिक्के हैं: जो प्रायिकता p =13 के साथ चित देता है , वह जो प्रायिकता p=12 के साथ शीर्ष देता है और दूसरा जो प्रायिकता p=23 के साथ शीर्ष देता है. इस प्रकार सिक्कों ने अपना लेबल खो दिया है, इसलिए यह अज्ञात है कि यह कौन सा था। अधिकतम संभावना अनुमान का उपयोग करके, देखे गए डेटा को देखते हुए, जिस सिक्के की संभावना सबसे अधिक है, उसे पाया जा सकता है। 80 के समान प्रतिरूप आकार के साथ द्विपद वितरण के संभाव्यता द्रव्यमान फलन का उपयोग करके, संख्या सफलताएं 49 के समान होती हैं किन्तु p (सफलता की संभावना) के विभिन्न मूल्यों के लिए, संभावना फलन (नीचे परिभाषित) तीन मानों में से लेता है:

संभावना तब अधिकतम होती है जब p = 23, और इसलिए यह इसके p लिए अधिकतम संभावना अनुमान है.

असतत वितरण, सतत मापदंड समिष्ट

अब मान लीजिए कि सिक्का ही था किन्तु है p कोई भी मूल्य हो सकता था 0 ≤ p ≤ 1 . संभावना फलन को अधिकतम किया जाना है

और अधिकतमीकरण सभी संभावित मूल्यों 0 ≤ p ≤ 1 . से अधिक है

द्विपद प्रक्रिया के आनुपातिक मान के लिए संभावना फलन (n = 10)

इस फलन को अधिकतम करने का विधि इसके संबंध p और शून्य पर सेटिंग में व्युत्पन्न है:

यह तीन पदों का गुणनफल है। पहला पद 0 है जब p = 0. दूसरा 0 है जब p=1. तीसरा शून्य है जब p = 4980. संभावना को अधिकतम करने वाला समाधान स्पष्ट रूप से है p = 4980 (तब से p=0 और p = 0 की संभावना में 1 परिणाम)। इस प्रकार के लिए अधिकतम संभावना अनुमानक p =4980 है .

जैसे किसी अक्षर को प्रतिस्थापित करके इस परिणाम को सरलता से सामान्यीकृत किया जा सकता है इस प्रकार s 49 के समिष्ट पर हमारे बर्नौली परीक्षण की 'सफलताओं' की देखी गई संख्या का प्रतिनिधित्व करने के लिए, और पत्र जैसे n बर्नौली परीक्षणों की संख्या को दर्शाने के लिए 80 के समिष्ट पर बिल्कुल वैसी ही गणना sn से परिणाम मिलता है जो किसी भी अनुक्रम n बर्नौली परीक्षणों के परिणामस्वरूप s 'सफलताएँ के लिए अधिकतम संभावना अनुमानक है'।

सतत वितरण, सतत मापदंड समिष्ट

सामान्य वितरण के लिए जिसमें संभाव्यता घनत्व फलन है

प्रतिरूप के लिए संगत संभाव्यता घनत्व फलन n स्वतंत्र रूप से समान रूप से वितरित सामान्य यादृच्छिक वरिएबल (संभावना) है

वितरण के इस वर्ग के दो मापदंड θ = (μσ) हैं: ; इसलिए हम संभावना को अधिकतम करते हैं, दोनों मापदंडों पर साथ, या यदि संभव हो तो, व्यक्तिगत रूप से प्रयोग किया जाता है।

चूँकि प्राकृतिक लघुगणक फलन स्वयं सतत कार्य है जो संभावना की सीमा (सांख्यिकी) पर सख्ती से बढ़ने वाला कार्य है, इस प्रकार जो मान संभावना को अधिकतम करते हैं, वे इसके लघुगणक को भी अधिकतम करेंगे (लॉग-संभावना स्वयं सख्ती से बढ़ नहीं रही है)। लॉग-संभावना को इस प्रकार लिखा जा सकता है:

(नोट: लॉग-संभावना सूचना एन्ट्रापी और फिशर सूचना से निकटता से संबंधित है।)

अब हम इस लॉग-संभावना के डेरिवेटिव की गणना निम्नानुसार करते हैं।

जहाँ प्रतिरूप माध्य है. इसका समाधान इसके द्वारा किया जाता है

यह वास्तव में कार्य की अधिकतम सीमा है, क्योंकि यह इसमें एकमात्र महत्वपूर्ण मोड़ μ है और दूसरा व्युत्पन्न बिल्कुल शून्य से कम है। इसका अपेक्षित मान मापदंड μ के समान है दिए गए वितरण का उपयोग करते है,

जिसका अर्थ है कि अधिकतम संभावना अनुमानक निष्पक्ष है.

इसी प्रकार हम लॉग-संभावना के संबंध σ और शून्य के समान में अंतर करते हैं :

जिसका समाधान किया गया है

अनुमान सम्मिलित करते है हमने प्राप्त

इसके अपेक्षित मूल्य की गणना करने के लिए, शून्य-माध्य यादृच्छिक वरिएबल (सांख्यिकीय त्रुटि) के संदर्भ में अभिव्यक्ति को फिर से लिखना सुविधाजनक है . इन वेरिएबल्स में अनुमान व्यक्त करने से प्राप्ति होती है

उपरोक्त अभिव्यक्ति को सरल बनाते हुए, तथ्यों और का उपयोग करते हुए , हमें प्राप्त करने की अनुमति देता है

इसका कारण यह है कि अनुमानक के लिए पक्षपाती है . वो भी दिखाया जा सकता है इस प्रकार के लिए पक्षपाती है , किन्तु वह दोनों और सुसंगत है।

औपचारिक रूप से हम कहते हैं कि अधिकतम संभावना अनुमानक है

इस स्तिथि में एमएलई को व्यक्तिगत रूप से प्राप्त किया जा सकता है। सामान्यतः यह स्तिथि नहीं हो सकता है, और एमएलई को साथ प्राप्त करता है।

सामान्य लॉग-संभावना अपने अधिकतम स्तर पर विशेष रूप से सरल रूप लेती है:

यह अधिकतम लॉग-संभावना अधिक सामान्य न्यूनतम वर्गों के लिए समान दिखाई जा सकती है, यहां तक ​​कि गैर-रेखीय न्यूनतम वर्गों के लिए भी इसका उपयोग अधिकांशतः संभावना-आधारित अनुमानित आत्मबल अंतराल और आत्मबल क्षेत्र को निर्धारित करने में किया जाता है, जो सामान्यतः ऊपर चर्चा की गई स्पर्शोन्मुख सामान्यता का उपयोग करने वालों की तुलना में अधिक स्पष्ट होते हैं।

गैर-स्वतंत्र वरिएबल

ऐसा हो सकता है कि वरिएबल सहसंबंधित हों, अर्थात स्वतंत्र न हों। दो यादृच्छिक वरिएबल और केवल तभी स्वतंत्र होते हैं जब उनका संयुक्त संभाव्यता घनत्व फलन व्यक्तिगत संभाव्यता घनत्व कार्यों का उत्पाद होता है, अर्थात ।

मान लीजिए कि कोई यादृच्छिक वरिएबल से ऑर्डर-एन गॉसियन सदिश बनाता है , जहां प्रत्येक वरिएबल के साधन दिए गए हैं . इसके अतिरिक्त , मान लीजिए कि सहप्रसरण आव्युह को इसके द्वारा निरूपित किया जाता है . इन n यादृच्छिक चरों का संयुक्त संभाव्यता घनत्व फलन तब दिए गए बहुभिन्नरूपी सामान्य वितरण का अनुसरण करता है:

द्विचर विश्लेषण स्तिथि में, संयुक्त संभाव्यता घनत्व फलन इस प्रकार दिया गया है:

इस और अन्य स्तिथि में जहां संयुक्त घनत्व फलन उपस्तिथ है, संभावना फलन को इस घनत्व का उपयोग करते हुए अधिकतम संभावना सिद्धांत अनुभाग में उपरोक्त के रूप में परिभाषित किया गया है।

उदाहरण

इस प्रकार सेलों/बक्सों में गिनती 1 से मी तक होती है; प्रत्येक बॉक्स की अलग संभावना होती है (बक्से के बड़े या छोटे होने के बारे में सोचें) और हम गिरने वाली गेंदों की संख्या तय करते हैं :. प्रत्येक डिब्बे की प्रायिकता है , बाधा के साथ: . यह ऐसा स्तिथि है जिसमें s स्वतंत्र नहीं हैं, सदिश की संयुक्त संभावना बहुपद कहा जाता है और इसका रूप है:

अन्य सभी बक्सों से अलग लिया गया प्रत्येक बक्सा द्विपद है और यह उसका विस्तार है।

इसकी लॉग-संभावना है:

बाधा को ध्यान में रखना होगा और लैग्रेंज मल्टीप्लायरों का उपयोग करना होता है:

सभी व्युत्पन्नों को 0 मानकर, सबसे स्वाभाविक अनुमान प्राप्त किया जाता है

लॉग संभावना को अधिकतम करना, बाधाओं के साथ और बिना, विवृत रूप में अघुलनशील समस्या हो सकती है, तो हमें पुनरावृत्त प्रक्रियाओं का उपयोग करता है।

पुनरावृत्त प्रक्रियाएं

विशेष स्तिथि को छोड़कर, संभाव्यता समीकरण

किसी अनुमानक के लिए स्पष्ट रूप से हल नहीं किया जा सकता है . इसके अतिरिक्त, उन्हें पुनरावृत्त विधि से हल करने की आवश्यकता है: प्रारंभिक अनुमान से प्रारंभ करना , कोई अभिसरण अनुक्रम प्राप्त करना चाहता है . इस प्रकार की अनुकूलन समस्या के लिए कई विधियाँ उपलब्ध हैं,[26][27] किन्तु सबसे अधिक उपयोग किए जाने वाले फॉर्म के अपडेटिंग सूत्र पर आधारित एल्गोरिदम हैं

जहां सदिश rवें चरण की अवतरण दिशा और अदिश को इंगित करता है चरण की लंबाई कैप्चर करता है,[28][29] सीखने की दर के रूप में भी जाना जाता है।[30]

ढतला हुआ वंश विधि

(नोट: यहां यह अधिकतमीकरण समस्या है, इसलिए ग्रेडिएंट से पहले का चिह्न फ़्लिप किया गया है)

यह अभिसरण के लिए काफी छोटा है और

ग्रेडिएंट डिसेंट विधि के लिए rवें पुनरावृत्ति पर ग्रेडिएंट की गणना करने की आवश्यकता होती है, किन्तु दूसरे क्रम के व्युत्पन्न के व्युत्क्रम, अर्थात , हेसियन आव्युह की गणना करने की आवश्यकता नहीं होती है। इसलिए, यह न्यूटन-रेफसन विधि की तुलना में कम्प्यूटेशनल रूप से तेज़ है।

न्यूटन की विधि|न्यूटन-रेफसन विधि

और

जहाँ स्कोर (सांख्यिकी) है और लॉग-संभावना फलन के हेसियन आव्युह का व्युत्क्रमणीय आव्युह है, दोनों ने rवें पुनरावृत्ति का मूल्यांकन किया था।[31][32] किन्तु क्योंकि हेसियन आव्युह की गणना कम्प्यूटेशनल जटिलता है, इसलिए कई विकल्प प्रस्तावित किए गए हैं। लोकप्रिय बर्नड्ट-हॉल-हौसमैन एल्गोरिदम अपेक्षित ग्रेडिएंट के बाहरी उत्पाद के साथ हेसियन का अनुमान लगाता है, जैसे कि

अर्ध-न्यूटन विधियाँ

अन्य अर्ध-न्यूटन विधियाँ हेसियन आव्युह का सन्निकटन देने के लिए अधिक विस्तृत सेकेंट अपडेट का उपयोग करती हैं।

डेविडन-फ्लेचर-पॉवेल सूत्र

डीएफपी सूत्र ऐसा समाधान खोजता है जो सममित, धनात्मक-निश्चित और दूसरे क्रम के व्युत्पन्न के वर्तमान अनुमानित मूल्य के सबसे निकटहै:

जहाँ

ब्रोयडेन-फ्लेचर-गोल्डफार्ब-शैनो एल्गोरिथ्म

बीएफजीएस समाधान भी देता है जो सममित और धनात्मक-निश्चित है:

जहाँ

बीएफजीएस पद्धति के अभिसरण की गारंटी नहीं है जब तक कि फलन में इष्टतम के निकटद्विघात टेलर विस्तार नही होता है। चूंकि , गैर-सुचारू अनुकूलन उदाहरणों के लिए भी बीएफजीएस का प्रदर्शन स्वीकार्य हो सकता है

स्कोरिंग एल्गोरिदम या फिशर का स्कोरिंग

अन्य लोकप्रिय विधि हेसियन को फिशर सूचना आव्युह से बदलना है, हमें फिशर स्कोरिंग एल्गोरिदम दे रहा है। यह प्रक्रिया सामान्यीकृत रैखिक मॉडल जैसे कई विधियों के आकलन में मानक है।

चूँकि लोकप्रिय, अर्ध-न्यूटन विधियां स्थिर बिंदु पर परिवर्तित हो सकती हैं जो आवश्यक नहीं कि स्थानीय या वैश्विक अधिकतम हो सकता था,[33] किन्तु स्थानीय न्यूनतम या काठी बिंदु इसलिए, संभावना समीकरणों के प्राप्त समाधान की वैधता का आकलन करना महत्वपूर्ण है, यह सत्यापित करके कि समाधान पर मूल्यांकन किया गया हेसियन, ऋणात्मक निश्चित और अच्छी तरह से वातानुकूलित दोनों है।[34]

इतिहास

अधिकतम संभावना के प्रारंभिक उपयोगकर्ता कार्ल फ्रेडरिक गॉस, पियरे-साइमन लाप्लास, थोरवाल्ड एन. थीले और फ्रांसिस य्सिड्रो एडगेवर्थ थे।[35][36] चूंकि ,इस प्रकार इसका व्यापक उपयोग 1912 और 1922 के बीच बढ़ गया जब रोनाल्ड फिशर ने पक्षसमर्थन किया था, व्यापक रूप से लोकप्रिय बनाया था, और अधिकतम-संभावना अनुमान का सावधानीपूर्वक विश्लेषण किया था (गणितीय प्रमाण पर निरर्थक प्रयासों के साथ)।[37]

अधिकतम-संभावना अनुमान अंततः 1938 में सैमुअल एस. विल्क्स द्वारा प्रकाशित प्रमाण में अनुमानी औचित्य से आगे निकल गया था, जिसे अब विल्क्स प्रमेय कहा जाता है।[38] प्रमेय से पता चलता है कि कई स्वतंत्र अवलोकनों से अनुमानों के लिए संभावना मानों के लघुगणक में त्रुटि असममित रूप से ची-वर्ग वितरण है | इस प्रकार χ2-वितरित, जो मापदंडों के किसी भी अनुमान के आसपास विश्वास क्षेत्र के सुविधाजनक निर्धारण को सक्षम बनाता है। इस प्रकार विल्क्स के प्रमाण का एकमात्र कठिन भाग फिशर सूचना आव्युह के अपेक्षित मूल्य पर निर्भर करता है, जो फिशर द्वारा सिद्ध प्रमेय द्वारा प्रदान किया जाता है।[39] विल्क्स ने जीवन भर प्रमेय की व्यापकता में सुधार करना जारी रखा था , उनका सबसे सामान्य प्रमाण 1962 में प्रकाशित हुआ था ।[40] इस प्रकार अधिकतम संभावना अनुमान के विकास की समीक्षाएँ कई लेखकों द्वारा प्रदान की गई हैं।[41][42][43][44][45][46][47][48]

यह भी देखें

संबंधित अवधारणाएँ

  • अकाइक सूचना मानदंड: एमएलई पर आधारित सांख्यिकीय मॉडल की तुलना करने के लिए मानदंड
  • चरम अनुमानक: आकलनकर्ताओं का अधिक सामान्य वर्ग जिसमें एमएलई सम्मिलित है
  • फिशर सूचना : सूचना आव्युह , एमएल अनुमानों के सहप्रसरण आव्युह से इसका संबंध
  • माध्य वर्ग त्रुटि: वितरण मापदंड का अनुमानक कितना 'अच्छा' है इसका माप (वह अधिकतम संभावना अनुमानक हो या कोई अन्य अनुमानक)
  • आरएएनसैक: गणितीय मॉडल के दिए गए डेटा के मापदंडों का अनुमान लगाने की विधि जिसमें बाहरी कारकों के कारण सम्मिलित हैं
  • राव-ब्लैकवेल प्रमेय: सर्वोत्तम संभव निष्पक्ष अनुमानक खोजने के लिए प्रक्रिया उत्पन्न करता है (न्यूनतम माध्य वर्ग त्रुटि होने के अर्थ में); एमएलई अधिकांशतः प्रक्रिया के लिए अच्छी प्रारंभ होता है
  • संभावना-अनुपात परीक्षण#एसिम्प्टोटिक वितरण: विल्क्स प्रमेय या विल्क्स प्रमेय: एकल प्रतिरूप से सूचना का उपयोग करके, जनसंख्या के मापदंड मानों के लिए लगभग समान रूप से संभावित अनुमानों के क्षेत्र के आकार और आकार का अनुमान लगाने का साधन प्रदान करता है।

अन्य अनुमान विधियाँ

संदर्भ

  1. Rossi, Richard J. (2018). Mathematical Statistics : An Introduction to Likelihood Based Inference. New York: John Wiley & Sons. p. 227. ISBN 978-1-118-77104-4.
  2. Hendry, David F.; Nielsen, Bent (2007). Econometric Modeling: A Likelihood Approach. Princeton: Princeton University Press. ISBN 978-0-691-13128-3.
  3. Chambers, Raymond L.; Steel, David G.; Wang, Suojin; Welsh, Alan (2012). नमूना सर्वेक्षण के लिए अधिकतम संभावना अनुमान. Boca Raton: CRC Press. ISBN 978-1-58488-632-7.
  4. Ward, Michael Don; Ahlquist, John S. (2018). Maximum Likelihood for Social Science : Strategies for Analysis. New York: Cambridge University Press. ISBN 978-1-107-18582-1.
  5. Press, W.H.; Flannery, B.P.; Teukolsky, S.A.; Vetterling, W.T. (1992). "Least Squares as a Maximum Likelihood Estimator". Numerical Recipes in FORTRAN: The Art of Scientific Computing (2nd ed.). Cambridge: Cambridge University Press. pp. 651–655. ISBN 0-521-43064-X.
  6. Myung, I.J. (2003). "अधिकतम संभावना अनुमान पर ट्यूटोरियल". Journal of Mathematical Psychology. 47 (1): 90–100. doi:10.1016/S0022-2496(02)00028-7.
  7. Gourieroux, Christian; Monfort, Alain (1995). सांख्यिकी और अर्थमिति मॉडल. Cambridge University Press. p. 161. ISBN 0-521-40551-3.
  8. Kane, Edward J. (1968). आर्थिक सांख्यिकी और अर्थमिति. New York, NY: Harper & Row. p. 179.
  9. Small, Christoper G.; Wang, Jinfang (2003). "Working with roots". अरेखीय आकलन समीकरणों के लिए संख्यात्मक तरीके. Oxford University Press. pp. 74–124. ISBN 0-19-850688-0.
  10. Kass, Robert E.; Vos, Paul W. (1997). Geometrical Foundations of Asymptotic Inference. New York, NY: John Wiley & Sons. p. 14. ISBN 0-471-82668-5.
  11. Papadopoulos, Alecos (25 September 2013). "Why we always put log() before the joint pdf when we use MLE (Maximum likelihood Estimation)?". Stack Exchange.
  12. 12.0 12.1 Silvey, S. D. (1975). सांख्यिकीय निष्कर्ष. London, UK: Chapman and Hall. p. 79. ISBN 0-412-13820-4.
  13. Olive, David (2004). "Does the MLE maximize the likelihood?" (PDF). {{cite journal}}: Cite journal requires |journal= (help)
  14. Schwallie, Daniel P. (1985). "सकारात्मक निश्चित अधिकतम संभावना सहप्रसरण अनुमानक". Economics Letters. 17 (1–2): 115–117. doi:10.1016/0165-1765(85)90139-9.
  15. Magnus, Jan R. (2017). अर्थमिति के सिद्धांत का परिचय. Amsterdam: VU University Press. pp. 64–65. ISBN 978-90-8659-766-6.
  16. Pfanzagl (1994, p. 206)
  17. By Theorem 2.5 in Newey, Whitney K.; McFadden, Daniel (1994). "Chapter 36: Large sample estimation and hypothesis testing". In Engle, Robert; McFadden, Dan (eds.). Handbook of Econometrics, Vol.4. Elsevier Science. pp. 2111–2245. ISBN 978-0-444-88766-5.
  18. 18.0 18.1 By Theorem 3.3 in Newey, Whitney K.; McFadden, Daniel (1994). "Chapter 36: Large sample estimation and hypothesis testing". In Engle, Robert; McFadden, Dan (eds.). Handbook of Econometrics, Vol.4. Elsevier Science. pp. 2111–2245. ISBN 978-0-444-88766-5.
  19. Zacks, Shelemyahu (1971). सांख्यिकीय अनुमान का सिद्धांत. New York: John Wiley & Sons. p. 223. ISBN 0-471-98103-6.
  20. See formula 20 in Cox, David R.; Snell, E. Joyce (1968). "A general definition of residuals". Journal of the Royal Statistical Society, Series B. 30 (2): 248–275. JSTOR 2984505.
  21. Kano, Yutaka (1996). "Third-order efficiency implies fourth-order efficiency". Journal of the Japan Statistical Society. 26: 101–117. doi:10.14490/jjss1995.26.101.
  22. Christensen, Henrikt I. "पैटर्न मान्यता" (PDF) (lecture). Bayesian Decision Theory - CS 7616. Georgia Tech.
  23. cmplx96 (https://stats.stackexchange.com/users/177679/cmplx96), Kullback–Leibler divergence, URL (version: 2017-11-18): https://stats.stackexchange.com/q/314472 (at the youtube video, look at minutes 13 to 25)
  24. Introduction to Statistical Inference | Stanford (Lecture 16 — MLE under model misspecification)
  25. Sycorax says Reinstate Monica (https://stats.stackexchange.com/users/22311/sycorax-says-reinstate-monica), the relationship between maximizing the likelihood and minimizing the cross-entropy, URL (version: 2019-11-06): https://stats.stackexchange.com/q/364237
  26. Fletcher, R. (1987). Practical Methods of Optimization (Second ed.). New York, NY: John Wiley & Sons. ISBN 0-471-91547-5.
  27. Nocedal, Jorge; Wright, Stephen J. (2006). Numerical Optimization (Second ed.). New York, NY: Springer. ISBN 0-387-30303-0.
  28. Daganzo, Carlos (1979). Multinomial Probit : The Theory and its Application to Demand Forecasting. New York: Academic Press. pp. 61–78. ISBN 0-12-201150-3.
  29. Gould, William; Pitblado, Jeffrey; Poi, Brian (2010). स्टाटा के साथ अधिकतम संभावना अनुमान (Fourth ed.). College Station: Stata Press. pp. 13–20. ISBN 978-1-59718-078-8.
  30. Murphy, Kevin P. (2012). Machine Learning: A Probabilistic Perspective. Cambridge: MIT Press. p. 247. ISBN 978-0-262-01802-9.
  31. Amemiya, Takeshi (1985). उन्नत अर्थमिति. Cambridge: Harvard University Press. pp. 137–138. ISBN 0-674-00560-0.
  32. Sargan, Denis (1988). "Methods of Numerical Optimization". उन्नत अर्थमिति सिद्धांत पर व्याख्यान नोट्स. Oxford: Basil Blackwell. pp. 161–169. ISBN 0-631-14956-2.
  33. See theorem 10.1 in Avriel, Mordecai (1976). Nonlinear Programming: Analysis and Methods. Englewood Cliffs, NJ: Prentice-Hall. pp. 293–294. ISBN 9780486432274.
  34. Gill, Philip E.; Murray, Walter; Wright, Margaret H. (1981). Practical Optimization. London, UK: Academic Press. pp. 312–313. ISBN 0-12-283950-1.
  35. Edgeworth, Francis Y. (Sep 1908). "On the probable errors of frequency-constants". Journal of the Royal Statistical Society. 71 (3): 499–512. doi:10.2307/2339293. JSTOR 2339293.
  36. Edgeworth, Francis Y. (Dec 1908). "On the probable errors of frequency-constants". Journal of the Royal Statistical Society. 71 (4): 651–678. doi:10.2307/2339378. JSTOR 2339378.
  37. Pfanzagl, Johann; Hamböker, R. (1994). Parametric Statistical Theory. Walter de Gruyter. pp. 207–208. ISBN 978-3-11-013863-4.
  38. Wilks, S.S. (1938). "मिश्रित परिकल्पनाओं के परीक्षण के लिए संभावना अनुपात का बड़ा-नमूना वितरण". Annals of Mathematical Statistics. 9: 60–62. doi:10.1214/aoms/1177732360.
  39. Owen, Art B. (2001). Empirical Likelihood. London, UK; Boca Raton, FL: Chapman & Hall; CRC Press. ISBN 978-1584880714.
  40. Wilks, Samuel S. (1962). Mathematical Statistics. New York, NY: John Wiley & Sons. ISBN 978-0471946502.
  41. Savage, Leonard J. (1976). "On rereading R.A. Fisher". The Annals of Statistics. 4 (3): 441–500. doi:10.1214/aos/1176343456. JSTOR 2958221.
  42. Pratt, John W. (1976). "F. Y. Edgeworth and R. A. Fisher on the efficiency of maximum likelihood estimation". The Annals of Statistics. 4 (3): 501–514. doi:10.1214/aos/1176343457. JSTOR 2958222.
  43. Stigler, Stephen M. (1978). "Francis Ysidro Edgeworth, statistician". Journal of the Royal Statistical Society, Series A. 141 (3): 287–322. doi:10.2307/2344804. JSTOR 2344804.
  44. Stigler, Stephen M. (1986). The history of statistics: the measurement of uncertainty before 1900. Harvard University Press. ISBN 978-0-674-40340-6.
  45. Stigler, Stephen M. (1999). Statistics on the table: the history of statistical concepts and methods. Harvard University Press. ISBN 978-0-674-83601-3.
  46. Hald, Anders (1998). A history of mathematical statistics from 1750 to 1930. New York, NY: Wiley. ISBN 978-0-471-17912-2.
  47. Hald, Anders (1999). "On the history of maximum likelihood in relation to inverse probability and least squares". Statistical Science. 14 (2): 214–222. doi:10.1214/ss/1009212248. JSTOR 2676741.
  48. Aldrich, John (1997). "R.A. Fisher and the making of maximum likelihood 1912–1922". Statistical Science. 12 (3): 162–176. doi:10.1214/ss/1030037906. MR 1617519.

अग्रिम पठन

बाहरी संबंध