प्रतिगमन विश्लेषण: Difference between revisions

From Vigyanwiki
(text)
No edit summary
 
(41 intermediate revisions by 4 users not shown)
Line 1: Line 1:
{{Short description}}
[[File:Normdist regression.png|thumb|right|200px|लाइन y = 1.5x+2 (दिखाया नहीं गया) के चारों ओर एक गाऊसी वितरण में 50 यादृच्छिक बिंदुओं के लिए प्रतिगमन लाइन।]]
[[File:Normdist regression.png|thumb|right|200px|लाइन y = 1.5x+2 (दिखाया नहीं गया) के चारों ओर एक गाऊसी वितरण में 50 यादृच्छिक बिंदुओं के लिए प्रतिगमन लाइन।]]
सांख्यिकीय मॉडलिंग में, प्रतिगमन विश्लेषण एक आश्रित चर (जिसे अक्सर 'परिणाम' या 'प्रतिक्रिया' चर, या मशीन सीखने की भाषा में 'लेबल' कहा जाता है) और एक या अधिक स्वतंत्र चर (जिन्हें अक्सर 'भविष्यवाणियां', 'सहसंयोजक', 'व्याख्यात्मक चर' या 'विशेषताएं' कहा जाता है) के बीच संबंधों का आकलन करने के लिए सांख्यिकीय प्रक्रियाओं का एक समूह है। प्रतिगमन विश्लेषण का सबसे सामान्य रूप रैखिक प्रतिगमन है, जिसमें एक रेखा (या अधिक जटिल रैखिक संयोजन) मिलती है जो एक विशिष्ट गणितीय मानदंड के अनुसार डेटा को सबसे करीब से फिट करती है। उदाहरण के लिए, साधारण न्यूनतम वर्गों की विधि अद्वितीय रेखा (या हाइपरप्लेन) की गणना करती है जो वास्तविक डेटा और उस रेखा (या हाइपरप्लेन) के बीच वर्ग अंतर के योग को कम करती है। विशिष्ट गणितीय कारणों के लिए (रैखिक प्रतिगमन देखें), यह शोधकर्ता को आश्रित चर की नियमबद्ध अपेक्षा (या जनसंख्या औसत मूल्य) का अनुमान लगाने की अनुमति देता है जब स्वतंत्र चर मूल्यों को सेट पर लेते हैं। प्रतिगमन के कम सामान्य रूप वैकल्पिक स्थान मापदंडों (जैसे, मात्रात्मक प्रतिगमन या आवश्यक स्थिति विश्लेषण [1]) का अनुमान लगाने के लिए थोड़ी अलग प्रक्रियाओं का उपयोग करते हैं या गैर-रेखीय मॉडल (जैसे, गैर-पैरामीट्रिक प्रतिगमन) के व्यापक संग्रह में नियमबद्ध अपेक्षा का अनुमान लगाते हैं।
सांख्यिकीय मॉडलिंग में, प्रतिगमन विश्लेषण एक आश्रित चर (जिसे अक्सर 'परिणाम' या 'प्रतिक्रिया' चर, या मशीन सीखने की भाषा में 'लेबल' कहा जाता है) और एक या अधिक स्वतंत्र चर (जिन्हें अक्सर 'भविष्यवाणियां', 'सहसंयोजक', 'व्याख्यात्मक चर' या 'विशेषताएं' कहा जाता है) के बीच संबंधों का आकलन करने के लिए सांख्यिकीय प्रक्रियाओं का एक समूह है। प्रतिगमन विश्लेषण का सबसे सामान्य रूप रैखिक प्रतिगमन है, जिसमें एक रेखा (या अधिक जटिल रैखिक संयोजन) को एक विशिष्ट गणितीय मानदंड के अनुसार डेटा को सबसे करीब से फिट करती है। उदाहरण के लिए, साधारण न्यूनतम वर्गों की प्रणाली अद्वितीय रेखा (या हाइपरप्लेन) की गणना करती है जो वास्तविक डेटा और उस रेखा (या हाइपरप्लेन) के बीच वर्ग अंतर के योग को कम करती है। विशिष्ट गणितीय कारणों के लिए ([https://en.wikipedia.org/wiki/Linear_regression रैखिक प्रतिगमन] देखें), यह शोधकर्ता को आश्रित चर की नियमबद्ध अपेक्षा (या जनसंख्या औसत मूल्य) का अनुमान लगाने की अनुमति देता है जब स्वतंत्र चर मूल्यों को सेट पर लेते हैं। प्रतिगमन के कम सामान्य रूप वैकल्पिक स्थान मापदंडों (जैसे, मात्रात्मक प्रतिगमन या आवश्यक स्थिति विश्लेषण [1]) का अनुमान लगाने के लिए थोड़ी अलग प्रक्रियाओं का उपयोग करते हैं या गैर-रेखीय मॉडल (जैसे, गैर-पैरामीट्रिक प्रतिगमन) के व्यापक संग्रह में नियमबद्ध अपेक्षा का अनुमान लगाते हैं।


प्रतिगमन विश्लेषण मुख्य रूप से दो वैचारिक रूप से अलग-अलग उद्देश्यों के लिए उपयोग किया जाता है।
प्रतिगमन विश्लेषण मुख्य रूप से दो वैचारिक रूप से अलग-अलग उद्देश्यों के लिए उपयोग किया जाता है।


सबसे पहले, प्रतिगमन विश्लेषण व्यापक रूप से भविष्यवाणी और पूर्वानुमान के लिए उपयोग किया जाता है, जहां इसके उपयोग का मशीन सीखने के क्षेत्र के साथ काफी हद तक अतिव्यापन है।
पहले, प्रतिगमन विश्लेषण व्यापक रूप से भविष्यवाणी और पूर्वानुमान के लिए उपयोग किया जाता है, जहां इसके उपयोग का मशीन सीखने के क्षेत्र के साथ काफी हद तक अतिव्यापन है।


दूसरा, कुछ स्थितियों में प्रतिगमन विश्लेषण का उपयोग स्वतंत्र और आश्रित चर के बीच कारण संबंधों का अनुमान लगाने के लिए किया जा सकता है। महत्वपूर्ण रूप से, प्रतिगमन स्वयं केवल एक आश्रित चर और एक निश्चित डेटासेट में स्वतंत्र चर के संग्रह के बीच संबंधों को प्रकट करता है। भविष्यवाणी के लिए प्रतिगमन का उपयोग करने के लिए या क्रमशः कारण संबंधों का अनुमान लगाने के लिए, एक शोधकर्ता को ध्यान से यह उचित ठहराना चाहिए कि मौजूदा रिश्तों में एक नए संदर्भ के लिए भविष्य कहनेवाला शक्ति क्यों है या दो चर के बीच संबंध में एक कारण व्याख्या क्यों है। उत्तरार्द्ध में विशेष रूप से महत्वपूर्ण है जब शोधकर्ता अवलोकन संबंधी डेटा का उपयोग करके कारण संबंधों का अनुमान लगाने की उम्मीद करते हैं।<ref name="Freedman2009">{{cite book|author=David A. Freedman|title=Statistical Models: Theory and Practice|url=https://books.google.com/books?id=fW_9BV5Wpf8C&q=%22regression+analysis%22|date=27 April 2009|publisher=Cambridge University Press|isbn=978-1-139-47731-4}}</ref><ref>आर। डेनिस कुक;सैनफोर्ड वीसबर्ग [https://www.jstor.org/stable/270724 आलोचना और प्रतिगमन में प्रभाव विश्लेषण], समाजशास्त्रीय कार्यप्रणाली, वॉल्यूम।13. (1982), पीपी। 313–361</ref>
दूसरे, कुछ स्थितियों में प्रतिगमन विश्लेषण का उपयोग स्वतंत्र और आश्रित चर के बीच कारण संबंधों का अनुमान लगाने के लिए किया जा सकता है। महत्वपूर्ण रूप से, प्रतिगमन स्वयं केवल एक आश्रित चर और एक निश्चित डेटासेट में स्वतंत्र चर के संग्रह के बीच संबंधों को प्रकट करता है। भविष्यवाणी के लिए प्रतिगमन का उपयोग करने के लिए या क्रमशः कारण संबंधों का अनुमान लगाने के लिए, एक शोधकर्ता को ध्यान से समायोजित करना चाहिए कि वर्तमान संबंध में नए संदर्भ या दो चर के बीच संबंध के लिए एक कारण स्पष्टीकरण क्यों है। उत्तरार्द्ध बहुत महत्वपूर्ण है जब शोधकर्ता अवलोकन संबंधी डेटा का उपयोग करके कारण संबंधों का अनुमान लगाने की अपेक्षा करते हैं।<ref name="Freedman2009">{{cite book|author=David A. Freedman|title=Statistical Models: Theory and Practice|url=https://books.google.com/books?id=fW_9BV5Wpf8C&q=%22regression+analysis%22|date=27 April 2009|publisher=Cambridge University Press|isbn=978-1-139-47731-4}}</ref><ref>आर। डेनिस कुक;सैनफोर्ड वीसबर्ग [https://www.jstor.org/stable/270724 आलोचना और प्रतिगमन में प्रभाव विश्लेषण], समाजशास्त्रीय कार्यप्रणाली, वॉल्यूम।13. (1982), पीपी। 313–361</ref>


== इतिहास ==
== इतिहास ==
प्रतिगमन का सबसे पहला रूप कम से कम वर्गों की विधि थी, जिसे 1805 में लीजेंड्रे द्वारा प्रकाशित किया गया था,<ref name="Legendre">एड्रियन-मैरी लीजेंड्रे | ए.एम.किंवदंती।[https://books.google.com/books?</ref>और 1809 में गॉस द्वारा।<ref name="Gauss">अध्याय 1: एग्रिस्ट, जे। डी।, और पिस्केके, जे.एस. (2008)।ज्यादातर हानिरहित अर्थमिति: एक अनुभववादी साथी।प्रिंसटन यूनिवर्सिटी प्रेस.</ref>लीजेंड्रे और गॉस दोनों ने खगोलीय अवलोकनों से, सूर्य के बारे में निकायों की कक्षाओं (ज्यादातर धूमकेतु, लेकिन बाद में तत्कालीन नए खोजे गए मामूली ग्रहों को भी निर्धारित करने की समस्या के लिए विधि लागू की।<!--लीजेंड्रे का पहला उदाहरण C/1769 P1 (मेसियर) पर लागू होता है -->)।गॉस ने 1821 में कम से कम वर्गों के सिद्धांत का एक और विकास प्रकाशित किया,<ref name="Gauss2">सी.एफ.गॉस।[Http://books.google.com/books? ।(1821/1823)</ref>गॉस -मार्मोव प्रमेय का एक संस्करण सहित।
प्रतिगमन का सबसे प्रारंभिक रूप न्यूनतम वर्गों की विधि थी, जिसे लेजेन्ड्रे ने 1805 में,<ref name="Legendre">एड्रियन-मैरी लीजेंड्रे | ए.एम.किंवदंती।[https://books.google.com/books?</ref>और गॉस ने 1809 में प्रकाशित किया था।<ref name="Gauss">अध्याय 1: एग्रिस्ट, जे। डी।, और पिस्केके, जे.एस. (2008)।ज्यादातर हानिरहित अर्थमिति: एक अनुभववादी साथी।प्रिंसटन यूनिवर्सिटी प्रेस.</ref>लीजेंड्रे और गॉस दोनों ने खगोलीय टिप्पणियों से सूर्य के बारे में पिंडों की कक्षाओं (ज्यादातर धूमकेतु, लेकिन बाद में तत्कालीन नए खोजे गए छोटे ग्रहों) को निर्धारित करने की समस्या के लिए विधि लागू की थी। गॉस ने 1821 में न्यूनतम वर्गों के सिद्धांत का एक और विकास प्रकाशित किया,<ref name="Gauss2">सी.एफ.गॉस।[Http://books.google.com/books? ।(1821/1823)</ref> जिसमें [https://en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem गॉस-मार्कोव प्रमेय] का एक संस्करण भी शामिल था।


एक जैविक घटना का वर्णन करने के लिए 19 वीं शताब्दी में फ्रांसिस गैल्टन द्वारा प्रतिगमन शब्द का गढ़ा गया था।घटना यह थी कि लम्बे पूर्वजों के वंशजों की ऊंचाइयों को एक सामान्य औसत की ओर फिर से प्राप्त करना है (एक घटना जिसे भी माध्य के प्रति प्रतिगमन के रूप में जाना जाता है)<ref>
"प्रतिगमन" शब्द 19वीं शताब्दी में फ्रांसिस गैल्टन द्वारा एक जैविक घटना का वर्णन करने के लिए गढ़ा गया था। घटना यह थी कि लंबे पूर्वजों के वंशजों की ऊंचाई सामान्य औसत (एक घटना जिसे माध्य की ओर प्रतिगमन के रूप में भी जाना जाता है) की ओर नीचे की ओर झुकती है।<ref>
{{cite book
{{cite book
   | last = Mogull
   | last = Mogull
Line 22: Line 20:
   | page = 59
   | page = 59
   | isbn = 978-0-7575-1181-3
   | isbn = 978-0-7575-1181-3
}}</ref><ref>{{cite journal | last=Galton | first=Francis | journal=Statistical Science | year=1989 | title=Kinship and Correlation (reprinted 1989) | volume=4 | jstor=2245330 | pages=80–86 | issue=2 | doi=10.1214/ss/1177012581| doi-access=free }}</ref>गैल्टन के लिए, प्रतिगमन का केवल यह जैविक अर्थ था,<ref>फ्रांसिस गैल्टन।आनुवंशिकता के विशिष्ट नियम, प्रकृति 15 (1877), 492-495, 512–514, 532-533।(गैल्टन इस पत्र में उलटफेर शब्द का उपयोग करता है, जो मटर के आकार पर चर्चा करता है।)</ref><ref>फ्रांसिस गैल्टन।राष्ट्रपति का पता, धारा एच, नृविज्ञान।(1885) (गैल्टन इस पत्र में प्रतिगमन शब्द का उपयोग करता है, जो मनुष्यों की ऊंचाई पर चर्चा करता है।)</ref>लेकिन उनके काम को बाद में उडनी यूल और कार्ल पियर्सन द्वारा अधिक सामान्य सांख्यिकीय संदर्भ में बढ़ाया गया।<ref>{{cite journal | doi=10.2307/2979746 | last=Yule | first=G. Udny | author-link=G. Udny Yule | title=On the Theory of Correlation | journal=Journal of the Royal Statistical Society | year= 1897 | pages=812&ndash;54 | jstor=2979746 | volume=60 | issue=4 | url=https://zenodo.org/record/1449703 }}</ref><ref>{{cite journal | doi=10.1093/biomet/2.2.211 | author-link=Karl Pearson | last=Pearson | first=Karl |author2=Yule, G.U. |author3=Blanchard, Norman |author4= Lee,Alice  | title=The Law of Ancestral Heredity | journal=[[Biometrika]] | year=1903 | jstor=2331683 | pages=211–236 | volume=2 | issue=2 | url=https://zenodo.org/record/1431601 }}</ref>यूल और पियर्सन के काम में, प्रतिक्रिया और व्याख्यात्मक चर के संयुक्त वितरण को गौसियन माना जाता है।यह धारणा रोनाल्ड ए। फिशर द्वारा कमजोर हो गई थी। R.A1922 और 1925 के अपने कार्यों में फिशर।<ref>{{cite journal | last=Fisher | first=R.A. | title=The goodness of fit of regression formulae, and the distribution of regression coefficients | journal=Journal of the Royal Statistical Society | volume=85 | pages=597–612 | year=1922 | doi=10.2307/2341124 | pmc=1084801 | jstor=2341124 | issue=4 }}</ref><ref name="FisherR1954Statistical">{{Cite book
}}</ref><ref>{{cite journal | last=Galton | first=Francis | journal=Statistical Science | year=1989 | title=Kinship and Correlation (reprinted 1989) | volume=4 | jstor=2245330 | pages=80–86 | issue=2 | doi=10.1214/ss/1177012581| doi-access=free }}</ref>गैल्टन के लिए, प्रतिगमन का केवल यही जैविक अर्थ था, <ref>फ्रांसिस गैल्टन।आनुवंशिकता के विशिष्ट नियम, प्रकृति 15 (1877), 492-495, 512–514, 532-533।(गैल्टन इस पत्र में उलटफेर शब्द का उपयोग करता है, जो मटर के आकार पर चर्चा करता है।)</ref><ref>फ्रांसिस गैल्टन।राष्ट्रपति का पता, धारा एच, नृविज्ञान।(1885) (गैल्टन इस पत्र में प्रतिगमन शब्द का उपयोग करता है, जो मनुष्यों की ऊंचाई पर चर्चा करता है।)</ref>लेकिन उनके काम को बाद में उडनी यूल और कार्ल पियर्सन ने एक अधिक सामान्य सांख्यिकीय संदर्भ में विस्तारित किया था।<ref>{{cite journal | doi=10.2307/2979746 | last=Yule | first=G. Udny | author-link=G. Udny Yule | title=On the Theory of Correlation | journal=Journal of the Royal Statistical Society | year= 1897 | pages=812&ndash;54 | jstor=2979746 | volume=60 | issue=4 | url=https://zenodo.org/record/1449703 }}</ref><ref>{{cite journal | doi=10.1093/biomet/2.2.211 | author-link=Karl Pearson | last=Pearson | first=Karl |author2=Yule, G.U. |author3=Blanchard, Norman |author4= Lee,Alice  | title=The Law of Ancestral Heredity | journal=[[Biometrika]] | year=1903 | jstor=2331683 | pages=211–236 | volume=2 | issue=2 | url=https://zenodo.org/record/1431601 }}</ref>यूल और पियर्सन के काम में, प्रतिक्रिया और व्याख्यात्मक चर के संयुक्त वितरण को गौसियन माना जाता है। यूल और पियर्सन के काम में, प्रतिक्रिया और व्याख्यात्मक चर के संयुक्त वितरण को गाऊसी माना जाता है। 1922 और 1925 के अपने कार्यों में आर.ए. फिशर द्वारा इस धारणा को कमजोर किया गया था।<ref>{{cite journal | last=Fisher | first=R.A. | title=The goodness of fit of regression formulae, and the distribution of regression coefficients | journal=Journal of the Royal Statistical Society | volume=85 | pages=597–612 | year=1922 | doi=10.2307/2341124 | pmc=1084801 | jstor=2341124 | issue=4 }}</ref><ref name="FisherR1954Statistical">{{Cite book
  | author = Ronald A. Fisher
  | author = Ronald A. Fisher
  | title = Statistical Methods for Research Workers
  | title = Statistical Methods for Research Workers
Line 33: Line 31:
  | author-link = Ronald A. Fisher
  | author-link = Ronald A. Fisher
  | url-access = registration
  | url-access = registration
  }}</ref><ref>{{cite journal | last=Aldrich | first=John | journal=Statistical Science | year=2005 | title=Fisher and Regression | volume=20 | issue=4 | pages=401&ndash;417 | jstor=20061201 | doi=10.1214/088342305000000331| doi-access=free }}</ref>फिशर ने माना कि प्रतिक्रिया चर का सशर्त वितरण गौसियन है, लेकिन संयुक्त वितरण की आवश्यकता नहीं है।इस संबंध में, फिशर की धारणा 1821 के गॉस के निर्माण के करीब है।
  }}</ref><ref>{{cite journal | last=Aldrich | first=John | journal=Statistical Science | year=2005 | title=Fisher and Regression | volume=20 | issue=4 | pages=401&ndash;417 | jstor=20061201 | doi=10.1214/088342305000000331| doi-access=free }}</ref>फिशर ने माना कि प्रतिक्रिया चर का सशर्त वितरण गाऊसी है, लेकिन संयुक्त वितरण की आवश्यकता नहीं है। इस संबंध में, फिशर की धारणा 1821 के गॉस के निर्माण के करीब है।
 
1950 और 1960 के दशक में, अर्थशास्त्रियों ने प्रतिगमन की गणना के लिए इलेक्ट्रोमैकेनिकल डेस्क "कैलकुलेटर" का इस्तेमाल किया। 1970 से पहले, एक प्रतिगमन से परिणाम प्राप्त करने में कभी-कभी 24 घंटे तक लग जाते थे।<ref>रॉडनी रामचरन।]</ref>
 
हाल के दशकों में, मजबूत प्रतिगमन के लिए नए तरीके विकसित किए गए हैं। प्रतिगमन जिसमें सहसंबद्ध प्रतिक्रियाएं शामिल हैं जैसे कि समय श्रृंखला और विकास वक्र, प्रतिगमन जिसमें भविष्यवक्ता (स्वतंत्र चर) या प्रतिक्रिया चर वक्र, चित्र, ग्राफ़ या अन्य जटिल डेटा ऑब्जेक्ट हैं, विभिन्न प्रकार के लापता डेटा को समायोजित करने वाली प्रतिगमन विधियां, गैर-पैरामीट्रिक प्रतिगमन, प्रतिगमन के लिए बायेसियन विधियां, प्रतिगमन विधियाँ एक प्रतिगमन में बनी रहती हैं जिसमें पूर्वसूचक चर को त्रुटि के साथ मापा जाता है, प्रतिगमन अवलोकनों की तुलना में अधिक भविष्यवक्ता चर के साथ, और प्रतिगमन के साथ अनुमान लगाया जाता है।
 
 
 
 
 
 
 
 
 


1950 और 1960 के दशक में, अर्थशास्त्रियों ने प्रतिगमन की गणना करने के लिए इलेक्ट्रोमैकेनिकल डेस्क कैलकुलेटर का उपयोग किया।1970 से पहले, एक प्रतिगमन से परिणाम प्राप्त करने में कभी -कभी 24 घंटे तक का समय लगा।<ref>रॉडनी रामचरन।]</ref>


प्रतिगमन विधियां सक्रिय अनुसंधान का एक क्षेत्र बनी हुई हैं।हाल के दशकों में, नए तरीकों को मजबूत प्रतिगमन के लिए विकसित किया गया है, प्रतिगमन को शामिल किया गया है, जिसमें समय श्रृंखला और विकास घटता, प्रतिगमन जैसे सहसंबद्ध प्रतिक्रियाएं शामिल हैं, जिसमें भविष्यवक्ता (स्वतंत्र चर) या प्रतिक्रिया चर घटता, चित्र, रेखांकन या अन्य जटिल डेटा ऑब्जेक्ट हैं,प्रतिगमन के तरीकों से विभिन्न प्रकार के लापता डेटा, नॉनपैमेट्रिक रिग्रेशन, प्रतिगमन के लिए बायेसियन तरीके, प्रतिगमन, प्रतिगमन के लिए पूर्वसूचक चर को त्रुटि के साथ मापा जाता है, टिप्पणियों की तुलना में अधिक भविष्यवक्ता चर के साथ प्रतिगमन, और प्रतिगमन के साथ कारण अनुमान।


== प्रतिगमन मॉडल ==
== प्रतिगमन मॉडल ==


व्यवहार में, शोधकर्ता पहले एक मॉडल का चयन करते हैं, जिसका वे अनुमान लगाना चाहते हैं और फिर उस मॉडल के मापदंडों का अनुमान लगाने के लिए अपनी चुनी हुई विधि (जैसे, साधारण कम से कम वर्गों) का उपयोग करते हैं।प्रतिगमन मॉडल में निम्नलिखित घटक शामिल हैं:
शोधकर्ता पहले एक मॉडल का चयन करते हैं फिर उस मॉडल के मापदंडों का अनुमान लगाने के लिए अपनी चुनी हुई विधि (जैसे, साधारण न्यूनतम वर्ग) का उपयोग करते हैं। प्रतिगमन मॉडल में निम्नलिखित घटक शामिल हैं,
*अज्ञात पैरामीटर, अक्सर एक स्केलर या वेक्टर के रूप में निरूपित किया जाता है <math>\beta</math>
*अज्ञात पैरामीटर, जिसे अक्सर एक अदिश (scalar) या वेक्टर <math>\beta</math> के रूप में दर्शाया जाता है।
*स्वतंत्र चर, जो डेटा में देखे जाते हैं और अक्सर एक वेक्टर के रूप में निरूपित किए जाते हैं <math>X_i</math> (कहाँ पे <math>i</math> डेटा की एक पंक्ति को दर्शाता है)।
*स्वतंत्र चर, जो डेटा में देखे जाते हैं और अक्सर एक वेक्टर <math>X_i</math> के रूप में दर्शाए जाते हैं (जहां <math>i</math> डेटा की एक पंक्ति को दर्शाता है)।
*आश्रित चर, जो डेटा में देखे जाते हैं और अक्सर स्केलर का उपयोग करके निरूपित किए जाते हैं <math>Y_i</math>
*आश्रित चर, जो डेटा में देखे जाते हैं और अक्सर अदिश <math>Y_i</math> का उपयोग करके दर्शाए जाते है।
*त्रुटि शब्द, जो '' नहीं '' सीधे डेटा में देखे गए हैं और अक्सर स्केलर का उपयोग करके निरूपित किए जाते हैं <math>e_i</math>
*त्रुटि शब्द, जो सीधे डेटा में नहीं देखे जाते हैं और अक्सर अदिश <math>e_i</math> का उपयोग करके दर्शाए जाते हैं।


आवेदन के विभिन्न क्षेत्रों में, विभिन्न शब्दावली का उपयोग आश्रित और स्वतंत्र चर के स्थान पर किया जाता है।
अनुप्रयोग के विभिन्न क्षेत्रों में परतंत्र और स्वतंत्र चर के स्थान पर विभिन्न शब्दावली का उपयोग किया जाता है।


अधिकांश प्रतिगमन मॉडल का प्रस्ताव है कि <math>Y_i</math> का एक कार्य है <math>X_i</math> तथा <math> \beta</math>, साथ <math>e_i</math> एक additive त्रुटि शब्द का प्रतिनिधित्व करना जो अन-मॉडल के लिए खड़े हो सकता है <math>Y_i</math> या यादृच्छिक सांख्यिकीय शोर:
अधिकांश प्रतिगमन मॉडल का प्रस्ताव है कि <math>Y_i</math> का एक कार्य है <math>X_i</math> तथा <math> \beta</math>, जिसमें <math>e_i</math> एक योगात्मक त्रुटि शब्द का प्रतिनिधित्व करता है जो <math>Y_i</math> या यादृच्छिक सांख्यिकीय शोर के गैर-मॉडल निर्धारकों के लिए खड़ा हो सकता है,


:<math>Y_i = f (X_i, \beta) + e_i</math>
:<math>Y_i = f (X_i, \beta) + e_i</math>
शोधकर्ताओं का लक्ष्य फ़ंक्शन का अनुमान लगाना है <math>f(X_i,  \beta)</math> यह सबसे बारीकी से डेटा फिट बैठता है।प्रतिगमन विश्लेषण करने के लिए, फ़ंक्शन का रूप <math>f</math> निर्दिष्ट किया जाना चाहिए।कभी -कभी इस फ़ंक्शन का रूप के बीच संबंध के बारे में ज्ञान पर आधारित होता है <math>Y_i</math> तथा <math>X_i</math> यह डेटा पर भरोसा नहीं करता है।यदि ऐसा कोई ज्ञान उपलब्ध नहीं है, तो एक लचीला या सुविधाजनक रूप <math>f</math> चुना जाता है।उदाहरण के लिए, एक साधारण अविभाज्य प्रतिगमन प्रस्तावित हो सकता है <math>f(X_i, \beta) = \beta_0 + \beta_1 X_i</math>, यह सुझाव देते हुए कि शोधकर्ता का मानना है <math>Y_i = \beta_0 + \beta_1 X_i + e_i</math> डेटा उत्पन्न करने वाली सांख्यिकीय प्रक्रिया के लिए एक उचित सन्निकटन होना।
शोधकर्ताओं का लक्ष्य कार्य का अनुमान लगाना है <math>f(X_i,  \beta)</math> जो डेटा के सबसे करीब से फिट बैठता है। प्रतिगमन विश्लेषण करने के लिए, फ़ंक्शन का रूप <math>f</math> निर्दिष्ट किया जाना चाहिए। कभी-कभी इस फलन का रूप के बीच संबंध के बारे में ज्ञान पर आधारित होता है <math>Y_i</math> तथा <math>X_i</math> जो डेटा पर निर्भर नहीं है। यदि ऐसा कोई ज्ञान उपलब्ध नहीं है, तो <math>f</math> चुना जाता है। उदाहरण के लिए, एक साधारण अविभाज्य प्रतिगमन प्रस्तावित कर सकता है <math>f(X_i, \beta) = \beta_0 + \beta_1 X_i</math> यह सुझाव देते हुए कि शोधकर्ता का मानना ​​है <math>Y_i = \beta_0 + \beta_1 X_i + e_i</math> डेटा उत्पन्न करने वाली सांख्यिकीय प्रक्रिया के लिए एक उचित सन्निकटन होना चाहिए।


एक बार शोधकर्ता अपने पसंदीदा सांख्यिकीय मॉडल का निर्धारण करते हैं, प्रतिगमन विश्लेषण के विभिन्न रूप मापदंडों का अनुमान लगाने के लिए उपकरण प्रदान करते हैं <math>\beta </math>।उदाहरण के लिए, कम से कम वर्गों (इसके सबसे सामान्य संस्करण सहित, साधारण कम से कम वर्गों) का मूल्य पाता है <math>\beta </math> यह चुकता त्रुटियों के योग को कम करता है <math>\sum_i (Y_i - f(X_i, \beta))^2</math>।एक दिया गया प्रतिगमन विधि अंततः एक अनुमान प्रदान करेगी <math>\beta</math>, आमतौर पर निरूपित <math>\hat{\beta}</math> डेटा उत्पन्न करने वाले सच्चे (अज्ञात) पैरामीटर मान से अनुमान को अलग करने के लिए।इस अनुमान का उपयोग करते हुए, शोधकर्ता तब फिट किए गए मूल्य का उपयोग कर सकते हैं <math>\hat{Y_i} = f(X_i,\hat{\beta})</math> भविष्यवाणी के लिए या डेटा को समझाने में मॉडल की सटीकता का आकलन करने के लिए।क्या शोधकर्ता आंतरिक रूप से अनुमान में रुचि रखता है <math>\hat{\beta}</math> या अनुमानित मूल्य <math>\hat{Y_i}</math> संदर्भ और उनके लक्ष्यों पर निर्भर करेगा।जैसा कि साधारण कम से कम वर्गों में वर्णित है, कम से कम वर्गों का व्यापक रूप से उपयोग किया जाता है क्योंकि अनुमानित फ़ंक्शन <math>f(X_i, \hat{\beta})</math> सशर्त अपेक्षा का अनुमान लगाता है <math>E(Y_i|X_i)</math>.<ref name="Gauss" />हालांकि, वैकल्पिक वेरिएंट (जैसे, कम से कम निरपेक्ष विचलन या मात्रात्मक प्रतिगमन) उपयोगी होते हैं जब शोधकर्ता अन्य कार्यों को मॉडल करना चाहते हैं <math>f(X_i,\beta)</math>।
एक बार जब शोधकर्ता अपने पसंदीदा सांख्यिकीय मॉडल का निर्धारण कर लेते हैं, तो प्रतिगमन विश्लेषण के विभिन्न रूप मापदंडों <math>\beta </math> का अनुमान लगाने के लिए उपकरण प्रदान करते है। उदाहरण के लिए, न्यूनतम वर्ग (इसके सबसे सामान्य प्रकार, साधारण कम से कम वर्ग सहित) का मान पाता है <math>\beta </math> यह चुकता त्रुटियों के योग को कम करता है <math>\sum_i (Y_i - f(X_i, \beta))^2</math>। एक दी गई प्रतिगमन विधि अंततः एक अनुमान प्रदान करेगी <math>\beta</math>, आमतौर पर निरूपित <math>\hat{\beta}</math> डेटा को जनरेट करने वाले सही (अज्ञात) पैरामीटर मान से अनुमान को अलग करने के लिए करते है।  इस अनुमान का उपयोग करते हुए, शोधकर्ता तब फिट किए गए मूल्य का उपयोग कर सकता है <math>\hat{Y_i} = f(X_i,\hat{\beta})</math> भविष्यवाणी के लिए या डेटा की व्याख्या करने में मॉडल की सटीकता का आकलन करने के लिए कर सकता है। क्या शोधकर्ता आंतरिक रूप से अनुमान में रुचि रखता है <math>\hat{\beta}</math> या अनुमानित मूल्य <math>\hat{Y_i}</math> संदर्भ और उनके लक्ष्यों पर निर्भर करेगा। जैसा कि साधारण कम से कम वर्गों में वर्णित है, न्यूनतम वर्गों का व्यापक रूप से उपयोग किया जाता है क्योंकि अनुमानित फ़ंक्शन <math>f(X_i, \hat{\beta})</math> सशर्त अपेक्षा का अनुमान लगाता है <math>E(Y_i|X_i)</math><ref name="Gauss" /> हालांकि, वैकल्पिक वेरिएंट (जैसे,न्यूनतम निरपेक्ष विचलन या मात्रात्मक प्रतिगमन) उपयोगी होते हैं जब शोधकर्ता अन्य कार्यों को मॉडल करना चाहते हैं <math>f(X_i,\beta)</math>।


यह ध्यान रखना महत्वपूर्ण है कि एक प्रतिगमन मॉडल का अनुमान लगाने के लिए पर्याप्त डेटा होना चाहिए।उदाहरण के लिए, मान लीजिए कि एक शोधकर्ता के पास पहुंच है <math>N</math> एक आश्रित और दो स्वतंत्र चर के साथ डेटा की पंक्तियाँ: <math>(Y_i, X_{1i}, X_{2i})</math>।आगे मान लीजिए कि शोधकर्ता कम से कम वर्गों के माध्यम से एक द्विभाजित रैखिक मॉडल का अनुमान लगाना चाहता है: <math>Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + e_i</math>।यदि शोधकर्ता के पास केवल पहुंच है <math>N=2</math> डेटा पॉइंट, तब वे असीम रूप से कई संयोजन पा सकते थे <math>(\hat{\beta}_0, \hat{\beta}_1, \hat{\beta}_2)</math> यह डेटा को समान रूप से अच्छी तरह से समझाता है: किसी भी संयोजन को चुना जा सकता है जो संतुष्ट करता है <math>\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_{1i} + \hat{\beta}_2 X_{2i}</math>, जिनमें से सभी का नेतृत्व करते हैं <math>\sum_i \hat{e}_i^2 = \sum_i (\hat{Y}_i - (\hat{\beta}_0 + \hat{\beta}_1 X_{1i} + \hat{\beta}_2 X_{2i}))^2 = 0</math> और इसलिए वैध समाधान हैं जो वर्ग अवशिष्टों के योग को कम करते हैं।यह समझने के लिए कि असीम रूप से कई विकल्प क्यों हैं, ध्यान दें कि सिस्टम <math>N=2</math> समीकरणों को 3 अज्ञात के लिए हल किया जाना है, जो सिस्टम को कम करके आंका जाता है।वैकल्पिक रूप से, कोई भी असीम रूप से कई 3-आयामी विमानों की कल्पना कर सकता है जो गुजरते हैं <math>N=2</math> फिक्स्ड पॉइंट्स।
यह ध्यान रखना महत्वपूर्ण है कि एक प्रतिगमन मॉडल का अनुमान लगाने के लिए पर्याप्त डेटा होना चाहिए। उदाहरण के लिए, मान लीजिए कि एक शोधकर्ता के पास पहुंच है <math>N</math> एक आश्रित और दो स्वतंत्र चर के साथ डेटा की पंक्तियाँ: <math>(Y_i, X_{1i}, X_{2i})</math>मान लीजिए कि शोधकर्ता कम से कम वर्गों के माध्यम से एक द्विभाजित रैखिक मॉडल का अनुमान लगाना चाहता है: <math>Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + e_i</math>। यदि शोधकर्ता के पास केवल पहुंच है <math>N=2</math> डेटा पॉइंट, तब वे असीम रूप से कई संयोजन पा सकते थे। <math>(\hat{\beta}_0, \hat{\beta}_1, \hat{\beta}_2)</math> यह डेटा को समान रूप से अच्छी तरह से समझाता है, किसी भी संयोजन को चुना जा सकता है जो संतुष्ट करता है <math>\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_{1i} + \hat{\beta}_2 X_{2i}</math>जिनमें से सभी का नेतृत्व करते हैं <math>\sum_i \hat{e}_i^2 = \sum_i (\hat{Y}_i - (\hat{\beta}_0 + \hat{\beta}_1 X_{1i} + \hat{\beta}_2 X_{2i}))^2 = 0</math> और इसलिए वैध समाधान हैं जो वर्ग अवशिष्टों के योग को कम करते हैं। यह समझने के लिए कि अपरिमित रूप से अनेक विकल्प क्यों हैं, ध्यान दें कि की प्रणाली <math>N=2</math> समीकरणों को 3 अज्ञात के लिए हल किया जाना है, जो सिस्टम को कम निर्धारित करता है। वैकल्पिक रूप से, कोई भी असीम रूप से कई 3-आयामी विमानों की कल्पना कर सकता है जो <math>N=2</math> फिक्स्ड पॉइंट्स से गुजरते हैं।


अधिक आम तौर पर, कम से कम वर्गों के मॉडल का अनुमान लगाने के लिए <math>k</math> अलग पैरामीटर, एक होना चाहिए <math>N \geq k</math> अलग डेटा बिंदु।यदि <math>N > k</math>, तो आम तौर पर मापदंडों का एक सेट मौजूद नहीं होता है जो डेटा को पूरी तरह से फिट करेगा।मात्रा <math>k-N</math> प्रतिगमन विश्लेषण में अक्सर दिखाई देता है, और मॉडल में स्वतंत्रता की डिग्री के रूप में संदर्भित किया जाता है।इसके अलावा, कम से कम वर्गों के मॉडल का अनुमान लगाने के लिए, स्वतंत्र चर <math>(X_{1i}, X_{2i}, ..., X_{ki})</math> रैखिक रूप से स्वतंत्र होना चाहिए: शेष स्वतंत्र चर को जोड़कर और गुणा करके किसी भी स्वतंत्र चर को फिर से संगठित करने में सक्षम नहीं होना चाहिए।जैसा कि साधारण कम से कम वर्गों में चर्चा की गई है, यह स्थिति यह सुनिश्चित करती है कि <math>X^{T}X</math> एक उल्टे मैट्रिक्स है और इसलिए एक अद्वितीय समाधान है <math>\hat{\beta}</math> मौजूद।
अधिक आम तौर पर, न्यूनतम वर्गों के मॉडल का अनुमान लगाने के लिए <math>k</math> अलग पैरामीटर पर, और एक अलग <math>N > k</math> अलग डेटा बिंदु होना चाहिए। यदि <math>N > k</math> तो आम तौर पर ऐसे मापदंडों का एक सेट मौजूद नहीं होता है जो डेटा को पूरी तरह से फिट करेंगे। मात्रा <math>k-N</math> प्रतिगमन विश्लेषण में अक्सर प्रकट होता है, और इसे मॉडल में स्वतंत्रता की डिग्री के रूप में संदर्भित किया जाता है। इसके अलावा, कम से कम वर्ग मॉडल का अनुमान लगाने के लिए, स्वतंत्र चर <math>(X_{1i}, X_{2i}, ..., X_{ki})</math> रैखिक रूप से स्वतंत्र होना चाहिए: शेष स्वतंत्र चर को जोड़कर और गुणा करके किसी भी स्वतंत्र चर को फिर से संगठित करने में सक्षम नहीं होना चाहिए। जैसा कि साधारण कम से कम वर्गों में चर्चा की गई है,जैसा कि साधारण न्यूनतम वर्गों में चर्चा की गई है, यह शर्त सुनिश्चित करती है कि यह <math>X^{T}X</math> एक उल्टे मैट्रिक्स है और  एक उलटा मैट्रिक्स है और इसलिए यह एक अनूठा मौजूद समाधान है, <math>\hat{\beta}</math>


== अंतर्निहित धारणाएँ ==
== अंतर्निहित धारणाएँ ==
{{refimprovesection|date=December 2020}}
अपने आप में, एक प्रतिगमन डेटा का उपयोग करके केवल एक गणना है। वास्तविक दुनिया के संबंधों को मापने वाली एक सार्थक सांख्यिकीय मात्रा के रूप में प्रतिगमन के उत्पादन की व्याख्या करने के लिए, शोधकर्ता अक्सर कई शास्त्रीय मान्यताओं पर भरोसा करते हैं। इन धारणाओं में अक्सर शामिल होते हैं:
अपने आप में, एक प्रतिगमन डेटा का उपयोग करके केवल एक गणना है।वास्तविक दुनिया के संबंधों को मापने वाली एक सार्थक सांख्यिकीय मात्रा के रूप में प्रतिगमन के उत्पादन की व्याख्या करने के लिए, शोधकर्ता अक्सर कई शास्त्रीय मान्यताओं पर भरोसा करते हैं।इन धारणाओं में अक्सर शामिल होते हैं:


*नमूना बड़े पैमाने पर आबादी का प्रतिनिधि है।
*नमूना बड़े पैमाने पर आबादी का प्रतिनिधि है।
*स्वतंत्र चर को बिना किसी त्रुटि के मापा जाता है।
*स्वतंत्र चर को बिना किसी त्रुटि के मापा जाता है।
*मॉडल से विचलन में शून्य का अपेक्षित मूल्य है, कोवरिएट्स पर सशर्त: <math>E(e_i | X_i) = 0</math>
*मॉडल से विचलन का अपेक्षित मान शून्य है, सहसंयोजकों पर सशर्त, <math>E(e_i | X_i) = 0</math>
*अवशिष्टों का विचरण <math>e_i</math> अवलोकन (समरूपता) में निरंतर है।
*अवशिष्टों का प्रसरण <math>e_i</math> अवलोकन (समरूपता) में निरंतर है।
* अवशिष्ट <math>e_i</math> एक दूसरे के साथ असंबंधित हैं।गणितीय रूप से, त्रुटियों का विचरण -covariance मैट्रिक्स विकर्ण है।
* अवशिष्ट <math>e_i</math> एक दूसरे से असंबंधित हैं। गणितीय रूप से, त्रुटियों का प्रसरण-सहप्रसरण मैट्रिक्स विकर्ण है।


वांछनीय गुणों के अधिकारी होने के लिए कम से कम-वर्ग अनुमानक के लिए कुछ मुट्ठी भर स्थितियां पर्याप्त हैं: विशेष रूप से, गॉस-मार्मोव प्रमेय | गॉस-मेमार्कोव धारणाएं इसका मतलब है कि पैरामीटर अनुमान रैखिक निष्पक्ष अनुमानकों के वर्ग में निष्पक्ष, सुसंगत और कुशल होंगे।।प्रैक्टिशनर्स ने वास्तविक दुनिया की सेटिंग्स में इन सभी वांछनीय गुणों को बनाए रखने के लिए कई तरह के तरीके विकसित किए हैं, क्योंकि इन शास्त्रीय धारणाओं को वास्तव में रखने की संभावना नहीं है।उदाहरण के लिए, मॉडलिंग त्रुटियों-इन-वेरिएबल्स मॉडल | त्रुटियों-इन-वैरिएबल्स को उचित अनुमान हो सकता है कि स्वतंत्र चर त्रुटियों के साथ मापा जाता है।हेटेरोसेडैस्टिसिटी-संगत मानक त्रुटियां के विचरण की अनुमति देते हैं <math>e_i</math> के मूल्यों को बदलने के लिए <math>X_i</math>।सहसंबद्ध त्रुटियां जो डेटा के सबसेट के भीतर मौजूद हैं या विशिष्ट पैटर्न का पालन करती हैं, उन्हें अन्य तकनीकों के बीच क्लस्टर मानक त्रुटियों, भौगोलिक भारित प्रतिगमन, या NEWEY -WEST अनुमानक | Newey -West मानक त्रुटियों का उपयोग करके संभाला जा सकता है।जब डेटा की पंक्तियाँ अंतरिक्ष में स्थानों के अनुरूप होती हैं, तो मॉडल कैसे करें <math>e_i</math> भौगोलिक इकाइयों के भीतर महत्वपूर्ण परिणाम हो सकते हैं।<ref>{{cite book|title=Geographically weighted regression: the analysis of spatially varying relationships|last1=Fotheringham|first1=A. Stewart|last2=Brunsdon|first2=Chris|last3=Charlton|first3=Martin|publisher=John Wiley|year=2002|isbn=978-0-471-49616-8|edition=Reprint|location=Chichester, England}}</ref><ref>{{cite journal|last=Fotheringham|first=AS|author2=Wong, DWS|date=1 January 1991|title=The modifiable areal unit problem in multivariate statistical analysis|journal=Environment and Planning A|volume=23|issue=7|pages=1025–1044|doi=10.1068/a231025|s2cid=153979055}}</ref>इकोनोमेट्रिक्स का उपक्षेत्र काफी हद तक विकासशील तकनीकों पर केंद्रित है जो शोधकर्ताओं को वास्तविक दुनिया की सेटिंग्स में उचित वास्तविक दुनिया के निष्कर्ष बनाने की अनुमति देते हैं, जहां शास्त्रीय धारणाएं बिल्कुल नहीं रहती हैं।
कम से कम वर्ग अनुमानक के लिए वांछनीय गुण रखने के लिए कुछ हद तक स्थितियां पर्याप्त हैं: विशेष रूप से, गॉस-मार्कोव मान्यताओं का अर्थ है कि पैरामीटर अनुमान निष्पक्ष, सुसंगत और रैखिक निष्पक्ष अनुमानकों के वर्ग में कुशल होंगे। व्यवसायी ने वास्तविक दुनिया की सेटिंग में इनमें से कुछ या सभी वांछनीय गुणों को बनाए रखने के लिए कई तरह के तरीके विकसित किए हैं, क्योंकि इन शास्त्रीय मान्यताओं के सटीक रूप से धारण करने की संभावना नहीं है। उदाहरण के लिए, मॉडलिंग त्रुटियों-इन-वेरिएबल से उचित अनुमान लगा सकते हैं स्वतंत्र चर को त्रुटियों से माप सकते है। विषमलैंगिकता-संगत मानक त्रुटियां के विचरण की अनुमति देती है <math>e_i</math> के मूल्यों को बदलने के लिए <math>X_i</math>। सहसंबद्ध त्रुटियां जो डेटा के सबसेट के भीतर मौजूद हैं या विशिष्ट पैटर्न का पालन करती हैं, उन्हें अन्य तकनीकों के साथ क्लस्टर मानक त्रुटियों, भौगोलिक भारित प्रतिगमन, या न्यूए-वेस्ट मानक त्रुटियों का उपयोग करके नियंत्रित किया जा सकता है। जब डेटा की पंक्तियाँ अंतरिक्ष में स्थानों के अनुरूप हों, तो मॉडल का चुनाव कैसे करें<math>e_i</math> भौगोलिक इकाइयों के महत्वपूर्ण परिणाम हो सकते हैं।<ref>{{cite book|title=Geographically weighted regression: the analysis of spatially varying relationships|last1=Fotheringham|first1=A. Stewart|last2=Brunsdon|first2=Chris|last3=Charlton|first3=Martin|publisher=John Wiley|year=2002|isbn=978-0-471-49616-8|edition=Reprint|location=Chichester, England}}</ref> अर्थमिति का उपक्षेत्र काफी हद तक विकासशील तकनीकों पर केंद्रित है जो शोधकर्ताओं को वास्तविक दुनिया की सेटिंग में उचित वास्तविक दुनिया के निष्कर्ष निकालने की अनुमति देता है, जहां शास्त्रीय धारणाएं बिल्कुल सही नहीं होती हैं।


== रैखिक प्रतिगमन ==
== रैखिक प्रतिगमन ==
{{Main|Linear regression}}
रैखिक प्रतिगमन में, मॉडल विनिर्देश यह है कि आश्रित चर, <math> y_i </math> मापदंडों का एक रैखिक संयोजन है (लेकिन स्वतंत्र चर में रैखिक होने की आवश्यकता नहीं है)। उदाहरण के लिए, मॉडलिंग <math> n </math> डेटा बिंदुओं के लिए सरल रेखीय प्रतिगमन में एक स्वतंत्र चर होता है: <math> x_i </math>, और दो पैरामीटर, <math>\beta_0</math> तथा <math>\beta_1</math>:
{{Hatnote|See [[simple linear regression]] for a derivation of these formulas and a numerical example}}
रैखिक प्रतिगमन में, मॉडल विनिर्देश यह है कि आश्रित चर, <math> y_i </math> मापदंडों का एक रैखिक संयोजन है (लेकिन स्वतंत्र चर में रैखिक होने की आवश्यकता नहीं है)।उदाहरण के लिए, मॉडलिंग के लिए सरल रैखिक प्रतिगमन में <math> n </math> डेटा बिंदु एक स्वतंत्र चर है: <math> x_i </math>, और दो पैरामीटर, <math>\beta_0</math> तथा <math>\beta_1</math>:


:सीधी रेखा: <math>y_i=\beta_0 +\beta_1 x_i +\varepsilon_i,\quad i=1,\dots,n.\!</math>
:सीधी रेखा: <math>y_i=\beta_0 +\beta_1 x_i +\varepsilon_i,\quad i=1,\dots,n.\!</math>
कई रैखिक प्रतिगमन में, स्वतंत्र चर के कई स्वतंत्र चर या कार्य हैं।
बहु रेखीय प्रतिगमन में, कई स्वतंत्र चर या स्वतंत्र चर के कार्य होते हैं।
 
पिछले प्रतिगमन में <math>x_i^2</math> में एक पद जोड़ने पर यह मिलता है:


में एक शब्द जोड़ना <math>x_i^2</math> पूर्ववर्ती प्रतिगमन देता है:
: अनुवृत्त (parabola): <math>y_i=\beta_0 +\beta_1 x_i +\beta_2 x_i^2+\varepsilon_i,\ i=1,\dots,n.\!</math>
यह अभी भी रैखिक प्रतिगमन है, हालांकि दायीं ओर का व्यंजक स्वतंत्र चर <math>x_i</math> में द्विघात है, यह पैरामीटर  <math>\beta_0</math>, <math>\beta_1</math> तथा <math>\beta_2</math> में रैखिक है।


: परबोला: <math>y_i=\beta_0 +\beta_1 x_i +\beta_2 x_i^2+\varepsilon_i,\ i=1,\dots,n.\!</math>
दोनों ही मामलों में, <math>\varepsilon_i</math> एक त्रुटि शब्द है और सबस्क्रिप्ट <math>i</math> एक विशेष अवलोकन को अनुक्रमित करता है।
यह अभी भी रैखिक प्रतिगमन है;हालांकि दाहिने हाथ की ओर की अभिव्यक्ति स्वतंत्र चर में द्विघात है <math>x_i</math>, यह मापदंडों में रैखिक है <math>\beta_0</math>, <math>\beta_1</math> तथा <math>\beta_2.</math>
दोनों ही मामलों में, <math>\varepsilon_i</math> एक त्रुटि शब्द और सबस्क्रिप्ट है <math>i</math> एक विशेष अवलोकन को अनुक्रमित करता है।


सीधी रेखा के मामले में अपना ध्यान आकर्षित करते हुए: आबादी से एक यादृच्छिक नमूना देखते हुए, हम जनसंख्या मापदंडों का अनुमान लगाते हैं और नमूना रैखिक प्रतिगमन मॉडल प्राप्त करते हैं:
सीधी रेखा के मामले पर ध्यान देते है, जनसंख्या से एक यादृच्छिक नमूने को देखते हुए, हम जनसंख्या मापदंडों का अनुमान लगाते हैं और नमूना रैखिक प्रतिगमन मॉडल प्राप्त करते हैं,


: <math> \widehat{y}_i = \widehat{\beta}_0 + \widehat{\beta}_1 x_i. </math>
: <math> \widehat{y}_i = \widehat{\beta}_0 + \widehat{\beta}_1 x_i. </math>
अवशिष्ट, <math> e_i = y_i - \widehat{y}_i </math>, मॉडल द्वारा अनुमानित आश्रित चर के मूल्य के बीच का अंतर है, <math> \widehat{y}_i</math>, और आश्रित चर का सही मूल्य, <math>y_i</math>।अनुमान की एक विधि साधारण कम से कम वर्ग हैं।यह विधि पैरामीटर अनुमान प्राप्त करती है जो वर्ग अवशिष्टों के योग को कम करती है, SSR:
अवशिष्ट, <math> e_i = y_i - \widehat{y}_i </math>, मॉडल द्वारा अनुमानित आश्रित चर के मूल्य के बीच का अंतर है, <math> \widehat{y}_i</math>, और सही मान आश्रित चर का, <math>y_i</math>है। आकलन की एक विधि साधारण न्यूनतम वर्ग है। यह विधि पैरामीटर अनुमान प्राप्त करती है जो चुकता अवशिष्टों के योग को कम करती है,


:<math>SSR=\sum_{i=1}^n e_i^2. \, </math>
:<math>SSR=\sum_{i=1}^n e_i^2. \, </math>
इस फ़ंक्शन के न्यूनतमकरण के परिणामस्वरूप सामान्य समीकरणों का एक सेट होता है, मापदंडों में एक साथ रैखिक समीकरणों का एक सेट, जो पैरामीटर अनुमानक प्राप्त करने के लिए हल किया जाता है, <math>\widehat{\beta}_0, \widehat{\beta}_1</math>।
इस फ़ंक्शन के न्यूनीकरण के परिणामस्वरूप सामान्य समीकरणों का एक सेट होता है, मापदंडों में एक साथ रैखिक समीकरणों का एक सेट, जो पैरामीटर अनुमानक उत्पन्न करने के लिए हल किया जाता है, <math>\widehat{\beta}_0, \widehat{\beta}_1</math>।


[[Image:Linear regression.svg|thumb|upright=1.3|डेटा सेट पर रैखिक प्रतिगमन का चित्रण।]]
[[Image:Linear regression.svg|thumb|upright=1.3|डेटा सेट पर रैखिक प्रतिगमन का चित्रण।]]
सरल प्रतिगमन के मामले में, कम से कम वर्गों के अनुमानों के लिए सूत्र हैं
सरल प्रतिगमन के मामले में, न्यूनतम वर्ग अनुमान के सूत्र हैं


:<math>\widehat{\beta}_1=\frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}</math>
:<math>\widehat{\beta}_1=\frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}</math>
:<math>\widehat{\beta}_0=\bar{y}-\widehat{\beta}_1\bar{x}</math>
:<math>\widehat{\beta}_0=\bar{y}-\widehat{\beta}_1\bar{x}</math>
कहाँ पे <math>\bar{x}</math> का माध्य (औसत) है <math>x</math> मान और <math>\bar{y}</math> का मतलब है <math>y</math> मान।
जहां पे <math>\bar{x}</math> मानों और  <math>x</math> का माध्य (औसत) है <math>\bar{y}</math> का मतलब है <math>y</math> मानों का माध्य है।


इस धारणा के तहत कि जनसंख्या त्रुटि शब्द में एक निरंतर विचरण होता है, उस विचरण का अनुमान द्वारा दिया जाता है:
इस धारणा के तहत कि जनसंख्या त्रुटि शब्द में निरंतर भिन्नता है, उस भिन्नता का अनुमान इस प्रकार दिया जाता है,


: <math> \hat{\sigma}^2_\varepsilon = \frac{SSR}{n-2}.\,</math>
: <math> \hat{\sigma}^2_\varepsilon = \frac{SSR}{n-2}.\,</math>
इसे प्रतिगमन का माध्य वर्ग त्रुटि (एमएसई) कहा जाता है।हर एक ही डेटा से अनुमानित मॉडल मापदंडों की संख्या से कम नमूना आकार है, <math>(n-p)</math> के लिये <math>p</math> regressors या <math>(n-p-1)</math> यदि एक अवरोधन का उपयोग किया जाता है।<ref>स्टील, R.G.D, और Torrie, J. H., सिद्धांतों और प्रक्रियाओं की प्रक्रियाएं जैविक विज्ञान के विशेष संदर्भ के साथ। मैकग्रा हिल, 1960, पृष्ठ 288।</ref>इस मामले में, <math>p=1</math> तो हर है <math>n-2</math>।
इसे प्रतिगमन का माध्य वर्ग त्रुटि (MSE) कहा जाता है। हर वह नमूना आकार है जो समान डेटा से अनुमानित मॉडल पैरामीटर की संख्या से घटाया जाता है,<math>(n-p)</math> के लिये <math>p</math> रेग्रेसर्स (regressors) या <math>(n-p-1)</math> अगर अवरोधन का इस्तेमाल किया जाता है।<ref>स्टील, R.G.D, और Torrie, J. H., सिद्धांतों और प्रक्रियाओं की प्रक्रियाएं जैविक विज्ञान के विशेष संदर्भ के साथ। मैकग्रा हिल, 1960, पृष्ठ 288।</ref> इस मामले में, <math>p=1</math> तो हर है <math>n-2</math>।


पैरामीटर अनुमानों की मानक त्रुटियां दी गई हैं
पैरामीटर अनुमानों की मानक त्रुटियां दी गई हैं,


:<math>\hat\sigma_{\beta_1}=\hat\sigma_{\varepsilon} \sqrt{\frac{1}{\sum(x_i-\bar x)^2}}</math>
:<math>\hat\sigma_{\beta_1}=\hat\sigma_{\varepsilon} \sqrt{\frac{1}{\sum(x_i-\bar x)^2}}</math>
:<math>\hat\sigma_{\beta_0}=\hat\sigma_\varepsilon \sqrt{\frac{1}{n} + \frac{\bar{x}^2}{\sum(x_i-\bar x)^2}}=\hat\sigma_{\beta_1} \sqrt{\frac{\sum x_i^2}{n}}. </math>
:<math>\hat\sigma_{\beta_0}=\hat\sigma_\varepsilon \sqrt{\frac{1}{n} + \frac{\bar{x}^2}{\sum(x_i-\bar x)^2}}=\hat\sigma_{\beta_1} \sqrt{\frac{\sum x_i^2}{n}}. </math>
आगे की धारणा के तहत कि जनसंख्या त्रुटि अवधि सामान्य रूप से वितरित की जाती है, शोधकर्ता इन अनुमानित मानक त्रुटियों का उपयोग आत्मविश्वास अंतराल बनाने और जनसंख्या मापदंडों के बारे में परिकल्पना परीक्षण करने के लिए कर सकते हैं।
आगे की धारणा के तहत कि जनसंख्या त्रुटि शब्द सामान्य रूप से वितरित किया जाता है, शोधकर्ता इन अनुमानित मानक त्रुटियों का उपयोग आत्मविश्वास अंतराल बनाने और जनसंख्या मापदंडों के बारे में परिकल्पना परीक्षण करने के लिए कर सकता है।
 
=== सामान्य रैखिक मॉडल ====
{{Hatnote|For a derivation, see [[linear least squares (mathematics)|linear least squares]]}}
{{Hatnote|For a numerical example, see [[linear regression]]}}
अधिक सामान्य कई प्रतिगमन मॉडल में, वहाँ हैं <math>p</math> स्वतंत्र प्रभावित करने वाली वस्तुएँ:


=== सामान्य रैखिक मॉडल ===
अधिक सामान्य एकाधिक प्रतिगमन मॉडल में  <math>p</math> स्वतंत्र चर हैं,
: <math> y_i = \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_p x_{ip} + \varepsilon_i, \, </math>
: <math> y_i = \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_p x_{ip} + \varepsilon_i, \, </math>
कहाँ पे <math>x_{ij}</math> है <math>i</math>-th अवलोकन पर <math>j</math>-th स्वतंत्र चर।
जहांपे <math>x_{ij}</math> है <math>i</math> अवलोकन पर <math>j</math>-th स्वतंत्र चर हैं। यदि पहला स्वतंत्र चर सभी 1 लेता है <math>i</math>, <math>x_{i1} = 1</math>, फिर <math>\beta_1</math> को प्रतीपगमन अवरोधन कहा जाता है।
यदि पहला स्वतंत्र चर सभी के लिए मान 1 लेता है <math>i</math>, <math>x_{i1} = 1</math>, फिर <math>\beta_1</math> प्रतिगमन अवरोधन कहा जाता है।


कम से कम वर्ग पैरामीटर अनुमान प्राप्त किए जाते हैं <math>p</math> सामान्य समीकरण।अवशिष्ट के रूप में लिखा जा सकता है
न्यूनतम वर्ग पैरामीटर अनुमान <math>p</math> सामान्य समीकरणों से प्राप्त किए जाते हैं। अवशिष्ट के रूप में लिखा जा सकता है,


:<math>\varepsilon_i=y_i -  \hat\beta_1 x_{i1} - \cdots - \hat\beta_p x_{ip}.</math>
:<math>\varepsilon_i=y_i -  \hat\beta_1 x_{i1} - \cdots - \hat\beta_p x_{ip}.</math>
Line 130: Line 133:


:<math>\mathbf{(X^\top X )\hat{\boldsymbol{\beta}}= {}X^\top Y},\,</math>
:<math>\mathbf{(X^\top X )\hat{\boldsymbol{\beta}}= {}X^\top Y},\,</math>
जहां <math>ij</math> का तत्व <math>\mathbf X</math> है <math>x_{ij}</math>, <math>i</math> स्तंभ वेक्टर का तत्व <math>Y</math> है <math>y_i</math>, और यह <math>j</math> का तत्व <math>\hat \boldsymbol \beta</math> है <math>\hat \beta_j</math>।इस प्रकार <math>\mathbf X</math> है <math>n \times p</math>, <math>Y</math> है <math>n \times 1</math>, तथा <math>\hat \boldsymbol \beta</math> है <math>p \times 1</math>।समाधान है
जहां <math>ij</math> का तत्व <math>\mathbf X</math> है <math>x_{ij}</math>, <math>i</math> स्तंभ वेक्टर का तत्व <math>Y</math> है <math>y_i</math>, और यह <math>j</math> का तत्व <math>\hat \boldsymbol \beta</math> है <math>\hat \beta_j</math>। इस प्रकार <math>\mathbf X</math> है <math>n \times p</math>, <math>Y</math> है <math>n \times 1</math>, तथा <math>\hat \boldsymbol \beta</math> है <math>p \times 1</math>।समाधान है


:<math>\mathbf{\hat{\boldsymbol{\beta}}= (X^\top X )^{-1}X^\top Y}.\,</math>
:<math>\mathbf{\hat{\boldsymbol{\beta}}= (X^\top X )^{-1}X^\top Y}.\,</math>


=== निदान ====
=== निदान===
{{main|Regression diagnostics}}
एक बार प्रतिगमन मॉडल का निर्माण हो जाने के बाद, मॉडल के फिट होने की अच्छाई और अनुमानित मापदंडों के सांख्यिकीय महत्व की पुष्टि करना महत्वपूर्ण हो सकता है। फिट की अच्छाई की आमतौर पर इस्तेमाल की जाने वाली जांचों में आर-स्क्वेर्ड, अवशेषों के पैटर्न का विश्लेषण और परिकल्पना परीक्षण शामिल हैं। सांख्यिकीय महत्व को समग्र फिट के एफ-परीक्षण द्वारा जांचा जा सकता है, इसके बाद व्यक्तिगत मापदंडों के टी-परीक्षण किए जा सकते हैं।
{{Category see also|Regression diagnostics}}
एक बार एक प्रतिगमन मॉडल का निर्माण होने के बाद, मॉडल के फिट की अच्छाई और अनुमानित मापदंडों के सांख्यिकीय महत्व की पुष्टि करना महत्वपूर्ण हो सकता है। फिट की अच्छाई की आमतौर पर इस्तेमाल की जाने वाली जांच में आर-स्क्वर्ड, अवशिष्ट और परिकल्पना परीक्षण के पैटर्न का विश्लेषण शामिल है। सांख्यिकीय महत्व को समग्र फिट के एक एफ-परीक्षण द्वारा जांचा जा सकता है, इसके बाद व्यक्तिगत मापदंडों के टी-परीक्षण।


इन नैदानिक ​​परीक्षणों की व्याख्या मॉडल की मान्यताओं पर भारी आराम करती है। यद्यपि अवशिष्टों की जांच का उपयोग एक मॉडल को अमान्य करने के लिए किया जा सकता है, एक टी-टेस्ट या एफ-टेस्ट के परिणामों को कभी-कभी व्याख्या करना अधिक कठिन होता है यदि मॉडल की धारणाओं का उल्लंघन किया जाता है। उदाहरण के लिए, यदि त्रुटि शब्द में सामान्य वितरण नहीं होता है, तो छोटे नमूनों में अनुमानित पैरामीटर सामान्य वितरण और जटिल अनुमान का पालन नहीं करेंगे। अपेक्षाकृत बड़े नमूनों के साथ, हालांकि, एक केंद्रीय सीमा प्रमेय को इस तरह से लागू किया जा सकता है कि परिकल्पना परीक्षण एसिम्प्टोटिक सन्निकटन का उपयोग करके आगे बढ़ सकता है।
इन नैदानिक ​​परीक्षणों की व्याख्या मॉडल की मान्यताओं पर बहुत अधिक निर्भर करती है। हालांकि अवशेषों की जांच का उपयोग किसी मॉडल को अमान्य करने के लिए किया जा सकता है, टी-टेस्ट या एफ-टेस्ट के परिणामों की व्याख्या करना कभी-कभी अधिक कठिन होता है यदि मॉडल की मान्यताओं का उल्लंघन किया जाता है। उदाहरण के लिए, यदि त्रुटि शब्द का सामान्य वितरण नहीं है, तो छोटे नमूनों में अनुमानित पैरामीटर सामान्य वितरण का पालन नहीं करेंगे और अनुमान को जटिल करेंगे। अपेक्षाकृत बड़े नमूनों के साथ, हालांकि, एक केंद्रीय सीमा प्रमेय को इस तरह लागू किया जा सकता है कि परिकल्पना परीक्षण स्पर्शोन्मुख सन्निकटन का उपयोग करके आगे बढ़ सकता है।


=== सीमित आश्रित चर ===
=== सीमित आश्रित चर ===


सीमित आश्रित चर, जो प्रतिक्रिया चर हैं जो श्रेणीबद्ध चर हैं या केवल एक निश्चित सीमा में गिरने के लिए विवश चर हैं, अक्सर अर्थमिति में उत्पन्न होते हैं।
सीमित आश्रित चर, जो प्रतिक्रिया चर हैं जो श्रेणीबद्ध चर हैं या वे चर हैं जो केवल एक निश्चित सीमा में गिरने के लिए विवश हैं, अक्सर अर्थमिति में उत्पन्न होते हैं।
 
प्रतिक्रिया चर गैर-निरंतर हो सकता है (वास्तविक रेखा के कुछ सबसेट पर झूठ बोलने के लिए "सीमित")। बाइनरी (शून्य या एक) चर के लिए, यदि विश्लेषण न्यूनतम वर्ग रैखिक प्रतिगमन के साथ आगे बढ़ता है, तो मॉडल को रैखिक संभाव्यता मॉडल कहा जाता है। बाइनरी आश्रित चर के लिए अरैखिक मॉडल में प्रोबिट और लॉगिट मॉडल शामिल हैं।बहुभिन्नरूपी प्रोबिट मॉडल कई बाइनरी आश्रित चर और कुछ स्वतंत्र चर के बीच एक संयुक्त संबंध का आकलन करने का एक मानक तरीका है। दो से अधिक मानों वाले श्रेणीबद्ध चर के लिए बहुपद लॉगिट होता है। दो से अधिक मूल्यों वाले क्रमिक चर के लिए, आदेशित लॉगिट और आदेशित प्रोबिट मॉडल होता हैं।सेंसर किए गए प्रतिगमन मॉडल का उपयोग तब किया जा सकता है जब आश्रित चर केवल कभी-कभी माना  जाता है, और हेकमैन सुधार प्रकार के मॉडल का उपयोग तब किया जा सकता है जब नमूना को ब्याज की आबादी से यादृच्छिक रूप से नहीं चुना जाता है। इस तरह की प्रक्रियाओं का एक विकल्प श्रेणीबद्ध चर के बीच पॉलीकोरिक सहसंबंध (या पॉलीसेरियल सहसंबंध) पर आधारित रैखिक प्रतिगमन है। जनसंख्या में चरों के वितरण के बारे में की गई धारणाओं में ऐसी प्रक्रियाएं भिन्न होती हैं। यदि चर कम मान के साथ सकारात्मक है और किसी घटना की पुनरावृत्ति का प्रतिनिधित्व करता है, तो पॉइसन प्रतिगमन या नकारात्मक द्विपद मॉडल जैसे मॉडल का उपयोग किया जा सकता है।
 
== अरेखीय प्रतिगमन ==


प्रतिक्रिया चर गैर-निरंतर हो सकता है (वास्तविक लाइन के कुछ सबसेट पर झूठ बोलने के लिए सीमित)। बाइनरी (शून्य या एक) चर के लिए, यदि विश्लेषण कम से कम-वर्ग रैखिक प्रतिगमन के साथ आगे बढ़ता है, तो मॉडल को रैखिक संभावना मॉडल कहा जाता है। बाइनरी आश्रित चर के लिए nonlinear मॉडल में प्रोबिट और लॉगिट मॉडल शामिल हैं। मल्टीवेरिएट प्रोबिट मॉडल कई बाइनरी आश्रित चर और कुछ स्वतंत्र चर के बीच एक संयुक्त संबंध का आकलन करने का एक मानक विधि है। दो से अधिक मूल्यों के साथ श्रेणीबद्ध चर के लिए बहुराष्ट्रीय लॉगिट है। दो से अधिक मूल्यों के साथ क्रमिक चर के लिए, आदेशित लॉगिट और ऑर्डर किए गए प्रोबिट मॉडल हैं। सेंसर किए गए प्रतिगमन मॉडल का उपयोग तब किया जा सकता है जब आश्रित चर केवल कभी -कभी मनाया जाता है, और हेकमैन सुधार प्रकार के मॉडल का उपयोग तब किया जा सकता है जब नमूना को ब्याज की आबादी से यादृच्छिक रूप से नहीं चुना जाता है। इस तरह की प्रक्रियाओं का एक विकल्प श्रेणीबद्ध चर के बीच पॉलीचोरिक सहसंबंध (या पॉलीसेरियल सहसंबंध) के आधार पर रैखिक प्रतिगमन है। इस तरह की प्रक्रियाएं आबादी में चर के वितरण के बारे में की गई मान्यताओं में भिन्न होती हैं। यदि चर कम मूल्यों के साथ सकारात्मक है और किसी घटना की घटना की पुनरावृत्ति का प्रतिनिधित्व करता है, तो पॉइसन रिग्रेशन जैसे मॉडल गिनें या नकारात्मक द्विपद मॉडल का उपयोग किया जा सकता है।


== nonlinear प्रतिगमन ==
जब मॉडल फ़ंक्शन मापदंडों में रैखिक नहीं होता है, तो वर्गों का योग एक पुनरावृत्त प्रक्रिया द्वारा कम से कम किया जाना चाहिए। यह कई जटिलताओं का परिचय देता है जिन्हें संक्षेप में रैखिक और गैर-रैखिक न्यूनतम वर्गों के बीच अंतर में संक्षेपित किया गया है।
{{Main|Nonlinear regression}}
जब मॉडल फ़ंक्शन मापदंडों में रैखिक नहीं होता है, तो वर्गों के योग को एक पुनरावृत्त प्रक्रिया द्वारा कम से कम किया जाना चाहिए।यह कई जटिलताओं का परिचय देता है जो रैखिक और गैर-रैखिक कम से कम वर्गों के बीच अंतर में संक्षेपित हैं।


== प्रक्षेप और एक्सट्रपलेशन ==
== अंतर्वेशन (इन्टरपोलेशन) और बहिर्वेशन (एक्सट्रपलेशन) ==
[[File:CurveWeightHeight.png|thumb|upright=1.5|url = http: //www.incertitudes.fr/book.pdf}} </ref>]]
[[File:CurveWeightHeight.png|thumb|upright=1.5|url = http: //www.incertitudes.fr/book.pdf}} </ref>]]
इस लाइन के ऊपर और नीचे के बिंदुओं के बीच सबसे अच्छा संतुलन sents।बिंदीदार रेखाएं दो चरम रेखाओं का प्रतिनिधित्व करती हैं।पहले घटता अनुमानित मूल्यों का प्रतिनिधित्व करता है।बाहरी घटता एक नए माप के लिए एक भविष्यवाणी का प्रतिनिधित्व करते हैं।<ref>{{cite book |last=Rouaud |first=Mathieu |title=Probability, Statistics and Estimation|year=2013 |page=60 |url=http://www.incertitudes.fr/book.pdf }}</ref>प्रतिगमन मॉडल X चर के ज्ञात मान दिए गए y चर के मूल्य की भविष्यवाणी करते हैं।मॉडल-फिटिंग के लिए उपयोग किए जाने वाले डेटासेट में मूल्यों की सीमा के भीतर भविष्यवाणी को अनौपचारिक रूप से प्रक्षेप के रूप में जाना जाता है।डेटा की इस सीमा के बाहर की भविष्यवाणी को एक्सट्रपलेशन के रूप में जाना जाता है।एक्सट्रपलेशन करना प्रतिगमन मान्यताओं पर दृढ़ता से निर्भर करता है।आगे एक्सट्रपलेशन डेटा के बाहर जाता है, मॉडल के लिए उतना ही कमरा होता है जो मान्यताओं और नमूना डेटा या सही मूल्यों के बीच अंतर के कारण विफल होता है।
प्रतिगमन मॉडल X चर के ज्ञात मान दिए गए y चर के मूल्य की भविष्यवाणी करते हैं। मॉडल-फिटिंग के लिए उपयोग किए जाने वाले डेटासेट में मान की सीमा के भीतर की भविष्यवाणी को अनौपचारिक रूप से अंतर्वेशन (इन्टरपोलेशन) के रूप में जाना जाता है।डेटा की इस सीमा के बाहर की भविष्यवाणी को बहिर्वेशन (एक्सट्रपलेशन) के रूप में जाना जाता है। बहिर्वेशन (एक्सट्रपलेशन) करना प्रतिगमन मान्यताओं पर दृढ़ता से निर्भर करता है। आगे बहिर्वेशन (एक्सट्रपलेशन) डेटा के बाहर चला जाता है, मॉडल के लिए मान्यताओं और नमूना डेटा या वास्तविक मान के बीच अंतर के कारण विफल होने के लिए अधिक जगह होती है।


यह आम तौर पर सलाह दी जाती है {{Citation needed|date=February 2010}} एक्सट्रपलेशन करते समय, किसी को एक भविष्यवाणी अंतराल के साथ आश्रित चर के अनुमानित मूल्य के साथ अनिश्चितता का प्रतिनिधित्व करना चाहिए।इस तरह के अंतराल तेजी से विस्तार करते हैं क्योंकि स्वतंत्र चर (ओं) के मान मनाया गया डेटा द्वारा कवर रेंज के बाहर चले गए हैं।
आम तौर पर यह सलाह दी जाती है {{Citation needed|date=February 2010}} कि बहिर्वेशन (एक्सट्रपलेशन) करते समय, किसी को एक भविष्यवाणी अंतराल के साथ आश्रित चर के अनुमानित मान के साथ होना चाहिए जो अनिश्चितता का प्रतिनिधित्व करता है। इस तरह के अंतराल में तेजी से विस्तार होता है क्योंकि स्वतंत्र चर के मान देखे गए डेटा द्वारा आवृत की गई सीमा से बाहर चले गए हैं।


ऐसे कारणों और अन्य लोगों के लिए, कुछ कहते हैं कि यह एक्सट्रपलेशन करने के लिए नासमझी हो सकती है।<ref>चियांग, सी। एल, (2003) विश्लेषण के सांख्यिकीय तरीके, विश्व वैज्ञानिक। {{isbn|981-238-310-7}} - [https://books.google.com/books?</ref>
ऐसे कारणों और दूसरों के लिए, कुछ लोग कहते हैं कि बहिर्वेशन (एक्सट्रपलेशन) करना नासमझी हो सकती है।<ref>चियांग, सी। एल, (2003) विश्लेषण के सांख्यिकीय तरीके, विश्व वैज्ञानिक। {{isbn|981-238-310-7}} - [https://books.google.com/books?</ref>


हालांकि, यह मॉडलिंग त्रुटियों के पूर्ण सेट को कवर नहीं करता है जो बनाई जा सकती है: विशेष रूप से, वाई और एक्स के बीच संबंध के लिए एक विशेष रूप की धारणा। एक ठीक से आयोजित प्रतिगमन विश्लेषण में एक आकलन शामिल होगा कि ग्रहण किया गया रूप कितना अच्छा हैमनाया गया डेटा द्वारा मेल खाता है, लेकिन यह केवल वास्तव में उपलब्ध स्वतंत्र चर के मूल्यों की सीमा के भीतर ऐसा कर सकता है।इसका मतलब यह है कि कोई भी एक्सट्रपलेशन प्रतिगमन संबंध के संरचनात्मक रूप के बारे में की जा रही मान्यताओं पर विशेष रूप से निर्भर है।यहां सर्वश्रेष्ठ-प्रैक्टिस सलाह{{Citation needed|date=March 2011}} यह है कि एक रैखिक-इन-वैरिएबल्स और रैखिक-इन-पैरामीटर संबंध को केवल कम्प्यूटेशनल सुविधा के लिए नहीं चुना जाना चाहिए, लेकिन यह कि सभी उपलब्ध ज्ञान को एक प्रतिगमन मॉडल के निर्माण में तैनात किया जाना चाहिए।यदि इस ज्ञान में यह तथ्य शामिल है कि आश्रित चर मानों की एक निश्चित श्रेणी के बाहर नहीं जा सकता है, तो इसका उपयोग मॉडल का चयन करने में किया जा सकता है - भले ही मनाया डेटासेट में विशेष रूप से इस तरह की सीमा के पास कोई मान नहीं है।प्रतिगमन के लिए एक उपयुक्त कार्यात्मक रूप चुनने के इस चरण के निहितार्थों को तब महान हो सकता है जब एक्सट्रपलेशन पर विचार किया जाता है।कम से कम, यह सुनिश्चित कर सकता है कि एक फिट मॉडल से उत्पन्न होने वाला कोई भी एक्सट्रपलेशन यथार्थवादी है (या जो ज्ञात है उसके अनुरूप)।
हालांकि, इसमें मॉडलिंग त्रुटियों के पूरे सेट को विशेष रूप से, Yऔर X के बीच संबंध के लिए एक विशेष रूप की धारणा शामिल नहीं किया जा सकता है। एक उचित रूप से आयोजित प्रतिगमन विश्लेषण में यह आकलन शामिल होगा कि प्रेक्षित डेटा द्वारा कल्पित रूप कितनी अच्छी तरह मेल खाता है, लेकिन यह वास्तव में उपलब्ध स्वतंत्र चर के मूल्यों की सीमा के भीतर ही ऐसा कर सकता है। इसका मतलब यह है कि कोई भी बहिर्वेशन (एक्सट्रपलेशन) विशेष रूप से प्रतिगमन संबंध के संरचनात्मक रूप के बारे में की जा रही धारणाओं पर निर्भर है। यहां सर्वोत्तम अभ्यास सलाह {{Citation needed|date=March 2011}} यह है कि एक रैखिक-इन-चर और रैखिक-इन-पैरामीटर संबंध को केवल अभिकलन सुविधा के लिए नहीं चुना जाना चाहिए, बल्कि यह कि सभी उपलब्ध ज्ञान को एक प्रतिगमन मॉडल के निर्माण में तैनात किया जाना चाहिए। यदि इस ज्ञान में यह तथ्य शामिल है कि आश्रित चर मान की एक निश्चित सीमा से बाहर नहीं जा सकता है, तो इसका उपयोग मॉडल के चयन में किया जा सकता है - भले ही देखे गए डेटासेट में विशेष रूप से ऐसी सीमाओं के पास कोई मान न हो। जब बहिर्वेशन (एक्सट्रपलेशन) पर विचार किया जाता है तो प्रतिगमन के लिए एक उपयुक्त कार्यात्मक रूप चुनने के इस कदम के निहितार्थ बहुत अच्छे हो सकते हैं। कम से कम, यह सुनिश्चित कर सकता है कि एक फिट मॉडल से उत्पन्न होने वाला कोई भी एक्सट्रपलेशन "यथार्थवादी" है(या जो ज्ञात है उसके अनुरूप)।


== शक्ति और नमूना आकार की गणना ==
== शक्ति और नमूना आकार की गणना ==
मॉडल में स्वतंत्र चर की संख्या बनाम टिप्पणियों की संख्या से संबंधित कोई आम तौर पर सहमत तरीके नहीं हैं।अच्छे और हार्डिन द्वारा अनुमानित एक विधि है <math>N=m^n</math>, कहाँ पे <math>N</math> नमूना आकार है, <math>n</math> स्वतंत्र चर की संख्या है और <math>m</math> यदि मॉडल में केवल एक स्वतंत्र चर था, तो वांछित सटीकता तक पहुंचने के लिए आवश्यक टिप्पणियों की संख्या है।<ref>{{cite book |last1=Good |first1=P. I. |author1-link=Phillip Good|last2=Hardin |first2=J. W. |title=Common Errors in Statistics (And How to Avoid Them)|publisher=Wiley|edition=3rd|location=Hoboken, New Jersey|year=2009|page=211|isbn=978-0-470-45798-6}}</ref>उदाहरण के लिए, एक शोधकर्ता एक डेटासेट का उपयोग करके एक रैखिक प्रतिगमन मॉडल का निर्माण कर रहा है जिसमें 1000 रोगी होते हैं (<math>N</math>)।यदि शोधकर्ता यह तय करता है कि एक सीधी रेखा को ठीक करने के लिए पांच टिप्पणियों की आवश्यकता होती है (<math>m</math>), फिर स्वतंत्र चर की अधिकतम संख्या मॉडल का समर्थन कर सकता है 4 है, क्योंकि
मॉडल में स्वतंत्र चर की संख्या बनाम टिप्पणियों की संख्या से संबंधित कोई और सहमत तरीके नहीं हैं। गुड और हार्डिन द्वारा अनुमानित एक विधि <math>N=m^n</math> है, जहां  <math>N</math> नमूना आकार है, <math>n</math> स्वतंत्र चर की संख्या है और <math>m</math> वांछित सटीकता तक पहुंचने के लिए आवश्यक अवलोकनों की संख्या है यदि मॉडल में केवल एक स्वतंत्र है।<ref>{{cite book |last1=Good |first1=P. I. |author1-link=Phillip Good|last2=Hardin |first2=J. W. |title=Common Errors in Statistics (And How to Avoid Them)|publisher=Wiley|edition=3rd|location=Hoboken, New Jersey|year=2009|page=211|isbn=978-0-470-45798-6}}</ref>उदाहरण के लिए, एक शोधकर्ता एक डेटासेट का उपयोग करके एक रैखिक प्रतिगमन मॉडल बना रहा है जिसमें 1000 रोगी (<math>N</math>) होते हैं। यदि शोधकर्ता यह निर्णय लेता है कि एक सीधी रेखा (<math>m</math>), को ठीक-ठीक परिभाषित करने के लिए पाँच प्रेक्षणों की आवश्यकता है, तो मॉडल द्वारा समर्थित स्वतंत्र चरों की अधिकतम संख्या 4 है, क्योंकि


: <math>\frac{\log 1000}{\log5}=4.29. </math>
: <math>\frac{\log 1000}{\log5}=4.29. </math>


== अन्य तरीके ==
== अन्य तरीके ==
यद्यपि एक प्रतिगमन मॉडल के मापदंडों को आमतौर पर कम से कम वर्गों की विधि का उपयोग करके अनुमानित किया जाता है, अन्य तरीकों का उपयोग किया गया है:
यद्यपि एक प्रतिगमन मॉडल के मापदंडों का अनुमान आमतौर पर न्यूनतम वर्गों की विधि का उपयोग करके लगाया जाता है, अन्य विधियों का उपयोग किया गया है जिनमें शामिल हैं:
* बायेसियन तरीके, उदा।बेयसियन रेखीय प्रतिगमन
* बायेसियन तरीके, उदाहरण बायेसियन रैखिक प्रतिगमन।
* प्रतिशत प्रतिगमन, उन स्थितियों के लिए जहां प्रतिशत त्रुटियों को कम करना अधिक उपयुक्त माना जाता है।<ref>{{cite journal| ssrn=1406472 |title=Least Squares Percentage Regression |last=Tofallis |first=C. |journal=Journal of Modern Applied Statistical Methods |volume=7 |year=2009 |pages=526–534| doi=10.2139/ssrn.1406472|url=https://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=1466&context=jmasm }}</ref>* कम से कम निरपेक्ष विचलन, जो आउटलेर की उपस्थिति में अधिक मजबूत है, जिससे क्वांटाइल रिग्रेशन होता है
* प्रतिशत प्रतिगमन, उन स्थितियों के लिए जहां प्रतिशत त्रुटियों को कम करना अधिक उपयुक्त समझा जाता है।
* Nonparametric प्रतिगमन, बड़ी संख्या में टिप्पणियों की आवश्यकता है और कम्प्यूटेशनल रूप से गहन है
* न्यूनतम निरपेक्ष विचलन, जो बाहरी लोगों की उपस्थिति में अधिक मजबूत होता है, जिससे मात्रात्मक प्रतिगमन होता है।
* परिदृश्य अनुकूलन, अंतराल भविष्यवक्ता मॉडल के लिए अग्रणी
* गैर-पैरामीट्रिक प्रतिगमन के लिए बड़ी संख्या में अवलोकन की आवश्यकता होती है और यह कम्प्यूटेशनल रूप से गहन है।
*परिदृश्य अनुकूलन, अंतराल भविष्यवक्ता मॉडल के लिए अग्रणी।
* डिस्टेंस मीट्रिक लर्निंग, जो किसी दिए गए इनपुट स्पेस में एक सार्थक दूरी मीट्रिक की खोज से सीखा जाता है।<ref>{{cite journal |url=http://pages.cs.wisc.edu/~huangyz/caip09_Long.pdf |title=Human age estimation by metric learning for regression problems |author=YangJing Long |journal=Proc. International Conference on Computer Analysis of Images and Patterns |year=2009 |pages=74–82 |url-status=dead |archive-url=https://web.archive.org/web/20100108055346/http://pages.cs.wisc.edu/~huangyz/caip09_Long.pdf |archive-date=2010-01-08 }}</ref>
* डिस्टेंस मीट्रिक लर्निंग, जो किसी दिए गए इनपुट स्पेस में एक सार्थक दूरी मीट्रिक की खोज से सीखा जाता है।<ref>{{cite journal |url=http://pages.cs.wisc.edu/~huangyz/caip09_Long.pdf |title=Human age estimation by metric learning for regression problems |author=YangJing Long |journal=Proc. International Conference on Computer Analysis of Images and Patterns |year=2009 |pages=74–82 |url-status=dead |archive-url=https://web.archive.org/web/20100108055346/http://pages.cs.wisc.edu/~huangyz/caip09_Long.pdf |archive-date=2010-01-08 }}</ref>


== सॉफ्टवेयर ==
== सॉफ्टवेयर ==
{{Main list|List of statistical packages}}
सभी प्रमुख सांख्यिकीय सॉफ्टवेयर पैकेज न्यूनतम वर्ग प्रतिगमन विश्लेषण और अनुमान करते हैं। सरल रैखिक प्रतिगमन और न्यूनतम वर्गों का उपयोग करके कई प्रतिगमन कुछ स्प्रेडशीट अनुप्रयोगों और कुछ कैलकुलेटर पर किया जा सकता है। जबकि कई सांख्यिकीय सॉफ्टवेयर पैकेज विभिन्न प्रकार के गैर-पैरामीट्रिक और मजबूत प्रतिगमन कर सकते हैं, ये विधियां कम मानकीकृत हैं। अलग-अलग सॉफ़्टवेयर पैकेज अलग-अलग तरीकों को लागू करते हैं, और किसी दिए गए नाम के साथ एक विधि अलग-अलग पैकेजों में अलग-अलग तरीके से लागू की जा सकती है। सर्वेक्षण विश्लेषण और न्यूरोइमेजिंग जैसे क्षेत्रों में उपयोग के लिए विशिष्ट प्रतिगमन सॉफ्टवेयर विकसित किया गया है।
सभी प्रमुख सांख्यिकीय सॉफ्टवेयर पैकेज कम से कम वर्ग प्रतिगमन विश्लेषण और अनुमान प्रदर्शन करते हैं।कुछ स्प्रेडशीट अनुप्रयोगों और कुछ कैलकुलेटर पर कम से कम वर्गों का उपयोग करके सरल रैखिक प्रतिगमन और कई प्रतिगमन किया जा सकता है।जबकि कई सांख्यिकीय सॉफ़्टवेयर पैकेज विभिन्न प्रकार के नॉनप्रेमेट्रिक और मजबूत प्रतिगमन का प्रदर्शन कर सकते हैं, इन विधियों को कम मानकीकृत किया जाता है।विभिन्न सॉफ़्टवेयर पैकेज अलग -अलग तरीकों को लागू करते हैं, और किसी दिए गए नाम के साथ एक विधि को अलग -अलग पैकेजों में अलग -अलग तरीके से लागू किया जा सकता है।सर्वेक्षण विश्लेषण और न्यूरोइमेजिंग जैसे क्षेत्रों में उपयोग के लिए विशेष प्रतिगमन सॉफ्टवेयर विकसित किया गया है।


== यह भी देखें ==
== यह भी देखें{{Portal|Mathematics}}==
{{Portal|Mathematics}}
{{Div col}}
{{Div col}}
* Anscombe की चौकड़ी
* एस्कम्बे की चौकड़ी
* वक्र फिटिंग
* वक्र फिटिंग
* अनुमान सिद्धांत
* अनुमान सिद्धांत
Line 246: Line 247:
{{Authority control}}
{{Authority control}}


{{DEFAULTSORT:Regression Analysis}}[[Category: प्रतिगमन विश्लेषण | प्रतिगमन विश्लेषण ]]
{{DEFAULTSORT:Regression Analysis}}
[[Category: एक्चुरियल विज्ञान]]]
]
[[Category: वक्र फिटिंग]]
 
[[Category: अनुमान सिद्धांत]]
[[Category:AC with 0 elements|Regression Analysis]]
[[Category: Machine Translated Page]]
[[Category:All articles with unsourced statements|Regression Analysis]]
[[Category: Mathematics]]
[[Category:Articles with invalid date parameter in template|Regression Analysis]]
[[Category:Articles with unsourced statements from February 2010|Regression Analysis]]
[[Category:Articles with unsourced statements from March 2011|Regression Analysis]]
[[Category:CS1|Regression Analysis]]
[[Category:Commons category link is locally defined|Regression Analysis]]
[[Category:Exclude in print|Regression Analysis]]
[[Category:Interwiki category linking templates|Regression Analysis]]
[[Category:Interwiki link templates|Regression Analysis]]
[[Category:Machine Translated Page|Regression Analysis]]
[[Category:Mathematics|Regression Analysis]]
[[Category:Pages with empty portal template|Regression Analysis]]
[[Category:Pages with script errors|Regression Analysis]]
[[Category:Portal-inline template with redlinked portals|Regression Analysis]]
[[Category:Portal templates with redlinked portals|Regression Analysis]]
[[Category:Templates that add a tracking category|Regression Analysis]]
[[Category:Templates using TemplateData|Regression Analysis]]
[[Category:Wikimedia Commons templates|Regression Analysis]]

Latest revision as of 09:39, 27 July 2022

लाइन y = 1.5x+2 (दिखाया नहीं गया) के चारों ओर एक गाऊसी वितरण में 50 यादृच्छिक बिंदुओं के लिए प्रतिगमन लाइन।

सांख्यिकीय मॉडलिंग में, प्रतिगमन विश्लेषण एक आश्रित चर (जिसे अक्सर 'परिणाम' या 'प्रतिक्रिया' चर, या मशीन सीखने की भाषा में 'लेबल' कहा जाता है) और एक या अधिक स्वतंत्र चर (जिन्हें अक्सर 'भविष्यवाणियां', 'सहसंयोजक', 'व्याख्यात्मक चर' या 'विशेषताएं' कहा जाता है) के बीच संबंधों का आकलन करने के लिए सांख्यिकीय प्रक्रियाओं का एक समूह है। प्रतिगमन विश्लेषण का सबसे सामान्य रूप रैखिक प्रतिगमन है, जिसमें एक रेखा (या अधिक जटिल रैखिक संयोजन) को एक विशिष्ट गणितीय मानदंड के अनुसार डेटा को सबसे करीब से फिट करती है। उदाहरण के लिए, साधारण न्यूनतम वर्गों की प्रणाली अद्वितीय रेखा (या हाइपरप्लेन) की गणना करती है जो वास्तविक डेटा और उस रेखा (या हाइपरप्लेन) के बीच वर्ग अंतर के योग को कम करती है। विशिष्ट गणितीय कारणों के लिए (रैखिक प्रतिगमन देखें), यह शोधकर्ता को आश्रित चर की नियमबद्ध अपेक्षा (या जनसंख्या औसत मूल्य) का अनुमान लगाने की अनुमति देता है जब स्वतंत्र चर मूल्यों को सेट पर लेते हैं। प्रतिगमन के कम सामान्य रूप वैकल्पिक स्थान मापदंडों (जैसे, मात्रात्मक प्रतिगमन या आवश्यक स्थिति विश्लेषण [1]) का अनुमान लगाने के लिए थोड़ी अलग प्रक्रियाओं का उपयोग करते हैं या गैर-रेखीय मॉडल (जैसे, गैर-पैरामीट्रिक प्रतिगमन) के व्यापक संग्रह में नियमबद्ध अपेक्षा का अनुमान लगाते हैं।

प्रतिगमन विश्लेषण मुख्य रूप से दो वैचारिक रूप से अलग-अलग उद्देश्यों के लिए उपयोग किया जाता है।

पहले, प्रतिगमन विश्लेषण व्यापक रूप से भविष्यवाणी और पूर्वानुमान के लिए उपयोग किया जाता है, जहां इसके उपयोग का मशीन सीखने के क्षेत्र के साथ काफी हद तक अतिव्यापन है।

दूसरे, कुछ स्थितियों में प्रतिगमन विश्लेषण का उपयोग स्वतंत्र और आश्रित चर के बीच कारण संबंधों का अनुमान लगाने के लिए किया जा सकता है। महत्वपूर्ण रूप से, प्रतिगमन स्वयं केवल एक आश्रित चर और एक निश्चित डेटासेट में स्वतंत्र चर के संग्रह के बीच संबंधों को प्रकट करता है। भविष्यवाणी के लिए प्रतिगमन का उपयोग करने के लिए या क्रमशः कारण संबंधों का अनुमान लगाने के लिए, एक शोधकर्ता को ध्यान से समायोजित करना चाहिए कि वर्तमान संबंध में नए संदर्भ या दो चर के बीच संबंध के लिए एक कारण स्पष्टीकरण क्यों है। उत्तरार्द्ध बहुत महत्वपूर्ण है जब शोधकर्ता अवलोकन संबंधी डेटा का उपयोग करके कारण संबंधों का अनुमान लगाने की अपेक्षा करते हैं।[1][2]

इतिहास

प्रतिगमन का सबसे प्रारंभिक रूप न्यूनतम वर्गों की विधि थी, जिसे लेजेन्ड्रे ने 1805 में,[3]और गॉस ने 1809 में प्रकाशित किया था।[4]लीजेंड्रे और गॉस दोनों ने खगोलीय टिप्पणियों से सूर्य के बारे में पिंडों की कक्षाओं (ज्यादातर धूमकेतु, लेकिन बाद में तत्कालीन नए खोजे गए छोटे ग्रहों) को निर्धारित करने की समस्या के लिए विधि लागू की थी। गॉस ने 1821 में न्यूनतम वर्गों के सिद्धांत का एक और विकास प्रकाशित किया,[5] जिसमें गॉस-मार्कोव प्रमेय का एक संस्करण भी शामिल था।

"प्रतिगमन" शब्द 19वीं शताब्दी में फ्रांसिस गैल्टन द्वारा एक जैविक घटना का वर्णन करने के लिए गढ़ा गया था। घटना यह थी कि लंबे पूर्वजों के वंशजों की ऊंचाई सामान्य औसत (एक घटना जिसे माध्य की ओर प्रतिगमन के रूप में भी जाना जाता है) की ओर नीचे की ओर झुकती है।[6][7]गैल्टन के लिए, प्रतिगमन का केवल यही जैविक अर्थ था, [8][9]लेकिन उनके काम को बाद में उडनी यूल और कार्ल पियर्सन ने एक अधिक सामान्य सांख्यिकीय संदर्भ में विस्तारित किया था।[10][11]यूल और पियर्सन के काम में, प्रतिक्रिया और व्याख्यात्मक चर के संयुक्त वितरण को गौसियन माना जाता है। यूल और पियर्सन के काम में, प्रतिक्रिया और व्याख्यात्मक चर के संयुक्त वितरण को गाऊसी माना जाता है। 1922 और 1925 के अपने कार्यों में आर.ए. फिशर द्वारा इस धारणा को कमजोर किया गया था।[12][13][14]फिशर ने माना कि प्रतिक्रिया चर का सशर्त वितरण गाऊसी है, लेकिन संयुक्त वितरण की आवश्यकता नहीं है। इस संबंध में, फिशर की धारणा 1821 के गॉस के निर्माण के करीब है।

1950 और 1960 के दशक में, अर्थशास्त्रियों ने प्रतिगमन की गणना के लिए इलेक्ट्रोमैकेनिकल डेस्क "कैलकुलेटर" का इस्तेमाल किया। 1970 से पहले, एक प्रतिगमन से परिणाम प्राप्त करने में कभी-कभी 24 घंटे तक लग जाते थे।[15]

हाल के दशकों में, मजबूत प्रतिगमन के लिए नए तरीके विकसित किए गए हैं। प्रतिगमन जिसमें सहसंबद्ध प्रतिक्रियाएं शामिल हैं जैसे कि समय श्रृंखला और विकास वक्र, प्रतिगमन जिसमें भविष्यवक्ता (स्वतंत्र चर) या प्रतिक्रिया चर वक्र, चित्र, ग्राफ़ या अन्य जटिल डेटा ऑब्जेक्ट हैं, विभिन्न प्रकार के लापता डेटा को समायोजित करने वाली प्रतिगमन विधियां, गैर-पैरामीट्रिक प्रतिगमन, प्रतिगमन के लिए बायेसियन विधियां, प्रतिगमन विधियाँ एक प्रतिगमन में बनी रहती हैं जिसमें पूर्वसूचक चर को त्रुटि के साथ मापा जाता है, प्रतिगमन अवलोकनों की तुलना में अधिक भविष्यवक्ता चर के साथ, और प्रतिगमन के साथ अनुमान लगाया जाता है।







प्रतिगमन मॉडल

शोधकर्ता पहले एक मॉडल का चयन करते हैं फिर उस मॉडल के मापदंडों का अनुमान लगाने के लिए अपनी चुनी हुई विधि (जैसे, साधारण न्यूनतम वर्ग) का उपयोग करते हैं। प्रतिगमन मॉडल में निम्नलिखित घटक शामिल हैं,

  • अज्ञात पैरामीटर, जिसे अक्सर एक अदिश (scalar) या वेक्टर के रूप में दर्शाया जाता है।
  • स्वतंत्र चर, जो डेटा में देखे जाते हैं और अक्सर एक वेक्टर के रूप में दर्शाए जाते हैं (जहां डेटा की एक पंक्ति को दर्शाता है)।
  • आश्रित चर, जो डेटा में देखे जाते हैं और अक्सर अदिश का उपयोग करके दर्शाए जाते है।
  • त्रुटि शब्द, जो सीधे डेटा में नहीं देखे जाते हैं और अक्सर अदिश का उपयोग करके दर्शाए जाते हैं।

अनुप्रयोग के विभिन्न क्षेत्रों में परतंत्र और स्वतंत्र चर के स्थान पर विभिन्न शब्दावली का उपयोग किया जाता है।

अधिकांश प्रतिगमन मॉडल का प्रस्ताव है कि का एक कार्य है तथा , जिसमें एक योगात्मक त्रुटि शब्द का प्रतिनिधित्व करता है जो या यादृच्छिक सांख्यिकीय शोर के गैर-मॉडल निर्धारकों के लिए खड़ा हो सकता है,

शोधकर्ताओं का लक्ष्य कार्य का अनुमान लगाना है जो डेटा के सबसे करीब से फिट बैठता है। प्रतिगमन विश्लेषण करने के लिए, फ़ंक्शन का रूप निर्दिष्ट किया जाना चाहिए। कभी-कभी इस फलन का रूप के बीच संबंध के बारे में ज्ञान पर आधारित होता है तथा जो डेटा पर निर्भर नहीं है। यदि ऐसा कोई ज्ञान उपलब्ध नहीं है, तो चुना जाता है। उदाहरण के लिए, एक साधारण अविभाज्य प्रतिगमन प्रस्तावित कर सकता है यह सुझाव देते हुए कि शोधकर्ता का मानना ​​है डेटा उत्पन्न करने वाली सांख्यिकीय प्रक्रिया के लिए एक उचित सन्निकटन होना चाहिए।

एक बार जब शोधकर्ता अपने पसंदीदा सांख्यिकीय मॉडल का निर्धारण कर लेते हैं, तो प्रतिगमन विश्लेषण के विभिन्न रूप मापदंडों का अनुमान लगाने के लिए उपकरण प्रदान करते है। उदाहरण के लिए, न्यूनतम वर्ग (इसके सबसे सामान्य प्रकार, साधारण कम से कम वर्ग सहित) का मान पाता है यह चुकता त्रुटियों के योग को कम करता है । एक दी गई प्रतिगमन विधि अंततः एक अनुमान प्रदान करेगी , आमतौर पर निरूपित डेटा को जनरेट करने वाले सही (अज्ञात) पैरामीटर मान से अनुमान को अलग करने के लिए करते है।  इस अनुमान का उपयोग करते हुए, शोधकर्ता तब फिट किए गए मूल्य का उपयोग कर सकता है भविष्यवाणी के लिए या डेटा की व्याख्या करने में मॉडल की सटीकता का आकलन करने के लिए कर सकता है। क्या शोधकर्ता आंतरिक रूप से अनुमान में रुचि रखता है या अनुमानित मूल्य संदर्भ और उनके लक्ष्यों पर निर्भर करेगा। जैसा कि साधारण कम से कम वर्गों में वर्णित है, न्यूनतम वर्गों का व्यापक रूप से उपयोग किया जाता है क्योंकि अनुमानित फ़ंक्शन सशर्त अपेक्षा का अनुमान लगाता है [4] हालांकि, वैकल्पिक वेरिएंट (जैसे,न्यूनतम निरपेक्ष विचलन या मात्रात्मक प्रतिगमन) उपयोगी होते हैं जब शोधकर्ता अन्य कार्यों को मॉडल करना चाहते हैं

यह ध्यान रखना महत्वपूर्ण है कि एक प्रतिगमन मॉडल का अनुमान लगाने के लिए पर्याप्त डेटा होना चाहिए। उदाहरण के लिए, मान लीजिए कि एक शोधकर्ता के पास पहुंच है एक आश्रित और दो स्वतंत्र चर के साथ डेटा की पंक्तियाँ: । मान लीजिए कि शोधकर्ता कम से कम वर्गों के माध्यम से एक द्विभाजित रैखिक मॉडल का अनुमान लगाना चाहता है: । यदि शोधकर्ता के पास केवल पहुंच है डेटा पॉइंट, तब वे असीम रूप से कई संयोजन पा सकते थे। यह डेटा को समान रूप से अच्छी तरह से समझाता है, किसी भी संयोजन को चुना जा सकता है जो संतुष्ट करता है जिनमें से सभी का नेतृत्व करते हैं और इसलिए वैध समाधान हैं जो वर्ग अवशिष्टों के योग को कम करते हैं। यह समझने के लिए कि अपरिमित रूप से अनेक विकल्प क्यों हैं, ध्यान दें कि की प्रणाली समीकरणों को 3 अज्ञात के लिए हल किया जाना है, जो सिस्टम को कम निर्धारित करता है। वैकल्पिक रूप से, कोई भी असीम रूप से कई 3-आयामी विमानों की कल्पना कर सकता है जो फिक्स्ड पॉइंट्स से गुजरते हैं।

अधिक आम तौर पर, न्यूनतम वर्गों के मॉडल का अनुमान लगाने के लिए अलग पैरामीटर पर, और एक अलग अलग डेटा बिंदु होना चाहिए। यदि तो आम तौर पर ऐसे मापदंडों का एक सेट मौजूद नहीं होता है जो डेटा को पूरी तरह से फिट करेंगे। मात्रा प्रतिगमन विश्लेषण में अक्सर प्रकट होता है, और इसे मॉडल में स्वतंत्रता की डिग्री के रूप में संदर्भित किया जाता है। इसके अलावा, कम से कम वर्ग मॉडल का अनुमान लगाने के लिए, स्वतंत्र चर रैखिक रूप से स्वतंत्र होना चाहिए: शेष स्वतंत्र चर को जोड़कर और गुणा करके किसी भी स्वतंत्र चर को फिर से संगठित करने में सक्षम नहीं होना चाहिए। जैसा कि साधारण कम से कम वर्गों में चर्चा की गई है,जैसा कि साधारण न्यूनतम वर्गों में चर्चा की गई है, यह शर्त सुनिश्चित करती है कि यह एक उल्टे मैट्रिक्स है और एक उलटा मैट्रिक्स है और इसलिए यह एक अनूठा मौजूद समाधान है,

अंतर्निहित धारणाएँ

अपने आप में, एक प्रतिगमन डेटा का उपयोग करके केवल एक गणना है। वास्तविक दुनिया के संबंधों को मापने वाली एक सार्थक सांख्यिकीय मात्रा के रूप में प्रतिगमन के उत्पादन की व्याख्या करने के लिए, शोधकर्ता अक्सर कई शास्त्रीय मान्यताओं पर भरोसा करते हैं। इन धारणाओं में अक्सर शामिल होते हैं:

  • नमूना बड़े पैमाने पर आबादी का प्रतिनिधि है।
  • स्वतंत्र चर को बिना किसी त्रुटि के मापा जाता है।
  • मॉडल से विचलन का अपेक्षित मान शून्य है, सहसंयोजकों पर सशर्त,
  • अवशिष्टों का प्रसरण अवलोकन (समरूपता) में निरंतर है।
  • अवशिष्ट एक दूसरे से असंबंधित हैं। गणितीय रूप से, त्रुटियों का प्रसरण-सहप्रसरण मैट्रिक्स विकर्ण है।

कम से कम वर्ग अनुमानक के लिए वांछनीय गुण रखने के लिए कुछ हद तक स्थितियां पर्याप्त हैं: विशेष रूप से, गॉस-मार्कोव मान्यताओं का अर्थ है कि पैरामीटर अनुमान निष्पक्ष, सुसंगत और रैखिक निष्पक्ष अनुमानकों के वर्ग में कुशल होंगे। व्यवसायी ने वास्तविक दुनिया की सेटिंग में इनमें से कुछ या सभी वांछनीय गुणों को बनाए रखने के लिए कई तरह के तरीके विकसित किए हैं, क्योंकि इन शास्त्रीय मान्यताओं के सटीक रूप से धारण करने की संभावना नहीं है। उदाहरण के लिए, मॉडलिंग त्रुटियों-इन-वेरिएबल से उचित अनुमान लगा सकते हैं स्वतंत्र चर को त्रुटियों से माप सकते है। विषमलैंगिकता-संगत मानक त्रुटियां के विचरण की अनुमति देती है के मूल्यों को बदलने के लिए । सहसंबद्ध त्रुटियां जो डेटा के सबसेट के भीतर मौजूद हैं या विशिष्ट पैटर्न का पालन करती हैं, उन्हें अन्य तकनीकों के साथ क्लस्टर मानक त्रुटियों, भौगोलिक भारित प्रतिगमन, या न्यूए-वेस्ट मानक त्रुटियों का उपयोग करके नियंत्रित किया जा सकता है। जब डेटा की पंक्तियाँ अंतरिक्ष में स्थानों के अनुरूप हों, तो मॉडल का चुनाव कैसे करें? भौगोलिक इकाइयों के महत्वपूर्ण परिणाम हो सकते हैं।[16] अर्थमिति का उपक्षेत्र काफी हद तक विकासशील तकनीकों पर केंद्रित है जो शोधकर्ताओं को वास्तविक दुनिया की सेटिंग में उचित वास्तविक दुनिया के निष्कर्ष निकालने की अनुमति देता है, जहां शास्त्रीय धारणाएं बिल्कुल सही नहीं होती हैं।

रैखिक प्रतिगमन

रैखिक प्रतिगमन में, मॉडल विनिर्देश यह है कि आश्रित चर, मापदंडों का एक रैखिक संयोजन है (लेकिन स्वतंत्र चर में रैखिक होने की आवश्यकता नहीं है)। उदाहरण के लिए, मॉडलिंग डेटा बिंदुओं के लिए सरल रेखीय प्रतिगमन में एक स्वतंत्र चर होता है: , और दो पैरामीटर, तथा :

सीधी रेखा:

बहु रेखीय प्रतिगमन में, कई स्वतंत्र चर या स्वतंत्र चर के कार्य होते हैं।

पिछले प्रतिगमन में में एक पद जोड़ने पर यह मिलता है:

अनुवृत्त (parabola):

यह अभी भी रैखिक प्रतिगमन है, हालांकि दायीं ओर का व्यंजक स्वतंत्र चर में द्विघात है, यह पैरामीटर , तथा में रैखिक है।

दोनों ही मामलों में, एक त्रुटि शब्द है और सबस्क्रिप्ट एक विशेष अवलोकन को अनुक्रमित करता है।

सीधी रेखा के मामले पर ध्यान देते है, जनसंख्या से एक यादृच्छिक नमूने को देखते हुए, हम जनसंख्या मापदंडों का अनुमान लगाते हैं और नमूना रैखिक प्रतिगमन मॉडल प्राप्त करते हैं,

अवशिष्ट, , मॉडल द्वारा अनुमानित आश्रित चर के मूल्य के बीच का अंतर है, , और सही मान आश्रित चर का, है। आकलन की एक विधि साधारण न्यूनतम वर्ग है। यह विधि पैरामीटर अनुमान प्राप्त करती है जो चुकता अवशिष्टों के योग को कम करती है,

इस फ़ंक्शन के न्यूनीकरण के परिणामस्वरूप सामान्य समीकरणों का एक सेट होता है, मापदंडों में एक साथ रैखिक समीकरणों का एक सेट, जो पैरामीटर अनुमानक उत्पन्न करने के लिए हल किया जाता है,

डेटा सेट पर रैखिक प्रतिगमन का चित्रण।

सरल प्रतिगमन के मामले में, न्यूनतम वर्ग अनुमान के सूत्र हैं

जहां पे मानों और का माध्य (औसत) है का मतलब है मानों का माध्य है।

इस धारणा के तहत कि जनसंख्या त्रुटि शब्द में निरंतर भिन्नता है, उस भिन्नता का अनुमान इस प्रकार दिया जाता है,

इसे प्रतिगमन का माध्य वर्ग त्रुटि (MSE) कहा जाता है। हर वह नमूना आकार है जो समान डेटा से अनुमानित मॉडल पैरामीटर की संख्या से घटाया जाता है, के लिये रेग्रेसर्स (regressors) या अगर अवरोधन का इस्तेमाल किया जाता है।[17] इस मामले में, तो हर है

पैरामीटर अनुमानों की मानक त्रुटियां दी गई हैं,

आगे की धारणा के तहत कि जनसंख्या त्रुटि शब्द सामान्य रूप से वितरित किया जाता है, शोधकर्ता इन अनुमानित मानक त्रुटियों का उपयोग आत्मविश्वास अंतराल बनाने और जनसंख्या मापदंडों के बारे में परिकल्पना परीक्षण करने के लिए कर सकता है।

सामान्य रैखिक मॉडल

अधिक सामान्य एकाधिक प्रतिगमन मॉडल में स्वतंत्र चर हैं,

जहांपे है अवलोकन पर -th स्वतंत्र चर हैं। यदि पहला स्वतंत्र चर सभी 1 लेता है , , फिर को प्रतीपगमन अवरोधन कहा जाता है।

न्यूनतम वर्ग पैरामीटर अनुमान सामान्य समीकरणों से प्राप्त किए जाते हैं। अवशिष्ट के रूप में लिखा जा सकता है,

सामान्य समीकरण हैं

मैट्रिक्स संकेतन में, सामान्य समीकरणों को लिखा जाता है

जहां का तत्व है , स्तंभ वेक्टर का तत्व है , और यह का तत्व है । इस प्रकार है , है , तथा है ।समाधान है

निदान

एक बार प्रतिगमन मॉडल का निर्माण हो जाने के बाद, मॉडल के फिट होने की अच्छाई और अनुमानित मापदंडों के सांख्यिकीय महत्व की पुष्टि करना महत्वपूर्ण हो सकता है। फिट की अच्छाई की आमतौर पर इस्तेमाल की जाने वाली जांचों में आर-स्क्वेर्ड, अवशेषों के पैटर्न का विश्लेषण और परिकल्पना परीक्षण शामिल हैं। सांख्यिकीय महत्व को समग्र फिट के एफ-परीक्षण द्वारा जांचा जा सकता है, इसके बाद व्यक्तिगत मापदंडों के टी-परीक्षण किए जा सकते हैं।

इन नैदानिक ​​परीक्षणों की व्याख्या मॉडल की मान्यताओं पर बहुत अधिक निर्भर करती है। हालांकि अवशेषों की जांच का उपयोग किसी मॉडल को अमान्य करने के लिए किया जा सकता है, टी-टेस्ट या एफ-टेस्ट के परिणामों की व्याख्या करना कभी-कभी अधिक कठिन होता है यदि मॉडल की मान्यताओं का उल्लंघन किया जाता है। उदाहरण के लिए, यदि त्रुटि शब्द का सामान्य वितरण नहीं है, तो छोटे नमूनों में अनुमानित पैरामीटर सामान्य वितरण का पालन नहीं करेंगे और अनुमान को जटिल करेंगे। अपेक्षाकृत बड़े नमूनों के साथ, हालांकि, एक केंद्रीय सीमा प्रमेय को इस तरह लागू किया जा सकता है कि परिकल्पना परीक्षण स्पर्शोन्मुख सन्निकटन का उपयोग करके आगे बढ़ सकता है।

सीमित आश्रित चर

सीमित आश्रित चर, जो प्रतिक्रिया चर हैं जो श्रेणीबद्ध चर हैं या वे चर हैं जो केवल एक निश्चित सीमा में गिरने के लिए विवश हैं, अक्सर अर्थमिति में उत्पन्न होते हैं।

प्रतिक्रिया चर गैर-निरंतर हो सकता है (वास्तविक रेखा के कुछ सबसेट पर झूठ बोलने के लिए "सीमित")। बाइनरी (शून्य या एक) चर के लिए, यदि विश्लेषण न्यूनतम वर्ग रैखिक प्रतिगमन के साथ आगे बढ़ता है, तो मॉडल को रैखिक संभाव्यता मॉडल कहा जाता है। बाइनरी आश्रित चर के लिए अरैखिक मॉडल में प्रोबिट और लॉगिट मॉडल शामिल हैं।बहुभिन्नरूपी प्रोबिट मॉडल कई बाइनरी आश्रित चर और कुछ स्वतंत्र चर के बीच एक संयुक्त संबंध का आकलन करने का एक मानक तरीका है। दो से अधिक मानों वाले श्रेणीबद्ध चर के लिए बहुपद लॉगिट होता है। दो से अधिक मूल्यों वाले क्रमिक चर के लिए, आदेशित लॉगिट और आदेशित प्रोबिट मॉडल होता हैं।सेंसर किए गए प्रतिगमन मॉडल का उपयोग तब किया जा सकता है जब आश्रित चर केवल कभी-कभी माना  जाता है, और हेकमैन सुधार प्रकार के मॉडल का उपयोग तब किया जा सकता है जब नमूना को ब्याज की आबादी से यादृच्छिक रूप से नहीं चुना जाता है। इस तरह की प्रक्रियाओं का एक विकल्प श्रेणीबद्ध चर के बीच पॉलीकोरिक सहसंबंध (या पॉलीसेरियल सहसंबंध) पर आधारित रैखिक प्रतिगमन है। जनसंख्या में चरों के वितरण के बारे में की गई धारणाओं में ऐसी प्रक्रियाएं भिन्न होती हैं। यदि चर कम मान के साथ सकारात्मक है और किसी घटना की पुनरावृत्ति का प्रतिनिधित्व करता है, तो पॉइसन प्रतिगमन या नकारात्मक द्विपद मॉडल जैसे मॉडल का उपयोग किया जा सकता है।

अरेखीय प्रतिगमन

जब मॉडल फ़ंक्शन मापदंडों में रैखिक नहीं होता है, तो वर्गों का योग एक पुनरावृत्त प्रक्रिया द्वारा कम से कम किया जाना चाहिए। यह कई जटिलताओं का परिचय देता है जिन्हें संक्षेप में रैखिक और गैर-रैखिक न्यूनतम वर्गों के बीच अंतर में संक्षेपित किया गया है।

अंतर्वेशन (इन्टरपोलेशन) और बहिर्वेशन (एक्सट्रपलेशन)

url = http: //www.incertitudes.fr/book.pdf}} </ref>

प्रतिगमन मॉडल X चर के ज्ञात मान दिए गए y चर के मूल्य की भविष्यवाणी करते हैं। मॉडल-फिटिंग के लिए उपयोग किए जाने वाले डेटासेट में मान की सीमा के भीतर की भविष्यवाणी को अनौपचारिक रूप से अंतर्वेशन (इन्टरपोलेशन) के रूप में जाना जाता है।डेटा की इस सीमा के बाहर की भविष्यवाणी को बहिर्वेशन (एक्सट्रपलेशन) के रूप में जाना जाता है। बहिर्वेशन (एक्सट्रपलेशन) करना प्रतिगमन मान्यताओं पर दृढ़ता से निर्भर करता है। आगे बहिर्वेशन (एक्सट्रपलेशन) डेटा के बाहर चला जाता है, मॉडल के लिए मान्यताओं और नमूना डेटा या वास्तविक मान के बीच अंतर के कारण विफल होने के लिए अधिक जगह होती है।

आम तौर पर यह सलाह दी जाती है[citation needed] कि बहिर्वेशन (एक्सट्रपलेशन) करते समय, किसी को एक भविष्यवाणी अंतराल के साथ आश्रित चर के अनुमानित मान के साथ होना चाहिए जो अनिश्चितता का प्रतिनिधित्व करता है। इस तरह के अंतराल में तेजी से विस्तार होता है क्योंकि स्वतंत्र चर के मान देखे गए डेटा द्वारा आवृत की गई सीमा से बाहर चले गए हैं।

ऐसे कारणों और दूसरों के लिए, कुछ लोग कहते हैं कि बहिर्वेशन (एक्सट्रपलेशन) करना नासमझी हो सकती है।[18]

हालांकि, इसमें मॉडलिंग त्रुटियों के पूरे सेट को विशेष रूप से, Yऔर X के बीच संबंध के लिए एक विशेष रूप की धारणा शामिल नहीं किया जा सकता है। एक उचित रूप से आयोजित प्रतिगमन विश्लेषण में यह आकलन शामिल होगा कि प्रेक्षित डेटा द्वारा कल्पित रूप कितनी अच्छी तरह मेल खाता है, लेकिन यह वास्तव में उपलब्ध स्वतंत्र चर के मूल्यों की सीमा के भीतर ही ऐसा कर सकता है। इसका मतलब यह है कि कोई भी बहिर्वेशन (एक्सट्रपलेशन) विशेष रूप से प्रतिगमन संबंध के संरचनात्मक रूप के बारे में की जा रही धारणाओं पर निर्भर है। यहां सर्वोत्तम अभ्यास सलाह[citation needed] यह है कि एक रैखिक-इन-चर और रैखिक-इन-पैरामीटर संबंध को केवल अभिकलन सुविधा के लिए नहीं चुना जाना चाहिए, बल्कि यह कि सभी उपलब्ध ज्ञान को एक प्रतिगमन मॉडल के निर्माण में तैनात किया जाना चाहिए। यदि इस ज्ञान में यह तथ्य शामिल है कि आश्रित चर मान की एक निश्चित सीमा से बाहर नहीं जा सकता है, तो इसका उपयोग मॉडल के चयन में किया जा सकता है - भले ही देखे गए डेटासेट में विशेष रूप से ऐसी सीमाओं के पास कोई मान न हो। जब बहिर्वेशन (एक्सट्रपलेशन) पर विचार किया जाता है तो प्रतिगमन के लिए एक उपयुक्त कार्यात्मक रूप चुनने के इस कदम के निहितार्थ बहुत अच्छे हो सकते हैं। कम से कम, यह सुनिश्चित कर सकता है कि एक फिट मॉडल से उत्पन्न होने वाला कोई भी एक्सट्रपलेशन "यथार्थवादी" है(या जो ज्ञात है उसके अनुरूप)।

शक्ति और नमूना आकार की गणना

मॉडल में स्वतंत्र चर की संख्या बनाम टिप्पणियों की संख्या से संबंधित कोई और सहमत तरीके नहीं हैं। गुड और हार्डिन द्वारा अनुमानित एक विधि है, जहां नमूना आकार है, स्वतंत्र चर की संख्या है और वांछित सटीकता तक पहुंचने के लिए आवश्यक अवलोकनों की संख्या है यदि मॉडल में केवल एक स्वतंत्र है।[19]उदाहरण के लिए, एक शोधकर्ता एक डेटासेट का उपयोग करके एक रैखिक प्रतिगमन मॉडल बना रहा है जिसमें 1000 रोगी () होते हैं। यदि शोधकर्ता यह निर्णय लेता है कि एक सीधी रेखा (), को ठीक-ठीक परिभाषित करने के लिए पाँच प्रेक्षणों की आवश्यकता है, तो मॉडल द्वारा समर्थित स्वतंत्र चरों की अधिकतम संख्या 4 है, क्योंकि

अन्य तरीके

यद्यपि एक प्रतिगमन मॉडल के मापदंडों का अनुमान आमतौर पर न्यूनतम वर्गों की विधि का उपयोग करके लगाया जाता है, अन्य विधियों का उपयोग किया गया है जिनमें शामिल हैं:

  • बायेसियन तरीके, उदाहरण बायेसियन रैखिक प्रतिगमन।
  • प्रतिशत प्रतिगमन, उन स्थितियों के लिए जहां प्रतिशत त्रुटियों को कम करना अधिक उपयुक्त समझा जाता है।
  • न्यूनतम निरपेक्ष विचलन, जो बाहरी लोगों की उपस्थिति में अधिक मजबूत होता है, जिससे मात्रात्मक प्रतिगमन होता है।
  • गैर-पैरामीट्रिक प्रतिगमन के लिए बड़ी संख्या में अवलोकन की आवश्यकता होती है और यह कम्प्यूटेशनल रूप से गहन है।
  • परिदृश्य अनुकूलन, अंतराल भविष्यवक्ता मॉडल के लिए अग्रणी।
  • डिस्टेंस मीट्रिक लर्निंग, जो किसी दिए गए इनपुट स्पेस में एक सार्थक दूरी मीट्रिक की खोज से सीखा जाता है।[20]

सॉफ्टवेयर

सभी प्रमुख सांख्यिकीय सॉफ्टवेयर पैकेज न्यूनतम वर्ग प्रतिगमन विश्लेषण और अनुमान करते हैं। सरल रैखिक प्रतिगमन और न्यूनतम वर्गों का उपयोग करके कई प्रतिगमन कुछ स्प्रेडशीट अनुप्रयोगों और कुछ कैलकुलेटर पर किया जा सकता है। जबकि कई सांख्यिकीय सॉफ्टवेयर पैकेज विभिन्न प्रकार के गैर-पैरामीट्रिक और मजबूत प्रतिगमन कर सकते हैं, ये विधियां कम मानकीकृत हैं। अलग-अलग सॉफ़्टवेयर पैकेज अलग-अलग तरीकों को लागू करते हैं, और किसी दिए गए नाम के साथ एक विधि अलग-अलग पैकेजों में अलग-अलग तरीके से लागू की जा सकती है। सर्वेक्षण विश्लेषण और न्यूरोइमेजिंग जैसे क्षेत्रों में उपयोग के लिए विशिष्ट प्रतिगमन सॉफ्टवेयर विकसित किया गया है।

यह भी देखें

  • एस्कम्बे की चौकड़ी
  • वक्र फिटिंग
  • अनुमान सिद्धांत
  • पूर्वानुमान
  • विचरण का अंश अस्पष्टीकृत
  • समारोह सन्निकटन
  • सामान्यीकृत रैखिक मॉडल
  • क्रिगिंग (एक रैखिक कम से कम वर्ग अनुमान एल्गोरिथ्म)
  • स्थानीय प्रतिगमन
  • परिवर्तनीय क्षेत्रीय इकाई समस्या
  • बहुभिन्नरूपी अनुकूली प्रतिगमन स्प्लिन
  • बहुभिन्नरूपी सामान्य वितरण
  • पियर्सन उत्पाद-पल सहसंबंध गुणांक
  • अर्ध-विमान
  • भविष्यवाणी अंतराल
  • प्रतिगमन सत्यापन
  • मजबूत प्रतिगमन
  • खंडित प्रतिगमन
  • संकेत का प्रक्रमण
  • स्टेपवाइज रिग्रेशन
  • टैक्सी ज्यामिति
  • प्रवृत्ति अनुमान

संदर्भ

  1. David A. Freedman (27 April 2009). Statistical Models: Theory and Practice. Cambridge University Press. ISBN 978-1-139-47731-4.
  2. आर। डेनिस कुक;सैनफोर्ड वीसबर्ग आलोचना और प्रतिगमन में प्रभाव विश्लेषण, समाजशास्त्रीय कार्यप्रणाली, वॉल्यूम।13. (1982), पीपी। 313–361
  3. एड्रियन-मैरी लीजेंड्रे | ए.एम.किंवदंती।[https://books.google.com/books?
  4. 4.0 4.1 अध्याय 1: एग्रिस्ट, जे। डी।, और पिस्केके, जे.एस. (2008)।ज्यादातर हानिरहित अर्थमिति: एक अनुभववादी साथी।प्रिंसटन यूनिवर्सिटी प्रेस.
  5. सी.एफ.गॉस।[Http://books.google.com/books? ।(1821/1823)
  6. Mogull, Robert G. (2004). Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. p. 59. ISBN 978-0-7575-1181-3.
  7. Galton, Francis (1989). "Kinship and Correlation (reprinted 1989)". Statistical Science. 4 (2): 80–86. doi:10.1214/ss/1177012581. JSTOR 2245330.
  8. फ्रांसिस गैल्टन।आनुवंशिकता के विशिष्ट नियम, प्रकृति 15 (1877), 492-495, 512–514, 532-533।(गैल्टन इस पत्र में उलटफेर शब्द का उपयोग करता है, जो मटर के आकार पर चर्चा करता है।)
  9. फ्रांसिस गैल्टन।राष्ट्रपति का पता, धारा एच, नृविज्ञान।(1885) (गैल्टन इस पत्र में प्रतिगमन शब्द का उपयोग करता है, जो मनुष्यों की ऊंचाई पर चर्चा करता है।)
  10. Yule, G. Udny (1897). "On the Theory of Correlation". Journal of the Royal Statistical Society. 60 (4): 812–54. doi:10.2307/2979746. JSTOR 2979746.
  11. Pearson, Karl; Yule, G.U.; Blanchard, Norman; Lee,Alice (1903). "The Law of Ancestral Heredity". Biometrika. 2 (2): 211–236. doi:10.1093/biomet/2.2.211. JSTOR 2331683.
  12. Fisher, R.A. (1922). "The goodness of fit of regression formulae, and the distribution of regression coefficients". Journal of the Royal Statistical Society. 85 (4): 597–612. doi:10.2307/2341124. JSTOR 2341124. PMC 1084801.
  13. Ronald A. Fisher (1954). Statistical Methods for Research Workers (Twelfth ed.). Edinburgh: Oliver and Boyd. ISBN 978-0-05-002170-5.
  14. Aldrich, John (2005). "Fisher and Regression". Statistical Science. 20 (4): 401–417. doi:10.1214/088342305000000331. JSTOR 20061201.
  15. रॉडनी रामचरन।]
  16. Fotheringham, A. Stewart; Brunsdon, Chris; Charlton, Martin (2002). Geographically weighted regression: the analysis of spatially varying relationships (Reprint ed.). Chichester, England: John Wiley. ISBN 978-0-471-49616-8.
  17. स्टील, R.G.D, और Torrie, J. H., सिद्धांतों और प्रक्रियाओं की प्रक्रियाएं जैविक विज्ञान के विशेष संदर्भ के साथ। मैकग्रा हिल, 1960, पृष्ठ 288।
  18. चियांग, सी। एल, (2003) विश्लेषण के सांख्यिकीय तरीके, विश्व वैज्ञानिक। ISBN 981-238-310-7 - [https://books.google.com/books?
  19. Good, P. I.; Hardin, J. W. (2009). Common Errors in Statistics (And How to Avoid Them) (3rd ed.). Hoboken, New Jersey: Wiley. p. 211. ISBN 978-0-470-45798-6.
  20. YangJing Long (2009). "Human age estimation by metric learning for regression problems" (PDF). Proc. International Conference on Computer Analysis of Images and Patterns: 74–82. Archived from the original (PDF) on 2010-01-08.

अग्रिम पठन

Evan J. Williams, "I. Regression," pp. 523–41.
Julian C. Stanley, "II. Analysis of Variance," pp. 541–554.

बाहरी संबंध


]