रेखीय प्रवृत्ति अनुमान

रेखीय प्रवृत्ति अनुमान, डेटा की व्याख्या में सहायता के लिए एक सांख्यिकी तकनीक है। जब किसी प्रक्रिया के मापों की एक श्रृंखला को, उदाहरण के लिए, एक अनुक्रम या समय श्रृंखला, के रूप में माना जाता है, तो प्रवृत्ति अनुमान का उपयोग, डेटा में प्रवृत्तियों के विषय में कथन और कारण निर्दिष्ट करने के लिए किया जा सकता है। इस प्रारूप का उपयोग प्राप्त डेटा के व्यवहार को बिना निर्दिष्ट किए उसका वर्णन करने के लिए किया जा सकता है।

विशेष रूप से, यह जानना उपयोगी हो सकता है कि क्या मापन में कोई वृद्धि या अवनति की प्रवृत्ति है, जिसे सांख्यिक रूप से यादृच्छिक व्यवहार से अलग किया जा सकता है। कुछ उदाहरण सर्दियों से गर्मियों तक किसी दिए गए स्थान पर दैनिक औसत तापमान की प्रवृत्ति का निर्धारण करना, और पिछले 100 वर्षों में वैश्विक तापमान श्रृंखला में प्रवृत्ति का निर्धारण करना। बाद के परिप्रेक्ष्य में, एकरूपता के विषय महत्वपूर्ण हैं। उदाहरण के लिए, क्या श्रृंखला अपनी पूरी लंबाई में समान रूप से विश्वसनीय है।

प्रवृत्तियों को फिट करना: न्यूनतम-वर्ग
डेटा के एक समुच्चय और उन डेटा के किसी प्रकार के अर्थमितीय प्रारूप का उत्पादन करने की इच्छा को देखते हुए, कई प्रकार के फलन हैं जिन्हें फिट के लिए चुना जा सकता है। यदि डेटा की कोई पूर्व समझ नहीं है, तो फिट करने के लिए सबसे सरल फलन y अक्ष पर डेटा मानों के साथ एक सीधी रेखा है, और x अक्ष पर समय (t = 1, 2, 3, ...) है।

एक बार एक सीधी रेखा में फिट करने का निर्णय लेने के उपरांत, ऐसा करने की कई विधियाँ हैं, परंतु सबसे सामान्य विकल्प न्यूनतम-वर्ग फिट है। यह विधि डेटा श्रृंखला y में वर्ग त्रुटियों के योग को कम करती है।

समय में बिंदुओं का एक समुच्चय $$t$$ दिया गया है, और डेटा मान $$y_t$$ समय में उन बिंदुओं, मानों के लिए अवलोकन किया गया $$a$$ और $$b$$ इसलिए चुना जाता है


 * $$\sum_t \left[ y_t - \left( \hat{a}t + \hat{b} \right) \right]^2$$

न्यूनतम किया गया है। यहां + b प्रवृत्ति रेखा है, इसलिए प्रवृत्ति रेखा से वर्ग विचलन का योग न्यूनतम किया जा सकता है। यह सदैव संवृत्त रूप में किया जा सकता है क्योंकि यह सरल रैखिक प्रतिगमन की स्थिति होती है।

इस लेख के शेष भाग के लिए, "प्रवृत्ति" का अर्थ न्यूनतम वर्ग रेखा की प्रवणता होगी, क्योंकि यह एक सामान्य परंपरा है।

यादृच्छिक डेटा में प्रवृत्तियों
वास्तविक डेटा में प्रवृत्तियों पर विचार करने से पूर्व, यादृच्छिक चर में प्रवृत्तियों को समझना आवश्यक है।

यदि एक श्रृंखला जिसे यादृच्छिक जाना जाता है, जैसे न्यायिक पासा फेंकना या कंप्यूटर उत्पन्न नकली-यादृच्छिक संख्याएं, को विश्लेषित किया जाता है और डेटा में एक प्रवृत्ति रेखा को मिलाने का प्रयास किया जाता है, तो शून्य के समान प्राप्त अनुमानित प्रवृत्ति की संभावना बहुत कम होते हैं। परंतु यह प्रवृत्ति छोटी रहने की संभावना होगी। यदि किसी व्यक्तिगत अवलोकन श्रृंखला को उन्नतियों से उत्पन्न किया गया है जो एक दिए गए ध्वनि अनुपात के साथ एक से बड़े ध्वनि अनुपात के बराबर है और एक दिए गए लंबाई के साथ, एक बड़ी संख्या में ऐसी परिकल्पित श्रृंखला उत्पन्न की जा सकती हैं। फिर प्रत्येक श्रृंखला में अनुमानित प्रवृत्तियों की गणना करने के लिए इन 100,000 श्रृंखलाओं का व्यक्तिगत रूप से विश्लेषण किया जा सकता है, और ये परिणाम अनुमानित प्रवृत्तियों का एक वितरण स्थापित करता हैं जो ऐसे यादृच्छिक डेटा से अपेक्षित होते हैं। तर्कहीन विषयों को छोड़कर ऐसा वितरण केंद्रीय सीमा प्रमेय के अनुसार सामान्य वितरण होगा। अब एक संखिकीय निश्चितता स्तर, S, का चयन किया जा सकता है - 95% आत्मविश्वास सामान्य होता है; 99% कठिन होता है, 90% कम कठिन होता है - और निम्नलिखित प्रश्न पूछा जा सकता है: S% प्रवृत्ति कितने -V और +V के बीच होने के परिणामस्वरूप अवलोकित किए जाएंगे, जहां V एक सीमा प्रवृत्ति मूल्य है?

उपरोक्त प्रक्रिया को क्रमपरिवर्तन परीक्षण द्वारा प्रतिस्थापित किया जा सकता है। इसके लिए, 100,000 उत्पन्न श्रृंखला के समुच्चय को प्रेक्षित डेटा श्रृंखला को यादृच्छिक रूप से पुनरावर्तित करके निर्मित 100,000 श्रृंखला से प्रतिस्थापित किया जाएगा; स्पष्ट रूप से ऐसी निर्मित श्रृंखला प्रवृत्ति-मुक्त होगी, इसलिए अनुकरणित डेटा का उपयोग करने के साथ इन श्रृंखलाओं का उपयोग सीमा रेखा प्रवृत्ति मान V और −V उत्पन्न करने के लिए किया जा सकता है।

उपरोक्त चर्चा में बड़ी संख्या में परीक्षणों से, अनुकरण द्वारा प्रवृत्तियों के वितरण की गणना की गई थी। साधारण परिप्रेक्ष्य में प्रवृत्तियों के वितरण की गणना अनुकरण के बिना की जा सकती है।

रेंज (−V, V) का उपयोग यह तय करने में किया जा सकता है कि क्या वास्तविक डेटा से अनुमानित प्रवृत्ति उस डेटा श्रृंखला से आने की संभावना नहीं है जिसमें वास्तव में शून्य प्रवृत्ति है। यदि प्रतिगमन पैरामीटर का अनुमानित मूल्य इस सीमा के बाहर है, तो ऐसा परिणाम केवल वास्तविक शून्य प्रवृत्ति की उपस्थिति में हो सकता है, उदाहरण के लिए, बीस में से एक बार यदि विश्वास मूल्य एस = 95% का उपयोग किया गया था; इस मामले में, यह कहा जा सकता है कि, निश्चितता की डिग्री एस पर, हम शून्य परिकल्पना को अस्वीकार करते हैं कि वास्तविक अंतर्निहित प्रवृत्ति शून्य है।

यद्यपि, ध्यान दें कि हम S का जो भी मान चुनते हैं, तो वास्तव में यादृच्छिक श्रृंखला के दिए गए अंश, 1 - S को एक महत्वपूर्ण प्रवृत्ति के रूप में घोषित किया जाएगा। इसके विपरीत, श्रृंखला का एक निश्चित अंश जिसमें वास्तव में गैर-शून्य प्रवृत्ति होती है, उसे प्रवृत्ति घोषित नहीं किया जाएगा।

प्रवृत्ति ध्वनि योग के रूप में डेटा
डेटा की समय श्रृंखला का विश्लेषण करने के लिए, हम मानते हैं कि इसे प्रवृत्ति ध्वनि योग के रूप में दर्शाया जा सकता है:


 * $$y_t = at + b + e_t\,$$

जहाँ $$a$$ और $$b$$ अज्ञात स्थिरांक हैं और $$e$$ डाटा में यादृच्छिक रूप से वितरित त्रुटियाँ और अवशेष हैं। यदि कोई शून्य परिकल्पना को अस्वीकार कर सकता है कि त्रुटियाँ इकाई मूल गैर-स्थिर हैं, तो गैर-स्थिर श्रृंखला {yt } प्रवृत्ति-स्थिर प्रक्रिया कहलाती है। न्यूनतम वर्ग विधि यह मानती है कि त्रुटियों को सामान्य वितरण के साथ स्वतंत्र रूप से वितरित किया जाता है। यदि यह बात नहीं है, तो अज्ञात मापदंडों ए और b के विषय में परिकल्पना परीक्षण गलत हो सकते हैं। यह सबसे सरल है यदि $$e$$ सभी का वितरण समान है, परंतु यदि नहीं तो प्रत्येक बिंदु को उस बिंदु के विचरण के व्युत्क्रम द्वारा भारित करके, न्यूनतम वर्ग फिटिंग के समय इसे ध्यान में रखा जा सकता है।

अधिकांश स्थितियों में, जहां केवल एक टाइम सीरीज ही विश्लेषित की जाती है, त्रुटि $$e$$'s का प्रसरण प्रवृत्ति मिलाकर प्राप्त किया जाता है, जिससे अनुमानित मापदंड मान $$\hat a$$ और $$\hat b$$ प्राप्त होते हैं, जिससे पूर्वानुमानित मान $$\hat y = \hat at + \hat b$$ को डेटा $$y_t$$ से कम किया जाता है (इसे "प्रवृत्ति-हटाना" कहा जाता है) और शेष $$\hat e_t$$ के रूप में "वीप्रवृत्ति डेटा" छोड़ दिया जाता है, और ट्रुटि $$e_t$$'s के प्रसरण का अनुमान रेसिड्यूअल्स से किया जाता है - यह प्रायः $$e_t$$'s के प्रसरण की एकमात्र विधि होती है जिससे उनके प्रसरण का अनुमान लगाया जाता है।

एक बार जब हम श्रृंखला के ध्वनि को जान लेते हैं, तो हम शून्य परिकल्पना बनाकर प्रवृत्ति के महत्व का आकलन कर सकते हैं कि प्रवृत्ति, $$a$$, 0 से भिन्न नहीं है। ज्ञात विचरण के साथ यादृच्छिक डेटा में प्रवृत्तियों की उपरोक्त चर्चा से, हम यादृच्छिक (प्रवृत्तिलेस) डेटा से अपेक्षित गणना किए गए प्रवृत्तियों के वितरण को जानते हैं। यदि अनुमानित प्रवृत्ति, $$\hat a$$, एक निश्चित महत्व स्तर के लिए महत्वपूर्ण मूल्य से बड़ा है, तो अनुमानित प्रवृत्ति को उस महत्व स्तर पर शून्य से अत्यधिक अलग माना जाता है, और शून्य अंतर्निहित प्रवृत्ति की शून्य परिकल्पना अस्वीकृत कर दी जाती है।

एक रेखीय प्रवृत्ति रेखा का उपयोग आलोचना का विषय रहा है, जिससे प्रारूप अनुमान में इसके उपयोग से बचने के लिए वैकल्पिक दृष्टिकोण की खोज की जा रही है। वैकल्पिक दृष्टिकोणों में से एक में अर्थमितीय अध्ययन में यूनिट रूट परीक्षण और सह-एकीकरण तकनीक सम्मिलित है।

समय जैसे रैखिक प्रवृत्ति चर से जुड़े अनुमानित गुणांक की व्याख्या समय की एक इकाई पर आश्रित चर पर कई अज्ञात या ज्ञात परंतु मापे न जा सकने वाले कारकों के प्रभाव के माप के रूप में की जाती है। कड़ाई से कहें तो, यह व्याख्या केवल अनुमान समय सीमा के लिए लागू है। उस समय सीमा के बाहर, कोई नहीं जानता कि वे मापे जाने योग्य कारक गुणात्मक और मात्रात्मक दोनों रूप से कैसे व्यवहार करते हैं। इसके अतिरिक्त, समय की प्रवृत्ति की रैखिकता कई प्रश्न उठाती है:

(i) यह रैखिक क्यों होना चाहिए?

(ii) यदि प्रवृत्ति गैर-रैखिक है तो किन परिस्थितियों में इसका समावेशन प्रारूप में अन्य मापदंडों के अनुमानों के परिमाण के साथ-साथ सांख्यिकीय महत्व को प्रभावित करता है?

(iii) एक प्रारूप में एक रैखिक समय की प्रवृत्ति को सम्मिलित करने से समय के साथ आश्रित चर की प्रवृत्ति में उतार-चढ़ाव की उपस्थिति को रोका जा सकता है; क्या यह किसी विशेष संदर्भ में आवश्यक रूप से मान्य है?

(iv) और, क्या प्रारूप में एक नकली संबंध उपलब्ध है क्योंकि एक अंतर्निहित प्रेरक चर स्वयं समय-प्रवृत्ति है?

उन प्रश्नों के उत्तर में गणितज्ञों, सांख्यिकीविदों, अर्थशास्त्रियों और अर्थशास्त्रियों के शोध परिणाम प्रकाशित किए गए हैं। उदाहरण के लिए, प्रतिगमन प्रारूप में रैखिक समय प्रवृत्तियों के अर्थ पर विस्तृत लेख कैमरून (2005) में दिए गए हैं; ग्रेंजर, एंगल और कई अन्य अर्थशास्त्रियों ने स्थिरता, यूनिट रूट परीक्षण, सह-एकीकरण और संबंधित विषयों पर लिखा है (इस क्षेत्र में कुछ कार्यों का सारांश एक सूचना पत्र में पाया जा सकता है) रॉयल स्वीडिश एकेडमी ऑफ साइंसेज द्वारा (2003); और हो-ट्राइयू और टकर (1990) ने लॉगरिदमिक समय प्रवृत्तियों पर लिखा है, जिसके परिणाम दर्शाते हैं कि रैखिक समय, प्रवृत्ति चक्र की विशेष स्थिति हैं।

उदाहरण: ध्वनि वाली समय श्रृंखला
किसी ध्वनियुक्त समय शृंखला में प्रवृत्ति देखना मुश्किल होता है। उदाहरण के लिए, यदि वास्तविक श्रृंखला 0, 1, 2, 3 है, जिसमें एक स्वतंत्र रूप से साधारण वितरित "ध्वनि" e जिसका सामान्य प्रसरण E है, जोड़ा गया है, और हमारे पास एक लंबाई 50 की प्रारूप श्रृंखला है, तो यदि E = 0.1 है तो प्रवृत्ति स्पष्ट होगा; यदि E = 100 है तो प्रवृत्ति संभावतः दिखाई देगा; परंतु यदि E = 10000 है तो प्रवृत्ति ध्वनि में छिप जाएगा।

यदि हम एक ठोस उदाहरण पर विचार करें, तो जलवायु परिवर्तन पर अंतर सरकारी पैनल द्वारा प्रस्तुत पिछले 140 वर्षों का वैश्विक सतह तापमान रिकॉर्ड: तब अंतरवार्षिक भिन्नता लगभग 0.2°C है और प्रवृत्ति 140 वर्षों में लगभग 0.6°C है, 95% विश्वास सीमा 0.2°C के साथ संयोजित होता है। इसलिए प्रवृत्ति सांख्यिकीय रूप से 0 से भिन्न है। यद्यपि, जैसा कि अन्यत्र उल्लेख किया गया है इस बार की श्रृंखला न्यूनतम वर्गों के वैध होने के लिए आवश्यक मान्यताओं के अनुरूप नहीं है।

फिट की अच्छाई (आर-वर्ग) और प्रवृत्ति
न्यूनतम-वर्ग फिटिंग प्रक्रिया एक आर-वर्ग (r2) मान उत्पन्न करती है जो कि अवशिष्टों के प्रसरण और आश्रित चर के प्रसरण के अनुपात से 1 कम है। यह बताता है कि डेटा के विचरण का कौन सा अंश फिट प्रवृत्ति रेखा द्वारा समझाया गया है। यह प्रवृत्ति रेखा के सांख्यिकीय महत्व से संबंधित नहीं है (ग्राफ़ देखें); प्रवृत्ति का सांख्यिकीय महत्व उसके टी-सांख्यिकी द्वारा निर्धारित होता है। प्रायः, किसी श्रृंखला को फ़िल्टर करने से r2 बढ़ जाता है।

वास्तविक डेटा को अधिक जटिल प्रारूप की आवश्यकता हो सकती है
अब तक डेटा को प्रवृत्ति ध्वनि योग से युक्त माना गया है, प्रत्येक डेटा बिंदु पर ध्वनि स्वतंत्र और समान रूप से वितरित यादृच्छिक चर और एक सामान्य वितरण है। वास्तविक डेटा (उदाहरण के लिए जलवायु डेटा) इन मानदंडों को पूरा नहीं कर सकता है। यह महत्वपूर्ण है, क्योंकि इससे डेटा श्रृंखला से अधिकतम जानकारी निकालने के लिए आंकड़ों का विश्लेषण करने में आसानी होती है। यदि ऐसे अन्य गैर-रैखिक प्रभाव हैं जिनका स्वतंत्र चर से संबंध है (जैसे कि चक्रीय प्रभाव), तो प्रवृत्ति के न्यूनतम-वर्ग अनुमान का उपयोग मान्य नहीं है। साथ ही जहां परिणामी सीधी रेखा प्रवृत्ति की तुलना में विविधताएं अत्यधिक बड़ी हैं, वहां प्रारंभ और अंत बिंदुओं का चुनाव परिणाम को महत्वपूर्ण रूप से बदल सकता है। यानी प्रारूप गणितीय रूप से सांख्यिकीय प्रारूप विनिर्देश है। सांख्यिकीय अनुमान (प्रवृत्ति की उपस्थिति के लिए परीक्षण, प्रवृत्ति के लिए विश्वास अंतराल, आदि) तब तक अमान्य हैं जब तक कि मानक मान्यताओं से विचलन का ठीक से हिसाब नहीं लगाया जाता है, उदाहरण के लिए निम्नानुसार:

आर प्रोग्रामिंग लैंग्वेज में, 'पूर्वानुमान' पैकेज के 'टीएसएलएम' फलन का उपयोग करके डेटा में रैखिक प्रवृत्ति का अनुमान लगाया जा सकता है।
 * निर्भरता: ऑटोसहसंबंधित समय श्रृंखला को ऑटोरेग्रेसिव मूविंग एवरेज प्रारूप का उपयोग करके तैयार किया जा सकता है।
 * गैर-स्थिर विचरण: सरलतम परिप्रेक्ष्य में भारित न्यूनतम वर्ग का उपयोग किया जा सकता है।
 * त्रुटियों के लिए गैर-सामान्य वितरण: सरलतम परिप्रेक्ष्य में एक सामान्यीकृत रैखिक प्रारूप लागू हो सकता है।
 * यूनिट रूट: डेटा के पहले (या कभी-कभी दूसरे) अंतर को प्राप्त करना, विभिन्न यूनिट रूट परीक्षणों के माध्यम से अंतर के स्तर की पहचान की जाती है।

नैदानिक ​​​​डेटा में प्रवृत्तियों
मेडिकल और जैव चिकित्सा अध्ययन प्रायः डेटा के समुच्चय में एक संबंध निर्धारित करने का प्रयास करते हैं, जैसे कि तीन अलग-अलग रोग। परंतु डेटा को समय (जैसे कि आधाररेखा से औषधि के प्रभाव में परिवर्तन), या किसी बाहरी कारक से जो शोधकर्ता और/या उनके विषय द्वारा निर्धारित किया जा सकता है या नहीं भी किया जा सकता है (जैसे कि कोई दर्द नहीं, हल्का दर्द, मध्यम दर्द, गंभीर दर्द) से भी जोड़ा जा सकता है। इन परिप्रेक्ष्य में किसी को प्रभाव परीक्षण के डाटा (उदाहरण के लिए कोलेस्ट्रॉल के स्तर पर स्टैटिन का प्रभाव, दर्द की डिग्री पर एक दर्दनिवारक, या मापने योग्य सूचकांक पर दवा की बढ़ती खुराक) के प्रभाव विकसित होने के साथ सीधे क्रम में परिवर्तन की संभावना होगी। मान लीजिए कि स्टैटिन के प्रभाव से पहले और बाद में कोलेस्ट्रॉल का औसत स्तर आधाररेखा पर 5.6 mmol/L से गिरकर एक महीने में 3.4 mmol/L और दो महीने में 3.7 mmol/L हो जाता है। पर्याप्त शक्ति दिए जाने पर, एनोवा में एक और दो महीने में महत्वपूर्ण गिरावट आने की संभावना है, परंतु गिरावट रैखिक नहीं है। इसके अतिरिक्त, पोस्ट-हॉक परीक्षण की आवश्यकता हो सकती है। डेटा की प्रकृति के आधार पर एक वैकल्पिक परीक्षण दोहराया गया उपाय (दो-तरफा) एनोवा, या फ्रीडमैन परीक्षण हो सकता है। फिर भी, क्योंकि समूह क्रमबद्ध हैं, एक मानक एनोवा अनुपयुक्त है। क्या कोलेस्ट्रॉल 5.4 से गिरकर 4.1 से 3.7 हो जाना चाहिए, एक स्पष्ट रैखिक प्रवृत्ति है। समान सिद्धांत को एलील/जीनोटाइप आवृत्ति के प्रभावों पर लागू किया जा सकता है, जहां यह तर्क दिया जा सकता है कि न्यूक्लियोटाइड्स XX, XY, YY में एकल-न्यूक्लियोटाइड बहुरूपता वास्तव में कोई Y नहीं, एक Y और फिर दो Y की प्रवृत्ति है।

रेखीय प्रवृत्ति अनुमान का गणित मानक एनोवा का एक प्रकार है, जो अलग-अलग जानकारी देता है, और यदि शोधकर्ता अपने परीक्षण आंकड़ों में प्रवृत्ति प्रभाव की परिकल्पना कर रहे हैं तो यह सबसे उपयुक्त परीक्षण होगा। एक उदाहरण [1] उम्र के दशक (10-19 वर्ष से 60-69 वर्ष तक) के अनुसार क्रमबद्ध विषयों के छह समूहों में सीरम ट्रिप्सिन के स्तर का है। ट्रिप्सिन (एनजी/एमएल) का स्तर 128, 152, 194, 207, 215, 218 की सीधी रैखिक प्रवृत्ति में बढ़ता है। आश्चर्य की बात नहीं है कि, एक 'मानक' एनोवा पी <0.0001 देता है, जबकि रेखीय प्रवृत्ति अनुमान P = 0.00006 देता है। संयोग से, यह उचित रूप से तर्क दिया जा सकता है कि चूंकि उम्र एक प्राकृतिक निरंतर परिवर्तनशील सूचकांक है, इसलिए इसे दशकों में वर्गीकृत नहीं किया जाना चाहिए, और सहसंबंध द्वारा उम्र और सीरम ट्रिप्सिन का प्रभाव मांगा जाना चाहिए। एक और उदाहरण विभिन्न समूहों में चार समय बिंदुओं पर मापे गए पदार्थ का है: माध्य [एसडी] (1) 1.6 [0.56], (2) 1.94 [0.75], (3) 2.22 [0.66], (4) 2.40 [0.79], जो एक स्पष्ट प्रवृत्ति है। एनोवा p = 0.091 देता है, क्योंकि समग्र विचरण साधन से अधिक है, जबकि रेखीय प्रवृत्ति अनुमान p = 0.012 देता है। यद्यपि, क्या डेटा को एक ही व्यक्ति में चार समय बिंदुओं पर एकत्र किया जाना चाहिए, रेखीय प्रवृत्ति अनुमान अनुचित होगा, और इसके लिए दो-तरफा एनोवा लागू किया जा सकता है।

यह भी देखें

 * अनुमान आँकड़े
 * एक्सट्रपलेशन
 * भविष्यवाणी
 * कम से कम वर्गों
 * न्यूनतम-वर्ग वर्णक्रमीय विश्लेषण
 * लाइन फिटिंग
 * भविष्यवाणी अंतराल
 * प्रतिगमन विश्लेषण

संदर्भ

 * DOI:10.22004/ag.econ.12288
 * DOI:10.22004/ag.econ.12288
 * DOI:10.22004/ag.econ.12288
 * DOI:10.22004/ag.econ.12288