रेखीय प्रवृत्ति अनुमान

रैखिक ट्रेंड अनुमान, डेटा की व्याख्या में सहायता के लिए एक सांख्यिकी तकनीक है। जब किसी प्रक्रिया के मापों की एक श्रृंखला को, उदाहरण के लिए, एक अनुक्रम या समय श्रृंखला, के रूप में माना जाता है, तो ट्रेंड अनुमान का उपयोग डेटा में ट्रेंडों के बारे में कथन और कारण बताने के लिए किया जा सकता है। इस मॉडल का उपयोग प्राप्त डेटा के व्यवहार को बिना निर्दिष्ट किए उसका वर्णन करने के लिए किया जा सकता है।

विशेष रूप से, यह जानना उपयोगी हो सकता है कि क्या मापन में कोई वृद्धि या अवनति की ट्रेंड है, जिसे सांख्यिक रूप से यादृच्छिक व्यवहार से अलग किया जा सकता है। कुछ उदाहरण सर्दियों से गर्मियों तक किसी दिए गए स्थान पर दैनिक औसत तापमान की ट्रेंड का निर्धारण करना, और पिछले 100 वर्षों में वैश्विक तापमान श्रृंखला में ट्रेंड का निर्धारण करना। बाद के परिप्रेक्ष्य में, एकरूपता के मुद्दे महत्वपूर्ण हैं (उदाहरण के लिए, इस बारे में कि क्या श्रृंखला अपनी पूरी लंबाई में समान रूप से विश्वसनीय है)।

ट्रेंडों को फिट करना: न्यूनतम-वर्ग
डेटा के एक समुच्चय और उन डेटा के किसी प्रकार के अर्थमितीय मॉडल का उत्पादन करने की इच्छा को देखते हुए, कई प्रकार के फलन हैं जिन्हें फिट के लिए चुना जा सकता है। यदि डेटा की कोई पूर्व समझ नहीं है, तो फिट करने के लिए सबसे सरल फलन y अक्ष पर डेटा मानों के साथ एक सीधी रेखा है, और x अक्ष पर समय (t = 1, 2, 3, ...) है।

एक बार एक सीधी रेखा में फिट करने का निर्णय लेने के उपरांत, ऐसा करने की कई विधियाँ हैं, परंतु सबसे सामान्य विकल्प न्यूनतम-वर्ग फिट है। यह विधि डेटा श्रृंखला y में वर्ग त्रुटियों के योग को कम करती है।

समय में बिंदुओं का एक समुच्चय $$t$$ दिया गया है, और डेटा मान $$y_t$$ समय में उन बिंदुओं, मानों के लिए अवलोकन किया गया $$a$$ और $$b$$ इसलिए चुना जाता है


 * $$\sum_t \left[ y_t - \left( \hat{a}t + \hat{b} \right) \right]^2$$

न्यूनतम किया गया है. यहां + b ट्रेंड रेखा है, इसलिए ट्रेंड रेखा से वर्ग विचलन का योग न्यूनतम किया जा रहा है। यह सदैव संवृत्त रूप में किया जा सकता है क्योंकि यह सरल रैखिक प्रतिगमन की स्थिति है।

इस लेख के शेष भाग के लिए, "ट्रेंड" का अर्थ न्यूनतम वर्ग रेखा का ढलान होगा, क्योंकि यह एक सामान्य परंपरा है।

यादृच्छिक डेटा में ट्रेंड्स
वास्तविक डेटा में ट्रेंड्स पर विचार करने से पहले, यादृच्छिक चर में ट्रेंड्स को समझना आवश्यक है।

यदि एक श्रृंखला जिसे यादृच्छिक जाना जाता है, जैसे न्यायिक पासा फेंकना या कंप्यूटर उत्पन्न नकली-यादृच्छिक संख्याएं, को विश्लेषित किया जाता है और डेटा में एक ट्रेंड रेखा को मिलाने का प्रयास किया जाता है, तो शून्य के समान प्राप्त अनुमानित ट्रेंड की संभावना बहुत कम होते हैं। परंतु यह ट्रेंड छोटी रहने की संभावना होगी। यदि किसी व्यक्तिगत अवलोकन श्रृंखला को उन्नतियों से उत्पन्न किया गया है जो एक दिए गए शोर अनुपात के साथ एक से बड़े शोर अनुपात के बराबर है और एक दिए गए लंबाई (कहें, 100 बिंदु) के साथ, तो एक बड़ी संख्या में ऐसी परिकल्पित श्रृंखला (कहें, 100,000 श्रृंखला) उत्पन्न की जा सकती हैं। फिर प्रत्येक श्रृंखला में अनुमानित ट्रेंड्स की गणना करने के लिए इन 100,000 श्रृंखलाओं का व्यक्तिगत रूप से विश्लेषण किया जा सकता है, और ये परिणाम अनुमानित ट्रेंड्स का एक वितरण स्थापित करते हैं जो ऐसे यादृच्छिक डेटा से अपेक्षित होते हैं - आरेख देखें। पैथोलॉजिकल विषयों को छोड़कर ऐसा वितरण केंद्रीय सीमा प्रमेय के अनुसार सामान्य वितरण होगा। अब एक संखिकीय निश्चितता स्तर, S, का चयन किया जा सकता है - 95% आत्मविश्वास सामान्य होता है; 99% कठिनतर होता है, 90% कम कठिनतर होता है - और निम्नलिखित प्रश्न पूछा जा सकता है: S% ट्रेंड कितने -V और +V के बीच होने के परिणामस्वरूप होंगे, जहां V एक सीमा ट्रेंड मूल्य है?

उपरोक्त प्रक्रिया को क्रमपरिवर्तन परीक्षण द्वारा प्रतिस्थापित किया जा सकता है। इसके लिए, 100,000 उत्पन्न श्रृंखला के समुच्चय को प्रेक्षित डेटा श्रृंखला को यादृच्छिक रूप से फेरबदल करके निर्मित 100,000 श्रृंखला से प्रतिस्थापित किया जाएगा; स्पष्ट रूप से ऐसी निर्मित श्रृंखला ट्रेंड-मुक्त होगी, इसलिए सिम्युलेटेड डेटा का उपयोग करने के दृष्टिकोण के साथ इन श्रृंखलाओं का उपयोग सीमा रेखा ट्रेंड मान V और −V उत्पन्न करने के लिए किया जा सकता है।

उपरोक्त चर्चा में बड़ी संख्या में परीक्षणों से, अनुकरण द्वारा ट्रेंड्स के वितरण की गणना की गई थी। साधारण परिप्रेक्ष्य में ट्रेंड्स के वितरण की गणना अनुकरण के बिना बिल्कुल की जा सकती है।

रेंज (−V, V) का उपयोग यह तय करने में किया जा सकता है कि क्या वास्तविक डेटा से अनुमानित ट्रेंड उस डेटा श्रृंखला से आने की संभावना नहीं है जिसमें वास्तव में शून्य ट्रेंड है। यदि प्रतिगमन पैरामीटर का अनुमानित मूल्य इस सीमा के बाहर है, तो ऐसा परिणाम केवल वास्तविक शून्य ट्रेंड की उपस्थिति में हो सकता है, उदाहरण के लिए, बीस में से एक बार यदि विश्वास मूल्य एस = 95% का उपयोग किया गया था; इस मामले में, यह कहा जा सकता है कि, निश्चितता की डिग्री एस पर, हम शून्य परिकल्पना को अस्वीकार करते हैं कि वास्तविक अंतर्निहित ट्रेंड शून्य है।

यद्यपि, ध्यान दें कि हम S का जो भी मान चुनते हैं, तो वास्तव में यादृच्छिक श्रृंखला के दिए गए अंश, 1 - S को एक महत्वपूर्ण ट्रेंड के रूप में घोषित किया जाएगा। इसके विपरीत, श्रृंखला का एक निश्चित अंश जिसमें वास्तव में गैर-शून्य ट्रेंड होती है, उसे ट्रेंड घोषित नहीं किया जाएगा।

ट्रेंड प्लस शोर के रूप में डेटा
डेटा की समय श्रृंखला का विश्लेषण करने के लिए, हम मानते हैं कि इसे ट्रेंड प्लस शोर के रूप में दर्शाया जा सकता है:


 * $$y_t = at + b + e_t\,$$

जहाँ $$a$$ और $$b$$ अज्ञात स्थिरांक हैं और $$e$$ डाटा में यादृच्छिक रूप से वितरित त्रुटियाँ और अवशेष हैं। यदि कोई शून्य परिकल्पना को अस्वीकार कर सकता है कि त्रुटियाँ इकाई मूल गैर-स्थिर हैं, तो गैर-स्थिर श्रृंखला {yt } ट्रेंड-स्थिर प्रक्रिया कहलाती है। न्यूनतम वर्ग विधि यह मानती है कि त्रुटियों को सामान्य वितरण के साथ स्वतंत्र रूप से वितरित किया जाता है। यदि यह बात नहीं है, तो अज्ञात मापदंडों ए और b के बारे में परिकल्पना परीक्षण गलत हो सकते हैं। यह सबसे सरल है यदि $$e$$सभी का वितरण समान है, परंतु यदि नहीं (यदि कुछ में विषमलैंगिकता है, जिसका अर्थ है कि वे डेटा बिंदु प्रभावी रूप से कम निश्चित हैं) तो प्रत्येक बिंदु को उस बिंदु के विचरण के व्युत्क्रम द्वारा भारित करके, न्यूनतम वर्ग फिटिंग के दौरान इसे ध्यान में रखा जा सकता है।

अधिकांश स्थितियों में, जहां केवल एक टाइम सीरीज ही विश्लेषित की जाती है, त्रुटि $$e$$'s का वेरिएंस ट्रेंड मिलाकर प्राप्त किया जाता है, जिससे अनुमानित पैरामीटर मान $$\hat a$$ और $$\hat b$$ प्राप्त होते हैं, जिससे पूर्वानुमानित मान $$\hat y = \hat at + \hat b$$ को डेटा $$y_t$$ से कम किया जाता है (इसे "ट्रेंड-हटाना" कहा जाता है) और शेष $$\hat e_t$$ के रूप में "डीट्रेंडेड डेटा" छोड़ दिया जाता है, और ट्रुटि $$e_t$$'s के वेरिएंस का अनुमान रेसिड्यूअल्स से किया जाता है - यह प्रायः $$e_t$$'s के प्रसरण की एकमात्र विधि होती है जिससे उनके प्रसरण का अनुमान लगाया जाता है।

एक बार जब हम श्रृंखला के शोर को जान लेते हैं, तो हम शून्य परिकल्पना बनाकर ट्रेंड के महत्व का आकलन कर सकते हैं कि ट्रेंड, $$a$$, 0 से भिन्न नहीं है। ज्ञात विचरण के साथ यादृच्छिक डेटा में ट्रेंड्स की उपरोक्त चर्चा से, हम यादृच्छिक (ट्रेंडलेस) डेटा से अपेक्षित गणना किए गए ट्रेंड्स के वितरण को जानते हैं। यदि अनुमानित ट्रेंड, $$\hat a$$, एक निश्चित महत्व स्तर के लिए महत्वपूर्ण मूल्य से बड़ा है, तो अनुमानित ट्रेंड को उस महत्व स्तर पर शून्य से काफी अलग माना जाता है, और शून्य अंतर्निहित ट्रेंड की शून्य परिकल्पना खारिज कर दी जाती है।

एक रेखीय ट्रेंड रेखा का उपयोग आलोचना का विषय रहा है, जिससे मॉडल अनुमान में इसके उपयोग से बचने के लिए वैकल्पिक दृष्टिकोण की खोज की जा रही है। वैकल्पिक दृष्टिकोणों में से एक में अर्थमितीय अध्ययन में यूनिट रूट परीक्षण और सह-एकीकरण तकनीक शामिल है।

समय जैसे रैखिक ट्रेंड चर से जुड़े अनुमानित गुणांक की व्याख्या समय की एक इकाई पर आश्रित चर पर कई अज्ञात या ज्ञात परंतु मापे न जा सकने वाले कारकों के प्रभाव के माप के रूप में की जाती है। कड़ाई से कहें तो, यह व्याख्या केवल अनुमान समय सीमा के लिए लागू है। उस समय सीमा के बाहर, कोई नहीं जानता कि वे मापे जाने योग्य कारक गुणात्मक और मात्रात्मक दोनों रूप से कैसे व्यवहार करते हैं। इसके अतिरिक्त, समय की ट्रेंड की रैखिकता कई प्रश्न उठाती है:

(i) यह रैखिक क्यों होना चाहिए?

(ii) यदि ट्रेंड गैर-रैखिक है तो किन परिस्थितियों में इसका समावेशन मॉडल में अन्य मापदंडों के अनुमानों के परिमाण के साथ-साथ सांख्यिकीय महत्व को प्रभावित करता है?

(iii) एक मॉडल में एक रैखिक समय की ट्रेंड को शामिल करने से समय के साथ आश्रित चर की ट्रेंड में उतार-चढ़ाव की उपस्थिति को रोका जा सकता है; क्या यह किसी विशेष संदर्भ में आवश्यक रूप से मान्य है?

(iv) और, क्या मॉडल में एक नकली संबंध उपलब्ध है क्योंकि एक अंतर्निहित प्रेरक चर स्वयं समय-ट्रेंड है?

उन प्रश्नों के उत्तर में गणितज्ञों, सांख्यिकीविदों, अर्थशास्त्रियों और अर्थशास्त्रियों के शोध परिणाम प्रकाशित किए गए हैं। उदाहरण के लिए, प्रतिगमन मॉडल में रैखिक समय ट्रेंडों के अर्थ पर विस्तृत लेख कैमरून (2005) में दिए गए हैं; ग्रेंजर, एंगल और कई अन्य अर्थशास्त्रियों ने स्थिरता, यूनिट रूट परीक्षण, सह-एकीकरण और संबंधित मुद्दों पर लिखा है (इस क्षेत्र में कुछ कार्यों का सारांश एक सूचना पत्र में पाया जा सकता है) रॉयल स्वीडिश एकेडमी ऑफ साइंसेज द्वारा (2003); और हो-ट्राइयू और टकर (1990) ने लॉगरिदमिक समय ट्रेंडों पर लिखा है, जिसके परिणाम दर्शाते हैं कि रैखिक समय, ट्रेंड चक्र की विशेष स्थिति हैं।

उदाहरण: शोर वाली समय श्रृंखला
किसी शोरयुक्त समय शृंखला में ट्रेंड देखना मुश्किल होता है। उदाहरण के लिए, यदि वास्तविक श्रृंखला 0, 1, 2, 3 है, जिसमें एक स्वतंत्र रूप से साधारण वितरित "शोर" e जिसका सामान्य प्रसरण E है, जोड़ा गया है, और हमारे पास एक लंबाई 50 की प्रारूप श्रृंखला है, तो यदि E = 0.1 है तो ट्रेंड स्पष्ट होगा; यदि E = 100 है तो ट्रेंड संभावतः दिखाई देगा; परंतु यदि E = 10000 है तो ट्रेंड शोर में छिप जाएगा।

यदि हम एक ठोस उदाहरण पर विचार करें, तो जलवायु परिवर्तन पर अंतर सरकारी पैनल द्वारा प्रस्तुत पिछले 140 वर्षों का वैश्विक सतह तापमान रिकॉर्ड: तब अंतरवार्षिक भिन्नता लगभग 0.2°C है और ट्रेंड 140 वर्षों में लगभग 0.6°C है, 95% विश्वास सीमा 0.2°C के साथ संयोजित होता है। इसलिए ट्रेंड सांख्यिकीय रूप से 0 से भिन्न है। यद्यपि, जैसा कि अन्यत्र उल्लेख किया गया है इस बार की श्रृंखला न्यूनतम वर्गों के वैध होने के लिए आवश्यक मान्यताओं के अनुरूप नहीं है।

फिट की अच्छाई (आर-वर्ग) और ट्रेंड
न्यूनतम-वर्ग फिटिंग प्रक्रिया एक आर-वर्ग (r2) मान उत्पन्न करती है जो कि अवशिष्टों के प्रसरण और आश्रित चर के प्रसरण के अनुपात से 1 कम है। यह बताता है कि डेटा के विचरण का कौन सा अंश फिट ट्रेंड रेखा द्वारा समझाया गया है। यह ट्रेंड रेखा के सांख्यिकीय महत्व से संबंधित नहीं है (ग्राफ़ देखें); ट्रेंड का सांख्यिकीय महत्व उसके टी-सांख्यिकी द्वारा निर्धारित होता है। प्रायः, किसी श्रृंखला को फ़िल्टर करने से r2 बढ़ जाता है।

वास्तविक डेटा को अधिक जटिल मॉडल की आवश्यकता हो सकती है
अब तक डेटा को ट्रेंड प्लस शोर से युक्त माना गया है, प्रत्येक डेटा बिंदु पर शोर स्वतंत्र और समान रूप से वितरित यादृच्छिक चर और एक सामान्य वितरण है। वास्तविक डेटा (उदाहरण के लिए जलवायु डेटा) इन मानदंडों को पूरा नहीं कर सकता है। यह महत्वपूर्ण है, क्योंकि इससे डेटा श्रृंखला से अधिकतम जानकारी निकालने के लिए आंकड़ों का विश्लेषण करने में आसानी होती है। यदि ऐसे अन्य गैर-रैखिक प्रभाव हैं जिनका स्वतंत्र चर से संबंध है (जैसे कि चक्रीय प्रभाव), तो ट्रेंड के न्यूनतम-वर्ग अनुमान का उपयोग मान्य नहीं है। साथ ही जहां परिणामी सीधी रेखा ट्रेंड की तुलना में विविधताएं काफी बड़ी हैं, वहां प्रारंभ और अंत बिंदुओं का चुनाव परिणाम को महत्वपूर्ण रूप से बदल सकता है। यानी मॉडल गणितीय रूप से सांख्यिकीय मॉडल विनिर्देश है। सांख्यिकीय अनुमान (ट्रेंड की उपस्थिति के लिए परीक्षण, ट्रेंड के लिए विश्वास अंतराल, आदि) तब तक अमान्य हैं जब तक कि मानक मान्यताओं से विचलन का ठीक से हिसाब नहीं लगाया जाता है, उदाहरण के लिए निम्नानुसार:

आर प्रोग्रामिंग लैंग्वेज में, 'पूर्वानुमान' पैकेज के 'टीएसएलएम' फलन का उपयोग करके डेटा में रैखिक ट्रेंड का अनुमान लगाया जा सकता है।
 * निर्भरता: ऑटोसहसंबंधित समय श्रृंखला को ऑटोरेग्रेसिव मूविंग एवरेज मॉडल का उपयोग करके तैयार किया जा सकता है।
 * गैर-स्थिर विचरण: सरलतम परिप्रेक्ष्य में भारित न्यूनतम वर्ग का उपयोग किया जा सकता है।
 * त्रुटियों के लिए गैर-सामान्य वितरण: सरलतम परिप्रेक्ष्य में एक सामान्यीकृत रैखिक मॉडल लागू हो सकता है।
 * यूनिट रूट: डेटा के पहले (या कभी-कभी दूसरे) अंतर को प्राप्त करना, विभिन्न यूनिट रूट परीक्षणों के माध्यम से अंतर के स्तर की पहचान की जाती है।

नैदानिक ​​​​डेटा में ट्रेंड्स
मेडिकल और जैव चिकित्सा अध्ययन प्रायः डेटा के समुच्चय में एक संबंध निर्धारित करने का प्रयास करते हैं, जैसे कि तीन अलग-अलग बीमारियाँ। परंतु डेटा को समय (जैसे कि आधाररेखा से औषधि के प्रभाव में परिवर्तन), या किसी बाहरी कारक से जो शोधकर्ता और/या उनके विषय द्वारा निर्धारित किया जा सकता है या नहीं भी किया जा सकता है (जैसे कि कोई दर्द नहीं, हल्का दर्द, मध्यम दर्द, गंभीर दर्द) से भी जोड़ा जा सकता है। इन परिप्रेक्ष्य में किसी को प्रभाव परीक्षण के डाटा (उदाहरण के लिए कोलेस्ट्रॉल के स्तर पर स्टैटिन का प्रभाव, दर्द की डिग्री पर एक दर्दनिवारक, या मापने योग्य सूचकांक पर दवा की बढ़ती खुराक) के प्रभाव विकसित होने के साथ सीधे क्रम में परिवर्तन की संभावना होगी। मान लीजिए कि स्टैटिन के प्रभाव से पहले और बाद में कोलेस्ट्रॉल का औसत स्तर आधाररेखा पर 5.6 mmol/L से गिरकर एक महीने में 3.4 mmol/L और दो महीने में 3.7 mmol/L हो जाता है। पर्याप्त शक्ति दिए जाने पर, एनोवा में एक और दो महीने में महत्वपूर्ण गिरावट आने की संभावना है, परंतु गिरावट रैखिक नहीं है। इसके अतिरिक्त, पोस्ट-हॉक परीक्षण की आवश्यकता हो सकती है। डेटा की प्रकृति के आधार पर एक वैकल्पिक परीक्षण दोहराया गया उपाय (दो-तरफा) एनोवा, या फ्रीडमैन परीक्षण हो सकता है। फिर भी, क्योंकि समूह क्रमबद्ध हैं, एक मानक एनोवा अनुपयुक्त है। क्या कोलेस्ट्रॉल 5.4 से गिरकर 4.1 से 3.7 हो जाना चाहिए, एक स्पष्ट रैखिक ट्रेंड है। समान सिद्धांत को एलील/जीनोटाइप आवृत्ति के प्रभावों पर लागू किया जा सकता है, जहां यह तर्क दिया जा सकता है कि न्यूक्लियोटाइड्स XX, XY, YY में एकल-न्यूक्लियोटाइड बहुरूपता वास्तव में कोई Y नहीं, एक Y और फिर दो Y की ट्रेंड है।

रैखिक ट्रेंड अनुमान का गणित मानक एनोवा का एक प्रकार है, जो अलग-अलग जानकारी देता है, और यदि शोधकर्ता अपने परीक्षण आंकड़ों में ट्रेंड प्रभाव की परिकल्पना कर रहे हैं तो यह सबसे उपयुक्त परीक्षण होगा। एक उदाहरण [1] उम्र के दशक (10-19 वर्ष से 60-69 वर्ष तक) के अनुसार क्रमबद्ध विषयों के छह समूहों में सीरम ट्रिप्सिन के स्तर का है। ट्रिप्सिन (एनजी/एमएल) का स्तर 128, 152, 194, 207, 215, 218 की सीधी रैखिक ट्रेंड में बढ़ता है। आश्चर्य की बात नहीं है कि, एक 'मानक' एनोवा पी <0.0001 देता है, जबकि रैखिक ट्रेंड अनुमान P = 0.00006 देता है। संयोग से, यह उचित रूप से तर्क दिया जा सकता है कि चूंकि उम्र एक प्राकृतिक निरंतर परिवर्तनशील सूचकांक है, इसलिए इसे दशकों में वर्गीकृत नहीं किया जाना चाहिए, और सहसंबंध द्वारा उम्र और सीरम ट्रिप्सिन का प्रभाव मांगा जाना चाहिए। एक और उदाहरण विभिन्न समूहों में चार समय बिंदुओं पर मापे गए पदार्थ का है: माध्य [एसडी] (1) 1.6 [0.56], (2) 1.94 [0.75], (3) 2.22 [0.66], (4) 2.40 [0.79], जो एक स्पष्ट ट्रेंड है। एनोवा p = 0.091 देता है, क्योंकि समग्र विचरण साधन से अधिक है, जबकि रैखिक ट्रेंड अनुमान p = 0.012 देता है। यद्यपि, क्या डेटा को एक ही व्यक्ति में चार समय बिंदुओं पर एकत्र किया जाना चाहिए, रैखिक ट्रेंड अनुमान अनुचित होगा, और इसके लिए दो-तरफा एनोवा लागू किया जा सकता है।

यह भी देखें

 * अनुमान आँकड़े
 * एक्सट्रपलेशन
 * भविष्यवाणी
 * कम से कम वर्गों
 * न्यूनतम-वर्ग वर्णक्रमीय विश्लेषण
 * लाइन फिटिंग
 * भविष्यवाणी अंतराल
 * प्रतिगमन विश्लेषण

संदर्भ

 * DOI:10.22004/ag.econ.12288
 * DOI:10.22004/ag.econ.12288
 * DOI:10.22004/ag.econ.12288
 * DOI:10.22004/ag.econ.12288