डेटा आत्मसात्करण

डेटा एसिमिलेशन गणितीय अनुशासन है जो अवलोकन के साथ सिद्धांत (आमतौर पर संख्यात्मक मॉडल के रूप में) को बेहतर ढंग से संयोजित करना चाहता है। कई अलग-अलग लक्ष्य हो सकते हैं - उदाहरण के लिए, किसी सिस्टम की इष्टतम स्थिति का अनुमान निर्धारित करना, संख्यात्मक पूर्वानुमान मॉडल के लिए प्रारंभिक स्थितियां निर्धारित करना, देखे जा रहे सिस्टम के ज्ञान (जैसे भौतिक) का उपयोग करके विरल अवलोकन डेटा को प्रक्षेपित करना, देखे गए डेटा से मॉडल को प्रशिक्षित करने के आधार पर संख्यात्मक पैरामीटर सेट करना। लक्ष्य के आधार पर, विभिन्न समाधान विधियों का उपयोग किया जा सकता है। डेटा आत्मसात को मशीन लर्निंग, छवि विश्लेषण और सांख्यिकीय तरीकों के अन्य रूपों से अलग किया जाता है, क्योंकि यह विश्लेषण किए जा रहे सिस्टम के गतिशील मॉडल का उपयोग करता है।

डेटा सम्मिलन प्रारंभ में संख्यात्मक मौसम भविष्यवाणी के क्षेत्र में विकसित हुआ। संख्यात्मक मौसम पूर्वानुमान मॉडल वायुमंडल के गतिशील व्यवहार का वर्णन करने वाले समीकरण हैं, जिन्हें आमतौर पर कंप्यूटर प्रोग्राम में कोडित किया जाता है। पूर्वानुमान लगाने के लिए इन मॉडलों का उपयोग करने के लिए, मॉडल के लिए प्रारंभिक स्थितियों की आवश्यकता होती है जो वायुमंडल की वर्तमान स्थिति से काफी मिलती-जुलती हो। केवल संख्यात्मक मॉडलों में बिंदुवार माप डालने से कोई संतोषजनक समाधान नहीं मिलता। वास्तविक दुनिया के मापों में उपकरण की गुणवत्ता और माप की स्थिति कितनी सटीक रूप से ज्ञात है, दोनों के कारण त्रुटियां होती हैं। ये त्रुटियां मॉडल में अस्थिरता पैदा कर सकती हैं जो पूर्वानुमान में किसी भी स्तर के कौशल को खत्म कर देती हैं। इस प्रकार, संख्यात्मक मॉडल में स्थिरता बनाए रखना सुनिश्चित करते हुए सभी उपलब्ध डेटा का उपयोग करके मॉडल को आरंभ करने के लिए अधिक परिष्कृत तरीकों की आवश्यकता थी। इस तरह के डेटा में आम तौर पर माप के साथ-साथ पिछले पूर्वानुमान भी शामिल होते हैं जो माप किए जाने के समय मान्य होते हैं। यदि इसे पुनरावृत्त रूप से लागू किया जाए, तो यह प्रक्रिया पिछले अवलोकनों से बाद के सभी पूर्वानुमानों में जानकारी जमा करना शुरू कर देती है।

क्योंकि डेटा सम्मिलन संख्यात्मक मौसम भविष्यवाणी के क्षेत्र से विकसित हुआ, इसने शुरुआत में भूविज्ञान के बीच लोकप्रियता हासिल की। वास्तव में, सभी भूविज्ञानों में सबसे अधिक उद्धृत प्रकाशनों में से वायुमंडल के देखे गए इतिहास के पुनर्निर्माण के लिए डेटा आत्मसात का अनुप्रयोग है।

डेटा आत्मसात प्रक्रिया का विवरण
शास्त्रीय रूप से, डेटा आत्मसात को अराजक गतिशील प्रणालियों पर लागू किया गया है, जिनकी सरल एक्सट्रपलेशन विधियों का उपयोग करके भविष्यवाणी करना बहुत मुश्किल है। इस कठिनाई का कारण यह है कि प्रारंभिक स्थितियों में छोटे बदलाव से भविष्यवाणी सटीकता में बड़े बदलाव हो सकते हैं। इसे कभी-कभी तितली प्रभाव के रूप में जाना जाता है - प्रारंभिक स्थितियों पर संवेदनशील निर्भरता जिसमें नियतात्मक गैर-रेखीय प्रणाली की स्थिति में छोटे से परिवर्तन के परिणामस्वरूप बाद की स्थिति में बड़े अंतर हो सकते हैं।

किसी भी अद्यतन समय पर, डेटा आत्मसात आम तौर पर पूर्वानुमान लेता है (जिसे पहले अनुमान या पृष्ठभूमि जानकारी के रूप में भी जाना जाता है) और देखे गए डेटा और अनुमानित त्रुटियों के सेट के आधार पर पूर्वानुमान में सुधार लागू करता है जो अवलोकन और पूर्वानुमान दोनों में मौजूद होते हैं। उस समय के पूर्वानुमान और टिप्पणियों के बीच के अंतर को प्रस्थान या नवाचार कहा जाता है (क्योंकि यह डेटा आत्मसात प्रक्रिया को नई जानकारी प्रदान करता है)। अवलोकनों से प्राप्त नई जानकारी के आधार पर पूर्वानुमान में कितना सुधार किया जाना चाहिए, यह निर्धारित करने के लिए नवाचार पर भार कारक लागू किया जाता है। नवप्रवर्तन के गुणा कारक द्वारा निर्धारित पूर्वानुमान में सुधार के आधार पर सिस्टम की स्थिति का सबसे अच्छा अनुमान विश्लेषण कहा जाता है। आयाम में, विश्लेषण की गणना करना पूर्वानुमानित और देखे गए मूल्य का भारित औसत बनाने जितना आसान हो सकता है। अनेक आयामों में समस्या अधिक कठिन हो जाती है। डेटा सम्मिलन में अधिकांश कार्य सिस्टम में त्रुटियों के जटिल ज्ञान के आधार पर उचित भार कारक का पर्याप्त अनुमान लगाने पर केंद्रित है।

माप आम तौर पर उस प्रणाली के मॉडल के अपूर्ण प्रतिनिधित्व के बजाय वास्तविक दुनिया प्रणाली से बने होते हैं, और इसलिए मॉडल किए गए चर को ऐसे रूप में मैप करने के लिए विशेष फ़ंक्शन की आवश्यकता होती है जिसे अवलोकन ऑपरेटर कहा जाता है (आमतौर पर गैर-रेखीय ऑपरेटर के लिए h या इसके रैखिककरण के लिए एच द्वारा दर्शाया जाता है) की आवश्यकता होती है।

सांख्यिकीय अनुमान के रूप में डेटा आत्मसात
सामान्य गणितीय दार्शनिक दृष्टिकोणों में से डेटा आत्मसात को बायेसियन अनुमान समस्या के रूप में देखना है। इस दृष्टिकोण से, विश्लेषण चरण बेयस प्रमेय का अनुप्रयोग है और समग्र आत्मसात प्रक्रिया पुनरावर्ती बायेसियन अनुमान का उदाहरण है। हालाँकि, संभाव्य विश्लेषण को आमतौर पर कम्प्यूटेशनल रूप से व्यवहार्य रूप में सरल बनाया जाता है। समय में संभाव्यता वितरण को आगे बढ़ाना सामान्य स्थिति में फोककर-प्लैंक समीकरण द्वारा किया जाएगा, लेकिन यह उच्च-आयामी प्रणालियों के लिए संभव नहीं है; इसलिए, इसके बजाय संभाव्यता वितरण के सरलीकृत प्रतिनिधित्व (गणित) पर काम करने वाले विभिन्न अनुमानों का उपयोग किया जाता है। अक्सर संभाव्यता वितरण को सामान्य वितरण माना जाता है ताकि उन्हें उनके माध्य और सहप्रसरण द्वारा दर्शाया जा सके, जो कलमन फ़िल्टर को जन्म देता है।

कई विधियाँ केवल माध्य द्वारा संभाव्यता वितरण का प्रतिनिधित्व करती हैं और कुछ पूर्व-गणना किए गए सहप्रसरण को इनपुट करती हैं। इसकी गणना करने के लिए प्रत्यक्ष (या अनुक्रमिक) विधि का उदाहरण इष्टतम सांख्यिकीय इंटरपोलेशन, या बस इष्टतम इंटरपोलेशन (ओआई) कहा जाता है। वैकल्पिक दृष्टिकोण लागत फ़ंक्शन को पुनरावृत्त रूप से हल करना है जो समान समस्या को हल करता है। इन्हें परिवर्तनशील विधियाँ कहा जाता है, जैसे 3D-Var और 4D-Var। विशिष्ट न्यूनतमकरण एल्गोरिदम संयुग्म ढाल विधि या सामान्यीकृत न्यूनतम अवशिष्ट विधि हैं। कल्मन फ़िल्टर को इकट्ठा करें अनुक्रमिक विधि है जो सिमुलेशन के समूह द्वारा गॉसियन संभाव्यता वितरण के माध्य और सहप्रसरण दोनों का अनुमान लगाने के लिए मोंटे कार्लो दृष्टिकोण का उपयोग करता है। हाल ही में, समुच्चय दृष्टिकोण और परिवर्तनशील तरीकों के संकर संयोजन अधिक लोकप्रिय हो गए हैं (उदाहरण के लिए इनका उपयोग मध्यम दूरी के मौसम पूर्वानुमान के लिए यूरोपीय केंद्र (ईसीएमडब्ल्यूएफ) और एनओएए पर्यावरण पूर्वानुमान के लिए राष्ट्रीय केंद्र (एनसीईपी) दोनों में परिचालन पूर्वानुमान के लिए किया जाता है)।

मौसम पूर्वानुमान अनुप्रयोग
संख्यात्मक मौसम भविष्यवाणी अनुप्रयोगों में, संख्यात्मक पूर्वानुमान मॉडल को आरंभ करने के लिए पूर्व पूर्वानुमानों के साथ तापमान और वायुमंडलीय दबाव जैसे मौसम संबंधी चर के अवलोकनों को संयोजित करने की विधि के रूप में डेटा आत्मसात को व्यापक रूप से जाना जाता है।

यह क्यों आवश्यक है
वातावरण तरल पदार्थ है. संख्यात्मक मौसम पूर्वानुमान का विचार किसी निश्चित समय पर तरल पदार्थ की स्थिति का नमूना लेना और भविष्य में किसी समय तरल पदार्थ की स्थिति का अनुमान लगाने के लिए तरल गतिशीलता और ऊष्मप्रवैगिकी  के समीकरणों का उपयोग करना है। प्रारंभिक मूल्य समस्या उत्पन्न करने के लिए मॉडल में अवलोकन डेटा दर्ज करने की प्रक्रिया को आरंभीकरण कहा जाता है। भूमि पर, भू-भाग के मानचित्र निम्न रिज़ॉल्यूशन पर उपलब्ध हैं 1 km विश्व स्तर पर बीहड़ स्थलाकृति के क्षेत्रों के भीतर वायुमंडलीय परिसंचरण को मॉडल करने में मदद करने के लिए उपयोग किया जाता है, ताकि आने वाली सौर विकिरण को प्रभावित करने वाली ढलान वाली हवाओं, ली तरंगों और संबंधित बादलों जैसी विशेषताओं को बेहतर ढंग से चित्रित किया जा सके। देश-आधारित मौसम सेवाओं के मुख्य इनपुट मौसम गुब्बारों में उपकरणों (जिन्हें रेडियोसोंडे कहा जाता है) से अवलोकन हैं जो विभिन्न वायुमंडलीय मापदंडों को मापते हैं और उन्हें निश्चित रिसीवर, साथ ही मौसम उपग्रहों तक पहुंचाते हैं। विश्व मौसम विज्ञान संगठन दुनिया भर में इन अवलोकनों के उपकरण, अवलोकन प्रथाओं और समय को मानकीकृत करने के लिए कार्य करता है। स्टेशन या तो प्रति घंटा METAR रिपोर्ट में रिपोर्ट करते हैं, या हर छह घंटे में SYNOP रिपोर्ट। ये अवलोकन अनियमित स्थान पर हैं, इसलिए उन्हें डेटा आत्मसात और वस्तुनिष्ठ विश्लेषण विधियों द्वारा संसाधित किया जाता है, जो गुणवत्ता नियंत्रण करते हैं और मॉडल के गणितीय एल्गोरिदम द्वारा प्रयोग करने योग्य स्थानों पर मान प्राप्त करते हैं। कुछ वैश्विक मॉडल परिमित अंतरों का उपयोग करते हैं, जिसमें दुनिया को अक्षांश और देशांतर के नियमित रूप से दूरी वाले ग्रिड पर अलग-अलग बिंदुओं के रूप में दर्शाया जाता है; अन्य मॉडल वर्णक्रमीय विधियों का उपयोग करते हैं जो तरंग दैर्ध्य की श्रृंखला को हल करते हैं। फिर डेटा का उपयोग पूर्वानुमान के लिए शुरुआती बिंदु के रूप में मॉडल में किया जाता है। संख्यात्मक मॉडल में उपयोग के लिए अवलोकन संबंधी डेटा इकट्ठा करने के लिए विभिन्न तरीकों का उपयोग किया जाता है। साइटें मौसम के गुब्बारों में रेडियोसॉन्डेस लॉन्च करती हैं जो क्षोभमंडल से होते हुए समतापमंडल में ऊपर उठती हैं। मौसम उपग्रहों से जानकारी का उपयोग वहां किया जाता है जहां पारंपरिक डेटा स्रोत उपलब्ध नहीं हैं। वाणिज्य विमान मार्गों पर पायलट रिपोर्ट प्रदान करता है और शिपिंग मार्गों पर रिपोर्ट भेजें। अनुसंधान परियोजनाएं उष्णकटिबंधीय चक्रवातों जैसी रुचि की मौसम प्रणालियों में और उसके आसपास उड़ान भरने के लिए मौसम टोही का उपयोग करती हैं। ठंड के मौसम के दौरान टोही विमान भी खुले महासागरों के ऊपर सिस्टम में उड़ाए जाते हैं, जिससे पूर्वानुमान मार्गदर्शन में महत्वपूर्ण अनिश्चितता पैदा होती है, या भविष्य में तीन से सात दिनों तक डाउनस्ट्रीम महाद्वीप पर उच्च प्रभाव होने की उम्मीद होती है। 1971 में पूर्वानुमान मॉडल में समुद्री बर्फ की शुरुआत की गई। प्रशांत महासागर के उच्च अक्षांशों में मौसम को नियंत्रित करने में इसकी भूमिका के कारण मॉडल आरंभीकरण में समुद्री सतह के तापमान को शामिल करने का प्रयास 1972 में शुरू हुआ।

इतिहास
1922 में, लुईस फ्राई रिचर्डसन ने संख्यात्मक रूप से मौसम की भविष्यवाणी करने का पहला प्रयास प्रकाशित किया। विल्हेम बर्कनेस|बजर्कनेस के आदिम समीकरणों के हाइड्रोस्टैटिक संतुलन भिन्नता का उपयोग करते हुए, रिचर्डसन ने मध्य यूरोप में दो बिंदुओं पर वातावरण की स्थिति के लिए हाथ से 6 घंटे का पूर्वानुमान तैयार किया, ऐसा करने में कम से कम छह सप्ताह लगे। उनके पूर्वानुमान ने गणना की कि वायुमंडलीय दबाव में परिवर्तन होगा 145 mbar, परिमाण के दो क्रमों से ग़लत अवास्तविक मान। बड़ी त्रुटि उनके विश्लेषण में प्रारंभिक स्थितियों के रूप में उपयोग किए गए दबाव और हवा के वेग क्षेत्रों में असंतुलन के कारण हुई थी, डेटा सम्मिलन योजना की आवश्यकता का संकेत।

मूल रूप से व्यक्तिपरक विश्लेषण का उपयोग किया गया था जिसमें संख्यात्मक मौसम भविष्यवाणी (एनडब्ल्यूपी) पूर्वानुमानों को मौसम विज्ञानियों द्वारा अपनी परिचालन विशेषज्ञता का उपयोग करके समायोजित किया गया था। फिर स्वचालित डेटा सम्मिलन के लिए वस्तुनिष्ठ विश्लेषण (उदाहरण के लिए क्रेसमैन एल्गोरिदम) पेश किया गया था। इन वस्तुनिष्ठ तरीकों में सरल प्रक्षेप दृष्टिकोण का उपयोग किया गया, और इस प्रकार 3DDA (त्रि-आयामी डेटा आत्मसात) विधियाँ थीं।

बाद में, 4DDA (चार-आयामी डेटा आत्मसात) विधियाँ, जिन्हें नडिंग कहा जाता है, विकसित की गईं, जैसे कि MM5 (मौसम मॉडल) मॉडल में। वे न्यूटोनियन विश्राम (न्यूटन का दूसरा सिद्धांत) के सरल विचार पर आधारित हैं। वे मॉडल के गतिशील समीकरणों के दाहिने हिस्से में शब्द पेश करते हैं जो गणना किए गए मौसम संबंधी चर और देखे गए मूल्य के अंतर के समानुपाती होता है। नकारात्मक चिह्न वाला यह शब्द परिकलित राज्य स्थान (नियंत्रण) को प्रेक्षणों के करीब रखता है। नडिंग की व्याख्या कलमन-बुसी फ़िल्टर (कलमन फिल्टर का निरंतर समय संस्करण) के प्रकार के रूप में की जा सकती है, जिसमें सहप्रसरणों से प्राप्त लाभ मैट्रिक्स के बजाय निर्धारित किया जाता है।

एल. गैंडिन (1963) द्वारा बड़ा विकास हासिल किया गया, जिन्होंने सांख्यिकीय इंटरपोलेशन (या इष्टतम इंटरपोलेशन) पद्धति की शुरुआत की, जिसने कोलमोगोरोव के पहले के विचारों को विकसित किया। यह 3डीडीए विधि है और प्रकार का प्रतिगमन विश्लेषण है जो पहले अनुमान क्षेत्र (पिछले पूर्वानुमान) और सच्चे क्षेत्र की त्रुटियों के सहप्रसरण कार्यों के स्थानिक वितरण के बारे में जानकारी का उपयोग करता है। ये फ़ंक्शन कभी ज्ञात नहीं होते. हालाँकि, अलग-अलग अनुमान लगाए गए थे।

इष्टतम इंटरपोलेशन एल्गोरिदम कलमन फ़िल्टरिंग (केएफ) एल्गोरिदम का छोटा संस्करण है और जिसमें सहप्रसरण मैट्रिक्स की गणना गतिशील समीकरणों से नहीं की जाती है बल्कि पहले से पूर्व निर्धारित की जाती है।

NWP मॉडल के लिए KF एल्गोरिदम को 4DDA टूल के रूप में पेश करने का प्रयास बाद में हुआ। हालाँकि, यह कठिन कार्य था (और बना हुआ है) क्योंकि पूर्ण संस्करण के लिए भारी संख्या में अतिरिक्त समीकरणों (~N*N~10**12, जहां N=Nx*Ny*Nz राज्य वेक्टर का आकार है, Nx~100, Ny~100, Nz~100 - कम्प्यूटेशनल ग्रिड के आयाम) के समाधान की आवश्यकता होती है। इस कठिनाई को दूर करने के लिए, अनुमानित या उप-इष्टतम कलमैन फ़िल्टर विकसित किए गए। इनमें एन्सेम्बल कलमैन फिल्टर और रिड्यूस्ड-रैंक कलमैन फिल्टर (आरआरएसक्यूआरटी) शामिल हैं। 4DDA विधियों के विकास में और महत्वपूर्ण प्रगति जे.-एल के पिछले कार्यों के आधार पर, ले डिमेट और टैलाग्रैंड (1986) के कार्यों में इष्टतम नियंत्रण सिद्धांत (परिवर्तनशील दृष्टिकोण) का उपयोग करना था। लायंस और जी. मार्चुक पर्यावरण मॉडलिंग में उस सिद्धांत को लागू करने वाले पहले व्यक्ति थे। परिवर्तनशील दृष्टिकोण का महत्वपूर्ण लाभ यह है कि मौसम संबंधी क्षेत्र एनडब्ल्यूपी मॉडल के गतिशील समीकरणों को संतुष्ट करते हैं और साथ ही वे टिप्पणियों से उनके अंतर को दर्शाते हुए कार्यात्मकता को कम करते हैं। इस प्रकार, बाधित न्यूनतमकरण की समस्या हल हो जाती है। 3DDA परिवर्तनीय विधियाँ पहली बार सासाकी (1958) द्वारा विकसित की गईं।

जैसा कि लोरेंक (1986) द्वारा दिखाया गया था, उपरोक्त सभी 4डीडीए विधियां कुछ सीमा समतुल्य हैं, यानी कुछ मान्यताओं के तहत वे समान हानि फ़ंक्शन को कम करते हैं। हालाँकि, व्यावहारिक अनुप्रयोगों में ये धारणाएँ कभी पूरी नहीं होती हैं, अलग-अलग विधियाँ अलग-अलग प्रदर्शन करती हैं और आम तौर पर यह स्पष्ट नहीं है कि कौन सा दृष्टिकोण (कलमन फ़िल्टरिंग या वेरिएशनल) बेहतर है। उन्नत डीए तकनीकों के अनुप्रयोग में मूलभूत प्रश्न भी उठते हैं जैसे कि कम से कम की जाने वाली कार्यात्मकता के वैश्विक न्यूनतम तक कम्प्यूटेशनल पद्धति का अभिसरण। उदाहरण के लिए, लागत फ़ंक्शन या वह सेट जिसमें समाधान मांगा गया है, उत्तल नहीं हो सकता है। 4DDA पद्धति जो वर्तमान में सबसे सफल है हाइब्रिड वृद्धिशील 4डी-वार है, जहां डेटा एसिमिलेशन टाइम विंडो की शुरुआत में जलवायु संबंधी पृष्ठभूमि त्रुटि सहप्रसरण को बढ़ाने के लिए संयोजन का उपयोग किया जाता है, लेकिन एनडब्ल्यूपी पूर्वानुमान मॉडल के सरलीकृत संस्करण द्वारा समय विंडो के दौरान पृष्ठभूमि त्रुटि सहप्रसरण विकसित किया जाता है। इस डेटा सम्मिलन पद्धति का उपयोग मौसम कार्यालय जैसे पूर्वानुमान केंद्रों पर परिचालन रूप से किया जाता है।

लागत फलन
डेटा सम्मिलन में विश्लेषण बनाने की प्रक्रिया में अक्सर हानि फ़ंक्शन को कम करना शामिल होता है। विशिष्ट लागत फ़ंक्शन अवलोकनों की सटीकता द्वारा भारित अवलोकनों से विश्लेषण मूल्यों के वर्ग विचलन का योग होगा, साथ ही पूर्वानुमान क्षेत्रों के वर्ग विचलन और पूर्वानुमान की सटीकता द्वारा भारित विश्लेषण किए गए क्षेत्रों का योग होगा। इसका प्रभाव यह सुनिश्चित करना है कि विश्लेषण उन टिप्पणियों और पूर्वानुमानों से बहुत दूर नहीं जाता है जिन्हें आमतौर पर विश्वसनीय माना जाता है।

3डी-हाँ
$$J(\mathbf{x}) = (\mathbf{x}-\mathbf{x}_{b})^{\mathrm{T}}\mathbf{B}^{-1}(\mathbf{x}-\mathbf{x}_{b}) + (\mathbf{y}-\mathit{H}[\mathbf{x}])^{\mathrm{T}}\mathbf{R}^{-1}(\mathbf{y}-\mathit{H}[\mathbf{x}]),$$ कहाँ $$\mathbf{B}$$ पृष्ठभूमि त्रुटि सहप्रसरण को दर्शाता है, $$\mathbf{R}$$ अवलोकन संबंधी त्रुटि सहप्रसरण.

$$\nabla J(\mathbf{x}) = 2\mathbf{B}^{-1}(\mathbf{x}-\mathbf{x}_{b}) - 2\mathit{H}^T\mathbf{R}^{-1}(\mathbf{y}-\mathit{H}[\mathbf{x}])$$

सीएचडी-वार
$$J(\mathbf{x}) = (\mathbf{x}-\mathbf{x}_{b})^{\mathrm{T}}\mathbf{B}^{-1}(\mathbf{x}-\mathbf{x}_{b}) + \sum_{i=0}^{n}(\mathbf{y}_{i}-\mathit{H}_{i}[\mathbf{x}_{i}])^{\mathrm{T}}\mathbf{R}_{i}^{-1}(\mathbf{y}_{i}-\mathit{H}_{i}[\mathbf{x}_{i}])$$ उसे उपलब्ध कराया $$\mathit{H}$$ रैखिक संचालिका (मैट्रिक्स) है।

भविष्य का विकास
एनडब्ल्यूपी मॉडल के लिए डेटा एसिमिलेशन विधियों के तेजी से विकास को चलाने वाले कारकों में शामिल हैं:
 * वर्तमान में अवलोकनों का उपयोग विभिन्न स्थानिक पैमानों (वैश्विक से अत्यधिक स्थानीय तक) और समय के पैमानों पर पूर्वानुमान कौशल में आशाजनक सुधार प्रदान करता है।
 * विभिन्न प्रकार के उपलब्ध अवलोकनों (सोडार, राडार, उपग्रह) की संख्या तेजी से बढ़ रही है।

जल और ऊर्जा हस्तांतरण की निगरानी
1980 और 1990 के दशक में, मिट्टी, वनस्पति और वायुमंडल के बीच ऊर्जा हस्तांतरण की निगरानी के लिए कई HAPEX (हाइड्रोलॉजिकल और वायुमंडलीय पायलट प्रयोग) परियोजनाओं में डेटा एसिमिलेशन का उपयोग किया गया है। उदाहरण के लिए:

- HAPEX-MobilHy, HAPEX-साहेल, - एल्पिल्स-रेसेडा (रिमोट सेंसिंग डेटा एसिमिलेशन) प्रयोग, FP4-ENV कार्यक्रम में यूरोपीय परियोजना जो फ्रांस के दक्षिण-पूर्व में एल्पिल्स क्षेत्र में (1996-97) हुआ था। फ़्लो-चार्ट आरेख (दाएं), उस परियोजना की अंतिम रिपोर्ट से उद्धृत, यह दर्शाता है कि रिमोट सेंसिंग डेटा और सहायक जानकारी से कैनोपी स्थिति, विकिरण प्रवाह, पर्यावरणीय बजट, मात्रा और गुणवत्ता में उत्पादन जैसे रुचि के चर का अनुमान कैसे लगाया जाए। उस आरेख में, छोटे नीले-हरे तीर मॉडल के वास्तव में चलने के सीधे तरीके को दर्शाते हैं।

अन्य पूर्वानुमान अनुप्रयोग
डेटा सम्मिलन विधियों का उपयोग वर्तमान में अन्य पर्यावरणीय पूर्वानुमान समस्याओं में भी किया जाता है, जैसे जल विज्ञान पूर्वानुमान में। भूस्खलन जैसे प्राकृतिक खतरों का आकलन करने के लिए डेटा आत्मसात दृष्टिकोण में बायेसियन नेटवर्क का भी उपयोग किया जा सकता है। सौर मंडल में अन्य ग्रहों के लिए अंतरिक्ष यान डेटा की प्रचुरता को देखते हुए, अलौकिक ग्रहों की वायुमंडलीय स्थिति का पुन: विश्लेषण प्राप्त करने के लिए डेटा आत्मसात को अब पृथ्वी से परे भी लागू किया जाता है। मंगल एकमात्र अलौकिक ग्रह है जिस पर अब तक डेटा सम्मिलन लागू किया गया है। उपलब्ध अंतरिक्ष यान डेटा में, विशेष रूप से, नासा के मंगल वैश्विक सर्वेक्षक  पर  थर्मल उत्सर्जन स्पेक्ट्रोमीटर  और नासा के मंगल टोही ऑर्बिटर पर मार्स क्लाइमेट साउंडर से तापमान और धूल/पानी/बर्फ ऑप्टिकल मोटाई की पुनर्प्राप्ति शामिल है। इन डेटासेटों पर डेटा आत्मसात करने की दो विधियाँ लागू की गई हैं: विश्लेषण सुधार योजना और दो एन्सेम्बल कलमन फ़िल्टर योजनाएँ,  दोनों आगे के मॉडल के रूप में मंगल ग्रह के वायुमंडल के वैश्विक परिसंचरण मॉडल का उपयोग कर रहे हैं। मार्स एनालिसिस करेक्शन डेटा एसिमिलेशन (MACDA) डेटासेट सार्वजनिक रूप से ब्रिटिश एटमॉस्फेरिक डेटा सेंटर से उपलब्ध है। प्रत्येक पूर्वानुमान समस्या के लिए डेटा सम्मिलन चुनौती का हिस्सा है।

डेटा संकलन में पक्षपातपूर्ण डेटा से निपटना गंभीर चुनौती है। पूर्वाग्रहों से निपटने के तरीकों का और अधिक विकास विशेष रूप से उपयोगी होगा। यदि ही चर का अवलोकन करने वाले कई उपकरण हैं तो संभाव्यता घनत्व कार्यों का उपयोग करके उनकी परस्पर तुलना करना शिक्षाप्रद हो सकता है।

कम्प्यूटेशनल शक्ति में वृद्धि के कारण संख्यात्मक पूर्वानुमान मॉडल उच्च रिज़ॉल्यूशन के होते जा रहे हैं, परिचालन वायुमंडलीय मॉडल अब 1 किमी के क्रम के क्षैतिज रिज़ॉल्यूशन के साथ चल रहे हैं (उदाहरण के लिए जर्मन राष्ट्रीय मौसम विज्ञान सेवा, Deutscher Wetterdienst ( DWD ) और यूके में मौसम कार्यालय)। क्षैतिज रिज़ॉल्यूशन में यह वृद्धि गैर-रेखीय मॉडल की अधिक अराजक विशेषताओं को हल करने की अनुमति देने लगी है, जैसे वायुमंडलीय मॉडल में ग्रिड स्केल या बादलों पर संवहन को हल करने के लिए। मॉडलों में बढ़ती गैर-रैखिकता और व्युत्क्रम समस्या डेटा आत्मसात में नई समस्या पैदा करती है। मौजूदा डेटा आत्मसात करने के तरीके जैसे कि एसेम्बल कलमैन फिल्टर के कई प्रकार और रैखिक या निकट-रेखीय मॉडल के साथ अच्छी तरह से स्थापित वैरिएबल तरीकों का मूल्यांकन गैर-रेखीय मॉडल पर किया जा रहा है।

कई नई विधियाँ विकसित की जा रही हैं, उदा. उच्च-आयामी समस्याओं के लिए कण फ़िल्टर, और हाइब्रिड डेटा एसिमिलेशन विधियाँ। अन्य उपयोगों में अपोलो कार्यक्रम, GPS  और ऑटोकेम के लिए प्रक्षेपवक्र अनुमान शामिल हैं।

यह भी देखें

 * अंशांकन (सांख्यिकी)

बाहरी संबंध
Examples of how variational assimilation is implemented weather forecasting at:

Other examples of assimilation:
 * CDACentral (an example analysis from Chemical Data Assimilation)
 * PDFCentral (using PDFs to examine biases and representativeness)
 * OpenDA – Open Source Data Assimilation package
 * PDAF – open-source Parallel Data Assimilation Framework
 * SANGOMA New Data Assimilation techniques