गति का अनुमान

From Vigyanwiki
Revision as of 10:08, 2 May 2023 by alpha>Indicwiki (Created page with "{{Short description|Process used in video coding/compression}} Image:Elephantsdream_vectorstill06.png|thumb|350px|मोशन वैक्टर जो एक आंदो...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
मोशन वैक्टर जो एक आंदोलन से उत्पन्न होते हैं छवि का -प्लेन, निचले-दाईं ओर पार्श्व गति के साथ संयुक्त। यह एक एमपीईजी मूवी को संपीड़ित करने के लिए किए गए गति अनुमान का दृश्य है।

मोशन एस्टीमेशन 'मोशन वैक्टर' के निर्धारण की प्रक्रिया है जो एक 2डी इमेज से दूसरी में ट्रांसफॉर्मेशन का वर्णन करता है; आमतौर पर एक वीडियो क्रम में आसन्न वीडियो फ्रेम से। यह एक अच्छी तरह से बनाई गई समस्या है। बीमार समस्या है क्योंकि गति तीन आयामों में है लेकिन छवियां 2डी विमान पर 3डी दृश्य का प्रक्षेपण हैं। गति वैक्टर पूरी छवि (वैश्विक गति अनुमान) या विशिष्ट भागों से संबंधित हो सकते हैं, जैसे आयताकार ब्लॉक, मनमाने आकार के पैच या प्रति पिक्सेल भी। मोशन वैक्टर को एक ट्रांसलेशनल मॉडल या कई अन्य मॉडलों द्वारा दर्शाया जा सकता है जो एक वास्तविक वीडियो कैमरा की गति का अनुमान लगा सकते हैं, जैसे कि तीनों आयामों में रोटेशन और अनुवाद और ज़ूम।

संबंधित शर्तें

अधिक बार नहीं, शब्द गति अनुमान और ऑप्टिकल प्रवाह शब्द का उपयोग परस्पर विनिमय के लिए किया जाता है।[citation needed] यह छवि पंजीकरण और स्टीरियो पत्राचार की अवधारणा से भी संबंधित है।[1] वास्तव में ये सभी शब्द दो छवियों या वीडियो फ्रेम के बीच पत्राचार समस्या की प्रक्रिया को संदर्भित करते हैं। एक वास्तविक दृश्य या वस्तु के दो दृश्यों (छवियों या फ़्रेमों) में एक दूसरे के अनुरूप होने वाले बिंदु आमतौर पर उस दृश्य में या उस वस्तु पर एक ही बिंदु होते हैं। इससे पहले कि हम गति का आकलन करें, हमें अपने पत्राचार के माप को परिभाषित करना चाहिए, यानी, मिलान मीट्रिक, जो इस बात का माप है कि दो छवि बिंदु कितने समान हैं। यहां कोई सही या गलत नहीं है; मैचिंग मेट्रिक का चुनाव आम तौर पर अनुमान प्रक्रिया में अंतिम अनुमानित गति के साथ-साथ अनुकूलन रणनीति के लिए उपयोग किया जाता है।

प्रत्येक मोशन वेक्टर का उपयोग किसी अन्य चित्र में इस मेक्रोब्लॉक (या इसी तरह के एक) की स्थिति के आधार पर एक मैक्रोब्लॉक का प्रतिनिधित्व करने के लिए किया जाता है, जिसे संदर्भ चित्र कहा जाता है।

H.264/MPEG-4 AVC मानक गति सदिश को इस प्रकार परिभाषित करता है:

<ब्लॉककोट> गति सदिश: एक द्वि-आयामी सदिश जो अंतर-भविष्यवाणी के लिए उपयोग किया जाता है जो डिकोडेड चित्र में निर्देशांक से संदर्भ चित्र में निर्देशांक तक ऑफसेट प्रदान करता है।[2][3] </ब्लॉककोट>

एल्गोरिदम

मोशन वैक्टर खोजने के तरीकों को पिक्सेल आधारित तरीकों (प्रत्यक्ष) और फीचर आधारित तरीकों (अप्रत्यक्ष) में वर्गीकृत किया जा सकता है। एक प्रसिद्ध बहस के परिणामस्वरूप निष्कर्ष स्थापित करने की कोशिश करने के लिए विरोधी गुटों के दो पेपर तैयार किए गए।[4][5]


प्रत्यक्ष तरीके

अप्रत्यक्ष तरीके

अप्रत्यक्ष तरीके सुविधाओं का उपयोग करते हैं, जैसे कि कोने का पता लगाना, और फ्रेम के बीच संबंधित सुविधाओं का मिलान करना, आमतौर पर एक स्थानीय या वैश्विक क्षेत्र पर लागू सांख्यिकीय फ़ंक्शन के साथ। सांख्यिकीय कार्य का उद्देश्य उन मिलानों को हटाना है जो वास्तविक गति के अनुरूप नहीं हैं।

जिन सांख्यिकीय कार्यों का सफलतापूर्वक उपयोग किया गया है उनमें RANSAC शामिल है।

वर्गीकरण पर अतिरिक्त नोट

यह तर्क दिया जा सकता है कि लगभग सभी विधियों को मिलान मानदंडों की किसी प्रकार की परिभाषा की आवश्यकता होती है। अंतर केवल यह है कि क्या आप पहले एक स्थानीय छवि क्षेत्र को सारांशित करते हैं और फिर सारांश की तुलना करते हैं (जैसे कि फीचर आधारित तरीके), या आप पहले प्रत्येक पिक्सेल की तुलना करते हैं (जैसे कि अंतर को चुकता करना) और फिर एक स्थानीय छवि क्षेत्र (ब्लॉक आधार) पर सारांशित करें गति और फ़िल्टर आधारित गति)। मिलान मानदंड का एक उभरता हुआ प्रकार प्रत्येक पिक्सेल स्थान के लिए सबसे पहले एक स्थानीय छवि क्षेत्र को सारांशित करता है (लाप्लासियन ट्रांसफ़ॉर्म जैसे कुछ फ़ीचर ट्रांसफ़ॉर्म के माध्यम से), प्रत्येक सारांशित पिक्सेल की तुलना करता है और एक स्थानीय छवि क्षेत्र पर फिर से सारांशित करता है।[6] कुछ मिलान मानदंडों में उन बिंदुओं को बाहर करने की क्षमता होती है जो वास्तव में एक अच्छा मिलान स्कोर बनाने के बावजूद एक दूसरे के अनुरूप नहीं होते हैं, दूसरों के पास यह क्षमता नहीं होती है, लेकिन वे अभी भी मिलान मानदंड हैं।

अनुप्रयोग

File:Motion interpolation example.jpg
गति प्रक्षेप के साथ वीडियो फ्रेम

वीडियो कोडिंग

गति वैक्टर को अगली छवि में परिवर्तन को संश्लेषित करने के लिए एक छवि पर लागू करने को गति मुआवजा कहा जाता है।[7] यह असतत कोसाइन परिवर्तन (DCT) आधारित वीडियो कोडिंग मानकों पर सबसे आसानी से लागू होता है, क्योंकि कोडिंग ब्लॉक में की जाती है।[8] लौकिक अतिरेक के दोहन के तरीके के रूप में, गति अनुमान और मुआवजा वीडियो संपीड़न के प्रमुख भाग हैं। लगभग सभी वीडियो कोडिंग मानक ब्लॉक-आधारित गति अनुमान और मुआवजे का उपयोग करते हैं जैसे एमपीईजी श्रृंखला जिसमें हालिया एचईवीसी शामिल है।

3डी पुनर्निर्माण

एक साथ स्थानीयकरण और मानचित्रण में, एक चलते हुए कैमरे से छवियों का उपयोग करके एक दृश्य के 3डी मॉडल का पुनर्निर्माण किया जाता है।[9]


यह भी देखें

संदर्भ

  1. John X. Liu (2006). कंप्यूटर विजन और रोबोटिक्स. Nova Publishers. ISBN 978-1-59454-357-9.
  2. Latest working draft of H.264/MPEG-4 AVC Archived 2004-07-23 at the Wayback Machine. Retrieved on 2008-02-29.
  3. "Latest working draft of H.264/MPEG-4 AVC on hhi.fraunhofer.de" (PDF).
  4. Philip H.S. Torr and Andrew Zisserman: Feature Based Methods for Structure and Motion Estimation, ICCV Workshop on Vision Algorithms, pages 278-294, 1999
  5. Michal Irani and P. Anandan: About Direct Methods, ICCV Workshop on Vision Algorithms, pages 267-277, 1999.
  6. Rui Xu, David Taubman & Aous Thabit Naman, 'Motion Estimation Based on Mutual Information and Adaptive Multi-scale Thresholding', in Image Processing, IEEE Transactions on , vol.25, no.3, pp.1095-1108, March 2016.
  7. Borko Furht; Joshua Greenberg; Raymond Westwater (6 December 2012). वीडियो संपीड़न के लिए मोशन एस्टीमेशन एल्गोरिदम. Springer Science & Business Media. ISBN 978-1-4615-6241-2.
  8. Swartz, Charles S. (2005). Understanding Digital Cinema: A Professional Handbook. Taylor & Francis. p. 143. ISBN 9780240806174.
  9. Kerl, Christian, Jürgen Sturm, and Daniel Cremers. "Dense visual SLAM for RGB-D cameras." 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2013.