कंप्यूटर स्टीरियो विज़न

कंप्यूटर स्टीरियो विज़न डिजिटल छवियों से 3डी जानकारी निकालना है, जैसे कि सीसीडी कैमरा द्वारा प्राप्त की गई छवियां। किसी दृश्य के बारे में दो सुविधाजनक बिंदुओं से जानकारी की तुलना करके, दो पैनलों में वस्तुओं की सापेक्ष स्थिति की जांच करके 3डी जानकारी निकाली जा सकती है। यह स्टीरियोप्सिस की जैविक प्रक्रिया के समान है।

रूपरेखा
पारंपरिक स्टीरियो विज़न में, एक दूसरे से क्षैतिज रूप से विस्थापित दो कैमरों का उपयोग, मानव दूरबीन दृष्टि के समान, एक दृश्य पर दो अलग-अलग दृश्य प्राप्त करने के लिए किया जाता है। इन दो छवियों की तुलना करके, सापेक्ष गहराई की जानकारी दूरबीन असमानता के रूप में प्राप्त की जा सकती है, जो पत्राचार समस्या छवि बिंदुओं के क्षैतिज निर्देशांक में अंतर को एन्कोड करती है। इस असमानता मानचित्र में मान संबंधित पिक्सेल स्थान पर दृश्य की गहराई के व्युत्क्रमानुपाती होते हैं।

किसी इंसान के लिए दो छवियों की तुलना करने के लिए, उन्हें एक स्टीरियोस्कोपिक डिवाइस में सुपरइम्पोज़ किया जाना चाहिए, जिसमें दाएं कैमरे से छवि पर्यवेक्षक की दाहिनी आंख पर और बाएं कैमरे से बाईं आंख पर दिखाई जाएगी।

कंप्यूटर विज़न सिस्टम में, कई पूर्व-प्रसंस्करण चरणों की आवश्यकता होती है।
 * 1) छवि को पहले विकृत नहीं किया जाना चाहिए, जैसे कि बैरल विरूपण और विरूपण (ऑप्टिक्स) हटा दिए जाएं। यह सुनिश्चित करता है कि देखी गई छवि एक आदर्श पिनहोल कैमरा के प्रक्षेपण से मेल खाती है।
 * 2) छवि जोड़े की तुलना की अनुमति देने के लिए छवि को वापस एक सामान्य तल पर प्रक्षेपित किया जाना चाहिए, जिसे छवि सुधार के रूप में जाना जाता है।
 * 3) एक सूचना माप जो दो छवियों की तुलना करता है उसे न्यूनतम कर दिया गया है। यह दो छवियों में सुविधाओं की स्थिति का सर्वोत्तम अनुमान देता है, और एक असमानता मानचित्र बनाता है।
 * 4) वैकल्पिक रूप से, प्राप्त असमानता मानचित्र को एक बिंदु बादल में प्रक्षेपित किया जाता है। कैमरे के प्रक्षेप्य मापदंडों का उपयोग करके, बिंदु बादल की गणना इस तरह की जा सकती है कि यह ज्ञात पैमाने पर माप प्रदान करता है।

सक्रिय स्टीरियो विज़न
सक्रिय स्टीरियो विज़न स्टीरियो विज़न का एक रूप है जो स्टीरियो मिलान समस्या को सरल बनाने के लिए लेजर या संरचित प्रकाश जैसे प्रकाश को सक्रिय रूप से नियोजित करता है। विरोधी शब्द निष्क्रिय स्टीरियो विज़न है।

पारंपरिक संरचित-प्रकाश दृष्टि (एसएलवी)
पारंपरिक संरचित-प्रकाश दृष्टि (एसएलवी) एक संरचित प्रकाश या लेजर का उपयोग करती है, और प्रोजेक्टर-कैमरा पत्राचार ढूंढती है।

पारंपरिक सक्रिय स्टीरियो विज़न (एएसवी)
पारंपरिक सक्रिय स्टीरियो विज़न (एएसवी) एक संरचित प्रकाश या लेजर का उपयोग करता है, हालांकि, स्टीरियो मिलान केवल कैमरा-कैमरा पत्राचार के लिए किया जाता है, उसी तरह जैसे निष्क्रिय स्टीरियो विज़न।

संरचित-प्रकाश स्टीरियो (एसएलएस)
एक हाइब्रिड तकनीक है, जो कैमरा-कैमरा और प्रोजेक्टर-कैमरा दोनों पत्राचार का उपयोग करती है।

अनुप्रयोग
3डी स्टीरियो डिस्प्ले का मनोरंजन, सूचना हस्तांतरण और स्वचालित प्रणालियों में कई अनुप्रयोग हैं। स्वायत्त प्रणालियों के आसपास 3डी वस्तुओं की सापेक्ष स्थिति के बारे में जानकारी निकालने के लिए रोबोटिक्स जैसे क्षेत्रों में स्टीरियो विज़न अत्यधिक महत्वपूर्ण है। रोबोटिक्स के अन्य अनुप्रयोगों में वस्तु पहचान, जहां गहराई की जानकारी सिस्टम को छवि घटकों को अलग करने की अनुमति देती है, जैसे कि एक कुर्सी दूसरे के सामने, जिसे रोबोट अन्यथा किसी अन्य मानदंड से एक अलग वस्तु के रूप में अलग करने में सक्षम नहीं हो सकता है।

डिजिटल स्टीरियो विज़न के लिए वैज्ञानिक अनुप्रयोगों में हवाई सर्वेक्षणों से जानकारी निकालना, समोच्च मानचित्रों की गणना या यहां तक ​​कि 3डी बिल्डिंग मैपिंग, फोटोग्राममेट्रिक सैटेलाइट मैपिंग के लिए ज्यामिति निष्कर्षण शामिल है। या नासा स्टीरियो प्रोजेक्ट द्वारा प्राप्त 3डी हेलियोग्राफी जानकारी की गणना।

विस्तृत परिभाषा
एक पिक्सेल किसी स्थिति में रंग रिकॉर्ड करता है। स्थिति की पहचान पिक्सेल (x, y) की ग्रिड में स्थिति और पिक्सेल z की गहराई से की जाती है।

त्रिविम दृष्टि अलग-अलग स्थितियों से एक ही दृश्य की दो छवियां देती है। आसन्न आरेख में बिंदु A से प्रकाश B और D पर पिनहोल कैमरों के प्रवेश बिंदुओं के माध्यम से E और H पर छवि स्क्रीन पर प्रसारित होता है।

संलग्न आरेख में दो कैमरा लेंस के केंद्रों के बीच की दूरी BD = BC + CD है। त्रिभुज समरूप हैं,
 * एसीबी और बीएफई
 * एसीडी और डीजीएच

$$ \begin{align} \text{Therefore displacement }d &= EF + GH \\ &= BF (\frac{EF}{BF} + \frac{GH}{BF}) \\ &= BF (\frac{EF}{BF} + \frac{GH}{DG}) \\ &= BF (\frac{BC + CD}{AC}) \\ &= BF \frac{BD}{AC} \\ &= \frac{k}{z} \text{, where}\\ \end{align} $$ तो यह मानते हुए कि कैमरे समतल हैं, और छवि तल एक ही तल पर सपाट हैं, दो छवियों में समान पिक्सेल के बीच y अक्ष में विस्थापन है,
 * के = बीडी बीएफ
 * z = AC कैमरे के तल से वस्तु तक की दूरी है।
 * $$d = \frac{k}{z} $$

जहां k दो कैमरों के बीच की दूरी है, जो लेंस से छवि तक की दूरी का गुना है।

दो छवियों में गहराई घटक हैं $$z_1$$ और $$z_2$$, द्वारा दिए गए,
 * $$z_2(x, y) = \min \left \{v : v = z_1(x, y - \frac{k}{z_1(x, y)})\right \} $$
 * $$z_1(x, y) = \min \left \{v : v = z_2(x, y + \frac{k}{z_2(x, y)}) \right \} $$

ये सूत्र वस्तु की सतह पर एक छवि में दिखाई देने वाले स्वरों की छिपी हुई सतह का निर्धारण करने की अनुमति देते हैं, वस्तु की सतह पर दूसरी छवि में देखे गए निकट स्वरों द्वारा।

छवि सुधार
जहां छवि तल सह-तलीय नहीं हैं, वहां छवियों को समायोजित करने के लिए छवि सुधार की आवश्यकता होती है जैसे कि वे सह-तलीय हों। इसे रैखिक परिवर्तन द्वारा प्राप्त किया जा सकता है।

प्रत्येक छवि को समतल तल पर प्रक्षेपित पिनहोल कैमरे से ली गई छवि के बराबर बनाने के लिए छवियों में सुधार की भी आवश्यकता हो सकती है।

चिकनाई
चिकनाई रंगों की समानता का माप है। इस धारणा को देखते हुए कि एक अलग वस्तु में रंगों की एक छोटी संख्या होती है, समान रंग वाले पिक्सेल कई वस्तुओं की तुलना में एक ही वस्तु से संबंधित होने की अधिक संभावना रखते हैं।

चिकनाई का मूल्यांकन करने के लिए ऊपर वर्णित विधि सूचना सिद्धांत पर आधारित है, और एक धारणा है कि एक स्वर के रंग का प्रभाव बिंदुओं के बीच की दूरी पर सामान्य वितरण के अनुसार पास के स्वर के रंग को प्रभावित करता है। यह मॉडल दुनिया के बारे में अनुमानित धारणाओं पर आधारित है।

सहजता की पूर्व धारणाओं पर आधारित एक अन्य विधि ऑटो-सहसंबंध है।

चिकनाई किसी छवि की आंतरिक संपत्ति के बजाय दुनिया की एक संपत्ति है। यादृच्छिक बिंदुओं वाली छवि में कोई चिकनाई नहीं होगी, और पड़ोसी बिंदुओं के बारे में अनुमान बेकार होगा।

सिद्धांत रूप में, दुनिया के अन्य गुणों की तरह, सहजता को भी सीखना चाहिए। ऐसा प्रतीत होता है कि मानव दृष्टि प्रणाली यही करती है।

न्यूनतम वर्ग जानकारी माप
सामान्य वितरण है
 * $$P(x, \mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}} e^{ -\frac{(x-\mu)^2}{2\sigma^2} }$$

संभाव्यता न्यूनतम संदेश लंबाई एल द्वारा वर्णित सूचना सामग्री से संबंधित है,
 * $$P(x) = 2^{-L(x)} $$
 * $$L(x) = -\log_2{P(x)} $$

इसलिए,
 * $$L(x, \mu, \sigma) = \log_2(\sigma\sqrt{2\pi}) + \frac{(x-\mu)^2}{2\sigma^2} \log_2 e$$

त्रिविम छवियों की तुलना के प्रयोजनों के लिए, केवल सापेक्ष संदेश की लंबाई मायने रखती है। इसके आधार पर, सूचना माप I, जिसे अंतरों के वर्गों का योग (SSD) कहा जाता है, है,
 * $$I(x, \mu, \sigma) = \frac{(x-\mu)^2}{\sigma^2}$$

कहाँ,
 * $$L(x, \mu, \sigma) = \log_2(\sigma\sqrt{2\pi}) + I(x, \mu, \sigma) \frac{\log_2 e}{2}$$

एसएसडी में संख्याओं के वर्ग को संसाधित करने में लगने वाले समय की लागत के कारण, कई कार्यान्वयन सूचना माप की गणना के आधार के रूप में निरपेक्ष अंतर के योग (एसएडी) का उपयोग करते हैं। अन्य विधियाँ सामान्यीकृत क्रॉस सहसंबंध (एनसीसी) का उपयोग करती हैं।

त्रिविम छवियों के लिए सूचना माप
त्रिविम छवियों की सूचना सामग्री को मापने के लिए न्यूनतम वर्ग माप का उपयोग किया जा सकता है, प्रत्येक बिंदु पर गहराई दी गई है $$z(x, y)$$. सबसे पहले एक छवि को दूसरे के संदर्भ में व्यक्त करने के लिए आवश्यक जानकारी प्राप्त की जाती है। यह कहा जाता है $$I_m$$.

रंगों के बीच अंतर को उचित रूप से मापने के लिए रंग अंतर फ़ंक्शन का उपयोग किया जाना चाहिए। रंग अंतर फ़ंक्शन निम्नलिखित में सीडी लिखा गया है। दो छवियों के बीच रंग मिलान को रिकॉर्ड करने के लिए आवश्यक जानकारी का माप है,
 * $$I_m(z_1, z_2) = \frac{1}{\sigma_m^2} \sum_{x, y}\operatorname{cd}(\operatorname{color}_1(x, y + \frac{k}{z_1(x, y)}), \operatorname{color}_2(x, y))^2 $$

छवि की सहजता के बारे में एक धारणा बनाई गई है। मान लें कि दो पिक्सेल के एक ही रंग के होने की अधिक संभावना है, वे जितने स्वरों का प्रतिनिधित्व करते हैं वे उतने ही करीब होंगे। इस उपाय का उद्देश्य समान गहराई पर समान रंगों को समूहीकृत करना है। उदाहरण के लिए, यदि सामने कोई वस्तु पीछे आकाश के एक क्षेत्र को घेरती है, तो चिकनाई का माप सभी नीले पिक्सेल को एक ही गहराई पर एक साथ समूहीकृत करने का पक्ष लेता है।

चिकनाई का कुल माप रंग अंतर के अपेक्षित मानक विचलन के अनुमान के रूप में स्वरों के बीच की दूरी का उपयोग करता है,
 * $$I_s(z_1, z_2) = \frac{1}{2 \sigma_h^2} \sum_{i : \{1, 2\}} \sum_{x_1, y_1} \sum_{x_2, y_2} \frac{\operatorname{cd}(\operatorname{color}_i(x_1, y_1), \operatorname{color}_i(x_2, y_2))^2}{(x_1 - x_2)^2 + (y_1 - y_2)^2 + (z_i(x_1, y_1) - z_i(x_2, y_2))^2} $$

कुल सूचना सामग्री तब योग है,
 * $$I_t(z_1, z_2) = I_m(z_1, z_2) + I_s(z_1, z_2)$$

सूचना सामग्री के लिए न्यूनतम मान देने के लिए प्रत्येक पिक्सेल के z घटक को चुना जाना चाहिए। यह प्रत्येक पिक्सेल पर सबसे संभावित गहराई देगा। न्यूनतम कुल सूचना माप है,
 * $$I_{\operatorname{min}} = \min{\{i : i = I_t(z_1, z_2)\}} \}$$

बाएँ और दाएँ छवियों के लिए गहराई फ़ंक्शन जोड़ी हैं,
 * $$(z_1, z_2) \in \{(z_1, z_2) : I_t(z_1, z_2) = I_{\operatorname{min}} \}$$

कार्यान्वयन के तरीके
न्यूनतमकरण समस्या एनपी-पूर्ण है। इसका मतलब है कि इस समस्या का सामान्य समाधान पहुंचने में काफी समय लगेगा। हालाँकि कंप्यूटर के लिए अनुमान आधारित विधियाँ मौजूद हैं जो उचित समय में परिणाम का अनुमान लगाती हैं। तंत्रिका नेटवर्क पर आधारित विधियाँ भी मौजूद हैं। त्रिविम दृष्टि का कुशल कार्यान्वयन सक्रिय अनुसंधान का एक क्षेत्र है।

यह भी देखें

 * कई छवियों से 3डी पुनर्निर्माण
 * 3डी स्कैनर
 * ऑटोस्टीरियोस्कोपी
 * कंप्यूटर दृष्टि
 * एपिपोलर ज्यामिति
 * अर्ध-वैश्विक मिलान
 * गति से संरचना
 * स्टीरियो कैमरा
 * स्टीरियोफोटोग्राममेट्री
 * स्टीरियोप्सिस
 * स्टीरियोस्कोपिक गहराई प्रस्तुति
 * स्टिक्सेल
 * ट्राइफोकल टेंसर - ट्राइफोकल स्टीरियोस्कोपी के लिए (दो के बजाय तीन छवियों का उपयोग करके)

बाहरी संबंध

 * Tutorial on uncalibrated stereo vision
 * Learn about stereo vision with MATLAB
 * Stereo Vision and Rover Navigation Software for Planetary Exploration