सर्वोत्तम प्रतिक्रिया

खेल सिद्धांत में, सबसे अच्छी प्रतिक्रिया रणनीति (खेल सिद्धांत) (या रणनीति) है जो एक खिलाड़ी के लिए सबसे अनुकूल परिणाम (खेल सिद्धांत) उत्पन्न करती है, अन्य खिलाड़ियों की रणनीतियों को दिए गए अनुसार । जॉन फोर्ब्स नैश के लिए एक सर्वोत्तम प्रतिक्रिया की अवधारणा केंद्रीय है। जॉन नैश का सबसे प्रसिद्ध योगदान, नैश संतुलन, वह बिंदु जिस पर खेल में प्रत्येक खिलाड़ी की रणनीतियाँ ने अन्य खिलाड़ियों के लिए सर्वश्रेष्ठ प्रतिक्रिया (या सर्वश्रेष्ठ प्रतिक्रियाओं में से एक) का चयन किया है।

पत्राचार
प्रतिक्रिया 1: 1 पत्राचार, जिसे सर्वश्रेष्ठ प्रतिक्रिया पत्राचार के रूप में भी जाना जाता है, का उपयोग मिश्रित रणनीति नैश संतुलन (, खंड 1.3.बी;, खंड 2.2) के अस्तित्व के प्रमाण में किया जाता है। प्रतिक्रिया पत्राचार प्रतिक्रिया कार्य नहीं हैं क्योंकि फलन (गणित) में प्रति तर्क केवल एक मान होना चाहिए, और कई प्रतिक्रिया पत्राचार अपरिभाषित होंगे, अर्थात, कुछ प्रतिद्वंद्वी रणनीति पसंद के लिए एक लंबवत रेखा है। एक पत्राचार $$b(\cdot)$$ खिलाड़ी की रणनीतियों के सम्मुच्चय में प्रतिद्वंद्वी रणनीति वर्णन के सम्मुच्चय से प्रत्येक खिलाड़ी के लिए बनाता है। तो, प्रतिद्वंद्वी की रणनीतियों के किसी दिए गए सम्मुच्चय के लिए $$\sigma_{-i}$$, $$b_{i}(\sigma_{-i})$$ खिलाड़ी $$i$$ की सर्वश्रेष्ठ प्रतिक्रियाओं का प्रतिनिधित्व करता है। सभी 2x2 प्रसामान्य रूप खेल के लिए प्रतिक्रिया पत्राचार एक इकाई वर्ग योजना स्थल में प्रत्येक खिलाड़ी के लिए एक रेखा (गणित) के साथ तैयार किया जा सकता है। आंकड़े 1 से 3 लेखाचित्र स्टैग हंट खेल के लिए सर्वोत्तम प्रतिक्रिया पत्राचार है। चित्र 1 में बिंदीदार रेखा अनुकूलन (गणित) के प्रतिनिधित्व और संभाव्यता मूल्यों की व्याख्या दिखाती है कि खिलाड़ी वाई 'स्टैग' खेलता है, संभावना के एक फलन के रूप में खिलाड़ी X स्टैग खेलता है (दिखाया गया है)। चित्र 2 में बिंदीदार रेखा इष्टतम संभावना दिखाती है कि खिलाड़ी X 'स्टैग' (x-अक्ष में दिखाया गया है) खेलता है, संभावना के एक फलन के रूप में कि खिलाड़ी Y स्टैग खेलता है (y-अक्ष में दिखाया गया है)। ध्यान दें कि चित्र 2 सामान्य रूप से उपयोग किए जाने वाले अक्षों के विपरीत अक्षों में स्वतंत्र और प्रतिक्रिया चरों को आलेख करता है, ताकि इसे पिछले लेखाचित्र पर आरोपित किया जा सके, जहां दो खिलाड़ियों की सर्वश्रेष्ठ प्रतिक्रियाएं चित्रा 3 में सहमत हों नैश संतुलन को उन बिंदुओं पर दिखाने के लिए आलेख करता है।

तीन विशिष्ट प्रतिक्रिया पत्राचार आकार हैं, तीन प्रकार के सममित फलन 2x2 फलन में से प्रत्येक के लिए एक: समन्वय फलन, डिसऑर्डिनेशन फलन और वर्चस्व वाली रणनीतियों वाले फलन (छोटा चौथा स्तिथि जिसमें प्रतिदान हमेशा दोनों चालों के बराबर होती है, वास्तव में एक खेल सैद्धांतिक समस्या नहीं है)। कोई भी प्रतिदान सममित 2x2 खेल इन तीन रूपों में से एक लेगा।

समन्वय खेल
जिन खेलों में खिलाड़ी उच्चतम स्कोर करते हैं, जब दोनों खिलाड़ी एक ही रणनीति चुनते हैं, जैसे कि स्टैग हंट और बैटल ऑफ द सक्सेस (खेल सिद्धांत), समन्वय खेल कहलाते हैं। इन खेलों में चित्रा 3 के समान आकार के प्रतिक्रिया पत्राचार होते हैं, जहां नीचे बाएं कोने में एक नैश संतुलन होता है, दूसरा शीर्ष दाएं कोने में होता है, और अन्य दो के बीच विकर्ण के साथ कहीं मिश्रण नैश होता है।

विरोधी समन्वय खेल
गेम ऑफ़ चिकन और हॉक-धोव खेल जैसे खेल जिसमें खिलाड़ी विपरीत रणनीतियों का चयन करते समय उच्चतम अंक प्राप्त करते हैं, यानी, असंतोष, समन्वय-विरोधी खेल कहलाते हैं। उनके पास प्रतिक्रिया पत्राचार (चित्र 4) है जो समन्वय खेलों के विपरीत दिशा में पार करते हैं, तीन नैश संतुलन के साथ, शीर्ष बाएं और निचले दाएं कोनों में से प्रत्येक में, जहां एक खिलाड़ी एक रणनीति चुनता है, दूसरा खिलाड़ी विपरीत रणनीति चुनता है। तीसरा नैश संतुलन एक मिश्रित रणनीति है जो नीचे बाएँ से ऊपरी दाएँ कोने तक विकर्ण के साथ स्थित है। यदि खिलाड़ियों को नहीं पता है कि उनमें से कौन सा है, तो मिश्रित नैश एक क्रमिक रूप से स्थिर रणनीति (ईएसएस) है, क्योंकि खेल नीचे बाईं ओर ऊपर दाईं ओर तिरछी रेखा तक ही सीमित है। अन्यथा कहा जाता है कि एक असंबद्ध विषमता अस्तित्व में है, और कोना नैश संतुलन ईएसएस हैं।

प्रभुत्व वाली रणनीतियों वाले खेल
प्रभुत्व वाले फलन (खेल सिद्धांत) रणनीतियों में प्रतिक्रिया पत्राचार होते हैं जो केवल एक बिंदु पर पार करते हैं, जो भुगतान सममित 2x2 फलन में या तो नीचे बाएं या शीर्ष दाएं कोने में होगा। उदाहरण के लिए, एकल-खेल प्रिजनर डाइलेमा में, सहयोगी चाल प्रतिद्वंद्वी सहयोग की किसी भी संभावना के लिए इष्टतम नहीं है। चित्रा 5 ऐसे खेल के लिए प्रतिक्रिया पत्राचार दिखाता है, जहां आयाम संभावना खेल सहयोग करते हैं, नैश संतुलन निचले बाएं कोने में है जहां कोई भी खिलाड़ी सहयोग नहीं करता है। यदि आयामों को संभाव्यता खेल दोष के रूप में परिभाषित किया गया था, तो दोनों खिलाड़ियों का सर्वश्रेष्ठ प्रतिक्रिया वक्र सभी प्रतिद्वंद्वी रणनीति संभावनाओं के लिए 1 होगा और प्रतिक्रिया पत्राचार शीर्ष दाएं कोने पर तिर्यक् (और एक नैश संतुलन बनाएगा) होगा।

अन्य (अदायगी असममित) खेल
भुगतान विषमता के साथ 2x2 फलन में प्रतिक्रिया पत्राचार आकृतियों की एक विस्तृत श्रृंखला संभव है। प्रत्येक खिलाड़ी के लिए चित्र 6 में दिखाए गए पांच संभावित सर्वश्रेष्ठ प्रतिक्रिया आकार हैं। बाएं से दाएं ये हैं: वर्चस्व वाली रणनीति (हमेशा 2 खेलें), हावी रणनीति (हमेशा 1 खेलें), बढ़ती (रणनीति 2 खेलें यदि संभावना है कि अन्य खिलाड़ी खेल 2 प्रभावसीमा से ऊपर है), गिरना (खेल योजना 1 यदि संभावना है कि अन्य खिलाड़ी 2 खेलता है तो प्रभावसीमा से ऊपर है), और उदासीन (दोनों रणनीतियाँ सभी परिस्थितियों में समान रूप से अच्छी तरह से खेलती हैं)।

जबकि अदायगी सममित 2x2 खेल के केवल चार संभावित प्रकार हैं (जिनमें से एक तुच्छ है), प्रति खिलाड़ी पांच अलग-अलग सर्वश्रेष्ठ प्रतिक्रिया वक्र बड़ी संख्या में अदायगी असममित खेल प्रकारों की अनुमति देते हैं। इनमें से कई वास्तव में एक दूसरे से भिन्न नहीं हैं। सममित खेलों का निर्माण करने के लिए आयामों को फिर से परिभाषित किया जा सकता है (रणनीति 1 और 2 के विनिमय नाम)।

मैचिंग पेनी
अदायगी विषमता के साथ एक प्रसिद्ध फलन मैचिंग पेनी फलन है। इस खेल में एक खिलाड़ी, पंक्ति खिलाड़ी - y आयाम पर रेखांकन - जीतता है यदि खिलाड़ी समन्वय करते हैं (दोनों सिर चुनते हैं या दोनों पूंछ चुनते हैं) जबकि अन्य खिलाड़ी, स्तंभ खिलाड़ी - एक्स-अक्ष में दिखाया गया है - जीतता है अगर खिलाड़ी असमंजस। खेलयर वाई की प्रतिक्रिया पत्राचार एक समन्वय खेल का है, जबकि खिलाड़ी एक्स का एक डिसऑर्डिनेशन फलन है। एकमात्र नैश संतुलन मिश्रित रणनीतियों का संयोजन है जहां दोनों खिलाड़ी स्वतंत्र रूप से 0.5 प्रत्येक की प्रायिकता के साथ हेड और टेल चुनते हैं।



गतिविज्ञान
विकासवादी खेल सिद्धांत में, सर्वोत्तम प्रतिक्रिया गतिशीलता नियमों को अद्यतन करने वाली रणनीति के एक वर्ग का प्रतिनिधित्व करती है, जहां अगले पड़ाव में खिलाड़ियों की रणनीति जनसंख्या के कुछ उपसमुच्चय के लिए उनकी सर्वोत्तम प्रतिक्रियाओं द्वारा निर्धारित की जाती है। कुछ उदाहरणों में निम्न सम्मिलित हैं: महत्वपूर्ण रूप से, इन प्रतिरूपों में खिलाड़ी केवल अगले पड़ाव में सर्वश्रेष्ठ प्रतिक्रिया का चयन करते हैं जो उन्हें अगले पड़ाव में उच्चतम भुगतान देगा। खिलाड़ी इस प्रभाव पर विचार नहीं करते हैं कि अगले पड़ाव में रणनीति चुनने से खेल में भविष्य के खेल पर प्रभाव पड़ेगा। इस बाधा के परिणामस्वरूप गतिशील नियम को प्रायः अदूरदर्शी सर्वश्रेष्ठ प्रतिक्रिया कहा जाता है।
 * एक बड़े जनसंख्या प्रतिरूप में, खिलाड़ी संभावित रूप से अपनी अगली कार्रवाई का चयन करते हैं, जिसके आधार पर रणनीति समग्र रूप से जनसंख्या के लिए सर्वोत्तम प्रतिक्रिया होती है।
 * एक स्थानिक प्रतिरूप में, खिलाड़ी (अगले पड़ाव में) उस क्रिया को चुनते हैं जो उनके सभी प्रतिवैस के लिए सबसे अच्छी प्रतिक्रिया है।

संभावित खेलों के सिद्धांत में, 'सर्वश्रेष्ठ प्रतिक्रिया गतिकी' प्रत्येक खिलाड़ी के लिए सर्वश्रेष्ठ प्रतिक्रिया की गणना करके नैश संतुलन खोजने का एक तरीका है:

'प्रमेय:' किसी भी परिमित संभावित खेल में, सर्वोत्तम प्रतिक्रिया गतिकी हमेशा नैश संतुलन में परिवर्तित होती है।

(, खंड 19.3.2)

समकृत
सर्वोत्तम प्रतिक्रिया पत्राचारों के स्थान पर, कुछ प्रतिरूप समकृत सर्वोत्तम प्रतिक्रिया कार्यों का उपयोग करते हैं। ये कार्य सर्वोत्तम प्रतिक्रिया पत्राचार के समान हैं, सिवाय इसके कि फलन एक शुद्ध रणनीति से दूसरे में नहीं जाता है। अंतर को चित्र 8 में दिखाया गया है, जहां काला सर्वोत्तम प्रतिक्रिया पत्राचार का प्रतिनिधित्व करता है और अन्य रंग प्रत्येक अलग-अलग चिकने सर्वोत्तम प्रतिक्रिया कार्यों का प्रतिनिधित्व करते हैं। मानक सर्वोत्तम प्रतिक्रिया पत्राचारों में, एक कार्रवाई के लिए सामान्य लाभ के परिणामस्वरूप व्यक्ति उस कार्रवाई को संभाव्यता 1 के साथ खेलता है। समकृत सर्वोत्तम प्रतिक्रिया में दो क्रियाओं के बीच का अंतर घटता है, व्यक्ति का खेल 50:50 तक पहुंचता है।

ऐसे कई कार्य हैं जो समकृत सर्वोत्तम प्रतिक्रिया कार्यों का प्रतिनिधित्व करते हैं। यहां दिखाए गए फलन निम्न फलन पर कई भिन्नताएं हैं:


 * $$\frac{e^{E(1)/\gamma}}{e^{E(1)/\gamma} + e^{E(2)/\gamma}}$$

जहाँ $$E(x)$$ प्रक्रिया $$x$$ के अपेक्षित भुगतान का प्रतिनिधित्व करता है, और $$\gamma$$ एक मापदण्ड है जो उस घात को निर्धारित करता है जिस पर फलन सही सर्वोत्तम प्रतिक्रिया से विचलित होता है (एक बड़ा $$\gamma$$ तात्पर्य यह है कि खिलाड़ी के 'गलतियाँ' करने की अधिक संभावना है)।

समकृत सर्वोत्तम प्रतिक्रिया का उपयोग करने के कई सैद्धांतिक और अनुभवजन्य दोनों लाभ हैं। सबसे पहले, यह मनोवैज्ञानिक प्रयोगों के अनुरूप है; जब व्यक्ति स्थूलतः दो कार्यों के बीच उदासीन होते हैं तो ऐसा प्रतीत होता है कि वे यादृच्छिक रूप से अधिक या कम चुनते हैं। दूसरा, व्यक्तियों का खेल सभी स्तिथियों में विशिष्ट रूप से निर्धारित होता है, क्योंकि यह 1:1 पत्राचार है जो एक कार्य (गणित) भी है। अंत में, कुछ सीखने के नियमों के साथ सहज सर्वोत्तम प्रतिक्रिया का उपयोग करने से (जैसा कि काल्पनिक नाटक में होता है) परिणामस्वरूप खिलाड़ी मिश्रित रणनीति नैश संतुलन खेलना सीख सकते हैं.

यह भी देखें

 * सुलझा हुआ खेल