इष्टतम मिलान

इष्टतम मिलान सामाजिक विज्ञान में उपयोग की जाने वाली अनुक्रम विश्लेषण विधि है, टोकन के क्रमबद्ध सरणियों की असमानता का आकलन करने के लिए जो सामान्यतः दो व्यक्तियों द्वारा अनुभव किए गए सामाजिक-आर्थिक स्तिथियों की समय-आदेशित अनुक्रम का प्रतिनिधित्व करते हैं। टिप्पणियों के समूह के लिए इस प्रकार की दूरियों की गणना कर ली जाती है (उदाहरण के लिए समूह में व्यक्ति) उपकरण (जैसे समूह विश्लेषण) का उपयोग किया जा सकता है। विधि मूल रूप से आणविक जीव विज्ञान (प्रोटीन या आनुवंशिक) अनुक्रमों का अध्ययन करने के लिए प्रारंभ की गई कार्यविधि से सामाजिक विज्ञानों के अनुरूप थी (अनुक्रम संरेखण देखें)। इष्टतम मिलान नीडलमैन वुन्श एल्गोरिथ्म का उपयोग करता है।

एल्गोरिथम
मान लें $$S = (s_1, s_2, s_3, \ldots s_T)$$ संभव स्तिथियों के परिमित समुच्चय से संबंधित स्तिथि $$s_i$$ का अनुक्रम है। आइए $${\mathbf S}$$ अनुक्रम स्थान को निरूपित करते हैं अर्थात जो स्तिथियों के सभी संभावित अनुक्रमों का समुच्चय है।

इष्टतम मिलान एल्गोरिदम सरल संचालन बीजगणित को परिभाषित करके कार्य करते हैं जो अनुक्रमों में परिवर्तन करते हैं, अर्थात संचालनोंका समुच्चय $$a_i: {\mathbf S} \rightarrow {\mathbf S}$$ है। सबसे सरल दृष्टिकोण में, अनुक्रमों को परिवर्तित करने के लिए मात्र तीन मूलभूत संक्रियाओं से बने समुच्चय का उपयोग किया जाता है-
 * अनुक्रम $$a^{\rm Ins}_{s'} (s_1, s_2, s_3, \ldots s_T) = (s_1, s_2, s_3, \ldots, s', \ldots s_T) $$ में स्थिति $$s$$ प्रविष्ट किया गया है,
 * स्थिति को अनुक्रम $$a^{\rm Del}_{s_2} (s_1, s_2, s_3, \ldots s_T) = (s_1, s_3, \ldots s_T)$$ से विस्थापित कर दिया जाता है और
 * स्थिति $$s_1$$ को स्थिति $$s'_1$$, $$a^{\rm Sub}_{s_1,s'_1} (s_1, s_2, s_3, \ldots s_T) = (s'_1, s_2, s_3, \ldots s_T)$$ द्वारा प्रतिस्थापित किया जाता है।

अब कल्पना कीजिए कि व्यय $$c(a_i) \in {\mathbf R}^+_0$$ प्रत्येक संचालन से जुड़ा है। दो अनुक्रमों $$S_1$$ और $$S_2$$ को देखते हुए, बीजगणित से संचालनों का उपयोग करके $$S_1$$ से $$S_2$$ प्राप्त करने के व्यय को मापने का विचार है। मान लें $$A={a_1, a_2, \ldots a_n}$$ संचालनों का अनुक्रम है जिस प्रकार इस अनुक्रम के सभी संचालनों के अनुप्रयोग $$A$$ को प्रथम अनुक्रम $$S_1$$ के लिए द्वितीय अनुक्रम $$S_2$$:$$S_2 = a_1 \circ a_2 \circ \ldots \circ a_{n} (S_1)$$ देता है, जहां $$a_1 \circ a_2$$ मिश्रण संचालन को दर्शाता है।

इस समुच्चय से हम व्यय $$c(A) = \sum_{i=1}^n c(a_i)$$ को जोड़ते हैं, यह परिवर्तन के कुल व्यय का प्रतिनिधित्व करता है। इस बिंदु पर विचार करना चाहिए कि इस प्रकार के विभिन्न अनुक्रम $$A$$ उपस्थित हो सकते हैं जो $$S_1$$ को $$S_2$$ में परिवर्तित करते हैं; इस प्रकार के दृश्यों में से सबसे अल्पमूल्य चयन करना उचित विकल्प है। इस प्रकार हम दूरी को $$d(S_1,S_2)= \min_A \left \{ c(A)~{\rm such~that}~S_2 = A (S_1) \right \} $$ कहते हैं। जो कि परिवर्तनों के कम से कम बहुमूल्य समुच्चय का व्यय है जो $$S_1$$ को $$S_2$$ में परिवर्तित कर देता है। ध्यान दें कि $$d(S_1,S_2)$$ परिभाषा के अनुसार गैर-ऋणात्मक है क्योंकि यह सकारात्मक व्ययों का योग है, और अल्प रूप से $$d(S_1,S_2)=0$$ यदि $$S_1=S_2$$ है, अर्थात कोई मूल्य नहीं है। यदि सम्मिलन और विलोपन व्यय समान $$c(a^{\rm Ins}) = c(a^{\rm Del})$$ हैं, तो दूरी फलन सममित है। इंडेल व्यय शब्द सामान्यतः सम्मिलन और विलोपन के सामान्य व्यय को संदर्भित करता है।

ऊपर वर्णित मात्र तीन मूल संक्रियाओं से बने समुच्चय को ध्यान में रखते हुए, यह निकटता माप त्रिकोणीय असमानता को संतुष्ट करता है। चूँकि, सकर्मक संबंध प्रारंभिक संक्रियाओं के समुच्चय की परिभाषा पर निर्भर करता है।

आलोचना
यद्यपि इष्टतम मिलान प्रणाली का व्यापक रूप से समाजशास्त्र और जनसांख्यिकी में उपयोग किया जाता है, ऐसी प्रणाली में भी उनकी क्षीणता हैं। जैसा कि कई लेखकों द्वारा दर्शाया गया था (उदाहरण के लिए एल एल वू )। इष्टतम मिलान के अनुप्रयोग में मुख्य समस्या व्ययों $$c(a_i)$$ को उचित रूप से परिभाषित करना है।

सॉफ्टवेयर

 * TDA शक्तिशाली प्रोग्राम है, जो संक्रमण डेटा विश्लेषण में कुछ नवीनतम विकासों तक एक्सेस प्रदान करता है।
 * STATA ने इष्टतम मिलान विश्लेषण चलाने के लिए पैकेज प्रारम्भ किया है।
 * TraMineR ओपन सोर्स R (प्रोग्रामिंग लैंग्वेज) पैकेज है, जो स्थितियों और घटनाओं के अनुक्रमों का विश्लेषण और कल्पना करने के लिए है, जिसमें इष्टतम मिलान विश्लेषण भी सम्मिलित है।