कोसाइन समानता
डेटा विश्लेषण में, कोसाइन समानता आंतरिक गुणन क्षेत्र में परिभाषित दो गैर-शून्य सदिश के बीच समानता का माप है। कोसाइन समानता सदिशों के बीच के कोण की कोज्या होती है; अर्थात्, यह उनकी लंबाई के गुणनफल से विभाजित सदिशों का डॉट गुणनफल है। इससे यह पता चलता है कि कोज्या समानता सदिशों के परिमाण पर निर्भर नहीं करती है, लेकिन केवल उनके कोण पर निर्भर करती है। कोसाइन समानता अधिकांशतः अंतराल से संबंधित होती है। उदाहरण के लिए दो समानुपाती सदिशों में 1 की कोज्या समानता होती है और इस प्रकार दो लंबकोणीय सदिशों की कोसाइन समानता 0 होती है और दो विपरीत सदिश में -1 की समानता होती है। कुछ संदर्भों में, सदिशों के घटक मान ऋणात्मक नहीं हो सकते है और जिस स्थिति में कोसाइन समानता .के रूप में सीमित होती है
उदाहरण के लिए सूचना पुनर्प्राप्ति और पाठ माइनिंग में, प्रत्येक शब्द को भिन्न निर्देशांक दिया जाता है और दस्तावेज़ में प्रत्येक शब्द की घटनाओं की संख्या के सदिश द्वारा दस्तावेज़ का प्रतिनिधित्व किया जाता है। कोसाइन समानता तब इस बात का उपयोगी माप देता है कि उनकी विषय वस्तु के संदर्भ में और दस्तावेज़ों की लंबाई के अनुसार स्वतंत्र रूप से दो दस्तावेज़ों के समान होने की कितनी संभावना होती है।[1]
डेटा माइनिंग के क्षेत्र में क्लस्टर के भीतर सामंजस्य को मापने के लिए प्रोद्योगिकीय का उपयोग किया जाता है।[2]
कोसाइन समानता का एक लाभ यह है कि इसकी संगणनात्मक जटिलता जो विशेष रूप से असामान्य आव्यूह के रूप में होती है और इस प्रकार केवल गैर-शून्य निर्देशांक पर विचार करने की आवश्यकता है।
कोसाइन समानता के लिए अन्य नामों में ओतसुका ओरचिनी समानता के समरूपी कोसाइन गुणांक के रूप में सम्मलित होते है। कोसाइन समरूपी बाइनरी आंकड़ों पर लागू किया गया है जिसे नीचे दिखाया गया है
परिभाषा
दो गैर शून्य सदिश की कोसाइन यूक्लिडियन डॉट गुणन फॉर्मूला का उपयोग करके प्राप्त किया जा सकता है।
दो n आयामी सदिश (ज्यामितीय) के गुण को देखते हुए A और B कोसाइन समानता cos(θ), एक सदिश गुणन और परिमाण (गणित) का उपयोग करके दर्शाया जाता है।
जहाँ और क्रमशः यूक्लिडियन सदिशों और के वें घटकों के रूप में होते है।
परिणामी समानता -1 से लेकर होती है जिसका अर्थ बिल्कुल विपरीत होता है और 1 का अर्थ बिल्कुल समान होता है और इस प्रकार 0 के साथ लंबकोणीयता या सहसंबंध का संकेत मिलता है, जबकि बीच के मान मध्यवर्ती समानता या असमानता का संकेत देते हैं।
पाठ मिलान के लिए, सामान्यतया विशेषता सदिश A और B दस्तावेजों के आवृत्ति सदिश शब्द के रूप में होते हैं। कोसाइन समानता को तुलना के समय सामान्यीकरण (सांख्यिकी) दस्तावेज़ लंबाई की एक विधि के रूप में देखा जा सकता है। सूचना पुनर्प्राप्ति के स्थितियों में दो दस्तावेज़ों की कोसाइन समानता की सीमा के रूप में होती है, क्योंकि शब्द आवृत्ति ऋणात्मक नहीं हो सकती। यह टीएफ-आईडीएफ (शब्द आवृत्ति व्युत्क्रम दस्तावेज़ आवृत्ति) भार का उपयोग करते समय सही साबित होता है। दो शब्द आवृत्ति वैक्टर के बीच का कोण 90 डिग्री से अधिक नहीं हो सकता
यदि सदिश के घटाव द्वारा गुणनफल सदिश को सामान्यीकृत किया जाता है, अर्थात ), तो माप को केंद्रित कोसाइन समानता कहा जाता है और पियर्सन सहसंबंध गुणांक के बराबर होता है। केंद्रीकरण के उदाहरण के लिए इस रूप में होते है,
कोसाइन दूरी
शब्द कोसाइन दूरी[3] सामान्यतः सकारात्मक क्षेत्र में कोसाइन समानता के पूरक के लिए उपयोग किया जाता है।
- यह ध्यान रखना महत्वपूर्ण है कि कोसाइन दूरी वास्तविक क्षेत्र मीट्रिक नहीं होता है, क्योंकि इसमें त्रिकोण असमानता गुण को प्रदर्शित नहीं नहीं करती है या फिर औपचारिक रूप से श्वार्ज़ असमानता तथा यह संयोग एक्सिओम का उल्लंघन करती है। यह देखने की एक विधि है कि कोसाइन दूरी सदिश के सामान्यीकरण की यूक्लिडियन दूरी का आधा होता है और और यूक्लिडियन दूरी का वर्ग त्रिभुज असमानता को भी संतुष्ट नहीं करता है और इस प्रकार समान क्रम को बनाए रखते हुए त्रिभुज असमानता गुण की पूर्वावस्था के लिए कोणीय दूरी या यूक्लिडियन दूरी में परिवर्तित कर दिया जाता है और इस प्रकार वैकल्पिक रूप से कोसाइन के संदर्भ में त्रिकोणीय असमानता जो कोणीय दूरियां बनाने के लिए काम करती है वे सीधे कोसाइन के संदर्भ में व्यक्त की जा सकती है। जिसे नीचे दिखाया गया है।
कोणीय दूरी और समानता
किसी भी दो वैक्टर और के बीच में सामान्य कोण को कोणीय दूरी कहा जाता है और यह औपचारिक दूरी मीट्रिक होता है इसकी गणना कोसाइन समानता से की जा सकती है।[4] तब कोणीय दूरी मीट्रिक का पूरक का प्रयोग कोणीय समानता फलन को 0 और 1 के बीच परिबद्ध करने के लिए किया जा सकता है।
जब सदिश तत्व धनात्मक या ऋणात्मक हो सकते हैं,
यदि सदिश तत्व अधिकांशतः सकारात्मक रूप में होते हैं