स्ट्रिंग मीट्रिक

From Vigyanwiki

गणित और कंप्यूटर विज्ञान में, स्ट्रिंग मीट्रिक (जिसे स्ट्रिंग समानता मीट्रिक या स्ट्रिंग दूरी फ़ंक्शन के रूप में भी जाना जाता है) ऐसा मीट्रिक (गणित) है जो अनुमानित स्ट्रिंग मिलान या तुलना के लिए दो स्ट्रिंग (कंप्यूटर विज्ञान) के मध्य की दूरी (प्रतिलोम समानता) को मापता है। स्ट्रिंग मीट्रिक की आवश्यकता (उदाहरण के लिए स्ट्रिंग मिलान के विपरीत) के लिए स्ट्रिंग मिलान के त्रिकोण असमानता की पूर्ति है। उदाहरण के लिए, तार सैम और सैमुअल को समीप माना जा सकता है।[1] स्ट्रिंग मीट्रिक संख्या प्रदान करता है जो दूरी के एल्गोरिथम-विशिष्ट संकेत को दर्शाता है।

सबसे व्यापक रूप से ज्ञात स्ट्रिंग मीट्रिक अल्प विकसित है जिसे लेवेनशेटिन दूरी (जिसे संपादन दूरी भी कहा जाता है) कहा जाता है।[2] यह दो इनपुट स्ट्रिंग्स के मध्य संचालित होता है, इनपुट स्ट्रिंग को दूसरे में परिवर्तित करने के लिए आवश्यक प्रतिस्थापन और विलोपन की संख्या के समान संख्या लौटाता है। सरलीकृत स्ट्रिंग मेट्रिक्स जैसे कि लेवेनशेटिन दूरी का विस्तार ध्वन्यात्मक, टोकन (पार्सर), व्याकरणिक और सांख्यिकीय तुलना के चरित्र-आधारित विधियों को सम्मिलित करने के लिए किया गया है।

सूचना एकीकरण में स्ट्रिंग मेट्रिक्स का अत्यधिक उपयोग किया जाता है और वर्तमान में धोखाधड़ी ज्ञात करने के लिए, फिंगरप्रिंट विश्लेषण, साहित्यिक चोरी को ज्ञात करने के लिए, ऑन्कोलॉजी मर्जिंग, डीएनए विश्लेषण, आरएनए विश्लेषण, छवि विश्लेषण, साक्ष्य-आधारित यंत्र अधिगम, डेटाबेस, डेटा डिडुप्लीकेशन, डेटा माइनिंग, वृद्धिशील सहित क्षेत्रों में उपयोग किया जाता है। खोज, डेटा एकीकरण, मालवेयर डिटेक्शन, [3] और सिमेंटिक नॉलेज इंटीग्रेशन आदि।

स्ट्रिंग मेट्रिक्स की सूची

ऐसे कार्य भी उपस्तिथ हैं जो तारों के मध्य असमानता को मापते हैं, किंतु आवश्यक नहीं कि त्रिकोण असमानता को पूर्ण करें, और जैसे कि गणितीय अर्थ में मीट्रिक नहीं हैं। जारो-विंकलर दूरी इस प्रकार के फ़ंक्शन का उदाहरण है।

चयनित स्ट्रिंग उपाय उदाहरण

नाम विवरण उदाहरण
आलोचनात्मक दूरी केवल समान लंबाई के तार के लिए। परिवर्तित वर्णों की संख्या। "करोलिन" और "कैथरीन" 3 है।
लेवेनशेटिन दूरी और दमेरौ–लेवेनशेटिन दूरी हैमिंग दूरी का सामान्यीकरण जो अलग-अलग लंबाई के तारों की अनुमति देता है, और (डेमरौ के साथ) पारदर्शिता के लिए किटेन और सिटींग 3 की दूरी है।
  1. किटेन → सिटींग ("k" के लिए "s" का प्रतिस्थापन)
  2. सिटींग → सिटींग ("e" के लिए "i" का प्रतिस्थापन")
  3. सिटींग → सिटींग (अंत में "g" का सम्मिलन).
जारो–विंकलर दूरी जारोविंक्लरडिस्ट ("मार्था", "मार्था")=
  • मेल खाने वाले वर्णों की संख्या है;
  • पारदर्शिता की आधी संख्या है ("मार्था" [3]! =H, "मारहटा"[3]!=T).
सबसे लगातार k वर्ण सबसे फ्रीक कुंजी समानता('resea<span शैली = रंग: लाल;






संदर्भ

  1. Lu, Jiaheng; et al. (2013). "String similarity measures and joins with synonyms". Proceedings of the 2013 ACM SIGMOD International Conference on Management of Data: 373–384. doi:10.1145/2463676.2465313. ISBN 9781450320375. S2CID 2091942.
  2. Navarro, Gonzalo (2001). "A guided tour to approximate string matching". ACM Computing Surveys. 33 (1): 31–88. doi:10.1145/375360.375365. hdl:10533/172862. S2CID 207551224.
  3. Shlomi Dolev; Mohammad, Ghanayim; Alexander, Binun; Sergey, Frenkel; Yeali, S. Sun (2017). "मैलवेयर क्लस्टरिंग और ऑनलाइन पहचान में जैककार्ड और संपादन दूरी का संबंध". 16th IEEE International Symposium on Network Computing and Applications: 369–373.
  4. 4.0 4.1 4.2 4.3 4.4 Sam's String Metrics - Computational Linguistics and Phonetics
  5. Russell, David J., et al. "A grammar-based distance metric enables fast and accurate clustering of large sets of 16S sequences." BMC bioinformatics 11.1 (2010): 1-14.
  6. Cohen, William; Ravikumar, Pradeep; Fienberg, Stephen (2003-08-01). "नाम-मिलान कार्यों के लिए स्ट्रिंग डिस्टेंस मेट्रिक्स की तुलना।": 73–78. {{cite journal}}: Cite journal requires |journal= (help)


बाहरी संबंध