स्ट्रिंग मीट्रिक

गणित और कंप्यूटर विज्ञान में, एक स्ट्रिंग मीट्रिक (जिसे स्ट्रिंग समानता मीट्रिक या स्ट्रिंग दूरी फ़ंक्शन के रूप में भी जाना जाता है) एक मीट्रिक (गणित) है जो अनुमानित स्ट्रिंग मिलान या तुलना के लिए दो स्ट्रिंग (कंप्यूटर विज्ञान) के बीच की दूरी (प्रतिलोम समानता) को मापता है। अनुमानित स्ट्रिंग मिलान। एक स्ट्रिंग मीट्रिक के लिए एक आवश्यकता (उदाहरण के लिए स्ट्रिंग मिलान के विपरीत) त्रिकोण असमानता की पूर्ति है। उदाहरण के लिए, तार सैम और सैमुअल को करीब माना जा सकता है। एक स्ट्रिंग मीट्रिक एक संख्या प्रदान करता है जो दूरी के एल्गोरिथम-विशिष्ट संकेत को दर्शाता है।

सबसे व्यापक रूप से ज्ञात स्ट्रिंग मीट्रिक एक अल्पविकसित है जिसे लेवेनशेटिन दूरी (जिसे संपादन दूरी भी कहा जाता है) कहा जाता है। यह दो इनपुट स्ट्रिंग्स के बीच संचालित होता है, एक इनपुट स्ट्रिंग को दूसरे में बदलने के लिए आवश्यक प्रतिस्थापन और विलोपन की संख्या के बराबर संख्या लौटाता है। सरलीकृत स्ट्रिंग मेट्रिक्स जैसे कि लेवेनशेटिन दूरी का विस्तार ध्वन्यात्मक, टोकन (पार्सर), व्याकरणिक और सांख्यिकीय तुलना के चरित्र-आधारित तरीकों को शामिल करने के लिए किया गया है।

सूचना एकीकरण में स्ट्रिंग मेट्रिक्स का अत्यधिक उपयोग किया जाता है और वर्तमान में धोखाधड़ी का पता लगाने, फिंगरप्रिंट विश्लेषण, साहित्यिक चोरी का पता लगाने, सत्तामीमांसा विलय, डीएनए विश्लेषण, आरएनए विश्लेषण, छवि विश्लेषण, साक्ष्य-आधारित यंत्र अधिगम, डेटाबेस डेटा डुप्लिकेशन के लिए डेटा विश्लेषण तकनीकों सहित क्षेत्रों में उपयोग किया जाता है। डेटा खनन,  वृद्धिशील खोज , डेटा एकीकरण, मालवेयर डिटेक्शन, और शब्दार्थ ज्ञान एकीकरण।

स्ट्रिंग मेट्रिक्स की सूची
ऐसे कार्य भी मौजूद हैं जो तारों के बीच असमानता को मापते हैं, लेकिन जरूरी नहीं कि त्रिकोण असमानता को पूरा करें, और जैसे कि गणितीय अर्थ में मीट्रिक नहीं हैं। जारो-विंकलर दूरी इस तरह के फ़ंक्शन का एक उदाहरण है।
 * लेवेनशेटिन दूरी, या इसका सामान्यीकरण संपादन दूरी
 * डमेराउ-लेवेनशेटिन दूरी
 * सोरेनसेन-डाइस गुणांक
 * ब्लॉक दूरी या L1 दूरी या शहर ब्लॉक दूरी
 * हैमिंग दूरी
 * सरल मिलान गुणांक (एसएमसी)
 * जैकार्ड समानता या जैकार्ड गुणांक या टैनिमोटो गुणांक
 * टावर्सकी इंडेक्स
 * ओवरलैप गुणांक
 * परिवर्तनशील दूरी
 * हेलिंजर दूरी या भट्टाचार्य दूरी
 * सूचना त्रिज्या (जेन्सेन-शैनन विचलन)
 * तिरछा विचलन * भ्रम की संभावना * केंडल ताऊ दूरी, कुल्बैक-लीब्लर विचलन का एक अनुमान
 * Fellegi और Sunters मेट्रिक (SFS) * अधिकतम मिलान * व्याकरण आधारित दूरी
 * टीएफ-आईडीएफ दूरी मीट्रिक

बाहरी संबंध

 * String Similarity Metrics for Information Integration A fairly complete overview
 * Carnegie Mellon University open source library
 * StringMetric project a Scala library of string metrics and phonetic algorithms
 * Natural project a JavaScript natural language processing library which includes implementations of popular string metrics