जैककार्ड सूचकांक

जैककार्ड इंडेक्स (सूचकांक), जिसे जैकार्ड समानता गुणांक के रूप में भी जाना जाता है, एक आँकड़ा है जिसका उपयोग नमूना (सांख्यिकी) समुच्चय की समानता माप और विविधता इंडेक्स को मापने के लिए किया जाता है। इसे 1884 में ग्रोव कार्ल गिल्बर्ट द्वारा उनके वेरिफिकेशन (प्रमाणन) के अनुपात के रूप में विकसित किया गया था (v) और अब इसे प्रायः मौसम विज्ञान में क्रिटिकल सक्सेस इंडेक्स के रूप में जाना जाता है। इसे बाद में पॉल जैकार्ड द्वारा स्वतंत्र रूप से विकसित किया गया था, जिसे मूल रूप से फ्रांसीसी नाम गुणांक डी कम्युनॉटे दिया गया था, और टी. टैनिमोटो द्वारा फिर से स्वतंत्र रूप से तैयार किया गया। इस प्रकार, कुछ क्षेत्रों में टैनिमोटो इंडेक्स या टैनिमोटो गुणांक का भी उपयोग किया जाता है। हालाँकि, सामान्यतः यूनियन ओवर इंटरसेक्शन का अनुपात लेने में वे समान हैं। जैकार्ड गुणांक परिमित नमूना समुच्चय के बीच समानता को मापता है, और इसे नमूना समुच्चय के संघ (समुच्चय सिद्धांत) के आकार से विभाजित प्रतिच्छेदन (इंटरसेक्शन) के आकार (समुच्चय सिद्धांत) के रूप में परिभाषित किया जाता है:


 * $$ J(A,B) = {{|A \cap B|}\over{|A \cup B|}} = {{|A \cap B|}\over{|A| + |B| - |A \cap B|}}.$$

ध्यान दें कि डिज़ाइन के अनुसार, $$ 0\le J(A,B)\le 1.$$ यदि A प्रतिच्छेदन B रिक्त है, तो J(A,B) = 0. जैककार्ड गुणांक का व्यापक रूप से कंप्यूटर विज्ञान, पारिस्थितिकी, जीनोमिक्स और अन्य विज्ञानों में उपयोग किया जाता है, जहां बाइनरी डेटा का उपयोग किया जाता है। जैकार्ड गुणांक के साथ परिकल्पना परीक्षण के लिए सटीक समाधान और सन्निकटन दोनों विधियाँ उपलब्ध हैं।

जैककार्ड समानता बैग यानी मल्टीसमुच्चय पर भी लागू होती है। इसका एक समान सूत्र है, लेकिन प्रतीकों का मतलब है बैग प्रतिच्छेदन और बैग योग (संघ नहीं)। अधिकतम मान 1/2 है.
 * $$ J(A,B) = {{|A \cap B|}\over{|A \uplus B|}} = {{|A \cap B|}\over{|A| + |B|}}.$$

जैकार्ड दूरी, जो नमूना समुच्चय के बीच असमानता को मापती है, जैकार्ड गुणांक का पूरक है और इसे जैकर्ड गुणांक को 1 से घटाकर, या समकक्ष रूप से, संघ और प्रतिच्छेदन के आकार के अंतर को विभाजित करके प्राप्त किया जाता है। संघ के आकार के अनुसार दो समुच्चय में से:


 * $$ d_J(A,B) = 1 - J(A,B) = { { |A \cup B| - |A \cap B| } \over |A \cup B| }.$$

जैकार्ड दूरी की एक वैकल्पिक व्याख्या सममित अंतर के आकार के अनुपात के रूप में है $$A \triangle B = (A \cup B) - (A \cap B)$$ संघ को जैककार्ड दूरी का उपयोग सामान्यतः क्लस्टर विश्लेषण और n नमूना समुच्चय के बहुआयामी स्केलिंग के लिए n × n आव्यूह की गणना करने के लिए किया जाता है।

यह दूरी सभी परिमित समुच्चय के संग्रह पर एक दूरी फलन है।

माप (गणित) के लिए जैककार्ड दूरी का संस्करण भी है, जिसमें संभाव्यता माप भी सम्मिलित है। अगर $$\mu$$ मापने योग्य स्थान पर एक माप है $$X$$, फिर हम जैकार्ड गुणांक को परिभाषित करते हैं


 * $$J_\mu(A,B) = {{\mu(A \cap B)} \over {\mu(A \cup B)}},$$

और जैकार्ड दूरी द्वारा


 * $$d_\mu(A,B) = 1 - J_\mu(A,B) = {{\mu(A \triangle B)} \over {\mu(A \cup B)}}.$$

अगर सावधानी बरतनी होगी $$\mu(A \cup B) = 0$$ या $$\infty$$, क्योंकि इन स्थितियोमें ये सूत्र अच्छी तरह से परिभाषित नहीं हैं।

मिनहैश न्यूनतम-वार स्वतंत्र क्रमपरिवर्तन स्थानीयता संवेदनशील हैशिंग योजना का उपयोग समुच्चय के जोड़े के जैकार्ड समानता गुणांक के सटीक अनुमान की कुशलता से गणना करने के लिए किया जा सकता है, जहां प्रत्येक समुच्चय को हैश फलन के न्यूनतम मूल्यों से प्राप्त स्थिर आकार के हस्ताक्षर द्वारा दर्शाया जाता है।.

असममित द्विआधारी विशेषताओं की समानता
दो वस्तुओं, A और B, प्रत्येक को n बाइनरी अंक प्रणाली विशेषताओं के साथ देखते हुए, जैककार्ड गुणांक ओवरलैप का एक उपयोगी माप है जिसे A और B अपनी विशेषताओं के साथ साझा करते हैं। A और B की प्रत्येक विशेषता या तो 0 या 1 हो सकती है। A और B दोनों के लिए विशेषताओं के प्रत्येक संयोजन की कुल संख्या निम्नानुसार निर्दिष्ट है:


 * $$M_{11}$$ विशेषताओं की कुल संख्या को दर्शाता है जहाँ A और B दोनों का मान 1 है।
 * $$M_{01}$$ विशेषताओं की कुल संख्या का प्रतिनिधित्व करता है जहां A की विशेषता 0 है और B की विशेषता 1 है।
 * $$M_{10}$$ विशेषताओं की कुल संख्या का प्रतिनिधित्व करता है जहां A की विशेषता 1 है और B की विशेषता 0 है।
 * $$M_{00}$$ विशेषताओं की कुल संख्या को दर्शाता है जहाँ A और B दोनों का मान 0 है।

प्रत्येक विशेषता को इन चार श्रेणियों में से एक में आना चाहिए, जिसका अर्थ है
 * $$M_{11} + M_{01} + M_{10} + M_{00} = n.$$

जैककार्ड समानता गुणांक, J, इस प्रकार दिया गया है
 * $$J = {M_{11} \over M_{01} + M_{10} + M_{11}}.$$

जैकार्ड दूरी, dJ, के रूप में दिया गया है
 * $$d_J = {M_{01} + M_{10} \over M_{01} + M_{10} + M_{11}} = 1 - J.$$

जैककार्ड समानता गुणांक और परिणामस्वरूप संबंधित आव्यूह के आधार पर सांख्यिकीय अनुमान लगाया जा सकता है। एन विशेषताओं के साथ दो नमूना समुच्चय A और B दिए जाने पर, यह देखने के लिए एक सांख्यिकीय परीक्षण आयोजित किया जा सकता है कि क्या ओवरलैप सांख्यिकीय महत्व है। सटीक समाधान उपलब्ध है, हालाँकि n बढ़ने पर गणना महंगी हो सकती है। अनुमान विधियाँ या तो बहुपद वितरण का अनुमान लगाकर या बूटस्ट्रैपिंग द्वारा उपलब्ध हैं।

सरल मिलान गुणांक (एसएमसी) के साथ अंतर
जब बाइनरी विशेषताओं के लिए उपयोग किया जाता है, तो जैककार्ड इंडेक्स सरल मिलान गुणांक के समान होता है। मुख्य अंतर यह है कि एसएमसी के पास शब्द है $$M_{00}$$ इसके अंश और हर में, जबकि जैककार्ड इंडेक्स में ऐसा नहीं है। इस प्रकार, एसएमसी दोनों पारस्परिक उपस्थिति (जब एक विशेषता दोनों समुच्चय में उपस्थित है) और पारस्परिक अनुपस्थिति (जब एक विशेषता दोनों समुच्चय में अनुपस्थित है) को मिलान के रूप में गिनती है और इसकी तुलना ब्रह्मांड में विशेषताओं की कुल संख्या से करती है, जबकि जैककार्ड इंडेक्स केवल पारस्परिक उपस्थिति को मिलान के रूप में गिनता है और इसकी तुलना उन विशेषताओं की संख्या से करता है जिन्हें दो समुच्चय में से कम से कम एक द्वारा चुना गया है।

एफ़िनिटी विश्लेषण में, उदाहरण के लिए, दो उपभोक्ताओं की बास्केट जिनकी हम तुलना करना चाहते हैं, उनमें स्टोर में सभी उपलब्ध उत्पादों का केवल एक छोटा सा अंश हो सकता है, इसलिए एसएमसी सामान्यतः समानता के बहुत उच्च मूल्य लौटाएगा, भले ही टोकरियाँ बहुत कम हों समानता, इस प्रकार जैकार्ड इंडेक्स उस संदर्भ में समानता का अधिक उपयुक्त माप बन जाता है। उदाहरण के लिए, 1000 उत्पादों और दो ग्राहकों वाले एक सुपरमार्केट पर विचार करें। पहले ग्राहक की बास्केट में नमक और काली मिर्च है और दूसरे की बास्केट में नमक और चीनी है। इस परिदृश्य में, जैककार्ड इंडेक्स द्वारा मापी गई दो बास्केट के बीच समानता 1/3 होगी, लेकिन एसएमसी का उपयोग करके समानता 0.998 हो जाती है।

अन्य संदर्भों में, जहां 0 और 1 समतुल्य जानकारी (समरूपता) रखते हैं, एसएमसी समानता का एक बेहतर उपाय है। उदाहरण के लिए, डमी वैरिएबल (सांख्यिकी) में संग्रहीत जनसांख्यिकीय चर के सदिश, जैसे कि लिंग, एसएमसी के साथ जैककार्ड इंडेक्स की तुलना में बेहतर होंगे क्योंकि समानता पर लिंग का प्रभाव बराबर होना चाहिए, चाहे पुरुष को 0 के रूप में परिभाषित किया गया हो और महिला 1 या दूसरे तरीके से या नहीं। हालाँकि, जब हमारे पास सममित डमी चर होते हैं, तो कोई डमी को दो बाइनरी विशेषताओं (इस मामले में, पुरुष और महिला) में विभाजित करके एसएमसी के व्यवहार को दोहरा सकता है, इस प्रकार उन्हें असममित विशेषताओं में बदल सकता है, जिससे बिना जैककार्ड इंडेक्स के उपयोग की अनुमति मिलती है। किसी भी पूर्वाग्रह का परिचय देना। हालाँकि, सममित डमी चर के मामले में एसएमसी अधिक कम्प्यूटेशनल रूप से कुशल बनी हुई है क्योंकि इसमें अतिरिक्त आयाम जोड़ने की आवश्यकता नहीं है।

भारित जैककार्ड समानता और दूरी
अगर $$\mathbf{x} = (x_1, x_2, \ldots, x_n)$$ और $$\mathbf{y} = (y_1, y_2, \ldots, y_n)$$ सभी वास्तविक के साथ दो सदिश हैं $$x_i, y_i \geq 0$$, तो उनके जैककार्ड समानता गुणांक (जिसे रुज़िका समानता के रूप में भी जाना जाता है) को इस प्रकार परिभाषित किया गया है


 * $$J_\mathcal{W}(\mathbf{x}, \mathbf{y}) = \frac{\sum_i \min(x_i, y_i)}{\sum_i \max(x_i, y_i)},$$

और जैकार्ड दूरी (उस समय इसे सोर्जेल दूरी के नाम से भी जाना जाता था)


 * $$d_{J\mathcal{W}}(\mathbf{x}, \mathbf{y}) = 1 - J_\mathcal{W}(\mathbf{x}, \mathbf{y}).$$

और भी अधिक व्यापकता के साथ, यदि $$f$$ और $$g$$ मापने योग्य स्थान पर दो गैर-ऋणात्मक मापने योग्य कार्य हैं $$X$$ माप के साथ $$\mu$$, तो हम परिभाषित कर सकते हैं


 * $$J_\mathcal{W}(f, g) = \frac{\int\min(f, g) d\mu}{\int \max(f, g) d\mu},$$

जहाँ $$\max$$ और $$\min$$ बिंदुवार ऑपरेटर हैं. फिर जैकार्ड दूरी है


 * $$d_{J\mathcal{W}}(f, g) = 1 - J_\mathcal{W}(f, g).$$

फिर, उदाहरण के लिए, दो मापने योग्य समुच्चय के लिए $$A, B \subseteq X$$, अपने पास $$J_\mu(A,B) = J(\chi_A, \chi_B),$$जहाँ $$\chi_A$$ और $$\chi_B$$ संबंधित समुच्चय के विशिष्ट कार्य हैं।

संभाव्यता जैककार्ड समानता और दूरी
ऊपर वर्णित भारित जैककार्ड समानता, जैकार्ड इंडेक्स को घनात्मक सदिश में सामान्यीकृत करती है, जहां एक समुच्चय संकेतक फलन द्वारा दिए गए बाइनरी सदिश से मेल खाता है, यानी। $$x_i \in \{0,1\}$$. हालाँकि, यह जैकार्ड इंडेक्स को संभाव्यता वितरण के लिए सामान्यीकृत नहीं करता है, जहां एक समुच्चय एक समान संभाव्यता वितरण से मेल खाता है, अर्थात।


 * $$x_i = \begin{cases} \frac{1}{|X|} & i \in X \\ 0 & \text{otherwise} \end{cases}$$

यदि समुच्चय आकार में भिन्न हो तो यह हमेशा कम होता है। अगर $$|X| > |Y|$$, और $$x_i = \mathbf{1}_X(i)/|X|, y_i = \mathbf{1}_Y(i)/|Y|$$ तब


 * $$J_\mathcal{W}(x,y) = \frac{|X\cap Y|}{|X\setminus Y| + |X|} < J(X,Y).$$

इसके अतिरिक्त, एक सामान्यीकरण जो संभाव्यता वितरण और उनके संबंधित समर्थन समुच्चय के बीच निरंतर है


 * $$J_\mathcal{P}(x,y) = \sum_{x_i\neq 0, y_i \neq 0} \frac{1}{\sum_{j} \max\left(\frac{x_j}{x_i}, \frac{y_j}{y_i}\right)}$$

जिसे प्रोबेबिलिटी जैकार्ड कहा जाता है। संभाव्यता सदिश पर भारित जैकार्ड के विरुद्ध इसकी निम्नलिखित सीमाएँ हैं।


 * $$J_\mathcal{W}(x,y) \leq J_\mathcal{P}(x,y) \leq \frac{2J_\mathcal{W}(x,y)}{1+J_\mathcal{W}(x,y)} $$

यहां ऊपरी सीमा (भारित) सोरेंसन-डाइस गुणांक जैकार्ड|सोरेनसेन-डाइस गुणांक से अंतर है। संगत दूरी, $$1 - J_\mathcal{P}(x,y)$$, संभाव्यता वितरण पर एक मीट्रिक है, और गैर-ऋणात्मक सदिश पर एक छद्ममिति स्थान|छद्म-मीट्रिक है।

संभाव्यता जैकार्ड इंडेक्स की सिंप्लेक्स के एक प्रतिच्छेदन के क्षेत्र के रूप में एक ज्यामितीय व्याख्या है। एक इकाई पर प्रत्येक बिंदु $$k$$-सिम्पलेक्स एक संभाव्यता वितरण से मेल खाता है $$k+1$$ तत्व, क्योंकि इकाई $$k$$-सिम्प्लेक्स बिंदुओं का समूह है $$k+1$$ ऐसे आयाम जिनका योग 1 है। संभाव्यता जैककार्ड इंडेक्स को ज्यामितीय रूप से प्राप्त करने के लिए, प्रत्येक आइटम के द्रव्यमान के अनुसार इकाई सिंप्लेक्स को उप-सरलताओं में विभाजित करके एक संभाव्यता वितरण का प्रतिनिधित्व करें। यदि आप इस तरह दर्शाए गए दो वितरणों को एक-दूसरे के ऊपर रखते हैं, और प्रत्येक आइटम के अनुरूप सरलताओं को काटते हैं, तो जो क्षेत्र बचता है वह वितरण के संभाव्यता जैककार्ड इंडेक्स के बराबर होता है।

संभाव्यता जैककार्ड इंडेक्स की इष्टतमता
यादृच्छिक चर बनाने की समस्या पर विचार करें ताकि वे यथासंभव एक-दूसरे से टकराएं। अर्थात यदि $$X\sim x$$ और $$Y\sim y$$, हम निर्माण करना चाहेंगे $$X$$ और $$Y$$ बढ़ाने के लिए $$\Pr[X=Y]$$. यदि हम केवल दो वितरणों को देखें $$x,y$$ अलगाव में, उच्चतम $$\Pr[X=Y]$$ हम प्राप्त कर सकते हैं द्वारा दिया गया है $$1 - \text{TV}(x,y)$$जहाँ $$\text{TV}$$ संभाव्यता माप की कुल भिन्नता दूरी है। हालाँकि, मान लीजिए कि हम केवल उस विशेष जोड़ी को अधिकतम करने के बारे में चिंतित नहीं थे, मान लीजिए कि हम किसी भी मनमानी जोड़ी की टकराव की संभावना को अधिकतम करना चाहते हैं। प्रत्येक वितरण के लिए एक अनंत संख्या में यादृच्छिक चर का निर्माण किया जा सकता है $$x$$, और अधिकतम करने का प्रयास करें $$\Pr[X=Y]$$ सभी जोड़ियों के लिए $$x,y$$. नीचे वर्णित काफी मजबूत अर्थ में, संभाव्यता जैककार्ड इंडेक्स इन यादृच्छिक चर को संरेखित करने का एक इष्टतम तरीका है।

किसी भी नमूनाकरण विधि के लिए $$G$$ और असतत वितरण $$x,y$$, अगर $$\Pr[G(x) = G(y)] > J_\mathcal{P}(x,y)$$ फिर कुछ के लिए $$z$$जहाँ $$J_\mathcal{P}(x,z)>J_\mathcal{P}(x,y)$$ और $$J_\mathcal{P}(y,z)>J_\mathcal{P}(x,y)$$, दोनों में से एक $$\Pr[G(x) =  G(z)] < J_\mathcal{P}(x,z)$$ या $$\Pr[G(y) =  G(z)] < J_\mathcal{P}(y,z)$$.

अर्थात्, कोई भी नमूनाकरण विधि इससे अधिक टकराव प्राप्त नहीं कर सकती है $$J_\mathcal{P}$$ की तुलना में कम टकराव प्राप्त किए बिना एक जोड़ी पर $$J_\mathcal{P}$$ दूसरे युग्म पर, जहाँ घटा हुआ युग्म नीचे अधिक समान है $$J_\mathcal{P}$$ बढ़ी हुई जोड़ी की तुलना में. यह प्रमेय समुच्चय के जैकार्ड इंडेक्स (यदि समान वितरण के रूप में व्याख्या की जाए) और संभाव्यता जैकार्ड के लिए सत्य है, लेकिन भारित जैकार्ड के लिए नहीं। (प्रमेय किसी स्थान पर सभी वितरणों पर संयुक्त वितरण का वर्णन करने के लिए नमूनाकरण विधि शब्द का उपयोग करता है, क्योंकि यह मिनहैश # इनकॉर्पोरेटिंग वेट के उपयोग से प्राप्त होता है जो इसे उनकी टकराव की संभावना के रूप में प्राप्त करता है।)

इस प्रमेय में सिंप्लेक्स प्रतिनिधित्व का उपयोग करके तीन तत्व वितरण पर एक दृश्य प्रमाण है।

टैनिमोटो समानता और दूरी
टैनिमोटो समानता और टैनिमोटो दूरी के रूप में वर्णित कार्यों के विभिन्न रूप साहित्य और इंटरनेट पर पाए जाते हैं। इनमें से अधिकांश जैककार्ड समानता और जैककार्ड दूरी के पर्यायवाची हैं, लेकिन कुछ गणितीय रूप से भिन्न हैं। कई स्रोत आईबीएम तकनीकी रिपोर्ट का हवाला दें मौलिक संदर्भ के रूप में. रिपोर्ट कई पुस्तकालयों से उपलब्ध है।

अक्टूबर 1960 में प्रकाशित पौधों को वर्गीकृत करने के लिए "कंप्यूटर प्रोग्राम में, समानता अनुपात" और व्युत्पन्न दूरी फलन के आधार पर वर्गीकरण की एक विधि दी गई है। ऐसा लगता है कि यह "टैनिमोटो समानता" और "टैनिमोटो दूरी" शब्दों के अर्थ के लिए सबसे आधिकारिक स्रोत है। समानता अनुपात जैकार्ड समानता के बराबर है, लेकिन दूरी फलन जैकार्ड दूरी के समान नहीं है।

टैनिमोटो की समानता और दूरी की परिभाषाएँ
उस पेपर में, बिट सरणी पर एक समानता अनुपात दिया गया है, जहां एक निश्चित आकार की सरणी का प्रत्येक बिट मॉडल किए जा रहे पौधे में एक विशेषता की उपस्थिति या अनुपस्थिति का प्रतिनिधित्व करता है। अनुपात की परिभाषा सामान्य बिट्स की संख्या है, जो किसी भी नमूने में समुच्चय बिट्स (यानी गैर-शून्य) की संख्या से विभाजित होती है।

गणितीय शब्दों में प्रस्तुत किया गया है, यदि नमूने X और Y बिटमैप हैं, $$X_i$$ X का iवां बिट है, और $$ \land, \lor $$ क्रमशः बिटवाइज़ ऑपरेशन तार्किक संयोजन ,  तार्किक विच्छेदन  ऑपरेटर हैं, फिर समानता अनुपात $$T_s$$ है


 * $$ T_s(X,Y) = \frac{\sum_i ( X_i \land Y_i)}{\sum_i ( X_i \lor Y_i)}$$

यदि प्रत्येक नमूने को विशेषताओं के एक समुच्चय के रूप में तैयार किया जाता है, तो यह मान दो समुच्चय के जैकार्ड गुणांक के बराबर है। पेपर में जैकार्ड का उल्लेख नहीं किया गया है, और ऐसा लगता है कि लेखकों को इसकी जानकारी नहीं थी।

टैनिमोटो इस अनुपात के आधार पर  दूरी गुणांक  को परिभाषित करता है, जो गैर-शून्य समानता वाले बिटमैप्स के लिए परिभाषित है:


 * $$T_d(X,Y) = -\log_2 ( T_s(X,Y) ) $$

यह गुणांक, जानबूझकर, दूरी मीट्रिक (मापीय) नहीं है। इसे दो नमूनों की संभावना को अनुमति देने के लिए चुना गया है, जो एक दूसरे से काफी भिन्न हैं, दोनों एक तिहाई के समान हैं। ऐसा उदाहरण बनाना आसान है जो त्रिभुज असमानता मीट्रिक स्पेस की संपत्ति को अस्वीकार करता है।

टैनिमोटो दूरी की अन्य परिभाषाएँ
टैनिमोटो दूरी को प्रायः ग़लती से जैककार्ड दूरी के पर्याय के रूप में संदर्भित किया जाता है $$1-T_s$$. यह फलन एक उचित दूरी मीट्रिक है. टैनिमोटो दूरी को प्रायः एक उचित दूरी मीट्रिक के रूप में कहा जाता है, शायद जैककार्ड दूरी के साथ इसके भ्रम के कारण।

यदि जैकार्ड या टैनिमोटो समानता को बिट सदिश पर व्यक्त किया जाता है, तो इसे इस प्रकार लिखा जा सकता है


 * $$f(A,B) =\frac{ A \cdot B}{\|A\|^2 +\|B\|^2 - A \cdot B}$$

जहां समान गणना सदिश अदिश उत्पाद और परिमाण के संदर्भ में व्यक्त की जाती है। यह प्रतिनिधित्व इस तथ्य पर निर्भर करता है कि, एक बिट सदिश के लिए (जहां प्रत्येक आयाम का मान या तो 0 या 1 है)


 * $$A \cdot B = \sum_i A_iB_i = \sum_i ( A_i \land B_i)$$

और


 * $$\|A\|^2 = \sum_i A_i^2 = \sum_i A_i.$$

यह संभावित रूप से भ्रमित करने वाला प्रतिनिधित्व है, क्योंकि सदिश पर व्यक्त किया गया फलन अधिक सामान्य है, जब तक कि इसका डोमेन स्पष्ट रूप से प्रतिबंधित न हो। के गुण $$ T_s $$ जरूरी नहीं कि इसका विस्तार हो $$f$$. विशेष रूप से, अंतर फलन $$1-f$$ जबकि, त्रिभुज असमानता को संरक्षित नहीं करता है, और इसलिए यह एक उचित दूरी मीट्रिक नहीं है $$1 - T_s $$ है।

एक वास्तविक ख़तरा है कि इस सूत्र का उपयोग करके टैनिमोटो दूरी के संयोजन को परिभाषित किया जा रहा है, साथ ही यह कथन कि टैनिमोटो दूरी एक उचित दूरी मीट्रिक है, गलत निष्कर्ष पर ले जाएगा कि फलन $$1-f$$ वास्तव में सामान्य तौर पर सदिश या मल्टीसमुच्चय पर एक दूरी मीट्रिक है, जबकि समानता खोज या क्लस्टरिंग एल्गोरिदम में इसका उपयोग सही परिणाम देने में विफल हो सकता है।

लिपकस टैनिमोटो समानता की एक परिभाषा का उपयोग करता है जो इसके बराबर है $$f$$, और फलन के रूप में टैनिमोटो दूरी को संदर्भित करता है $$1-f$$. हालाँकि, पेपर में यह स्पष्ट कर दिया गया है कि संदर्भ (घनात्मक) वेटिंग सदिश के उपयोग से प्रतिबंधित है $$W$$ ऐसा कि, किसी भी सदिश ए के लिए विचार किया जा रहा है, $$A_i \in \{0,W_i\}.$$ इन परिस्थितियों में, फलन एक उचित दूरी मीट्रिक है, और इसलिए ऐसे वेटिंग सदिश द्वारा शासित सदिश का एक समुच्चय इस फलन के तहत एक मीट्रिक स्थान बनाता है।

बाइनरी वर्गीकरण भ्रम आव्यूह में जैकार्ड इंडेक्स
बाइनरी वर्गीकरण के लिए नियोजित भ्रम आव्यूह में, जैककार्ड इंडेक्स को निम्नलिखित सूत्र में तैयार किया जा सकता है:


 * $$\text{Jaccard index} = \frac{TP}{TP + FP + FN}$$

जहां TP सच्चे घनात्मक हैं, एफपी गलत घनात्मक हैं और FN गलत ऋणात्मक हैं।

यह भी देखें

 * ओवरलैप गुणांक
 * सरल मिलान गुणांक
 * हैमिंग दूरी
 * सोरेनसेन-डाइस गुणांक, जो समतुल्य है: $$J=S/(2-S)$$ और $$S=2J/(1+J)$$ ($$J$$: जैकार्ड इंडेक्स, $$S$$: सोरेनसेन-डाइस गुणांक)
 * टावर्सकी इंडेक्स
 * सह - संबंध
 * पारस्परिक जानकारी, एक सामान्यीकृत पारस्परिक जानकारी#मीट्रिक संस्करण, जो एक एंट्रोपिक जैककार्ड दूरी है।

बाहरी संबंध

 * Introduction to Data Mining lecture notes from Tan, Steinbach, Kumar
 * SimMetrics a sourceforge implementation of Jaccard index and many other similarity metrics
 * A web-based calculator for finding the Jaccard Coefficient
 * Tutorial on how to calculate different similarities
 * Intersection over Union (IoU) for object detection
 * Kaggle Dstl Satellite Imagery Feature Detection - Evaluation
 * Similarity and dissimilarity measures used in data science