मिनहैश: Difference between revisions

From Vigyanwiki
m (Deepak moved page मिनहाश to मिनहैश without leaving a redirect)
No edit summary
 
(8 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Data mining technique}}
{{Short description|Data mining technique}}
[[कंप्यूटर विज्ञान]] और [[डेटा खनन]] में, मिनहैश (या न्यूनतम-वार स्वतंत्र क्रमपरिवर्तन [[स्थानीयता संवेदनशील हैशिंग]] स्कीम) दो सेटों की समानता को मापने के तरीके का शीघ्रता से अनुमान लगाने की एक तकनीक है। योजना का आविष्कार किसके द्वारा किया गया था {{harvs|first=Andrei|last=Broder|authorlink=Andrei Broder|year=1997|txt}},<ref name="b97"/>और प्रारंभ में डुप्लिकेट वेब पेजों का पता लगाने और उन्हें खोज परिणामों से हटाने के लिए [[AltaVista]] सर्च इंजन में उपयोग किया गया।<ref name="bcfm">{{citation
[[कंप्यूटर विज्ञान]] और [[डेटा खनन|डेटा माइनिंग]] में, मिनहैश (या कम से कम स्वतंत्र क्रमपरिवर्तन [[स्थानीयता संवेदनशील हैशिंग]] स्कीम) दो समुच्चयो की समानता को मापने की विधि का शीघ्रता से अनुमान लगाने की विधि है। पद्धति का आविष्कार {{harvs|first=एंड्री|last=ब्रॉडर|authorlink=एंड्री ब्रॉडर|year=1997|txt}} द्वारा किया गया था ,<ref name="b97">{{citation
| last1 = Broder | first1 = Andrei Z. | author1-link = Andrei Broder
| last2 = Charikar | first2 = Moses
| last3 = Frieze | first3 = Alan M. | author3-link = Alan M. Frieze
| last4 = Mitzenmacher | first4 = Michael | author4-link = Michael Mitzenmacher
| contribution = Min-wise independent permutations
| doi = 10.1145/276698.276781
| location = New York, NY, USA
| pages = 327–336
| publisher = [[Association for Computing Machinery]]
| title = Proc. 30th ACM Symposium on Theory of Computing (STOC '98)
| year = 1998| title-link = Symposium on Theory of Computing | isbn = 978-0897919623 | citeseerx = 10.1.1.409.9220 | s2cid = 465847 }}.</ref> यह बड़े पैमाने पर [[क्लस्टर विश्लेषण]] समस्याओं में भी लागू किया गया है, जैसे उनके शब्दों के सेट की समानता से [[दस्तावेज़ क्लस्टरिंग]]।<ref name="b97">{{citation
  | last = Broder
  | last = Broder
  | first = Andrei Z.
  | first = Andrei Z.
Line 29: Line 18:
  | archive-date = 2015-01-31
  | archive-date = 2015-01-31
  | url-status = dead
  | url-status = dead
  }}.</ref>
  }}.</ref> और प्रारंभ में प्रतिरूप वेब पेजों का पता लगाने और उन्हें खोज परिणामों से हटाने के लिए [[AltaVista|अल्टाविस्टा]] सर्च इंजन में उपयोग किया गया था।<ref name="bcfm">{{citation
 
| last1 = Broder | first1 = Andrei Z. | author1-link = Andrei Broder
 
| last2 = Charikar | first2 = Moses
| last3 = Frieze | first3 = Alan M. | author3-link = Alan M. Frieze
| last4 = Mitzenmacher | first4 = Michael | author4-link = Michael Mitzenmacher
| contribution = Min-wise independent permutations
| doi = 10.1145/276698.276781
| location = New York, NY, USA
| pages = 327–336
| publisher = [[Association for Computing Machinery]]
| title = Proc. 30th ACM Symposium on Theory of Computing (STOC '98)
| year = 1998| title-link = Symposium on Theory of Computing | isbn = 978-0897919623 | citeseerx = 10.1.1.409.9220 | s2cid = 465847 }}.</ref> यह बड़े मापदंड पर [[क्लस्टर विश्लेषण]] समस्याओं में भी प्रयुक्त किया गया है । जैसे उनके शब्दों के समुच्चय की समानता से [[दस्तावेज़ क्लस्टरिंग]] से होता है।<ref name="b97" />
== जैककार्ड समानता और न्यूनतम हैश मान ==
== जैककार्ड समानता और न्यूनतम हैश मान ==
[[जैकार्ड इंडेक्स]] दो सेटों के बीच समानता का आमतौर पर इस्तेमाल किया जाने वाला संकेतक है। होने देना {{math|''U''}} एक सेट हो और {{math|''A''}} और {{math|''B''}} के उपसमुच्चय हों {{math|''U''}}, तो जैकार्ड इंडेक्स को उनके प्रतिच्छेदन (सेट सिद्धांत) के तत्वों की संख्या और उनके [[संघ (सेट सिद्धांत)]] के तत्वों की संख्या के अनुपात के रूप में परिभाषित किया गया है:
[[जैकार्ड इंडेक्स|जैकार्ड सूची]] दो समुच्चयो के बीच समानता का सामान्यतः उपयोग किया जाने वाला संकेतक है। माना {{math|''U''}} समुच्चय हो और {{math|''A''}} और {{math|''B''}} के उपसमुच्चय {{math|''U''}} हों , तो जैकार्ड सूची को उनके प्रतिच्छेदन (समुच्चय सिद्धांत) के तत्वों की संख्या और उनके [[संघ (सेट सिद्धांत)|संघ (समुच्चय सिद्धांत)]] के तत्वों की संख्या के अनुपात के रूप में परिभाषित किया गया है
:<math> J(A,B) = {{|A \cap B|}\over{|A \cup B|}}.</math>
:<math> J(A,B) = {{|A \cap B|}\over{|A \cup B|}}.</math>
यह मान 0 है जब दो सेट अलग सेट होते हैं, 1 जब वे बराबर होते हैं, और सख्ती से 0 और 1 के बीच अन्यथा। दो सेट अधिक समान होते हैं (अर्थात अपेक्षाकृत अधिक सदस्य होते हैं) जब उनका जैकार्ड इंडेक्स 1 के करीब होता है। मिनहैश का लक्ष्य अनुमान लगाना है {{math|''J''(''A'',''B'')}} शीघ्रता से, प्रतिच्छेदन और संघ की स्पष्ट रूप से गणना किए बिना।
यह मान 0 है जब दो समुच्चय अलग समुच्चय होते हैं जब वे समान होते हैं, और सख्ती से 0 और 1 के बीच अन्यथा दो समुच्चय अधिक समान होते हैं (अर्थात अपेक्षाकृत अधिक सदस्य होते हैं) जब उनका जैकार्ड सूची 1 के निकट होता है। मिनहैश {{math|''J''(''A'',''B'')}} का लक्ष्य अनुमान लगाना है। शीघ्रता से, प्रतिच्छेदन और संघ की स्पष्ट रूप से गणना किए बिना किया जाता है।


होने देना {{math|''h''}} एक [[हैश फंकशन]] हो जो सदस्यों को मैप करता हो {{math|''U''}} भिन्न पूर्णांकों के लिए, मान लीजिए {{math|''perm''}} सेट के तत्वों का एक यादृच्छिक क्रम[[परिवर्तन]] हो {{math|''U''}}, और किसी भी सबसेट के लिए {{math|''S''}} का {{math|''U''}} परिभाषित करना {{math|''h''<sub>min</sub>(''S'')}} का न्यूनतम सदस्य होना {{math|''S''}} इसके संबंध में {{math|''h'' ∘ ''perm''}}—अर्थात् सदस्य {{math|''x''}} का {{math|''S''}} के न्यूनतम मूल्य के साथ {{math|''h''(''perm''(''x''))}}. (ऐसे मामलों में जहां उपयोग किए गए हैश फ़ंक्शन को छद्म-यादृच्छिक गुण माना जाता है, यादृच्छिक क्रमचय का उपयोग नहीं किया जाएगा।)
माना {{math|''h''}} [[हैश फंकशन|हैश फलन]] हो जो सदस्यों {{math|''U''}} को मैप करता हो भिन्न पूर्णांकों के लिए मैप करता है । मान लीजिए {{math|''पर्म''}} समुच्चय के तत्वों का यादृच्छिक क्रम[[परिवर्तन]] {{math|''U''}} हो , और किसी भी सबसेट के लिए {{math|''S''}} का {{math|''U''}} परिभाषित करता है । {{math|''h''<sub>min</sub>(''S'')}} का न्यूनतम सदस्य होना {{math|''S''}} इसके संबंध में {{math|''h'' ∘ ''perm''}}—अर्थात् के न्यूनतम मूल्य के साथ {{math|''S''}} का सदस्य {{math|''x''}} है । {{math|''h''(''perm''(''x''))}}. (ऐसे स्थितियों में जहां उपयोग किए गए हैश फलन को छद्म-यादृच्छिक गुण माना जाता है, यादृच्छिक क्रमचय का उपयोग नहीं किया जाएगा।)


अब, आवेदन कर रहा हूँ {{math|''h''<sub>min</sub>}} दोनों के लिए {{math|''A''}} और {{math|''B''}}, और कोई हैश टकराव नहीं मानते हुए, हम देखते हैं कि मान समान हैं ({{math|1=''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'')}}) अगर और केवल अगर के सभी तत्वों के बीच <math>A\cup B</math>, न्यूनतम हैश मान वाला तत्व चौराहे पर स्थित है <math>A\cap B</math>. यह सच होने की संभावना वास्तव में जैकार्ड इंडेक्स है, इसलिए:
अब, {{math|''A''}} और {{math|''B''}} दोनों के लिए {{math|''h''<sub>min</sub>}} प्रयुक्त करना, और कोई हैश टकराव नहीं मानते हुए, हम देखते हैं कि मान समान हैं। ({{math|1=''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'')}}) यदि और केवल यदि <math>A\cup B</math> के सभी तत्वों के साथ तत्व न्यूनतम हैश मान प्रतिच्छेदन <math>A\cap B</math> में निहित है। इसके सही होने की संभावना वास्तव में जैकार्ड सूची है। इसलिए:
:{{math|1=Pr[ ''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'') ] = ''J''(''A'',''B''),}}
:{{math|1=Pr[ ''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'') ] = ''J''(''A'',''B''),}}


यानी [[संभावना]] है {{math|1=''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'')}} सच है समानता के बराबर है {{math|''J''(''A'',''B'')}}, ड्राइंग मानते हुए {{math|''perm''}} एक समान वितरण से। दूसरे शब्दों में, अगर {{math|''r''}} यादृच्छिक चर है जो एक है जब {{math|1=''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'')}} और शून्य अन्यथा, फिर {{math|''r''}} के अनुमानक का पूर्वाग्रह है {{math|''J''(''A'',''B'')}}. {{math|''r''}} का प्रसरण अपने आप में जैककार्ड समानता के लिए एक उपयोगी अनुमानक होने के लिए बहुत अधिक है, क्योंकि <math>r</math> हमेशा शून्य या एक होता है। मिनहाश योजना का विचार एक ही तरह से निर्मित कई चरों को एक साथ जोड़कर इस भिन्नता को कम करना है।
अर्थात्, [[संभावना]] है कि {{math|1=''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'')}} सत्य है। समानता {{math|''J''(''A'',''B'')}} के समान है जो एक समान वितरण से ड्राइंग {{math|''perm''}} को मानता है। दूसरे शब्दों में, यदि {{math|''r''}} यादृच्छिक चर है। जो एक है जब {{math|1=''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'')}} और अन्यथा शून्य है, तो {{math|''r''}} {{math|''J''(''A'',''B'')}} का निष्पक्ष अनुमानक है। {{math|''r''}} का प्रसरण इतना अधिक है कि स्वयं जैककार्ड समानता के लिए उपयोगी अनुमानक नहीं बन सकता क्योंकि r सदैव शून्य या एक होता है। मिनहाश योजना का विचार एक ही तरह से निर्मित कई चरों को एक साथ जोड़कर इस भिन्नता को कम करना है।


== एल्गोरिथम ==
== एल्गोरिथम ==


=== कई हैश कार्यों के साथ संस्करण ===
=== कई हैश फलन के साथ संस्करण ===
मिनहाश योजना का सबसे सरल संस्करण उपयोग करता है {{math|''k''}} विभिन्न हैश फ़ंक्शंस, जहाँ {{math|''k''}} एक निश्चित पूर्णांक पैरामीटर है, और प्रत्येक सेट का प्रतिनिधित्व करता है {{math|''S''}} से {{math|''k''}} का मान {{math|''h''<sub>min</sub>(''S'')}} इन के लिए {{math|''k''}} कार्य करता है।
मिनहाश पद्धति {{math|''k''}} का सबसे सरल संस्करण उपयोग करता है। विभिन्न हैश फलन, जहाँ {{math|''k''}} निश्चित पूर्णांक मापदंड है, और प्रत्येक समुच्चय का प्रतिनिधित्व करता है। {{math|''S''}} से {{math|''k''}} का मान {{math|''h''<sub>min</sub>(''S'')}} इन के लिए {{math|''k''}} फलन करता है।
 
अनुमान लगाने के लिए {{math|''J''(''A'',''B'')}} पद्धति के इस संस्करण का उपयोग करते हुए, आइए {{math|''y''}} हैश फलन की संख्या हो जिसके लिए {{math|1=''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'')}}, और उपयोग करें {{math|''y''/''k''}} अनुमान के रूप में यह अनुमान का औसत है । {{math|''k''}} विभिन्न 0-1 यादृच्छिक चर, जिनमें {{math|1=''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'')}} से प्रत्येक एक जब है और शून्य अन्यथा, और जिनमें से प्रत्येक का {{math|''J''(''A'',''B'')}} निष्पक्ष अनुमानक है। इसलिए, उनका औसत भी निष्पक्ष अनुमानक है, और 0-1 यादृच्छिक चर के योग के लिए मानक विचलन द्वारा, इसकी अपेक्षित {{math|O(1/{{sqrt|''k''}})}} त्रुटि है।<ref>{{citation|first=Sergey|last=Vassilvitskii|year=2011|title=COMS 6998-12: Dealing with Massive Data (lecture notes, Columbia university)|url=https://www.cs.columbia.edu/~coms699812/lecture1.pdf|archive-url=https://web.archive.org/web/20181024161246/https://www.cs.columbia.edu/~coms699812/lecture1.pdf|url-status=dead|archive-date=2018-10-24}}.</ref>
 
इसलिए, किसी भी स्थिरांक {{math|1=''k'' = O(1/&epsilon;<sup>2</sup>)}} के लिए {{math|&epsilon; > 0}} नियतांक है। जैसे अनुमान की अपेक्षित त्रुटि अधिक से अधिक {{math|&epsilon;}} होती है। उदाहरण के लिए,.05 से कम या उसके समान अपेक्षित त्रुटि के साथ {{math|''J''(''A'',''B'')}} अनुमान लगाने के लिए 400 हैश की आवश्यकता होती है।


अंदाज़ा लगाने के लिए {{math|''J''(''A'',''B'')}} योजना के इस संस्करण का उपयोग करते हुए, आइए {{math|''y''}} हैश फ़ंक्शंस की संख्या हो जिसके लिए {{math|1=''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'')}}, और उपयोग करें {{math|''y''/''k''}} अनुमान के रूप में। यह अनुमान का औसत है {{math|''k''}} विभिन्न 0-1 यादृच्छिक चर, जिनमें से प्रत्येक एक कब है {{math|1=''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'')}} और शून्य अन्यथा, और जिनमें से प्रत्येक का एक निष्पक्ष अनुमानक है  {{math|''J''(''A'',''B'')}}. इसलिए, उनका औसत भी एक निष्पक्ष अनुमानक है, और 0-1 यादृच्छिक चर के योग के लिए मानक विचलन द्वारा, इसकी अपेक्षित त्रुटि है {{math|O(1/{{sqrt|''k''}})}}.<ref>{{citation|first=Sergey|last=Vassilvitskii|year=2011|title=COMS 6998-12: Dealing with Massive Data (lecture notes, Columbia university)|url=https://www.cs.columbia.edu/~coms699812/lecture1.pdf|archive-url=https://web.archive.org/web/20181024161246/https://www.cs.columbia.edu/~coms699812/lecture1.pdf|url-status=dead|archive-date=2018-10-24}}.</ref>
=== एकल हैश फलन के साथ संस्करण ===
इसलिए, किसी भी स्थिरांक के लिए {{math|&epsilon; > 0}} एक नियतांक है {{math|1=''k'' = O(1/&epsilon;<sup>2</sup>)}} जैसे अनुमान की अपेक्षित त्रुटि अधिक से अधिक हो{{math|&epsilon;}}. उदाहरण के लिए, अनुमान लगाने के लिए 400 हैश की आवश्यकता होगी {{math|''J''(''A'',''B'')}} .05 से कम या उसके बराबर अपेक्षित त्रुटि के साथ।
यह कई हैश फलन की गणना करने के लिए कम्प्यूटेशनल रूप से महंगा हो सकता है। किन्तु मिनहाश पद्धति का संबंधित संस्करण केवल एक हैश फलन का उपयोग करके इस दंड से बचा जाता है और इसका उपयोग प्रत्येक हैश फलन के लिए केवल न्यूनतम मान का चयन करने के अतिरिक्त प्रत्येक समुच्चय से कई मानों का चयन करने के लिए करता है। माना {{math|''h''}} हैश फलन है और निश्चित पूर्णांक है। यदि {{math|''S''}} {{math|''k''}} का कोई समुच्चय है या अधिक मान के डोमेन में {{math|''h''}}, परिभाषित करना {{math|''h''<sub>(''k'')</sub>(''S'')}} का सबसेट होना {{math|''k''}} के सदस्यों {{math|''S''}} जिसके सबसे छोटे मान {{math|''h''}} हैं। यह उपसमुच्चय {{math|''h''<sub>(''k'')</sub>(''S'')}} समुच्चय {{math|''S''}} के लिए हस्ताक्षर के रूप में प्रयोग किया जाता है और किन्हीं दो समुच्चयो की समानता का अनुमान उनके हस्ताक्षरों की तुलना करके लगाया जाता है।


=== एकल हैश फ़ंक्शन के साथ संस्करण ===
यह कई हैश कार्यों की गणना करने के लिए कम्प्यूटेशनल रूप से महंगा हो सकता है, लेकिन मिनहाश योजना का एक संबंधित संस्करण केवल एक हैश फ़ंक्शन का उपयोग करके इस दंड से बचा जाता है और इसका उपयोग प्रत्येक हैश फ़ंक्शन के लिए केवल एक न्यूनतम मान का चयन करने के बजाय प्रत्येक सेट से कई मानों का चयन करने के लिए करता है। होने देना {{math|''h''}} हैश फ़ंक्शन बनें, और दें {{math|''k''}} एक निश्चित पूर्णांक हो। अगर {{math|''S''}} का कोई सेट है {{math|''k''}} या अधिक मान के डोमेन में {{math|''h''}},
परिभाषित करना {{math|''h''<sub>(''k'')</sub>(''S'')}} का सबसेट होना {{math|''k''}} के सदस्यों {{math|''S''}} जिसके सबसे छोटे मान हैं {{math|''h''}}. यह उपसमुच्चय {{math|''h''<sub>(''k'')</sub>(''S'')}} सेट के लिए हस्ताक्षर के रूप में प्रयोग किया जाता है {{math|''S''}}, और किन्हीं दो सेटों की समानता का अनुमान उनके हस्ताक्षरों की तुलना करके लगाया जाता है।


विशेष रूप से, A और B को कोई भी दो सेट होने दें।
विशेष रूप से, A और B को कोई भी दो समुच्चय होने दें। तब {{math|1=''X'' = ''h''<sub>(''k'')</sub>(''h''<sub>(''k'')</sub>(''A'') &cup; ''h''<sub>(''k'')</sub>(''B'')) = ''h''<sub>(''k'')</sub>(''A'' &cup; ''B'')}} k तत्वों का समुच्चय {{math|''A'' &cup; ''B''}} है , और यदि h यादृच्छिक फलन है तो k तत्वों के किसी उपसमुच्चय के चुने जाने की समान संभावना है। जो कि {{math|''X''}} {{math|''A'' &cup; ''B''}} का साधारण यादृच्छिक प्रतिरूप है। उपसमुच्चय {{math|1=''Y'' = ''X'' &cap; ''h''<sub>(''k'')</sub>(''A'') &cap; ''h''<sub>(''k'')</sub>(''B'')}} के सदस्यों का समुच्चय है जो प्रतिच्छेदन {{math|''X''}} के हैं जो {{math|''A'' &cap; ''B''}} से संबंधित हैं। इसलिए, |{{math|''Y''}}|/{{math|''k''}} {{math|''J''(''A'',''B'')}} का निष्पक्ष अनुमानक है। इस अनुमानक और एकाधिक हैश फलन द्वारा उत्पादित अनुमानक के बीच का अंतर यह है कि {{math|''X''}} सदैव {{math|''k''}} सदस्य स्पष्ट होता है, जबकि कई हैश फलन से प्रतिरूप तत्वों की छोटी संख्या हो सकती है। इस संभावना के कारण कि दो अलग-अलग हैश फलन में एक ही मिनिमा हो सकती है। चूँकि, जब {{math|''k''}} समुच्चय के आकार के सापेक्ष छोटा है, यह अंतर नगण्य है।
तब {{math|1=''X'' = ''h''<sub>(''k'')</sub>(''h''<sub>(''k'')</sub>(''A'') &cup; ''h''<sub>(''k'')</sub>(''B'')) = ''h''<sub>(''k'')</sub>(''A'' &cup; ''B'')}} k तत्वों का एक सेट है {{math|''A'' &cup; ''B''}}, और यदि h एक यादृच्छिक फलन है तो k तत्वों के किसी उपसमुच्चय के चुने जाने की समान संभावना है; वह है, {{math|''X''}} का एक साधारण यादृच्छिक नमूना है {{math|''A'' &cup; ''B''}}. उपसमुच्चय {{math|1=''Y'' = ''X'' &cap; ''h''<sub>(''k'')</sub>(''A'') &cap; ''h''<sub>(''k'')</sub>(''B'')}} के सदस्यों का समुच्चय है {{math|''X''}} जो चौराहे के हैं {{math|''A'' &cap; ''B''}}. इसलिए, |{{math|''Y''}}|/{{math|''k''}} का एक निष्पक्ष अनुमानक है {{math|''J''(''A'',''B'')}}. इस अनुमानक और एकाधिक हैश फ़ंक्शंस द्वारा उत्पादित अनुमानक के बीच का अंतर यह है {{math|''X''}} हमेशा सटीक होता है {{math|''k''}} सदस्य, जबकि कई हैश फ़ंक्शंस से नमूना तत्वों की एक छोटी संख्या हो सकती है, इस संभावना के कारण कि दो अलग-अलग हैश फ़ंक्शंस में एक ही मिनिमा हो सकती है। हालाँकि, कब {{math|''k''}} सेट के आकार के सापेक्ष छोटा है, यह अंतर नगण्य है।


प्रतिस्थापन के बिना नमूने के लिए मानक चेरनॉफ़ सीमा से, इस अनुमानक ने त्रुटि की उम्मीद की है {{math|O(1/{{sqrt|''k''}})}}, बहु-हैश-फ़ंक्शन योजना के प्रदर्शन का मिलान करना।
प्रतिस्थापन के बिना प्रतिरूप के लिए मानक चेरनॉफ़ सीमा से, इस अनुमानक ने त्रुटि की अनुमान {{math|O(1/{{sqrt|''k''}})}} की है। बहु-हैश-फलन पद्धति के प्रदर्शन का मिलान होता है।


=== समय विश्लेषण ===
=== समय विश्लेषण ===
अनुमानक {{math|&#124;''Y''&#124;/''k''}} की गणना समय पर की जा सकती है {{math|O(''k'')}} दिए गए सेट के दो हस्ताक्षरों से, योजना के किसी भी प्रकार में। इसलिए, कब {{math|&epsilon;}} और {{math|''k''}} स्थिरांक हैं, हस्ताक्षरों से अनुमानित समानता की गणना करने का समय भी स्थिर है। प्रत्येक सेट के हस्ताक्षर की गणना सेट के आकार पर [[रैखिक समय]] में की जा सकती है, इसलिए जब कई जोड़ीदार समानताओं का अनुमान लगाने की आवश्यकता होती है, तो इस विधि से प्रत्येक सेट के सदस्यों की पूर्ण तुलना करने की तुलना में चलने के समय में पर्याप्त बचत हो सकती है। . विशेष रूप से, सेट आकार के लिए {{math|''n''}} अनेक हैश वैरिएंट लेता है {{math|O(''n'' ''k'')}} समय। सिंगल हैश वैरिएंट आमतौर पर तेज़ होता है, जिसकी आवश्यकता होती है {{math|O(''n'')}} समय मानते हुए न्यूनतम हैश मान की कतार बनाए रखने के लिए {{math|''n'' >> ''k''}}.<ref name="b97" />
अनुमानक {{math|&#124;''Y''&#124;/''k''}} की गणना समय {{math|O(''k'')}} पर की जा सकती है। दिए गए समुच्चय के दो हस्ताक्षरों से, पद्धति के किसी भी प्रकार में इसलिए, जब {{math|&epsilon;}} और {{math|''k''}} स्थिरांक हैं। हस्ताक्षरों से अनुमानित समानता की गणना करने का समय भी स्थिर है। प्रत्येक समुच्चय के हस्ताक्षर की गणना समुच्चय के आकार पर [[रैखिक समय]] में की जा सकती है। इसलिए जब कई जोड़ीदार समानताओं का अनुमान लगाने की आवश्यकता होती है, तो इस विधि से प्रत्येक समुच्चय के सदस्यों की पूर्ण तुलना करने की तुलना में चलने के समय में पर्याप्त बचत हो सकती है। विशेष रूप से, समुच्चय आकार के लिए {{math|''n''}} अनेक हैश वैरिएंट {{math|O(''n'' ''k'')}} समय लेता है। सिंगल हैश वैरिएंट आम तौर पर तेज़ होता है, जिसमें {{math|''n'' >> ''k''}} मानने वाले न्यूनतम हैश मानों की कतार बनाए रखने के लिए {{math|O(''n'')}} समय की आवश्यकता होती है।<ref name="b97" />


 
== वजन सम्मिलित करना ==
== वजन शामिल करना ==
मिनहैश की गणना में वज़न प्रस्तुत करने के लिए कई तरह की विधियों का विकास किया गया है। सरलतम इसे पूर्णांक भार तक बढ़ाता है।<ref>{{citation
MinHashes की गणना में वज़न पेश करने के लिए कई तरह की तकनीकों का विकास किया गया है। सरलतम इसे पूर्णांक भार तक बढ़ाता है।<ref>{{citation
   | title = Near Duplicate Image Detection: min-Hash and tf-idf Weighting.
   | title = Near Duplicate Image Detection: min-Hash and tf-idf Weighting.
   | last1 = Chum | first1 = Ondrej | last2 = Philbin | first2 = James | last3 = Zisserman | first3 = Andrew
   | last1 = Chum | first1 = Ondrej | last2 = Philbin | first2 = James | last3 = Zisserman | first3 = Andrew
Line 74: Line 71:
   | url = http://www.bmva.org/bmvc/2008/papers/119.pdf
   | url = http://www.bmva.org/bmvc/2008/papers/119.pdf
   | year = 2008}}</ref>
   | year = 2008}}</ref>
हमारे हैश फ़ंक्शन का विस्तार करें {{mvar|h}} एक सेट सदस्य और एक पूर्णांक दोनों को स्वीकार करने के लिए, फिर प्रत्येक आइटम के लिए उसके वजन के अनुसार कई हैश उत्पन्न करें। अगर आइटम {{mvar|i}} घटित होना {{mvar|n}} बार, हैश उत्पन्न करें <math>h(i,1), h(i,2), \ldots, h(i,n)</math>. हैश के इस विस्तारित सेट पर मूल एल्गोरिथम चलाएं। ऐसा करने से टक्कर की संभावना के रूप में जैकार्ड इंडेक्स#भारित जैककार्ड समानता और दूरी प्राप्त होती है।
 
हमारे हैश फलन का विस्तार करें {{mvar|h}} समुच्चय सदस्य और पूर्णांक दोनों को स्वीकार करने के लिए, फिर प्रत्येक आइटम के लिए उसके वजन के अनुसार कई हैश उत्पन्न करें। यदि आइटम {{mvar|i}} घटित होना {{mvar|n}} बार, हैश <math>h(i,1), h(i,2), \ldots, h(i,n)</math> उत्पन्न करता है। हैश के इस विस्तारित समुच्चय पर मूल एल्गोरिथम चलाएं ऐसा करने से टक्कर की संभावना के रूप में जैकार्ड सूची जैककार्ड समानता और दूरी प्राप्त होती है।


: <math>J_\mathcal{W}(x,y) = \frac{\sum_i \min(x_i,y_i)}{\sum_i \max(x_i,y_i)}</math>
: <math>J_\mathcal{W}(x,y) = \frac{\sum_i \min(x_i,y_i)}{\sum_i \max(x_i,y_i)}</math>
बेहतर रनटाइम के साथ वास्तविक भार पर इस टकराव की संभावना को प्राप्त करने वाले और विस्तार विकसित किए गए हैं, एक सघन डेटा के लिए,<ref>{{cite arXiv
उत्तम रनटाइम के साथ वास्तविक भार पर इस टकराव की संभावना को प्राप्त करने वाले और विस्तार विकसित किए गए हैं। सघन डेटा के लिए,<ref>{{cite arXiv
   | title=Exact weighted minwise hashing in constant time
   | title=Exact weighted minwise hashing in constant time
   | eprint = 1602.08393
   | eprint = 1602.08393
Line 83: Line 81:
   | year = 2016
   | year = 2016
   | mode=cs2| class = cs.DS
   | mode=cs2| class = cs.DS
   }}</ref> और दूसरा विरल डेटा के लिए।<ref>{{citation
   }}</ref> और दूसरा विरल डेटा के लिए उपयोग किया जाता है।<ref>{{citation
   | title = Improved consistent sampling, weighted minhash and L1 sketching
   | title = Improved consistent sampling, weighted minhash and L1 sketching
   | last1 = Ioffe | first1 = Sergey
   | last1 = Ioffe | first1 = Sergey
Line 90: Line 88:
   | url = https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/36928.pdf
   | url = https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/36928.pdf
   | year = 2010| doi = 10.1109/ICDM.2010.80 | citeseerx = 10.1.1.227.9749 | isbn = 978-1-4244-9131-5 | s2cid = 9970906 }}</ref>
   | year = 2010| doi = 10.1109/ICDM.2010.80 | citeseerx = 10.1.1.227.9749 | isbn = 978-1-4244-9131-5 | s2cid = 9970906 }}</ref>
एक्सटेंशन का एक और परिवार तेजी से वितरित हैश का उपयोग करता है। 0 और 1 के बीच एक समान रूप से यादृच्छिक हैश को व्युत्क्रम परिवर्तन नमूने द्वारा एक घातीय वितरण का पालन करने के लिए परिवर्तित किया जा सकता है। यह विधि एक्सपोनेंशियल डिस्ट्रीब्यूशन के कई खूबसूरत गुणों का फायदा उठाती है#न्यूनतम एक्सपोनेंशियल रैंडम वेरिएबल्स का वितरण।
 
एक्सटेंशन का और समूह तेजी से वितरित हैश का उपयोग करता है। 0 और 1 के बीच समान रूप से यादृच्छिक हैश को व्युत्क्रम परिवर्तन प्रतिरूप द्वारा घातीय वितरण का पालन करने के लिए परिवर्तित किया जा सकता है। यह विधि एक्सपोनेंशियल डिस्ट्रीब्यूशन के कई खूबसूरत गुणों का फायदा उठाती है। न्यूनतम एक्सपोनेंशियल रैंडम वेरिएबल्स का वितरण होता है।


: <math>H(x) = \underset{i}{\operatorname{arg\,min}} \frac{-\log(h(i))}{x_i}</math>
: <math>H(x) = \underset{i}{\operatorname{arg\,min}} \frac{-\log(h(i))}{x_i}</math>
इससे टक्कर की संभावना के रूप में जैककार्ड इंडेक्स#प्रायिकता जैकार्ड समानता और दूरी प्राप्त होती है<ref>{{cite book| last1 = Moulton | first1 = Ryan | title = 2018 IEEE International Conference on Data Mining (ICDM) | pages = 347–356 | last2 = Jiang | first2 = Yunjiang | chapter = Maximally Consistent Sampling and the Jaccard Index of Probability Distributions | year = 2018| arxiv=1809.04052 |mode=cs2| doi = 10.1109/ICDM.2018.00050 | isbn = 978-1-5386-9159-5 | s2cid = 49746072 }}</ref>
इससे टक्कर की संभावना के रूप में जैककार्ड सूची प्रायिकता जैकार्ड समानता और दूरी प्राप्त होती है।<ref>{{cite book| last1 = Moulton | first1 = Ryan | title = 2018 IEEE International Conference on Data Mining (ICDM) | pages = 347–356 | last2 = Jiang | first2 = Yunjiang | chapter = Maximally Consistent Sampling and the Jaccard Index of Probability Distributions | year = 2018| arxiv=1809.04052 |mode=cs2| doi = 10.1109/ICDM.2018.00050 | isbn = 978-1-5386-9159-5 | s2cid = 49746072 }}</ref>
: <math>J_\mathcal{P}(x,y) = \sum_{x_i\neq 0 \atop y_i \neq 0} \frac{1}{\sum_{j} \max\left(\frac{x_j}{x_i}, \frac{y_j}{y_i}\right)}</math>
: <math>J_\mathcal{P}(x,y) = \sum_{x_i\neq 0 \atop y_i \neq 0} \frac{1}{\sum_{j} \max\left(\frac{x_j}{x_i}, \frac{y_j}{y_i}\right)}</math>
 
== न्यूनतम स्वतंत्र क्रमपरिवर्तन ==
 
जैसा कि ऊपर बताया गया है, मिनहैश पद्धति को प्रयुक्त करने के लिए हैश फलन {{math|''h''}} की आवश्यकता होती है। यादृच्छिक क्रमचय को परिभाषित करने के लिए {{math|''n''}} तत्व, जहां {{math|''n''}} तुलना किए जाने वाले सभी समुच्चयो के संघ में अलग-अलग तत्वों की कुल संख्या है। किन्तु क्योंकि हैं {{math|''n''!}} विभिन्न क्रमपरिवर्तन, इसकी आवश्यकता होगी {{math|&Omega;(''n'' log ''n'')}} बिट्स वास्तव में यादृच्छिक क्रमचय निर्दिष्ट करने के लिए, यहां तक ​​​​कि मध्यम मूल्यों के लिए अविश्वसनीय रूप से बड़ी संख्या {{math|''n''}}. इस तथ्य के कारण, सार्वभौमिक हैशिंग के सिद्धांत के अनुरूप, क्रमचय के समूह को खोजने पर महत्वपूर्ण काम किया गया है। जो कि न्यूनतम स्वतंत्र है, जिसका अर्थ है कि डोमेन के किसी भी उपसमुच्चय के लिए, कोई भी तत्व समान रूप से न्यूनतम होने की संभावना है। यह स्थापित किया गया है कि क्रमपरिवर्तन के न्यूनतम स्वतंत्र समूह में कम से कम सम्मिलित होना चाहिए।
== न्यूनतम-वार स्वतंत्र क्रमपरिवर्तन ==
जैसा कि ऊपर बताया गया है, मिनहैश योजना को लागू करने के लिए हैश फ़ंक्शन की आवश्यकता होती है {{math|''h''}} एक यादृच्छिक क्रमचय को परिभाषित करने के लिए {{math|''n''}} तत्व, जहां {{math|''n''}} तुलना किए जाने वाले सभी सेटों के संघ में अलग-अलग तत्वों की कुल संख्या है। लेकिन क्योंकि हैं {{math|''n''!}} विभिन्न क्रमपरिवर्तन, इसकी आवश्यकता होगी {{math|&Omega;(''n'' log ''n'')}} बिट्स वास्तव में यादृच्छिक क्रमचय निर्दिष्ट करने के लिए, यहां तक ​​​​कि मध्यम मूल्यों के लिए एक अविश्वसनीय रूप से बड़ी संख्या {{math|''n''}}. इस तथ्य के कारण, सार्वभौमिक हैशिंग के सिद्धांत के अनुरूप, क्रमचय के एक परिवार को खोजने पर महत्वपूर्ण काम किया गया है जो कि न्यूनतम-वार स्वतंत्र है, जिसका अर्थ है कि डोमेन के किसी भी उपसमुच्चय के लिए, कोई भी तत्व समान रूप से न्यूनतम होने की संभावना है . यह स्थापित किया गया है कि क्रमपरिवर्तन के एक न्यूनतम-वार स्वतंत्र परिवार में कम से कम शामिल होना चाहिए
:<math>\operatorname{lcm}(1, 2, \cdots, n) \ge e^{n-o(n)}</math>
:<math>\operatorname{lcm}(1, 2, \cdots, n) \ge e^{n-o(n)}</math>
विभिन्न क्रमपरिवर्तन, और इसलिए इसकी आवश्यकता है {{math|&Omega;(''n'')}} बिट्स एकल क्रमचय निर्दिष्ट करने के लिए, अभी भी अव्यवहारिक रूप से बड़ा है।<ref name="bcfm"/>
विभिन्न क्रमपरिवर्तन, और इसलिए इसकी {{math|&Omega;(''n'')}} आवश्यकता है। बिट्स एकल क्रमचय निर्दिष्ट करने के लिए, अभी भी अव्यवहारिक रूप से बड़ा है।<ref name="bcfm"/>
=== व्यावहारिक न्यूनतम स्वतंत्र हैश फलन ===


 
उपरोक्त अव्यावहारिकता के कारण, न्यूनतम स्वतंत्रता के दो भिन्न विचारों को प्रस्तुत किया गया है। प्रतिबंधित न्यूनतम स्वतंत्र क्रमपरिवर्तन समूह और अनुमानित न्यूनतम स्वतंत्र समूह प्रतिबंधित न्यूनतम स्वतंत्रता न्यूनतम स्वतंत्रता प्रोपर्टी है। जो कार्डिनैलिटी {{math|''k''}} के कुछ समुच्चयो तक सीमित है।<ref>{{citation
 
=== व्यावहारिक न्यूनतम-वार स्वतंत्र हैश फ़ंक्शन ===
 
उपरोक्त अव्यावहारिकता के कारण, न्यूनतम-वार स्वतंत्रता के दो भिन्न विचारों को पेश किया गया है: प्रतिबंधित न्यूनतम-वार स्वतंत्र क्रमपरिवर्तन परिवार, और अनुमानित न्यूनतम-वार स्वतंत्र परिवार।
प्रतिबंधित न्यूनतम-वार स्वतंत्रता न्यूनतम-वार स्वतंत्रता संपत्ति है जो कार्डिनैलिटी के कुछ सेटों तक सीमित है {{math|''k''}}.<ref>{{citation
  | last1 = Matoušek | first1 = Jiří | author1-link = Jiří Matoušek (mathematician)
  | last1 = Matoušek | first1 = Jiří | author1-link = Jiří Matoušek (mathematician)
  | last2 = Stojaković | first2 = Miloš
  | last2 = Stojaković | first2 = Miloš
Line 117: Line 110:
  | volume = 23
  | volume = 23
  | year = 2003| citeseerx = 10.1.1.400.6757 | s2cid = 1483449 }}.</ref>
  | year = 2003| citeseerx = 10.1.1.400.6757 | s2cid = 1483449 }}.</ref>
अनुमानित न्यूनतम-वार स्वतंत्रता की अधिक से अधिक एक निश्चित संभावना होती है {{math|&epsilon;}} पूर्ण स्वतंत्रता से भिन्न।<ref>{{citation
 
अनुमानित न्यूनतम स्वतंत्रता की अधिक से अधिक निश्चित {{math|&epsilon;}} पूर्ण स्वतंत्रता से भिन्न संभावना होती है।<ref>{{citation
  | last1 = Saks | first1 = M. | author1-link = Michael Saks (mathematician)
  | last1 = Saks | first1 = M. | author1-link = Michael Saks (mathematician)
  | last2 = Srinivasan | first2 = A.
  | last2 = Srinivasan | first2 = A.
Line 129: Line 123:
  | volume = 73
  | volume = 73
  | year = 2000| citeseerx = 10.1.1.20.8264 }}.</ref>
  | year = 2000| citeseerx = 10.1.1.20.8264 }}.</ref>