मिनहैश: Difference between revisions
From Vigyanwiki
No edit summary |
|||
| Line 1: | Line 1: | ||
{{Short description|Data mining technique}} | {{Short description|Data mining technique}} | ||
[[कंप्यूटर विज्ञान]] और [[डेटा खनन]] में, मिनहैश (या | [[कंप्यूटर विज्ञान]] और [[डेटा खनन|डेटा माइनिंग]] में, मिनहैश (या कम से कम स्वतंत्र क्रमपरिवर्तन [[स्थानीयता संवेदनशील हैशिंग]] स्कीम) दो समुच्चयो की समानता को मापने की विधि का शीघ्रता से अनुमान लगाने की एक विधि है। पद्धति का आविष्कार {{harvs|first=एंड्री|last=ब्रॉडर|authorlink=एंड्री ब्रॉडर|year=1997|txt}} द्वारा किया गया था ,<ref name="b97">{{citation | ||
| last = Broder | | last = Broder | ||
| first = Andrei Z. | | first = Andrei Z. | ||
| Line 29: | Line 18: | ||
| archive-date = 2015-01-31 | | archive-date = 2015-01-31 | ||
| url-status = dead | | url-status = dead | ||
}}.</ref> | }}.</ref> और प्रारंभ में प्रतिरूप वेब पेजों का पता लगाने और उन्हें खोज परिणामों से हटाने के लिए [[AltaVista|अल्टाविस्टा]] सर्च इंजन में उपयोग किया गया था।<ref name="bcfm">{{citation | ||
| last1 = Broder | first1 = Andrei Z. | author1-link = Andrei Broder | |||
| last2 = Charikar | first2 = Moses | |||
| last3 = Frieze | first3 = Alan M. | author3-link = Alan M. Frieze | |||
| last4 = Mitzenmacher | first4 = Michael | author4-link = Michael Mitzenmacher | |||
| contribution = Min-wise independent permutations | |||
| doi = 10.1145/276698.276781 | |||
| location = New York, NY, USA | |||
| pages = 327–336 | |||
| publisher = [[Association for Computing Machinery]] | |||
| title = Proc. 30th ACM Symposium on Theory of Computing (STOC '98) | |||
| year = 1998| title-link = Symposium on Theory of Computing | isbn = 978-0897919623 | citeseerx = 10.1.1.409.9220 | s2cid = 465847 }}.</ref> यह बड़े मापदंड पर [[क्लस्टर विश्लेषण]] समस्याओं में भी प्रयुक्त किया गया है । जैसे उनके शब्दों के समुच्चय की समानता से [[दस्तावेज़ क्लस्टरिंग]] से होता है।<ref name="b97" /> | |||
== जैककार्ड समानता और न्यूनतम हैश मान == | == जैककार्ड समानता और न्यूनतम हैश मान == | ||
[[जैकार्ड इंडेक्स]] दो | [[जैकार्ड इंडेक्स|जैकार्ड सूची]] दो समुच्चयो के बीच समानता का सामान्यतः उपयोग किया जाने वाला संकेतक है। माना {{math|''U''}} एक समुच्चय हो और {{math|''A''}} और {{math|''B''}} के उपसमुच्चय {{math|''U''}} हों , तो जैकार्ड सूची को उनके प्रतिच्छेदन (समुच्चय सिद्धांत) के तत्वों की संख्या और उनके [[संघ (सेट सिद्धांत)|संघ (समुच्चय सिद्धांत)]] के तत्वों की संख्या के अनुपात के रूप में परिभाषित किया गया है । | ||
:<math> J(A,B) = {{|A \cap B|}\over{|A \cup B|}}.</math> | :<math> J(A,B) = {{|A \cap B|}\over{|A \cup B|}}.</math> | ||
यह मान 0 है जब दो | यह मान 0 है जब दो समुच्चय अलग समुच्चय होते हैं । जब वे समान होते हैं, और सख्ती से 0 और 1 के बीच अन्यथा दो समुच्चय अधिक समान होते हैं (अर्थात अपेक्षाकृत अधिक सदस्य होते हैं) जब उनका जैकार्ड सूची 1 के निकट होता है। मिनहैश {{math|''J''(''A'',''B'')}} का लक्ष्य अनुमान लगाना है। शीघ्रता से, प्रतिच्छेदन और संघ की स्पष्ट रूप से गणना किए बिना किया जाता है। | ||
माना {{math|''h''}} एक [[हैश फंकशन|हैश फलन]] हो जो सदस्यों {{math|''U''}} को मैप करता हो भिन्न पूर्णांकों के लिए मैप करता है । मान लीजिए {{math|''पर्म''}} समुच्चय के तत्वों का एक यादृच्छिक क्रम[[परिवर्तन]] {{math|''U''}} हो , और किसी भी सबसेट के लिए {{math|''S''}} का {{math|''U''}} परिभाषित करता है । {{math|''h''<sub>min</sub>(''S'')}} का न्यूनतम सदस्य होना {{math|''S''}} इसके संबंध में {{math|''h'' ∘ ''perm''}}—अर्थात् के न्यूनतम मूल्य के साथ {{math|''S''}} का सदस्य {{math|''x''}} है । {{math|''h''(''perm''(''x''))}}. (ऐसे स्थितियों में जहां उपयोग किए गए हैश फलन को छद्म-यादृच्छिक गुण माना जाता है, यादृच्छिक क्रमचय का उपयोग नहीं किया जाएगा।)। | |||
अब, | अब, {{math|''A''}} और {{math|''B''}} दोनों के लिए {{math|''h''<sub>min</sub>}} प्रयुक्त करना, और कोई हैश टकराव नहीं मानते हुए, हम देखते हैं कि मान समान हैं। ({{math|1=''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'')}}) यदि और केवल यदि <math>A\cup B</math> के सभी तत्वों के साथ तत्व न्यूनतम हैश मान प्रतिच्छेदन <math>A\cap B</math> में निहित है। इसके सही होने की संभावना वास्तव में जैकार्ड सूची है। इसलिए: | ||
:{{math|1=Pr[ ''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'') ] = ''J''(''A'',''B''),}} | :{{math|1=Pr[ ''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'') ] = ''J''(''A'',''B''),}} | ||
अर्थात्, [[संभावना]] है कि {{math|1=''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'')}} सत्य है। समानता {{math|''J''(''A'',''B'')}} के समान है जो एक समान वितरण से ड्राइंग {{math|''perm''}} को मानता है। दूसरे शब्दों में, यदि {{math|''r''}} यादृच्छिक चर है। जो एक है जब {{math|1=''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'')}} और अन्यथा शून्य है, तो {{math|''r''}} {{math|''J''(''A'',''B'')}} का एक निष्पक्ष अनुमानक है। {{math|''r''}} का प्रसरण इतना अधिक है कि स्वयं जैककार्ड समानता के लिए एक उपयोगी अनुमानक नहीं बन सकता क्योंकि r सदैव शून्य या एक होता है। मिनहाश योजना का विचार एक ही तरह से निर्मित कई चरों को एक साथ जोड़कर इस भिन्नता को कम करना है। | |||
== एल्गोरिथम == | == एल्गोरिथम == | ||
=== कई हैश | === कई हैश फलन के साथ संस्करण === | ||
मिनहाश | मिनहाश पद्धति {{math|''k''}} का सबसे सरल संस्करण उपयोग करता है। विभिन्न हैश फलन, जहाँ {{math|''k''}} एक निश्चित पूर्णांक मापदंड है, और प्रत्येक समुच्चय का प्रतिनिधित्व करता है। {{math|''S''}} से {{math|''k''}} का मान {{math|''h''<sub>min</sub>(''S'')}} इन के लिए {{math|''k''}} फलन करता है। | ||
अनुमान लगाने के लिए {{math|''J''(''A'',''B'')}} पद्धति के इस संस्करण का उपयोग करते हुए, आइए {{math|''y''}} हैश फलन की संख्या हो जिसके लिए {{math|1=''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'')}}, और उपयोग करें {{math|''y''/''k''}} अनुमान के रूप में यह अनुमान का औसत है । {{math|''k''}} विभिन्न 0-1 यादृच्छिक चर, जिनमें {{math|1=''h''<sub>min</sub>(''A'') = ''h''<sub>min</sub>(''B'')}} से प्रत्येक एक जब है और शून्य अन्यथा, और जिनमें से प्रत्येक का {{math|''J''(''A'',''B'')}} एक निष्पक्ष अनुमानक है। इसलिए, उनका औसत भी एक निष्पक्ष अनुमानक है, और 0-1 यादृच्छिक चर के योग के लिए मानक विचलन द्वारा, इसकी अपेक्षित {{math|O(1/{{sqrt|''k''}})}} त्रुटि है।<ref>{{citation|first=Sergey|last=Vassilvitskii|year=2011|title=COMS 6998-12: Dealing with Massive Data (lecture notes, Columbia university)|url=https://www.cs.columbia.edu/~coms699812/lecture1.pdf|archive-url=https://web.archive.org/web/20181024161246/https://www.cs.columbia.edu/~coms699812/lecture1.pdf|url-status=dead|archive-date=2018-10-24}}.</ref> | |||
इसलिए, किसी भी स्थिरांक {{math|1=''k'' = O(1/ε<sup>2</sup>)}} के लिए {{math|ε > 0}} एक नियतांक है। जैसे अनुमान की अपेक्षित त्रुटि अधिक से अधिक {{math|ε}} होती है। उदाहरण के लिए,.05 से कम या उसके समान अपेक्षित त्रुटि के साथ {{math|''J''(''A'',''B'')}} अनुमान लगाने के लिए 400 हैश की आवश्यकता होती है। | |||
=== एकल हैश | === एकल हैश फलन के साथ संस्करण === | ||
यह कई हैश | यह कई हैश फलन की गणना करने के लिए कम्प्यूटेशनल रूप से महंगा हो सकता है। किन्तु मिनहाश पद्धति का एक संबंधित संस्करण केवल एक हैश फलन का उपयोग करके इस दंड से बचा जाता है और इसका उपयोग प्रत्येक हैश फलन के लिए केवल एक न्यूनतम मान का चयन करने के अतिरिक्त प्रत्येक समुच्चय से कई मानों का चयन करने के लिए करता है। माना {{math|''h''}} हैश फलन है और एक निश्चित पूर्णांक है। यदि {{math|''S''}} {{math|''k''}} का कोई समुच्चय है या अधिक मान के डोमेन में {{math|''h''}}, परिभाषित करना {{math|''h''<sub>(''k'')</sub>(''S'')}} का सबसेट होना {{math|''k''}} के सदस्यों {{math|''S''}} जिसके सबसे छोटे मान {{math|''h''}} हैं। यह उपसमुच्चय {{math|''h''<sub>(''k'')</sub>(''S'')}} समुच्चय {{math|''S''}} के लिए हस्ताक्षर के रूप में प्रयोग किया जाता है और किन्हीं दो समुच्चयो की समानता का अनुमान उनके हस्ताक्षरों की तुलना करके लगाया जाता है। | ||
परिभाषित करना {{math|''h''<sub>(''k'')</sub>(''S'')}} का सबसेट होना {{math|''k''}} के सदस्यों {{math|''S''}} जिसके सबसे छोटे मान | |||
प्रतिस्थापन के बिना | विशेष रूप से, A और B को कोई भी दो समुच्चय होने दें। तब {{math|1=''X'' = ''h''<sub>(''k'')</sub>(''h''<sub>(''k'')</sub>(''A'') ∪ ''h''<sub>(''k'')</sub>(''B'')) = ''h''<sub>(''k'')</sub>(''A'' ∪ ''B'')}} k तत्वों का एक समुच्चय {{math|''A'' ∪ ''B''}} है , और यदि h एक यादृच्छिक फलन है तो k तत्वों के किसी उपसमुच्चय के चुने जाने की समान संभावना है। जो कि {{math|''X''}} {{math|''A'' ∪ ''B''}} का एक साधारण यादृच्छिक प्रतिरूप है। उपसमुच्चय {{math|1=''Y'' = ''X'' ∩ ''h''<sub>(''k'')</sub>(''A'') ∩ ''h''<sub>(''k'')</sub>(''B'')}} के सदस्यों का समुच्चय है जो प्रतिच्छेदन {{math|''X''}} के हैं जो {{math|''A'' ∩ ''B''}} से संबंधित हैं। इसलिए, |{{math|''Y''}}|/{{math|''k''}} {{math|''J''(''A'',''B'')}} का एक निष्पक्ष अनुमानक है। इस अनुमानक और एकाधिक हैश फलन द्वारा उत्पादित अनुमानक के बीच का अंतर यह है कि {{math|''X''}} सदैव {{math|''k''}} सदस्य स्पष्ट होता है, जबकि कई हैश फलन से प्रतिरूप तत्वों की एक छोटी संख्या हो सकती है। इस संभावना के कारण कि दो अलग-अलग हैश फलन में एक ही मिनिमा हो सकती है। चूँकि, जब {{math|''k''}} समुच्चय के आकार के सापेक्ष छोटा है, यह अंतर नगण्य है। | ||
प्रतिस्थापन के बिना प्रतिरूप के लिए मानक चेरनॉफ़ सीमा से, इस अनुमानक ने त्रुटि की अनुमान {{math|O(1/{{sqrt|''k''}})}} की है। बहु-हैश-फलन पद्धति के प्रदर्शन का मिलान होता है। | |||
=== समय विश्लेषण === | === समय विश्लेषण === | ||
अनुमानक {{math||''Y''|/''k''}} की गणना समय | अनुमानक {{math||''Y''|/''k''}} की गणना समय {{math|O(''k'')}} पर की जा सकती है। दिए गए समुच्चय के दो हस्ताक्षरों से, पद्धति के किसी भी प्रकार में इसलिए, जब {{math|ε}} और {{math|''k''}} स्थिरांक हैं। हस्ताक्षरों से अनुमानित समानता की गणना करने का समय भी स्थिर है। प्रत्येक समुच्चय के हस्ताक्षर की गणना समुच्चय के आकार पर [[रैखिक समय]] में की जा सकती है। इसलिए जब कई जोड़ीदार समानताओं का अनुमान लगाने की आवश्यकता होती है, तो इस विधि से प्रत्येक समुच्चय के सदस्यों की पूर्ण तुलना करने की तुलना में चलने के समय में पर्याप्त बचत हो सकती है। विशेष रूप से, समुच्चय आकार के लिए {{math|''n''}} अनेक हैश वैरिएंट {{math|O(''n'' ''k'')}} समय लेता है। सिंगल हैश वैरिएंट आम तौर पर तेज़ होता है, जिसमें {{math|''n'' >> ''k''}} मानने वाले न्यूनतम हैश मानों की कतार बनाए रखने के लिए {{math|O(''n'')}} समय की आवश्यकता होती है।<ref name="b97" /> | ||
== वजन सम्मिलित करना == | |||
== वजन | मिनहैश की गणना में वज़न प्रस्तुत करने के लिए कई तरह की विधियों का विकास किया गया है। सरलतम इसे पूर्णांक भार तक बढ़ाता है।<ref>{{citation | ||
| title = Near Duplicate Image Detection: min-Hash and tf-idf Weighting. | | title = Near Duplicate Image Detection: min-Hash and tf-idf Weighting. | ||
| last1 = Chum | first1 = Ondrej | last2 = Philbin | first2 = James | last3 = Zisserman | first3 = Andrew | | last1 = Chum | first1 = Ondrej | last2 = Philbin | first2 = James | last3 = Zisserman | first3 = Andrew | ||
| Line 74: | Line 74: | ||
| url = http://www.bmva.org/bmvc/2008/papers/119.pdf | | url = http://www.bmva.org/bmvc/2008/papers/119.pdf | ||
| year = 2008}}</ref> | | year = 2008}}</ref> | ||
हमारे हैश | |||
हमारे हैश फलन का विस्तार करें । {{mvar|h}} एक समुच्चय सदस्य और एक पूर्णांक दोनों को स्वीकार करने के लिए, फिर प्रत्येक आइटम के लिए उसके वजन के अनुसार कई हैश उत्पन्न करें। यदि आइटम {{mvar|i}} घटित होना {{mvar|n}} बार, हैश <math>h(i,1), h(i,2), \ldots, h(i,n)</math> उत्पन्न करता है। हैश के इस विस्तारित समुच्चय पर मूल एल्गोरिथम चलाएं ऐसा करने से टक्कर की संभावना के रूप में जैकार्ड सूची जैककार्ड समानता और दूरी प्राप्त होती है। | |||
: <math>J_\mathcal{W}(x,y) = \frac{\sum_i \min(x_i,y_i)}{\sum_i \max(x_i,y_i)}</math> | : <math>J_\mathcal{W}(x,y) = \frac{\sum_i \min(x_i,y_i)}{\sum_i \max(x_i,y_i)}</math> | ||
उत्तम रनटाइम के साथ वास्तविक भार पर इस टकराव की संभावना को प्राप्त करने वाले और विस्तार विकसित किए गए हैं। एक सघन डेटा के लिए,<ref>{{cite arXiv | |||
| title=Exact weighted minwise hashing in constant time | | title=Exact weighted minwise hashing in constant time | ||
| eprint = 1602.08393 | | eprint = 1602.08393 | ||
| Line 83: | Line 84: | ||
| year = 2016 | | year = 2016 | ||
| mode=cs2| class = cs.DS | | mode=cs2| class = cs.DS | ||
}}</ref> और दूसरा विरल डेटा के | }}</ref> और दूसरा विरल डेटा के लिए उपयोग किया जाता है।<ref>{{citation | ||
| title = Improved consistent sampling, weighted minhash and L1 sketching | | title = Improved consistent sampling, weighted minhash and L1 sketching | ||
| last1 = Ioffe | first1 = Sergey | | last1 = Ioffe | first1 = Sergey | ||
| Line 90: | Line 91: | ||
| url = https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/36928.pdf | | url = https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/36928.pdf | ||
| year = 2010| doi = 10.1109/ICDM.2010.80 | citeseerx = 10.1.1.227.9749 | isbn = 978-1-4244-9131-5 | s2cid = 9970906 }}</ref> | | year = 2010| doi = 10.1109/ICDM.2010.80 | citeseerx = 10.1.1.227.9749 | isbn = 978-1-4244-9131-5 | s2cid = 9970906 }}</ref> | ||
एक्सटेंशन का एक और | |||
एक्सटेंशन का एक और समूह तेजी से वितरित हैश का उपयोग करता है। 0 और 1 के बीच एक समान रूप से यादृच्छिक हैश को व्युत्क्रम परिवर्तन प्रतिरूप द्वारा एक घातीय वितरण का पालन करने के लिए परिवर्तित किया जा सकता है। यह विधि एक्सपोनेंशियल डिस्ट्रीब्यूशन के कई खूबसूरत गुणों का फायदा उठाती है। न्यूनतम एक्सपोनेंशियल रैंडम वेरिएबल्स का वितरण होता है। | |||
: <math>H(x) = \underset{i}{\operatorname{arg\,min}} \frac{-\log(h(i))}{x_i}</math> | : <math>H(x) = \underset{i}{\operatorname{arg\,min}} \frac{-\log(h(i))}{x_i}</math> | ||
इससे टक्कर की संभावना के रूप में जैककार्ड | इससे टक्कर की संभावना के रूप में जैककार्ड सूची प्रायिकता जैकार्ड समानता और दूरी प्राप्त होती है।<ref>{{cite book| last1 = Moulton | first1 = Ryan | title = 2018 IEEE International Conference on Data Mining (ICDM) | pages = 347–356 | last2 = Jiang | first2 = Yunjiang | chapter = Maximally Consistent Sampling and the Jaccard Index of Probability Distributions | year = 2018| arxiv=1809.04052 |mode=cs2| doi = 10.1109/ICDM.2018.00050 | isbn = 978-1-5386-9159-5 | s2cid = 49746072 }}</ref> | ||
: <math>J_\mathcal{P}(x,y) = \sum_{x_i\neq 0 \atop y_i \neq 0} \frac{1}{\sum_{j} \max\left(\frac{x_j}{x_i}, \frac{y_j}{y_i}\right)}</math> | : <math>J_\mathcal{P}(x,y) = \sum_{x_i\neq 0 \atop y_i \neq 0} \frac{1}{\sum_{j} \max\left(\frac{x_j}{x_i}, \frac{y_j}{y_i}\right)}</math> | ||
== न्यूनतम | == न्यूनतम स्वतंत्र क्रमपरिवर्तन == | ||
जैसा कि ऊपर बताया गया है, मिनहैश | जैसा कि ऊपर बताया गया है, मिनहैश पद्धति को प्रयुक्त करने के लिए हैश फलन {{math|''h''}} की आवश्यकता होती है। एक यादृच्छिक क्रमचय को परिभाषित करने के लिए {{math|''n''}} तत्व, जहां {{math|''n''}} तुलना किए जाने वाले सभी समुच्चयो के संघ में अलग-अलग तत्वों की कुल संख्या है। किन्तु क्योंकि हैं {{math|''n''!}} विभिन्न क्रमपरिवर्तन, इसकी आवश्यकता होगी {{math|Ω(''n'' log ''n'')}} बिट्स वास्तव में यादृच्छिक क्रमचय निर्दिष्ट करने के लिए, यहां तक कि मध्यम मूल्यों के लिए एक अविश्वसनीय रूप से बड़ी संख्या {{math|''n''}}. इस तथ्य के कारण, सार्वभौमिक हैशिंग के सिद्धांत के अनुरूप, क्रमचय के एक समूह को खोजने पर महत्वपूर्ण काम किया गया है। जो कि न्यूनतम स्वतंत्र है, जिसका अर्थ है कि डोमेन के किसी भी उपसमुच्चय के लिए, कोई भी तत्व समान रूप से न्यूनतम होने की संभावना है। यह स्थापित किया गया है कि क्रमपरिवर्तन के एक न्यूनतम स्वतंत्र समूह में कम से कम सम्मिलित होना चाहिए। | ||
:<math>\operatorname{lcm}(1, 2, \cdots, n) \ge e^{n-o(n)}</math> | :<math>\operatorname{lcm}(1, 2, \cdots, n) \ge e^{n-o(n)}</math> | ||
विभिन्न क्रमपरिवर्तन, और इसलिए इसकी | विभिन्न क्रमपरिवर्तन, और इसलिए इसकी {{math|Ω(''n'')}} आवश्यकता है। बिट्स एकल क्रमचय निर्दिष्ट करने के लिए, अभी भी अव्यवहारिक रूप से बड़ा है।<ref name="bcfm"/> | ||
=== व्यावहारिक न्यूनतम | === व्यावहारिक न्यूनतम स्वतंत्र हैश फलन === | ||
उपरोक्त अव्यावहारिकता के कारण, न्यूनतम | उपरोक्त अव्यावहारिकता के कारण, न्यूनतम स्वतंत्रता के दो भिन्न विचारों को प्रस्तुत किया गया है। प्रतिबंधित न्यूनतम स्वतंत्र क्रमपरिवर्तन समूह और अनुमानित न्यूनतम स्वतंत्र समूह प्रतिबंधित न्यूनतम स्वतंत्रता न्यूनतम स्वतंत्रता प्रोपर्टी है। जो कार्डिनैलिटी {{math|''k''}} के कुछ समुच्चयो तक सीमित है।<ref>{{citation | ||
प्रतिबंधित न्यूनतम | |||
| last1 = Matoušek | first1 = Jiří | author1-link = Jiří Matoušek (mathematician) | | last1 = Matoušek | first1 = Jiří | author1-link = Jiří Matoušek (mathematician) | ||
| last2 = Stojaković | first2 = Miloš | | last2 = Stojaković | first2 = Miloš | ||
| Line 117: | Line 118: | ||
| volume = 23 | | volume = 23 | ||
| year = 2003| citeseerx = 10.1.1.400.6757 | s2cid = 1483449 }}.</ref> | | year = 2003| citeseerx = 10.1.1.400.6757 | s2cid = 1483449 }}.</ref> | ||
अनुमानित न्यूनतम | |||
अनुमानित न्यूनतम स्वतंत्रता की अधिक से अधिक एक निश्चित {{math|ε}} पूर्ण स्वतंत्रता से भिन्न संभावना होती है।<ref>{{citation | |||
| last1 = Saks | first1 = M. | author1-link = Michael Saks (mathematician) | | last1 = Saks | first1 = M. | author1-link = Michael Saks (mathematician) | ||
| last2 = Srinivasan | first2 = A. | | last2 = Srinivasan | first2 = A. | ||
| Line 129: | Line 131: | ||
| volume = 73 | | volume = 73 | ||
| year = 2000| citeseerx = 10.1.1.20.8264 }}.</ref> | | year = 2000| citeseerx = 10.1.1.20.8264 }}.</ref> | ||
1999 में [[पीटर इंडिक]] | |||
विशेष रूप से, | 1999 में [[पीटर इंडिक]] सिद्ध हुए।<ref>Indyk, Piotr. "A small approximately min-wise independent family of hash functions." Journal of Algorithms 38.1 (2001): 84-90.</ref> कि कोई भी के-इंडिपेंडेंट_हैशिंग|के हैश फलन का स्वतंत्र समूह भी लगभग न्यूनतम <math>k</math> | ||