सामान्यीकृत संपीड़न दूरी

सामान्यीकृत संपीड़न दूरी (NCD) दो वस्तुओं के बीच समानता (गणित) को मापने का एक तरीका है, चाहे वह दो दस्तावेज़ हों, दो अक्षर हों, दो ईमेल हों, दो संगीत स्कोर हों, दो भाषाएँ हों, दो कार्यक्रम हों, दो चित्र हों, दो सिस्टम हों, दो जीनोम हों, कुछ नाम है। ऐसा माप अनुप्रयोग पर निर्भर या मनमाना नहीं होना चाहिए। दो वस्तुओं के बीच समानता की एक उचित परिभाषा यह है कि उन्हें एक दूसरे में बदलना कितना कठिन है।

इसका उपयोग क्लस्टर विश्लेषण के लिए सूचना पुनर्प्राप्ति और डेटा खनन में किया जा सकता है।

सूचना दूरी
हम मानते हैं कि जिन वस्तुओं के बारे में बात की जाती है वे सीमित बाइनरी अनुक्रम हैं। इस प्रकार हमारा मतलब स्ट्रिंग समानता है। हर कंप्यूटर फाइल इसी फॉर्म की होती है, यानी अगर कंप्यूटर में कोई ऑब्जेक्ट फाइल है तो वह इस फॉर्म की होती है। कोई तार के बीच सूचना दूरी को परिभाषित कर सकता है $$x$$ और $$y$$ सबसे छोटे कार्यक्रम की लंबाई के रूप में $$p$$ जो गणना करता है $$x$$ से $$y$$ और इसके विपरीत। यह सबसे छोटा प्रोग्राम एक निश्चित प्रोग्रामिंग भाषा में है। तकनीकी कारणों से ट्यूरिंग मशीनें की सैद्धांतिक धारणा का उपयोग किया जाता है। इसके अलावा, की लंबाई व्यक्त करने के लिए $$p$$ कोलमोगोरोव जटिलता की धारणा का उपयोग करता है। फिर दिखाया गया है
 * $$|p| = \max \{K(x\mid y),K(y\mid x)\}$$

लघुगणक योगात्मक पदों तक जिन्हें अनदेखा किया जा सकता है। यह सूचना दूरी एक मीट्रिक (गणित) के रूप में दिखाई गई है (यह एक लघुगणक योगात्मक शब्द तक मीट्रिक असमानताओं को संतुष्ट करता है), सार्वभौमिक है (यह छोटा करता है) प्रत्येक गणना योग्य दूरी, उदाहरण के लिए गणना की गई सुविधाओं से लेकर एक निरंतर योजक अवधि तक)।

सामान्यीकृत सूचना दूरी (समानता मीट्रिक)
सूचना दूरी निरपेक्ष है, लेकिन अगर हम समानता व्यक्त करना चाहते हैं, तो हम रिश्तेदार में अधिक रुचि रखते हैं। उदाहरण के लिए, यदि 1,000,000 लंबाई के दो तार 1000 बिट्स से भिन्न होते हैं, तो हम मानते हैं कि वे तार 1000 बिट्स के दो स्ट्रिंग्स की तुलना में अपेक्षाकृत अधिक समान हैं जो 1000 बिट्स से भिन्न हैं। इसलिए हमें समानता मीट्रिक प्राप्त करने के लिए सामान्यीकृत करने की आवश्यकता है। इस तरह से सामान्यीकृत सूचना दूरी (एनआईडी) प्राप्त होती है,
 * $$ NID(x,y) = \frac{ \max\{K{(x\mid y)},K{(y\mid x)}\} }{ \max \{K(x),K(y)\}}, $$

कहाँ $$K(x\mid y)$$ की एल्गोरिथम जानकारी है $$x$$ दिया गया $$y$$ इनपुट के रूप में। एनआईडी को 'समानता मीट्रिक' कहा जाता है। समारोह के बाद से $$NID(x,y)$$ मीट्रिक दूरी माप के लिए बुनियादी आवश्यकताओं को पूरा करने के लिए दिखाया गया है। हालाँकि, यह गणना योग्य या अर्ध-गणना योग्य भी नहीं है।

सामान्यीकृत संपीड़न दूरी
जबकि एनआईडी मीट्रिक की गणना नहीं की जा सकती है, इसमें अनुप्रयोगों की बहुतायत है। बस अनुमान लगाया जा रहा है $$K$$ वास्तविक दुनिया कंप्रेशर्स द्वारा, के साथ $$Z(x)$$ फ़ाइल की बाइनरी लंबाई है $$x$$ एनआईडी को लागू करना आसान बनाने के लिए कंप्रेसर जेड (उदाहरण के लिए gzip, bzip2, आंशिक मिलान द्वारा भविष्यवाणी) के साथ संपीड़ित। सामान्यीकृत संपीड़न दूरी (एनसीडी) प्राप्त करने के लिए पॉल विटानी और रूडी सिलिब्रासी ने एनआईडी को फिर से लिखा
 * : : : : : : : : : : : : : : : : : : : : : : : :$$ NCD_Z(x,y) = \frac{Z(xy) - \min \{Z(x),Z(y)\}}{\max \{Z(x),Z(y)\}}. $$ एनसीडी वास्तव में कंप्रेसर जेड के साथ पैरामीट्रिज्ड दूरी का एक परिवार है। बेहतर जेड है, एनसीडी एनआईडी के जितना करीब है, और बेहतर परिणाम हैं।

अनुप्रयोग
भाषा और फाइलोजेनेटिक पेड़ों को पूरी तरह से स्वचालित रूप से पुनर्निर्माण करने के लिए सामान्यीकृत संपीड़न दूरी का उपयोग किया गया है। इसका उपयोग सामान्य क्लस्टर विश्लेषण के नए अनुप्रयोगों और स्वैच्छिक डोमेन में प्राकृतिक डेटा के सांख्यिकीय वर्गीकरण के लिए भी किया जा सकता है, विषम डेटा के क्लस्टरिंग के लिए, और डोमेन में विसंगति का पता लगाने के लिए। एनआईडी और एनसीडी संगीत वर्गीकरण सहित कई विषयों पर लागू किए गए हैं, नेटवर्क ट्रैफ़िक और क्लस्टर कंप्यूटर वर्म्स और वायरस का विश्लेषण करने के लिए, लेखकत्व एट्रिब्यूशन, जीन अभिव्यक्ति की गतिशीलता, उपयोगी बनाम बेकार स्टेम सेल की भविष्यवाणी करना, महत्वपूर्ण नेटवर्क, छवि पंजीकरण, प्रश्न-उत्तर प्रणाली।

प्रदर्शन
डाटामाइनिंग समुदाय के शोधकर्ता एनसीडी और वैरिएंट को पैरामीटर-फ्री, फीचर-फ्री डेटा खनन टूल के रूप में उपयोग करते हैं। एक समूह ने प्रयोगात्मक रूप से अनुक्रम बेंचमार्क की एक विशाल विविधता पर बारीकी से संबंधित मीट्रिक का परीक्षण किया है। पिछले एक दशक में 7 प्रमुख डेटा-खनन सम्मेलनों में पाई गई 51 प्रमुख विधियों के साथ उनकी संपीड़न विधि की तुलना करते हुए, उन्होंने विषम डेटा को क्लस्टर करने और विसंगति का पता लगाने और क्लस्टरिंग डोमेन डेटा में प्रतिस्पर्धात्मकता के लिए संपीड़न विधि की श्रेष्ठता स्थापित की।

शोर के लिए मजबूत आंकड़े होने का एनसीडी का एक फायदा है। हालाँकि, हालांकि एनसीडी पैरामीटर-मुक्त प्रतीत होता है, व्यावहारिक प्रश्नों में एनसीडी और अन्य संभावित समस्याओं की गणना में किस कंप्रेसर का उपयोग करना शामिल है।

सामान्यीकृत सापेक्ष संपीड़न (NRC)
के साथ तुलना एक स्ट्रिंग की जानकारी को दूसरे के सापेक्ष मापने के लिए सापेक्ष अर्ध-दूरी (एनआरसी) पर भरोसा करने की आवश्यकता है। ये ऐसे उपाय हैं जिन्हें समरूपता और त्रिभुज असमानता दूरी गुणों का सम्मान करने की आवश्यकता नहीं है। हालांकि एनसीडी और एनआरसी बहुत समान दिखते हैं, लेकिन वे अलग-अलग सवालों को संबोधित करते हैं। एनसीडी मापता है कि दोनों तार कितने समान हैं, ज्यादातर सूचना सामग्री का उपयोग करते हुए, जबकि एनआरसी एक लक्ष्य स्ट्रिंग के अंश को इंगित करता है जिसे किसी अन्य स्ट्रिंग से जानकारी का उपयोग करके नहीं बनाया जा सकता है। तुलना के लिए, प्राइमेट जीनोम के विकास के लिए आवेदन के साथ, देखें।

सामान्यीकृत Google दूरी
वस्तुओं को शाब्दिक रूप से दिया जा सकता है, जैसे शाब्दिक चार-अक्षर वाला माउस जीनोम डेटाबेस, या टॉल्स्टॉय द्वारा युद्ध और शांति का शाब्दिक पाठ। सरलता के लिए हम यह मान लेते हैं कि वस्तु के सभी अर्थ शाब्दिक वस्तु द्वारा ही दर्शाए जाते हैं। वस्तुओं को नाम से भी दिया जा सकता है, जैसे माउस के चार-अक्षर जीनोम, या टॉल्स्टॉय द्वारा 'युद्ध और शांति' का पाठ। ऐसी वस्तुएँ भी हैं जिन्हें शाब्दिक रूप से नहीं दिया जा सकता है, लेकिन केवल नाम से, और जो मानव जाति में सामान्य ज्ञान की पृष्ठभूमि में अपने संदर्भों से अपना अर्थ प्राप्त करती हैं, जैसे कि घर या लाल। हम शब्दार्थ समानता में रुचि रखते हैं। वेब से Google द्वारा लौटाए गए पेज-हिट काउंट्स से प्राप्त कोड-वर्ड की लंबाई का उपयोग करते हुए, हम एनसीडी फॉर्मूले का उपयोग करके सिमेंटिक दूरी प्राप्त करते हैं और Google को डेटा माइनिंग, टेक्स्ट कॉम्प्रिहेंशन, वर्गीकरण और अनुवाद के लिए उपयोगी कंप्रेसर के रूप में देखते हैं। संबद्ध NCD, जिसे सामान्यीकृत Google दूरी (NGD) कहा जाता है, को फिर से लिखा जा सकता है
 * $$ NGD(x,y)= \frac{ \max \{\log f(x), \log f(y)\} - \log f(x,y) }{ \log N - \min\{\log f(x), \log f(y) \}}, $$

कहाँ $$f(x)$$ खोज शब्द वाले पृष्ठों की संख्या को दर्शाता है $$x$$, और $$f(x,y)$$ दोनों वाले पृष्ठों की संख्या को दर्शाता है $$x$$ और $$y$$,) जैसा कि Google या किसी भी खोज इंजन द्वारा लौटाया गया है जो समग्र पृष्ठ संख्या लौटाने में सक्षम है। जो नंबर $$N$$ अनुक्रमित पृष्ठों की संख्या पर सेट किया जा सकता है, हालांकि प्रत्येक पृष्ठ को उसमें शामिल खोज शब्दों या वाक्यांशों की संख्या के अनुसार गिनना अधिक उचित है। अंगूठे के नियम के अनुसार पृष्ठों की संख्या को एक हजार से गुणा किया जा सकता है...

यह भी देखें

 * Word2vec

बाहरी संबंध

 * Efficient Estimation of Word Representations in Vector Space
 * M. Li and P. Vitanyi, An Introduction to Kolmogorov Complexity and Its Applications,Springer-Verlag, New York, 4th Edition 2019