सामान्यीकृत संपीड़न दूरी

सामान्यीकृत संपीड़न दूरी (NCD) दो वस्तुओं के बीच समानता (गणित) को मापने का एक तरीका है, चाहे वह दो दस्तावेज हों, दो अक्षर हों, दो ईमेल हों, दो संगीत स्कोर हों, दो भाषाएं हों, दो कार्यक्रम हों, दो तस्वीरें हों, दो प्रणाली हों, दो जीनोम हों। इस तरह का मापन अनुप्रयोग पर निर्भर या स्वेच्छित नहीं होना चाहिए। दो वस्तुओं के बीच समानता के लिए उचित परिभाषा यह है कि उन्हें एक दूसरे में बदलना कितना मुश्किल है।

इसका उपयोग क्लस्टर विश्लेषण के लिए सूचना पुनर्प्राप्ति और आंकड़े खनन में किया जा सकता है।

सूचना दूरी
हम मान लेते हैं कि जिन वस्तुओं के बारे में एक-एक बातें होती हैं वे 0s और1s के परिमित स्ट्रिंग्स हैं. इस प्रकार हमारा अर्थ स्ट्रिंग समानता से है। प्रत्येक कंप्यूटर फ़ाइल इस प्रपत्र की है, अर्थात यदि कोई ऑब्जेक्ट किसी कंप्यूटर में फ़ाइल है तो यह इस प्रपत्र का है, कोई भी स्ट्रिंग के बीच जानकारी की दूरी निर्धारित कर सकता है $$x$$ और $$y$$ सबसे छोटे कार्यक्रम की लंबाई के रूप में $$p$$ जो गणना करता है $$x$$ से $$y$$ और इसके विपरीत। यह सबसे छोटा प्रोग्राम एक निश्चित प्रोग्रामिंग भाषा में है। तकनीकी कारणों से ट्यूरिंग मशीनें की सैद्धांतिक धारणा का उपयोग किया जाता है। इसके अलावा, की लंबाई व्यक्त करने के लिए $$p$$ कोलमोगोरोव जटिलता की धारणा का उपयोग करता है। फिर दिखाया गया है
 * $$|p| = \max \{K(x\mid y),K(y\mid x)\}$$

लघुगणक योजक शर्तों तक जिसे अनदेखा किया जा सकता है। इस सूचना दूरी को मीट्रिक (गणित) दिखाया गया है (यह लघुगणक योगात्मक शब्द तक मीट्रिक असमानताओं को संतुष्ट करता है), सार्वभौमिक है (यह प्रत्येक संघणात्मक दूरी को गणना के रूप में, उदाहरण के लिए सुविधाओं से लेकर एक निरंतर योगात्मक शब्द तक, परिकलित करता है)।

सामान्यीकृत सूचना दूरी (समानता मीट्रिक)
सूचना दूरी निरपेक्ष है, लेकिन अगर हम समानता व्यक्त करना चाहते हैं, तो हम सापेक्ष में अधिक रुचि रखते हैं। उदाहरण के लिए, यदि 1,000,000 की लंबाई की दो स्ट्रिंग्स 1000 बिट्स से भिन्न हैं, तो हम विचार करते हैं कि उन स्ट्रिंग्स 1000 बिट्स के दो स्ट्रिंग्स से अपेक्षाकृत अधिक समान हैं जो 1000 बिट्स से भिन्न हैं। इसलिए हमें समानता मीट्रिक प्राप्त करने के लिए सामान्यीकरण की आवश्यकता है। इस तरह से एक सामान्य सूचना दूरी (एनआईडी) प्राप्त करता है,
 * $$ NID(x,y) = \frac{ \max\{K{(x\mid y)},K{(y\mid x)}\} }{ \max \{K(x),K(y)\}}, $$

जहां $$K(x\mid y)$$ की एल्गोरिथम जानकारी है $$x$$ दिया गया $$y$$ इनपुट के रूप में है। एनआईडी को 'समानता मीट्रिक' कहा जाता है। फलन के बाद से $$NID(x,y)$$ मीट्रिक दूरी माप के लिए मूल आवश्यकताओं को पूरा करने के लिए दिखाया गया है। यद्यपि, यह गणना योग्य या अर्ध-गणना योग्य भी नहीं है।

सामान्यीकृत संपीड़न दूरी
जबकि एनआईडी मीट्रिक की गणना नहीं की जा सकती है, इसमें अनुप्रयोगों की बहुतायत है। केवल अनुमान लगाया जा रहा है $$K$$ वास्तविक वर्ग संपीडकों द्वारा, $$Z(x)$$ फ़ाइल की बाइनरी लंबाई है $$x$$ संपीडक Z (उदाहरण के लिए gzip, bzip2, "PPMZ") साथ संपीड़ित किया गया ताकि एनआईडी को आसानी से लागू किया जा सके। सामान्यीकृत संपीड़न दूरी (एनसीडी) प्राप्त करने के लिए पॉल विटानी और रूडी सिलिब्रासी ने एनआईडी को फिर से लिखा
 * $$ NCD_Z(x,y) = \frac{Z(xy) - \min \{Z(x),Z(y)\}}{\max \{Z(x),Z(y)\}}. $$
 * एनसीडी वास्तव में कंप्रेसर Z के साथ पैरामीट्रिज्ड दूरी की एक श्रेणी है और बेहतर Z है, एनसीडी एनआईडी के जितना करीब है, परिणाम और बेहतर हैं।

अनुप्रयोग
सामान्य संपीड़न दूरी का उपयोग भाषा और फाइलोजेनेटिक दरख़्त को पूरी तरह से स्वचालित रूप से पुनर्निर्माण करने के लिए किया गया है। यह सामान्य क्लस्टरिंग के नए अनुप्रयोगों और स्वैच्छिक डोमेन में वास्तविक आंकड़े के सांख्यिकीय वर्गीकरण के लिए भी उपयोग किया जा सकता है, विषम आंकड़े के क्लस्टरिंग के लिए, और डोमेन में विसंगति का पता लगाने के लिए। आईडी और एनसीडी को कई विषयों पर लागू किया गया है, जिसमें संगीत वर्गीकरण हैं, नेटवर्क ट्रैफ़िक और क्लस्टर कंप्यूटर वर्म्स और वायरस का विश्लेषण करने के लिए, लेखकत्व संबंधित, जीन अभिव्यक्ति की गतिशीलता, उपयोगी बनाम अनुपयोगी स्टेम सेल, महत्वपूर्ण नेटवर्क, छवि पंजीकरण, प्रश्न-उत्तर प्रणाली।

प्रदर्शन
आंकड़े-खनन समुदाय के शोधकर्ता एनसीडी और वैरिएंट को पैरामीटर-फ्री, फीचर-फ्री आंकड़े खनन टूल के रूप में उपयोग करते हैं। एक समूह ने प्रयोगात्मक रूप से अनुक्रम बेंचमार्क की एक विशाल विविधता पर बारीकी से संबंधित मीट्रिक का परीक्षण किया है। पिछले एक दशक में 7 प्रमुख आंकड़े-खनन सम्मेलनों में पाई गई 51 प्रमुख विधियों के साथ उनकी संपीड़न विधि की तुलना करते हुए, उन्होंने विषम आंकड़े को क्लस्टर करने और विसंगति का पता लगाने और क्लस्टरिंग डोमेन आंकड़े में प्रतिस्पर्धात्मकता के लिए संपीड़न विधि की श्रेष्ठता स्थापित की।

ध्वनि के लिए मजबूत आंकड़े होने का एनसीडी का एक लाभ है। यद्यपि, एनसीडी पैरामीटर-मुक्त प्रतीत होता है, व्यावहारिक प्रश्नों में सम्मिलित हैं जो एनसीडी और अन्य संभावित समस्याओं की कंप्यूटिंग में उपयोग करने के लिए कंप्रेसर का उपयोग करते हैं।

सामान्यीकृत सापेक्ष संपीड़न (एनआरसी) के साथ तुलना
स्ट्रिंग के दूसरे के सापेक्ष जानकारी को मापने के लिए सापेक्ष अर्द्ध-दूरी (एनआरसी) पर निर्भर रहने की आवश्यकता है। ये ऐसे उपाय हैं जिन्हें समरूपता और त्रिभुज असमानता दूरी गुणों का सम्मान करने की आवश्यकता नहीं है। यद्यपि एनसीडी और एनआरसी बहुत समान दिखते हैं, लेकिन वे अलग-अलग सवालों को संबोधित करते हैं। एनसीडी माप देती है कि दोनों स्ट्रिंग्स कितने समान हैं, ज्यादातर सूचना सामग्री का उपयोग करते हुए, जबकि एनआरसी किसी लक्ष्य स्ट्रिंग के उस अंश को इंगित करता है जिसे किसी अन्य स्ट्रिंग से जानकारी का उपयोग करके नहीं बनाया जा सकताl तुलना के लिए, प्राइमेट जीनोमों के विकास के लिए अनुप्रयोग के साथ, देखें।

सामान्यीकृत गूगल दूरी
वस्तुओं को शाब्दिक रूप से दिया जा सकता है, जैसे शाब्दिक चार-अक्षर वाला माउस जीनोम आंकड़े बेस, या टॉल्स्टॉय द्वारा युद्ध और शांति का शाब्दिक पाठ। सरलता के लिए हम यह मान लेते हैं कि वस्तु के सभी अर्थ शाब्दिक वस्तु द्वारा ही निरुपित होता है। वस्तुओं को नाम से भी दिया जा सकता है, जैसे माउस के चार-अक्षर जीनोम, या टॉल्स्टॉय द्वारा 'युद्ध और शांति' का पाठ। ऐसी वस्तुएँ भी हैं जिन्हें शाब्दिक रूप से नहीं दिया जा सकता है, बल्कि केवल नाम से, और जो मानव जाति में सामान्य ज्ञान की पृष्ठभूमि में अपने संदर्भों से अपना अर्थ प्राप्त करती हैं, जैसे "घर" या "लाल."। हम शब्दार्थ समानता में रुचि रखते हैं। वेब से गूगल द्वारा लौटाए गए पृष्ठ-हिट गिनती से प्राप्त कोड-वर्ड की लंबाई का उपयोग करते हुए, हम एनसीडी सूत्र का उपयोग करते हुए और डेटा खनन, पाठ समझ, वर्गीकरण, और अनुवाद के लिए गूगल को एक कम्प्रेसर के रूप में उपयोगी देखते हुए एक शब्दार्थ दूरी प्राप्त करते हैं। जिसे सामान्यीकृत गूगल दूरी (एनजीडी) कहा जाने वाला एसोसिएटेड एनसीडी को पुनः के रूप में लिखा जा सकता हैl
 * $$ NGD(x,y)= \frac{ \max \{\log f(x), \log f(y)\} - \log f(x,y) }{ \log N - \min\{\log f(x), \log f(y) \}}, $$

जहां $$f(x)$$ खोज शब्द वाले पृष्ठों की संख्या को दर्शाता है $$x$$, और $$f(x,y)$$ दोनों वाले पृष्ठों की संख्या को दर्शाता है $$x$$ और $$y$$,) जैसा कि गूगल या किसी भी खोज इंजन द्वारा लौटाया गया है या कोई भी खोज इंजन जो एकीकृत पृष्ठ गणना को लौटाने में सक्षम है। जो संख्या $$N$$ अनुक्रमित पृष्ठों की संख्या पर सेट किया जा सकता है, यद्यपि यद्यपि इसमें सम्मिलित खोज शब्दों या वाक्यांशों की संख्या के अनुसार प्रत्येक पृष्ठ की गणना करना अधिक उचित हैl जैसा कि अंगूठे के नियम के अनुसार पृष्ठों की संख्या को एक हजार से गुणा किया जा सकता है।..

यह भी देखें

 * Word2vec

बाहरी संबंध

 * Efficient Estimation of Word Representations in Vector Space
 * M. Li and P. Vitanyi, An Introduction to Kolmogorov Complexity and Its Applications,Springer-Verlag, New York, 4th Edition 2019