प्रतिरूपकता (नेटवर्क)

प्रतिरूपकता जटिल नेटवर्क या ग्राफ़ (असतत गणित) की संरचना का एक माप है जो एक नेटवर्क के मॉड्यूल में विभाजन की ताकत को मापता है (जिसे समूह, समूह या समुदाय भी कहा जाता है)। उच्च मॉड्यूलरिटी वाले नेटवर्क में मॉड्यूल के भीतर नोड्स के बीच घने कनेक्शन होते हैं लेकिन विभिन्न मॉड्यूल में नोड्स के बीच विरल कनेक्शन होते हैं। नेटवर्क में सामुदायिक संरचना का पता लगाने के लिए मॉड्यूलरिटी का उपयोग अक्सर अनुकूलन विधियों में किया जाता है। जानवरों के दिमाग सहित जैविक नेटवर्क, उच्च स्तर की प्रतिरूपकता प्रदर्शित करते हैं। हालांकि, प्रतिरूपकता अधिकतमकरण सांख्यिकीय रूप से सुसंगत नहीं है, और समुदायों को अपने स्वयं के अशक्त मॉडल, यानी पूरी तरह से यादृच्छिक रेखांकन में पाता है, और इसलिए इसका उपयोग अनुभवजन्य नेटवर्क में सांख्यिकीय रूप से महत्वपूर्ण सामुदायिक संरचनाओं को खोजने के लिए नहीं किया जा सकता है। इसके अलावा, यह दिखाया गया है कि प्रतिरूपकता एक संकल्प सीमा से ग्रस्त है और इसलिए, यह छोटे समुदायों का पता लगाने में असमर्थ है।

प्रेरणा
कई वैज्ञानिक रूप से महत्वपूर्ण समस्याओं का प्रतिनिधित्व किया जा सकता है और अनुभवजन्य रूप से नेटवर्क का उपयोग करके अध्ययन किया जा सकता है। उदाहरण के लिए, जैविक और सामाजिक पैटर्न, वर्ल्ड वाइड वेब, मेटाबॉलिक नेटवर्क, फूड वेब, न्यूरल नेटवर्क और पैथोलॉजिकल नेटवर्क वास्तविक दुनिया की समस्याएं हैं जिन्हें गणितीय रूप से दर्शाया जा सकता है और कुछ अप्रत्याशित संरचनात्मक विशेषताओं को प्रकट करने के लिए स्थैतिक रूप से अध्ययन किया जा सकता है। इनमें से अधिकांश नेटवर्क में एक निश्चित सामुदायिक संरचना होती है जिसका नेटवर्क की गतिशीलता के बारे में समझ बनाने में पर्याप्त महत्व होता है। उदाहरण के लिए, एक निकट से जुड़ा हुआ सामाजिक समुदाय एक कमजोर रूप से जुड़े समुदाय की तुलना में उनके बीच सूचना या अफवाह के प्रसारण की तेज दर का संकेत देगा। इस प्रकार, यदि एक नेटवर्क को लिंक से जुड़े कई अलग-अलग नोड्स द्वारा दर्शाया जाता है जो नोड्स के बीच एक निश्चित डिग्री की बातचीत को दर्शाता है, तो समुदायों को सघन रूप से परस्पर जुड़े नोड्स के समूह के रूप में परिभाषित किया जाता है जो केवल बाकी नेटवर्क से जुड़े होते हैं। इसलिए, नेटवर्क में समुदायों की पहचान करना अत्यावश्यक हो सकता है क्योंकि समुदायों में नोड डिग्री, क्लस्टरिंग गुणांक, समानता, केंद्रीयता जैसे काफी भिन्न गुण हो सकते हैं। आदि, औसत नेटवर्क से। प्रतिरूपकता एक ऐसा उपाय है, जो अधिकतम होने पर किसी दिए गए नेटवर्क में समुदायों की उपस्थिति की ओर जाता है।

परिभाषा
प्रतिरूपकता किनारों का अंश है जो दिए गए समूहों के भीतर आता है, यदि किनारों को यादृच्छिक रूप से वितरित किया जाता है तो अपेक्षित अंश घटा दिया जाता है। अभारित और अप्रत्यक्ष रेखांकन के लिए प्रतिरूपकता का मान सीमा में निहित है $$[-1/2,1]$$. यह सकारात्मक है अगर समूहों के भीतर किनारों की संख्या मौके के आधार पर अपेक्षित संख्या से अधिक हो। कुछ मॉड्यूल में नेटवर्क के वर्टिकल के दिए गए विभाजन के लिए, मॉड्युलैरिटी मॉड्यूल की परवाह किए बिना सभी नोड्स के बीच लिंक के यादृच्छिक वितरण की तुलना में मॉड्यूल के भीतर किनारों की एकाग्रता को दर्शाती है।

मॉड्यूलरिटी की गणना के लिए अलग-अलग तरीके हैं। अवधारणा के सबसे सामान्य संस्करण में, किनारों का यादृच्छिकीकरण किया जाता है ताकि प्रत्येक शीर्ष की डिग्री (ग्राफ सिद्धांत) को संरक्षित किया जा सके। के साथ एक ग्राफ पर विचार करें $$n$$ वर्टेक्स (ग्राफ सिद्धांत) और $$m$$ लिंक (एज (ग्राफ थ्योरी)#ग्राफ) जैसे कि सदस्यता चर का उपयोग करके ग्राफ को दो समुदायों में विभाजित किया जा सकता है $$s$$. यदि एक नोड $$v$$ समुदाय 1 के अंतर्गत आता है, $$s_v = 1$$, या अगर $$v$$ समुदाय 2 के अंतर्गत आता है, $$s_v = -1$$. बता दें कि नेटवर्क के लिए आसन्न मैट्रिक्स को इसके द्वारा दर्शाया गया है $$A$$, कहाँ $$A_=0$$ इसका मतलब है कि नोड्स के बीच कोई किनारा (कोई इंटरैक्शन नहीं) है $$v$$ और $$w$$ और $$A_{vw} = 1$$ मतलब दोनों के बीच एक किनारा है। साथ ही सरलता के लिए हम एक अप्रत्यक्ष नेटवर्क पर विचार करते हैं। इस प्रकार $$A_{vw} = A_{wv}$$. (यह ध्यान रखना महत्वपूर्ण है कि दो नोड्स के बीच कई किनारे मौजूद हो सकते हैं, लेकिन यहां हम सबसे सरल मामले का आकलन करते हैं)।

प्रतिरूपकता $$Q$$ तब किनारों के अंश के रूप में परिभाषित किया जाता है जो समूह 1 या 2 के भीतर आते हैं, दिए गए नेटवर्क के समान नोड डिग्री वितरण के साथ एक यादृच्छिक ग्राफ के लिए समूह 1 और 2 के भीतर किनारों की अपेक्षित संख्या घटाते हैं।

विन्यास मॉडल की अवधारणा का उपयोग करके किनारों की अपेक्षित संख्या की गणना की जाएगी। कॉन्फ़िगरेशन मॉडल एक विशेष नेटवर्क का एक यादृच्छिक अहसास है। के साथ एक नेटवर्क दिया $$n$$ नोड्स, जहां प्रत्येक नोड $$v$$ एक नोड डिग्री है $$k_v$$, कॉन्फ़िगरेशन मॉडल प्रत्येक किनारे को दो हिस्सों में काटता है, और फिर प्रत्येक आधा किनारा, जिसे स्टब कहा जाता है, को नेटवर्क में किसी अन्य स्टब के साथ बेतरतीब ढंग से फिर से जोड़ा जाता है, यहां तक ​​कि सेल्फ-लूप्स की अनुमति देता है (जो तब होता है जब एक स्टब को दूसरे स्टब से फिर से जोड़ा जाता है। एक ही नोड) और एक ही दो नोड्स के बीच कई-किनारे। इस प्रकार, भले ही ग्राफ का नोड डिग्री वितरण बरकरार रहता है, कॉन्फ़िगरेशन मॉडल का परिणाम पूरी तरह से यादृच्छिक नेटवर्क होता है।

नोड्स के बीच किनारों की अपेक्षित संख्या
अब दो गांठों पर विचार करें $$v$$ और $$w$$, नोड डिग्री के साथ $$k_v$$ और $$k_w$$ क्रमशः, जैसा कि ऊपर वर्णित है, एक बेतरतीब ढंग से रिवायर्ड नेटवर्क से। हम इन नोड्स के बीच पूर्ण किनारों की अपेक्षित संख्या की गणना करते हैं।

आइए हम प्रत्येक पर विचार करें $$k_v$$ नोड के स्टब्स $$v$$ और संबद्ध सूचक चर बनाएँ $$I_i^{(v,w)}$$ उन को, $$i = 1, \ldots, k_v$$, साथ $$I_i^{(v,w)} = 1$$ अगर $$i$$-वाँ ठूंठ इनमें से किसी एक से जुड़ता है $$k_w$$ नोड के स्टब्स $$w$$ इस विशेष यादृच्छिक ग्राफ में। अगर नहीं होता है तो $$I_i^{(v,w)}=0$$. के बाद से $$i$$नोड का -वाँ ठूंठ $$v$$ में से किसी से जुड़ सकते हैं $$2m-1$$ शेष स्टब्स समान संभावना के साथ, और चूंकि वहाँ हैं $$k_w$$ स्टब्स यह नोड से जुड़े से जुड़ सकता है $$w$$जाहिर है

p(I_i^{(v,w)} = 1) = E[I_i^{(v,w)}] = \frac{k_w}{2m-1} $$ पूर्ण किनारों की कुल संख्या $$J_{vw}$$ बीच में $$v$$ और $$w$$ बस है $$J_{vw} = \sum_{i=1}^{k_v}I_i^{(v,w)}$$, तो इस मात्रा का अपेक्षित मूल्य है

E[J_{vw}] = E\left[\sum_{i=1}^{k_v} I_i^{(v,w)}\right] = \sum_{i=1}^{k_v} E[I_i^{(v,w)}] = \sum_{i=1}^{k_v} \frac{k_w}{2m-1} = \frac{k_v k_w}{2m - 1} $$ बड़ी संख्या में किनारों के साथ यादृच्छिक नेटवर्क के लिए कई पाठ तब निम्नलिखित अनुमान लगाते हैं। कब $$m$$ बड़ा है, वे का घटाव छोड़ देते हैं $$1$$ उपरोक्त भाजक में और केवल सन्निकट व्यंजक का उपयोग करें $$\frac{k_v k_w}{2m}$$ दो नोड्स के बीच किनारों की अपेक्षित संख्या के लिए। इसके अतिरिक्त, एक बड़े यादृच्छिक नेटवर्क में, स्व-लूपों और बहु-किनारों की संख्या गायब हो जाती है। सेल्फ-लूप और मल्टी-एज को नजरअंदाज करने से कोई यह मान सकता है कि किसी भी दो नोड्स के बीच अधिकतम एक किनारा है। उस मामले में, $$J_{vw}$$ एक बाइनरी इंडिकेटर वैरिएबल बन जाता है, इसलिए इसका अपेक्षित मान भी प्रायिकता है कि यह बराबर है $$1$$, जिसका अर्थ है कि कोई नोड्स के बीच मौजूद किनारे की संभावना का अनुमान लगा सकता है $$v$$ और $$w$$ जैसा $$\frac{k_v k_w}{2m}$$.

मॉड्यूलरिटी
इसलिए, नोड के बीच किनारों की वास्तविक संख्या के बीच का अंतर $$v$$ और $$w$$ और उनके बीच किनारों की अपेक्षित संख्या है

$$A_{vw} - \frac{k_v k_w}{2m}$$ सभी नोड जोड़े पर योग करने से प्रतिरूपकता के लिए समीकरण मिलता है, $$Q$$.

यह ध्यान रखने के लिए महत्वपूर्ण है $$ केवल दो समुदायों में विभाजन के लिए सही है। पदानुक्रमित विभाजन (यानी दो समुदायों में विभाजन, फिर दो उप-समुदायों को आगे दो छोटे उप समुदायों में केवल क्यू को अधिकतम करने के लिए विभाजित किया गया) एक नेटवर्क में कई समुदायों की पहचान करने के लिए एक संभावित दृष्टिकोण है। इसके अतिरिक्त, (3) एक नेटवर्क को c समुदायों में विभाजित करने के लिए सामान्यीकृत किया जा सकता है।

जहां ईij समुदाय i में एक छोर के साथ किनारों का अंश है और दूसरा समुदाय j में है:

e_{ij}= \sum_{vw} \frac{A_{vw}}{2m} 1_{v\in c_i} 1_{w\in c_j} $$ और एi किनारों के सिरों का अंश है जो समुदाय i में शीर्ष से जुड़ा हुआ है:

a_i=\frac{k_i}{2m} = \sum_{j} e_{ij} $$

मल्टीपल कम्युनिटी डिटेक्शन का उदाहरण
हम 10 नोड्स और 12 किनारों और निम्नलिखित आसन्न मैट्रिक्स के साथ एक अप्रत्यक्ष नेटवर्क पर विचार करते हैं।

ग्राफ में समुदायों को चित्र 1 में लाल, हरे और नीले नोड समूहों द्वारा दर्शाया गया है। इष्टतम सामुदायिक विभाजन चित्र 2 में दर्शाए गए हैं।

मैट्रिक्स फॉर्मूलेशन
प्रतिरूपकता का एक वैकल्पिक सूत्रीकरण, विशेष रूप से वर्णक्रमीय अनुकूलन एल्गोरिदम में उपयोगी, इस प्रकार है। परिभाषित करना $$S_{vr}$$ होना $$1$$ यदि वर्टेक्स $$v$$ समूह के अंतर्गत आता है $$r$$ और $$0$$ अन्यथा। तब



\delta(c_v,c_w) = \sum_r S_{vr} S_{wr} $$ और इसलिए



Q = \frac{1}{2m} \sum_{vw} \sum_r \left[ A_{vw} - \frac{k_v k_w}{2m} \right] S_{vr} S_{wr} = \frac{1}{2m} \mathrm{Tr}(\mathbf{S}^\mathrm{T}\mathbf{BS}), $$ कहाँ $$S$$ तत्व वाले (गैर-वर्ग) मैट्रिक्स है $$S_{v}$$ और $$B$$ तथाकथित मॉड्यूलरिटी मैट्रिक्स है, जिसमें तत्व हैं



B_{vw} = A_{vw} - \frac{k_v k_w}{2m}. $$ प्रतिरूपकता मैट्रिक्स की सभी पंक्तियों और स्तंभों का योग शून्य है, जिसका अर्थ है कि एक अविभाजित नेटवर्क की प्रतिरूपकता भी हमेशा होती है $$0$$.

केवल दो समुदायों में विभाजित नेटवर्क के लिए, कोई वैकल्पिक रूप से परिभाषित कर सकता है $$s_v = \pm 1$$ समुदाय को किस नोड को इंगित करने के लिए $$v$$ का है, जो आगे ले जाता है



Q = {1\over 4m} \sum_{vw} B_{vw} s_v s_w = {1\over 4m} \mathbf{s}^\mathrm{T}\mathbf{Bs}, $$ कहाँ $$s$$ तत्वों के साथ कॉलम वेक्टर है $$s_v$$.

इस फ़ंक्शन का एक आइसिंग स्पिन ग्लास के हैमिल्टनियन (क्वांटम यांत्रिकी) के रूप में एक ही रूप है, एक कनेक्शन जिसका उपयोग सरल कंप्यूटर एल्गोरिदम बनाने के लिए किया गया है, उदाहरण के लिए तैयार किए हुयी धातु पे पानी चढाने की कला  का उपयोग करके, मॉड्यूलरिटी को अधिकतम करने के लिए। समुदायों की मनमानी संख्या के लिए प्रतिरूपकता का सामान्य रूप पॉट्स स्पिन ग्लास के बराबर है और इस मामले के लिए भी इसी तरह के एल्गोरिदम विकसित किए जा सकते हैं।

ओवरफिटिंग
यद्यपि मॉड्यूलरिटी अधिकतमकरण की विधि शून्य मॉडल से विचलन की गणना करके प्रेरित होती है, लेकिन इस विचलन की गणना सांख्यिकीय रूप से सुसंगत तरीके से नहीं की जाती है। इस वजह से, विधि कुख्यात रूप से उच्च स्कोरिंग समुदायों को अपने अशक्त मॉडल में पाती है (कॉन्फ़िगरेशन मॉडल), जो परिभाषा के अनुसार सांख्यिकीय रूप से महत्वपूर्ण नहीं हो सकता। इस वजह से, अनुभवजन्य नेटवर्क में सांख्यिकीय रूप से महत्वपूर्ण सामुदायिक संरचना को मज़बूती से प्राप्त करने के लिए विधि का उपयोग नहीं किया जा सकता है।

संकल्प सीमा
प्रतिरूपकता एक क्लस्टर के अंदर किनारों की संख्या की तुलना किनारों की अपेक्षित संख्या से करती है यदि नेटवर्क समान संख्या में नोड्स के साथ एक यादृच्छिक नेटवर्क था और जहां क्लस्टर में पाया जाएगा प्रत्येक नोड अपनी डिग्री रखता है, लेकिन किनारों को अन्यथा बेतरतीब ढंग से जोड़ा जाता है। यह यादृच्छिक अशक्त मॉडल स्पष्ट रूप से मानता है कि प्रत्येक नोड नेटवर्क के किसी अन्य नोड से जुड़ा हो सकता है। यह धारणा हालांकि अनुचित है यदि नेटवर्क बहुत बड़ा है, क्योंकि नोड के क्षितिज में नेटवर्क का एक छोटा सा हिस्सा शामिल है, इसमें से अधिकांश को अनदेखा कर रहा है। इसके अलावा, इसका तात्पर्य यह है कि यदि नेटवर्क का आकार बढ़ता है तो नोड्स के दो समूहों के बीच किनारों की अपेक्षित संख्या घट जाती है। इसलिए, यदि कोई नेटवर्क काफी बड़ा है, मॉड्यूलरिटी के नल मॉडल में नोड्स के दो समूहों के बीच किनारों की अपेक्षित संख्या एक से छोटी हो सकती है। यदि ऐसा होता है, तो दो समूहों के बीच एक किनारे को प्रतिरूपकता द्वारा दो समूहों के बीच एक मजबूत सहसंबंध के संकेत के रूप में व्याख्या की जाएगी, और प्रतिरूपकता को अनुकूलित करने से समूहों की विशेषताओं से स्वतंत्र रूप से दो समूहों का विलय हो जाएगा। इसलिए, यहां तक ​​​​कि कमजोर रूप से जुड़े हुए पूर्ण ग्राफ़, जिनमें आंतरिक किनारों का उच्चतम संभव घनत्व है, और सर्वोत्तम पहचान योग्य समुदायों का प्रतिनिधित्व करते हैं, यदि नेटवर्क पर्याप्त रूप से बड़ा था, तो मॉड्यूलरिटी ऑप्टिमाइज़ेशन द्वारा विलय कर दिया जाएगा। इस कारण से, बड़े नेटवर्क में प्रतिरूपकता का अनुकूलन छोटे समुदायों को हल करने में विफल होगा, भले ही वे अच्छी तरह से परिभाषित हों। यह पक्षपात मॉड्यूलरिटी ऑप्टिमाइज़ेशन जैसे तरीकों के लिए अनिवार्य है, जो वैश्विक शून्य मॉडल पर भरोसा करते हैं।

बहुविकल्पी विधियाँ
दो मुख्य दृष्टिकोण हैं जो मॉड्यूलरिटी संदर्भ के भीतर संकल्प सीमा को हल करने का प्रयास करते हैं: प्रत्येक नोड के लिए प्रतिरोध आर के अतिरिक्त, एक आत्म पाश के रूप में, जो बढ़ता है (आर> 0) या घटता है (आर <0) समुदाय बनाने के लिए नोड्स का विरोध; या मॉड्यूलरिटी की परिभाषा में नल-केस टर्म के सामने एक पैरामीटर γ>0 जोड़ना, जो समुदायों के आंतरिक लिंक और नल मॉडल के बीच सापेक्ष महत्व को नियंत्रित करता है। इन मापदंडों के मूल्यों के लिए उनकी संबंधित उपयुक्त श्रेणियों में प्रतिरूपकता का अनुकूलन, नेटवर्क के पूरे मेसोस्केल को पुनर्प्राप्त करना संभव है, मैक्रोस्केल से जिसमें सभी नोड एक ही समुदाय से संबंधित हैं, सूक्ष्म पैमाने पर जिसमें प्रत्येक नोड अपना समुदाय बनाता है, इसलिए बहुसंकल्प विधियों का नाम। हालाँकि, यह दिखाया गया है कि इन विधियों की सीमाएँ हैं जब समुदाय आकार में बहुत विषम हैं।

सॉफ्टवेयर उपकरण
ऐसे कुछ सॉफ़्टवेयर टूल उपलब्ध हैं जो अच्छी मॉड्यूलरिटी वाले ग्राफ़ में क्लस्टरिंग की गणना करने में सक्षम हैं।

बहु-स्तरीय लौवेन पद्धति का मूल कार्यान्वयन। लीडेन एल्गोरिदम जो अतिरिक्त रूप से असंबद्ध समुदायों से बचा जाता है। विएना ग्राफ क्लस्टरिंग (वीईक्लस) एल्गोरिथम, एक समानांतर मेमेटिक एल्गोरिथम।

यह भी देखें

 * जटिल नेटवर्क
 * सामुदायिक संरचना
 * अशक्त मॉडल
 * परकोलेशन सिद्धांत