काउंट स्केच

काउंट स्केच एक प्रकार की आयामीता में कमी है जो सांख्यिकी, यंत्र अधिगम  और एल्गोरिदम में विशेष रूप से कुशल है। द्वारा इसका आविष्कार किया गया था मूसा चारिकर, केविन चेन और मार्टिन फ़राच-कोल्टन धाराओं की आवृत्ति क्षणों का अनुमान लगाने के लिए एलोन, मटियास और ज़ेजेडी द्वारा एम्स स्केच  को गति देने के प्रयास में। स्केच लगभग जॉन मूडी द्वारा फ़ीचर हैशिंग एल्गोरिथम के समान है, लेकिन कम निर्भरता वाले हैश फ़ंक्शंस के उपयोग में भिन्न है, जो इसे और अधिक व्यावहारिक बनाता है। अभी भी सफलता की एक उच्च संभावना होने के लिए, माध्य चाल का उपयोग माध्य के बजाय एकाधिक गणना रेखाचित्रों को एकत्र करने के लिए किया जाता है।

ये गुण तंत्रिका नेटवर्क में स्पष्ट कर्नेल विधियों, बिलिनियर पूल (कंप्यूटर विज्ञान) के उपयोग की अनुमति देते हैं और कई संख्यात्मक रैखिक बीजगणित एल्गोरिदम में आधारशिला हैं।

गणितीय परिभाषा
1. स्थिरांक के लिए $$w$$ और $$t$$ (बाद में परिभाषित किया जाएगा) स्वतंत्र रूप से चुनें $$d=2t+1$$ यादृच्छिक हैश फ़ंक्शन $$h_1, \dots, h_d$$ और $$s_1,\dots,s_d$$ ऐसा है कि $$h_i : [n] \to [w]$$ और $$s_i : [n] \to \{\pm 1\}$$. यह आवश्यक है कि जिस हैश परिवार से $$h_i$$ और $$s_i$$ जोड़ीदार स्वतंत्र चुने जाते हैं।

2. प्रत्येक वस्तु के लिए $$q_i$$ स्ट्रीम में, जोड़ें $$s_j(q_i)$$ तक $$h_j(q_i)$$वें बाल्टी $$j$$वें हैश।

इस प्रक्रिया के अंत में, एक है $$wd$$ रकम $$(C_{ij})$$ कहाँ
 * $$C_{i,j} = \sum_{h_i(k)=j}s_i(k).$$

की संख्या का अनुमान लगाने के लिए $$q$$निम्नलिखित मान की गणना करता है:
 * $$r_q = \text{median}_{i=1}^d\, s_i(q)\cdot C_{i, h_i(q)}.$$

मूल्य $$s_i(q)\cdot C_{i, h_i(q)}$$ कितनी बार निष्पक्ष अनुमान हैं $$q$$ प्रवाह में प्रकट हुआ है।

अनुमान $$r_q$$ भिन्नता है $$O(\mathrm{min}\{m_1^2/w^2, m_2^2/w\})$$, कहाँ $$m_1$$ धारा की लंबाई है और $$m_2^2$$ है $$\sum_q (\sum_i [q_i=q])^2$$. आगे, $$r_q$$ से अधिक कभी नहीं होने की गारंटी है $$2m_2/\sqrt{w}$$ सही मूल्य से दूर, संभावना के साथ $$1-e^{-O(t)}$$.

वेक्टर सूत्रीकरण
वैकल्पिक रूप से काउंट-स्केच को एक गैर-रैखिक पुनर्निर्माण समारोह के साथ एक रेखीय मानचित्रण के रूप में देखा जा सकता है। होने देना $$M^{(i\in[d])}\in\{-1,0,1\}^{w \times n}$$, का एक संग्रह हो $$d=2t+1$$ मैट्रिक्स, द्वारा परिभाषित
 * $$M^{(i)}_{h_i(j),j} = s_i(j)$$

के लिए $$j\in[w]$$ और 0 हर जगह।

फिर एक वेक्टर $$v\in\mathbb{R}^n$$ द्वारा रेखांकन किया गया है $$C^{(i)} = M^{(i)} v \in \mathbb{R}^w$$. पुनर्निर्माण करना $$v$$ हम लेते हैं $$v^*_j = \text{median}_i C^{(i)}_j s_i(j)$$. यह वही गारंटी देता है जैसा कि ऊपर कहा गया है, अगर हम लेते हैं $$m_1=\|v\|_1$$ और $$m_2=\|v\|_2$$.

टेन्सर स्केच से संबंध
दो वैक्टरों के बाहरी उत्पाद का काउंट स्केच प्रोजेक्शन दो कंपोनेंट काउंट स्केच के कनवल्शन के बराबर है।

काउंट स्केच एक वेक्टर कनवल्शन की गणना करता है

$$C^{(1)}x \ast C^{(2)}x^T$$, कहाँ $$C^{(1)}$$ और $$C^{(2)}$$ स्वतंत्र गणना स्केच मेट्रिसेस हैं।

फाम और पाघ दिखाएँ कि यह बराबर है $$C(x \otimes x^T)$$ - एक गिनती रेखाचित्र $$C$$ वैक्टर के बाहरी उत्पाद का, जहाँ $$ \otimes $$ क्रोनकर उत्पाद को दर्शाता है।

तेजी से फूरियर रूपांतरण का उपयोग गिनती रेखाचित्रों के तेजी से कनवल्शन करने के लिए किया जा सकता है। खत्री-राव_उत्पाद#चेहरा-विभाजन_उत्पाद|चेहरा-विभाजन उत्पाद का उपयोग करके  ऐसी संरचनाओं की गणना सामान्य मेट्रिसेस की तुलना में बहुत तेजी से की जा सकती है।

यह भी देखें

 * काउंट-मिन स्केच
 * Tensorsketch

अग्रिम पठन

 * Faisal M. Algashaam; Kien Nguyen; Mohamed Alkanhal; Vinod Chandran; Wageeh Boles. "Multispectral Periocular Classification WithMultimodal Compact Multi-Linear Pooling" . IEEE Access, Vol. 5. 2017.