काउंट स्केच

स्केच गणना एक प्रकार की आयाम में कमी है | जो सांख्यिकी, मशीन लर्निंग और एल्गोरिदम में विशेष रूप से उत्तम है। द्वारा इसका आविष्कार किया गया था| मोसेस चारिकर, केविन चेन और मार्टिन फ़राच-कोल्टन धाराओं की आवृत्ति क्षणों का अनुमान लगाने के लिए एलोन, मटियास और ज़ेजेडी द्वारा एम्स स्केच को गति देने के प्रयास में है।

स्केच लगभग जॉन मूडी द्वारा फ़ीचर हैशिंग एल्गोरिथम के समान है | किन्तु कम निर्भरता वाले हैश फलन के उपयोग में भिन्न है | जो इसे और अधिक व्यावहारिक बनाता है। अभी भी सफलता की उच्च संभावना होने के लिए, माध्य चाल का उपयोग माध्य के अतिरिक्त एकाधिक गणना रेखाचित्रों को एकत्र करने के लिए किया जाता है।

ये गुण तंत्रिका नेटवर्क में स्पष्ट कर्नेल विधियों, बिलिनियर पूल (कंप्यूटर विज्ञान) के उपयोग की अनुमति देते हैं और कई संख्यात्मक रैखिक बीजगणित एल्गोरिदम में आधारशिला हैं।

गणितीय परिभाषा
1. स्थिरांक $$w$$ और $$t$$ के लिए (बाद में परिभाषित किया जाएगा) स्वतंत्र रूप से $$d=2t+1$$ यादृच्छिक हैश फ़ंक्शन$$h_1, \dots, h_d$$ और $$s_1,\dots,s_d$$ चुनें | ऐसा है कि $$h_i : [n] \to [w]$$ और $$s_i : [n] \to \{\pm 1\}$$. यह आवश्यक है कि जिस हैश परिवार से $$h_i$$ और $$s_i$$ जोड़ीदार स्वतंत्र चुने जाते हैं।

2. प्रत्येक वस्तु के लिए $$q_i$$ स्ट्रीम में, जोड़ें $$s_j(q_i)$$ तक $$h_j(q_i)$$ वें बकेट $$j$$ वें हैश है |

इस प्रक्रिया के अंत में, $$wd$$ संस $$(C_{ij})$$ होता है | जहाँ


 * $$C_{i,j} = \sum_{h_i(k)=j}s_i(k).$$

$$q$$s की संख्या का अनुमान लगाने के लिए निम्न मान की गणना की जाती है |
 * $$r_q = \text{median}_{i=1}^d\, s_i(q)\cdot C_{i, h_i(q)}.$$

मान $$s_i(q)\cdot C_{i, h_i(q)}$$ धारा में $$q$$ कितनी बार प्रकट हुआ है, इसका निष्पक्ष अनुमान है।

अनुमान $$r_q$$ का प्रसरण $$O(\mathrm{min}\{m_1^2/w^2, m_2^2/w\})$$, जहां $$m_1$$ धारा की लंबाई है और $$m_2^2$$ $$\sum_q (\sum_i [q_i=q])^2$$ है |

इसके अतिरिक्त $$r_q$$ की प्रायिकता $$1-e^{-O(t)}$$ के साथ, वास्तविक मान से $$2m_2/\sqrt{w}$$ से अधिक नहीं होने की गारंटी है |

सदिश सूत्रीकरण
वैकल्पिक रूप से गणना-स्केच को गैर-रैखिक पुनर्निर्माण फलन के साथ रेखीय मानचित्रण के रूप में देखा जा सकता है।

माना $$M^{(i\in[d])}\in\{-1,0,1\}^{w \times n}$$, का संग्रह हो $$d=2t+1$$ आव्यूह, द्वारा परिभाषित है |
 * $$M^{(i)}_{h_i(j),j} = s_i(j)$$

के लिए $$j\in[w]$$ और 0 हर जगह।

फिर एक सदिश $$v\in\mathbb{R}^n$$ को $$C^{(i)} = M^{(i)} v \in \mathbb{R}^w$$। $$v$$ का पुनर्निर्माण करने के लिए हम $$v^*_j = \text{median}_i C^{(i)}_j s_i(j)$$ लेते हैं। यदि हम $$m_1=\|v\|_1$$ और $$m_2=\|v\|_2$$ लेते हैं तो यह वही गारंटी देता है | जैसा ऊपर कहा गया है |

टेन्सर स्केच से संबंध
दो सदिशो के बाहरी उत्पाद का गणना स्केच प्रोजेक्शन दो कंपोनेंट गणना स्केच के कनवल्शन के समान है।

गणना स्केच सदिश कनवल्शन की गणना करता है |

$$C^{(1)}x \ast C^{(2)}x^T$$, where and  are independent count sketch matrices.

फाम और पाघ दिखाएँ कि यह $$C(x \otimes x^T)$$ समान है | वैक्टर के बाहरी उत्पाद का गिनती रेखाचित्र $$C$$, जहाँ $$ \otimes $$ क्रोनकर उत्पाद को दर्शाता है।

तेजी से फूरियर रूपांतरण का उपयोग गिनती रेखाचित्रों के तेजी से कनवल्शन करने के लिए किया जा सकता है।

फेस-स्प्लिटिंग उत्पाद का उपयोग करके  ऐसी संरचनाओं की गणना सामान्य आव्यूह की तुलना में बहुत तेजी से की जा सकती है।

यह भी देखें

 * गणना-मिन स्केच
 * टेन्सरस्केच

अग्रिम पठन

 * Faisal M. Algashaam; Kien Nguyen; Mohamed Alkanhal; Vinod Chandran; Wageeh Boles. "Multispectral Periocular Classification WithMultimodal Compact Multi-Linear Pooling" . IEEE Access, Vol. 5. 2017.