नाइव बेयस स्पैम फ़िल्टरिंग

Naive Bayes क्लासिफायर ई-मेल फ़िल्टरिंग की लोकप्रिय सांख्यिकी वैज्ञानिक तकनीक है। वे आम तौर पर ईमेल स्पैम की पहचान करने के लिए बैग-ऑफ-वर्ड्स मॉडल | बैग-ऑफ-वर्ड्स सुविधाओं का उपयोग करते हैं, जो आमतौर पर दस्तावेज़ वर्गीकरण में उपयोग किया जाता है।

नाइव बेयस क्लासिफायरियर स्पैम और गैर-स्पैम ई-मेल के साथ टोकन (आमतौर पर शब्द, या कभी-कभी अन्य चीजें) के उपयोग को सहसंबंधित करके काम करते हैं और फिर ईमेल के स्पैम होने या न होने की संभावना की गणना करने के लिए बेयस प्रमेय का उपयोग करते हैं।

Naive Bayes स्पैम फ़िल्टरिंग स्पैम से निपटने के लिए आधारभूत तकनीक है जो व्यक्तिगत उपयोगकर्ताओं की ईमेल आवश्यकताओं के अनुरूप हो सकती है और कम झूठी सकारात्मक स्पैम पहचान दर दे सकती है जो आम तौर पर उपयोगकर्ताओं के लिए स्वीकार्य होती है। यह स्पैम फ़िल्टरिंग करने के सबसे पुराने तरीकों में से है, जिसकी जड़ें 1990 के दशक में थीं।

इतिहास
बायेसियन एल्गोरिदम का उपयोग 1996 की शुरुआत में ईमेल फ़िल्टरिंग के लिए किया गया था। हालाँकि बाद में बायेसियन फ़िल्टर लोकप्रिय नहीं हुए, लेकिन अवांछित ईमेल की बढ़ती समस्या का समाधान करने के लिए 1998 में कई कार्यक्रम जारी किए गए। बायेसियन स्पैम फ़िल्टरिंग पर पहला विद्वतापूर्ण प्रकाशन सहामी एट अल द्वारा किया गया था। 1998 में। इसके तुरंत बाद उस कार्य को वाणिज्यिक स्पैम फ़िल्टर में तैनात कर दिया गया।

बुनियादी तकनीक के वेरिएंट को कई शोध कार्यों और वाणिज्यिक कंप्यूटर सॉफ्टवेयर उत्पादों में लागू किया गया है। कई आधुनिक मेल क्लाइंट (कंप्यूटिंग) बायेसियन स्पैम फ़िल्टरिंग लागू करते हैं। उपयोगकर्ता अलग ई-मेल फ़िल्टरिंग भी स्थापित कर सकते हैं। सर्वर साइड ईमेल फ़िल्टर, जैसे DSPAM, SpamAssassin, स्पैमबेयस, बोगो फ़िल्टर और एंटी-स्पैम एसएमटीपी प्रॉक्सी, बायेसियन स्पैम फ़िल्टरिंग तकनीकों का उपयोग करते हैं, और कार्यक्षमता कभी-कभी डाक सर्वर सॉफ़्टवेयर के भीतर ही एम्बेडेड होती है। CRM114 (प्रोग्राम), जिसे अक्सर बायेसियन फ़िल्टर के रूप में उद्धृत किया जाता है, का उद्देश्य उत्पादन में बेयस फ़िल्टर का उपयोग करना नहीं है, लेकिन इसमें संदर्भ के लिए ″यूनिग्राम″ सुविधा शामिल है।

प्रक्रिया
विशेष शब्दों के स्पैम ईमेल और वैध ईमेल में होने की विशेष संभावना होती है। उदाहरण के लिए, अधिकांश ईमेल उपयोगकर्ता अक्सर स्पैम ईमेल में वियाग्रा शब्द का सामना करेंगे, लेकिन इसे अन्य ईमेल में शायद ही कभी देखेंगे। फ़िल्टर इन संभावनाओं को पहले से नहीं जानता है, और उसे पहले प्रशिक्षित किया जाना चाहिए ताकि वह उन्हें बना सके। फ़िल्टर को प्रशिक्षित करने के लिए, उपयोगकर्ता को मैन्युअल रूप से इंगित करना होगा कि नया ईमेल स्पैम है या नहीं। प्रत्येक प्रशिक्षण ईमेल में सभी शब्दों के लिए, फ़िल्टर उन संभावनाओं को समायोजित करेगा कि प्रत्येक शब्द अपने डेटाबेस में स्पैम या वैध ईमेल में दिखाई देगा। उदाहरण के लिए, बायेसियन स्पैम फ़िल्टर ने आमतौर पर वियाग्रा और पुनर्वित्त शब्दों के लिए बहुत अधिक स्पैम संभावना सीखी होगी, लेकिन केवल वैध ईमेल में देखे जाने वाले शब्दों, जैसे दोस्तों और परिवार के सदस्यों के नाम, के लिए बहुत कम स्पैम संभावना होगी।

प्रशिक्षण के बाद, संभाव्यता शब्द (संभावना फ़ंक्शन के रूप में भी जाना जाता है) का उपयोग इस संभावना की गणना करने के लिए किया जाता है कि शब्दों के विशेष सेट वाला ईमेल किसी भी श्रेणी से संबंधित है। ईमेल का प्रत्येक शब्द ईमेल की स्पैम संभावना में योगदान देता है, या केवल सबसे दिलचस्प शब्द। इस योगदान को पश्च संभाव्यता कहा जाता है और इसकी गणना बेयस प्रमेय का उपयोग करके की जाती है। फिर, ईमेल की स्पैम संभावना की गणना ईमेल के सभी शब्दों पर की जाती है, और यदि कुल निश्चित सीमा (मान लीजिए 95%) से अधिक है, तो फ़िल्टर ईमेल को स्पैम के रूप में चिह्नित करेगा।

किसी भी अन्य स्पैम फ़िल्टरिंग तकनीक की तरह, स्पैम के रूप में चिह्नित ईमेल को स्वचालित रूप से जंक ईमेल फ़ोल्डर में ले जाया जा सकता है, या सीधे हटाया भी जा सकता है। कुछ सॉफ़्टवेयर संगरोध तंत्र लागू करते हैं जो समय सीमा परिभाषित करते हैं जिसके दौरान उपयोगकर्ता को सॉफ़्टवेयर के निर्णय की समीक्षा करने की अनुमति होती है।

प्रारंभिक प्रशिक्षण को आमतौर पर तब परिष्कृत किया जा सकता है जब सॉफ़्टवेयर से गलत निर्णय (झूठी सकारात्मक या झूठी नकारात्मक) की पहचान की जाती है। यह सॉफ़्टवेयर को स्पैम की लगातार विकसित होने वाली प्रकृति के लिए गतिशील रूप से अनुकूलित करने की अनुमति देता है।

कुछ स्पैम फ़िल्टर बायेसियन स्पैम फ़िल्टरिंग और अन्य मेटाह्यूरिस्टिक (सामग्री के बारे में पूर्व-निर्धारित नियम, संदेश के लिफाफे को देखना, आदि) दोनों के परिणामों को जोड़ते हैं, जिसके परिणामस्वरूप फ़िल्टरिंग सटीकता और भी अधिक हो जाती है, कभी-कभी अनुकूलन की कीमत पर।

गणितीय आधार
बायेसियन ईमेल फ़िल्टर बेयस प्रमेय का उपयोग करते हैं। बेयस प्रमेय का प्रयोग स्पैम के संदर्भ में कई बार किया जाता है:
 * पहली बार, इस संभावना की गणना करने के लिए कि संदेश स्पैम है, यह जानते हुए कि इस संदेश में दिया गया शब्द दिखाई देता है;
 * दूसरी बार, इसके सभी शब्दों (या उनके प्रासंगिक उपसमूह) को ध्यान में रखते हुए, संदेश के स्पैम होने की संभावना की गणना करने के लिए;
 * कभी-कभी तीसरी बार, दुर्लभ शब्दों से निपटने के लिए।

संभावना की गणना करना कि किसी दिए गए शब्द वाला संदेश स्पैम है
मान लीजिए कि संदिग्ध संदेश में प्रतिकृति शब्द शामिल है। अधिकांश लोग जो ई-मेल प्राप्त करने के आदी हैं, वे जानते हैं कि यह संदेश स्पैम होने की संभावना है, अधिक सटीक रूप से प्रसिद्ध ब्रांडों की घड़ियों की नकली प्रतियां बेचने का प्रस्ताव है। हालाँकि, स्पैम का पता लगाने वाला सॉफ़्टवेयर ऐसे तथ्यों को नहीं जानता है; यह केवल संभावनाओं की गणना कर सकता है।

इसे निर्धारित करने के लिए सॉफ़्टवेयर द्वारा उपयोग किया जाने वाला सूत्र बेयस प्रमेय से लिया गया है


 * $$\Pr(S|W) = \frac{\Pr(W|S) \cdot \Pr(S)}{\Pr(W|S) \cdot \Pr(S) + \Pr(W|H) \cdot \Pr(H)}$$

कहाँ:


 * $$\Pr(S|W)$$ यह संभावना है कि कोई संदेश स्पैम है, यह जानते हुए कि उसमें प्रतिकृति शब्द है;
 * $$\Pr(S)$$ यह समग्र संभावना है कि कोई भी संदेश स्पैम है;
 * $$\Pr(W|S)$$ क्या संभावना है कि प्रतिकृति शब्द स्पैम संदेशों में दिखाई देता है;
 * $$\Pr(H)$$ यह समग्र संभावना है कि कोई भी संदेश स्पैम नहीं है (हैम है);
 * $$\Pr(W|H)$$ यह संभावना है कि प्रतिकृति शब्द हैम संदेशों में दिखाई देता है।

(पूर्ण प्रदर्शन के लिए, बेयस प्रमेय#विस्तारित रूप देखें।)

किसी शब्द की अनचाहापन
आंकड़े दिखाएँ कि किसी भी संदेश के स्पैम होने की वर्तमान संभावना कम से कम 80% है:
 * $$ \Pr(S) = 0.8 ; \Pr(H) = 0.2$$

हालाँकि, अधिकांश बायेसियन स्पैम डिटेक्शन सॉफ़्टवेयर यह धारणा बनाते हैं कि किसी भी आने वाले संदेश के हैम के बजाय स्पैम होने का कोई प्राथमिक कारण नहीं है, और दोनों मामलों में 50% की समान संभावनाएँ मानते हैं:


 * $$ \Pr(S) = 0.5 ; \Pr(H) = 0.5$$

इस परिकल्पना का उपयोग करने वाले फ़िल्टर को पक्षपाती नहीं कहा जाता है, जिसका अर्थ है कि उन्हें आने वाले ईमेल के संबंध में कोई पूर्वाग्रह नहीं है। यह धारणा सामान्य सूत्र को सरल बनाने की अनुमति देती है:


 * $$\Pr(S|W) = \frac{\Pr(W|S)}{\Pr(W|S) + \Pr(W|H)}$$

यह कार्यात्मक रूप से यह पूछने के बराबर है कि स्पैम संदेशों में प्रतिकृति शब्द की कितनी प्रतिशत घटनाएँ दिखाई देती हैं?

इस मात्रा को प्रतिकृति शब्द की स्पैमसिटी (या स्पैमनेस) कहा जाता है, और इसकी गणना की जा सकती है। जो नंबर $$\Pr(W|S)$$ इस सूत्र में उपयोग किए गए संदेशों को सीखने के चरण के दौरान स्पैम के रूप में पहचाने गए संदेशों में प्रतिकृति वाले संदेशों की आवृत्ति का अनुमान लगाया गया है। इसी प्रकार, $$\Pr(W|H)$$ सीखने के चरण के दौरान हैम के रूप में पहचाने गए संदेशों में प्रतिकृति वाले संदेशों की आवृत्ति का अनुमान लगाया गया है। इन अनुमानों को समझने के लिए, सीखे गए संदेशों का सेट बड़ा और पर्याप्त प्रतिनिधि होना आवश्यक है। यह भी सलाह दी जाती है कि संदेशों का सीखा हुआ सेट स्पैम और हैम के बीच पुनर्विभाजन के बारे में 50% परिकल्पना के अनुरूप हो, यानी कि स्पैम और हैम के डेटासेट ही आकार के हों। बेशक, प्रतिकृति शब्द की उपस्थिति के आधार पर यह निर्धारित करना कि कोई संदेश स्पैम है या हैम, त्रुटि-प्रवण है, यही कारण है कि बायेसियन स्पैम सॉफ़्टवेयर किसी संदेश के स्पैम होने की समग्र संभावना निर्धारित करने के लिए कई शब्दों पर विचार करने और उनकी स्पैमिसिटी को संयोजित करने का प्रयास करता है।

व्यक्तिगत संभावनाओं का संयोजन
अधिकांश बायेसियन स्पैम फ़िल्टरिंग एल्गोरिदम उन फ़ार्मुलों पर आधारित होते हैं जो केवल तभी मान्य होते हैं (संभाव्य दृष्टिकोण से) यदि संदेश में मौजूद शब्द सांख्यिकीय स्वतंत्रता हैं। यह स्थिति आम तौर पर संतुष्ट नहीं होती है (उदाहरण के लिए, अंग्रेजी जैसी प्राकृतिक भाषाओं में विशेषण खोजने की संभावना संज्ञा होने की संभावना से प्रभावित होती है), लेकिन यह उपयोगी आदर्शीकरण है, खासकर जब से व्यक्तिगत शब्दों के बीच सांख्यिकीय सहसंबंध आमतौर पर नहीं होते हैं ज्ञात। इस आधार पर, बेयस प्रमेय से निम्नलिखित सूत्र प्राप्त किया जा सकता है:


 * $$p = \frac{p_1 p_2 \cdots p_N}{p_1 p_2 \cdots p_N + (1 - p_1)(1 - p_2) \cdots (1 - p_N)}$$

कहाँ:
 * $$p$$ क्या संभावना है कि संदिग्ध संदेश स्पैम है;
 * $$p_1$$ संभावना है $$p(W_1|S)$$ पहला शब्द (उदाहरण के लिए प्रतिकृति) प्रकट होता है, यह देखते हुए कि संदेश स्पैम है;
 * $$p_2$$ संभावना है $$p(W_2|S)$$ दूसरा शब्द (उदाहरण के लिए देखता है) प्रकट होता है, यह देखते हुए कि संदेश स्पैम है;
 * वगैरह...

इस फ़ॉर्मूले पर आधारित स्पैम फ़िल्टरिंग सॉफ़्टवेयर को कभी-कभी नैवे बेयस क्लासिफायरियर के रूप में संदर्भित किया जाता है, क्योंकि नैवे सुविधाओं के बीच मजबूत सांख्यिकीय स्वतंत्रता धारणाओं को संदर्भित करता है। परिणाम पी की तुलना आम तौर पर यह तय करने के लिए दी गई सीमा से की जाती है कि संदेश स्पैम है या नहीं। यदि पी सीमा से कम है, तो संदेश को संभावित हैम माना जाता है, अन्यथा इसे संभावित स्पैम माना जाता है।

व्यक्तिगत संभावनाओं के संयोजन के लिए सूत्र की अन्य अभिव्यक्ति
आमतौर पर अंकगणितीय अंडरफ्लो|फ्लोटिंग-पॉइंट अंडरफ्लो के कारण उपरोक्त सूत्र का उपयोग करके पी की सीधे गणना नहीं की जाती है। इसके बजाय, मूल समीकरण को निम्नानुसार पुनः लिखकर लॉग डोमेन में पी की गणना की जा सकती है:


 * $$ \frac{1}{p} - 1 = \frac{(1-p_1)(1-p_2)\dots(1-p_N)}{p_1 p_2 \dots p_N} $$

दोनों तरफ से लॉग लेना:


 * $$ \ln \left ( \frac{1}{p} - 1  \right ) = \sum_{i=1}^N \left[ \ln(1-p_i) - \ln p_i \right]$$

होने देना $$\eta = \sum_{i=1}^N \left[ \ln(1-p_i) -\ln p_i \right] $$. इसलिए,


 * $$ \frac{1}{p} - 1 = e^\eta $$

इसलिए संयुक्त संभाव्यता की गणना के लिए वैकल्पिक सूत्र:


 * $$ p = \frac{1}{1 + e^\eta} $$

दुर्लभ शब्दों से निपटना
यदि कोई शब्द सीखने के चरण के दौरान कभी नहीं मिला है, तो सामान्य सूत्र और स्पैमिसिटी सूत्र दोनों में अंश और हर दोनों शून्य के बराबर हैं। सॉफ़्टवेयर ऐसे शब्दों को हटाने का निर्णय ले सकता है जिनके बारे में कोई जानकारी उपलब्ध नहीं है।

आम तौर पर, सीखने के चरण के दौरान केवल कुछ ही बार सामने आए शब्द समस्या का कारण बनते हैं, क्योंकि उनके द्वारा प्रदान की गई जानकारी पर आँख बंद करके भरोसा करना गलती होगी। सरल उपाय यह है कि ऐसे अविश्वसनीय शब्दों को भी ध्यान में न रखा जाए।

बेयस प्रमेय को फिर से लागू करना, और किसी दिए गए शब्द (प्रतिकृति) वाले ईमेल के स्पैम और हैम के बीच वर्गीकरण को बीटा वितरण के साथ यादृच्छिक चर मानते हुए, कुछ प्रोग्राम सही संभावना का उपयोग करने का निर्णय लेते हैं:


 * $$\Pr'(S|W) = \frac{s \cdot \Pr(S) + n \cdot \Pr(S|W)}{s + n }$$

कहाँ:
 * $$\Pr'(S|W)$$ संदेश के स्पैम होने की सही संभावना है, यह जानते हुए कि इसमें दिया गया शब्द है;
 * $$s$$ यह वह ताकत है जो हम आने वाले स्पैम के बारे में पृष्ठभूमि जानकारी को देते हैं;
 * $$\Pr(S)$$ किसी भी आने वाले संदेश के स्पैम होने की संभावना है;
 * $$n$$ सीखने के चरण के दौरान इस शब्द के आने की संख्या है;
 * $$\Pr(S|W)$$ इस शब्द की स्पैमसिटी है.

(प्रदर्शन: )

संयोजन सूत्र में स्पैमिसिटी के स्थान पर इस संशोधित संभाव्यता का उपयोग किया जाता है।

$$\Pr(S)$$ आने वाली ईमेल के बारे में अत्यधिक संदेह से बचने के लिए, इसे फिर से 0.5 के बराबर लिया जा सकता है। 3, s के लिए अच्छा मान है, जिसका अर्थ है कि सीखे गए कॉर्पस में डिफ़ॉल्ट मान की तुलना में स्पैमिसिटी मान पर अधिक विश्वास रखने के लिए उस शब्द के साथ 3 से अधिक संदेश होने चाहिए।.

इस सूत्र को उस स्थिति तक बढ़ाया जा सकता है जहां n शून्य के बराबर है (और जहां स्पैमिसिटी परिभाषित नहीं है), और इस मामले में मूल्यांकन करता है $$Pr(S)$$.

अन्य अनुमान
तटस्थ शब्द जैसे, a , some , या is (अंग्रेजी में), या अन्य भाषाओं में उनके समकक्षों को नजरअंदाज किया जा सकता है। इन्हें शब्द बंद करो के नाम से भी जाना जाता है। अधिक आम तौर पर, कुछ बायेसियन फ़िल्टरिंग फ़िल्टर उन सभी शब्दों को अनदेखा कर देते हैं जिनकी स्पैमिसिटी 0.5 के आगे होती है, क्योंकि वे अच्छे निर्णय में बहुत कम योगदान देते हैं। विचार किए गए शब्द वे हैं जिनकी स्पैमसिटी 0.0 (वैध संदेशों के विशिष्ट संकेत) के बगल में है, या 1.0 (स्पैम के विशिष्ट संकेत) के बगल में है। उदाहरण के लिए विधि यह हो सकती है कि जांचे गए संदेश में केवल उन्हीं दस शब्दों को रखा जाए, जिनका निरपेक्ष मान सबसे बड़ा हो |0.5 − pI|

कुछ सॉफ़्टवेयर उत्पाद इस तथ्य को ध्यान में रखते हैं कि जांचे गए संदेश में दिया गया शब्द कई बार दिखाई देता है, अन्य नहीं.

कुछ सॉफ़्टवेयर उत्पाद अलग-अलग प्राकृतिक भाषाओं के शब्दों के बजाय पैटर्न (शब्दों के अनुक्रम) का उपयोग करते हैं। उदाहरण के लिए, चार शब्दों की संदर्भ विंडो के साथ, वे वियाग्रा की स्पैमिसिटी की गणना करते हैं, इसके लिए अच्छा है, वियाग्रा की स्पैमिसिटी की गणना करने के बजाय, है, अच्छा है, और के लिए है। यह विधि संदर्भ के प्रति अधिक संवेदनशीलता देती है और बड़े डेटाबेस की कीमत पर बायेसियन शोर को बेहतर ढंग से समाप्त करती है।

मिश्रित विधियाँ
सरल दृष्टिकोण का उपयोग करने के अलावा अलग-अलग शब्दों के लिए व्यक्तिगत संभावनाओं को संयोजित करने के अन्य तरीके भी हैं। ये विधियां इनपुट डेटा के सांख्यिकीय गुणों पर बनाई गई धारणाओं से भिन्न होती हैं। इन विभिन्न परिकल्पनाओं के परिणामस्वरूप व्यक्तिगत संभावनाओं के संयोजन के लिए मौलिक रूप से भिन्न सूत्र बनते हैं।

उदाहरण के लिए, यह मानते हुए कि व्यक्तिगत संभावनाएँ 2N डिग्री की स्वतंत्रता के साथ ची-वर्ग वितरण का पालन करती हैं, कोई सूत्र का उपयोग कर सकता है:


 * $$p = C^{-1}(-2 \ln(p_1 p_2 \cdots p_N), 2N) \, $$

जहां सी−1 व्युत्क्रम-ची-वर्ग वितरण|ची-वर्ग फलन का व्युत्क्रम है।

व्यक्तिगत संभावनाओं को मार्कोवियन भेदभाव की तकनीकों के साथ भी जोड़ा जा सकता है।

फायदे
मुख्य फायदों में से एक{{citation needed|date=May 2013}बायेसियन स्पैम फ़िल्टरिंग की विशेषता यह है कि इसे प्रति-उपयोगकर्ता के आधार पर प्रशिक्षित किया जा सकता है।

उपयोगकर्ता को प्राप्त होने वाला स्पैम अक्सर ऑनलाइन उपयोगकर्ता की गतिविधियों से संबंधित होता है। उदाहरण के लिए, हो सकता है कि किसी उपयोगकर्ता ने किसी ऑनलाइन न्यूज़लेटर की सदस्यता ली हो जिसे उपयोगकर्ता स्पैम मानता हो। इस ऑनलाइन न्यूज़लेटर में ऐसे शब्द शामिल होने की संभावना है जो सभी न्यूज़लेटर्स में आम हैं, जैसे न्यूज़लेटर का नाम और इसका मूल ईमेल पता। बायेसियन स्पैम फ़िल्टर अंततः उपयोगकर्ता के विशिष्ट पैटर्न के आधार पर उच्च संभावना प्रदान करेगा।

उपयोगकर्ता को प्राप्त वैध ई-मेल अलग-अलग होंगे। उदाहरण के लिए, कॉर्पोरेट वातावरण में, कंपनी का नाम और ग्राहकों या ग्राहकों के नाम का अक्सर उल्लेख किया जाएगा। फ़िल्टर उन नामों वाले ईमेल को कम स्पैम संभावना प्रदान करेगा।

संभाव्यता शब्द प्रत्येक उपयोगकर्ता के लिए अद्वितीय है और जब भी फ़िल्टर किसी ईमेल को गलत तरीके से वर्गीकृत करता है तो सुधारात्मक प्रशिक्षण के साथ समय के साथ विकसित हो सकता है। परिणामस्वरूप, प्रशिक्षण के बाद बायेसियन स्पैम फ़िल्टरिंग सटीकता अक्सर पूर्व-निर्धारित नियमों से बेहतर होती है।

यह झूठी सकारात्मकताओं से बचने में विशेष रूप से अच्छा प्रदर्शन कर सकता है, जहां वैध ईमेल को गलत तरीके से स्पैम के रूप में वर्गीकृत किया गया है। उदाहरण के लिए, यदि ईमेल में नाइजीरिया शब्द शामिल है, जिसका उपयोग अक्सर एडवांस शुल्क धोखाधड़ी स्पैम में किया जाता है, तो पूर्व-परिभाषित नियम फ़िल्टर इसे पूरी तरह से अस्वीकार कर सकता है। बायेसियन फ़िल्टर नाइजीरिया शब्द को संभावित स्पैम शब्द के रूप में चिह्नित करेगा, लेकिन अन्य महत्वपूर्ण शब्दों को ध्यान में रखेगा जो आमतौर पर वैध ई-मेल का संकेत देते हैं। उदाहरण के लिए, जीवनसाथी का नाम दृढ़ता से संकेत दे सकता है कि ई-मेल स्पैम नहीं है, जो नाइजीरिया शब्द के उपयोग पर काबू पा सकता है।

नुकसान
कार्यान्वयन के आधार पर, बायेसियन स्पैम फ़िल्टरिंग बायेसियन विषाक्तता के प्रति संवेदनशील हो सकती है, स्पैमर्स द्वारा बायेसियन फ़िल्टरिंग पर निर्भर स्पैम फ़िल्टर की प्रभावशीलता को कम करने के प्रयास में उपयोग की जाने वाली तकनीक। बायेसियन विषाक्तता का अभ्यास करने वाला स्पैमर बड़ी मात्रा में वैध पाठ (वैध समाचार या साहित्यिक स्रोतों से एकत्रित) के साथ ईमेल भेजेगा। ईमेल स्पैम रणनीति में बेतरतीब अहानिकर शब्दों का सम्मिलन शामिल है जो आम तौर पर स्पैम से जुड़े नहीं होते हैं, जिससे ईमेल का स्पैम स्कोर कम हो जाता है, जिससे बायेसियन स्पैम फ़िल्टर से आगे निकल जाने की संभावना बढ़ जाती है। हालाँकि, (उदाहरण के लिए) पॉल ग्राहम की योजना में केवल सबसे महत्वपूर्ण संभावनाओं का उपयोग किया जाता है, ताकि पाठ को गैर-स्पैम-संबंधित शब्दों के साथ भरने से पता लगाने की संभावना महत्वपूर्ण रूप से प्रभावित न हो।

जो शब्द आम तौर पर स्पैम में बड़ी मात्रा में दिखाई देते हैं, उन्हें स्पैमर द्वारा रूपांतरित भी किया जा सकता है। उदाहरण के लिए, स्पैम संदेश में "वियाग्रा" को "वियाग्रा" या "वी!आग्रा" से बदल दिया जाएगा। संदेश का प्राप्तकर्ता अभी भी बदले हुए शब्दों को पढ़ सकता है, लेकिन इनमें से प्रत्येक शब्द बायेसियन फ़िल्टर से बहुत कम मिलता है, जो इसकी सीखने की प्रक्रिया में बाधा डालता है। सामान्य नियम के रूप में, यह स्पैमिंग तकनीक बहुत अच्छी तरह से काम नहीं करती है, क्योंकि व्युत्पन्न शब्द सामान्य शब्दों की तरह ही फ़िल्टर द्वारा पहचाने जाते हैं। बायेसियन स्पैम फ़िल्टर को हराने के लिए इस्तेमाल की जाने वाली अन्य तकनीक टेक्स्ट को सीधे शामिल या लिंक किए गए चित्रों से बदलना है। संदेश का पूरा पाठ, या उसका कुछ भाग, चित्र से बदल दिया जाता है जहाँ वही पाठ खींचा जाता है। स्पैम फ़िल्टर आमतौर पर इस तस्वीर का विश्लेषण करने में असमर्थ है, जिसमें «वियाग्रा» जैसे संवेदनशील शब्द होंगे। हालाँकि, चूंकि कई मेल क्लाइंट सुरक्षा कारणों से लिंक की गई तस्वीरों के प्रदर्शन को अक्षम कर देते हैं, इसलिए दूर की तस्वीरों के लिंक भेजने वाला स्पैमर कम लक्ष्यों तक पहुंच सकता है। साथ ही, बाइट्स में चित्र का आकार समतुल्य पाठ के आकार से बड़ा होता है, इसलिए स्पैमर को चित्रों सहित सीधे संदेश भेजने के लिए अधिक बैंडविड्थ की आवश्यकता होती है। कुछ फ़िल्टर यह तय करने में अधिक इच्छुक होते हैं कि कोई संदेश स्पैम है यदि उसमें अधिकतर ग्राफ़िकल सामग्री है। Google द्वारा अपने जीमेल लगीं ईमेल सिस्टम में उपयोग किया जाने वाला समाधान प्रत्येक मध्य से बड़े आकार की छवि पर ऑप्टिकल कैरेक्टर मान्यता|ओसीआर (ऑप्टिकल कैरेक्टर रिकग्निशन) निष्पादित करना है, जिसमें अंदर के टेक्स्ट का विश्लेषण किया जाता है।

बायेसियन फ़िल्टरिंग के सामान्य अनुप्रयोग
जबकि बायेसियन फ़िल्टरिंग का उपयोग स्पैम ईमेल की पहचान करने के लिए व्यापक रूप से किया जाता है, तकनीक लगभग किसी भी प्रकार के डेटा को वर्गीकृत (या क्लस्टर) कर सकती है। इसका विज्ञान, चिकित्सा और इंजीनियरिंग में उपयोग होता है। उदाहरण सामान्य प्रयोजन वर्गीकरण कार्यक्रम है जिसे AutoClass कहा जाता है, जिसका उपयोग मूल रूप से वर्णक्रमीय विशेषताओं के अनुसार सितारों को वर्गीकृत करने के लिए किया जाता था जो अन्यथा थे नोटिस करने के लिए बहुत सूक्ष्म.

<रेफरी नाम= एंड्राउट्सोपोलोस; स्पैम फ़िल्टर करना सीखना >

यह भी देखें

 * स्पैम विरोधी तकनीकें
 * बायेसियन विषाक्तता
 * ईमेल फ़िल्टरिंग
 * मार्कोवियन भेदभाव
 * बेयस फिल्टर के मूल कार्यान्वयन के साथ मोज़िला थंडरबर्ड मेल क्लाइंट