नाइव बेयस स्पैम फ़िल्टरिंग

नाइव बेयस क्लासिफायर ई-मेल फ़िल्टरिंग की लोकप्रिय सांख्यिकी वैज्ञानिक तकनीक है। वे सामान्यतः ईमेल स्पैम की पहचान करने के लिए बैग-ऑफ-वर्ड्स मॉडल या बैग-ऑफ-वर्ड्स सुविधाओं का उपयोग करते हैं, जो सामान्यतः दस्तावेज़ वर्गीकरण में उपयोग किया जाता है।

नाइव बेयस क्लासिफायरियर स्पैम और गैर-स्पैम ई-मेल के साथ टोकन (सामान्यतः शब्द, या कभी-कभी अन्य चीजें) के उपयोग को सहसंबंधित करके कार्य करते हैं और फिर ईमेल के स्पैम होने या न होने की संभावना की गणना करने के लिए बेयस प्रमेय का उपयोग करते हैं।

नाइव बेयस स्पैम फ़िल्टरिंग स्पैम से निपटने के लिए आधारभूत तकनीक है जो व्यक्तिगत उपयोगकर्ताओं की ईमेल आवश्यकताओं के अनुरूप हो सकती है और कम लाई धनात्मक स्पैम पहचान दर दे सकती है जो सामान्यतः उपयोगकर्ताओं के लिए स्वीकार्य होती है। यह स्पैम फ़िल्टरिंग करने के सबसे पुराने विधियों में से है, जिसकी जड़ें 1990 के दशक में थीं।

इतिहास
बायेसियन एल्गोरिदम का उपयोग 1996 की प्रारंभ में ईमेल फ़िल्टरिंग के लिए किया गया था। चूँकि बाद में बायेसियन फ़िल्टर लोकप्रिय नहीं हुए, किन्तु अवांछित ईमेल की बढ़ती समस्या का समाधान करने के लिए 1998 में कई प्रोग्राम जारी किए गए थे। बायेसियन स्पैम फ़िल्टरिंग पर पहला विद्वतापूर्ण प्रकाशन सहामी एट अल द्वारा किया गया था। 1998 में इसके तुरंत बाद उस कार्य को वाणिज्यिक स्पैम फ़िल्टर में तैनात कर दिया गया था।

मूलभूत तकनीक के वेरिएंट को कई प्रयोग कार्यों और वाणिज्यिक कंप्यूटर सॉफ्टवेयर उत्पादों में प्रयुक्त किया गया है। कई आधुनिक मेल क्लाइंट (कंप्यूटिंग) बायेसियन स्पैम फ़िल्टरिंग प्रयुक्त करते हैं। उपयोगकर्ता अलग ई-मेल फ़िल्टरिंग भी स्थापित कर सकते हैं। सर्वर साइड ईमेल फ़िल्टर, जैसे डीएसपीएएम, अपसंदेश, स्पैमबेयस, बोगो फ़िल्टर और एंटी-स्पैम एसएमटीपी प्रॉक्सी, बायेसियन स्पैम फ़िल्टरिंग तकनीकों का उपयोग करते हैं, और कार्यक्षमता कभी-कभी डाक सर्वर सॉफ़्टवेयर के भीतर ही एम्बेडेड होती है। सीआरएम114 (प्रोग्राम), जिसे अधिकांशतः बायेसियन फ़िल्टर के रूप में उद्धृत किया जाता है, जिसका उद्देश्य उत्पादन में बेयस फ़िल्टर का उपयोग करना नहीं है, किन्तु इसमें संदर्भ के लिए ″यूनिग्राम″ सुविधा सम्मिलित है। ==प्रक्रिया                                                                                                                                                                                                                                      == विशेष शब्दों के स्पैम ईमेल और वैध ईमेल में होने की विशेष संभावना होती है। उदाहरण के लिए, अधिकांश ईमेल उपयोगकर्ता अधिकांशतः स्पैम ईमेल में वियाग्रा शब्द का सामना करते है, किन्तु इसे अन्य ईमेल में संभवतः ही कभी देखते है। फ़िल्टर इन संभावनाओं को पहले से नहीं जानता है, और उसे पहले प्रशिक्षित किया जाना चाहिए जिससे वह उन्हें बना सके। फ़िल्टर को प्रशिक्षित करने के लिए, उपयोगकर्ता को मैन्युअल रूप से इंगित करना होगा कि नया ईमेल स्पैम है या नहीं प्रत्येक प्रशिक्षण ईमेल में सभी शब्दों के लिए, फ़िल्टर उन संभावनाओं को समायोजित करेगा कि प्रत्येक शब्द अपने डेटाबेस में स्पैम या वैध ईमेल में दिखाई देगा। उदाहरण के लिए, बायेसियन स्पैम फ़िल्टर ने सामान्यतः वियाग्रा और पुनर्वित्त शब्दों के लिए बहुत अधिक स्पैम संभावना सीखी होगी, किन्तु केवल वैध ईमेल में देखे जाने वाले शब्दों, जैसे दोस्तों और वर्ग के सदस्यों के नाम, के लिए बहुत कम स्पैम संभावना होती है।

प्रशिक्षण के बाद, संभाव्यता शब्द (संभावना फ़ंक्शन के रूप में भी जाना जाता है) का उपयोग इस संभावना की गणना करने के लिए किया जाता है कि शब्दों के विशेष सेट वाला ईमेल किसी भी श्रेणी से संबंधित है। ईमेल का प्रत्येक शब्द ईमेल की स्पैम संभावना में योगदान देता है, या केवल सबसे रोचक शब्द इस योगदान को पश्च संभाव्यता कहा जाता है और इसकी गणना बेयस प्रमेय का उपयोग करके की जाती है। फिर, ईमेल की स्पैम संभावना की गणना ईमेल के सभी शब्दों पर की जाती है, और यदि कुल निश्चित सीमा (मान लीजिए 95%) से अधिक है, जिससे फ़िल्टर ईमेल को स्पैम के रूप में चिह्नित करता है।

किसी भी अन्य स्पैम फ़िल्टरिंग तकनीक की तरह, स्पैम के रूप में चिह्नित ईमेल को स्वचालित रूप से जंक ईमेल फ़ोल्डर में ले जाया जा सकता है, या सीधे हटाया भी जा सकता है। कुछ सॉफ़्टवेयर संगरोध तंत्र प्रयुक्त करते हैं जो समय सीमा परिभाषित करते हैं जिसके समय उपयोगकर्ता को सॉफ़्टवेयर के निर्णय की समीक्षा करने की अनुमति होती है।

प्रारंभिक प्रशिक्षण को सामान्यतः तब परिष्कृत किया जा सकता है जब सॉफ़्टवेयर से गलत निर्णय (लाई धनात्मक या लाई ऋणात्मक) की पहचान की जाती है। यह सॉफ़्टवेयर को स्पैम की निरंतर विकसित होने वाली प्रकृति के लिए गतिशील रूप से अनुकूलित करने की अनुमति देता है।

कुछ स्पैम फ़िल्टर बायेसियन स्पैम फ़िल्टरिंग और अन्य मेटाह्यूरिस्टिक (पदार्थ के बारे में पूर्व-निर्धारित नियम, संदेश के लिफाफे को देखना, आदि) दोनों के परिणामों को जोड़ते हैं, जिसके परिणामस्वरूप फ़िल्टरिंग स्पष्टता और भी अधिक हो जाती है, कभी-कभी अनुकूलन की मूल्य पर उपयोग की जाती है।

गणितीय आधार
बायेसियन ईमेल फ़िल्टर बेयस प्रमेय का उपयोग करते हैं। बेयस प्रमेय का प्रयोग स्पैम के संदर्भ में कई बार किया जाता है:
 * पहली बार, इस संभावना की गणना करने के लिए कि संदेश स्पैम है, यह जानते हुए कि इस संदेश में दिया गया शब्द दिखाई देता है;
 * दूसरी बार, इसके सभी शब्दों (या उनके प्रासंगिक उपसमूह) को ध्यान में रखते हुए, संदेश के स्पैम होने की संभावना की गणना करने के लिए;
 * कभी-कभी तीसरी बार, दुर्लभ शब्दों से निपटने के लिए उपयोग किया जाता है।

संभावना की गणना करना कि किसी दिए गए शब्द वाला संदेश स्पैम है
मान लीजिए कि संदिग्ध संदेश में प्रतिकृति शब्द सम्मिलित है। अधिकांश लोग जो ई-मेल प्राप्त करने के आदी हैं, वे जानते हैं कि यह संदेश स्पैम होने की संभावना है, अधिक स्पष्ट रूप से प्रसिद्ध ब्रांडों की घड़ियों की नकली प्रतियां बेचने का प्रस्ताव है। चूँकि, स्पैम का पता लगाने वाला सॉफ़्टवेयर ऐसे तथ्यों को नहीं जानता है; यह केवल संभावनाओं की गणना कर सकता है।

इसे निर्धारित करने के लिए सॉफ़्टवेयर द्वारा उपयोग किया जाने वाला सूत्र बेयस प्रमेय से लिया गया है


 * $$\Pr(S|W) = \frac{\Pr(W|S) \cdot \Pr(S)}{\Pr(W|S) \cdot \Pr(S) + \Pr(W|H) \cdot \Pr(H)}$$

जहाँ:


 * $$\Pr(S|W)$$ यह संभावना है कि कोई संदेश स्पैम है, यह जानते हुए कि उसमें प्रतिकृति शब्द है;
 * $$\Pr(S)$$ यह समग्र संभावना है कि कोई भी संदेश स्पैम है;
 * $$\Pr(W|S)$$ क्या संभावना है कि प्रतिकृति शब्द स्पैम संदेशों में दिखाई देता है;
 * $$\Pr(H)$$ यह समग्र संभावना है कि कोई भी संदेश स्पैम नहीं है ;
 * $$\Pr(W|H)$$ यह संभावना है कि प्रतिकृति शब्द हैम संदेशों में दिखाई देता है।

(पूर्ण प्रदर्शन के लिए, बेयस प्रमेय विस्तारित रूप देखें।)

किसी शब्द की स्पैमपन
आंकड़े दिखाएँ कि किसी भी संदेश के स्पैम होने की वर्तमान संभावना कम से कम 80% है:
 * $$ \Pr(S) = 0.8 ; \Pr(H) = 0.2$$

चूँकि, अधिकांश बायेसियन स्पैम डिटेक्शन सॉफ़्टवेयर यह धारणा बनाते हैं कि किसी भी आने वाले संदेश के हैम के अतिरिक्त स्पैम होने का कोई प्राथमिक कारण नहीं है, और दोनों स्थितियों में 50% की समान संभावनाएँ मानते हैं:


 * $$ \Pr(S) = 0.5 ; \Pr(H) = 0.5$$

इस परिकल्पना का उपयोग करने वाले फ़िल्टर को पक्षपाती नहीं कहा जाता है, जिसका अर्थ है कि उन्हें आने वाले ईमेल के संबंध में कोई पूर्वाग्रह नहीं है। यह धारणा सामान्य सूत्र को सरल बनाने की अनुमति देती है:


 * $$\Pr(S|W) = \frac{\Pr(W|S)}{\Pr(W|S) + \Pr(W|H)}$$

यह कार्यात्मक रूप से यह पूछने के समान है कि स्पैम संदेशों में प्रतिकृति शब्द की कितनी प्रतिशत घटनाएँ दिखाई देती हैं?

इस मात्रा को प्रतिकृति शब्द की स्पैमसिटी (या स्पैमनेस) कहा जाता है, और इसकी गणना की जा सकती है। जो नंबर $$\Pr(W|S)$$ इस सूत्र में उपयोग किए गए संदेशों को सीखने के चरण के समय स्पैम के रूप में पहचाने गए संदेशों में प्रतिकृति वाले संदेशों की आवृत्ति का अनुमान लगाया गया है। इसी प्रकार, $$\Pr(W|H)$$ सीखने के चरण के समय हैम के रूप में पहचाने गए संदेशों में प्रतिकृति वाले संदेशों की आवृत्ति का अनुमान लगाया गया है। इन अनुमानों को समझने के लिए, सीखे गए संदेशों का सेट बड़ा और पर्याप्त प्रतिनिधि होना आवश्यक है। यह भी सलाह दी जाती है कि संदेशों का सीखा हुआ सेट स्पैम और हैम के बीच पुनर्विभाजन के बारे में 50% परिकल्पना के अनुरूप हो, अर्थात कि स्पैम और हैम के डेटासेट ही आकार के होंते है।

निसंदेह, प्रतिकृति शब्द की उपस्थिति के आधार पर यह निर्धारित करना कि कोई संदेश स्पैम है या हैम, त्रुटि-प्रवण है, यही कारण है कि बायेसियन स्पैम सॉफ़्टवेयर किसी संदेश के स्पैम होने की समग्र संभावना निर्धारित करने के लिए कई शब्दों पर विचार करने और उनकी स्पैमिसिटी को संयोजित करने का प्रयास करता है।

===व्यक्तिगत संभावनाओं का संयोजन                                                                                                                                                                                                          === अधिकांश बायेसियन स्पैम फ़िल्टरिंग एल्गोरिदम उन सूत्रों पर आधारित होते हैं जो केवल तभी मान्य होते हैं (संभाव्य दृष्टिकोण से) यदि संदेश में उपस्थित शब्द सांख्यिकीय स्वतंत्रता हैं। यह स्थिति सामान्यतः संतुष्ट नहीं होती है (उदाहरण के लिए, अंग्रेजी जैसी प्राकृतिक भाषाओं में विशेषण खोजने की संभावना संज्ञा होने की संभावना से प्रभावित होती है), किन्तु यह उपयोगी आदर्शीकरण है, जब से व्यक्तिगत शब्दों के बीच सांख्यिकीय सहसंबंध सामान्यतः नहीं होते हैं ज्ञात इस आधार पर, बेयस प्रमेय से निम्नलिखित सूत्र प्राप्त किया जा सकता है:


 * $$p = \frac{p_1 p_2 \cdots p_N}{p_1 p_2 \cdots p_N + (1 - p_1)(1 - p_2) \cdots (1 - p_N)}$$

जहाँ:
 * $$p$$ क्या संभावना है कि संदिग्ध संदेश स्पैम है;
 * $$p_1$$ संभावना है $$p(W_1|S)$$ पहला शब्द (उदाहरण के लिए प्रतिकृति) प्रकट होता है, यह देखते हुए कि संदेश स्पैम है;
 * $$p_2$$ संभावना है $$p(W_2|S)$$ दूसरा शब्द (उदाहरण के लिए देखता है) प्रकट होता है, यह देखते हुए कि संदेश स्पैम है;

इस सूत्र पर आधारित स्पैम फ़िल्टरिंग सॉफ़्टवेयर को कभी-कभी नैवे बेयस क्लासिफायरियर के रूप में संदर्भित किया जाता है, क्योंकि नैवे सुविधाओं के बीच सशक्त सांख्यिकीय स्वतंत्रता धारणाओं को संदर्भित करता है। परिणाम p की तुलना सामान्यतः यह तय करने के लिए दी गई सीमा से की जाती है कि संदेश स्पैम है या नहीं है। यदि p सीमा से कम है, तो संदेश को संभावित हैम माना जाता है, अन्यथा इसे संभावित स्पैम माना जाता है।

===व्यक्तिगत संभावनाओं के संयोजन के लिए सूत्र की अन्य अभिव्यक्ति                                                                                                                                                                === सामान्यतः अंकगणितीय अंडरफ्लो या फ्लोटिंग-पॉइंट अंडरफ्लो के कारण उपरोक्त सूत्र का उपयोग करके p की सीधे गणना नहीं की जाती है। इसके अतिरिक्त, मूल समीकरण को निम्नानुसार पुनः लिखकर लॉग डोमेन में p की गणना की जा सकती है:


 * $$ \frac{1}{p} - 1 = \frac{(1-p_1)(1-p_2)\dots(1-p_N)}{p_1 p_2 \dots p_N} $$

दोनों तरफ से लॉग लेना:


 * $$ \ln \left ( \frac{1}{p} - 1  \right ) = \sum_{i=1}^N \left[ \ln(1-p_i) - \ln p_i \right]$$

होने देना $$\eta = \sum_{i=1}^N \left[ \ln(1-p_i) -\ln p_i \right] $$. इसलिए,


 * $$ \frac{1}{p} - 1 = e^\eta $$

इसलिए संयुक्त संभाव्यता की गणना के लिए वैकल्पिक सूत्र:


 * $$ p = \frac{1}{1 + e^\eta} $$

===दुर्लभ शब्दों से निपटना                                                                                                                                                                                                                            === यदि कोई शब्द सीखने के चरण के समय कभी नहीं मिला है, जिससे सामान्य सूत्र और स्पैमिसिटी सूत्र दोनों में अंश और हर दोनों शून्य के समान हैं। सॉफ़्टवेयर ऐसे शब्दों को हटाने का निर्णय ले सकता है जिनके बारे में कोई जानकारी उपलब्ध नहीं है।

सामान्यतः, सीखने के चरण के समय केवल कुछ ही बार सामने आए शब्द समस्या का कारण बनते हैं, क्योंकि उनके द्वारा प्रदान की गई जानकारी पर आँख बंद करके विश्वास करना गलती होता है। सरल उपाय यह है कि ऐसे अविश्वसनीय शब्दों को भी ध्यान में न रखा जाता है।

बेयस प्रमेय को फिर से प्रयुक्त करना, और किसी दिए गए शब्द (प्रतिकृति) वाले ईमेल के स्पैम और हैम के बीच वर्गीकरण को बीटा वितरण के साथ यादृच्छिक चर मानते हुए, कुछ प्रोग्राम सही संभावना का उपयोग करने का निर्णय लेते हैं:


 * $$\Pr'(S|W) = \frac{s \cdot \Pr(S) + n \cdot \Pr(S|W)}{s + n }$$

जहाँ:
 * $$\Pr'(S|W)$$ संदेश के स्पैम होने की सही संभावना है, यह जानते हुए कि इसमें दिया गया शब्द है;
 * $$s$$ यह वह ताकत है जो हम आने वाले स्पैम के बारे में पृष्ठभूमि जानकारी को देते हैं;
 * $$\Pr(S)$$ किसी भी आने वाले संदेश के स्पैम होने की संभावना है;
 * $$n$$ सीखने के चरण के समय इस शब्द के आने की संख्या है;
 * $$\Pr(S|W)$$ इस शब्द की स्पैमसिटी है.

(प्रदर्शन: )

संयोजन सूत्र में स्पैमिसिटी के स्थान पर इस संशोधित संभाव्यता का उपयोग किया जाता है।

$$\Pr(S)$$ आने वाली ईमेल के बारे में अत्यधिक संदेह से बचने के लिए, इसे फिर से 0.5 के समान लिया जा सकता है। 3, s के लिए अच्छा मान है, जिसका अर्थ है कि सीखे गए कॉर्पस में डिफ़ॉल्ट मान की तुलना में स्पैमिसिटी मान पर अधिक विश्वास रखने के लिए उस शब्द के साथ 3 से अधिक संदेश होने चाहिए।.

इस सूत्र को उस स्थिति तक बढ़ाया जा सकता है जहां n शून्य के समान है (और जहां स्पैमिसिटी परिभाषित नहीं है), और इस स्थिति में मूल्यांकन $$Pr(S)$$ करता है.

अन्य अनुमान
तटस्थ शब्द जैसे, a , some , या is (अंग्रेजी में), या अन्य भाषाओं में उनके समकक्षों को नजरअंदाज किया जा सकता है। इन्हें शब्द के नाम से भी जाना जाता है। अधिक सामान्यतः, कुछ बायेसियन फ़िल्टरिंग फ़िल्टर उन सभी शब्दों को अनदेखा कर देते हैं जिनकी स्पैमिसिटी 0.5 के आगे होती है, क्योंकि वे अच्छे निर्णय में बहुत कम योगदान देते हैं। विचार किए गए शब्द वे हैं जिनकी स्पैमसिटी 0.0 (वैध संदेशों के विशिष्ट संकेत) के बगल में है, या 1.0 (स्पैम के विशिष्ट संकेत) के बगल में है। उदाहरण के लिए विधि यह हो सकती है कि जांचे गए संदेश में केवल उन्हीं दस शब्दों को रखा जाए, जिनका निरपेक्ष मान सबसे बड़ा हो |0.5 − pI| जाते है

कुछ सॉफ़्टवेयर उत्पाद इस तथ्य को ध्यान में रखते हैं कि जांचे गए संदेश में दिया गया शब्द कई बार दिखाई देता है,.

कुछ सॉफ़्टवेयर उत्पाद अलग-अलग प्राकृतिक भाषाओं के शब्दों के अतिरिक्त पैटर्न (शब्दों के अनुक्रम) का उपयोग करते हैं। उदाहरण के लिए, चार शब्दों की संदर्भ विंडो के साथ, वे वियाग्रा की स्पैमिसिटी की गणना करते हैं, इसके लिए अच्छा है, वियाग्रा की स्पैमिसिटी की गणना करने के अतिरिक्त, है, यह विधि संदर्भ के प्रति अधिक संवेदनशीलता देती है और बड़े डेटाबेस की मूल्य पर बायेसियन ध्वनि को उत्तम विधि से समाप्त करती है।

मिश्रित विधियाँ
सरल दृष्टिकोण का उपयोग करने के अतिरिक्त अलग-अलग शब्दों के लिए व्यक्तिगत संभावनाओं को संयोजित करने के अन्य विधि भी हैं। ये विधियां इनपुट डेटा के सांख्यिकीय गुणों पर बनाई गई धारणाओं से भिन्न होती हैं। इन विभिन्न परिकल्पनाओं के परिणामस्वरूप व्यक्तिगत संभावनाओं के संयोजन के लिए मौलिक रूप से भिन्न सूत्र बनते हैं।

उदाहरण के लिए, यह मानते हुए कि व्यक्तिगत संभावनाएँ 2N डिग्री की स्वतंत्रता के साथ ची-वर्ग वितरण का पालन करती हैं, कोई सूत्र का उपयोग कर सकता है:


 * $$p = C^{-1}(-2 \ln(p_1 p_2 \cdots p_N), 2N) \, $$

जहां c−1 व्युत्क्रम-ची-वर्ग वितरण या ची-वर्ग फलन का व्युत्क्रम है।

व्यक्तिगत संभावनाओं को मार्कोवियन की तकनीकों के साथ भी जोड़ा जा सकता है।

==चर्चा                                                                                                                                                                                                                            ==

लाभ
मुख्य लाभों में से एक बायेसियन स्पैम फ़िल्टरिंग की विशेषता यह है कि इसे प्रति-उपयोगकर्ता के आधार पर प्रशिक्षित किया जा सकता है।

उपयोगकर्ता को प्राप्त होने वाला स्पैम अधिकांशतः ऑनलाइन उपयोगकर्ता की गतिविधियों से संबंधित होता है। उदाहरण के लिए, हो सकता है कि किसी उपयोगकर्ता ने किसी ऑनलाइन न्यूज़लेटर की सदस्यता ली हो जिसे उपयोगकर्ता स्पैम मानता होता है। इस ऑनलाइन न्यूज़लेटर में ऐसे शब्द सम्मिलित होने की संभावना है जो सभी न्यूज़लेटर्स में समान हैं, जैसे न्यूज़लेटर का नाम और इसका मूल ईमेल पता बायेसियन स्पैम फ़िल्टर अंततः उपयोगकर्ता के विशिष्ट पैटर्न के आधार पर उच्च संभावना प्रदान करता है।

उपयोगकर्ता को प्राप्त वैध ई-मेल अलग-अलग होते है। उदाहरण के लिए, कॉर्पोरेट वातावरण में, कंपनी का नाम और ग्राहकों या ग्राहकों के नाम का अधिकांशतः उल्लेख किया जाता है। फ़िल्टर उन नामों वाले ईमेल को कम स्पैम संभावना प्रदान करता है।

संभाव्यता शब्द प्रत्येक उपयोगकर्ता के लिए अद्वितीय है और जब भी फ़िल्टर किसी ईमेल को गलत विधि से वर्गीकृत करता है तो धनात्मक प्रशिक्षण के साथ समय के साथ विकसित हो सकता है। परिणामस्वरूप, प्रशिक्षण के बाद बायेसियन स्पैम फ़िल्टरिंग स्पष्टता अधिकांशतः पूर्व-निर्धारित नियमों से उत्तम होती है।

यह लाई सकारात्मकताओं से बचने में विशेष रूप से अच्छा प्रदर्शन कर सकता है, जहां वैध ईमेल को गलत विधि से स्पैम के रूप में वर्गीकृत किया गया है। उदाहरण के लिए, यदि ईमेल में शब्द सम्मिलित है, जिसका उपयोग अधिकांशतः एडवांस शुल्क धोखाधड़ी स्पैम में किया जाता है, तो पूर्व-परिभाषित नियम फ़िल्टर इसे पूरी तरह से अस्वीकार कर सकता है। बायेसियन फ़िल्टर नाइजीरिया शब्द को संभावित स्पैम शब्द के रूप में चिह्नित करेगा, किन्तु अन्य महत्वपूर्ण शब्दों को ध्यान में रखेगा जो सामान्यतः वैध ई-मेल का संकेत देते हैं। उदाहरण के लिए, जीवनसाथी का नाम दृढ़ता से संकेत दे सकता है कि ई-मेल स्पैम नहीं है, जो शब्द के उपयोग पर प्राप्त कर सकता है।

हानियाँ
कार्यान्वयन के आधार पर, बायेसियन स्पैम फ़िल्टरिंग बायेसियन विषाक्तता के प्रति संवेदनशील हो सकती है, स्पैमर्स द्वारा बायेसियन फ़िल्टरिंग पर निर्भर स्पैम फ़िल्टर की प्रभावशीलता को कम करने के प्रयास में उपयोग की जाने वाली तकनीक बायेसियन विषाक्तता का अभ्यास करने वाला स्पैमर बड़ी मात्रा में वैध टेक्स्ट (वैध समाचार या साहित्यिक स्रोतों से एकत्रित) के साथ ईमेल भेजता है। ईमेल स्पैम रणनीति में बेतरतीब अहानिकर शब्दों का सम्मिलन सम्मिलित है जो सामान्यतः स्पैम से जुड़े नहीं होते हैं, जिससे ईमेल का स्पैम स्कोर कम हो जाता है, जिससे बायेसियन स्पैम फ़िल्टर से आगे निकल जाने की संभावना बढ़ जाती है। चूँकि, (उदाहरण के लिए) पॉल ग्राहम की योजना में केवल सबसे महत्वपूर्ण संभावनाओं का उपयोग किया जाता है, जिससे टेक्स्ट को गैर-स्पैम-संबंधित शब्दों के साथ भरने से पता लगाने की संभावना महत्वपूर्ण रूप से प्रभावित नही होता है।

जो शब्द सामान्यतः स्पैम में बड़ी मात्रा में दिखाई देते हैं, उन्हें स्पैमर द्वारा रूपांतरित भी किया जा सकता है। उदाहरण के लिए, स्पैम संदेश में "वी!आग्रा" से बदल दिया जाता है। संदेश का प्राप्तकर्ता अभी भी बदले हुए शब्दों को पढ़ सकता है, किन्तु इनमें से प्रत्येक शब्द बायेसियन फ़िल्टर से बहुत कम मिलता है, जो इसकी सीखने की प्रक्रिया में बाधा डालता है। सामान्य नियम के रूप में, यह स्पैमिंग तकनीक बहुत अच्छी तरह से कार्य नहीं करती है, क्योंकि व्युत्पन्न शब्द सामान्य शब्दों की तरह ही फ़िल्टर द्वारा पहचाने जाते हैं।

बायेसियन स्पैम फ़िल्टर को हराने के लिए उपयोग की जाने वाली अन्य तकनीक टेक्स्ट को सीधे सम्मिलित या लिंक किए गए चित्रों से बदलना है। संदेश का पूरा टेक्स्ट, या उसका कुछ भाग, चित्र से बदल दिया जाता है जहाँ वही टेक्स्ट खींचा जाता है। स्पैम फ़िल्टर सामान्यतः इस तस्वीर का विश्लेषण करने में असमर्थ है, जिसमें «वियाग्रा» जैसे संवेदनशील शब्द होते है। चूँकि कई मेल क्लाइंट सुरक्षा कारणों से लिंक की गई इमेज्स के प्रदर्शन को अक्षम कर देते हैं, इसलिए दूर की इमेज्स के लिंक भेजने वाला स्पैमर कम लक्ष्यों तक पहुंच सकता है। साथ ही, बाइट्स में चित्र का आकार समतुल्य टेक्स्ट के आकार से बड़ा होता है, इसलिए स्पैमर को चित्रों सहित सीधे संदेश भेजने के लिए अधिक बैंडविड्थ की आवश्यकता होती है। कुछ फ़िल्टर यह तय करने में अधिक इच्छुक होते हैं कि कोई संदेश स्पैम है यदि उसमें अधिकतर ग्राफ़िकल पदार्थ है। गूगल द्वारा अपने जीमेल लगीं ईमेल सिस्टम में उपयोग किया जाने वाला समाधान प्रत्येक मध्य से बड़े आकार की छवि पर ऑप्टिकल कैरेक्टर मान्यता या ओसीआर (ऑप्टिकल कैरेक्टर रिकग्निशन) निष्पादित करना है, जिसमें अंदर के टेक्स्ट का विश्लेषण किया जाता है। ==बायेसियन फ़िल्टरिंग के सामान्य अनुप्रयोग                                                                                                                                                                                 == जबकि बायेसियन फ़िल्टरिंग का उपयोग स्पैम ईमेल की पहचान करने के लिए व्यापक रूप से किया जाता है, तकनीक लगभग किसी भी प्रकार के डेटा को वर्गीकृत (या क्लस्टर) कर सकती है। इसका विज्ञान, चिकित्सा और इंजीनियरिंग में उपयोग होता है। उदाहरण सामान्य प्रयोजन वर्गीकरण प्रोग्राम है जिसे ऑटोक्लास कहा जाता है, जिसका उपयोग मूल रूप से वर्णक्रमीय विशेषताओं के अनुसार सितारों को वर्गीकृत करने के लिए किया जाता था जो अन्यथा थे नोटिस करने के लिए बहुत सूक्ष्म का उपयोग किया जाता है।

यह भी देखें

 * स्पैम विरोधी तकनीक
 * बायेसियन विषाक्तता
 * ईमेल फ़िल्टरिंग
 * मार्कोवियन विभेदन
 * बेयस फिल्टर के मूल कार्यान्वयन के साथ मोज़िला थंडरबर्ड मेल क्लाइंट