रैखिक वर्गीकारक

यंत्र अधिगम के क्षेत्र में, सांख्यिकीय वर्गीकरण का लक्ष्य किसी वस्तु की विशेषताओं का उपयोग करके यह पहचानना है कि वह किस वर्ग (या समूह) से संबंधित है। एक रैखिक वर्गीकरणकर्ता विशेषताओं के रैखिक संयोजन के मूल्य के आधार पर वर्गीकरण निर्णय लेकर इसे प्राप्त करता है। किसी वस्तु की विशेषताओं को फीचर्स (पैटर्न पहचान) के रूप में भी जाना जाता है और आमतौर पर मशीन को एक वेक्टर में प्रस्तुत किया जाता है जिसे  फ़ीचर वेक्टर  कहा जाता है। ऐसे क्लासिफायर दस्तावेज़ वर्गीकरण जैसी व्यावहारिक समस्याओं के लिए और आम तौर पर कई चर (फीचर वेक्टर) वाली समस्याओं के लिए अच्छी तरह से काम करते हैं, जो प्रशिक्षण और उपयोग में कम समय लेते हुए गैर-रेखीय क्लासिफायर की तुलना में सटीकता के स्तर तक पहुंचते हैं।

परिभाषा
यदि क्लासिफायरियर में इनपुट फीचर वेक्टर एक वास्तविक संख्या वेक्टर है $$\vec x$$, तो आउटपुट स्कोर है


 * $$y = f(\vec{w}\cdot\vec{x}) = f\left(\sum_j w_j x_j\right),$$

कहाँ $$\vec w $$ वज़न का एक वास्तविक वेक्टर है और f एक फ़ंक्शन है जो दो वैक्टरों के डॉट उत्पाद को वांछित आउटपुट में परिवर्तित करता है। (दूसरे शब्दों में, $$\vec{w}$$ एक-रूप या रैखिक कार्यात्मक मानचित्रण है $$\vec x$$ आर पर) वजन वेक्टर $$\vec w$$ लेबल किए गए प्रशिक्षण नमूनों के एक सेट से सीखा जाता है। अक्सर f एक 'थ्रेसहोल्ड फ़ंक्शन' होता है, जो सभी मानों को मैप करता है $$\vec{w}\cdot\vec{x}$$ एक निश्चित सीमा से ऊपर प्रथम श्रेणी के लिए और अन्य सभी मान द्वितीय श्रेणी के लिए; जैसे,



f(\mathbf{x}) = \begin{cases}1 & \text{if }\ \mathbf{w}^T \cdot \mathbf{x} > \theta,\\0 & \text{otherwise}\end{cases} $$ सुपरस्क्रिप्ट टी ट्रांसपोज़ और को इंगित करता है $$ \theta $$ एक अदिश सीमा है. अधिक जटिल f यह संभावना दे सकता है कि कोई वस्तु एक निश्चित वर्ग से संबंधित है।

दो-वर्ग वर्गीकरण समस्या के लिए, कोई एक हाइपरप्लेन के साथ उच्च-आयामी अंतरिक्ष | उच्च-आयामी इनपुट स्थान को विभाजित करने के रूप में एक रैखिक क्लासिफायरियर के संचालन की कल्पना कर सकता है: हाइपरप्लेन के एक तरफ के सभी बिंदुओं को हां के रूप में वर्गीकृत किया गया है, जबकि अन्य को नहीं के रूप में वर्गीकृत किया गया है।

एक रैखिक क्लासिफायर का उपयोग अक्सर उन स्थितियों में किया जाता है जहां वर्गीकरण की गति एक मुद्दा है, क्योंकि यह अक्सर सबसे तेज़ क्लासिफायर होता है, खासकर जब $$\vec x$$ विरल है. इसके अलावा, आयामों की संख्या होने पर रैखिक क्लासिफायर अक्सर बहुत अच्छी तरह से काम करते हैं $$\vec x$$ दस्तावेज़ वर्गीकरण की तरह, बड़ा है, जहां प्रत्येक तत्व $$\vec x$$ आमतौर पर किसी दस्तावेज़ में किसी शब्द के आने की संख्या होती है (दस्तावेज़-टर्म मैट्रिक्स देखें)। ऐसे मामलों में, क्लासिफायर को अच्छी तरह से नियमितीकरण (मशीन लर्निंग) होना चाहिए।

जनरेटिव मॉडल बनाम भेदभावपूर्ण मॉडल
रैखिक क्लासिफायरियर के मापदंडों को निर्धारित करने के लिए तरीकों के दो व्यापक वर्ग हैं $$\vec w$$. वे जनरेटिव मॉडल और भेदभावपूर्ण मॉडल  मॉडल हो सकते हैं।  पहले मॉडल के संयुक्त संभाव्यता वितरण के तरीके, जबकि बाद वाले मॉडल के तरीके सशर्त संभाव्यता वितरण $$P({\rm class}|\vec x)$$. ऐसे एल्गोरिदम के उदाहरणों में शामिल हैं:
 * रैखिक विभेदक विश्लेषण (एलडीए) - सामान्य वितरण सशर्त घनत्व मॉडल मानता है
 * मल्टीनोमियल या मल्टीवेरिएट बर्नौली इवेंट मॉडल के साथ नाइव बेयस क्लासिफायरियर।

तरीकों के दूसरे सेट में भेदभावपूर्ण मॉडल शामिल हैं, जो प्रशिक्षण सेट पर आउटपुट की गुणवत्ता को अधिकतम करने का प्रयास करते हैं। प्रशिक्षण लागत फ़ंक्शन में अतिरिक्त शर्तें अंतिम मॉडल का नियमितीकरण (मशीन लर्निंग) आसानी से कर सकती हैं। रैखिक वर्गीकरणकर्ताओं के भेदभावपूर्ण प्रशिक्षण के उदाहरणों में शामिल हैं: समर्थन वेक्टर यंत्र का समर्थन करें - एक एल्गोरिदम जो निर्णय हाइपरप्लेन और प्रशिक्षण सेट में उदाहरणों के बीच मार्जिन (मशीन लर्निंग) को अधिकतम करता है।
 * संभार तन्त्र परावर्तन -अधिकतम संभावना अनुमान $$\vec w$$ यह मानते हुए कि मनाया गया प्रशिक्षण सेट एक द्विपद मॉडल द्वारा उत्पन्न किया गया था जो क्लासिफायरियर के आउटपुट पर निर्भर करता है।
 * परसेप्ट्रॉन-एक एल्गोरिदम जो प्रशिक्षण सेट में आने वाली सभी त्रुटियों को ठीक करने का प्रयास करता है
 * फिशर का रैखिक विभेदक विश्लेषण - एक एल्गोरिथ्म (एलडीए से अलग) जो किसी भी अन्य धारणा के बिना, वर्ग के बीच बिखराव और वर्ग के भीतर बिखराव के अनुपात को अधिकतम करता है। यह संक्षेप में बाइनरी वर्गीकरण के लिए आयामीता में कमी की एक विधि है।

नोट: अपने नाम के बावजूद, एलडीए इस वर्गीकरण में भेदभावपूर्ण मॉडल के वर्ग से संबंधित नहीं है। हालाँकि, इसका नाम तब समझ में आता है जब हम एलडीए की तुलना अन्य मुख्य रैखिक आयामी कमी एल्गोरिथ्म से करते हैं: प्रमुख घटक विश्लेषण (पीसीए)। एलडीए एक पर्यवेक्षित शिक्षण एल्गोरिदम है जो डेटा के लेबल का उपयोग करता है, जबकि पीसीए एक असुरक्षित शिक्षण एल्गोरिदम है जो लेबलों को अनदेखा करता है। संक्षेप में कहें तो नाम एक ऐतिहासिक कलाकृति है।

भेदभावपूर्ण प्रशिक्षण अक्सर सशर्त घनत्व कार्यों के मॉडलिंग की तुलना में अधिक सटीकता प्रदान करता है. हालाँकि, सशर्त घनत्व मॉडल के साथ लापता डेटा को संभालना अक्सर आसान होता है.

ऊपर सूचीबद्ध सभी लीनियर क्लासिफायर एल्गोरिदम को एक अलग इनपुट स्पेस पर काम करने वाले गैर-रेखीय एल्गोरिदम में परिवर्तित किया जा सकता है $$\varphi(\vec x)$$, कर्नेल चाल का उपयोग करके।

भेदभावपूर्ण प्रशिक्षण
रैखिक क्लासिफायर का भेदभावपूर्ण प्रशिक्षण आमतौर पर एक अनुकूलन एल्गोरिदम के माध्यम से पर्यवेक्षित शिक्षण तरीके से आगे बढ़ता है, जिसे वांछित आउटपुट और एक हानि फ़ंक्शन के साथ एक प्रशिक्षण सेट दिया जाता है जो क्लासिफायर के आउटपुट और वांछित आउटपुट के बीच विसंगति को मापता है। इस प्रकार, सीखने का एल्गोरिदम फॉर्म की अनुकूलन समस्या को हल करता है
 * $$\underset{\mathbf{w}}{\arg\min} \;R(\mathbf{w}) + C \sum_{i=1}^N L(y_i, \mathbf{w}^\mathsf{T} \mathbf{x}_i)$$

कहाँ


 * $w$ क्लासिफायर पैरामीटर्स का एक वेक्टर है,
 * $L(y_{i}, w^{T}x_{i})$ एक हानि फ़ंक्शन है जो क्लासिफायरियर की भविष्यवाणी और वास्तविक आउटपुट के बीच विसंगति को मापता है $y_{i}$ के लिए $i$'वां प्रशिक्षण उदाहरण,
 * $R(w)$ एक नियमितीकरण (गणित) फ़ंक्शन है जो पैरामीटर को बहुत बड़ा होने (ओवरफिटिंग का कारण बनने) से रोकता है, और
 * $C$ एक अदिश स्थिरांक है (सीखने के एल्गोरिदम के उपयोगकर्ता द्वारा निर्धारित) जो नियमितीकरण और हानि फ़ंक्शन के बीच संतुलन को नियंत्रित करता है।

लोकप्रिय हानि कार्यों में काज हानि (रैखिक एसवीएम के लिए) और लॉग हानि (रैखिक लॉजिस्टिक रिग्रेशन के लिए) शामिल हैं। यदि नियमितीकरण कार्य $R$ उत्तल फ़ंक्शन है, तो उपरोक्त एक उत्तल अनुकूलन है। ऐसी समस्याओं को हल करने के लिए कई एल्गोरिदम मौजूद हैं; रैखिक वर्गीकरण के लिए लोकप्रिय तरीकों में (स्टोकेस्टिक ढतला हुआ वंश ) ग्रेडिएंट डिसेंट, एल-बीएफजीएस, समन्वय वंश और न्यूटन विधियां शामिल हैं।

यह भी देखें

 * पश्चप्रचार
 * रेखीय प्रतिगमन
 * परसेप्ट्रॉन
 * द्विघात वर्गीकारक
 * समर्थन वेक्टर मशीन
 * विनो (एल्गोरिदम)

अग्रिम पठन

 * 1) Y. Yang, X. Liu, "A re-examination of text categorization", Proc. ACM SIGIR Conference, pp. 42–49, (1999). paper @ citeseer
 * 2) R. Herbrich, "Learning Kernel Classifiers: Theory and Algorithms," MIT Press, (2001). ISBN 0-262-08306-X