रैखिक विभेदक विश्लेषण

अव्यक्त डिरिचलेट आवंटन के साथ भ्रमित न हों।

रेखीय विवेचक विश्लेषण (एलडीए) सामान्य विभेदक विश्लेषण (एनडीए) या विवेचक कार्य विश्लेषण फिशर के रेखीय विवेचक का एक सामान्यीकरण है, जो सांख्यिकी और अन्य क्षेत्रों में उपयोग की जाने वाली एक विधि है, जो दो या दो से अधिक वर्गों को चिह्नित या भिन्न करने वाली विशेषताओं का एक रैखिक संयोजन खोजने के लिए किया जाता है। वस्तुओं या घटनाओं का परिणामस्वरूप संयोजन का प्रयोग रेखीय वर्गीकारक के रूप में किया जा सकता है, या बाद में सांख्यिकीय वर्गीकरण से पहले आयामीता में कमी के लिए अधिक सामान्यतः के रूप में  किया जा सकता है।

एलडीए विचरण (एनोवा) और प्रतिगमन विश्लेषण निकटता से संबंधित है, जो एक आश्रित चर के रूप में होता है, जो कि अन्य विशेषताओं या मापों के रैखिक संयोजन के रूप में व्यक्त करने का प्रयास करता है।  हालाँकि, एनोवा श्रेणीबद्ध चर स्वतंत्र चर और एक सतत चर आश्रित चर के रूप में  उपयोग करता है, जबकि विवेचक विश्लेषण में निरंतर स्वतंत्र चर होता है और एक श्रेणीबद्ध आश्रित चर अर्थात वर्ग लेबल के रूप में होता है। लॉजिस्टिक प्रतिगमन और प्रोबिट प्रतिगमन एनोवा की तुलना में एलडीए से अधिक मिलते-जुलते हैं, क्योंकि ये निरंतर स्वतंत्र चर के मूल्यों द्वारा एक श्रेणीगत चर की व्याख्या भी करते हैं। ये अन्य विधि उन अनुप्रयोगों में उत्तम हैं, जहां यह मान लेना उचित नहीं है, कि स्वतंत्र चर सामान्य रूप से वितरित किए जाते हैं, जो एलडीए पद्धति की एक मौलिक धारणा है।

एलडीए प्रमुख कंपोनेंट विश्लेषण (पीसीए) और  कारक विश्लेषण से भी निकटता से संबंधित है, जिसमें वे दोनों वेरिएबल्स के रैखिक संयोजनों की तलाश करते हैं, जो डेटा को सर्वोत्तम रूप से समझाते हैं।। एलडीए स्पष्ट रूप से डेटा की कक्षाओं के बीच अंतर को नमूना करने का प्रयास करता है। पीसीए, इसके विपरीत, वर्ग में किसी भी अंतर को ध्यान में नहीं रखता है, और कारक विश्लेषण समानता के अतिरिक्त अंतर के आधार पर फीचर संयोजन बनाता है। विभेदक विश्लेषण भी कारक विश्लेषण से भिन्न है क्योंकि यह एक अन्योन्याश्रित तकनीक नहीं है: स्वतंत्र चर और निर्भर चर (जिसे कसौटी चर भी कहा जाता है) के बीच एक अंतर बनाया जाना चाहिए।

एलडीए काम करता है जब प्रत्येक अवलोकन के लिए स्वतंत्र चर पर किए गए माप निरंतर मात्रा होते हैं। स्पष्ट स्वतंत्र चर के साथ व्यवहार करते समय, समतुल्य तकनीक विवेकशील पत्राचार विश्लेषण है। भेदभावपूर्ण विश्लेषण का उपयोग तब किया जाता है जब समूहों को प्राथमिकता (क्लस्टर विश्लेषण के विपरीत) जाना जाता है। प्रत्येक मामले में एक या अधिक मात्रात्मक भविष्यवक्ता माध्यमों पर एक अंक और एक समूह माप पर एक अंक होना चाहिए। सरल शब्दों में, विभेदक कार्य विश्लेषण वर्गीकरण है - चीजों को समूहों, वर्गों या समान प्रकार की श्रेणियों में वितरित करने का कार्य।

इतिहास
1936 में सर रोनाल्ड फिशर द्वारा मूल द्विभाजन विभेदक विश्लेषण विकसित किया गया था। यह एक एनोवा या परिवर्तन  से भिन्न है, जिसका उपयोग एक या एक से अधिक स्वतंत्र श्रेणीबद्ध चर द्वारा एक (एनोवा) या एकाधिक (मैनोवा) निरंतर आश्रित चर की भविष्यवाणी करने के लिए किया जाता है। भेदभावपूर्ण कार्य विश्लेषण यह निर्धारित करने में उपयोगी है कि श्रेणी सदस्यता की भविष्यवाणी करने में चर का एक सेट प्रभावी है या नहीं।

दो वर्गों के लिए एलडीए
टिप्पणियों के एक सेट पर विचार करें $$ { \vec x } $$ ज्ञात वर्ग के साथ किसी वस्तु या घटना के प्रत्येक नमूने के लिए (जिसे विशेषताएं, विशेषताएँ, चर या माप भी कहा जाता है)। $$y$$. नमूनों के इस सेट को प्रशिक्षण सेट  कहा जाता है। वर्गीकरण समस्या तब वर्ग के लिए एक अच्छा भविष्यवक्ता खोजने की है $$y$$ एक ही वितरण के किसी भी नमूने का (आवश्यक नहीं कि प्रशिक्षण सेट से) मात्र एक अवलोकन दिया गया हो $$ \vec x $$.

एलडीए सशर्त संभाव्यता घनत्व कार्यों को मानकर समस्या का समाधान करता है $$p(\vec x|y=0)$$ और $$p(\vec x|y=1)$$ माध्य और सहप्रसरण मापदंडों के साथ दोनों बहुभिन्नरूपी सामान्य वितरण हैं $$\left(\vec \mu_0, \Sigma_0\right)$$ और $$\left(\vec \mu_1, \Sigma_1\right)$$, क्रमश। इस धारणा के अनुसार, बेयस वर्गीकारक | बेयस-इष्टतम समाधान अंक को दूसरी श्रेणी से होने की भविष्यवाणी करना है यदि संभावना अनुपात का लॉग कुछ थ्रेशोल्ड टी से बड़ा है, जिससे की:


 * $$ (\vec x- \vec \mu_0)^\mathrm{T} \Sigma_0^{-1} ( \vec x- \vec \mu_0) + \ln|\Sigma_0| - (\vec x- \vec \mu_1)^\mathrm{T} \Sigma_1^{-1} ( \vec x- \vec \mu_1) - \ln|\Sigma_1| \ > \ T $$

किसी और धारणा के बिना, परिणामी वर्गीकारक को द्विघात वर्गीकारक (QDA) के रूप में संदर्भित किया जाता है।

एलडीए इसके अतिरिक्त अतिरिक्त सरलीकृत समरूपता धारणा बनाता है (अर्थात कि वर्ग सहप्रसरण समान हैं, इसलिए $$\Sigma_0 = \Sigma_1 = \Sigma$$) और यह कि सहप्रसरण की पूरी रैंक है। इस मामले में, कई शर्तें रद्द:


 * $$ {\vec x}^\mathrm{T} \Sigma_0^{-1} \vec x = {\vec x}^\mathrm{T} \Sigma_1^{-1} \vec x$$
 * $${\vec x}^\mathrm{T} {\Sigma_i}^{-1} \vec{\mu}_i = {\vec{\mu}_i}^\mathrm{T}{\Sigma_i}^{-1} \vec x$$ क्योंकि $$\Sigma_i$$ हर्मिटियन मैट्रिक्स है

और उपरोक्त निर्णय मानदंड डॉट उत्पाद पर दहलीज बन जाता है


 * $$ {\vec w}^\mathrm{T} \vec x > c $$

कुछ दहलीज स्थिर सी के लिए, जहां


 * $$\vec w = \Sigma^{-1} (\vec \mu_1 - \vec \mu_0)$$
 * $$ c = \frac12 \, {\vec w}^\mathrm{T} (\vec \mu_1 + \vec \mu_0)$$

इसका मतलब है कि एक इनपुट की कसौटी $$ \vec{ x }$$ एक कक्षा में होना $$y$$ विशुद्ध रूप से ज्ञात प्रेक्षणों के इस रैखिक संयोजन का फलन है।

इस निष्कर्ष को ज्यामितीय दृष्टि से देखना अधिकांशतः उपयोगी होता है: एक इनपुट की कसौटी $$ \vec{ x }$$ एक कक्षा में होना $$y$$ विशुद्ध रूप से बहुआयामी-अंतरिक्ष बिंदु के प्रक्षेपण का कार्य है $$ \vec{ x }$$ वेक्टर पर $$ \vec{ w }$$ (इस प्रकार, हम मात्र इसकी दिशा पर विचार करते हैं)। दूसरे शब्दों में, अवलोकन का है $$y$$ यदि संगत है $$ \vec{ x }$$ के लंबवत हाइपरप्लेन के एक निश्चित तरफ स्थित है $$ \vec{ w }$$. विमान का स्थान दहलीज द्वारा परिभाषित किया गया है $$c$$.

अनुमान
विवेचक विश्लेषण की धारणाएं मनोवा के समान ही हैं। विश्लेषण आउटलेयर के प्रति पर्याप्त संवेदनशील है और सबसे छोटे समूह का बनावट पूर्वसूचक चर की संख्या से बड़ा होना चाहिए।


 * बहुभिन्नरूपी सामान्य वितरण: समूहीकरण चर के प्रत्येक स्तर के लिए स्वतंत्र चर सामान्य होते हैं। *प्रसरण/सहप्रसरण की एकरूपता (समरूपता): समूह चरों के बीच भिन्नताएँ भविष्यवक्ताओं के स्तरों पर समान होती हैं। बॉक्स के एम परीक्षण के साथ परीक्षण किया जा सकता है | बॉक्स के एम आंकड़े। चूंकि, यह सुझाव दिया गया है कि सहप्रसरण समान होने पर रैखिक विभेदक विश्लेषण का उपयोग किया जाता है, और जब सहप्रसरण समान नहीं होते हैं तो द्विघात क्लासिफायर #क्वाड्रैटिक विवेचक विश्लेषण का उपयोग किया जा सकता है। *बहुसंरेखता: पूर्वसूचक चरों के बीच बढ़े हुए सहसंबंध के साथ भविष्य कहनेवाला शक्ति घट सकती है। *सांख्यिकीय स्वतंत्रता: प्रतिभागियों को यादृच्छिक नमूना माना जाता है, और एक चर पर एक प्रतिभागी का स्कोर अन्य सभी प्रतिभागियों के लिए उस चर पर स्कोर से स्वतंत्र माना जाता है।

यह सुझाव दिया गया है कि भेदभावपूर्ण विश्लेषण इन मान्यताओं के साधारण उल्लंघनों के लिए अपेक्षाकृत मजबूत है, और यह भी दिखाया गया है कि द्विबीजपत्री चर (जहां बहुभिन्नरूपी सामान्यता का अधिकांशतः उल्लंघन किया जाता है) का उपयोग करते समय विभेदक विश्लेषण अभी भी विश्वसनीय हो सकता है।

भेदभावपूर्ण कार्य
विवेकशील विश्लेषण भविष्यवक्ताओं के एक या अधिक रैखिक संयोजन बनाकर काम करता है, प्रत्येक फ़ंक्शन के लिए एक नया अव्यक्त चर बनाता है। इन कार्यों को विभेदक कार्य कहा जाता है। संभव कार्यों की संख्या या तो है $$N_g-1$$ कहाँ $$N_g$$ = समूहों की संख्या, या $$p$$ (भविष्यवाणियों की संख्या), जो भी छोटा हो। बनाया गया पहला फ़ंक्शन उस फ़ंक्शन पर समूहों के बीच अंतर को अधिकतम करता है। दूसरा फ़ंक्शन उस फ़ंक्शन पर अंतर को अधिकतम करता है, लेकिन पिछले फ़ंक्शन के साथ सहसंबद्ध भी नहीं होना चाहिए। यह बाद के कार्यों के साथ इस आवश्यकता के साथ जारी रहता है कि नया कार्य पिछले कार्यों में से किसी के साथ सहसंबद्ध न हो।

दिया गया समूह $$j$$, साथ $$\mathbb{R}_j$$ नमूना स्थान के सेट, एक भेदभावपूर्ण नियम है जैसे कि यदि $$x \in\mathbb{R}_j$$, तब $$x\in j$$. भेदभावपूर्ण विश्लेषण तब, के "भोजन" क्षेत्रों को खोजें $$\mathbb{R}_j$$ वर्गीकरण त्रुटि को कम करने के लिए, इसलिए वर्गीकरण तालिका में उच्च प्रतिशत सही वर्गीकृत करने के लिए अग्रणी। प्रत्येक फ़ंक्शन को एक विवेकशील स्कोर दिया जाता है यह निर्धारित करने के लिए कि यह समूह प्लेसमेंट की कितनी अच्छी भविष्यवाणी करता है।
 * संरचना सहसंबंध गुणांक: प्रत्येक भविष्यवक्ता और प्रत्येक कार्य के विवेचक स्कोर के बीच सहसंबंध। यह एक शून्य-क्रम सहसंबंध है (अर्थात, अन्य भविष्यवक्ताओं के लिए सही नहीं)।
 * मानकीकृत गुणांक: रैखिक संयोजन में प्रत्येक भविष्यवक्ता का वजन जो कि विभेदक कार्य है। एक प्रतिगमन समीकरण की प्रकार, ये गुणांक आंशिक हैं (अर्थात, अन्य भविष्यवक्ताओं के लिए सही)। समूह असाइनमेंट की भविष्यवाणी करने में प्रत्येक भविष्यवक्ता के अद्वितीय योगदान को इंगित करता है।
 * ग्रुप सेंट्रोइड्स पर कार्य: प्रत्येक ग्रुपिंग वेरिएबल के लिए मीन डिस्क्रिमिनेंट स्कोर प्रत्येक फलन के लिए दिए गए हैं। साधन जितने दूर होंगे, वर्गीकरण में उतनी ही कम त्रुटि होगी।

भेदभाव नियम

 * अधिकतम संभावना: असाइन करें $$x$$ उस समूह के लिए जो जनसंख्या (समूह) घनत्व को अधिकतम करता है।
 * बेयस डिस्क्रिमिनेंट रूल: असाइन करता है $$x$$ अधिकतम करने वाले समूह के लिए $$\pi_i f_i(x)$$, जहां पiउस वर्गीकरण की पूर्व संभावना का प्रतिनिधित्व करता है, और $$f_i(x)$$ जनसंख्या घनत्व का प्रतिनिधित्व करता है। *#फिशर का रेखीय विविक्तकर|फिशर का रेखीय विविक्तकर नियम: एसएस के बीच अनुपात को अधिकतम करता हैbetween और एस.एसwithin, और समूह की भविष्यवाणी करने के लिए भविष्यवक्ताओं का एक रैखिक संयोजन पाता है।

ईजेनवेल्यूज
विवेचक विश्लेषण में आइगेनवैल्यू और ईजेनवेक्टर प्रत्येक फ़ंक्शन की विशेषता जड़ हैं। यह इस बात का संकेत है कि वह कार्य समूहों को कितनी अच्छी प्रकार से भिन्न करता है, जहां ईगेनवैल्यू जितना बड़ा होता है, उतना ही उत्तम कार्य भिन्न करता है। हालाँकि, इसे सावधानी के साथ समझा जाना चाहिए, क्योंकि आइगेनवैल्यूज़ की कोई ऊपरी सीमा नहीं है। eigenvalue को SS के अनुपात के रूप में देखा जा सकता हैbetween और एस.एसwithin एनोवा के रूप में जब आश्रित चर विवेचक कार्य है, और समूह वाद्य चर के स्तर हैं. इसका मतलब यह है कि सबसे बड़ा eigenvalue पहले फ़ंक्शन के साथ जुड़ा हुआ है, दूसरा सबसे बड़ा दूसरे के साथ, आदि।

प्रभाव बनावट
कुछ सुझाव देते हैं कि प्रभाव बनावट माध्यमों के रूप में eigenvalues ​​​​का उपयोग किया जाता है, चूंकि, यह सामान्यतः समर्थित नहीं है। इसके अतिरिक्त, विहित सहसंबंध प्रभाव बनावट का पसंदीदा उपाय है। यह eigenvalue के समान है, लेकिन SS के अनुपात का वर्गमूल हैbetween और एस.एसtotal. यह समूहों और कार्यों के बीच संबंध है। प्रभाव के बनावट का एक अन्य लोकप्रिय माप प्रसरण का प्रतिशत है प्रत्येक समारोह के लिए। इसकी गणना इस प्रकार की जाती है: (λx/ क्रमi) एक्स 100 जहां λxफ़ंक्शन और Σλ के लिए eigenvalue हैiसभी eigenvalues ​​​​का योग है। यह हमें बताता है कि अन्य कार्यों की तुलना में उस विशेष कार्य के लिए भविष्यवाणी कितनी मजबूत है। सही ढंग से वर्गीकृत प्रतिशत का प्रभाव बनावट के रूप में भी विश्लेषण किया जा सकता है। कप्पा मूल्य इसका वर्णन मौका समझौते के लिए सुधार करते समय कर सकता है।

के वर्गों के लिए विहित विभेदक विश्लेषण
कैनोनिकल डिस्क्रिमिनेंट एनालिसिस (CDA) अक्षों (k − 1 कैनोनिकल निर्देशांक, k वर्गों की संख्या है) का पता लगाता है जो श्रेणियों को सबसे अच्छी प्रकार से भिन्न करता है। ये रैखिक कार्य असंबद्ध हैं और वास्तव में डेटा के एन-आयामी बादल के माध्यम से एक इष्टतम k − 1 स्थान परिभाषित करते हैं जो k समूहों (उस स्थान में अनुमानों) को सबसे अच्छी प्रकार  से भिन्न करता है। नीचे विवरण के लिए "#Multiclass LDA" देखें।

फिशर का रैखिक विवेचक
फ़िशर के रैखिक विवेचक और LDA शब्द अधिकांशतः एक दूसरे के स्थान पर उपयोग किए जाते हैं, चूंकि रोनाल्ड ए. फ़िशर|फ़िशर का मूल लेख वास्तव में थोड़ा भिन्न भेदभाव का वर्णन करता है, जो एलडीए की कुछ धारणाओं को नहीं बनाता है जैसे कि सामान्य वितरण वर्ग या समान वर्ग सहप्रसरण।

मान लीजिए कि टिप्पणियों के दो वर्गों का मतलब है $$ \vec \mu_0, \vec \mu_1 $$ और सहप्रसरण $$\Sigma_0,\Sigma_1 $$. फिर सुविधाओं का रैखिक संयोजन $$ {\vec w}^\mathrm{T} \vec x $$ साधन होंगे $$ {\vec w}^\mathrm{T} \vec \mu_i $$ और प्रसरण $$ {\vec w}^\mathrm{T} \Sigma_i \vec w $$ के लिए $$ i=0,1 $$. फिशर ने इन दो संभाव्यता वितरण के बीच भिन्नाव को वर्गों के बीच भिन्नता के वर्गों के बीच भिन्नता के अनुपात के रूप में परिभाषित किया:


 * $$S=\frac{\sigma_{\text{between}}^2}{\sigma_{\text{within}}^2}= \frac{(\vec w \cdot \vec \mu_1 - \vec w \cdot \vec \mu_0)^2}{{\vec w}^\mathrm{T} \Sigma_1 \vec w + {\vec w}^\mathrm{T} \Sigma_0 \vec w} = \frac{(\vec w \cdot (\vec \mu_1 - \vec \mu_0))^2}{{\vec w}^\mathrm{T} (\Sigma_0+\Sigma_1) \vec w} $$

यह उपाय, कुछ अर्थों में, क्लास लेबलिंग के लिए सिग्नल-टू-शोर अनुपात का एक उपाय है। यह दिखाया जा सकता है कि अधिकतम भिन्नाव कब होता है


 * $$ \vec w \propto (\Sigma_0+\Sigma_1)^{-1}(\vec \mu_1 - \vec \mu_0) $$

जब एलडीए की धारणाएं संतुष्ट होती हैं, तो उपरोक्त समीकरण एलडीए के समतुल्य होता है। ध्यान दें कि वेक्टर $$\vec w$$ विवेचक hyperplane  के लिए सतह सामान्य है। एक उदाहरण के रूप में, एक द्विविमीय समस्या में, वह रेखा जो दो समूहों को सर्वोत्तम रूप से विभाजित करती है, लम्बवत् होती है $$\vec w$$.

सामान्यतः, भेदभाव किए जाने वाले डेटा बिंदुओं पर अनुमान लगाया जाता है $$\vec w$$; फिर एक आयामी वितरण के विश्लेषण से डेटा को सबसे भिन्न करने वाली सीमा को चुना जाता है। दहलीज के लिए कोई सामान्य नियम नहीं है। हालाँकि, यदि दोनों वर्गों के बिंदुओं का अनुमान लगभग समान वितरण प्रदर्शित करता है, तो एक अच्छा विकल्प दो साधनों के अनुमानों के बीच हाइपरप्लेन होगा, $$\vec w \cdot \vec \mu_0 $$ और $$\vec w \cdot \vec \mu_1 $$. इस स्थिति में पैरामीटर c दहलीज स्थिति में है $$ \vec w \cdot \vec x > c $$ स्पष्ट रूप से पाया जा सकता है:


 * $$ c = \vec w \cdot \frac12 (\vec \mu_0 + \vec \mu_1) = \frac{1}{2} \vec\mu_1^\mathrm{T} \Sigma^{-1}_{1} \vec\mu_1 - \frac{1}{2} \vec\mu_0^\mathrm{T} \Sigma^{-1}_{0} \vec\mu_0 $$.

ओत्सु की विधि फिशर के रेखीय विवेचक से संबंधित है, और एक ग्रेस्केल छवि में पिक्सेल के हिस्टोग्राम को बिनाराइज़ करने के लिए बनाया गया था, जो काले / सफेद थ्रेसहोल्ड को इष्टतम रूप से चुनकर इंट्रा-क्लास विचरण को कम करता है और ग्रेस्केल के भीतर / बीच अंतर-वर्ग विचरण को अधिकतम करता है। सफेद पिक्सेल वर्ग।

मल्टीक्लास एलडीए
ऐसे मामले में जहां दो से अधिक वर्ग हैं, फिशर विवेचक की व्युत्पत्ति में उपयोग किए गए विश्लेषण को एक रेखीय उप-स्थान खोजने के लिए विस्तारित किया जा सकता है जो कि सभी वर्ग परिवर्तनशीलता को समाहित करता प्रतीत होता है। यह सामान्यीकरण सी. आर. राव के कारण है। मान लीजिए कि प्रत्येक C वर्ग का माध्य है $$ \mu_i $$ और वही सहप्रसरण $$ \Sigma $$. तब वर्ग परिवर्तनशीलता के बीच बिखराव को वर्ग माध्य के नमूना सहप्रसरण द्वारा परिभाषित किया जा सकता है


 * $$ \Sigma_b = \frac{1}{C} \sum_{i=1}^C (\mu_i-\mu) (\mu_i-\mu)^\mathrm{T} $$

कहाँ $$ \mu $$ वर्ग का माध्य है। एक दिशा में वर्ग जुदाई $$ \vec w $$ इस मामले में दिया जाएगा


 * $$ S = \frac{{\vec w}^\mathrm{T} \Sigma_b \vec w}{{\vec w}^\mathrm{T} \Sigma \vec w} $$

इसका मतलब है कि जब $$ \vec w $$ का आइजन्वेक्टर है $$ \Sigma^{-1} \Sigma_b $$ पृथक्करण संगत eigenvalue के समतुल्य होगा।

चूंकि $$ \Sigma^{-1} \Sigma_b $$ विकर्णीय है, सुविधाओं के बीच परिवर्तनशीलता सी − 1 सबसे बड़े ईजेनवैल्यू के अनुरूप ईजेनवेक्टरों द्वारा फैलाए गए सबस्पेस में समाहित होगी (चूंकि $$ \Sigma_b $$ अधिक से अधिक रैंक C − 1 का है)। ये ईजेनवेक्टर मुख्य रूप से पीसीए की प्रकार फीचर रिडक्शन में उपयोग किए जाते हैं। छोटे eigenvalues ​​​​के अनुरूप eigenvectors प्रशिक्षण डेटा की उपयुक्त पसंद के प्रति बहुत संवेदनशील होते हैं, और अगले खंड में वर्णित नियमितीकरण का उपयोग करना अधिकांशतः आवश्यक होता है।

यदि वर्गीकरण की आवश्यकता है, तो आयाम में कमी के अतिरिक्त, कई वैकल्पिक तकनीकें उपलब्ध हैं। उदाहरण के लिए, वर्गों को विभाजित किया जा सकता है, और प्रत्येक विभाजन को वर्गीकृत करने के लिए एक मानक फिशर डिस्क्रिमिनेंट या LDA का उपयोग किया जाता है। इसका एक सामान्य उदाहरण बाकी के विरुद्ध एक है जहां एक वर्ग के अंक एक समूह में रखे जाते हैं, और बाकी सब दूसरे में, और फिर एलडीए ने आवेदन किया। इसका परिणाम C क्लासिफायर होगा, जिसके परिणाम संयुक्त होंगे। एक और आम पद्धति जोड़ीवार वर्गीकरण है, जहां वर्गों के प्रत्येक जोड़े के लिए एक नया वर्गीकारक बनाया जाता है (कुल C(C − 1)/2 वर्गीकारक देकर), एक अंतिम वर्गीकरण तैयार करने के लिए भिन्न-भिन्न वर्गीकारकों के संयोजन के साथ।

इंक्रीमेंटल एलडीए
एलडीए तकनीक के विशिष्ट कार्यान्वयन के लिए आवश्यक है कि सभी नमूने पहले से उपलब्ध हों। हालाँकि, ऐसी स्थितियाँ होती हैं जहाँ संपूर्ण डेटा सेट उपलब्ध नहीं होता है और इनपुट डेटा को एक धारा के रूप में देखा जाता है। इस मामले में, एलडीए सुविधा निष्कर्षण के लिए यह वांछनीय है कि पूरे डेटा सेट पर एल्गोरिथ्म को चलाए बिना नए नमूनों को देखकर गणना की गई एलडीए सुविधाओं को अपडेट करने की क्षमता हो। उदाहरण के लिए, मोबाइल रोबोटिक्स या ऑन-लाइन फेस रिकग्निशन जैसे कई रीयल-टाइम अनुप्रयोगों में, जैसे ही नए अवलोकन उपलब्ध होते हैं, निकाले गए एलडीए सुविधाओं को अपडेट करना महत्वपूर्ण होता है। एक एलडीए सुविधा निष्कर्षण तकनीक जो मात्र नए नमूनों को देखकर एलडीए सुविधाओं को अपडेट कर सकती है, एक वृद्धिशील एलडीए एल्गोरिथ्म है, और इस विचार का पिछले दो दशकों में बड़े पैमाने पर अध्ययन किया गया है। चटर्जी और रॉयचौधरी ने एलडीए सुविधाओं को अद्यतन करने के लिए एक वृद्धिशील स्व-संगठित एलडीए एल्गोरिथम प्रस्तावित किया। अन्य कार्य में, डेमिर और ओजमेमेट ने त्रुटि-सुधार और हेब्बियन सीखने के नियमों का उपयोग करते हुए एलडीए सुविधाओं को अद्यतन करने के लिए ऑनलाइन स्थानीय शिक्षण एल्गोरिदम प्रस्तावित किया। बाद में, अलियारी एट अल। नए नमूने देखकर एलडीए सुविधाओं को अद्यतन करने के लिए तेजी से वृद्धिशील एल्गोरिदम व्युत्पन्न।

व्यावहारिक उपयोग
व्यवहार में, वर्ग का अर्थ और सहप्रसरण ज्ञात नहीं हैं। हालाँकि, उनका अनुमान प्रशिक्षण सेट से लगाया जा सकता है। उपरोक्त समीकरणों में उपयुक्त मान के स्थान पर या तो अधिकतम संभावना अनुमान या अधिकतम पश्च अनुमान का उपयोग किया जा सकता है। चूंकि सहप्रसरण के अनुमानों को कुछ अर्थों में इष्टतम माना जा सकता है, इसका मतलब यह नहीं है कि इन मूल्यों को प्रतिस्थापित करके प्राप्त परिणामी विवेचक किसी भी अर्थ में इष्टतम है, भले ही सामान्य रूप से वितरित वर्गों की धारणा सही हो।

एलडीए और फिशर के विवेचक को वास्तविक डेटा पर लागू करने में एक और जटिलता तब होती है जब प्रत्येक नमूने के माप की संख्या (अर्थात, प्रत्येक डेटा वेक्टर की आयाम) प्रत्येक वर्ग में नमूनों की संख्या से अधिक हो जाती है। इस मामले में, सहप्रसरण अनुमानों की पूरी रैंक नहीं होती है, और इसलिए इसे उल्टा नहीं किया जा सकता है। इससे निपटने के कई विधि हैं। उपरोक्त सूत्रों में सामान्य मैट्रिक्स व्युत्क्रम के अतिरिक्त छद्म व्युत्क्रम का उपयोग करना है। हालाँकि, उत्तम संख्यात्मक स्थिरता पहले समस्या को उप-स्थान पर प्रस्तुत करके प्राप्त की जा सकती है $$ \Sigma_b $$. छोटे नमूने के बनावट से निपटने के लिए एक अन्य रणनीति सहप्रसरण मैट्रिक्स के संकोचन अनुमानक का उपयोग करना है, जो गणितीय रूप में व्यक्त किया जा सकता है


 * $$ \Sigma = (1-\lambda) \Sigma+\lambda I\,$$

कहाँ $$ I $$ पहचान मैट्रिक्स है, और $$ \lambda $$ संकोचन तीव्रता या नियमितीकरण पैरामीटर है। यह नियमित विभेदक विश्लेषण के ढांचे की ओर जाता है या संकोचन विभेदक विश्लेषण। साथ ही, कई व्यावहारिक मामलों में रैखिक विवेचक उपयुक्त नहीं होते हैं। एलडीए और फिशर के विवेचक को कर्नेल चाल के माध्यम से गैर-रैखिक वर्गीकरण में उपयोग के लिए बढ़ाया जा सकता है। यहां, मूल अवलोकन प्रभावी रूप से एक उच्च आयामी गैर-रैखिक स्थान में मैप किए जाते हैं। इस गैर-रैखिक स्थान में रैखिक वर्गीकरण तब मूल स्थान में गैर-रैखिक वर्गीकरण के समतुल्य होता है। इसका सबसे अधिक उपयोग किया जाने वाला उदाहरण कर्नेल [[एकाधिक विभेदक विश्लेषण]] है।

एलडीए को कई विभेदक विश्लेषणों के लिए सामान्यीकृत किया जा सकता है, जहां सी मात्र दो के अतिरिक्त एन संभावित राज्यों के साथ एक श्रेणीबद्ध चर बन जाता है। अनुरूप रूप से, यदि वर्ग-सशर्त घनत्व $$p(\vec x\mid c=i)$$ साझा सहप्रसरण के साथ सामान्य हैं, के लिए पर्याप्त आँकड़ा $$P(c\mid\vec x)$$ एन अनुमानों के मूल्य हैं, जो एन साधनों द्वारा फैलाए गए रैखिक उप-स्थान हैं, व्युत्क्रम सहप्रसरण मैट्रिक्स द्वारा परिशोधित परिवर्तन। इन अनुमानों को एक मैट्रिक्स#सामान्यीकृत ईजेनवैल्यू समस्या के ईजेनडीकंपोजीशन को हल करके पाया जा सकता है, जहां अंश नमूने के रूप में साधनों का इलाज करके गठित सहप्रसरण मैट्रिक्स है, और भाजक साझा सहप्रसरण मैट्रिक्स है। विवरण के लिए ऊपर "#Multiclass LDA" देखें।

अनुप्रयोग
नीचे दिए गए उदाहरणों के अतिरिक्त, एलडीए को स्थिति (विपणन)  और उत्पाद प्रबंधन में लागू किया जाता है।

दिवालियापन की भविष्यवाणी
लेखा अनुपात और अन्य वित्तीय चर के आधार पर दिवालियापन की भविष्यवाणी में, रैखिक विभेदक विश्लेषण व्यवस्थित रूप से यह समझाने के लिए लागू किया गया पहला सांख्यिकीय विधि था कि कौन सी फर्म दिवालिएपन में प्रवेश कर गई बनाम बच गई। एलडीए की सामान्य वितरण धारणाओं के लिए लेखा अनुपात के ज्ञात गैर-अनुरूपता सहित सीमाओं के अतिरिक्त, एडवर्ड ऑल्टमैन का जेड-स्कोर वित्तीय विश्लेषण उपकरण अभी भी व्यावहारिक अनुप्रयोगों में एक अग्रणी नमूना है।

चेहरे की पहचान
कम्प्यूटरीकृत चेहरे की पहचान प्रणाली में, प्रत्येक चेहरे को बड़ी संख्या में पिक्सेल मानों द्वारा दर्शाया जाता है। वर्गीकरण से पहले अधिक प्रबंधनीय संख्या में सुविधाओं की संख्या को कम करने के लिए रैखिक विभेदक विश्लेषण का मुख्य रूप से उपयोग किया जाता है। प्रत्येक नया आयाम पिक्सेल मानों का एक रैखिक संयोजन है, जो एक टेम्पलेट बनाता है। फिशर के रैखिक विवेचक का उपयोग करके प्राप्त रैखिक संयोजनों को फिशर चेहरे कहा जाता है, जबकि संबंधित प्रमुख घटक विश्लेषण का उपयोग करके प्राप्त किए गए संयोजनों को ईजेनफेस कहा जाता है।

मार्केटिंग
विपणन में, भेदभावपूर्ण विश्लेषण का उपयोग अधिकांशतः उन कारकों को निर्धारित करने के लिए किया जाता था जो विभिन्न प्रकार के ग्राहकों और / या उत्पादों को सर्वेक्षण या अन्य प्रकार के एकत्रित डेटा के आधार पर भिन्न करते हैं। लॉजिस्टिक रिग्रेशन या अन्य विधि अब अधिक सामान्य रूप से उपयोग किए जाते हैं। विपणन में विभेदक विश्लेषण के उपयोग को निम्नलिखित चरणों द्वारा वर्णित किया जा सकता है:
 * 1) समस्या तैयार करें और डेटा एकत्र करें- इस श्रेणी में उत्पादों का मूल्यांकन करने के लिए उपयोग किए जाने वाले सामाजिक गुणों की पहचान करें- मात्रात्मक विपणन अनुसंधान तकनीकों (जैसे सांख्यिकीय सर्वेक्षण) का उपयोग करें जिससे की सभी उत्पाद विशेषताओं की रेटिंग के संबंध में संभावित ग्राहकों के नमूने से डेटा एकत्र किया जा सके . डेटा संग्रह चरण सामान्यतः विपणन अनुसंधान प्रस्तुतेवरों द्वारा किया जाता है। सर्वेक्षण के प्रश्न प्रतिवादी को शोधकर्ता द्वारा चुनी गई विशेषताओं की एक श्रृंखला पर उत्पाद को एक से पांच (या 1 से 7, या 1 से 10) तक रेट करने के लिए कहते हैं। कहीं भी पाँच से बीस विशेषताओं का चयन किया जाता है। उनमें निम्न चीज़ें सम्मलित हो सकती हैं: उपयोग में आसानी, वजन, उपयुक्तता, टिकाऊपन, रंगीनता, कीमत या बनावट। चुने गए गुण अध्ययन किए जा रहे उत्पाद के आधार पर भिन्न-भिन्न होंगे। अध्ययन में सभी उत्पादों के बारे में एक ही प्रश्न पूछा गया है। कई उत्पादों के डेटा को संहिताबद्ध किया जाता है और एक सांख्यिकीय कार्यक्रम जैसे आर भाषा, एसपीएसएस या एसएएस प्रोग्रामिंग भाषा में इनपुट किया जाता है। (यह चरण कारक विश्लेषण के समान है)।
 * 2) डिस्क्रिमिनेंट फलन गुणांक का अनुमान लगाएं और सांख्यिकीय महत्व और वैधता निर्धारित करें- उपयुक्त डिस्क्रिमिनेंट विश्लेषण विधि चुनें। प्रत्यक्ष विधि में विवेचक फलन का आकलन करना सम्मलित है जिससे की सभी भविष्यवक्ताओं का एक साथ मूल्यांकन किया जा सके। स्टेप चरणबद्ध प्रतिगमन भविष्यवाणियों में क्रमिक रूप से प्रवेश करता है। दो-समूह विधि का उपयोग तब किया जाना चाहिए जब आश्रित चर में दो श्रेणियां या अवस्थाएँ हों। एकाधिक विभेदक विधि का उपयोग तब किया जाता है जब आश्रित चर में तीन या अधिक श्रेणीबद्ध अवस्थाएँ होती हैं। विल्क्स लैम्ब्डा डिस्ट्रीब्यूशन का प्रयोग करें। एसपीएसएस में महत्व या एसएएस में एफ स्टेट के परीक्षण के लिए विल्क्स लैम्ब्डा का उपयोग करें। वैधता का परीक्षण करने के लिए उपयोग की जाने वाली सबसे आम विधि नमूने को एक अनुमान या विश्लेषण नमूने और एक सत्यापन या होल्डआउट नमूने में विभाजित करना है। अनुमान नमूना का उपयोग विवेचक फलन के निर्माण में किया जाता है। सत्यापन नमूने का उपयोग एक वर्गीकरण मैट्रिक्स के निर्माण के लिए किया जाता है जिसमें सही ढंग से वर्गीकृत और गलत वर्गीकृत मामलों की संख्या सम्मलित होती है। सही ढंग से वर्गीकृत मामलों के प्रतिशत को हिट अनुपात कहा जाता है।
 * 3) परिणामों को दो आयामी मानचित्र पर प्लॉट करें, आयामों को परिभाषित करें और परिणामों की व्याख्या करें। सांख्यिकीय कार्यक्रम (या संबंधित मॉड्यूल) परिणामों को मैप करेगा। नक्शा प्रत्येक उत्पाद को प्लॉट करेगा (सामान्यतः द्वि-आयामी अंतरिक्ष में)। उत्पादों की एक-दूसरे से दूरी यह दर्शाती है कि वे कितने भिन्न हैं। आयामों को शोधकर्ता द्वारा लेबल किया जाना चाहिए। इसके लिए व्यक्तिपरक निर्णय की आवश्यकता होती है और यह अधिकांशतः बहुत चुनौतीपूर्ण होता है। अवधारणात्मक मानचित्रण देखें।

बायोमेडिकल अध्ययन
चिकित्सा में विभेदक विश्लेषण का मुख्य अनुप्रयोग एक रोगी की गंभीरता की स्थिति का आकलन और रोग के परिणाम का पूर्वानुमान है। उदाहरण के लिए, पूर्वव्यापी विश्लेषण के समय, रोगियों को रोग की गंभीरता के अनुसार समूहों में विभाजित किया जाता है - हल्का, मध्यम और गंभीर रूप। फिर नैदानिक ​​​​और प्रयोगशाला विश्लेषण के परिणामों का अध्ययन किया जाता है जिससे की उन चरों को प्रकट किया जा सके जो अध्ययन किए गए समूहों में सांख्यिकीय रूप से भिन्न हैं। इन चरों का उपयोग करते हुए, विभेदक कार्यों का निर्माण किया जाता है जो भविष्य के रोगी में बीमारी को हल्के, मध्यम या गंभीर रूप में वर्गीकृत करने में सहायता करते हैं।

जीव विज्ञान में, समान सिद्धांतों का उपयोग विभिन्न जैविक वस्तुओं के समूहों को वर्गीकृत करने और परिभाषित करने के लिए किया जाता है, उदाहरण के लिए, फूरियर ट्रांसफॉर्म इन्फ्रारेड स्पेक्ट्रा के आधार पर साल्मोनेला एंटरिटिडिस के फेज प्रकारों को परिभाषित करने के लिए, एस्चेरिचिया कोलाई के पशु स्रोत का पता लगाने के लिए इसके विषाणु कारकों का अध्ययन करना वगैरह।

पृथ्वी विज्ञान
इस विधि का उपयोग किया जा सकता है. उदाहरण के लिए, जब विभिन्न क्षेत्रों से भिन्न-भिन्न डेटा उपलब्ध होते हैं, तो विवेकशील विश्लेषण डेटा के पैटर्न को ढूंढ सकता है और इसे प्रभावी ढंग से वर्गीकृत कर सकता है।

रसद प्रतिगमन की तुलना
विभेदक कार्य विश्लेषण रसद प्रतिगमन के समान है, और दोनों का उपयोग समान शोध प्रश्नों के उत्तर देने के लिए किया जा सकता है। तार्किक प्रतिगमन में विवेकपूर्ण विश्लेषण के रूप में कई धारणाएं और प्रतिबंध नहीं हैं। हालाँकि, जब डिस्क्रिमिनेंट एनालिसिस की धारणाएँ पूरी होती हैं, तो यह लॉजिस्टिक रिग्रेशन से अधिक शक्तिशाली होता है। लॉजिस्टिक प्रतिगमन के विपरीत, विभेदक विश्लेषण का उपयोग छोटे नमूना बनावटों के साथ किया जा सकता है। यह दिखाया गया है कि जब नमूना बनावट समान होते हैं, और विचरण / सहप्रसरण की एकरूपता होती है, तो विवेचक विश्लेषण अधिक उपयुक्त होता है। इन सभी फायदों के अतिरिक्त, लॉजिस्टिक रिग्रेशन कम से कम आम पसंद बन गया है, क्योंकि भेदभावपूर्ण विश्लेषण की धारणाएं संभवतः ही कभी पूरी होती हैं।

उच्च आयाम में रैखिक विवेचक
उच्च आयामों में ज्यामितीय विसंगतियाँ आयामीता के प्रसिद्ध अभिशाप की ओर ले जाती हैं। फिर भी, माप परिघटना की सघनता का उचित उपयोग संगणना को आसान बना सकता है। आयामीता के इन अभिशाप का एक महत्वपूर्ण मामला # आयामीता की घटना का आशीर्वाद डोनोहो और टान्नर द्वारा उजागर किया गया था: यदि एक नमूना अनिवार्य रूप से उच्च-आयामी है, तो प्रत्येक बिंदु को बाकी के नमूने से रैखिक असमानता से भिन्न किया जा सकता है, उच्च संभावना के साथ, यहां तक ​​​​कि घातीय रूप से बड़े नमूने। इन रैखिक असमानताओं को संभाव्यता वितरण के एक समृद्ध परिवार के लिए रैखिक विवेचक के मानक (फिशर) रूप में चुना जा सकता है। विशेष रूप से, इस प्रकार के प्रमेय लॉगरिदमिक रूप से अवतल माप के लिए सिद्ध होते हैं। बहुभिन्नरूपी सामान्य वितरण सहित लॉग-अवतल वितरण (प्रमाण लॉग-अवतल माध्यमों के लिए एकाग्रता असमानताओं पर आधारित है) ) और एक बहुआयामी घन पर उत्पाद के माध्यमों के लिए (यह उत्पाद संभाव्यता रिक्त स्थान के लिए तालग्रैंड की एकाग्रता असमानता का उपयोग करके सिद्ध होता है)। मौलिक रेखीय विभेदकों द्वारा डेटा पृथक्करण उच्च आयाम में कृत्रिम बुद्धिमत्ता प्रणालियों के लिए त्रुटि सुधार की समस्या को सरल करता है।

यह भी देखें

 * डेटा खनन
 * निर्णय वृक्ष सीखना
 * कारक विश्लेषण
 * कर्नेल फिशर डिस्क्रिमिनेंट एनालिसिस
 * लोगिट (लॉजिस्टिक रिग्रेशन के लिए)
 * रेखीय प्रतिगमन
 * एकाधिक विभेदक विश्लेषण
 * बहुआयामी स्केलिंग
 * पैटर्न मान्यता
 * वरीयता प्रतिगमन
 * द्विघात वर्गीकारक
 * सांख्यिकीय वर्गीकरण

बाहरी संबंध

 * Discriminant Correlation Analysis (DCA) of the Haghighat article (see above)
 * ALGLIB contains open-source LDA implementation in C# / C++ / Pascal / VBA.
 * LDA in Python- LDA implementation in Python
 * LDA tutorial using MS Excel
 * Biomedical statistics. Discriminant analysis
 * Course notes, Discriminant function analysis by G. David Garson, NC State University
 * Discriminant analysis tutorial in Microsoft Excel by Kardi Teknomo
 * Course notes, Discriminant function analysis by David W. Stockburger, Missouri State University
 * Discriminant function analysis (DA) by John Poulsen and Aaron French, San Francisco State University
 * Discriminant function analysis (DA) by John Poulsen and Aaron French, San Francisco State University