गैर-ऋणात्मक आव्यूह गुणनखंडन

गैर-नकारात्मक आव्यूहों गुणनखंडन (एनएमएफ या एनएनएमएफ), गैर-नकारात्मक आव्यूहों सन्निकटन भी बहुभिन्नरूपी विश्लेषण और रैखिक बीजगणित में कलन विधि का एक समूह है जहां एक आव्यूहों $V$ आव्यूहों का दो आव्यूहों $W$ और $H$ में अपघटित होता है, इस गुण के साथ कि तीनों आव्यूहों में कोई ऋणात्मक तत्व नहीं है। यह गैर-नकारात्मकता परिणामी आव्यूहों का निरीक्षण करना आसान बनाती है। इसके अलावा, ऑडियो स्पेक्ट्रोग्राम या मांसपेशियों की गतिविधि के प्रसंस्करण जैसे अनुप्रयोगों में, विचार किए जा रहे गैर-नकारात्मकता डेटा में अंतर्निहित है। क्योंकी समस्या सामान्य रूप से बिल्कुल हल करने योग्य नहीं है, इसलिए इसे सामान्यतः संख्यात्मक रूप से अनुमानित किया जाता है।

एनएमएफ का उपयोग खगोलशास्त्र,  संगणक दृष्टि, दस्तावेज़ क्लस्टरिंग, प्रतिरूपण (सांख्यिकी),  रसायन विज्ञान , ऑडियो सिग्नल प्रोसेसिंग, अनुशंसा प्रणाली, और जैव सूचना विज्ञान जैसे क्षेत्रों में होता है।

इतिहास
केमोमेट्रिक्स में गैर-नकारात्मक आव्यूहों गुणनखंडन का "सेल्फ मॉडलिंग कर्व रिज़ॉल्यूशन" नाम के तहत एक लंबा इतिहास है। इस ढांचे में, दाईं आव्यूहों के सदिश संख्यात्मक सदिशो की अतिरिक्त निरंतर वक्र के रूप में प्रस्तुत होते हैं।  इसके अलावा, 1990 के दशक में फिनिश शोधकर्ता समूह ने "पॉज़िटिव आव्यूहों फैक्टराइजेशन" के नाम से गैर-नकारात्मक आव्यूहों फैक्टराइजेशन पर प्रारंभिक कार्य किया था। ली और सेउंग द्वारा अभिकलन की गुणवत्ता की जाँच की और दो प्रकार के फैक्टराइजेशन के लिए कुछ सरल और उपयोगी अभिकलन प्रकाशित किए थे। इसके सदिश इसे नॉन-नेगेटिव आव्यूहों फैक्टराइजेशन के नाम से अधिक व्यापक रूप से जाना जाने लगा था।

पृष्ठभूमि
माना आव्यूहों $V$ आव्यूहों $V$ और $W$, का गुणनफल कहा जा सकता है,
 * $$\mathbf{V} = \mathbf{W} \mathbf{H} \,.$$

आव्यूहों गुणन निर्धारित करने के लिए $H$ के स्तंभ सदिश को $V$ के स्तंभ सदिश के मध्य रैखिक संयोजन के रूप में प्रोत्साहित किया जा सकता है, जिसमें स्तंभ $W$ के स्तंभों द्वारा दिए गए संकेतकों का उपयोग किया जाता है। अर्थात, $H$ के प्रत्येक स्तंभ को निम्नलिखित विधियों से निर्धारित किया जा सकता है:
 * $$\mathbf{v}_i = \mathbf{W} \mathbf{h}_{i} \,,$$

.

जहाँ $V$ $W$-गुणनखंड आव्यूहों $H$ के स्तंभ सदिश है और $V$ $v_{i}$-आव्यूहों $i$ के स्तंभ सदिश है।

आव्यूहों को गुणा करते समय, कारक आव्यूहों के आयाम उत्पाद आव्यूहों की तुलना में काफी न्यूनतम हो सकते हैं और यही गुणवत्ता एनएमएफ का आधार बनाती है। एनएमएफ मूल आव्यूहों की तुलना में काफी न्यूनतम आयाम वाले कारक उत्पन्न करता है। उदाहरण के लिए, यदि $V$ एक $h_{i}$ आव्यूह है, $i$ एक $H$ आव्यूहों, और $V$ एक $m × n$ है तो  $W$ आव्यूहों दोनों $m × p$ और $H$. से काफी न्यूनतम हो सकता है

यहां पाठ-खनन अनुप्रयोग पर आधारित एक उदाहरण दिया गया है:
 * मान लीजिये कि इनपुट आव्यूहों (जिसे गुणनखंड किया जाना है) $p × n$ है। यह $p$ आव्यूहों 10000 पंक्तियों और 500 स्तंभों के साथ है, जहां पंक्तियों में शब्द होते हैं और स्तंभों में दस्तावेज़ होते हैं। इसका अर्थ है कि हम 10000 शब्दों के सूची के साथ 500 दस्तावेज़ों को सूचकांक तैयार कर रहे हैं। इसके अनुसार, एक स्तंभ सदिश $m$ में $n$आव्यूहों में एक दस्तावेज़ को प्रतिनिधित करता है।
 * हम मान लेते हैं कि हम अभिकलन से 10 अभिलक्षण खोजने को कहते हैं, जिससे 10000 पंक्तियों और 10 स्तंभों वाली अभिलक्षण आव्यूहों $V$ और 10 पंक्तियों और 500 स्तंभों वाली $V$ गुणांक आव्यूहों उत्पन्न होती है।
 * $v$ और $V$ का गुणा एक आव्यूहों है जिसमें 10000 पंक्तियाँ और 500 स्तंभ हैं, जो इनपुट आव्यूहों $W$ की तरह ही आकृति है। और यदि गुणनखंड का कार्य कर रही है तो यह इनपुट आव्यूहों $H$ के लिए एक उचित अनुमान होता है।
 * आव्यूहों गुणन से उपरोक्त विवेचना के अनुसार, गुणन आव्यूहों $W$ में प्रत्येक कॉलम अभिलक्षण आव्यूहों $H$ के 10 कॉलम सदिश का एक रैखिक संयोजन है, जिसमें संकेतक आव्यूहों $V$ द्वारा प्रदान किए गए संकेतकों का उपयोग होता है।

यह अंतिम बिंदु एनएमएफ के आधार को बताता है क्योंकि हम अपने उदाहरण में प्रत्येक मूल दस्तावेज़ को एक छोटे सेट के गुप्त अभिलक्षण से बना हुआ मान सकते हैं। एनएमएफ ये अभिलक्षण उत्पन्न करता है।

अभिलक्षण आव्यूहों $V$ में प्रत्येक अभिलक्षण (कॉलम सदिश) के बारे में सोचना उपयोगी है एक दस्तावेज़ मूलरूप के रूप में जिसमें शब्दों का एक सेट सम्मिलित होता है जहां प्रत्येक शब्द का सेल मान अभिलक्षण में शब्द की स्थान को परिभाषित करता है: किसी शब्द का सेल मान जितना अधिक होगा अभिलक्षण में शब्द की स्थान उतनी ही अधिक होगी। गुणांक आव्यूहों में एक स्तंभ $WH$ किसी विशेषता के लिए दस्तावेज़ की स्थान को परिभाषित करने वाले सेल मान के साथ एक मूल दस्तावेज़ का प्रतिनिधित्व करता है। अब हम अपनी विशेषताओं (कॉलम सदिश) के रैखिक संयोजन द्वारा अपने इनपुट आव्यूहों से एक दस्तावेज़ (कॉलम सदिश) का पुनर्निर्माण कर सकते हैं $W$) जहां प्रत्येक अभिलक्षण को $H$ दस्तावेज़ कॉलम से अभिलक्षण के सेल मान द्वारा भारित किया जाता है.

समूहीकरण गुणवत्ता
एनएमएफ में अंतर्निहित समूहीकरण गुणवत्ता है, अर्थात, यह स्वचालित रूप से $$\mathbf{V} = (v_1, \dots, v_n) $$ इनपुट डेटा के कॉलम को क्लस्टर करता है ,अधिक विशेष रूप से,इनपुट डेटा के अनुमान $$\mathbf{V}$$ द्वारा $$\mathbf{V} \simeq \mathbf{W}\mathbf{H}$$ को वेबरियस नियम खोजने से प्राप्त होता है $$W$$ और $$H$$ जो त्रुटि फलन को न्यूनतम करता है

$$ \left\| V - WH \right\|_F,$$ का $$W \geq 0, H \geq 0.$$,विषय है

अगर हम और आगे एक समांतरता शर्त $$ \mathbf{H} $$ पर लगाते हैं, अर्थात $$ \mathbf{H}\mathbf{H}^T = I $$, तो उपरोक्त कमी को गणितीय रूप से K-मीन्स समूहीकरण के कमी के समान होने से संबंधित किया जा सकता है।

इसके अलावा, गणना की गई $$H$$ क्लस्टर सदस्यता देता है, अर्थात, यदि $$\mathbf{H}_{kj} > \mathbf{H}_{ij} $$ सभी i ≠ k के लिए, यह सुझाव देता है कि इनपुट डेटा $$ v_j $$ से संबंधित $$k$$-वां समूह के हिस्से है. गणितीय रूप से प्राप्त किया गया $$W$$ समूह केंद्रों को देता है, अर्थात $$k$$-वां कॉलम क्लस्टर सेंट्रोइड तथा $$k$$-वां क्लस्टर देता है. इस केन्द्रक का प्रतिनिधित्व ध्वनिमय एनएमएफ द्वारा बढ़ाया जा सकता है।

जब रूढ़िवादिता बाधा स्पष्ट रूप से थोपा नहीं गया है, रूढ़िवादिता काफी हद तक कायम है, और समूहीकरण गुणवत्ता भी कायम है। एनएमएफ के अधिकांश  का मुख्य उद्देश्य क्लस्टरिंग है।

जब आर्थोगोनालिटी शर्त $$ \mathbf{H}\mathbf{H}^T = I $$ स्पष्ट रूप से लागू नहीं की जाती है, तो यह आर्थोगोनालिटी बड़े हिसाब से पाई जाती है, और समूहीकरण गुणवत्ता भी बनी रहती है। समूहीकरण अधिकांश डेटा खनन अनुप्रयोगों का मुख्य उद्देश्य होता है।

जब उपयोग किया जाने वाला त्रुटि फलन कुल्बैक-लीबलर विचलन का उपयोग किया जाता है, तो एनएमएफ संभाव्य अव्यक्त सिमेंटिक विश्लेषण (पीएलएसए) के समान है, जो एक लोकप्रिय दस्तावेज़ समूहीकरण विधि होती है।

अनुमानित गैर-नकारात्मक आव्यूहों गुणनखंड
सामान्यतः स्तंभों की संख्या $W$ और पंक्तियों की संख्या $H$एनएमएफ में उत्पाद का चयन किया जाता है $W$ का गुणनखंड $H$ अनुमान के लिए एक अनुमान बन जाएगा। $W$ का पूर्ण विघटन में पुनः दो गैर-नकारात्मक आव्यूहों $H$ और $WH$ के साथ ही एक शेष मैट्रिक्स $V$ भी समान होती है, जिसके रूप में: $V$. शेष आव्यूहों के तत्व या तो नकारात्मक या सकारात्मक हो सकते हैं।

जब $W$ और $H$ $U$ से छोटा होता हैं ,तो उन्हें संभालने और प्रसंस्करण करने में आसान हो जाता है। $V = WH + U$ को छोटे आव्यूहों $W$ और $H$, में विभाजित करने का एक अन्य कारण यह है कि यदि कोई व्यक्ति $V$ के तत्वों का अनुमानित प्रतिनिधित्व न्यूनतम डेटा से कर सकता है, तो उसे डेटा में कुछ लटेंट संरचना का अनुमान होता है।

उत्तल गैर-नकारात्मक आव्यूहों गुणनखंडन
मानक एनएमएफ में, आव्यूहों कारक $V$ होती है, अर्थात $W$ उस स्थान में कुछ भी हो सकता है। उत्तल एनएमएफ कॉलम को $H$ इनपुट डेटा सदिश (जैसे $$ (v_1, \dots, v_n) $$) के आभासी संयोजनों के रूप में सीमित करता है । यह $V$ के डेटा के प्रतिनिधित्व की गुणवत्ता को बहुत बेहतर बनाता है। इसके अलावा, परिणामी आव्यूहों कारक $W ∈ R_{+}^{m × k}$ अधिक विरल और ओर्थोगोनल होती है।

अऋणात्मक स्थान गुणनखंडन
यदि वी का गैर-नकारात्मक स्थान उसके वास्तविक स्थान के समान  $W$ होता है।,तो $W$ को गैर-ऋणात्मक स्थान गुणनखंड (एनआरएफ) कहा जाता है।   $W$ का एनआरएफ को ढूंढने की समस्या, यदि वह उपस्थित है, तो एनपी-हार्ड के रूप में जाना जाता है।

विभिन्न लागत कार्य और नियमितीकरण
गैर-नकारात्मक आव्यूहों गुणनखंड के विभिन्न प्रकार होते हैं। विभिन्न प्रकार का उपयोग $H$ और $V$ के मध्य भेद को मापने के लिए भिन्न लागत फलन का उपयोग करने से होता है और संभवतः $V = WH$ और/या $V$ आव्यूहों को नियमित बनाने से भी हो सकते हैं।

ली और सेयूंग द्वारा अध्ययन किए गए दो सरल विचलन फलन हैं - वर्गीकरण त्रुटि (या फ्रोबेनियस मानदंड) और सकारात्मक आव्यूहों के लिए कुलबैक-लैब्लर विचलन का एक विस्तार (मूल कुलबैक-लैब्लर विचलन प्रायः प्रायद्विगुणी के रूप में परिभाषित होती है) होता हैं। प्रत्येकविचलन विभिन्न एनएमएफ अभिकलन की ओर पहुंचाती है, जो सामान्यतः पुनरावृत्त अद्यतन नियमों का उपयोग करके विचलन को न्यूनतम करता है।

एनएमएफ के वर्ग त्रुटि संस्करण में गुणनखंडन समस्या निम्नलिखित रूप में प्रस्तुत की जा सकती है : एक आव्यूहों दिया गया $$\mathbf{V}$$ के लिए गैर-ऋणात्मक आव्यूह W और H खोजें जो फलन को न्यूनतम करते हैं।
 * $$F(\mathbf{W},\mathbf{H}) = \left\|\mathbf{V} - \mathbf{WH} \right\|^2_F$$

चित्रों के लिए एनएमएफ का एक और प्रकार कुल विविध मानदंड पर आधारित है।

L1 नियमितीकरण को अर्थात वाले एनएमएफ में माध्य वर्ग त्रुटि लागत फलन के साथ जोड़ा जाता है, उस परिणामी समस्या को गैर-नकारात्मक विरल कोडिंग कहा जा सकता है क्योंकि इसका समान्य दुर्लभ कोडिंग समस्या के समानता होती है, यद्यपि इसे अभी भी एनएमएफ के रूप में भी संदर्भित किया जा सकता है।

ऑनलाइन एनएमएफ
कई मानक एनएमएफ अभिकलन सभी डेटा का एक साथ विश्लेषण करते हैं; अर्थात, संपूर्ण आव्यूहों प्रारंभ से ही उपलब्ध होती है। यह ऐसे अनुप्रयोगों में असंतुष्टि का कारण हो सकता है जहां मेमोरी में फिट होने के लिए बहुत अधिक डेटा है या जहां डेटा स्ट्रीमिंग फैशन में प्रदान किया जाता है। ऐसा ही एक उपयोग अनुशंसा प्रणाली में सहयोगी फ़िल्टरिंग के लिए होता है, जहां अनुशंसा करने के लिए कई उपयोगकर्ता और कई सामग्री हो सकते हैं, और जब सिस्टम में एक उपयोगकर्ता या एक सामग्री जोड़ा जाता है तो सब कुछ पुनर्गणना करना अप्रभावी होगा। इन स्तिथि में अनुकूलन के लिए लागत फलन मानक एनएमएफ के समान हो भी सकता है और नहीं भी, परंतु अभिकलन को पृथक होने की आवश्यकता है।

संवादात्मक एनएमएफ
यदि के कॉलम $V$ स्थानिक या लौकिक आयामों पर प्रारूपित किए गए डेटा का प्रतिनिधित्व करता हैं, उदाहरण के लिए समय संकेत, छवियाँ, या वीडियो, तो एनएमएफ द्वारा शिफ्ट के साथ समतुल्य प्राप्त विशेषताएं सीखी जा सकती हैं। इस स्तिथि में, $WH$ स्थानीय गैर-शून्य भार वाली खिड़कियों वाले स्तंभों के साथ विरल है जो $W$ स्थानिक-अस्थायी आयामों के साथ परिवर्तन साझा किए जाते हैं ,जो अपवर्तन करने वाले कर्नेल का प्रतिनिधित्व करता है। स्थानिक-अस्थायी आयामों द्वारा $H$ और बार-बार परिणामी प्रतिनिधित्व को कन्वेन्शनल एनएमएफ के इनपुट के रूप में उपयोग करके, गहरी सुविधा पदानुक्रम सीखा जा सकता है।

अभिकलन
$V$ और $W$ को ढूंढने के कई विधिया हो सकती हैं: ली और सेउंग की गुणक वजन अद्यतन विधि कार्यान्वयन की सरलता के कारण यह एक लोकप्रिय विधि रही है। इस अभिकलन को निम्नलिखित रूप में प्रकाशित किया जा सकता है:
 * प्रारंभ करें: $V$ और $H$ को गैर-नकारात्मक रूप से प्रारंभ करें। पुनः निम्नलिखित को गणना करके $W$ और $H$ में मूल्यों को अद्यतित करें, जहां $$n$$ पुनरावृत्ति के सूचकांक के रूप में है।
 * $$ \mathbf{H}_{[i,j]}^{n+1} \leftarrow \mathbf{H}_{[i,j]}^n \frac{((\mathbf{W}^n)^T\mathbf{V})_{[i,j]}}{((\mathbf{W}^n)^T\mathbf{W}^n\mathbf{H}^n)_{[i,j]}}$$
 * और
 * $$ \mathbf{W}_{[i,j]}^{n+1} \leftarrow \mathbf{W}_{[i,j]}^n \frac{(\mathbf{V}(\mathbf{H}^{n+1})^T)_{[i,j]}}{(\mathbf{W}^n\mathbf{H}^{n+1}(\mathbf{H}^{n+1})^T)_{[i,j]}}$$
 * जब तक $W$ और $H$ स्थिर हैं.

ध्यान दें कि अद्यतन तत्व दर तत्व के आधार पर किए जाते हैं, आव्यूहों गुणन के आधार पर नहीं किए जाते हैं।

हम देखते हैं कि $W$ और $H$, के गुणाकारी कारक,अर्थात $\frac{\mathbf{W}^\mathsf{T} \mathbf{V}}{\mathbf{W}^\mathsf{T} \mathbf{W} \mathbf{H}}$ और ${\textstyle {\frac {\mathbf {V} \mathbf {H} ^{\mathsf {T}} }{\mathbf {W} \mathbf {H} \mathbf {H} ^{\mathsf {T}}}}}$  जब  $$\mathbf{V} = \mathbf{W} \mathbf{H}$$ होता है, तो वे एक वाले आव्यूह होते हैं

हाल ही में अन्य अभिकलन विकसित किए गए हैं। कुछ दृष्टिकोन वैकल्पिकगैर-नकारात्मक न्यूनतम वर्ग पर आधारित होते हैं: ऐसे अभिकलन के प्रत्येक चरण में, पहले $W$ को निश्चित किया जाता है और पुनः $H$ को गैर-नकारात्मक न्यून्तम वर्ग सॉल्वर के द्वारा खोजा जाता है, पुनः $W$ को निश्चित किया जाता है और $H$ भी उसी विधि से खोजा जाता है।$H$ और $W$ को हल करने कि प्रक्रिया समान हो सकती है या भिन्न हो सकती है, क्योंकि कुछ एनएमएफ वैरिएंट्स में $W$ और $H$  में से एक को नियमित किया जाता है। विशिष्ट दृष्टिकोन में इन्हमें से कुछ सम्मिलित होता हैं: प्रोजेक्टेड ग्रेडिएंट डिस्सेंट विधि, सक्रिय सेट  विधि इष्टतम ढाल विधि, और ब्लॉक प्रिंसिपल पाइवटिंग विधि समेत कई अन्य विधियों को सम्मिलित करते है।

वर्तमान अभिकलन इस मायने में उप-इष्टतम हैं कि वे लागत फलन के वैश्विक न्यूनतम के अतिरिक्त केवल स्थानीय न्यूनतम पता लगाने की गारंटी देते हैं। निकट भविष्य में एक सिद्ध इष्टतम अभिकलन की संभावना नहीं है क्योंकि समस्या को के-मीन्स क्लस्टरिंग समस्या को सामान्यीकृत करने के लिए दिखाया गया है जिसे एनपी-पूर्ण माना जाता है। यद्यपि, कई अन्य डेटा खनन अनुप्रयोगों की तरह, एक स्थानीय न्यूनतम अभी भी उपयोगी प्रमाणित हो सकता है

अनुक्रमिक एनएमएफ
एनएमएफ घटकों का अनुक्रमिक निर्माण ($W$ और $H$) का उपयोग सबसे पहले खगोल विज्ञान में एनएमएफ को प्रमुख कंपोनेंट विश्लेषण  (पीसीए) से जोड़ने के लिए किया गया था। पीसीए घटकों के योगदान को उनके संबंधित स्वदेशी मूल्यों के परिमाण के आधार पर क्रमबद्ध किया जाता है; एनएमएफ के लिए, इसके घटकों को अनुभवजन्य रूप से स्थान किया जा सकता है जब उनका निर्माण एक-एक करके (क्रमिक रूप से) किया जाता है, अर्थात,  $$ (n+1)$$-वे के साथ घटक $$n$$ घटकों का निर्माण किया गया था।

पीसीए और क्रमशः एनएमएफ के लिए भिन्नांतरिक शेष वैरिएंस (एफआरवी) प्लॉट; पीसीए के लिए, सिद्धांतिक मान बची हुई इजेनवैल्यूज़ से योगदान होते हैं। तुलना में, पीसीए के लिए एफआरवी कर्व समय के साथ एक समतल प्लेटो तक पहुंचता है जहां कोई सिग्नल प्रभावी ढंग से पकड़ा नहीं जाता; जबकि एनएमएफ के एफआरवी कर्व सतत रूप से गिर रहे होते हैं, जिससे सिग्नल को पकड़ने की अधिक योग्यता दिखाई देती है। एनएमएफ के लिए एफआरवी कर्व भी पीसीए के तुलना में उच्च स्तर पर एकीकरण को प्रकट करते हैं, जिससे एनएमएफ की न्यूनतम -ओवरफिटिंग गुणवत्ता की संकेत मिलती है।

सटीक एनएमएफ
जब आव्यूहों $W$ के लिए अतिरिक्त बाधाएं होती हैं तो एनएमएफ के वेरिएंट के लिए सटीक समाधान की उम्मीद की जा सकती है .गैर-नकारात्मक स्थान गुणनखंडन को हल करने के लिए एक बहुपद समय अभिकलन $H$ में 1981 में कैंपबेल और पूले द्वारा दी गई स्थान के समान स्थान का एकपदी उप आव्यूहों सम्मिलित होती है। कलोफोलियास और गैलोपोलोस (2012) इस समस्या के सममित समकक्ष को हल किया, जहां $W$ सममित है और इसमें स्थान r का एक विकर्ण प्रधान उप आव्यूहों सम्मिलित होता है। उनका सघन स्तिथि में समय $H$ अभिकलन चलता है. अरोरा, जीई, हेल्पर, मिम्नो, मोइत्रा, सोंटेग, वू, और झू (2013) सटीक एनएमएफ के लिए एक बहुपद समय अभिकलन देते हैं जो उस स्तिथि के लिए कार्य करता है जहां कारकों में से एक डब्ल्यू एक पृथक्करण स्थिति को संतुष्ट करता है।

अन्य तकनीकों से संबंध
गैर-नकारात्मक आव्यूहों गुणनखंडन द्वारा वस्तुओं के हिस्सों को सीखने में ली और सेउंग प्रस्तावित एनएमएफ मुख्य रूप से छवियों के भागों-आधारित अपघटन के लिए है। यह एनएमएफ की तुलना सदिश परिमाणीकरण और प्रमुख घटक विश्लेषण से करता है, और दिखाता है कि यद्यपि तीन तकनीकों को कारक के रूप में लिखा जा सकता है, वे विभिन्न बाधाओं को लागू करते हैं और इसलिए अलग-अलग परिणाम उत्पन्न करते हैं।

सदिश में यह दिखाया गया कि कुछ प्रकार के एनएमएफ एक अधिक सामान्य संभाव्य मॉडल का उदाहरण हैं जिसे मल्टीनोमियल पीसीए कहा जाता है। जब एनएमएफ कुल्बैक-लीबलर विचलन को कम करके प्राप्त किया जाता है, तो यह वास्तव में बहुपद पीसीए, संभाव्य अव्यक्त अर्थ विश्लेषण के एक अन्य उदाहरण के समान है, अधिकतम संभावना अनुमान द्वारा प्रशिक्षित। उस पद्धति का उपयोग सामान्यतः पाठ्य डेटा का विश्लेषण और क्लस्टरिंग करने के लिए किया जाता है और यह अव्यक्त वर्ग मॉडल से भी संबंधित है।

न्यूनतम-वर्ग उद्देश्य वाला एनएमएफ K-साधन क्लस्टरिंग के एक आरामदायक रूप के समान है: आव्यूहों कारक $V$क्लस्टर सेंट्रोइड्स और सम्मिलित हैं $V$ में क्लस्टर सदस्यता संकेतक सम्मिलित हैं। यह डेटा क्लस्टरिंग के लिए एनएमएफ का उपयोग करने के लिए एक सैद्धांतिक आधार प्रदान करता है। हालाँकि, k-मीन्स अपने सेंट्रोइड्स पर गैर-नकारात्मकता को लागू नहीं करता है, इसलिए निकटतम सादृश्य वास्तव में सेमी-एनएमएफ के साथ है।

एनएमएफ को दो-परत बायेसियन नेटवर्क मॉडल के रूप में देखा जा सकता है जिसमें प्रेक्षित यादृच्छिक चर की एक परत और छिपे हुए यादृच्छिक चर की एक परत होती है। एनएमएफ आव्यूहों से आगे मनमाने क्रम के टेंसर तक फैला हुआ है।  इस एक्सटेंशन को, उदाहरण के लिए, PARAFAC मॉडल के गैर-नकारात्मक समकक्ष के रूप में देखा जा सकता है।

एनएमएफ के अन्य विस्तारों में कई डेटा आव्यूहों और टेंसर का संयुक्त गुणनखंडन सम्मिलित है जहां कुछ कारक साझा किए जाते हैं। ऐसे मॉडल सेंसर फ़्यूज़न और रिलेशनल लर्निंग के लिए उपयोगी हैं। एनएमएफ समर्थन सदिश यंत्र (एसवीएम) की तरह ही नॉननेगेटिव द्विघात प्रोग्रामिंग (एनक्यूपी) का एक उदाहरण है। हालाँकि, एसवीएम और एनएमएफ एनक्यूपी की तुलना में अधिक घनिष्ठ स्तर पर संबंधित हैं, जो दोनों डोमेन में समस्याओं के लिए दोनों तरीकों में से किसी एक के लिए विकसित समाधान अभिकलन के सीधे अनुप्रयोग की अनुमति देता है।

विशिष्टता
गुणनखंडन अद्वितीय नहीं है: एक आव्यूहों और उसके व्युत्क्रम आव्यूहों का उपयोग दो गुणनखंडन आव्यूहों को बदलने के लिए किया जा सकता है, उदाहरण के लिए,
 * $$\mathbf{WH} = \mathbf{WBB}^{-1}\mathbf{H}$$

यदि दो नए आव्यूहों $$\mathbf{\tilde{W} = WB}$$ और $$\mathbf{\tilde{H}}=\mathbf{B}^{-1}\mathbf{H}$$ गैर-नकारात्मक आव्यूहों हैं|गैर-नकारात्मक वे गुणनखंडन का एक और पैरामीट्रिजेशन बनाते हैं।

की गैर-नकारात्मकता $$\mathbf{\tilde{W}}$$ और $$\mathbf{\tilde{H}}$$ कम से कम लागू होता है यदि $V$ एक गैर-नकारात्मक एकपदी आव्यूहों है। इस साधारण स्तिथि में यह केवल स्केलिंग और क्रमपरिवर्तन के अनुरूप होगा।

एनएमएफ की गैर-विशिष्टता पर अधिक नियंत्रण विरल बाधाओं के साथ प्राप्त किया जाता है।

खगोल विज्ञान
खगोल विज्ञान में, एनएमएफ इस अर्थ में आयाम में कमी के लिए एक आशाजनक तरीका है कि खगोलभौतिकीय संकेत गैर-नकारात्मक हैं। एनएमएफ को स्पेक्ट्रोस्कोपिक अवलोकनों पर लागू किया गया है और प्रत्यक्ष इमेजिंग अवलोकन खगोलीय पिंडों के सामान्य गुणों का अध्ययन करने और खगोलीय अवलोकनों को पोस्ट-प्रोसेस करने की एक विधि के रूप में। ब्लैंटन और रोविस द्वारा स्पेक्ट्रोस्कोपिक अवलोकनों में प्रगति (2007) खगोलीय प्रेक्षणों की अनिश्चितताओं को ध्यान में रखता है, जिसे सदिश में झू (2016) द्वारा सुधारा गया है। जहां गायब डेटा पर भी विचार किया जाता है और समानांतर कंप्यूटिंग सक्षम की जाती है। उनकी पद्धति को फिर रेन एट अल ने अपनाया। (2018) एक्सोप्लैनेट का पता लगाने के तरीकों में से एक के रूप में प्रत्यक्ष इमेजिंग क्षेत्र में, विशेष रूप से परिस्थितिजन्य डिस्क की प्रत्यक्ष इमेजिंग के लिए।

रेन एट अल. (2018) एनएमएफ घटकों की स्थिरता को साबित करने में सक्षम हैं जब उनका निर्माण क्रमिक रूप से किया जाता है (अर्थात, एक-एक करके), जो एनएमएफ मॉडलिंग प्रक्रिया की रैखिकता को सक्षम बनाता है; रैखिकता गुण का उपयोग तारकीय प्रकाश और exoplanets और परिस्थितिजन्य डिस्क से बिखरे हुए प्रकाश को अलग करने के लिए किया जाता है।

प्रत्यक्ष इमेजिंग में, आस-पास की चमकदार तारकीय रोशनी से फीके एक्सोप्लैनेट और परिस्थितिजन्य डिस्क को प्रकट करने के लिए, जिसमें 10⁵ से 10¹⁰ तक एक विशिष्ट कंट्रास्ट होता है, विभिन्न सांख्यिकीय तरीकों को अपनाया गया है, हालाँकि एक्सोप्लैनेट या परिस्थितिजन्य डिस्क से प्रकाश सामान्यतः ओवर-फिटेड होता है, जहां वास्तविक प्रवाह को पुनर्प्राप्त करने के लिए फॉरवर्ड मॉडलिंग को अपनाना पड़ता है। फॉरवर्ड मॉडलिंग वर्तमान में बिंदु स्रोतों के लिए अनुकूलित है, हालाँकि विस्तारित स्रोतों के लिए नहीं, विशेष रूप से अनियमित आकार की संरचनाओं जैसे कि परिस्थितिजन्य डिस्क के लिए। इस स्थिति में, एनएमएफ एक उत्कृष्ट विधि रही है, जो एनएमएफ मॉडलिंग गुणांकों की गैर-नकारात्मकता और विरलता के अर्थ में कम ओवर-फिटिंग है, इसलिए फॉरवर्ड मॉडलिंग को कुछ स्केलिंग कारकों के साथ किया जा सकता है, उत्पन्न मॉडलों पर कम्प्यूटेशनल रूप से गहन डेटा पुनः कटौती के बजाय।

डेटा प्रतिरूपण
आँकड़ों में गुम डेटा को आरोपित करने के लिए, एनएमएफ इन गुम हुए डेटा को शून्य के रूप में मानने के बजाय, अपने लागत फलन को कम करते हुए लापता डेटा ले सकता है। यह इसे सांख्यिकी में प्रतिरूपण (सांख्यिकी) के लिए गणितीय रूप से सिद्ध विधि बनाता है। पहले यह साबित करके कि लापता डेटा को लागत फलन में नजरअंदाज कर दिया गया है, फिर यह साबित करके कि लापता डेटा का प्रभाव दूसरे क्रम के प्रभाव जितना छोटा हो सकता है, रेन एट अल। (2020) खगोल विज्ञान के क्षेत्र के लिए इस तरह के दृष्टिकोण का अध्ययन किया और लागू किया। उनका काम द्वि-आयामी आव्यूहों पर केंद्रित है, विशेष रूप से, इसमें गणितीय व्युत्पत्ति, सिम्युलेटेड डेटा प्रतिरूपण और ऑन-स्काई डेटा का अनुप्रयोग सम्मिलित है।

एनएमएफ के साथ डेटा प्रतिरूपण प्रक्रिया दो चरणों से बनी हो सकती है। सबसे पहले, जब एनएमएफ घटक ज्ञात होते हैं, रेन एट अल। (2020) ने साबित कर दिया कि डेटा प्रतिरूपण (उनके अध्ययन में लक्ष्य मॉडलिंग) के दौरान लापता डेटा का प्रभाव दूसरे क्रम का प्रभाव है। दूसरा, जब एनएमएफ घटक अज्ञात होते हैं, तो लेखकों ने साबित कर दिया कि घटक निर्माण के दौरान लापता डेटा का प्रभाव पहले से दूसरे क्रम का प्रभाव है।

एनएमएफ घटकों को प्राप्त करने के विधियों के आधार पर, उपरोक्त पहला चरण या तो स्वतंत्र हो सकता है या सदिश वाले से निर्भर हो सकता है। इसके अलावा, जब अधिक एनएमएफ घटकों का उपयोग किया जाता है तो प्रतिरूपण गुणवत्ता बढ़ाई जा सकती है, रेन एट अल का चित्र 4 देखें। (2020) उनके चित्रण के लिए।

टेक्स्ट खनन
एनएमएफ का उपयोग टेक्स्ट माइनिंग अनुप्रयोगों के लिए किया जा सकता है। इस प्रक्रिया में, दस्तावेजों के एक सेट से विभिन्न शब्दों (सामान्यतः भारित शब्द आवृत्ति जानकारी) के भार के साथ एक दस्तावेज़-शब्द आव्यूहों | दस्तावेज़-शब्द आव्यूहों का निर्माण किया जाता है। इस आव्यूहों को टर्म-फ़ीचर और फ़ीचर-डॉक्यूमेंट आव्यूहों में विभाजित किया गया है। सुविधाएँ दस्तावेज़ों की सामग्री से ली गई हैं, और फ़ीचर-दस्तावेज़ आव्यूहों संबंधित दस्तावेज़ों के डेटा क्लस्टर का वर्णन करता है।

एक विशिष्ट एप्लिकेशन ने PubMed के वैज्ञानिक सार के एक छोटे उपसमूह पर पदानुक्रमित एनएमएफ का उपयोग किया। एक अन्य शोध समूह ने एनरॉन ईमेल डेटासेट के कुछ हिस्सों को क्लस्टर किया 50 समूहों में 65,033 संदेशों और 91,133 शब्दों के साथ। एनएमएफ को उद्धरण डेटा पर भी लागू किया गया है, एक उदाहरण में अंग्रेजी विकिपीडिया में आउटबाउंड वैज्ञानिक उद्धरणों के आधार पर अंग्रेजी विकिपीडिया लेखों और वैज्ञानिक पत्रिकाओं को क्लस्टर किया गया है। अरोरा, जीई, हेल्पर, मिमनो, मोइत्रा, सोंटेग, वू, और झू (2013) ने एनएमएफ का उपयोग करके विषय मॉडल सीखने के लिए बहुपद-समय अभिकलन दिए हैं। एल्गोरिथ्म मानता है कि विषय आव्यूहों एक पृथक्करणीयता की स्थिति को संतुष्ट करता है जो अक्सर इन सेटिंग्स में पाया जाता है।

हसनी, इरानमनेश और मंसूरी (2019) ने टर्म-डॉक्यूमेंट मैट्रिसेस के लिए एक अभिलक्षण एग्लोमरेशन विधि का प्रस्ताव दिया जो एनएमएफ का उपयोग करके संचालित होता है। अभिकलन शब्द-दस्तावेज़ आव्यूहों को टेक्स्ट क्लस्टरिंग के लिए अधिक उपयुक्त छोटे आव्यूहों में कम कर देता है।

वर्णक्रमीय डेटा विश्लेषण
एनएमएफ का उपयोग वर्णक्रमीय डेटा का विश्लेषण करने के लिए भी किया जाता है; ऐसा ही एक उपयोग अंतरिक्ष वस्तुओं और मलबे के वर्गीकरण में है।

स्केलेबल इंटरनेट दूरी भविष्यवाणी
एनएमएफ को स्केलेबल इंटरनेट दूरी (राउंड-ट्रिप टाइम) भविष्यवाणी में लागू किया जाता है। एक नेटवर्क के लिए $$N$$ मेजबान, एनएमएफ की मदद से, सभी की दूरियां $$N^2$$ संचालन के सदिश ही एंड-टू-एंड लिंक की भविष्यवाणी की जा सकती है $$O(N)$$ माप. इस तरह का तरीका सबसे पहले इंटरनेट में पेश किया गया था दूरी अनुमान सेवा (आईडीईएस)। सदिश में, पूरी तरह से विकेंद्रीकृत दृष्टिकोण के रूप में, फीनिक्स नेटवर्क समन्वय प्रणाली प्रस्ताव है। यह वजन की अवधारणा को पेश करके बेहतर समग्र भविष्यवाणी सटीकता प्राप्त करता है।

गैर-स्थिर भाषण निरूपण
ऑडियो सिग्नल प्रोसेसिंग में वाक् निंदा एक लंबे समय से चली आ रही समस्या रही है। यदि शोर स्थिर है तो डीनोइज़िंग के लिए कई अभिकलन हैं। उदाहरण के लिए, विनीज़ फ़िल्टर एडिटिव गाऊसी शोर के लिए उपयुक्त है। हालाँकि, यदि शोर गैर-स्थिर है, तो शास्त्रीय डीनोइज़िंग अभिकलन का प्रदर्शन सामान्यतः खराब होता है क्योंकि गैर-स्थिर शोर की सांख्यिकीय जानकारी का अनुमान लगाना मुश्किल होता है। श्मिट एट अल. गैर-स्थिर शोर के तहत भाषण को निरूपित करने के लिए एनएमएफ का उपयोग करें, जो शास्त्रीय सांख्यिकीय दृष्टिकोण से पूरी तरह से अलग है। मुख्य विचार यह है कि स्वच्छ भाषण संकेत को भाषण शब्दकोश द्वारा बहुत कम दर्शाया जा सकता है, परंतु गैर-स्थिर शोर नहीं। इसी तरह, गैर-स्थिर शोर को भी शोर शब्दकोश द्वारा बहुत कम दर्शाया जा सकता है, परंतु भाषण को नहीं।

एनएमएफ डीनोइज़िंग के लिए अभिकलन इस प्रकार है। दो शब्दकोशों, एक भाषण के लिए और एक शोर के लिए, को ऑफ़लाइन प्रशिक्षित करने की आवश्यकता है। एक बार जब शोर-शराबा वाला भाषण दिया जाता है, तो हम सबसे पहले शॉर्ट-टाइम-फूरियर-ट्रांसफॉर्म की भयावहता की गणना करते हैं। दूसरा, इसे एनएमएफ के माध्यम से दो भागों में अलग करें, एक को भाषण शब्दकोश द्वारा विरल रूप से दर्शाया जा सकता है, और दूसरे भाग को शोर शब्दकोश द्वारा विरल रूप से दर्शाया जा सकता है। तीसरा, भाषण शब्दकोश द्वारा दर्शाया गया भाग अनुमानित स्वच्छ भाषण होगा।

जनसंख्या आनुवंशिकी
विरल एनएमएफ का उपयोग जनसंख्या आनुवंशिकी में व्यक्तिगत मिश्रण गुणांक का अनुमान लगाने, जनसंख्या नमूने में व्यक्तियों के आनुवंशिक समूहों का पता लगाने या नमूना जीनोम में आनुवंशिक मिश्रण का मूल्यांकन करने के लिए किया जाता है। मानव आनुवंशिक क्लस्टरिंग में, एनएमएफ अभिकलन कंप्यूटर प्रोग्राम संरचना के समान अनुमान प्रदान करते हैं, परंतु अभिकलन कम्प्यूटेशनल रूप से अधिक कुशल हैं और बड़ी जनसंख्या जीनोमिक डेटा सेट के विश्लेषण की अनुमति देते हैं।

जैव सूचना विज्ञान
जीन अभिव्यक्ति और डीएनए मिथाइलेशन डेटा को क्लस्टर करने और क्लस्टर के सबसे अधिक प्रतिनिधि जीन को खोजने के लिए एनएमएफ को जैव सूचना विज्ञान में सफलतापूर्वक लागू किया गया है। कैंसर उत्परिवर्तन के विश्लेषण में इसका उपयोग उत्परिवर्तन के सामान्य पैटर्न की पहचान करने के लिए किया गया है जो कई कैंसर में होते हैं और जिनके संभवतः अलग-अलग कारण होते हैं। एनएमएफ तकनीकें कोशिका प्रकार, रोग उपप्रकार, जनसंख्या स्तरीकरण, ऊतक संरचना और ट्यूमर क्लोनलिटी जैसे भिन्नता के स्रोतों की पहचान कर सकती हैं। एनएमएफ का एक विशेष प्रकार, अर्थात् गैर-नकारात्मक आव्यूहों त्रि-फैक्टराइजेशन (एनएमटीएफ), अनुमोदित दवाओं के लिए नवीन प्रोटीन लक्ष्य और चिकित्सीय संकेतों की भविष्यवाणी करने के लिए दवा पुनर्स्थापन कार्यों के लिए इसका उपयोग किया गया है और सहक्रियात्मक कैंसर रोधी दवाओं की जोड़ी का अनुमान लगाना।

परमाणु इमेजिंग
एनएमएफ, जिसे इस क्षेत्र में कारक विश्लेषण भी कहा जाता है, का उपयोग 1980 के दशक से किया जा रहा है SPECT और पोजीट्रान एमिशन टोमोग्राफी डायनेमिक मेडिकल इमेजिंग में छवियों के अनुक्रम का विश्लेषण करने के लिए। एनएमएफ की गैर-विशिष्टता को विरलता बाधाओं का उपयोग करके संबोधित किया गया था।

वर्तमान शोध
गैर-नकारात्मक आव्यूहों गुणनखंडन में वर्तमान शोध (2010 से) में सम्मिलित है, परंतु यह इन्हीं तक सीमित नहीं है,


 * 1) एल्गोरिथम: कारकों और कारक आरंभीकरण के वैश्विक न्यूनतम की खोज।
 * 2) स्केलेबिलिटी: मिलियन-बाय-बिलियन आव्यूहों को कैसे गुणनखंडित किया जाए, जो वेब-स्केल डेटा माइनिंग में आम है, उदाहरण के लिए, डिस्ट्रीब्यूटेड नॉननेगेटिव आव्यूहों फैक्टराइजेशन (डीएनएमएफ) देखें, स्केलेबल नॉननेगेटिव आव्यूहों फैक्टराइजेशन (स्केलेबलएनएमएफ), वितरित स्टोकेस्टिक एकवचन मूल्य अपघटन।
 * 3) ऑनलाइन: स्क्रैच से पुन: गणना किए बिना नया डेटा आने पर फ़ैक्टराइज़ेशन को कैसे अपडेट किया जाए, उदाहरण के लिए, ऑनलाइन सीएनएससी देखें
 * 4) सामूहिक (संयुक्त) गुणनखंडन: बहु-दृश्य सीखने के लिए कई परस्पर संबंधित आव्यूहों का गुणनखंडन, उदाहरण के लिए मल्टी-व्यू क्लस्टरिंग, Coएनएमएफ देखें और मल्टीएनएमएफ
 * 5) कोहेन और रोथब्लम 1993 समस्या: क्या एक तर्कसंगत आव्यूहों में हमेशा न्यूनतम आंतरिक आयाम का एनएमएफ होता है जिसके कारक भी तर्कसंगत होते हैं। हाल ही में, इस समस्या का नकारात्मक उत्तर दिया गया है।

यह भी देखें

 * बहुरेखीय बीजगणित
 * मल्टीलिनियर सबस्पेस लर्निंग
 * टेन्सर
 * टेन्सर अपघटन
 * टेंसर सॉफ्टवेयर

अन्य

 * आंद्रेज सिचोकी, मोर्टन मृप, और अन्य: नॉननेगेटिव मैट्रिक्स और टेन्सर फैक्टराइजेशन में प्रगति, हिंदवी प्रकाशन निगम, ISBN 978-9774540455 (2008)।
 * आंद्रेज सिचोकी, रफाल ज़डुनेक, अन्ह हुई फान और शुन-इची अमारी: नॉननेगेटिव मैट्रिक्स और टेन्सर फैक्टराइजेशन: एक्सप्लोरेटरी मल्टी-वे डेटा एनालिसिस और ब्लाइंड सोर्स सेपरेशन के लिए अनुप्रयोग, विले, ISBN 978-0470746660 (2009)।
 * एंड्री मिर्जाल: क्लस्टरिंग और एलएसआई के लिए गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन: सिद्धांत और प्रोग्रामिंग, एलएपी लैम्बर्ट अकादमिक प्रकाशन, ISBN 978-3844324891 (2011)।
 * योंग जियांग: ब्लाइंड सोर्स पृथक्करण: आश्रित घटक विश्लेषण, स्प्रिंगर, ISBN 978-9812872265 (2014)।
 * गणेश आर. नाइक (एड.): गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन तकनीक: सिद्धांत और अनुप्रयोगों में प्रगति, स्प्रिंगर, ISBN 978-3662517000 (2016)।
 * जूलियन बेकर: मोनोरल ऑडियो स्रोत पृथक्करण के लिए अनुकूली तत्वों के साथ गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन: 1, शेकर वेरलाग जीएमबीएच, जर्मनी, ISBN 978-3844048148 (2016)।
 * जेन-त्ज़ुंग चिएन: स्रोत पृथक्करण और मशीन लर्निंग, अकादमिक प्रेस, ISBN 978-0128177969 (2018)।
 * शोजी माकिनो (एड.): ऑडियो सोर्स सेपरेशन, स्प्रिंगर, ISBN 978-3030103033 (2019)।
 * निकोलस गिलिस: नॉननेगेटिव मैट्रिक्स फैक्टराइजेशन, सियाम, आईएसबीएन 978-1-611976-40-3 (2020)।
 * आंद्रेज सिचोकी, रफाल ज़डुनेक, अन्ह हुई फान और शुन-इची अमारी: नॉननेगेटिव मैट्रिक्स और टेन्सर फैक्टराइजेशन: एक्सप्लोरेटरी मल्टी-वे डेटा एनालिसिस और ब्लाइंड सोर्स सेपरेशन के लिए अनुप्रयोग, विले, ISBN 978-0470746660 (2009)।
 * एंड्री मिर्जाल: क्लस्टरिंग और एलएसआई के लिए गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन: सिद्धांत और प्रोग्रामिंग, एलएपी लैम्बर्ट अकादमिक प्रकाशन, ISBN 978-3844324891 (2011)।
 * योंग जियांग: ब्लाइंड सोर्स पृथक्करण: आश्रित घटक विश्लेषण, स्प्रिंगर, ISBN 978-9812872265 (2014)।
 * गणेश आर. नाइक (एड.): गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन तकनीक: सिद्धांत और अनुप्रयोगों में प्रगति, स्प्रिंगर, ISBN 978-3662517000 (2016)।
 * जूलियन बेकर: मोनोरल ऑडियो स्रोत पृथक्करण के लिए अनुकूली तत्वों के साथ गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन: 1, शेकर वेरलाग जीएमबीएच, जर्मनी, ISBN 978-3844048148 (2016)।
 * जेन-त्ज़ुंग चिएन: स्रोत पृथक्करण और मशीन लर्निंग, अकादमिक प्रेस, ISBN 978-0128177969 (2018)।
 * शोजी माकिनो (एड.): ऑडियो सोर्स सेपरेशन, स्प्रिंगर, ISBN 978-3030103033 (2019)।
 * निकोलस गिलिस: नॉननेगेटिव मैट्रिक्स फैक्टराइजेशन, सियाम, आईएसबीएन 978-1-611976-40-3 (2020)।

श्रेणी:रैखिक बीजगणित श्रेणी:आव्यूहों सिद्धांत श्रेणी:मशीन लर्निंग अभिकलन श्रेणी:गुणनखंडन