अव्यक्त शब्दार्थ विश्लेषण

अव्यक्त सिमेंटिक विश्लेषण (एलएसए) प्राकृतिक भाषा प्रसंस्करण में एक तकनीक है, विशेष रूप से वितरण शब्दार्थ में, दस्तावेजों के एक सेट के बीच संबंधों का विश्लेषण करने और दस्तावेजों और शब्दों से संबंधित अवधारणाओं का एक सेट तैयार करके उनमें निहित शब्द हैं। एलएसए मानता है कि शब्द जो अर्थ में करीब हैं, पाठ के समान टुकड़ों (वितरण संबंधी शब्दार्थ) में घटित होंगे। एक मैट्रिक्स जिसमें प्रति दस्तावेज़ शब्द गणना होती है (पंक्तियाँ अद्वितीय शब्दों का प्रतिनिधित्व करती हैं और कॉलम प्रत्येक दस्तावेज़ का प्रतिनिधित्व करते हैं) पाठ के एक बड़े टुकड़े से निर्मित होता है और एक गणितीय तकनीक जिसे एकवचन मूल्य अपघटन (एसवीडी) कहा जाता है, का उपयोग समानता संरचना को संरक्षित करते हुए पंक्तियों की संख्या को कम करने के लिए किया जाता है। स्तंभों के बीच। दस्तावेजों की तुलना किन्हीं भी दो स्तंभों के बीच कोसाइन समानता द्वारा की जाती है। 1 के करीब के मान बहुत ही समान दस्तावेज़ों का प्रतिनिधित्व करते हैं जबकि 0 के करीब के मान बहुत भिन्न दस्तावेज़ों का प्रतिनिधित्व करते हैं। 1988 में अव्यक्त सिमेंटिक संरचना का उपयोग कर एक सूचना पुनर्प्राप्ति तकनीक का पेटेंट कराया गया था (US पेटेंट 4,839,853, अब समाप्त हो गया है) स्कॉट डियरवेस्टर, सुसान डुमिस, जॉर्ज फर्नेस द्वारा, रिचर्ड हर्षमैन, थॉमस लैंडौएर, करें लोचबाउम और लिन स्ट्रीटर। सूचना पुनर्प्राप्ति के लिए इसके अनुप्रयोग के संदर्भ में, इसे कभी-कभी अव्यक्त सिमेंटिक इंडेक्सिंग (LSI) कहा जाता है।

घटना मैट्रिक्स
एलएसए एक दस्तावेज़-शब्द मैट्रिक्स का उपयोग कर सकता है जो दस्तावेज़ों में शर्तों की घटनाओं का वर्णन करता है; यह एक विरल मैट्रिक्स है जिसकी पंक्तियाँ शब्दावली के अनुरूप हैं और जिनके कॉलम दस्तावेज़ों के अनुरूप हैं। मैट्रिक्स के तत्वों के भार का एक विशिष्ट उदाहरण tf-idf (टर्म फ़्रीक्वेंसी-इनवर्स डॉक्यूमेंट फ़्रीक्वेंसी) है: मैट्रिक्स के एक तत्व का वजन प्रत्येक दस्तावेज़ में दिखाई देने वाली संख्या के अनुपात में होता है, जहाँ दुर्लभ शब्द उनके सापेक्ष महत्व को दर्शाने के लिए भारित किया जाता है।

यह मैट्रिक्स मानक सिमेंटिक मॉडल के लिए भी सामान्य है, हालांकि यह आवश्यक रूप से मैट्रिक्स के रूप में स्पष्ट रूप से व्यक्त नहीं किया गया है, क्योंकि मैट्रिसेस के गणितीय गुणों का हमेशा उपयोग नहीं किया जाता है।

रैंक कम करना
घटना मैट्रिक्स के निर्माण के बाद, एलएसए एक निम्न-श्रेणी सन्निकटन पाता है टर्म-डॉक्यूमेंट मैट्रिक्स के लिए। इन अनुमानों के विभिन्न कारण हो सकते हैं:


 * मूल शब्द-दस्तावेज़ मैट्रिक्स को कंप्यूटिंग संसाधनों के लिए बहुत बड़ा माना जाता है; इस मामले में, अनुमानित निम्न रैंक मैट्रिक्स की व्याख्या एक सन्निकटन (न्यूनतम और आवश्यक बुराई) के रूप में की जाती है।
 * मूल शब्द-दस्तावेज़ मैट्रिक्स को शोर माना जाता है: उदाहरण के लिए, शर्तों के उपाख्यानात्मक उदाहरणों को समाप्त किया जाना है। इस दृष्टिकोण से, अनुमानित मैट्रिक्स को डी-नोइसीफाइड मैट्रिक्स (मूल से बेहतर मैट्रिक्स) के रूप में व्याख्या किया जाता है।
 * मूल शब्द-दस्तावेज़ मैट्रिक्स को वास्तविक शब्द-दस्तावेज़ मैट्रिक्स के सापेक्ष अत्यधिक विरल मैट्रिक्स माना जाता है। अर्थात्, मूल मैट्रिक्स प्रत्येक दस्तावेज़ में वास्तव में केवल शब्दों को सूचीबद्ध करता है, जबकि हमें प्रत्येक दस्तावेज़ से संबंधित सभी शब्दों में रुचि हो सकती है - आम तौर पर समानार्थक शब्द के कारण बहुत बड़ा सेट।

रैंक कम होने का परिणाम यह है कि कुछ आयाम संयुक्त होते हैं और एक से अधिक पदों पर निर्भर होते हैं:


 * {(कार), (ट्रक), (फूल)} --> {(1.3452 * कार + 0.2828 * ट्रक), (फूल)}

यह पर्यायवाची की पहचान करने की समस्या को कम करता है, क्योंकि रैंक कम करने से समान अर्थ वाले शब्दों से जुड़े आयामों को मर्ज करने की उम्मीद की जाती है। यह बहुपत्नी के साथ समस्या को आंशिक रूप से कम करता है, क्योंकि बहुपत्नी शब्दों के घटक जो सही दिशा में इंगित करते हैं, उन शब्दों के घटकों में जोड़े जाते हैं जो समान अर्थ साझा करते हैं। इसके विपरीत, घटक जो अन्य दिशाओं में इंगित करते हैं, वे या तो बस रद्द कर देते हैं, या सबसे खराब, इच्छित अर्थ के अनुरूप दिशाओं में घटकों से छोटे होते हैं।

व्युत्पत्ति
होने देना $$X$$ एक मैट्रिक्स बनें जहां तत्व $$(i,j)$$ अवधि की घटना का वर्णन करता है $$i$$ दस्तावेज़ में $$j$$ (यह हो सकता है, उदाहरण के लिए, आवृत्ति)। $$X$$ इस तरह दिखेगा:



\begin{matrix} & \textbf{d}_j \\ & \downarrow \\ \textbf{t}_i^T \rightarrow & \begin{bmatrix} x_{1,1} & \dots & x_{1,j} & \dots & x_{1,n} \\ \vdots & \ddots & \vdots & \ddots & \vdots \\ x_{i,1} & \dots & x_{i,j} & \dots & x_{i,n} \\ \vdots & \ddots & \vdots & \ddots & \vdots \\ x_{m,1} & \dots & x_{m,j} & \dots & x_{m,n} \\ \end{bmatrix} \end{matrix} $$ अब इस मैट्रिक्स में एक पंक्ति एक शब्द के अनुरूप एक सदिश होगी, जो प्रत्येक दस्तावेज़ से अपना संबंध देती है:


 * $$\textbf{t}_i^T = \begin{bmatrix} x_{i,1} & \dots & x_{i,j} & \dots & x_{i,n} \end{bmatrix}$$

इसी तरह, इस मैट्रिक्स में एक कॉलम एक दस्तावेज के अनुरूप एक सदिश होगा, जो प्रत्येक शब्द के संबंध को बताता है:


 * $$\textbf{d}_j = \begin{bmatrix}

x_{1,j} \\ \vdots \\ x_{i,j} \\ \vdots \\ x_{m,j} \\ \end{bmatrix}$$ अब डॉट उत्पाद $$\textbf{t}_i^T \textbf{t}_p$$ दो टर्म वैक्टर के बीच दस्तावेजों के सेट पर शर्तों के बीच संबंध देता है। मैट्रिक्स उत्पाद $$X X^T$$ इन सभी डॉट उत्पादों को शामिल करता है। तत्व $$(i,p)$$ (जो तत्व के बराबर है $$(p,i)$$) डॉट उत्पाद शामिल है $$\textbf{t}_i^T \textbf{t}_p$$ ($$ = \textbf{t}_p^T \textbf{t}_i$$). इसी तरह, मैट्रिक्स $$X^T X$$ सभी दस्तावेज़ वैक्टरों के बीच डॉट उत्पादों को शामिल करता है, शर्तों पर उनका सहसंबंध देता है: $$\textbf{d}_j^T \textbf{d}_q = \textbf{d}_q^T \textbf{d}_j$$.

अब, रैखिक बीजगणित के सिद्धांत से, का अपघटन मौजूद है $$X$$ ऐसा है कि $$U$$ और $$V$$ ऑर्थोगोनल मैट्रिक्स हैं और $$\Sigma$$ एक विकर्ण मैट्रिक्स है। इसे एक विलक्षण मूल्य अपघटन (एसवीडी) कहा जाता है:



\begin{matrix} X = U \Sigma V^T \end{matrix} $$ मैट्रिक्स उत्पाद हमें शब्द और दस्तावेज़ सहसंबंध देते हैं, फिर बन जाते हैं



\begin{matrix} X X^T &=& (U \Sigma V^T) (U \Sigma V^T)^T = (U \Sigma V^T) (V^{T^T} \Sigma^T U^T) = U \Sigma V^T V \Sigma^T U^T = U \Sigma \Sigma^T U^T \\ X^T X &=& (U \Sigma V^T)^T (U \Sigma V^T) = (V^{T^T} \Sigma^T U^T) (U \Sigma V^T) = V \Sigma^T U^T U \Sigma V^T = V \Sigma^T \Sigma V^T \end{matrix} $$ तब से $$\Sigma \Sigma^T$$ और $$\Sigma^T \Sigma$$ विकर्ण हैं हम देखते हैं $$U$$ के eigenvectors शामिल होने चाहिए $$X X^T$$, जबकि $$V$$ का ईजेनवेक्टर होना चाहिए $$X^T X$$. दोनों उत्पादों में समान गैर-शून्य eigenvalues ​​​​हैं, जो गैर-शून्य प्रविष्टियों द्वारा दिए गए हैं $$\Sigma \Sigma^T$$, या समान रूप से, गैर-शून्य प्रविष्टियों द्वारा $$\Sigma^T\Sigma$$. अब अपघटन इस तरह दिखता है:



\begin{matrix} & X & & & U & & \Sigma & & V^T \\ & (\textbf{d}_j) & & & & & & & (\hat{\textbf{d}}_j) \\ & \downarrow & & & & & & & \downarrow \\ (\textbf{t}_i^T) \rightarrow & \begin{bmatrix} x_{1,1} & \dots & x_{1,j} & \dots & x_{1,n} \\ \vdots & \ddots & \vdots & \ddots & \vdots \\ x_{i,1} & \dots & x_{i,j} & \dots & x_{i,n} \\ \vdots & \ddots & \vdots & \ddots & \vdots \\ x_{m,1} & \dots & x_{m,j} & \dots & x_{m,n} \\ \end{bmatrix} & = & (\hat{\textbf{t}}_i^T) \rightarrow & \begin{bmatrix} \begin{bmatrix} \, \\ \, \\ \textbf{u}_1 \\ \, \\ \,\end{bmatrix} \dots \begin{bmatrix} \, \\ \, \\ \textbf{u}_l \\ \, \\ \, \end{bmatrix} \end{bmatrix} & \cdot & \begin{bmatrix} \sigma_1 & \dots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \dots & \sigma_l \\ \end{bmatrix} & \cdot & \begin{bmatrix} \begin{bmatrix} & & \textbf{v}_1 & & \end{bmatrix} \\ \vdots \\ \begin{bmatrix} & & \textbf{v}_l & & \end{bmatrix} \end{bmatrix} \end{matrix} $$ मूल्य $$\sigma_1, \dots, \sigma_l$$ एकवचन मान कहलाते हैं, और $$u_1, \dots, u_l$$ और $$v_1, \dots, v_l$$ बाएँ और दाएँ एकवचन वैक्टर। का एकमात्र भाग ध्यान दें $$U$$ जो इसमें योगदान देता है $$\textbf{t}_i$$ है $$i\textrm{'th}$$ पंक्ति। इस पंक्ति वेक्टर को कॉल करने दें $$\hat{\textrm{t}}^T_i$$. इसी तरह, का ही हिस्सा है $$V^T$$ जो इसमें योगदान देता है $$\textbf{d}_j$$ है $$j\textrm{'th}$$ कॉलम, $$\hat{ \textrm{d}}_j$$. ये ईजेनवेक्टर नहीं हैं, लेकिन सभी ईजेनवेक्टर पर निर्भर करते हैं।

यह पता चला है कि जब आप चुनते हैं $$k$$ सबसे बड़ा एकवचन मान, और उनके संबंधित एकवचन सदिश $$U$$ और $$V$$, आपको पद मिलता है $$k$$ के लिए सन्निकटन $$X$$ सबसे छोटी त्रुटि (फ्रोबेनियस मानदंड) के साथ। इस सन्निकटन में न्यूनतम त्रुटि है। लेकिन इससे भी महत्वपूर्ण बात यह है कि अब हम शब्द और दस्तावेज़ वैक्टर को सिमेंटिक स्पेस के रूप में देख सकते हैं। पंक्ति शब्द वेक्टर $$\hat{\textbf{t}}^T_i$$ उसके बाद है $$k$$ प्रविष्टियाँ इसे निम्न-आयामी स्थान पर मैप करती हैं। ये नए आयाम किसी भी बोधगम्य अवधारणा से संबंधित नहीं हैं। वे उच्च-आयामी स्थान के निम्न-आयामी सन्निकटन हैं। इसी तरह, दस्तावेज़ वेक्टर $$\hat{\textbf{d}}_j$$ इस निम्न-आयामी स्थान में एक सन्निकटन है। हम इस सन्निकटन को इस प्रकार लिखते हैं


 * $$X_k = U_k \Sigma_k V_k^T$$

अब आप निम्न कार्य कर सकते हैं:
 * कैसे संबंधित दस्तावेज़ देखें $$j$$ और $$q$$ सदिशों की तुलना करके निम्न-आयामी स्थान में हैं $$\Sigma_k \cdot \hat{\textbf{d}}_j $$ और $$\Sigma_k \cdot \hat{\textbf{d}}_q $$ (आमतौर पर वेक्टर अंतरिक्ष मॉडल  द्वारा)।
 * शर्तों की तुलना करना $$i$$ और $$p$$ वैक्टर की तुलना करके $$\Sigma_k \cdot \hat{\textbf{t}}_i$$ और $$\Sigma_k \cdot \hat{\textbf{t}}_p$$. ध्यान दें कि $$\hat{\textbf{t}}$$ अब एक कॉलम वेक्टर है।
 * दस्तावेजों और टर्म वेक्टर प्रस्तुतियों को कोसाइन जैसे समानता उपायों का उपयोग करके पारंपरिक क्लस्टरिंग एल्गोरिदम जैसे के-साधनों का उपयोग करके क्लस्टर किया जा सकता है।
 * किसी प्रश्न को देखते हुए, इसे एक लघु दस्तावेज़ के रूप में देखें, और निम्न-आयामी स्थान में अपने दस्तावेज़ों से इसकी तुलना करें।

उत्तरार्द्ध करने के लिए, आपको पहले अपनी क्वेरी को निम्न-आयामी स्थान में अनुवादित करना होगा। यह तब सहज है कि आपको उसी परिवर्तन का उपयोग करना चाहिए जिसका उपयोग आप अपने दस्तावेज़ों में करते हैं:


 * $$\hat{\textbf{d}}_j = \Sigma_k^{-1}U_k^T{\textbf{d}}_j $$

यहाँ ध्यान दें कि विकर्ण मैट्रिक्स का व्युत्क्रम $$\Sigma_k$$ मैट्रिक्स के भीतर प्रत्येक अशून्य मान को उल्टा करके पाया जा सकता है।

इसका मतलब है कि यदि आपके पास एक क्वेरी वेक्टर है $$q$$, आपको अनुवाद करना होगा $$\hat{\textbf{q}} = \Sigma_k^{-1} U_k^T \textbf{q}$$ इससे पहले कि आप इसकी तुलना निम्न-आयामी अंतरिक्ष में दस्तावेज़ वैक्टर से करें। आप छद्म टर्म वैक्टर के लिए भी ऐसा कर सकते हैं:


 * $$\textbf{t}_i^T = \hat{\textbf{t}}_i^T \Sigma_k V_k^T$$
 * $$\hat{\textbf{t}}_i^T = \textbf{t}_i^T V_k^{-T} \Sigma_k^{-1} = \textbf{t}_i^T V_k \Sigma_k^{-1}$$
 * $$\hat{\textbf{t}}_i = \Sigma_k^{-1} V_k^T \textbf{t}_i$$

अनुप्रयोग
नए निम्न-आयामी स्थान का आमतौर पर उपयोग किया जा सकता है: प्राकृतिक भाषा प्रसंस्करण में पर्यायवाची और बहुरूपी मूलभूत समस्याएं हैं:
 * निम्न-आयामी स्थान (डेटा क्लस्टरिंग, दस्तावेज़ वर्गीकरण) में दस्तावेज़ों की तुलना करें।
 * अनुवादित दस्तावेज़ों के आधार सेट (क्रॉस-लैंग्वेज सूचना पुनर्प्राप्ति) का विश्लेषण करने के बाद, सभी भाषाओं में समान दस्तावेज़ खोजें।
 * शब्दों (पर्यायवाची और बहुपत्नी) के बीच संबंध खोजें।
 * शर्तों की एक क्वेरी को देखते हुए, इसे निम्न-आयामी स्थान में अनुवादित करें, और मेल खाने वाले दस्तावेज़ (सूचना पुनर्प्राप्ति) खोजें।
 * सिमेंटिक तरीके से शब्दों के छोटे समूहों के बीच सबसे अच्छी समानता खोजें (अर्थात ज्ञान कोष के संदर्भ में), उदाहरण के लिए बहुविकल्पीय प्रश्नों में बहुविकल्पीय प्रश्न उत्तर मॉडल।
 * मशीन लर्निंग / टेक्स्ट माइनिंग सिस्टम के फीचर स्पेस का विस्तार करें
 * टेक्स्ट कॉर्पस में शब्द संघ का विश्लेषण करें
 * पर्यायवाची वह घटना है जहाँ विभिन्न शब्द एक ही विचार का वर्णन करते हैं। इस प्रकार, एक खोज इंजन में एक क्वेरी एक प्रासंगिक दस्तावेज़ को पुनः प्राप्त करने में विफल हो सकती है जिसमें क्वेरी में दिखाई देने वाले शब्द शामिल नहीं हैं। उदाहरण के लिए, डॉक्टरों के लिए एक खोज चिकित्सक शब्द वाले दस्तावेज़ को वापस नहीं लौटा सकती है, भले ही शब्दों का अर्थ समान हो।
 * अनेकार्थी शब्द वह परिघटना है जहाँ एक ही शब्द के अनेक अर्थ होते हैं। इसलिए एक खोज गलत अर्थ में वांछित शब्दों वाले अप्रासंगिक दस्तावेजों को पुनः प्राप्त कर सकती है। उदाहरण के लिए, पेड़ शब्द की तलाश में एक वनस्पतिशास्त्री और एक कंप्यूटर वैज्ञानिक शायद दस्तावेज़ों के अलग-अलग सेट चाहते हैं।

वाणिज्यिक अनुप्रयोग
पेटेंट के लिए पूर्व कला खोजों को करने में सहायता के लिए एलएसए का उपयोग किया गया है।

मानव स्मृति में अनुप्रयोग
अव्यक्त सिमेंटिक विश्लेषण का उपयोग मानव स्मृति के अध्ययन में प्रचलित रहा है, विशेष रूप से मुक्त स्मरण और स्मृति खोज के क्षेत्रों में। दो शब्दों की शब्दार्थ समानता (जैसा कि एलएसए द्वारा मापा जाता है) के बीच एक सकारात्मक संबंध है और संभावना है कि यादृच्छिक सामान्य संज्ञाओं की अध्ययन सूची का उपयोग करके शब्दों को एक के बाद एक मुफ्त रिकॉल कार्यों में वापस बुलाया जाएगा। उन्होंने यह भी नोट किया कि इन स्थितियों में, समान शब्दों के बीच अंतर-प्रतिक्रिया समय भिन्न शब्दों के बीच की तुलना में बहुत तेज था। इन निष्कर्षों को सिमेंटिक निकटता प्रभाव के रूप में जाना जाता है। जब प्रतिभागियों ने अध्ययन की गई वस्तुओं को याद करने में गलतियाँ कीं, तो ये गलतियाँ उन वस्तुओं के रूप में हुईं जो वांछित वस्तु से अधिक शब्दार्थ से संबंधित थीं और पहले से अध्ययन की गई सूची में पाई गईं। ये पूर्व-सूची घुसपैठ, जैसा कि उन्हें कहा जाने लगा है, याद करने के लिए वर्तमान सूची में वस्तुओं के साथ प्रतिस्पर्धा करने लगते हैं। एक अन्य मॉडल, जिसे वर्ड एसोसिएशन स्पेसेस (WAS) कहा जाता है, का उपयोग मेमोरी स्टडीज में प्रयोगों की एक श्रृंखला से मुक्त एसोसिएशन डेटा एकत्र करके किया जाता है और जिसमें 72,000 से अधिक विशिष्ट शब्द जोड़े के लिए शब्द संबंधितता के उपाय शामिल हैं।

कार्यान्वयन
एकवचन मूल्य अपघटन आमतौर पर बड़े मैट्रिक्स विधियों (उदाहरण के लिए, लैंक्ज़ोस विधियों) का उपयोग करके गणना की जाती है, लेकिन एक तंत्रिका नेटवर्क जैसे दृष्टिकोण के माध्यम से वृद्धिशील रूप से और बहुत कम संसाधनों के साथ भी गणना की जा सकती है, जिसके लिए बड़े, पूर्ण-रैंक मैट्रिक्स की आवश्यकता नहीं होती है। स्मृति में आयोजित। हाल ही में एक तेज़, वृद्धिशील, कम-स्मृति, बड़ा-मैट्रिक्स SVD एल्गोरिथम विकसित किया गया है। MATLAB और Python इन तेज़ एल्गोरिदम के कार्यान्वयन उपलब्ध हैं। गोरेल और वेब (2005) के स्टोकेस्टिक सन्निकटन के विपरीत, ब्रांड का एल्गोरिदम (2003) एक सटीक समाधान प्रदान करता है। हाल के वर्षों में एसवीडी की कम्प्यूटेशनल जटिलता को कम करने के लिए प्रगति हुई है; उदाहरण के लिए, समानांतर ईजेनवैल्यू अपघटन करने के लिए एक समानांतर ARPACK एल्गोरिथ्म का उपयोग करके तुलनीय भविष्यवाणी गुणवत्ता प्रदान करते हुए SVD संगणना लागत को गति देना संभव है।

सीमाएं
एलएसए की कुछ कमियों में शामिल हैं:


 * परिणामी आयामों की व्याख्या करना कठिन हो सकता है। उदाहरण के लिए, में
 * {(कार), (ट्रक), (फूल)} ↦ {(1.3452 * कार + 0.2828 * ट्रक), (फूल)}
 * (1.3452 * कार + 0.2828 * ट्रक) घटक को वाहन के रूप में समझा जा सकता है। हालांकि, यह बहुत संभावना है कि मामले करीब हैं
 * {(कार), (बोतल), (फूल)} ↦ {(1.3452 * कार + 0.2828 * बोतल), (फूल)}
 * घटेगा। यह उन परिणामों की ओर ले जाता है जिन्हें गणितीय स्तर पर उचित ठहराया जा सकता है, लेकिन प्राकृतिक भाषा में इसका कोई स्पष्ट अर्थ नहीं है। हालांकि, (1.3452 * कार + 0.2828 * बोतल) घटक को इस तथ्य के कारण उचित ठहराया जा सकता है कि बोतलों और कारों दोनों में पारदर्शी और अपारदर्शी हिस्से होते हैं, मानव निर्मित होते हैं और उच्च संभावना के साथ उनकी सतह पर लोगो/शब्द होते हैं; इस प्रकार, कई मायनों में ये दो अवधारणाएँ शब्दार्थ को साझा करती हैं। अर्थात्, संबंधित भाषा के भीतर, असाइन करने के लिए आसानी से उपलब्ध शब्द नहीं हो सकता है और सरल शब्द/वर्ग/अवधारणा असाइनमेंट कार्य के विपरीत स्पष्टीकरण एक विश्लेषण कार्य बन जाता है।


 * एलएसए केवल आंशिक रूप से पॉलीसेमी (यानी, एक शब्द के कई अर्थ) पर कब्जा कर सकता है क्योंकि किसी शब्द की प्रत्येक घटना को एक ही अर्थ के रूप में माना जाता है क्योंकि शब्द को अंतरिक्ष में एक बिंदु के रूप में दर्शाया जाता है। उदाहरण के लिए, बोर्ड के अध्यक्ष वाले दस्तावेज़ में और कुर्सी निर्माता वाले एक अलग दस्तावेज़ में कुर्सी की घटना को समान माना जाता है। कॉर्पस में सभी शब्दों के अलग-अलग अर्थों का 'औसत' होने के कारण वेक्टर प्रतिनिधित्व में व्यवहार का परिणाम होता है, जो तुलना के लिए मुश्किल बना सकता है। हालाँकि, प्रभाव अक्सर कम हो जाता है क्योंकि शब्दों में एक कॉर्पस में एक शब्द बोध होता है (अर्थात सभी अर्थ समान रूप से होने की संभावना नहीं है)।
 * शब्द मॉडल का बैग (बीओडब्ल्यू) की सीमाएं, जहां एक पाठ को शब्दों के एक अनियंत्रित संग्रह के रूप में दर्शाया जाता है। शब्द मॉडल (बीओडब्ल्यू) के बैग की कुछ सीमाओं को संबोधित करने के लिए, ए एन ग्राम | मल्टी-ग्राम शब्दकोश का उपयोग प्रत्यक्ष और अप्रत्यक्ष सहयोग के साथ-साथ उच्च-क्रम के आंकड़ों को खोजने के लिए किया जा सकता है। शब्दों के बीच उच्च-क्रम सह-घटनाएं।
 * एलएसए का संभाव्य मॉडल देखे गए डेटा से मेल नहीं खाता है: एलएसए मानता है कि शब्द और दस्तावेज़ एक संयुक्त सामान्य वितरण मॉडल (एर्गोडिक परिकल्पना) बनाते हैं, जबकि एक पॉइसन वितरण देखा गया है। इस प्रकार, एक नया विकल्प एक बहुराष्ट्रीय वितरण मॉडल के आधार पर संभाव्य अव्यक्त सिमेंटिक विश्लेषण है, जो मानक एलएसए से बेहतर परिणाम देने के लिए रिपोर्ट किया गया है।

सिमेंटिक हैशिंग
सिमेंटिक हैशिंग में दस्तावेजों को एक तंत्रिका नेटवर्क के माध्यम से स्मृति पतों पर मैप किया जाता है ताकि शब्दार्थ के समान दस्तावेज पास के पते पर स्थित हों। ध्यान लगा के पढ़ना या सीखना अनिवार्य रूप से दस्तावेजों के एक बड़े सेट से प्राप्त शब्द-गणना वैक्टर का एक ग्राफिकल मॉडल बनाता है। क्वेरी दस्तावेज़ के समान दस्तावेज़ों को केवल उन सभी पतों तक पहुँचने के द्वारा पाया जा सकता है जो क्वेरी दस्तावेज़ के पते से केवल कुछ बिट्स से भिन्न होते हैं। अनुमानित मिलान के लिए हैश-कोडिंग की दक्षता का विस्तार करने का यह तरीका स्थानीयता संवेदनशील हैशिंग की तुलना में बहुत तेज़ है, जो कि सबसे तेज़ मौजूदा तरीका है।

अव्यक्त सिमेंटिक इंडेक्सिंग
अव्यक्त सिमेंटिक इंडेक्सिंग (LSI) एक अनुक्रमण और पुनर्प्राप्ति विधि है जो एक गणितीय तकनीक का उपयोग करती है जिसे एकवचन मूल्य अपघटन (SVD) कहा जाता है ताकि पाठ के असंरचित संग्रह में निहित शब्दावली और अवधारणाओं के बीच संबंधों में पैटर्न की पहचान की जा सके। LSI इस सिद्धांत पर आधारित है कि समान संदर्भों में उपयोग किए जाने वाले शब्दों के समान अर्थ होते हैं। एलएसआई की एक प्रमुख विशेषता समान संदर्भ (भाषा उपयोग) में आने वाले उन शब्दों के बीच जुड़ाव स्थापित करके टेक्स्ट कॉर्पस की वैचारिक सामग्री को निकालने की इसकी क्षमता है। एलएसआई पत्राचार विश्लेषण का भी एक अनुप्रयोग है, जो जीन-पॉल बेंज़ेरी द्वारा विकसित एक बहुभिन्नरूपी सांख्यिकीय तकनीक है 1970 के दशक की शुरुआत में, दस्तावेजों में शब्द गणना से निर्मित एक आकस्मिक तालिका के लिए।

बुलाया सहसंबद्ध होने की क्षमता के कारण अनुक्रमण संबंधित शब्द हैं  पाठ के संग्रह में, इसे पहली बार 1980 के दशक के अंत में बेलकोर में पाठ पर लागू किया गया था। विधि, जिसे अव्यक्त सिमेंटिक विश्लेषण (एलएसए) भी कहा जाता है, पाठ के शरीर में शब्दों के उपयोग में अंतर्निहित अव्यक्त शब्दार्थ संरचना को उजागर करता है और इसका उपयोग उपयोगकर्ता प्रश्नों के जवाब में पाठ के अर्थ को निकालने के लिए कैसे किया जा सकता है, जिसे आमतौर पर संदर्भित किया जाता है। अवधारणा खोज के रूप में। एलएसआई से गुजरने वाले दस्तावेजों के एक सेट के खिलाफ प्रश्न, या अवधारणा खोज, ऐसे परिणाम लौटाएंगे जो वैचारिक रूप से खोज मानदंड के अर्थ में समान हैं, भले ही परिणाम खोज मानदंड के साथ एक विशिष्ट शब्द या शब्द साझा न करें।

एलएसआई के लाभ
एलएसआई मूल्यांकन उपायों (सूचना पुनर्प्राप्ति) को बढ़ाकर समतुल्यता को दूर करने में मदद करता है # याद करें, बूलियन खोज और वेक्टर अंतरिक्ष मॉडल की सबसे समस्याग्रस्त बाधाओं में से एक। दस्तावेजों के लेखकों और सूचना पुनर्प्राप्ति प्रणालियों के उपयोगकर्ताओं द्वारा उपयोग की जाने वाली शब्दावली में समानार्थी अक्सर बेमेल का कारण होता है। परिणामस्वरूप, बूलियन या कीवर्ड प्रश्न अक्सर अप्रासंगिक परिणाम लौटाते हैं और प्रासंगिक जानकारी खो देते हैं।

LSI का उपयोग स्वचालित दस्तावेज़ वर्गीकरण करने के लिए भी किया जाता है। वास्तव में, कई प्रयोगों ने प्रदर्शित किया है कि एलएसआई और मानव जिस तरह से पाठ को संसाधित और वर्गीकृत करते हैं, उसके बीच कई संबंध हैं। दस्तावेज़ वर्गीकरण श्रेणियों की वैचारिक सामग्री की समानता के आधार पर एक या अधिक पूर्वनिर्धारित श्रेणियों के लिए दस्तावेज़ों का असाइनमेंट है। एलएसआई प्रत्येक श्रेणी के लिए वैचारिक आधार स्थापित करने के लिए उदाहरण दस्तावेजों का उपयोग करता है। वर्गीकरण प्रसंस्करण के दौरान, वर्गीकृत किए जा रहे दस्तावेजों में निहित अवधारणाओं की तुलना उदाहरण वस्तुओं में निहित अवधारणाओं से की जाती है, और एक श्रेणी (या श्रेणियां) दस्तावेजों को उन अवधारणाओं के बीच समानता के आधार पर सौंपी जाती है जो उनमें शामिल होती हैं और जो अवधारणाएं निहित होती हैं। उदाहरण दस्तावेजों में।

दस्तावेजों की वैचारिक सामग्री के आधार पर गतिशील क्लस्टरिंग भी एलएसआई का उपयोग करके पूरा किया जा सकता है। क्लस्टरिंग प्रत्येक क्लस्टर के लिए वैचारिक आधार स्थापित करने के लिए उदाहरण दस्तावेजों का उपयोग किए बिना एक दूसरे के लिए उनकी वैचारिक समानता के आधार पर समूह दस्तावेजों का एक तरीका है। असंरचित पाठ के अज्ञात संग्रह से निपटने के दौरान यह बहुत उपयोगी है।

क्योंकि यह कड़ाई से गणितीय दृष्टिकोण का उपयोग करता है, LSI स्वाभाविक रूप से भाषा से स्वतंत्र है। यह LSI को सहायक संरचनाओं, जैसे शब्दकोशों और थिसौरी के उपयोग की आवश्यकता के बिना किसी भी भाषा में लिखी गई जानकारी की शब्दार्थ सामग्री को प्राप्त करने में सक्षम बनाता है। एलएसआई क्रॉस-भाषाई अवधारणा खोज और उदाहरण-आधारित वर्गीकरण भी कर सकता है। उदाहरण के लिए, प्रश्न एक भाषा में किए जा सकते हैं, जैसे कि अंग्रेजी, और संकल्पनात्मक रूप से समान परिणाम लौटाए जाएंगे, भले ही वे पूरी तरह से अलग भाषा या कई भाषाओं से बने हों।

एलएसआई केवल शब्दों के साथ काम करने तक ही सीमित नहीं है। यह मनमाना चरित्र तार भी संसाधित कर सकता है। पाठ के रूप में व्यक्त की जा सकने वाली किसी भी वस्तु को LSI वेक्टर स्पेस में प्रदर्शित किया जा सकता है। उदाहरण के लिए, मेडलाइन सार के साथ परीक्षण ने दिखाया है कि मेडलाइन उद्धरणों के शीर्षक और सार में निहित जैविक जानकारी के वैचारिक मॉडलिंग के आधार पर एलएसआई जीन को प्रभावी ढंग से वर्गीकृत करने में सक्षम है। LSI स्वचालित रूप से नई और बदलती शब्दावली के अनुकूल हो जाता है, और शोर के प्रति बहुत सहिष्णु दिखाया गया है (यानी, गलत वर्तनी वाले शब्द, टाइपोग्राफ़िकल त्रुटियां, अपठनीय वर्ण, आदि)। ऑप्टिकल कैरेक्टर रिकॉग्निशन (ओसीआर) और स्पीच-टू-टेक्स्ट रूपांतरण से प्राप्त पाठ का उपयोग करने वाले अनुप्रयोगों के लिए यह विशेष रूप से महत्वपूर्ण है। LSI विरल, अस्पष्ट और विरोधाभासी डेटा से भी प्रभावी ढंग से निपटता है।

एलएसआई के प्रभावी होने के लिए टेक्स्ट का वाक्य रूप में होना आवश्यक नहीं है। यह सूचियों, फ्री-फॉर्म नोट्स, ईमेल, वेब-आधारित सामग्री आदि के साथ काम कर सकता है। मूलपाठ।

LSI कई वैचारिक मिलान समस्याओं के लिए एक उपयोगी समाधान साबित हुआ है। तकनीक को कारण, लक्ष्य-उन्मुख और टैक्सोनोमिक जानकारी सहित प्रमुख संबंध जानकारी को कैप्चर करने के लिए दिखाया गया है।

एलएसआई समयरेखा

 * 1960 के दशक के मध्य - कारक विश्लेषण तकनीक का पहली बार वर्णन और परीक्षण किया गया (एच. बोरको और एम. बर्निक)
 * 1988 - एलएसआई तकनीक पर सेमिनल पेपर प्रकाशित *1989 - मूल पेटेंट प्रदान किया गया *1992 - समीक्षकों को लेख सौंपने के लिए एलएसआई का पहला प्रयोग
 * 1994 - LSI (Landauer et al.) के क्रॉस-लिंगुअल एप्लिकेशन के लिए पेटेंट प्रदान किया गया।
 * 1995 - निबंधों की ग्रेडिंग के लिए एलएसआई का पहला प्रयोग (फोल्त्ज़, एट अल., लैंडौएर एट अल.)
 * 1999 - असंरचित पाठ के विश्लेषण के लिए खुफिया समुदाय के लिए एलएसआई तकनीक का पहला कार्यान्वयन (विज्ञान अनुप्रयोग अंतर्राष्ट्रीय निगम)।
 * 2002 - खुफिया-आधारित सरकारी एजेंसियों (एसएआईसी) को एलएसआई-आधारित उत्पाद की पेशकश

एलएसआई का गणित
पाठ के संग्रह में वैचारिक सहसंबंधों को सीखने के लिए LSI सामान्य रेखीय बीजगणित तकनीकों का उपयोग करता है। सामान्य तौर पर, प्रक्रिया में भारित शब्द-दस्तावेज़ मैट्रिक्स का निर्माण करना, मैट्रिक्स पर एक विलक्षण मूल्य अपघटन करना और पाठ में निहित अवधारणाओं की पहचान करने के लिए मैट्रिक्स का उपयोग करना शामिल है।

टर्म-दस्तावेज़ मैट्रिक्स
LSI टर्म-डॉक्यूमेंट मैट्रिक्स के निर्माण से शुरू होता है, $$A$$, की घटनाओं की पहचान करने के लिए $$m$$ के संग्रह के भीतर अद्वितीय शब्द $$n$$ दस्तावेज़। एक शब्द-दस्तावेज़ मैट्रिक्स में, प्रत्येक पद को एक पंक्ति द्वारा दर्शाया जाता है, और प्रत्येक दस्तावेज़ को एक स्तंभ द्वारा दर्शाया जाता है, प्रत्येक मैट्रिक्स सेल के साथ, $$a_{ij}$$, प्रारंभ में संकेतित दस्तावेज़ में संबंधित शब्द कितनी बार प्रकट होता है, इसका प्रतिनिधित्व करता है, $$\mathrm{tf_{ij}}$$. यह मैट्रिक्स आमतौर पर बहुत बड़ा और बहुत विरल होता है।

टर्म-डॉक्यूमेंट मैट्रिक्स के निर्माण के बाद, डेटा को कंडीशन करने के लिए स्थानीय और ग्लोबल वेटिंग फ़ंक्शंस को उस पर लागू किया जा सकता है। वेटिंग फ़ंक्शन प्रत्येक सेल को रूपांतरित करते हैं, $$a_{ij}$$ का $$A$$, एक स्थानीय शब्द भार का गुणनफल होने के लिए, $$l_{ij}$$, जो किसी दस्तावेज़ में किसी शब्द की सापेक्ष आवृत्ति और वैश्विक भार का वर्णन करता है, $$g_i$$, जो दस्तावेजों के संपूर्ण संग्रह के भीतर शब्द की सापेक्ष आवृत्ति का वर्णन करता है।

कुछ सामान्य स्थानीय भारोत्तोलन कार्य निम्न तालिका में परिभाषित किया गया है।

कुछ सामान्य ग्लोबल वेटिंग फ़ंक्शंस को निम्न तालिका में परिभाषित किया गया है।

एलएसआई के साथ अनुभवजन्य अध्ययन रिपोर्ट करते हैं कि लॉग और एंट्रॉपी वेटिंग फ़ंक्शन व्यवहार में, कई डेटा सेटों के साथ अच्छी तरह से काम करते हैं। दूसरे शब्दों में, प्रत्येक प्रविष्टि $$a_{ij}$$ का $$A$$ के रूप में गणना की जाती है:


 * $$g_i = 1 + \sum_j \frac{p_{ij} \log p_{ij}}{\log n}$$
 * $$a_{ij} = g_i \ \log (\mathrm{tf}_{ij} + 1)$$

रैंक-कम एकवचन मूल्य अपघटन
पाठ में निहित शब्दों और अवधारणाओं के बीच संबंधों में पैटर्न निर्धारित करने के लिए मैट्रिक्स पर एक रैंक-कम, एकवचन मूल्य अपघटन किया जाता है। एसवीडी एलएसआई की नींव रखता है। यह एकल शब्द-आवृत्ति मैट्रिक्स का अनुमान लगाकर शब्द और दस्तावेज़ वेक्टर रिक्त स्थान की गणना करता है, $$A$$, तीन अन्य मैट्रिसेस में- एक एम बाय आर शब्द-अवधारणा वेक्टर मैट्रिक्स $$T$$, a r by r एकवचन मान मैट्रिक्स $$S$$, और a n by r अवधारणा-दस्तावेज़ वेक्टर मैट्रिक्स, $$D$$, जो निम्नलिखित संबंधों को संतुष्ट करते हैं:

$$A \approx TSD^T$$

$$T^T T = I_r \quad D^T D = I_r $$

$$S_{1,1} \geq S_{2,2} \geq \ldots \geq S_{r,r} > 0 \quad S_{i,j} = 0 \; \text{where} \; i \neq j$$ सूत्र में, A को पाठ के संग्रह में शब्द आवृत्तियों के भारित मैट्रिक्स द्वारा m द्वारा आपूर्ति की जाती है, जहाँ m अद्वितीय शब्दों की संख्या है, और n है दस्तावेजों की संख्या। T शब्द सदिशों के r मैट्रिक्स द्वारा एक संगणित m है, जहाँ r A की कोटि है—इसके अद्वितीय आयामों का एक माप ≤ min(m,n)। S घटते एकवचन मानों का r विकर्ण मैट्रिक्स द्वारा परिकलित r है, और D दस्तावेज़ वैक्टर के r मैट्रिक्स द्वारा परिकलित n है।

एसवीडी तब एकवचन मूल्य अपघटन # कटा हुआ एसवीडी है जो केवल सबसे बड़े के «आर विकर्ण प्रविष्टियों को एकवचन मूल्य मैट्रिक्स एस में रखते हुए रैंक को कम करने के लिए है, जहाँ k आमतौर पर 100 से 300 आयामों के क्रम में होता है। यह प्रभावी ढंग से शब्द और दस्तावेज़ वेक्टर मैट्रिक्स आकार को क्रमशः m द्वारा k और n द्वारा k तक कम कर देता है। एसवीडी ऑपरेशन, इस कमी के साथ, ए के मूल स्थान के शोर और अन्य अवांछनीय कलाकृतियों को कम करते हुए पाठ में सबसे महत्वपूर्ण सिमेंटिक जानकारी को संरक्षित करने का प्रभाव है। मेट्रिसेस के इस कम सेट को अक्सर एक संशोधित सूत्र के साथ दर्शाया जाता है जैसे कि :


 * ए ≈ एk = टीk Sk Dk टी

पूर्ण एसवीडी की गणना करने और फिर इसे छोटा करने के विपरीत कुशल एलएसआई एल्गोरिदम केवल पहले के विलक्षण मूल्यों और शब्द और दस्तावेज़ वैक्टर की गणना करते हैं।

ध्यान दें कि यह रैंक कमी अनिवार्य रूप से मैट्रिक्स ए पर प्रमुख कंपोनेंट विश्लेषण  (पीसीए) करने के समान है, सिवाय इसके कि पीसीए साधनों को घटा देता है। पीसीए ए मैट्रिक्स की विरलता खो देता है, जो इसे बड़े लेक्सिकॉन के लिए अक्षम बना सकता है।

एलएसआई वेक्टर रिक्त स्थान को पूछताछ और बढ़ाना
परिकलित टीkऔर डीkमैट्रिसेस शब्द और दस्तावेज़ वेक्टर रिक्त स्थान को परिभाषित करते हैं, जो कि संगणित एकवचन मानों के साथ, Sk, दस्तावेज़ संग्रह से प्राप्त वैचारिक जानकारी को मूर्त रूप दें। इन स्थानों के भीतर शब्दों या दस्तावेजों की समानता इन स्थानों में एक दूसरे के कितने करीब है, इसका एक कारक है, आमतौर पर संबंधित वैक्टर के बीच कोण के एक समारोह के रूप में गणना की जाती है।

मौजूदा एलएसआई इंडेक्स के दस्तावेज़ स्थान के भीतर प्रश्नों के पाठ और नए दस्तावेज़ों का प्रतिनिधित्व करने वाले वैक्टरों का पता लगाने के लिए समान चरणों का उपयोग किया जाता है। ए = टी एस डी के एक साधारण परिवर्तन सेT समतुल्य D = A में समीकरणटी टी एस−1 समीकरण, एक प्रश्न के लिए या एक नए दस्तावेज़ के लिए एक नया वेक्टर, d, A में एक नए कॉलम की गणना करके और फिर नए कॉलम को T S से गुणा करके बनाया जा सकता है।-1. A में नए कॉलम की गणना मूल रूप से व्युत्पन्न ग्लोबल टर्म वेट का उपयोग करके की जाती है और उसी स्थानीय वेटिंग फ़ंक्शन को क्वेरी या नए दस्तावेज़ में शर्तों पर लागू किया जाता है।

नए खोजे जाने योग्य दस्तावेजों को जोड़ते समय इस तरह कंप्यूटिंग वैक्टरों में एक कमी यह है कि मूल सूचकांक के लिए एसवीडी चरण के दौरान अज्ञात शब्दों को नजरअंदाज कर दिया जाता है। इन शर्तों का पाठ के मूल संग्रह से प्राप्त वैश्विक भार और सीखे गए सहसंबंधों पर कोई प्रभाव नहीं पड़ेगा। हालाँकि, नए पाठ के लिए गणना किए गए वैक्टर अभी भी अन्य सभी दस्तावेज़ वैक्टरों के साथ समानता की तुलना के लिए बहुत प्रासंगिक हैं।

इस तरीके से नए दस्तावेज़ों के साथ LSI इंडेक्स के लिए दस्तावेज़ वेक्टर स्पेस को बढ़ाने की प्रक्रिया को 'फ़ोल्डिंग इन'' कहा जाता है। हालांकि फ़ोल्डिंग-इन प्रक्रिया नए पाठ की नई शब्दार्थ सामग्री के लिए जिम्मेदार नहीं है, इस तरह से पर्याप्त संख्या में दस्तावेज़ जोड़ने से प्रश्नों के लिए तब तक अच्छे परिणाम मिलेंगे जब तक कि उनमें शामिल शब्द और अवधारणाएँ LSI के भीतर अच्छी तरह से प्रस्तुत की जाती हैं। इंडेक्स जिसमें उन्हें जोड़ा जा रहा है। जब दस्तावेजों के एक नए सेट की शर्तों और अवधारणाओं को एलएसआई इंडेक्स में शामिल करने की आवश्यकता होती है, तो या तो टर्म-डॉक्यूमेंट मैट्रिक्स और एसवीडी को फिर से जोड़ा जाना चाहिए या एक वृद्धिशील अद्यतन विधि (जैसे कि वर्णित एक) ज़रूरी है।

एलएसआई
के अतिरिक्त उपयोग

यह आम तौर पर स्वीकार किया जाता है कि आधुनिक सूचना पुनर्प्राप्ति प्रणालियों के लिए सिमेंटिक आधार पर पाठ के साथ काम करने की क्षमता आवश्यक है। परिणामस्वरूप, हाल के वर्षों में LSI के उपयोग में काफी विस्तार हुआ है क्योंकि स्केलेबिलिटी और प्रदर्शन में पहले की चुनौतियाँ दूर हो गई हैं।

एलएसआई का उपयोग विभिन्न प्रकार की सूचना पुनर्प्राप्ति और पाठ प्रसंस्करण अनुप्रयोगों में किया जा रहा है, हालांकि इसका प्राथमिक अनुप्रयोग अवधारणा खोज और स्वचालित दस्तावेज़ वर्गीकरण के लिए किया गया है। नीचे कुछ अन्य तरीके दिए गए हैं जिनमें LSI का उपयोग किया जा रहा है:


 * सूचना खोज (इलेक्ट्रॉनिक डिस्कवरी, सरकार/खुफिया समुदाय, प्रकाशन)
 * स्वचालित दस्तावेज़ वर्गीकरण (ईडिस्कवरी, सरकार/खुफिया समुदाय, प्रकाशन)
 * स्वचालित सारांश (ई-खोज, प्रकाशन)
 * रिश्ते की खोज (सरकार, खुफिया समुदाय, सोशल नेटवर्किंग)
 * व्यक्तियों और संगठनों के लिंक चार्ट का स्वत: निर्माण (सरकार, खुफिया समुदाय)
 * समीक्षकों के साथ तकनीकी पत्रों और अनुदानों का मिलान करना (सरकार)
 * ऑनलाइन ग्राहक सहायता (ग्राहक प्रबंधन)
 * दस्तावेज़ ग्रन्थकारिता का निर्धारण (शिक्षा)
 * छवियों का स्वचालित कीवर्ड एनोटेशन
 * सॉफ्टवेयर स्रोत कोड को समझना (सॉफ्टवेयर इंजीनियरिंग)
 * फ़िल्टरिंग स्पैम (इलेक्ट्रॉनिक) (तंत्र अध्यक्ष)
 * सूचना दृश्य
 * स्वचालित निबंध स्कोरिंग (शिक्षा)
 * साहित्य आधारित खोज
 * स्टॉक रिटर्न की भविष्यवाणी * स्वप्न सामग्री विश्लेषण (मनोविज्ञान)

उद्यमों को मुकदमेबाजी के लिए तैयार करने में मदद करने के लिए इलेक्ट्रॉनिक दस्तावेज़ खोज (ईडिस्कवरी) के लिए एलएसआई का तेजी से उपयोग किया जा रहा है। ईडिस्कवरी में, वैचारिक आधार पर असंरचित पाठ के बड़े संग्रह को समूहीकृत करने, वर्गीकृत करने और खोजने की क्षमता आवश्यक है। अग्रणी प्रदाताओं द्वारा 2003 की शुरुआत में एलएसआई का उपयोग करते हुए अवधारणा-आधारित खोज को ईडिस्कवरी प्रक्रिया पर लागू किया गया है।

एलएसआई
के लिए चुनौतियां

LSI की शुरुआती चुनौतियाँ मापनीयता और प्रदर्शन पर केंद्रित थीं। एलएसआई को अन्य सूचना पुनर्प्राप्ति तकनीकों की तुलना में अपेक्षाकृत उच्च कम्प्यूटेशनल प्रदर्शन और मेमोरी की आवश्यकता होती है। हालांकि, आधुनिक हाई-स्पीड प्रोसेसर के कार्यान्वयन और सस्ती मेमोरी की उपलब्धता के साथ, ये विचार काफी हद तक दूर हो गए हैं। कुछ एलएसआई अनुप्रयोगों में मैट्रिक्स और एसवीडी संगणनाओं के माध्यम से पूरी तरह से संसाधित किए गए 30 मिलियन से अधिक दस्तावेजों वाले वास्तविक दुनिया के अनुप्रयोग आम हैं। LSI का एक पूरी तरह से स्केलेबल (दस्तावेजों की असीमित संख्या, ऑनलाइन प्रशिक्षण) कार्यान्वयन ओपन सोर्स gensim सॉफ्टवेयर पैकेज में निहित है। एलएसआई के लिए एक और चुनौती एसवीडी के प्रदर्शन के लिए उपयोग करने के लिए आयामों की इष्टतम संख्या निर्धारित करने में कथित कठिनाई रही है। एक सामान्य नियम के रूप में, कम आयाम पाठ के संग्रह में निहित अवधारणाओं की व्यापक तुलना की अनुमति देते हैं, जबकि आयामों की अधिक संख्या अवधारणाओं की अधिक विशिष्ट (या अधिक प्रासंगिक) तुलना करने में सक्षम बनाती है। उपयोग किए जा सकने वाले आयामों की वास्तविक संख्या संग्रह में दस्तावेज़ों की संख्या द्वारा सीमित है। अनुसंधान ने प्रदर्शित किया है कि लगभग 300 आयाम आमतौर पर मध्यम आकार के दस्तावेज़ संग्रह (सैकड़ों हजारों दस्तावेज़) और बड़े दस्तावेज़ संग्रह (लाखों दस्तावेज़) के लिए शायद 400 आयाम के साथ सर्वोत्तम परिणाम प्रदान करते हैं। हालाँकि, हाल के अध्ययनों से संकेत मिलता है कि दस्तावेज़ संग्रह के आकार और प्रकृति के आधार पर 50-1000 आयाम उपयुक्त हैं। एलएसआई के लिए इष्टतम आयाम निर्धारित करने के लिए प्रधान घटक विश्लेषण या कारक विश्लेषण के समान बनाए गए विचरण के अनुपात की जाँच करना। पर्यायवाची परीक्षण या लापता शब्दों की भविष्यवाणी का उपयोग करना सही आयाम खोजने के लिए दो संभावित तरीके हैं। जब एलएसआई विषयों को पर्यवेक्षित शिक्षण विधियों में सुविधाओं के रूप में उपयोग किया जाता है, तो आदर्श आयाम खोजने के लिए भविष्यवाणी त्रुटि माप का उपयोग किया जा सकता है।

यह भी देखें

 * कोह-मेट्रिक्स
 * कंपाउंड टर्म प्रोसेसिंग
 * वितरण शब्दार्थ
 * स्पष्ट शब्दार्थ विश्लेषण
 * अव्यक्त सिमेंटिक मैपिंग
 * अव्यक्त सिमेंटिक संरचना अनुक्रमण
 * प्रधान घटक विश्लेषण
 * संभाव्य अव्यक्त शब्दार्थ विश्लेषण
 * स्पैमडेक्सिंग
 * शब्द वेक्टर
 * विषय मॉडल
 * अव्यक्त डिरिचलेट आवंटन

अग्रिम पठन

 * Original article where the model was first exposed.
 * (PDF) . Illustration of the application of LSA to document retrieval.
 * (PDF) . Illustration of the application of LSA to document retrieval.

एलएसए पर लेख

 * Latent Semantic Analysis, एलएसए पर एक स्कॉलरपीडिया लेख, जिसे एलएसए के रचनाकारों में से एक, टॉम लैंडॉयर ने लिखा है।

वार्ता और प्रदर्शन

 * LSA अवलोकन, प्रो. थॉमस हॉफमैन द्वारा बातचीत एलएसए का वर्णन, सूचना पुनर्प्राप्ति में इसके अनुप्रयोग, और संभाव्य अव्यक्त सिमेंटिक विश्लेषण से इसके संबंध।
 * Windows के लिए C# में पूर्ण LSA नमूना कोड। डेमो कोड में टेक्स्ट फाइलों की गणना, स्टॉप वर्ड्स को फ़िल्टर करना, स्टेमिंग करना, डॉक्यूमेंट-टर्म मैट्रिक्स और एसवीडी बनाना शामिल है।

कार्यान्वयन
सूचना पुनर्प्राप्ति, प्राकृतिक भाषा प्रसंस्करण (एनएलपी), संज्ञानात्मक विज्ञान और कम्प्यूटेशनल भाषाविज्ञान में इसके क्रॉस-डोमेन अनुप्रयोगों के कारण, एलएसए को कई अलग-अलग प्रकार के अनुप्रयोगों का समर्थन करने के लिए लागू किया गया है।
 * सेंस क्लस्टर्स, एलएसए का एक सूचना पुनर्प्राप्ति-उन्मुख पर्ल कार्यान्वयन
 * एस-स्पेस पैकेज, एलएसए का कम्प्यूटेशनल भाषाविज्ञान और संज्ञानात्मक विज्ञान-उन्मुख जावा कार्यान्वयन
 * सिमेंटिक वेक्टर्स Lucene टर्म-डॉक्यूमेंट मैट्रिसेस पर रैंडम प्रोजेक्शन, LSA और रिफ्लेक्टिव रैंडम इंडेक्सिंग लागू करता है
 * Infomap Project, LSA का एक NLP-उन्मुख C कार्यान्वयन (सिमेंटिकवेक्टर प्रोजेक्ट द्वारा प्रतिस्थापित)
 * Text to Matrix Generator, पाठ संग्रह से शब्द-दस्तावेज़ मैट्रिक्स उत्पन्न करने के लिए एक MATLAB टूलबॉक्स, LSA के समर्थन के साथ
 * Gensim में RAM से बड़े मैट्रिसेस के लिए LSA का Python कार्यान्वयन शामिल है।

श्रेणी:सूचना पुनर्प्राप्ति तकनीकें श्रेणी:प्राकृतिक भाषा संसाधन श्रेणी:अव्यक्त चर मॉडल श्रेणी:सिमेंटिक संबंध