अव्यक्त शब्दार्थ विश्लेषण

अव्यक्त सिमेंटिक विश्लेषण (एलएसए) प्राकृतिक भाषा प्रसंस्करण में एक तकनीक है, विशेष रूप से वितरण सिमेंटिक में, दस्तावेजों के एक सेट के बीच संबंधों का विश्लेषण करने और दस्तावेजों और शब्दों से संबंधित अवधारणाओं का एक सेट तैयार करके उनमें निहित शब्द हैं। अव्यक्त सिमेंटिक विश्लेषण मानता है कि शब्द जो अर्थ के समीप हैं टेक्स्ट के समान भागों (वितरण संबंधी परिकल्पना) में घटित होंगे। एक मैट्रिक्स जिसमें प्रति दस्तावेज़ पंक्तियों में शब्द गणना होती है, पंक्तियाँ अद्वितीय शब्दों का प्रतिनिधित्व करती हैं और कॉलम प्रत्येक दस्तावेज़ का प्रतिनिधित्व करते हैं कि प्रत्येक दस्तावेज़ को टेक्स्ट के एक बड़े भाग से बनाया गया है और एक गणितीय तकनीक जिसे विलक्षण मान अपघटन (एसवीडी) कहा जाता है, का उपयोग कॉलमो के बीच समानता संरचना को संरक्षित करते हुए पंक्तियों की संख्या को कम करने के लिए किया जाता है। दस्तावेजों की तुलना किन्हीं भी दो कॉलमो के बीच कोसाइन समानता द्वारा की जाती है। और 1 के समीप के मान बहुत ही समान दस्तावेज़ों का प्रतिनिधित्व करते हैं जबकि 0 के समीप के मान बहुत भिन्न दस्तावेज़ों का प्रतिनिधित्व करते हैं।

1988 में स्कॉट डियरवेस्टर, सुसान डुमाइस, जॉर्ज फर्नास, रिचर्ड हर्षमैन, थॉमस लैंडौयर, करेन लोचबौम और लिन स्ट्रीटर द्वारा अव्यक्त सिमेंटिक संरचना का उपयोग करते हुए एक सूचना पुनर्प्राप्ति तकनीक का (यूएस पेटेंट 4,839,853, अब समाप्त हो गया है) पेटेंट कराया गया था। सूचना पुनर्प्राप्ति के लिए इसके एप्लीकेशन के संदर्भ में, इसे कभी-कभी अव्यक्त सिमेंटिक इंडेक्सिंग (एलएसआई) कहा जाता है।

घटना मैट्रिक्स
अव्यक्त सिमेंटिक विश्लेषण एक दस्तावेज़-शब्द मैट्रिक्स का उपयोग कर सकता है जो दस्तावेज़ों में शर्तों की घटनाओं का वर्णन करता है; यह एक विरल मैट्रिक्स है जिसकी पंक्तियाँ शर्तों के अनुरूप हैं और जिनके कॉलम दस्तावेज़ों के अनुरूप हैं। मैट्रिक्स के तत्वों के भार का एक विशिष्ट उदाहरण tf-idf (शब्द आवृत्ति-प्रतिवर्त दस्तावेज़ आवृत्ति) है: मैट्रिक्स के एक तत्व का भार प्रत्येक दस्तावेज़ में दिखाई देने वाली संख्या के अनुपात में होता है, जहाँ दुर्लभ शब्द उनके सापेक्ष महत्व को दर्शाने के लिए भारित किया जाता है।

यह मैट्रिक्स मानक सिमेंटिक मॉडल के लिए भी सामान्य है, हालांकि यह आवश्यक रूप से मैट्रिक्स के रूप में स्पष्ट रूप से व्यक्त नहीं किया गया है, क्योंकि मैट्रिसेस के गणितीय गुणों का सदैव उपयोग नहीं किया जाता है।

रैंक कम करना
घटना मैट्रिक्स के निर्माण के बाद, अव्यक्त सिमेंटिक विश्लेषण एक निम्न-श्रेणी सन्निकटन पाता है टर्म-डॉक्यूमेंट मैट्रिक्स के लिए। इन अनुमानों के विभिन्न कारण हो सकते हैं:


 * मूल शब्द-दस्तावेज़ मैट्रिक्स को कंप्यूटिंग संसाधनों के लिए बहुत बड़ा माना जाता है; इस मामले में, अनुमानित निम्न रैंक मैट्रिक्स की व्याख्या एक सन्निकटन (न्यूनतम और आवश्यक बुराई) के रूप में की जाती है।
 * मूल शब्द-दस्तावेज़ मैट्रिक्स को शोर माना जाता है: उदाहरण के लिए, शर्तों के उपाख्यानात्मक उदाहरणों को समाप्त किया जाना है। इस दृष्टिकोण से, अनुमानित मैट्रिक्स को डी-नोइसीफाइड मैट्रिक्स (मूल से बेहतर मैट्रिक्स) के रूप में व्याख्या किया जाता है।
 * मूल शब्द-दस्तावेज़ मैट्रिक्स को वास्तविक शब्द-दस्तावेज़ मैट्रिक्स के सापेक्ष अत्यधिक विरल मैट्रिक्स माना जाता है। अर्थात्, मूल मैट्रिक्स प्रत्येक दस्तावेज़ में वास्तव में केवल शब्दों को सूचीबद्ध करता है, जबकि हमें प्रत्येक दस्तावेज़ से संबंधित सभी शब्दों में रुचि हो सकती है - आम तौर पर समानार्थक शब्द के कारण बहुत बड़ा सेट।

रैंक कम होने का परिणाम यह है कि कुछ आयाम संयुक्त होते हैं और एक से अधिक पदों पर निर्भर होते हैं:


 * {(कार), (ट्रक), (फूल)} --> {(1.3452 * कार + 0.2828 * ट्रक), (फूल)}

यह पर्यायवाची की पहचान करने की समस्या को कम करता है, क्योंकि रैंक कम करने से समान अर्थ वाले शब्दों से जुड़े आयामों को मर्ज करने की उम्मीद की जाती है। यह बहुपत्नी के साथ समस्या को आंशिक रूप से कम करता है, क्योंकि बहुपत्नी शब्दों के घटक जो सही दिशा में इंगित करते हैं, उन शब्दों के घटकों में जोड़े जाते हैं जो समान अर्थ साझा करते हैं। इसके विपरीत, घटक जो अन्य दिशाओं में इंगित करते हैं, वे या तो बस रद्द कर देते हैं, या सबसे खराब, इच्छित अर्थ के अनुरूप दिशाओं में घटकों से छोटे होते हैं।

व्युत्पत्ति
होने देना $$X$$ एक मैट्रिक्स बनें जहां तत्व $$(i,j)$$ अवधि की घटना का वर्णन करता है $$i$$ दस्तावेज़ में $$j$$ (यह हो सकता है, उदाहरण के लिए, आवृत्ति)। $$X$$ इस तरह दिखेगा:



\begin{matrix} & \textbf{d}_j \\ & \downarrow \\ \textbf{t}_i^T \rightarrow & \begin{bmatrix} x_{1,1} & \dots & x_{1,j} & \dots & x_{1,n} \\ \vdots & \ddots & \vdots & \ddots & \vdots \\ x_{i,1} & \dots & x_{i,j} & \dots & x_{i,n} \\ \vdots & \ddots & \vdots & \ddots & \vdots \\ x_{m,1} & \dots & x_{m,j} & \dots & x_{m,n} \\ \end{bmatrix} \end{matrix} $$ अब इस मैट्रिक्स में एक पंक्ति एक शब्द के अनुरूप एक सदिश होगी, जो प्रत्येक दस्तावेज़ से अपना संबंध देती है:


 * $$\textbf{t}_i^T = \begin{bmatrix} x_{i,1} & \dots & x_{i,j} & \dots & x_{i,n} \end{bmatrix}$$

इसी तरह, इस मैट्रिक्स में एक कॉलम एक दस्तावेज के अनुरूप एक सदिश होगा, जो प्रत्येक शब्द के संबंध को बताता है:


 * $$\textbf{d}_j = \begin{bmatrix}

x_{1,j} \\ \vdots \\ x_{i,j} \\ \vdots \\ x_{m,j} \\ \end{bmatrix}$$ अब डॉट उत्पाद $$\textbf{t}_i^T \textbf{t}_p$$ दो टर्म वैक्टर के बीच दस्तावेजों के सेट पर शर्तों के बीच संबंध देता है। मैट्रिक्स उत्पाद $$X X^T$$ इन सभी डॉट उत्पादों को शामिल करता है। तत्व $$(i,p)$$ (जो तत्व के बराबर है $$(p,i)$$) डॉट उत्पाद शामिल है $$\textbf{t}_i^T \textbf{t}_p$$ ($$ = \textbf{t}_p^T \textbf{t}_i$$). इसी तरह, मैट्रिक्स $$X^T X$$ सभी दस्तावेज़ वैक्टरों के बीच डॉट उत्पादों को शामिल करता है, शर्तों पर उनका सहसंबंध देता है: $$\textbf{d}_j^T \textbf{d}_q = \textbf{d}_q^T \textbf{d}_j$$.

अब, रैखिक बीजगणित के सिद्धांत से, का अपघटन मौजूद है $$X$$ ऐसा है कि $$U$$ और $$V$$ ऑर्थोगोनल मैट्रिक्स हैं और $$\Sigma$$ एक विकर्ण मैट्रिक्स है। इसे एक विलक्षण मूल्य अपघटन (एसवीडी) कहा जाता है:



\begin{matrix} X = U \Sigma V^T \end{matrix} $$ मैट्रिक्स उत्पाद हमें शब्द और दस्तावेज़ सहसंबंध देते हैं, फिर बन जाते हैं



\begin{matrix} X X^T &=& (U \Sigma V^T) (U \Sigma V^T)^T = (U \Sigma V^T) (V^{T^T} \Sigma^T U^T) = U \Sigma V^T V \Sigma^T U^T = U \Sigma \Sigma^T U^T \\ X^T X &=& (U \Sigma V^T)^T (U \Sigma V^T) = (V^{T^T} \Sigma^T U^T) (U \Sigma V^T) = V \Sigma^T U^T U \Sigma V^T = V \Sigma^T \Sigma V^T \end{matrix} $$ तब से $$\Sigma \Sigma^T$$ और $$\Sigma^T \Sigma$$ विकर्ण हैं हम देखते हैं $$U$$ के eigenvectors शामिल होने चाहिए $$X X^T$$, जबकि $$V$$ का ईजेनवेक्टर होना चाहिए $$X^T X$$. दोनों उत्पादों में समान गैर-शून्य eigenvalues ​​​​हैं, जो गैर-शून्य प्रविष्टियों द्वारा दिए गए हैं $$\Sigma \Sigma^T$$, या समान रूप से, गैर-शून्य प्रविष्टियों द्वारा $$\Sigma^T\Sigma$$. अब अपघटन इस तरह दिखता है:



\begin{matrix} & X & & & U & & \Sigma & & V^T \\ & (\textbf{d}_j) & & & & & & & (\hat{\textbf{d}}_j) \\ & \downarrow & & & & & & & \downarrow \\ (\textbf{t}_i^T) \rightarrow & \begin{bmatrix} x_{1,1} & \dots & x_{1,j} & \dots & x_{1,n} \\ \vdots & \ddots & \vdots & \ddots & \vdots \\ x_{i,1} & \dots & x_{i,j} & \dots & x_{i,n} \\ \vdots & \ddots & \vdots & \ddots & \vdots \\ x_{m,1} & \dots & x_{m,j} & \dots & x_{m,n} \\ \end{bmatrix} & = & (\hat{\textbf{t}}_i^T) \rightarrow & \begin{bmatrix} \begin{bmatrix} \, \\ \, \\ \textbf{u}_1 \\ \, \\ \,\end{bmatrix} \dots \begin{bmatrix} \, \\ \, \\ \textbf{u}_l \\ \, \\ \, \end{bmatrix} \end{bmatrix} & \cdot & \begin{bmatrix} \sigma_1 & \dots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \dots & \sigma_l \\ \end{bmatrix} & \cdot & \begin{bmatrix} \begin{bmatrix} & & \textbf{v}_1 & & \end{bmatrix} \\ \vdots \\ \begin{bmatrix} & & \textbf{v}_l & & \end{bmatrix} \end{bmatrix} \end{matrix} $$ मूल्य $$\sigma_1, \dots, \sigma_l$$ एकवचन मान कहलाते हैं, और $$u_1, \dots, u_l$$ और $$v_1, \dots, v_l$$ बाएँ और दाएँ एकवचन वैक्टर। का एकमात्र भाग ध्यान दें $$U$$ जो इसमें योगदान देता है $$\textbf{t}_i$$ है $$i\textrm{'th}$$ पंक्ति। इस पंक्ति वेक्टर को कॉल करने दें $$\hat{\textrm{t}}^T_i$$. इसी तरह, का ही हिस्सा है $$V^T$$ जो इसमें योगदान देता है $$\textbf{d}_j$$ है $$j\textrm{'th}$$ कॉलम, $$\hat{ \textrm{d}}_j$$. ये ईजेनवेक्टर नहीं हैं, लेकिन सभी ईजेनवेक्टर पर निर्भर करते हैं।

यह पता चला है कि जब आप चुनते हैं $$k$$ सबसे बड़ा एकवचन मान, और उनके संबंधित एकवचन सदिश $$U$$ और $$V$$, आपको पद मिलता है $$k$$ के लिए सन्निकटन $$X$$ सबसे छोटी त्रुटि (फ्रोबेनियस मानदंड) के साथ। इस सन्निकटन में न्यूनतम त्रुटि है। लेकिन इससे भी महत्वपूर्ण बात यह है कि अब हम शब्द और दस्तावेज़ वैक्टर को सिमेंटिक स्पेस के रूप में देख सकते हैं। पंक्ति शब्द वेक्टर $$\hat{\textbf{t}}^T_i$$ उसके बाद है $$k$$ प्रविष्टियाँ इसे निम्न-आयामी स्थान पर मैप करती हैं। ये नए आयाम किसी भी बोधगम्य अवधारणा से संबंधित नहीं हैं। वे उच्च-आयामी स्थान के निम्न-आयामी सन्निकटन हैं। इसी तरह, दस्तावेज़ वेक्टर $$\hat{\textbf{d}}_j$$ इस निम्न-आयामी स्थान में एक सन्निकटन है। हम इस सन्निकटन को इस प्रकार लिखते हैं


 * $$X_k = U_k \Sigma_k V_k^T$$

अब आप निम्न कार्य कर सकते हैं:
 * कैसे संबंधित दस्तावेज़ देखें $$j$$ और $$q$$ सदिशों की तुलना करके निम्न-आयामी स्थान में हैं $$\Sigma_k \cdot \hat{\textbf{d}}_j $$ और $$\Sigma_k \cdot \hat{\textbf{d}}_q $$ (आमतौर पर वेक्टर अंतरिक्ष मॉडल  द्वारा)।
 * शर्तों की तुलना करना $$i$$ और $$p$$ वैक्टर की तुलना करके $$\Sigma_k \cdot \hat{\textbf{t}}_i$$ और $$\Sigma_k \cdot \hat{\textbf{t}}_p$$. ध्यान दें कि $$\hat{\textbf{t}}$$ अब एक कॉलम वेक्टर है।
 * दस्तावेजों और टर्म वेक्टर प्रस्तुतियों को कोसाइन जैसे समानता उपायों का उपयोग करके पारंपरिक क्लस्टरिंग एल्गोरिदम जैसे के-साधनों का उपयोग करके क्लस्टर किया जा सकता है।
 * किसी प्रश्न को देखते हुए, इसे एक लघु दस्तावेज़ के रूप में देखें, और निम्न-आयामी स्थान में अपने दस्तावेज़ों से इसकी तुलना करें।

उत्तरार्द्ध करने के लिए, आपको पहले अपनी क्वेरी को निम्न-आयामी स्थान में अनुवादित करना होगा। यह तब सहज है कि आपको उसी परिवर्तन का उपयोग करना चाहिए जिसका उपयोग आप अपने दस्तावेज़ों में करते हैं:


 * $$\hat{\textbf{d}}_j = \Sigma_k^{-1}U_k^T{\textbf{d}}_j $$

यहाँ ध्यान दें कि विकर्ण मैट्रिक्स का व्युत्क्रम $$\Sigma_k$$ मैट्रिक्स के भीतर प्रत्येक अशून्य मान को उल्टा करके पाया जा सकता है।

इसका मतलब है कि यदि आपके पास एक क्वेरी वेक्टर है $$q$$, आपको अनुवाद करना होगा $$\hat{\textbf{q}} = \Sigma_k^{-1} U_k^T \textbf{q}$$ इससे पहले कि आप इसकी तुलना निम्न-आयामी अंतरिक्ष में दस्तावेज़ वैक्टर से करें। आप छद्म टर्म वैक्टर के लिए भी ऐसा कर सकते हैं:


 * $$\textbf{t}_i^T = \hat{\textbf{t}}_i^T \Sigma_k V_k^T$$
 * $$\hat{\textbf{t}}_i^T = \textbf{t}_i^T V_k^{-T} \Sigma_k^{-1} = \textbf{t}_i^T V_k \Sigma_k^{-1}$$
 * $$\hat{\textbf{t}}_i = \Sigma_k^{-1} V_k^T \textbf{t}_i$$

एप्लीकेशन
नए निम्न-आयामी स्थान का आमतौर पर उपयोग किया जा सकता है: प्राकृतिक भाषा प्रसंस्करण में पर्यायवाची और बहुरूपी मूलभूत समस्याएं हैं:
 * निम्न-आयामी स्थान (डेटा क्लस्टरिंग, दस्तावेज़ वर्गीकरण) में दस्तावेज़ों की तुलना करें।
 * अनुवादित दस्तावेज़ों के आधार सेट (क्रॉस-लैंग्वेज सूचना पुनर्प्राप्ति) का विश्लेषण करने के बाद, सभी भाषाओं में समान दस्तावेज़ खोजें।
 * शब्दों (पर्यायवाची और बहुपत्नी) के बीच संबंध खोजें।
 * शर्तों की एक क्वेरी को देखते हुए, इसे निम्न-आयामी स्थान में अनुवादित करें, और मेल खाने वाले दस्तावेज़ (सूचना पुनर्प्राप्ति) खोजें।
 * सिमेंटिक तरीके से शब्दों के छोटे समूहों के बीच सबसे अच्छी समानता खोजें (अर्थात ज्ञान कोष के संदर्भ में), उदाहरण के लिए बहुविकल्पीय प्रश्नों में बहुविकल्पीय प्रश्न उत्तर मॉडल।
 * मशीन लर्निंग / टेक्स्ट माइनिंग सिस्टम के फीचर स्पेस का विस्तार करें
 * टेक्स्ट कॉर्पस में शब्द संघ का विश्लेषण करें
 * पर्यायवाची वह घटना है जहाँ विभिन्न शब्द एक ही विचार का वर्णन करते हैं। इस प्रकार, एक खोज इंजन में एक क्वेरी एक प्रासंगिक दस्तावेज़ को पुनः प्राप्त करने में विफल हो सकती है जिसमें क्वेरी में दिखाई देने वाले शब्द शामिल नहीं हैं। उदाहरण के लिए, डॉक्टरों के लिए एक खोज चिकित्सक शब्द वाले दस्तावेज़ को वापस नहीं लौटा सकती है, भले ही शब्दों का अर्थ समान हो।
 * अनेकार्थी शब्द वह परिघटना है जहाँ एक ही शब्द के अनेक अर्थ होते हैं। इसलिए एक खोज गलत अर्थ में वांछित शब्दों वाले अप्रासंगिक दस्तावेजों को पुनः प्राप्त कर सकती है। उदाहरण के लिए, पेड़ शब्द की तलाश में एक वनस्पतिशास्त्री और एक कंप्यूटर वैज्ञानिक शायद दस्तावेज़ों के अलग-अलग सेट चाहते हैं।

वाणिज्यिक एप्लीकेशन
पेटेंट के लिए पूर्व कला खोजों को करने में सहायता के लिए अव्यक्त सिमेंटिक विश्लेषण का उपयोग किया गया है।

मानव स्मृति में एप्लीकेशन
अव्यक्त सिमेंटिक विश्लेषण का उपयोग मानव स्मृति के अध्ययन में प्रचलित रहा है, विशेष रूप से मुक्त स्मरण और स्मृति खोज के क्षेत्रों में। दो शब्दों की सिमेंटिक समानता (जैसा कि अव्यक्त सिमेंटिक विश्लेषण द्वारा मापा जाता है) के बीच एक सकारात्मक संबंध है और संभावना है कि यादृच्छिक सामान्य संज्ञाओं की अध्ययन सूची का उपयोग करके शब्दों को एक के बाद एक मुफ्त रिकॉल कार्यों में वापस बुलाया जाएगा। उन्होंने यह भी नोट किया कि इन स्थितियों में, समान शब्दों के बीच अंतर-प्रतिक्रिया समय भिन्न शब्दों के बीच की तुलना में बहुत तेज था। इन निष्कर्षों को सिमेंटिक निकटता प्रभाव के रूप में जाना जाता है। जब प्रतिभागियों ने अध्ययन की गई वस्तुओं को याद करने में गलतियाँ कीं, तो ये गलतियाँ उन वस्तुओं के रूप में हुईं जो वांछित वस्तु से अधिक सिमेंटिक से संबंधित थीं और पहले से अध्ययन की गई सूची में पाई गईं। ये पूर्व-सूची घुसपैठ, जैसा कि उन्हें कहा जाने लगा है, याद करने के लिए वर्तमान सूची में वस्तुओं के साथ प्रतिस्पर्धा करने लगते हैं। एक अन्य मॉडल, जिसे वर्ड एसोसिएशन स्पेसेस (WAS) कहा जाता है, का उपयोग मेमोरी स्टडीज में प्रयोगों की एक श्रृंखला से मुक्त एसोसिएशन डेटा एकत्र करके किया जाता है और जिसमें 72,000 से अधिक विशिष्ट शब्द जोड़े के लिए शब्द संबंधितता के उपाय शामिल हैं।

कार्यान्वयन
विलक्षण मान अपघटन आमतौर पर बड़े मैट्रिक्स विधियों (उदाहरण के लिए, लैंक्ज़ोस विधियों) का उपयोग करके गणना की जाती है, लेकिन एक तंत्रिका नेटवर्क जैसे दृष्टिकोण के माध्यम से वृद्धिशील रूप से और बहुत कम संसाधनों के साथ भी गणना की जा सकती है, जिसके लिए बड़े, पूर्ण-रैंक मैट्रिक्स की आवश्यकता नहीं होती है। स्मृति में आयोजित। हाल ही में एक तेज़, वृद्धिशील, कम-स्मृति, बड़ा-मैट्रिक्स विलक्षण मान अपघटन एल्गोरिथम विकसित किया गया है। MATLAB और Python इन तेज़ एल्गोरिदम के कार्यान्वयन उपलब्ध हैं। गोरेल और वेब (2005) के स्टोकेस्टिक सन्निकटन के विपरीत, ब्रांड का एल्गोरिदम (2003) एक सटीक समाधान प्रदान करता है। हाल के वर्षों में एसवीडी की कम्प्यूटेशनल जटिलता को कम करने के लिए प्रगति हुई है; उदाहरण के लिए, समानांतर ईजेनवैल्यू अपघटन करने के लिए एक समानांतर ARPACK एल्गोरिथ्म का उपयोग करके तुलनीय भविष्यवाणी गुणवत्ता प्रदान करते हुए विलक्षण मान अपघटन संगणना लागत को गति देना संभव है।

सीमाएं
अव्यक्त सिमेंटिक विश्लेषण की कुछ कमियों में शामिल हैं:


 * परिणामी आयामों की व्याख्या करना कठिन हो सकता है। उदाहरण के लिए, में
 * {(कार), (ट्रक), (फूल)} ↦ {(1.3452 * कार + 0.2828 * ट्रक), (फूल)}
 * (1.3452 * कार + 0.2828 * ट्रक) घटक को वाहन के रूप में समझा जा सकता है। हालांकि, यह बहुत संभावना है कि मामले समीप हैं
 * {(कार), (बोतल), (फूल)} ↦ {(1.3452 * कार + 0.2828 * बोतल), (फूल)}
 * घटेगा। यह उन परिणामों की ओर ले जाता है जिन्हें गणितीय स्तर पर उचित ठहराया जा सकता है, लेकिन प्राकृतिक भाषा में इसका कोई स्पष्ट अर्थ नहीं है। हालांकि, (1.3452 * कार + 0.2828 * बोतल) घटक को इस तथ्य के कारण उचित ठहराया जा सकता है कि बोतलों और कारों दोनों में पारदर्शी और अपारदर्शी हिस्से होते हैं, मानव निर्मित होते हैं और उच्च संभावना के साथ उनकी सतह पर लोगो/शब्द होते हैं; इस प्रकार, कई मायनों में ये दो अवधारणाएँ सिमेंटिक को साझा करती हैं। अर्थात्, संबंधित भाषा के भीतर, असाइन करने के लिए आसानी से उपलब्ध शब्द नहीं हो सकता है और सरल शब्द/वर्ग/अवधारणा असाइनमेंट कार्य के विपरीत स्पष्टीकरण एक विश्लेषण कार्य बन जाता है।


 * अव्यक्त सिमेंटिक विश्लेषण केवल आंशिक रूप से पॉलीसेमी (यानी, एक शब्द के कई अर्थ) पर कब्जा कर सकता है क्योंकि किसी शब्द की प्रत्येक घटना को एक ही अर्थ के रूप में माना जाता है क्योंकि शब्द को अंतरिक्ष में एक बिंदु के रूप में दर्शाया जाता है। उदाहरण के लिए, बोर्ड के अध्यक्ष वाले दस्तावेज़ में और कुर्सी निर्माता वाले एक अलग दस्तावेज़ में कुर्सी की घटना को समान माना जाता है। कॉर्पस में सभी शब्दों के अलग-अलग अर्थों का 'औसत' होने के कारण वेक्टर प्रतिनिधित्व में व्यवहार का परिणाम होता है, जो तुलना के लिए मुश्किल बना सकता है। हालाँकि, प्रभाव अक्सर कम हो जाता है क्योंकि शब्दों में एक कॉर्पस में एक शब्द बोध होता है (अर्थात सभी अर्थ समान रूप से होने की संभावना नहीं है)।
 * शब्द मॉडल का बैग (बीओडब्ल्यू) की सीमाएं, जहां एक टेक्स्ट को शब्दों के एक अनियंत्रित संग्रह के रूप में दर्शाया जाता है। शब्द मॉडल (बीओडब्ल्यू) के बैग की कुछ सीमाओं को संबोधित करने के लिए, ए एन ग्राम | मल्टी-ग्राम शब्दकोश का उपयोग प्रत्यक्ष और अप्रत्यक्ष सहयोग के साथ-साथ उच्च-क्रम के आंकड़ों को खोजने के लिए किया जा सकता है। शब्दों के बीच उच्च-क्रम सह-घटनाएं।
 * अव्यक्त सिमेंटिक विश्लेषण का संभाव्य मॉडल देखे गए डेटा से मेल नहीं खाता है: अव्यक्त सिमेंटिक विश्लेषण मानता है कि शब्द और दस्तावेज़ एक संयुक्त सामान्य वितरण मॉडल (एर्गोडिक परिकल्पना) बनाते हैं, जबकि एक पॉइसन वितरण देखा गया है। इस प्रकार, एक नया विकल्प एक बहुराष्ट्रीय वितरण मॉडल के आधार पर संभाव्य अव्यक्त सिमेंटिक विश्लेषण है, जो मानक अव्यक्त सिमेंटिक विश्लेषण से बेहतर परिणाम देने के लिए रिपोर्ट किया गया है।

सिमेंटिक हैशिंग
सिमेंटिक हैशिंग में दस्तावेजों को एक तंत्रिका नेटवर्क के माध्यम से स्मृति पतों पर मैप किया जाता है ताकि सिमेंटिक के समान दस्तावेज पास के पते पर स्थित हों। ध्यान लगा के पढ़ना या सीखना अनिवार्य रूप से दस्तावेजों के एक बड़े सेट से प्राप्त शब्द-गणना वैक्टर का एक ग्राफिकल मॉडल बनाता है। क्वेरी दस्तावेज़ के समान दस्तावेज़ों को केवल उन सभी पतों तक पहुँचने के द्वारा पाया जा सकता है जो क्वेरी दस्तावेज़ के पते से केवल कुछ बिट्स से भिन्न होते हैं। अनुमानित मिलान के लिए हैश-कोडिंग की दक्षता का विस्तार करने का यह तरीका स्थानीयता संवेदनशील हैशिंग की तुलना में बहुत तेज़ है, जो कि सबसे तेज़ मौजूदा तरीका है।

अव्यक्त सिमेंटिक इंडेक्सिंग
अव्यक्त सिमेंटिक इंडेक्सिंग एक अनुक्रमण और पुनर्प्राप्ति विधि है जो एक गणितीय तकनीक का उपयोग करती है जिसे विलक्षण मान अपघटन  कहा जाता है ताकि टेक्स्ट के असंरचित संग्रह में निहित शब्दावली और अवधारणाओं के बीच संबंधों में पैटर्न की पहचान की जा सके। अव्यक्त सिमेंटिक इंडेक्सिंग इस सिद्धांत पर आधारित है कि समान संदर्भों में उपयोग किए जाने वाले शब्दों के समान अर्थ होते हैं। एलएसआई की एक प्रमुख विशेषता समान संदर्भ (भाषा उपयोग) में आने वाले उन शब्दों के बीच जुड़ाव स्थापित करके टेक्स्ट कॉर्पस की वैचारिक सामग्री को निकालने की इसकी क्षमता है। एलएसआई पत्राचार विश्लेषण का भी एक एप्लीकेशन है, जो जीन-पॉल बेंज़ेरी द्वारा विकसित एक बहुभिन्नरूपी सांख्यिकीय तकनीक है 1970 के दशक की शुरुआत में, दस्तावेजों में शब्द गणना से निर्मित एक आकस्मिक तालिका के लिए।

बुलाया सहसंबद्ध होने की क्षमता के कारण अनुक्रमण संबंधित शब्द हैं  टेक्स्ट के संग्रह में, इसे पहली बार 1980 के दशक के अंत में बेलकोर में टेक्स्ट पर लागू किया गया था। विधि, जिसे अव्यक्त सिमेंटिक विश्लेषण  भी कहा जाता है, टेक्स्ट के शरीर में शब्दों के उपयोग में अंतर्निहित अव्यक्त सिमेंटिक संरचना को उजागर करता है और इसका उपयोग उपयोगकर्ता प्रश्नों के जवाब में टेक्स्ट के अर्थ को निकालने के लिए कैसे किया जा सकता है, जिसे आमतौर पर संदर्भित किया जाता है। अवधारणा खोज के रूप में। एलएसआई से गुजरने वाले दस्तावेजों के एक सेट के खिलाफ प्रश्न, या अवधारणा खोज, ऐसे परिणाम लौटाएंगे जो वैचारिक रूप से खोज मानदंड के अर्थ में समान हैं, भले ही परिणाम खोज मानदंड के साथ एक विशिष्ट शब्द या शब्द साझा न करें।

एलएसआई के लाभ
एलएसआई मूल्यांकन उपायों (सूचना पुनर्प्राप्ति) को बढ़ाकर समतुल्यता को दूर करने में मदद करता है # याद करें, बूलियन खोज और वेक्टर अंतरिक्ष मॉडल की सबसे समस्याग्रस्त बाधाओं में से एक। दस्तावेजों के लेखकों और सूचना पुनर्प्राप्ति प्रणालियों के उपयोगकर्ताओं द्वारा उपयोग की जाने वाली शब्दावली में समानार्थी अक्सर बेमेल का कारण होता है। परिणामस्वरूप, बूलियन या कीवर्ड प्रश्न अक्सर अप्रासंगिक परिणाम लौटाते हैं और प्रासंगिक जानकारी खो देते हैं।

अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग स्वचालित दस्तावेज़ वर्गीकरण करने के लिए भी किया जाता है। वास्तव में, कई प्रयोगों ने प्रदर्शित किया है कि एलएसआई और मानव जिस तरह से टेक्स्ट को संसाधित और वर्गीकृत करते हैं, उसके बीच कई संबंध हैं। दस्तावेज़ वर्गीकरण श्रेणियों की वैचारिक सामग्री की समानता के आधार पर एक या अधिक पूर्वनिर्धारित श्रेणियों के लिए दस्तावेज़ों का असाइनमेंट है। एलएसआई प्रत्येक श्रेणी के लिए वैचारिक आधार स्थापित करने के लिए उदाहरण दस्तावेजों का उपयोग करता है। वर्गीकरण प्रसंस्करण के दौरान, वर्गीकृत किए जा रहे दस्तावेजों में निहित अवधारणाओं की तुलना उदाहरण वस्तुओं में निहित अवधारणाओं से की जाती है, और एक श्रेणी (या श्रेणियां) दस्तावेजों को उन अवधारणाओं के बीच समानता के आधार पर सौंपी जाती है जो उनमें शामिल होती हैं और जो अवधारणाएं निहित होती हैं। उदाहरण दस्तावेजों में।

दस्तावेजों की वैचारिक सामग्री के आधार पर गतिशील क्लस्टरिंग भी एलएसआई का उपयोग करके पूरा किया जा सकता है। क्लस्टरिंग प्रत्येक क्लस्टर के लिए वैचारिक आधार स्थापित करने के लिए उदाहरण दस्तावेजों का उपयोग किए बिना एक दूसरे के लिए उनकी वैचारिक समानता के आधार पर समूह दस्तावेजों का एक तरीका है। असंरचित टेक्स्ट के अज्ञात संग्रह से निपटने के दौरान यह बहुत उपयोगी है।

क्योंकि यह कड़ाई से गणितीय दृष्टिकोण का उपयोग करता है, अव्यक्त सिमेंटिक इंडेक्सिंग स्वाभाविक रूप से भाषा से स्वतंत्र है। यह अव्यक्त सिमेंटिक इंडेक्सिंग को सहायक संरचनाओं, जैसे शब्दकोशों और थिसौरी के उपयोग की आवश्यकता के बिना किसी भी भाषा में लिखी गई जानकारी की सिमेंटिक सामग्री को प्राप्त करने में सक्षम बनाता है। एलएसआई क्रॉस-भाषाई अवधारणा खोज और उदाहरण-आधारित वर्गीकरण भी कर सकता है। उदाहरण के लिए, प्रश्न एक भाषा में किए जा सकते हैं, जैसे कि अंग्रेजी, और संकल्पनात्मक रूप से समान परिणाम लौटाए जाएंगे, भले ही वे पूरी तरह से अलग भाषा या कई भाषाओं से बने हों।

एलएसआई केवल शब्दों के साथ काम करने तक ही सीमित नहीं है। यह मनमाना चरित्र तार भी संसाधित कर सकता है। टेक्स्ट के रूप में व्यक्त की जा सकने वाली किसी भी वस्तु को अव्यक्त सिमेंटिक इंडेक्सिंग वेक्टर स्पेस में प्रदर्शित किया जा सकता है। उदाहरण के लिए, मेडलाइन सार के साथ परीक्षण ने दिखाया है कि मेडलाइन उद्धरणों के शीर्षक और सार में निहित जैविक जानकारी के वैचारिक मॉडलिंग के आधार पर एलएसआई जीन को प्रभावी ढंग से वर्गीकृत करने में सक्षम है। अव्यक्त सिमेंटिक इंडेक्सिंग स्वचालित रूप से नई और बदलती शब्दावली के अनुकूल हो जाता है, और शोर के प्रति बहुत सहिष्णु दिखाया गया है (यानी, गलत वर्तनी वाले शब्द, टाइपोग्राफ़िकल त्रुटियां, अपठनीय वर्ण, आदि)। ऑप्टिकल कैरेक्टर रिकॉग्निशन (ओसीआर) और स्पीच-टू-टेक्स्ट रूपांतरण से प्राप्त टेक्स्ट का उपयोग करने वाले अनुप्रयोगों के लिए यह विशेष रूप से महत्वपूर्ण है। अव्यक्त सिमेंटिक इंडेक्सिंग विरल, अस्पष्ट और विरोधाभासी डेटा से भी प्रभावी ढंग से निपटता है।

एलएसआई के प्रभावी होने के लिए टेक्स्ट का वाक्य रूप में होना आवश्यक नहीं है। यह सूचियों, फ्री-फॉर्म नोट्स, ईमेल, वेब-आधारित सामग्री आदि के साथ काम कर सकता है। मूलपाठ।

अव्यक्त सिमेंटिक इंडेक्सिंग कई वैचारिक मिलान समस्याओं के लिए एक उपयोगी समाधान साबित हुआ है। तकनीक को कारण, लक्ष्य-उन्मुख और टैक्सोनोमिक जानकारी सहित प्रमुख संबंध जानकारी को कैप्चर करने के लिए दिखाया गया है।

एलएसआई समयरेखा

 * 1960 के दशक के मध्य - कारक विश्लेषण तकनीक का पहली बार वर्णन और परीक्षण किया गया (एच. बोरको और एम. बर्निक)
 * 1988 - एलएसआई तकनीक पर सेमिनल पेपर प्रकाशित *1989 - मूल पेटेंट प्रदान किया गया *1992 - समीक्षकों को लेख सौंपने के लिए एलएसआई का पहला प्रयोग
 * 1994 - अव्यक्त सिमेंटिक इंडेक्सिंग (Landauer et al.) के क्रॉस-लिंगुअल एप्लिकेशन के लिए पेटेंट प्रदान किया गया।
 * 1995 - निबंधों की ग्रेडिंग के लिए एलएसआई का पहला प्रयोग (फोल्त्ज़, एट अल., लैंडौएर एट अल.)
 * 1999 - असंरचित टेक्स्ट के विश्लेषण के लिए खुफिया समुदाय के लिए एलएसआई तकनीक का पहला कार्यान्वयन (विज्ञान एप्लीकेशन अंतर्राष्ट्रीय निगम)।
 * 2002 - खुफिया-आधारित सरकारी एजेंसियों (एसएआईसी) को एलएसआई-आधारित उत्पाद की पेशकश

एलएसआई का गणित
टेक्स्ट के संग्रह में वैचारिक सहसंबंधों को सीखने के लिए अव्यक्त सिमेंटिक इंडेक्सिंग सामान्य रेखीय बीजगणित तकनीकों का उपयोग करता है। सामान्य तौर पर, प्रक्रिया में भारित शब्द-दस्तावेज़ मैट्रिक्स का निर्माण करना, मैट्रिक्स पर एक विलक्षण मूल्य अपघटन करना और टेक्स्ट में निहित अवधारणाओं की पहचान करने के लिए मैट्रिक्स का उपयोग करना शामिल है।

टर्म-दस्तावेज़ मैट्रिक्स
अव्यक्त सिमेंटिक इंडेक्सिंग टर्म-डॉक्यूमेंट मैट्रिक्स के निर्माण से शुरू होता है, $$A$$, की घटनाओं की पहचान करने के लिए $$m$$ के संग्रह के भीतर अद्वितीय शब्द $$n$$ दस्तावेज़। एक शब्द-दस्तावेज़ मैट्रिक्स में, प्रत्येक पद को एक पंक्ति द्वारा दर्शाया जाता है, और प्रत्येक दस्तावेज़ को एक कॉलम द्वारा दर्शाया जाता है, प्रत्येक मैट्रिक्स सेल के साथ, $$a_{ij}$$, प्रारंभ में संकेतित दस्तावेज़ में संबंधित शब्द कितनी बार प्रकट होता है, इसका प्रतिनिधित्व करता है, $$\mathrm{tf_{ij}}$$. यह मैट्रिक्स आमतौर पर बहुत बड़ा और बहुत विरल होता है।

टर्म-डॉक्यूमेंट मैट्रिक्स के निर्माण के बाद, डेटा को कंडीशन करने के लिए स्थानीय और ग्लोबल वेटिंग फ़ंक्शंस को उस पर लागू किया जा सकता है। वेटिंग फ़ंक्शन प्रत्येक सेल को रूपांतरित करते हैं, $$a_{ij}$$ का $$A$$, एक स्थानीय शब्द भार का गुणनफल होने के लिए, $$l_{ij}$$, जो किसी दस्तावेज़ में किसी शब्द की सापेक्ष आवृत्ति और वैश्विक भार का वर्णन करता है, $$g_i$$, जो दस्तावेजों के संपूर्ण संग्रह के भीतर शब्द की सापेक्ष आवृत्ति का वर्णन करता है।

कुछ सामान्य स्थानीय भारोत्तोलन कार्य निम्न तालिका में परिभाषित किया गया है।

कुछ सामान्य ग्लोबल वेटिंग फ़ंक्शंस को निम्न तालिका में परिभाषित किया गया है।

एलएसआई के साथ अनुभवजन्य अध्ययन रिपोर्ट करते हैं कि लॉग और एंट्रॉपी वेटिंग फ़ंक्शन व्यवहार में, कई डेटा सेटों के साथ अच्छी तरह से काम करते हैं। दूसरे शब्दों में, प्रत्येक प्रविष्टि $$a_{ij}$$ का $$A$$ के रूप में गणना की जाती है:


 * $$g_i = 1 + \sum_j \frac{p_{ij} \log p_{ij}}{\log n}$$
 * $$a_{ij} = g_i \ \log (\mathrm{tf}_{ij} + 1)$$

रैंक-कम विलक्षण मान अपघटन
टेक्स्ट में निहित शब्दों और अवधारणाओं के बीच संबंधों में पैटर्न निर्धारित करने के लिए मैट्रिक्स पर एक रैंक-कम, विलक्षण मान अपघटन किया जाता है। एसवीडी एलएसआई की नींव रखता है। यह एकल शब्द-आवृत्ति मैट्रिक्स का अनुमान लगाकर शब्द और दस्तावेज़ वेक्टर रिक्त स्थान की गणना करता है, $$A$$, तीन अन्य मैट्रिसेस में- एक एम बाय आर शब्द-अवधारणा वेक्टर मैट्रिक्स $$T$$, a r by r एकवचन मान मैट्रिक्स $$S$$, और a n by r अवधारणा-दस्तावेज़ वेक्टर मैट्रिक्स, $$D$$, जो निम्नलिखित संबंधों को संतुष्ट करते हैं:

$$A \approx TSD^T$$

$$T^T T = I_r \quad D^T D = I_r $$

$$S_{1,1} \geq S_{2,2} \geq \ldots \geq S_{r,r} > 0 \quad S_{i,j} = 0 \; \text{where} \; i \neq j$$ सूत्र में, A को टेक्स्ट के संग्रह में शब्द आवृत्तियों के भारित मैट्रिक्स द्वारा m द्वारा आपूर्ति की जाती है, जहाँ m अद्वितीय शब्दों की संख्या है, और n है दस्तावेजों की संख्या। T शब्द सदिशों के r मैट्रिक्स द्वारा एक संगणित m है, जहाँ r A की कोटि है—इसके अद्वितीय आयामों का एक माप ≤ min(m,n)। S घटते एकवचन मानों का r विकर्ण मैट्रिक्स द्वारा परिकलित r है, और D दस्तावेज़ वैक्टर के r मैट्रिक्स द्वारा परिकलित n है।

एसवीडी तब विलक्षण मान अपघटन # कटा हुआ एसवीडी है जो केवल सबसे बड़े के «आर विकर्ण प्रविष्टियों को एकवचन मूल्य मैट्रिक्स एस में रखते हुए रैंक को कम करने के लिए है, जहाँ k आमतौर पर 100 से 300 आयामों के क्रम में होता है। यह प्रभावी ढंग से शब्द और दस्तावेज़ वेक्टर मैट्रिक्स आकार को क्रमशः m द्वारा k और n द्वारा k तक कम कर देता है। एसवीडी ऑपरेशन, इस कमी के साथ, ए के मूल स्थान के शोर और अन्य अवांछनीय कलाकृतियों को कम करते हुए टेक्स्ट में सबसे महत्वपूर्ण सिमेंटिक जानकारी को संरक्षित करने का प्रभाव है। मेट्रिसेस के इस कम सेट को अक्सर एक संशोधित सूत्र के साथ दर्शाया जाता है जैसे कि :


 * ए ≈ एk = टीk Sk Dk टी

पूर्ण एसवीडी की गणना करने और फिर इसे छोटा करने के विपरीत कुशल एलएसआई एल्गोरिदम केवल पहले के विलक्षण मूल्यों और शब्द और दस्तावेज़ वैक्टर की गणना करते हैं।

ध्यान दें कि यह रैंक कमी अनिवार्य रूप से मैट्रिक्स ए पर प्रमुख कंपोनेंट विश्लेषण  (पीसीए) करने के समान है, सिवाय इसके कि पीसीए साधनों को घटा देता है। पीसीए ए मैट्रिक्स की विरलता खो देता है, जो इसे बड़े लेक्सिकॉन के लिए अक्षम बना सकता है।

एलएसआई वेक्टर रिक्त स्थान को पूछताछ और बढ़ाना
परिकलित टीkऔर डीkमैट्रिसेस शब्द और दस्तावेज़ वेक्टर रिक्त स्थान को परिभाषित करते हैं, जो कि संगणित एकवचन मानों के साथ, Sk, दस्तावेज़ संग्रह से प्राप्त वैचारिक जानकारी को मूर्त रूप दें। इन स्थानों के भीतर शब्दों या दस्तावेजों की समानता इन स्थानों में एक दूसरे के कितने समीप है, इसका एक कारक है, आमतौर पर संबंधित वैक्टर के बीच कोण के एक समारोह के रूप में गणना की जाती है।

मौजूदा एलएसआई इंडेक्स के दस्तावेज़ स्थान के भीतर प्रश्नों के टेक्स्ट और नए दस्तावेज़ों का प्रतिनिधित्व करने वाले वैक्टरों का पता लगाने के लिए समान चरणों का उपयोग किया जाता है। ए = टी एस डी के एक साधारण परिवर्तन सेT समतुल्य D = A में समीकरणटी टी एस−1 समीकरण, एक प्रश्न के लिए या एक नए दस्तावेज़ के लिए एक नया वेक्टर, d, A में एक नए कॉलम की गणना करके और फिर नए कॉलम को T S से गुणा करके बनाया जा सकता है।-1. A में नए कॉलम की गणना मूल रूप से व्युत्पन्न ग्लोबल टर्म वेट का उपयोग करके की जाती है और उसी स्थानीय वेटिंग फ़ंक्शन को क्वेरी या नए दस्तावेज़ में शर्तों पर लागू किया जाता है।

नए खोजे जाने योग्य दस्तावेजों को जोड़ते समय इस तरह कंप्यूटिंग वैक्टरों में एक कमी यह है कि मूल सूचकांक के लिए एसवीडी चरण के दौरान अज्ञात शब्दों को नजरअंदाज कर दिया जाता है। इन शर्तों का टेक्स्ट के मूल संग्रह से प्राप्त वैश्विक भार और सीखे गए सहसंबंधों पर कोई प्रभाव नहीं पड़ेगा। हालाँकि, नए टेक्स्ट के लिए गणना किए गए वैक्टर अभी भी अन्य सभी दस्तावेज़ वैक्टरों के साथ समानता की तुलना के लिए बहुत प्रासंगिक हैं।

इस तरीके से नए दस्तावेज़ों के साथ अव्यक्त सिमेंटिक इंडेक्सिंग इंडेक्स के लिए दस्तावेज़ वेक्टर स्पेस को बढ़ाने की प्रक्रिया को 'फ़ोल्डिंग इन कहा जाता है। हालांकि फ़ोल्डिंग-इन प्रक्रिया नए टेक्स्ट की नई सिमेंटिक सामग्री के लिए जिम्मेदार नहीं है, इस तरह से पर्याप्त संख्या में दस्तावेज़ जोड़ने से प्रश्नों के लिए तब तक अच्छे परिणाम मिलेंगे जब तक कि उनमें शामिल शब्द और अवधारणाएँ अव्यक्त सिमेंटिक इंडेक्सिंग के भीतर अच्छी तरह से प्रस्तुत की जाती हैं। इंडेक्स जिसमें उन्हें जोड़ा जा रहा है। जब दस्तावेजों के एक नए सेट की शर्तों और अवधारणाओं को एलएसआई इंडेक्स में शामिल करने की आवश्यकता होती है, तो या तो टर्म-डॉक्यूमेंट मैट्रिक्स और एसवीडी को फिर से जोड़ा जाना चाहिए या एक वृद्धिशील अद्यतन विधि (जैसे कि वर्णित एक) ज़रूरी है।

एलएसआई
के अतिरिक्त उपयोग

यह आम तौर पर स्वीकार किया जाता है कि आधुनिक सूचना पुनर्प्राप्ति प्रणालियों के लिए सिमेंटिक आधार पर टेक्स्ट के साथ काम करने की क्षमता आवश्यक है। परिणामस्वरूप, हाल के वर्षों में अव्यक्त सिमेंटिक इंडेक्सिंग के उपयोग में काफी विस्तार हुआ है क्योंकि स्केलेबिलिटी और प्रदर्शन में पहले की चुनौतियाँ दूर हो गई हैं।

एलएसआई का उपयोग विभिन्न प्रकार की सूचना पुनर्प्राप्ति और टेक्स्ट प्रसंस्करण अनुप्रयोगों में किया जा रहा है, हालांकि इसका प्राथमिक एप्लीकेशन अवधारणा खोज और स्वचालित दस्तावेज़ वर्गीकरण के लिए किया गया है। नीचे कुछ अन्य तरीके दिए गए हैं जिनमें अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग किया जा रहा है:


 * सूचना खोज (इलेक्ट्रॉनिक डिस्कवरी, सरकार/खुफिया समुदाय, प्रकाशन)
 * स्वचालित दस्तावेज़ वर्गीकरण (ईडिस्कवरी, सरकार/खुफिया समुदाय, प्रकाशन)
 * स्वचालित सारांश (ई-खोज, प्रकाशन)
 * रिश्ते की खोज (सरकार, खुफिया समुदाय, सोशल नेटवर्किंग)
 * व्यक्तियों और संगठनों के लिंक चार्ट का स्वत: निर्माण (सरकार, खुफिया समुदाय)
 * समीक्षकों के साथ तकनीकी पत्रों और अनुदानों का मिलान करना (सरकार)
 * ऑनलाइन ग्राहक सहायता (ग्राहक प्रबंधन)
 * दस्तावेज़ ग्रन्थकारिता का निर्धारण (शिक्षा)
 * छवियों का स्वचालित कीवर्ड एनोटेशन
 * सॉफ्टवेयर स्रोत कोड को समझना (सॉफ्टवेयर इंजीनियरिंग)
 * फ़िल्टरिंग स्पैम (इलेक्ट्रॉनिक) (तंत्र अध्यक्ष)
 * सूचना दृश्य
 * स्वचालित निबंध स्कोरिंग (शिक्षा)
 * साहित्य आधारित खोज
 * स्टॉक रिटर्न की भविष्यवाणी * स्वप्न सामग्री विश्लेषण (मनोविज्ञान)

उद्यमों को मुकदमेबाजी के लिए तैयार करने में मदद करने के लिए इलेक्ट्रॉनिक दस्तावेज़ खोज (ईडिस्कवरी) के लिए एलएसआई का तेजी से उपयोग किया जा रहा है। ईडिस्कवरी में, वैचारिक आधार पर असंरचित टेक्स्ट के बड़े संग्रह को समूहीकृत करने, वर्गीकृत करने और खोजने की क्षमता आवश्यक है। अग्रणी प्रदाताओं द्वारा 2003 की शुरुआत में एलएसआई का उपयोग करते हुए अवधारणा-आधारित खोज को ईडिस्कवरी प्रक्रिया पर लागू किया गया है।

एलएसआई
के लिए चुनौतियां

अव्यक्त सिमेंटिक इंडेक्सिंग की शुरुआती चुनौतियाँ मापनीयता और प्रदर्शन पर केंद्रित थीं। एलएसआई को अन्य सूचना पुनर्प्राप्ति तकनीकों की तुलना में अपेक्षाकृत उच्च कम्प्यूटेशनल प्रदर्शन और मेमोरी की आवश्यकता होती है। हालांकि, आधुनिक हाई-स्पीड प्रोसेसर के कार्यान्वयन और सस्ती मेमोरी की उपलब्धता के साथ, ये विचार काफी हद तक दूर हो गए हैं। कुछ एलएसआई अनुप्रयोगों में मैट्रिक्स और एसवीडी संगणनाओं के माध्यम से पूरी तरह से संसाधित किए गए 30 मिलियन से अधिक दस्तावेजों वाले वास्तविक दुनिया के एप्लीकेशन आम हैं। अव्यक्त सिमेंटिक इंडेक्सिंग का एक पूरी तरह से स्केलेबल (दस्तावेजों की असीमित संख्या, ऑनलाइन प्रशिक्षण) कार्यान्वयन ओपन सोर्स gensim सॉफ्टवेयर पैकेज में निहित है। एलएसआई के लिए एक और चुनौती एसवीडी के प्रदर्शन के लिए उपयोग करने के लिए आयामों की इष्टतम संख्या निर्धारित करने में कथित कठिनाई रही है। एक सामान्य नियम के रूप में, कम आयाम टेक्स्ट के संग्रह में निहित अवधारणाओं की व्यापक तुलना की अनुमति देते हैं, जबकि आयामों की अधिक संख्या अवधारणाओं की अधिक विशिष्ट (या अधिक प्रासंगिक) तुलना करने में सक्षम बनाती है। उपयोग किए जा सकने वाले आयामों की वास्तविक संख्या संग्रह में दस्तावेज़ों की संख्या द्वारा सीमित है। अनुसंधान ने प्रदर्शित किया है कि लगभग 300 आयाम आमतौर पर मध्यम आकार के दस्तावेज़ संग्रह (सैकड़ों हजारों दस्तावेज़) और बड़े दस्तावेज़ संग्रह (लाखों दस्तावेज़) के लिए शायद 400 आयाम के साथ सर्वोत्तम परिणाम प्रदान करते हैं। हालाँकि, हाल के अध्ययनों से संकेत मिलता है कि दस्तावेज़ संग्रह के आकार और प्रकृति के आधार पर 50-1000 आयाम उपयुक्त हैं। एलएसआई के लिए इष्टतम आयाम निर्धारित करने के लिए प्रधान घटक विश्लेषण या कारक विश्लेषण के समान बनाए गए विचरण के अनुपात की जाँच करना। पर्यायवाची परीक्षण या लापता शब्दों की भविष्यवाणी का उपयोग करना सही आयाम खोजने के लिए दो संभावित तरीके हैं। जब एलएसआई विषयों को पर्यवेक्षित शिक्षण विधियों में सुविधाओं के रूप में उपयोग किया जाता है, तो आदर्श आयाम खोजने के लिए भविष्यवाणी त्रुटि माप का उपयोग किया जा सकता है।

यह भी देखें

 * कोह-मेट्रिक्स
 * कंपाउंड टर्म प्रोसेसिंग
 * वितरण सिमेंटिक
 * स्पष्ट सिमेंटिक विश्लेषण
 * अव्यक्त सिमेंटिक मैपिंग
 * अव्यक्त सिमेंटिक संरचना अनुक्रमण
 * प्रधान घटक विश्लेषण
 * संभाव्य अव्यक्त सिमेंटिक विश्लेषण
 * स्पैमडेक्सिंग
 * शब्द वेक्टर
 * विषय मॉडल
 * अव्यक्त डिरिचलेट आवंटन

अग्रिम पठन

 * Original article where the model was first exposed.
 * (PDF) . Illustration of the application of LSA to document retrieval.
 * (PDF) . Illustration of the application of LSA to document retrieval.

अव्यक्त सिमेंटिक विश्लेषण पर लेख

 * Latent Semantic Analysis, अव्यक्त सिमेंटिक विश्लेषण पर एक स्कॉलरपीडिया लेख, जिसे अव्यक्त सिमेंटिक विश्लेषण के रचनाकारों में से एक, टॉम लैंडॉयर ने लिखा है।

वार्ता और प्रदर्शन

 * LSA अवलोकन, प्रो. थॉमस हॉफमैन द्वारा बातचीत अव्यक्त सिमेंटिक विश्लेषण का वर्णन, सूचना पुनर्प्राप्ति में इसके एप्लीकेशन, और संभाव्य अव्यक्त सिमेंटिक विश्लेषण से इसके संबंध।
 * Windows के लिए C# में पूर्ण LSA नमूना कोड। डेमो कोड में टेक्स्ट फाइलों की गणना, स्टॉप वर्ड्स को फ़िल्टर करना, स्टेमिंग करना, डॉक्यूमेंट-टर्म मैट्रिक्स और एसवीडी बनाना शामिल है।

कार्यान्वयन
सूचना पुनर्प्राप्ति, प्राकृतिक भाषा प्रसंस्करण (एनएलपी), संज्ञानात्मक विज्ञान और कम्प्यूटेशनल भाषाविज्ञान में इसके क्रॉस-डोमेन अनुप्रयोगों के कारण, अव्यक्त सिमेंटिक विश्लेषण को कई अलग-अलग प्रकार के अनुप्रयोगों का समर्थन करने के लिए लागू किया गया है।
 * सेंस क्लस्टर्स, अव्यक्त सिमेंटिक विश्लेषण का एक सूचना पुनर्प्राप्ति-उन्मुख पर्ल कार्यान्वयन
 * एस-स्पेस पैकेज, अव्यक्त सिमेंटिक विश्लेषण का कम्प्यूटेशनल भाषाविज्ञान और संज्ञानात्मक विज्ञान-उन्मुख जावा कार्यान्वयन
 * सिमेंटिक वेक्टर्स Lucene टर्म-डॉक्यूमेंट मैट्रिसेस पर रैंडम प्रोजेक्शन, LSA और रिफ्लेक्टिव रैंडम इंडेक्सिंग लागू करता है
 * Infomap Project, LSA का एक NLP-उन्मुख C कार्यान्वयन (सिमेंटिकवेक्टर प्रोजेक्ट द्वारा प्रतिस्थापित)
 * Text to Matrix Generator, टेक्स्ट संग्रह से शब्द-दस्तावेज़ मैट्रिक्स उत्पन्न करने के लिए एक MATLAB टूलबॉक्स, LSA के समर्थन के साथ
 * Gensim में RAM से बड़े मैट्रिसेस के लिए LSA का Python कार्यान्वयन शामिल है।

श्रेणी:सूचना पुनर्प्राप्ति तकनीकें श्रेणी:प्राकृतिक भाषा संसाधन श्रेणी:अव्यक्त चर मॉडल श्रेणी:सिमेंटिक संबंध