अव्यक्त शब्दार्थ विश्लेषण

अव्यक्त सिमेंटिक विश्लेषण (एलएसए) प्राकृतिक भाषा प्रसंस्करण में एक तकनीक है, विशेष रूप से वितरण सिमेंटिक में, आलेखो के एक सेट के बीच संबंधों का विश्लेषण करने और आलेखो और शब्दों से संबंधित अवधारणाओं का एक सेट तैयार करके उनमें निहित शब्द हैं। अव्यक्त सिमेंटिक विश्लेषण मानता है कि शब्द जो अर्थ के समीप हैं टेक्स्ट के समान भागों (वितरण संबंधी परिकल्पना) में घटित होंगे। एक मेट्रिक्स जिसमें प्रति आलेख (डॉक्यूमेंट) रो में शब्द गणना होती है, रो अद्वितीय शब्दों का प्रतिनिधित्व करती हैं और कॉलम प्रत्येक आलेख का प्रतिनिधित्व करते हैं कि प्रत्येक आलेख को टेक्स्ट के एक बड़े भाग से बनाया गया है और एक गणितीय तकनीक जिसे अव्युत्क्रमणीय मान अपघटन (एसवीडी) कहा जाता है, का उपयोग कॉलमो के बीच समानता संरचना को संरक्षित करते हुए रो की संख्या को कम करने के लिए किया जाता है। आलेखो की तुलना किन्हीं भी दो कॉलमो के बीच कोसाइन समानता द्वारा की जाती है। और 1 के समीप के मान बहुत ही समान दस्तावेज़ों का प्रतिनिधित्व करते हैं जबकि 0 के समीप के मान बहुत भिन्न दस्तावेज़ों का प्रतिनिधित्व करते हैं।

1988 में स्कॉट डियरवेस्टर, सुसान डुमाइस, जॉर्ज फर्नास, रिचर्ड हर्षमैन, थॉमस लैंडौयर, करेन लोचबौम और लिन स्ट्रीटर द्वारा अव्यक्त सिमेंटिक संरचना का उपयोग करते हुए एक सूचना पुनर्प्राप्ति तकनीक का (यूएस पेटेंट 4,839,853, अब समाप्त हो गया है) पेटेंट कराया गया था। सूचना पुनर्प्राप्ति के लिए इसके एप्लीकेशन के संदर्भ में, इसे कभी-कभी अव्यक्त सिमेंटिक इंडेक्सिंग (एलएसआई) कहा जाता है।

घटना मेट्रिक्स
अव्यक्त सिमेंटिक विश्लेषण एक आलेख-शब्द मेट्रिक्स का उपयोग कर सकता है जो दस्तावेज़ों में शर्तों की घटनाओं का वर्णन करता है; यह एक विरल मेट्रिक्स है जिसकी रो शर्तों के अनुरूप हैं और जिनके कॉलम दस्तावेज़ों के अनुरूप हैं। मेट्रिक्स के तत्वों के भार का एक विशिष्ट उदाहरण tf-idf (शब्द आवृत्ति-प्रतिवर्त आलेख आवृत्ति) है: मेट्रिक्स के एक तत्व का भार प्रत्येक आलेख में दिखाई देने वाली संख्या के अनुपात मे होता है, जहाँ दुर्लभ शब्द उनके सापेक्ष महत्व को दर्शाने के लिए भारित किया जाता है।

यह मेट्रिक्स मानक सिमेंटिक मॉडल के लिए भी सामान्य है, हालांकि यह आवश्यक रूप से मेट्रिक्स के रूप में स्पष्ट रूप से व्यक्त नहीं किया गया है, क्योंकि मैट्रिसेस के गणितीय गुणों का सदैव उपयोग नहीं किया जाता है।

श्रेणी निम्नन
घटना मेट्रिक्स (आव्यूह) के निर्माण के बाद, अव्यक्त सिमेंटिक विश्लेषण एक निम्न-श्रेणी सन्निकटन पाता है। इन अनुमानों के विभिन्न कारण हो सकते हैं:


 * मूल शब्द-आलेख मेट्रिक्स को कंप्यूटिंग संसाधनों के लिए बहुत बड़ा माना जाता है; इस स्थिति में, अनुमानित निम्न पद मेट्रिक्स की व्याख्या एक सन्निकटन (न्यूनतम और आवश्यक हानि) के रूप में की जाती है।
 * मूल शब्द-आलेख मेट्रिक्स को रव माना जाता है: उदाहरण के लिए, शर्तों के उपाख्यानात्मक इंस्टैंस को समाप्त किया जाना है। इस दृष्टिकोण से, अनुमानित मेट्रिक्स को रव रहित मेट्रिक्स (मूल से अपेक्षाकृत अधिक मेट्रिक्स) के रूप में व्याख्या किया जाता है।
 * मूल शब्द-आलेख मेट्रिक्स को वास्तविक शब्द-आलेख मेट्रिक्स के सापेक्ष अत्यधिक विरल मेट्रिक्स माना जाता है। अर्थात्, मूल मेट्रिक्स प्रत्येक आलेख में वास्तव में केवल शब्दों को सूचीबद्ध करता है, जबकि हमें प्रत्येक आलेख से संबंधित सभी शब्दों में रुचि हो सकती है - सामान्य रूप से सिनोनीमी के कारण बहुत बड़ा सेट होता है।

श्रेणी कम होने का परिणाम यह है कि कुछ आयाम संयुक्त होते हैं और एक से अधिक पदों पर निर्भर होते हैं: {(car), (truck), (flower)} --> {(1.3452 * car + 0.2828 * truck), (flower)} यह सिनोनीमी की पहचान करने की समस्या को कम करता है, क्योंकि पद कम करने से समान अर्थ वाले शब्दों से जुड़े आयामों को संयुक्त करने की अपेक्षा की जाती है। यह पॉलीसेमी के साथ समस्या को आंशिक रूप से कम करता है, क्योंकि पॉलीसेमी शब्दों के घटक जो सही दिशा में इंगित करते हैं, उन शब्दों के घटकों में जोड़े जाते हैं जो समान अर्थ साझा करते हैं। इसके विपरीत, घटक जो अन्य दिशाओं में इंगित करते हैं, वे या तो सिर्फ अस्वीकृत कर देते हैं, या सबसे विकृत, इच्छित अर्थ के अनुरूप दिशाओं में घटकों से छोटे होते हैं।

व्युत्पत्ति
मान लीजिए $$X$$ एक मेट्रिक्स है, जहां तत्व $$(i,j)$$ आलेख j में पद i की घटना का वर्णन करता है। उदाहरण के लिए, यह आवृत्ति हो सकती है। $$X$$ इस तरह दिखेगा:



\begin{matrix} & \textbf{d}_j \\ & \downarrow \\ \textbf{t}_i^T \rightarrow & \begin{bmatrix} x_{1,1} & \dots & x_{1,j} & \dots & x_{1,n} \\ \vdots & \ddots & \vdots & \ddots & \vdots \\ x_{i,1} & \dots & x_{i,j} & \dots & x_{i,n} \\ \vdots & \ddots & \vdots & \ddots & \vdots \\ x_{m,1} & \dots & x_{m,j} & \dots & x_{m,n} \\ \end{bmatrix} \end{matrix} $$ इस मेट्रिक्स में एक रो एक शब्द के अनुरूप एक वेक्टर होगी, जो प्रत्येक आलेख से अपना संबंध देती है:


 * $$\textbf{t}_i^T = \begin{bmatrix} x_{i,1} & \dots & x_{i,j} & \dots & x_{i,n} \end{bmatrix}$$

इसी तरह, इस मेट्रिक्स में एक कॉलम एक आलेख के अनुरूप एक वेक्टर होगा, जो प्रत्येक शब्द के संबंध को बताता है:


 * $$\textbf{d}_j = \begin{bmatrix}

x_{1,j} \\ \vdots \\ x_{i,j} \\ \vdots \\ x_{m,j} \\ \end{bmatrix}$$ अब बिंदु-गुणनफल $$\textbf{t}_i^T \textbf{t}_p$$ दो पद वेक्टर के बीच आलेखो के समुच्चय पर शर्तों के बीच सहसंबंध देता है। मेट्रिक्स-गुणनफल $$X X^T$$ इन सभी बिन्दु-गुणनफल को सम्मिलित करता है। तत्व $$(i,p)$$ जो तत्व $$(p,i)$$ के बराबर है बिंदु-गुणनफल $$\textbf{t}_i^T \textbf{t}_p$$ ($$ = \textbf{t}_p^T \textbf{t}_i$$)सम्मिलित है। इसी तरह, मेट्रिक्स $$X^T X$$ सभी आलेख वेक्टर के बीच बिन्दु-गुणनफल को सम्मिलित करता है, शर्तों $$\textbf{d}_j^T \textbf{d}_q = \textbf{d}_q^T \textbf{d}_j$$ पर उनका सहसंबंध देता है।

अब, रैखिक बीजगणित के सिद्धांत से, $$X$$ का अपघटन सम्मिलित है जैसे कि $$U$$ और $$V$$ लंबकोणीय मेट्रिक्स हैं और $$\Sigma$$ एक विकर्ण मेट्रिक्स है। इसे एक अव्युत्क्रमणीय मान अपघटन (एसवीडी) कहा जाता है:



\begin{matrix} X = U \Sigma V^T \end{matrix} $$ मेट्रिक्स उत्पाद हमें शब्द और आलेख सहसंबंध देते हैं, फिर बन जाते हैं



\begin{matrix} X X^T &=& (U \Sigma V^T) (U \Sigma V^T)^T = (U \Sigma V^T) (V^{T^T} \Sigma^T U^T) = U \Sigma V^T V \Sigma^T U^T = U \Sigma \Sigma^T U^T \\ X^T X &=& (U \Sigma V^T)^T (U \Sigma V^T) = (V^{T^T} \Sigma^T U^T) (U \Sigma V^T) = V \Sigma^T U^T U \Sigma V^T = V \Sigma^T \Sigma V^T \end{matrix} $$ चूँकि $$\Sigma \Sigma^T$$ और $$\Sigma^T \Sigma$$ विकर्ण हैं हम देखते हैं कि $$U$$ के ईजेनसदिश होने चाहिए, जबकि $$V$$ को $$X X^T$$का आइजनसदिश $$X^T X$$ की गैर-शून्य प्रविष्टियों द्वारा दिए गए हैं, या समान रूप से $$\Sigma \Sigma^T$$ या समान रूप से गैर-शून्य प्रविष्टियों द्वारा $$\Sigma^T\Sigma$$ अब अपघटन इस तरह दिखता है:



\begin{matrix} & X & & & U & & \Sigma & & V^T \\ & (\textbf{d}_j) & & & & & & & (\hat{\textbf{d}}_j) \\ & \downarrow & & & & & & & \downarrow \\ (\textbf{t}_i^T) \rightarrow & \begin{bmatrix} x_{1,1} & \dots & x_{1,j} & \dots & x_{1,n} \\ \vdots & \ddots & \vdots & \ddots & \vdots \\ x_{i,1} & \dots & x_{i,j} & \dots & x_{i,n} \\ \vdots & \ddots & \vdots & \ddots & \vdots \\ x_{m,1} & \dots & x_{m,j} & \dots & x_{m,n} \\ \end{bmatrix} & = & (\hat{\textbf{t}}_i^T) \rightarrow & \begin{bmatrix} \begin{bmatrix} \, \\ \, \\ \textbf{u}_1 \\ \, \\ \,\end{bmatrix} \dots \begin{bmatrix} \, \\ \, \\ \textbf{u}_l \\ \, \\ \, \end{bmatrix} \end{bmatrix} & \cdot & \begin{bmatrix} \sigma_1 & \dots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \dots & \sigma_l \\ \end{bmatrix} & \cdot & \begin{bmatrix} \begin{bmatrix} & & \textbf{v}_1 & & \end{bmatrix} \\ \vdots \\ \begin{bmatrix} & & \textbf{v}_l & & \end{bmatrix} \end{bmatrix} \end{matrix} $$ मान $$\sigma_1, \dots, \sigma_l$$ अव्युत्क्रमणीय मान कहलाते हैं, और $$u_1, \dots, u_l$$ और $$v_1, \dots, v_l$$ बाएँ और दाएँ अव्युत्क्रमणीय वेक्टर है। ध्यान दें कि $$U$$ का एकमात्र भाग जो $$\textbf{t}_i$$ में योगदान देता है वह $$i\textrm{'th}$$ रो है। है। मान लीजिए कि इस रो वेक्टर को $$\hat{\textrm{t}}^T_i$$कहा जाता है। इसी तरह $$V^T$$ का एकमात्र भाग जो $$\textbf{d}_j$$ में योगदान देता है, वह $$j\textrm{'th}$$ कॉलम $$\hat{ \textrm{d}}_j$$ ये आइजनसदिश नहीं हैं, लेकिन सभी आइजनसदिश पर निर्भर करते हैं।

यह पता चला है कि जब आप $$k$$ सबसे बड़ा अव्युत्क्रमणीय मान चयन करते हैं, और $$U$$ और $$V$$ से उनके संबंधित अव्युत्क्रमणीय वेक्टर, आपको सबसे छोटी त्रुटि (फ्रोबेनियस मानदंड) के साथ पद k सन्निकटन X मिलता है। इस सन्निकटन में न्यूनतम त्रुटि है। लेकिन इससे भी महत्वपूर्ण बात यह है कि अब हम शब्द और आलेख वेक्टर को "सिमेंटिक समष्टि" के रूप में देख सकते हैं। रो "पद" वेक्टर $$\hat{\textbf{t}}^T_i$$ फिर $$k$$ प्रविष्टियां इसे निम्न-आयामी समष्टि पर मानचित्रण करती हैं। ये नए आयाम किसी भी बोधगम्य अवधारणा से संबंधित नहीं हैं। वे उच्च-आयामी समष्टि के निम्न-आयामी सन्निकटन हैं। इसी तरह, "आलेख" वेक्टर $$\hat{\textbf{d}}_j$$ इस निम्न-आयामी समष्टि में एक सन्निकटन है। हम इस सन्निकटन को इस प्रकार लिखते हैं


 * $$X_k = U_k \Sigma_k V_k^T$$

अब आप निम्न कार्य कर सकते हैं:
 * सदिशों $$j$$ और $$q$$ की तुलना करके देखें कि कैसे संबंधित आलेख $$\Sigma_k \cdot \hat{\textbf{d}}_j $$ और $$\Sigma_k \cdot \hat{\textbf{d}}_q $$ विशेष रूप से कोज्या समानता द्वारा निम्न-आयामी समष्टि में हैं
 * वैक्टर $$i$$ और $$p$$ की तुलना करके पदों $$\Sigma_k \cdot \hat{\textbf{t}}_i$$ और $$\Sigma_k \cdot \hat{\textbf{t}}_p$$ की तुलना करना। ध्यान दें कि $$\hat{\textbf{t}}$$ अब एक कॉलम वेक्टर है।
 * आलेखो और पद वेक्टर प्रस्तुतियों को कोसाइन जैसे समानता उपायों का उपयोग करके पारंपरिक क्लस्टरिंग एल्गोरिदम जैसे -साधनों का उपयोग करके क्लस्टर किया जा सकता है।
 * किसी प्रश्न को देखते हुए, इसे एक लघु आलेख के रूप में देखें, और निम्न-आयामी समष्टि में अपने दस्तावेज़ों से इसकी तुलना करें।

उत्तरार्द्ध करने के लिए, आपको पहले अपनी जांच को निम्न-आयामी समष्टि में अनुवादित करना होगा। यह तब सामान्य है कि आपको उसी परिवर्तन का उपयोग करना चाहिए जिसका उपयोग आप अपने दस्तावेज़ों पर करते हैं:


 * $$\hat{\textbf{d}}_j = \Sigma_k^{-1}U_k^T{\textbf{d}}_j $$

यहाँ ध्यान दें कि विकर्ण मेट्रिक्स $$\Sigma_k$$का व्युत्क्रम मेट्रिक्स के अंदर प्रत्येक अशून्य मान को प्रतिवर्त करके पाया जा सकता है।

इसका तात्पर्य है कि यदि आपके पास एक प्रश्न वेक्टर $$q$$ है, आपको स्थानांतरण $$\hat{\textbf{q}} = \Sigma_k^{-1} U_k^T \textbf{q}$$ करना होगा इससे पहले कि आप कम-आयामी समष्टि में आलेख वेक्टर के साथ इसकी तुलना करें। आप छद्म पद वेक्टर के लिए भी ऐसा कर सकते हैं:


 * $$\textbf{t}_i^T = \hat{\textbf{t}}_i^T \Sigma_k V_k^T$$
 * $$\hat{\textbf{t}}_i^T = \textbf{t}_i^T V_k^{-T} \Sigma_k^{-1} = \textbf{t}_i^T V_k \Sigma_k^{-1}$$
 * $$\hat{\textbf{t}}_i = \Sigma_k^{-1} V_k^T \textbf{t}_i$$

एप्लीकेशन
नए निम्न-आयामी समष्टि का सामान्य रूप से उपयोग किया जा सकता है: प्राकृतिक भाषा प्रसंस्करण में सिनोनीमी और बहुरूपी मूलभूत समस्याएं हैं:
 * निम्न-आयामी समष्टि (डेटा क्लस्टरिंग, आलेख वर्गीकरण) में दस्तावेज़ों की तुलना करें।
 * अनुवादित दस्तावेज़ों के आधार समुच्चय (क्रॉस-भाषा जानकारी पुनर्प्राप्ति) का विश्लेषण करने के बाद, सभी भाषाओं में समान आलेख खोजें।
 * शब्दों (सिनोनीमी और पॉलीसेमी) के बीच संबंध खोजें।
 * शर्तों की एक प्रश्न को देखते हुए, इसे निम्न-आयामी समष्टि में अनुवादित करें, और अनुरूप वाले आलेख (सूचना पुनर्प्राप्ति) खोजें।
 * सिमेंटिक तरीके से शब्दों के छोटे समूहों के बीच (अर्थात ज्ञान कोष के संदर्भ में) सबसे अच्छी समानता खोजें, उदाहरण के लिए बहुविकल्पीय प्रश्नों में बहुविकल्पीय प्रश्न उत्तर मॉडल है।
 * मशीन अधिगम / टेक्स्ट माइनिंग सिस्टम के फीचर समष्टि का विस्तार करें।
 * टेक्स्ट कोष में शब्द संघ का विश्लेषण करें।
 * सिनोनीमी वह घटना है जहाँ विभिन्न शब्द समान विचार का वर्णन करते हैं। इस प्रकार, एक खोज इंजन में एक जांच एक प्रासंगिक आलेख को पुनः प्राप्त करने में विफल हो सकती है जिसमें जांच में दिखाई देने वाले शब्द सम्मिलित नहीं हैं। उदाहरण के लिए, डॉक्टरों के लिए एक खोज चिकित्सक शब्द वाले आलेख को वापस नहीं लौटा सकती है, तथापि शब्दों का अर्थ समान हो।
 * अनेकार्थी शब्द वह परिघटना है जहाँ समान शब्द के अनेक अर्थ होते हैं। इसलिए एक खोज गलत अर्थ में वांछित शब्दों वाले अप्रासंगिक आलेखो को पुनः प्राप्त कर सकती है। उदाहरण के लिए, एक वनस्पति विज्ञानी और एक कंप्यूटर वैज्ञानिक जो "ट्री" शब्द की जांच कर रहे हैं, संभवतः आलेखो के विभिन्न सेट की उपेक्षा रखते हैं।

वाणिज्यिक एप्लीकेशन
पेटेंट के लिए पूर्व कला खोजों को करने में सहायता के लिए अव्यक्त सिमेंटिक विश्लेषण का उपयोग किया गया है।

मानव मेमोरी में एप्लीकेशन
अव्यक्त सिमेंटिक विश्लेषण का उपयोग मानव मेमोरी के अध्ययन में प्रचलित रहा है, विशेष रूप से मुक्त स्मरण और मेमोरी खोज के क्षेत्रों में होते है। दो शब्दों की सिमेंटिक समानता (जैसा कि अव्यक्त सिमेंटिक विश्लेषण द्वारा मापा जाता है) के बीच एक सकारात्मक संबंध है और संभावना है कि यादृच्छिक सामान्य संज्ञाओं की अध्ययन सूची का उपयोग करके शब्दों को एक के बाद एक मुफ्त स्मरण कार्यों में में वापस बुलाने की संभावना है। उन्होंने यह भी नोट किया कि इन स्थितियों में, समान शब्दों के बीच अंतर-प्रतिक्रिया समय भिन्न शब्दों के बीच की तुलना में बहुत तेज था। इन निष्कर्षों को सिमेंटिक निकटता प्रभाव के रूप में जाना जाता है।

जब प्रतिभागियों ने अध्ययन की गई वस्तुओं को स्मरण करने में गलतियाँ कीं, तो ये गलतियाँ उन वस्तुओं के रूप में हुईं जो वांछित वस्तु से अधिक सिमेंटिक से संबंधित थीं और पहले से अध्ययन की गई सूची में पाई गईं। ये पूर्व-सूची अनुपयुक्त अंतःक्षेप, जैसा कि उन्हें कहा जाने लगा है, स्मरण करने के लिए वर्तमान सूची में वस्तुओं के साथ प्रतिस्पर्धा करने लगते हैं।

एक अन्य मॉडल, जिसे शब्द संघ स्थान (डब्ल्यूएएस) कहा जाता है, का उपयोग प्रयोगों की एक श्रृंखला से मुक्त संघ डेटा एकत्र करके मेमोरी अध्ययन में भी किया जाता है और जिसमें 72,000 से अधिक विशिष्ट शब्द युग्म के लिए शब्द संबंधितता के संशोधन सम्मिलित हैं।

कार्यान्वयन
अव्युत्क्रमणीय मान अपघटन सामान्य रूप से बड़े मेट्रिक्स विधियों (उदाहरण के लिए, लैंक्ज़ोस विधियों) का उपयोग करके गणना की जाती है, लेकिन एक तंत्रिका नेटवर्क जैसे दृष्टिकोण के माध्यम से वृद्धिशील रूप से और बहुत कम संसाधनों के साथ भी गणना की जा सकती है, जिसके लिए मेमोरी में बड़े पूर्ण-रैंक मैट्रिक्स की आवश्यकता नहीं होती है। हाल ही में एक तेज़, वृद्धिशील, कम-मेमोरी, बड़ा-मेट्रिक्स अव्युत्क्रमणीय मान अपघटन एल्गोरिथम विकसित किया गया है। मैटलैब और पायथन इन तेज़ एल्गोरिदम के कार्यान्वयन उपलब्ध हैं। गोरेल और वेब (2005) के स्टोकेस्टिक सन्निकटन के विपरीत, ब्रांड का एल्गोरिदम (2003) एक परिशुद्ध समाधान प्रदान करता है। हाल के वर्षों में एसवीडी की कम्प्यूटेशनल जटिलता को कम करने के लिए वृद्धि हुई है; इंस्टैंस के लिए, समानांतर ईजेनमान अपघटन करने के लिए एक समानांतर एआरपीएसीके एल्गोरिथ्म का उपयोग करके तुलनीय भविष्यवाणी गुणवत्ता प्रदान करते हुए अव्युत्क्रमणीय मान अपघटन संगणना लागत को गति देना संभव है।

सीमाएं
अव्यक्त सिमेंटिक विश्लेषण की कुछ कमियों में सम्मिलित हैं:


 * परिणामी आयामों की व्याख्या करना कठिन हो सकता है। इंस्टैंस के लिए, में
 * {(car), (truck), (flower)} ↦ {(1.3452 * car + 0.2828 * truck), (flower)}
 * (1.3452 * car + 0.2828 * truck) घटक को वाहन के रूप में समझा जा सकता है। हालांकि, यह बहुत संभावना है कि स्थिति समीप हैं
 * {(car), (bottle), (flower)} ↦ {(1.3452 * car + 0.2828 * bottle), (flower)}
 * घटित होगा। इससे ऐसे परिणाम निकलते हैं जिन्हें गणितीय स्तर पर सही अधीन किया जा सकता है, लेकिन प्राकृतिक भाषा में इसका कोई स्पष्ट अर्थ नहीं है। हालांकि, (1.3452 * car + 0.2828 * bottle) घटक को इस तथ्य के कारण उपयुक्त किया जा सकता है कि बोतलों और कारों दोनों में पारदर्शी और अपारदर्शी भाग होते हैं, मानव निर्मित होते हैं और उच्च संभावना के साथ उनकी सतह पर लोगो/शब्द होते हैं; इस प्रकार, कई मायनों में ये दो अवधारणाएँ "सिमेंटिक साझा '' करती हैं अर्थात्, प्रश्नगत भाषा के अंदर, नियुक्त करने के लिए आसानी से उपलब्ध शब्द नहीं हो सकता है और सरल शब्द/वर्ग/अवधारणा असाइनमेंट कार्य के विपरीत स्पष्टीकरण एक विश्लेषण कार्य बन जाता है।


 * अव्यक्त सिमेंटिक विश्लेषण केवल आंशिक रूप से पॉलीसेमी (अर्थात, एक शब्द के कई अर्थ) पर प्रग्रहण कर सकता है क्योंकि किसी शब्द की प्रत्येक घटना को समान अर्थ के रूप में माना जाता है क्योंकि शब्द को समष्टि में एक बिंदु के रूप में दर्शाया जाता है। उदाहरण के लिए, बोर्ड के अध्यक्ष वाले आलेख में और कुर्सी निर्माता वाले एक अलग आलेख में कुर्सी की घटना को समान माना जाता है। संग्रह में सभी शब्दों के अलग-अलग अर्थों का 'औसत' होने के कारण वेक्टर प्रतिनिधित्व में व्यवहार का परिणाम होता है, जो तुलना के लिए कठिन बना सकता है। हालाँकि, प्रभाव प्रायः कम हो जाता है क्योंकि शब्दों में एक संग्रह में एक शब्द बोध होता है अर्थात सभी अर्थ समान रूप से होने की संभावना नहीं है।
 * शब्दों के बैग मॉडल (बीओडब्ल्यू) की सीमाएं, जहां एक टेक्स्ट को शब्दों के एक अनियंत्रित संग्रह के रूप में दर्शाया जाता है। शब्दों के बैग मॉडल (बीओडब्ल्यू) की कुछ सीमाओं को संबोधित करने के लिए, मल्टी-ग्राम शब्दकोश का उपयोग प्रत्यक्ष और अप्रत्यक्ष सहयोग के साथ-साथ शब्दों के बीच उच्च-क्रम सह-घटनाओं को खोजने के लिए किया जा सकता है।
 * अव्यक्त सिमेंटिक विश्लेषण का संभाव्य मॉडल देखे गए डेटा से अनुरूप नहीं होता: अव्यक्त सिमेंटिक विश्लेषण मानता है कि शब्द और आलेख एक संयुक्त गॉसियन मॉडल (एर्गोडिक परिकल्पना) बनाते हैं, जबकि एक पॉसॉन वितरण देखा गया है। इस प्रकार, एक नया विकल्प संभाव्य अव्यक्त सिमेंटिक विश्लेषण है, जो एक बहुराष्ट्रीय मॉडल पर आधारित है, जो मानक अव्यक्त सिमेंटिक विश्लेषण की तुलना में अपेक्षाकृत अधिक परिणाम देता है।

सिमेंटिक हैशिंग
सिमेंटिक हैशिंग में आलेखो को एक तंत्रिका नेटवर्क के माध्यम से मेमोरी एड्रैस पर मानचित्रण किया जाता है ताकि सिमेंटिक के समान आलेख पास के एड्रैस पर स्थित हों। ध्यान लगा के पढ़ना या सीखना अनिवार्य रूप से आलेखो के एक बड़े सेट से प्राप्त शब्द-गणना वेक्टर का एक ग्राफिकल मॉडल बनाता है। जांच आलेख के समान दस्तावेज़ों को केवल उन सभी एड्रैस तक पहुँचने के द्वारा पाया जा सकता है जो जांच आलेख के एड्रैस से केवल कुछ बिट्स से भिन्न होते हैं। अनुमानित मिलान के लिए हैश-कोडिंग की दक्षता का विस्तार करने का यह तरीका स्थानीयता संवेदनशील हैशिंग की तुलना में बहुत तेज़ है, जो कि सबसे तेज़ सम्मिलित तरीका है।

अव्यक्त सिमेंटिक इंडेक्सिंग
अव्यक्त सिमेंटिक इंडेक्सिंग एक अनुक्रमण और पुनर्प्राप्ति विधि है जो एक गणितीय तकनीक का उपयोग करती है जिसे अव्युत्क्रमणीय मान अपघटन कहा जाता है ताकि टेक्स्ट के असंरचित संग्रह में निहित शब्दावली और अवधारणाओं के बीच संबंधों में पैटर्न की पहचान की जा सके। अव्यक्त सिमेंटिक इंडेक्सिंग इस सिद्धांत पर आधारित है कि समान संदर्भों में उपयोग किए जाने वाले शब्दों के समान अर्थ होते हैं। अव्यक्त सिमेंटिक इंडेक्सिंग की एक प्रमुख विशेषता समान संदर्भ (भाषा उपयोग) में आने वाले उन शब्दों के बीच जुड़ाव स्थापित करके टेक्स्ट संग्रह की वैचारिक वस्तु को निकालने की इसकी क्षमता है।

अव्यक्त सिमेंटिक इंडेक्सिंग पत्राचार विश्लेषण का भी एक एप्लीकेशन है, जो जीन-पॉल बेंज़ेरी द्वारा विकसित एक बहुभिन्नरूपी सांख्यिकीय तकनीक है। 1970 के दशक के प्रारंभ में, आलेखो में शब्द गणना से निर्मित एक आकस्मिक सारणी है।

शब्दार्थ से संबंधित शब्दों को सहसंबंधित करने की क्षमता के कारण "अव्यक्त सिमेंटिक इंडेक्सिंग" कहा जाता है, जो टेक्स्ट के संग्रह में अव्यक्त हैं, इसे पहली बार 1980 के दशक के अंत में बेलकोर में टेक्स्ट पर प्रयुक्त किया गया था। विधि, जिसे अव्यक्त सिमेंटिक विश्लेषण (एलएसए) भी कहा जाता है, टेक्स्ट के शरीर में शब्दों के उपयोग में अंतर्निहित अव्यक्त शब्दार्थ संरचना को प्रदर्शित करता है और इसका उपयोग उपयोगकर्ता प्रश्नों के जवाब में टेक्स्ट के अर्थ को निकालने के लिए कैसे किया जा सकता है, जिसे सामान्य रूप से संदर्भित किया जाता है। अवधारणा खोज के रूप में अव्यक्त सिमेंटिक इंडेक्सिंग से गुजरने वाले आलेखो के एक सेट के विपरीत प्रश्न, या अवधारणा खोज, ऐसे परिणाम वापस जाएंगे, जो वैचारिक रूप से खोज मानदंड के अर्थ में समान हैं, तथापि परिणाम खोज मानदंड के साथ एक विशिष्ट शब्द या पद साझा न करें।

अव्यक्त सिमेंटिक इंडेक्सिंग के लाभ
अव्यक्त सिमेंटिक इंडेक्सिंग मूल्यांकन संशोधनों (सूचना पुनर्प्राप्ति) को बढ़ाकर समतुल्यता को दूर करने में सहायता करता है, बूलियन खोज और वेक्टर समष्टि मॉडल की सबसे समस्याग्रस्त प्रतिबंध में से एक है। आलेखो के लेखकों और सूचना पुनर्प्राप्ति प्रणालियों के उपयोगकर्ताओं द्वारा उपयोग की जाने वाली शब्दावली में समानार्थी प्रायः बेमेल का कारण होता है। परिणामस्वरूप, बूलियन या कीवर्ड प्रश्न प्रायः अप्रासंगिक परिणाम वापस करते हैं और प्रासंगिक जानकारी नष्ट कर देते हैं।

अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग स्वचालित आलेख वर्गीकरण करने के लिए भी किया जाता है। वास्तव में, कई प्रयोगों ने प्रदर्शित किया है कि अव्यक्त सिमेंटिक इंडेक्सिंग और मानव जिस तरह से टेक्स्ट को संसाधित और वर्गीकृत करते हैं, उसके बीच कई संबंध हैं। आलेख वर्गीकरण श्रेणियों की वैचारिक वस्तु की समानता के आधार पर एक या अधिक पूर्वनिर्धारित श्रेणियों के लिए दस्तावेज़ों का असाइनमेंट है। अव्यक्त सिमेंटिक इंडेक्सिंग प्रत्येक श्रेणी के लिए वैचारिक आधार स्थापित करने के लिए उदाहरण आलेखो का उपयोग करता है। वर्गीकरण प्रसंस्करण के समय, वर्गीकृत किए जा रहे आलेखो में निहित अवधारणाओं की तुलना उदाहरण वस्तुओं में निहित अवधारणाओं से की जाती है, और एक श्रेणी (या श्रेणियां) आलेखो को उन अवधारणाओं के बीच समानता के आधार पर निर्दिष्ट की जाती है जो उनमें सम्मिलित होती हैं और जो अवधारणाएं निहित होती हैं। उदाहरण आलेखो में होती है।

आलेखो की वैचारिक वस्तु के आधार पर गतिशील क्लस्टरिंग भी अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग करके पूरा किया जा सकता है। क्लस्टरिंग प्रत्येक क्लस्टर के लिए वैचारिक आधार स्थापित करने के लिए उदाहरण आलेखो का उपयोग किए बिना एक दूसरे के लिए उनकी वैचारिक समानता के आधार पर समूह आलेखो का एक तरीका है। असंरचित टेक्स्ट के अज्ञात संग्रह से निपटने के समय यह बहुत उपयोगी है।

क्योंकि यह प्रबलता से गणितीय दृष्टिकोण का उपयोग करता है, अव्यक्त सिमेंटिक इंडेक्सिंग स्वाभाविक रूप से भाषा से स्वतंत्र है। यह अव्यक्त सिमेंटिक इंडेक्सिंग को सहायक संरचनाओं, जैसे शब्दकोशों और शब्दसंग्रह के उपयोग की आवश्यकता के बिना किसी भी भाषा में लिखी गई जानकारी की सिमेंटिक वस्तु को प्राप्त करने में सक्षम बनाता है।अव्यक्त सिमेंटिक इंडेक्सिंग क्रॉस-भाषाई अवधारणा खोज और उदाहरण-आधारित वर्गीकरण भी कर सकता है। उदाहरण के लिए, प्रश्न एक भाषा में किए जा सकते हैं, जैसे कि अंग्रेजी, और संकल्पनात्मक रूप से समान परिणाम वापस किए जाएंगे, तथापि वे पूरी तरह से अलग भाषा या कई भाषाओं से बने हों।

अव्यक्त सिमेंटिक इंडेक्सिंग केवल शब्दों के साथ काम करने तक ही सीमित नहीं है। यह यादृच्छिक वर्ण स्ट्रिंग भी संसाधित कर सकता है। टेक्स्ट के रूप में व्यक्त की जा सकने वाली किसी भी वस्तु को अव्यक्त सिमेंटिक इंडेक्सिंग वेक्टर समष्टि में प्रदर्शित किया जा सकता है। उदाहरण के लिए, मेडलाइन एब्सट्रेक्ट के साथ परीक्षण ने दिखाया है कि मेडलाइन उद्धरणों के शीर्षक और एब्सट्रेक्ट में निहित जैविक जानकारी के वैचारिक मॉडलिंग के आधार पर अव्यक्त सिमेंटिक इंडेक्सिंग जीन को प्रभावी रूप से वर्गीकृत करने में सक्षम है।

अव्यक्त सिमेंटिक इंडेक्सिंग स्वचालित रूप से नई और बदलती शब्दावली के अनुकूल हो जाता है, और रव के प्रति बहुत सहिष्णु दिखाया गया है अर्थात, गलत वर्तनी वाले शब्द, टाइपोग्राफ़िकल त्रुटियां, अपठनीय वर्ण, आदि सम्मिलित है। ऑप्टिकल वर्ण पहचान (ओसीआर) और वाक से-टेक्स्ट रूपांतरण से प्राप्त टेक्स्ट का उपयोग करने वाले एप्लीकेशन के लिए यह विशेष रूप से महत्वपूर्ण है। अव्यक्त सिमेंटिक इंडेक्सिंग विरल, अस्पष्ट और विरोधाभासी डेटा से भी प्रभावी रूप से निर्धारित है।

अव्यक्त सिमेंटिक इंडेक्सिंग के प्रभावी होने के लिए टेक्स्ट का वाक्य रूप में होना आवश्यक नहीं है। यह सूचियों, मुक्त रूप टिप्पणी, ईमेल, वेब-आधारित वस्तु आदि के साथ काम कर सकता है।

अव्यक्त सिमेंटिक इंडेक्सिंग कई वैचारिक मिलान समस्याओं के लिए एक उपयोगी समाधान प्रमाणित हुआ है। तकनीक को कारण, लक्ष्य-उन्मुख और वर्गिकीय समूह जानकारी सहित प्रमुख संबंध जानकारी को प्रग्रहण करने के लिए दिखाया गया है।

अव्यक्त सिमेंटिक इंडेक्सिंग समयरेखा

 * 1960 के दशक के मध्य - कारक विश्लेषण तकनीक का पहली बार वर्णन और (एच. बोरको और एम. बर्निक) परीक्षण किया गया
 * 1988 - अव्यक्त सिमेंटिक इंडेक्सिंग तकनीक पर सेमिनल पत्र प्रकाशित किया।
 * 1989 - मूल पेटेंट प्रदान किया गया
 * 1992 - समीक्षकों को लेख सौंपने के लिए अव्यक्त सिमेंटिक इंडेक्सिंग का पहला प्रयोग था।
 * 1994 - अव्यक्त सिमेंटिक इंडेक्सिंग (लैंडौएर एट अल) के क्रॉस-भाषी एप्लिकेशन के लिए पेटेंट प्रदान किया गया।
 * 1995 - निबंधों की ग्रेडिंग के लिए अव्यक्त सिमेंटिक इंडेक्सिंग का पहला प्रयोग (फोल्त्ज़, एट अल., लैंडौएर एट अल.) किया गया था
 * 1999 - असंरचित टेक्स्ट के विश्लेषण के लिए इंटेलिजेंस समुदाय के लिए अव्यक्त सिमेंटिक इंडेक्सिंग तकनीक का पहला कार्यान्वयन (विज्ञान एप्लीकेशन अंतर्राष्ट्रीय निगम) किया गया था।
 * 2002 - इंटेलिजेंस-आधारित सरकारी संस्था (एसएआईसी) को अव्यक्त सिमेंटिक इंडेक्सिंग-आधारित उत्पाद की पेशकश थी

अव्यक्त सिमेंटिक इंडेक्सिंग का गणित
टेक्स्ट के संग्रह में वैचारिक सहसंबंधों को सीखने के लिए अव्यक्त सिमेंटिक इंडेक्सिंग सामान्य रेखीय बीजगणित तकनीकों का उपयोग करता है। सामान्य रूप से, प्रक्रिया में भारित शब्द-आलेख मेट्रिक्स का निर्माण करना, मेट्रिक्स पर एक अव्युत्क्रमणीय मान अपघटन करना और टेक्स्ट में निहित अवधारणाओं की पहचान करने के लिए मेट्रिक्स का उपयोग करना सम्मिलित है।

पद-आलेख मेट्रिक्स
अव्यक्त सिमेंटिक इंडेक्सिंग पद-आलेख मेट्रिक्स, $$A$$ के निर्माण से प्रारंभ होता है जिसकी घटनाओं की पहचान करने के लिए $$m$$ के संग्रह के अंदर अद्वितीय शब्द $$n$$ आलेख है। एक शब्द-आलेख मेट्रिक्स में, प्रत्येक पद को एक रो द्वारा दर्शाया जाता है, और प्रत्येक आलेख को एक कॉलम द्वारा दर्शाया जाता है, प्रत्येक मेट्रिक्स सेल के साथ $$a_{ij}$$ प्रारंभ में संकेतित आलेख में संबंधित शब्द कितनी बार प्रकट होता है, इसका $$\mathrm{tf_{ij}}$$ द्वारा प्रतिनिधित्व करता है। यह मेट्रिक्स सामान्य रूप से बहुत बड़ा और बहुत विरल होता है।

पद-आलेख मेट्रिक्स के निर्माण के बाद, डेटा को स्थित करने के लिए स्थानीय और सार्वभौमिक वेटिंग फ़ंक्शंस को उस पर प्रयुक्त किया जा सकता है। वेटिंग फ़ंक्शन (भारण फलन) प्रत्येक सेल को $$a_{ij}$$ का $$A$$ मे रूपांतरित करते हैं, एक स्थानीय शब्द भार $$l_{ij}$$ का गुणनफल होने के लिए, जो किसी आलेख में किसी शब्द $$g_i$$ की सापेक्ष आवृत्ति और वैश्विक भार का वर्णन करता है, जो आलेखो के संपूर्ण संग्रह के अंदर शब्द की सापेक्ष आवृत्ति का वर्णन करता है।

कुछ सामान्य स्थानीय वेटिंग फ़ंक्शंस को निम्न सारणी में परिभाषित किया गया है।

कुछ सामान्य सार्वभौमिक वेटिंग फ़ंक्शंस को निम्न सारणी में परिभाषित किया गया है।

अव्यक्त सिमेंटिक इंडेक्सिंग के साथ अनुभवजन्य अध्ययन प्रकाशित करते हैं कि लॉग और एंट्रॉपी वेटिंग फ़ंक्शन व्यवहार में, कई डेटा सेटों के साथ अच्छी तरह से काम करते हैं। दूसरे शब्दों में, प्रत्येक प्रविष्टि $$a_{ij}$$ का $$A$$ के रूप में गणना की जाती है:


 * $$g_i = 1 + \sum_j \frac{p_{ij} \log p_{ij}}{\log n}$$
 * $$a_{ij} = g_i \ \log (\mathrm{tf}_{ij} + 1)$$

पद-कम अव्युत्क्रमणीय मान अपघटन
टेक्स्ट में निहित शब्दों और अवधारणाओं के बीच संबंधों में पैटर्न निर्धारित करने के लिए मेट्रिक्स पर एक पद-कम, अव्युत्क्रमणीय मान अपघटन किया जाता है। एसवीडी अव्यक्त सिमेंटिक इंडेक्सिंग की नींव रखता है। यह पद और आलेख वेक्टर समष्टि की गणना एकल पद आवृत्ती मैट्रिक्स A, को तीन अन्य मेट्रिसेस- a m द्वारा r पद -संकल्पना वेक्टर मैट्रिक्स T, a r द्वारा r अव्युत्क्रमणीय मान मैट्रिक्स S, और a n द्वारा r संकल्पना- दस्तावेज़ वेक्टर मैट्रिक्स D में करके करता है, जो निम्नलिखित संबंधों को संतुष्ट करता है:

$$A \approx TSD^T$$

$$T^T T = I_r \quad D^T D = I_r $$

$$S_{1,1} \geq S_{2,2} \geq \ldots \geq S_{r,r} > 0 \quad S_{i,j} = 0 \; \text{where} \; i \neq j$$

सूत्र में, B को टेक्स्ट के संग्रह में शब्द आवृत्तियों के भारित मेट्रिक्स द्वारा m द्वारा आपूर्ति की जाती है, जहाँ m अद्वितीय शब्दों की संख्या है, और n आलेखो की संख्या है। T शब्द सदिशों के r मेट्रिक्स द्वारा एक संगणित m है, जहाँ r A की कोटि है—इसके अद्वितीय आयामों की एक माप ≤ min(m,n) होती है। S घटते अव्युत्क्रमणीय मानों का r विकर्ण मेट्रिक्स द्वारा परिकलित r है, और D आलेख वेक्टर के r मेट्रिक्स द्वारा परिकलित n है।

एसवीडी तब अव्युत्क्रमणीय मान अपघटन निम्न एसवीडी है जो केवल सबसे बड़े k « r विकर्ण प्रविष्टियों को अव्युत्क्रमणीय मान मेट्रिक्स s में रखते हुए पद को कम करने के लिए है, जहाँ k सामान्य रूप से 100 से 300 आयामों के क्रम में होता है। यह प्रभावी रूप से शब्द और आलेख वेक्टर मेट्रिक्स आकार को क्रमशः m द्वारा k और n द्वारा k तक कम कर देता है। एसवीडी संक्रियक, इस कमी के साथ, A के मूल समष्टि के रव और अन्य अवांछनीय कलाकृतियों को कम करते हुए टेक्स्ट में सबसे महत्वपूर्ण सिमेंटिक जानकारी को संरक्षित करने का प्रभाव है। मेट्रिसेस के इस कम सेट को प्रायः एक संशोधित सूत्र के साथ दर्शाया जाता है जैसे कि :


 * A ≈ Ak = Tk Sk DkT

पूर्ण एसवीडी की गणना करने और फिर इसे छोटा करने के विपरीत कुशल अव्यक्त सिमेंटिक इंडेक्सिंग एल्गोरिदम केवल पहले के अव्युत्क्रमणीय मानो और शब्द और आलेख वेक्टर की गणना करते हैं।

ध्यान दें कि यह पद कमी अनिवार्य रूप से मेट्रिक्स A पर प्रमुख घटक विश्लेषण (पीसीए) करने के समान है, इसके अतिरिक्त कि पीसीए साधनों को कम कर देता है। पीसीए A मेट्रिक्स की विरलता नष्ट कर देता है, जो इसे बड़े लेक्सिकॉन के लिए अक्षम बना सकता है।

अव्यक्त सिमेंटिक इंडेक्सिंग वेक्टर समष्टि की जांच और परिवर्धन
परिकलित Tk और Dk मैट्रिसेस शब्द और आलेख वेक्टर समष्टि को परिभाषित करते हैं, जो कि संगणित अव्युत्क्रमणीय मानों के साथ, Sk, आलेख संग्रह से प्राप्त वैचारिक जानकारी को मूर्त रूप दें। इन स्थानों के अंदर शब्दों या आलेखो की समानता इन स्थानों में एक दूसरे के कितने समीप है, इसका एक कारक है, सामान्य रूप से संबंधित वेक्टर के बीच कोण के एक फ़ंक्शन के रूप में गणना की जाती है।

सम्मिलित अव्यक्त सिमेंटिक इंडेक्सिंग अनुक्रम के आलेख समष्टि के अंदर प्रश्नों के टेक्स्ट और नए दस्तावेज़ों का प्रतिनिधित्व करने वाले वेक्टर का पता लगाने के लिए समान चरणों का उपयोग किया जाता है। A = T S DT समीकरण के समतुल्य D = AT T S−1 समीकरण में एक सरल परिवर्तन, एक प्रश्न के लिए या एक नए आलेख के लिए एक नया वेक्टर d, A में एक नए कॉलम की गणना करके और फिर नए कॉलम को T S−1 से गुणा करके बनाया जा सकता है। A में नए कॉलम की गणना मूल रूप से व्युत्पन्न सार्वभौमिक पद भार का उपयोग करके की जाती है और उसी स्थानीय वेटिंग फ़ंक्शन को जांच या नए आलेख में शर्तों पर प्रयुक्त किया जाता है।

नए खोजे जाने योग्य आलेखो को जोड़ते समय इस तरह कंप्यूटिंग वेक्टर में एक कमी यह है कि मूल सूचकांक के लिए एसवीडी चरण के समय अज्ञात शब्दों को उपेक्षित कर दिया जाता है। इन शर्तों का टेक्स्ट के मूल संग्रह से प्राप्त वैश्विक भार और सीखे गए सहसंबंधों पर कोई प्रभाव नहीं पड़ेगा। हालाँकि, नए टेक्स्ट के लिए गणना किए गए वेक्टर अभी भी अन्य सभी आलेख वेक्टर के साथ समानता की तुलना के लिए बहुत प्रासंगिक हैं।

इस तरीके से नए दस्तावेज़ों के साथ अव्यक्त सिमेंटिक इंडेक्सिंग के लिए आलेख वेक्टर समष्टि को बढ़ाने की प्रक्रिया को 'फ़ोल्डिंग इन कहा जाता है। हालांकि फ़ोल्डिंग मे प्रक्रिया नए टेक्स्ट की नई सिमेंटिक वस्तु के लिए अधीन नहीं है, इस तरह से पर्याप्त संख्या में आलेख जोड़ने से प्रश्नों के लिए तब तक अच्छे परिणाम मिलेंगे जब तक कि उनमें सम्मिलित शब्द और अवधारणाएँ अव्यक्त सिमेंटिक इंडेक्सिंग के अंदर अच्छी तरह से प्रस्तुत की जाती हैं। इंडेक्स जिसमें उन्हें जोड़ा जा रहा है। जब आलेखो के एक नए सेट की शर्तों और अवधारणाओं को एलएसआई इंडेक्स में सम्मिलित करने की आवश्यकता होती है, तो या तो पद-आलेख मेट्रिक्स और एसवीडी को फिर से जोड़ा जाना चाहिए या एक वृद्धिशील अपडेट विधि (जैसे कि वर्णित एक) आवश्यक है।

अव्यक्त सिमेंटिक इंडेक्सिंग के अतिरिक्त उपयोग
यह सामान्य रूप से स्वीकार किया जाता है कि आधुनिक सूचना पुनर्प्राप्ति प्रणालियों के लिए सिमेंटिक आधार पर टेक्स्ट के साथ काम करने की क्षमता आवश्यक है। परिणामस्वरूप, हाल के वर्षों में अव्यक्त सिमेंटिक इंडेक्सिंग के उपयोग में अधिकतम विस्तार हुआ है क्योंकि मापनीयता और प्रदर्शन में पहले की चुनौतियाँ दूर हो गई हैं।

अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग विभिन्न प्रकार की सूचना पुनर्प्राप्ति और टेक्स्ट प्रसंस्करण एप्लीकेशन में किया जा रहा है, हालांकि इसका प्राथमिक एप्लीकेशन अवधारणा खोज और स्वचालित आलेख वर्गीकरण के लिए किया गया है। नीचे कुछ अन्य तरीके दिए गए हैं जिनमें अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग किया जा रहा है:


 * सूचना खोज (इलेक्ट्रॉनिक खोज, सरकार/इंटेलिजेंस समुदाय, प्रकाशन)
 * स्वचालित आलेख वर्गीकरण (ई-खोज, सरकार/इंटेलिजेंस समुदाय, प्रकाशन)
 * टेक्स्ट सारांश (ई-खोज, प्रकाशन)
 * संबंध की खोज (सरकार, इंटेलिजेंस समुदाय, सोशल नेटवर्किंग)
 * व्यक्तियों और संगठनों के लिंक चार्ट का स्वत: निर्माण (सरकार, इंटेलिजेंस समुदाय)
 * समीक्षकों के साथ तकनीकी पत्रों और अनुदानों का मिलान करना (सरकार)
 * ऑनलाइन ग्राहक सहायता (ग्राहक प्रबंधन)
 * आलेख ग्रन्थकारिता का निर्धारण (शिक्षा)
 * छवियों का स्वचालित कीवर्ड एनोटेशन
 * सॉफ्टवेयर स्रोत कोड को समझना (सॉफ्टवेयर इंजीनियरिंग)
 * फ़िल्टरिंग स्पैम (इलेक्ट्रॉनिक) (तंत्र अध्यक्ष)
 * सूचना दृश्यता
 * स्वचालित निबंध स्कोरिंग (शिक्षा)
 * साहित्य आधारित खोज
 * स्टॉक प्रत्यागम की भविष्यवाणी
 * स्वप्न वस्तु विश्लेषण (मनोविज्ञान)

उद्यमों को अभियोग के लिए तैयार करने में सहायता करने के लिए इलेक्ट्रॉनिक आलेख खोज (e-खोज) के लिए अव्यक्त सिमेंटिक इंडेक्सिंग का तेजी से उपयोग किया जा रहा है। e-खोज में, वैचारिक आधार पर असंरचित टेक्स्ट के बड़े संग्रह को समूहीकृत करने, वर्गीकृत करने और खोजने की क्षमता आवश्यक है। अग्रणी प्रदाताओं द्वारा 2003 के प्रारंभ में अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग करते हुए अवधारणा-आधारित खोज को e-खोज प्रक्रिया पर प्रयुक्त किया गया है।

अव्यक्त सिमेंटिक इंडेक्सिंग के लिए चुनौतियां
अव्यक्त सिमेंटिक इंडेक्सिंग की प्रारम्भिक चुनौतियाँ मापनीयता और प्रदर्शन पर केंद्रित थीं। अव्यक्त सिमेंटिक इंडेक्सिंग को अन्य सूचना पुनर्प्राप्ति तकनीकों की तुलना में अपेक्षाकृत उच्च कम्प्यूटेशनल प्रदर्शन और मेमोरी की आवश्यकता होती है। हालांकि, आधुनिक हाई-स्पीड प्रोसेसर के कार्यान्वयन और सस्ती मेमोरी की उपलब्धता के साथ, ये विचार अधितकम सीमा तक दूर हो गए हैं। कुछ अव्यक्त सिमेंटिक इंडेक्सिंग एप्लीकेशन में मेट्रिक्स और एसवीडी संगणनाओं के माध्यम से पूरी तरह से संसाधित किए गए 30 मिलियन से अधिक आलेखो वाले वास्तविक विश्व के एप्लीकेशन सामान्य हैं। अव्यक्त सिमेंटिक इंडेक्सिंग का एक पूरी तरह से स्केलेबल (आलेखो की असीमित संख्या, ऑनलाइन प्रशिक्षण) कार्यान्वयन मुक्त स्त्रोत एक राष्ट्र के रूप में सॉफ्टवेयर पैकेज में निहित है।

अव्यक्त सिमेंटिक इंडेक्सिंग के लिए एक और चुनौती एसवीडी के प्रदर्शन के लिए उपयोग करने के लिए आयामों की इष्टतम संख्या निर्धारित करने में कथित कठिन रही है। एक सामान्य नियम के रूप में, कम आयाम टेक्स्ट के संग्रह में निहित अवधारणाओं की व्यापक तुलना की स्वीकृति देते हैं, जबकि आयामों की अधिक संख्या अवधारणाओं की अधिक विशिष्ट (या अधिक प्रासंगिक) तुलना करने में सक्षम बनाती है। उपयोग किए जा सकने वाले आयामों की वास्तविक संख्या संग्रह में दस्तावेज़ों की संख्या द्वारा सीमित है। अनुसंधान ने प्रदर्शित किया है कि लगभग 300 आयाम सामान्य रूप से मध्यम आकार के आलेख संग्रह (सैकड़ों हजारों आलेख) और बड़े आलेख संग्रह (लाखों आलेख) के लिए संभव्यता 400 आयाम के साथ सर्वोत्तम परिणाम प्रदान करते हैं। हालाँकि, हाल के अध्ययनों से संकेत मिलता है कि आलेख संग्रह के आकार और प्रकृति के आधार पर 50-1000 आयाम उपयुक्त हैं। अव्यक्त सिमेंटिक इंडेक्सिंग के लिए इष्टतम आयाम निर्धारित करने के लिए प्रधान घटक विश्लेषण या कारक विश्लेषण के समान बनाए गए विचरण के अनुपात की जाँच करना। सिनोनीमी परीक्षण या अज्ञात शब्दों की भविष्यवाणी का उपयोग करना सही आयाम खोजने के लिए दो संभावित तरीके हैं। जब अव्यक्त सिमेंटिक इंडेक्सिंग विषयों को पर्यवेक्षित शिक्षण विधियों में सुविधाओं के रूप में उपयोग किया जाता है, तो आदर्श आयाम खोजने के लिए भविष्यवाणी त्रुटि माप का उपयोग किया जा सकता है।

यह भी देखें

 * कोह-मेट्रिक्स
 * संयुक्त पद प्रोसेसिंग
 * वितरण सिमेंटिक
 * स्पष्ट सिमेंटिक विश्लेषण
 * अव्यक्त सिमेंटिक मैपिंग
 * अव्यक्त सिमेंटिक संरचना अनुक्रमण
 * प्रधान घटक विश्लेषण
 * संभाव्य अव्यक्त सिमेंटिक विश्लेषण
 * स्पैमडेक्सिंग
 * शब्द वेक्टर
 * विषय मॉडल
 * अव्यक्त डिरिचलेट आवंटन

अग्रिम पठन

 * Original article where the model was first exposed.
 * (PDF) . Illustration of the application of LSA to document retrieval.
 * (PDF) . Illustration of the application of LSA to document retrieval.

अव्यक्त सिमेंटिक विश्लेषण पर लेख

 * Latent Semantic Analysis, अव्यक्त सिमेंटिक विश्लेषण पर एक स्कॉलरपीडिया लेख, जिसे अव्यक्त सिमेंटिक विश्लेषण के रचनाकारों में से एक, टॉम लैंडॉयर ने लिखा है।

वार्ता और प्रदर्शन

 * LSA अवलोकन, प्रो. थॉमस हॉफमैन द्वारा बातचीत अव्यक्त सिमेंटिक विश्लेषण का वर्णन, सूचना पुनर्प्राप्ति में इसके एप्लीकेशन, और संभाव्य अव्यक्त सिमेंटिक विश्लेषण से इसके संबंध।
 * Windows के लिए C# में पूर्ण LSA नमूना कोड। डेमो कोड में टेक्स्ट फाइलों की गणना, स्टॉप वर्ड्स को फ़िल्टर करना, स्टेमिंग करना, आलेख-पद मेट्रिक्स और एसवीडी बनाना सम्मिलित है।

कार्यान्वयन
सूचना पुनर्प्राप्ति, प्राकृतिक भाषा प्रसंस्करण (एनएलपी), संज्ञानात्मक विज्ञान और कम्प्यूटेशनल भाषाविज्ञान में इसके क्रॉस-डोमेन एप्लीकेशन के कारण, अव्यक्त सिमेंटिक विश्लेषण को कई अलग-अलग प्रकार के एप्लीकेशन का समर्थन करने के लिए प्रयुक्त किया गया है।
 * सेंस क्लस्टर्स, अव्यक्त सिमेंटिक विश्लेषण का एक सूचना पुनर्प्राप्ति-उन्मुख पर्ल कार्यान्वयन
 * एस-समष्टि पैकेज, अव्यक्त सिमेंटिक विश्लेषण का कम्प्यूटेशनल भाषाविज्ञान और संज्ञानात्मक विज्ञान-उन्मुख जावा कार्यान्वयन
 * सिमेंटिक वेक्टर्स Lucene पद-आलेख मैट्रिसेस पर रैंडम प्रोजेक्शन, LSA और रिफ्लेक्टिव रैंडम इंडेक्सिंग प्रयुक्त करता है
 * Infomap Project, LSA का एक NLP-उन्मुख C कार्यान्वयन (सिमेंटिकवेक्टर प्रोजेक्ट द्वारा प्रतिस्थापित)
 * Text to Matrix Generator, टेक्स्ट संग्रह से शब्द-आलेख मेट्रिक्स उत्पन्न करने के लिए एक MATLAB टूलबॉक्स, LSA के समर्थन के साथ
 * Gensim में RAM से बड़े मैट्रिसेस के लिए LSA का Python कार्यान्वयन सम्मिलित है।

श्रेणी:सूचना पुनर्प्राप्ति तकनीकें श्रेणी:प्राकृतिक भाषा संसाधन श्रेणी:अव्यक्त चर मॉडल श्रेणी:सिमेंटिक संबंध