स्वचालित सारांश

From Vigyanwiki

स्वत: सारांशीकरण डेटा के एक समुच्चय को कम्प्यूटेशनल रूप से छोटा करने की प्रक्रिया है, जिससे एक उपसमुच्चय (एक सारांश) बनाया जा सके जो मूल सामग्री के भीतर सबसे महत्वपूर्ण या प्रासंगिक जानकारी का प्रतिनिधित्व करता हो। इसे प्राप्त करने के लिए आर्टिफिशियल इंटेलिजेंस एल्गोरिदम सामान्यतया विकसित और नियोजित किए जाते हैं, जो विभिन्न प्रकार के डेटा के लिए विशिष्ट हैं।

पाठ संक्षेपण सामान्यतः प्राकृतिक भाषा प्रसंस्करण विधियों द्वारा कार्यान्वित किया जाता है, जिसे किसी दिए गए दस्तावेज़ में सबसे अधिक जानकारीपूर्ण वाक्यों का पता लगाने के लिए डिज़ाइन किया गया है।[1] दूसरी ओर, कंप्यूटर दृष्टि एल्गोरिदम का उपयोग करके दृश्य सामग्री को सारांशित किया जा सकता है। छवि सारांशीकरण चल रहे शोध का विषय है; मौजूदा दृष्टिकोण सामान्यतः किसी दिए गए छवि संग्रह (इमेज कलेक्शन) से सबसे अधिक प्रतिनिधि छवियों को प्रदर्शित करने का प्रयास करते हैं, या एक वीडियो उत्पन्न करते हैं जिसमें केवल संपूर्ण संग्रह से सबसे महत्वपूर्ण सामग्री सम्मिलित होती है।[2][3][4] वीडियो सारांशीकरण एल्गोरिदम मूल वीडियो सामग्री से सबसे महत्वपूर्ण फ़्रेम (की-फ़्रेम), और/या सबसे महत्वपूर्ण वीडियो सेगमेंट (मुख्य (की) शॉट्स) की पहचान करते हैं और निकालते हैं, सामान्य रूप से, अस्थायी रूप से, क्रमबद्ध तरीके से।[5][6][7][8] वीडियो सारांश केवल मूल वीडियो फ्रेम के सावधानीपूर्वक चयनित उपसमुच्चय को बनाए रखते हैं और इसलिए, वीडियो सारांश एल्गोरिदम के आउटपुट के समान नहीं हैं, जहां मूल वीडियो विषय के आधार पर नए वीडियो बनाए जाते हैं। फ्रेम का संश्लेषण किया जा रहा है।

व्यावसायिक उत्पाद

2022 में गूगल डॉक्स ने एक स्वचालित सारांश सुविधा जारी की।[9]

दृष्टिकोण

स्वचालित संक्षेपण के लिए दो सामान्य दृष्टिकोण हैं: निष्कर्षणऔर अमूर्तता।

निष्कर्षण-आधारित सारांश

यहां सामग्री को मूल डेटा से निकाला जाता है, लेकिन निकाली गई सामग्री को किसी भी तरह से संशोधित नहीं किया जाता है। निकाली गई सामग्री के उदाहरणों में प्रमुख वाक्यांश सम्मिलित हैं जिनका उपयोग किसी पाठ आलेख (डॉक्यूमेंट) को "टैग" या अनुक्रमित करने के लिए किया जा सकता है, या मुख्य वाक्य (शीर्षकों सहित) जिसमें सामूहिक रूप से एक सार, और प्रतिनिधि चित्र या वीडियो खंड सम्मिलित हैं, जैसा कि ऊपर कहा गया है। पाठ के लिए, निष्कर्षण स्किमिंग की प्रक्रिया के अनुरूप है, जहां सारांश (यदि उपलब्ध हो), शीर्षक और उपशीर्षक, आंकड़े, किसी अनुभाग के पहले और अंतिम पैराग्राफ, और वैकल्पिक रूप से एक पैराग्राफ में पहले और आखिरी वाक्यों को चुनने से पहले पढ़ा जाता है संपूर्ण दस्तावेज़ को विस्तार से पढ़ने के लिए।[10] निष्कर्षण के अन्य उदाहरण जिनमें नैदानिक प्रासंगिकता (रोगी/समस्या, हस्तक्षेप और परिणाम सहित) के संदर्भ में पाठ के प्रमुख क्रम सम्मिलित हैं। [11]

अमूर्त-आधारित सारांश

सारगर्भित सारांश विधियाँ नया पाठ उत्पन्न करती हैं जो मूल पाठ में मौजूद नहीं था।[12] यह मुख्य रूप से पाठ पर लागू किया गया है। सारगर्भित तरीके मूल सामग्री (प्रायः एक भाषा मॉडल कहा जाता है) का एक आंतरिक शब्दार्थ प्रतिनिधित्व का निर्माण करते हैं और फिर इस प्रतिनिधित्व का उपयोग, एक सारांश बनाने के लिए करते हैं जो मानव द्वारा व्यक्त की जा सकने वाली चीज़ों के करीब हो। निष्कर्षण की तुलना में एक पाठ को अधिक मजबूती से संघनित करने के लिए, स्रोत दस्तावेज़ के अनुभागों को पैराफ़्रेसिंग द्वारा अमूर्त सामग्री को रूपांतरित कर सकता है। इस तरह के परिवर्तन, हालांकि, निष्कर्षण की तुलना में संगणकीय रूप से बहुत अधिक चुनौतीपूर्ण है, जिसमें प्राकृतिक भाषा प्रसंस्करण और प्रायः मूल पाठ के डोमेन की गहरी समझ सम्मिलित होती है, जहां मूल दस्तावेज़ ज्ञान के एक विशेष क्षेत्र से संबंधित होता है। छवियों और वीडियो पर "व्याख्यान" लागू करना और भी मुश्किल है, यही वजह है कि अधिकांश संक्षेपण प्रणालियां निष्कर्षात्मक हैं।

सहायक सारांश

उच्च संक्षेपण गुणवत्ता के उद्देश्य से किए गए दृष्टिकोण संयुक्त सॉफ्टवेयर और मानव प्रयास पर निर्भर करते हैं। मशीन-सहायता प्राप्त मानव सारांश में, निकालने वाली तकनीकें सम्मिलित करने के लिए उम्मीदवार मार्ग को हाइलाइट करती हैं (जिसमें मानव टेक्स्ट जोड़ता या हटाता है)। मानव-सहायता प्राप्त मशीन सारांश में, एक मानव पोस्ट-प्रोसेस सॉफ़्टवेयर आउटपुट उसी तरह से करता है जैसे कोई व्यक्ति गूगल अनुवाद द्वारा स्वचालित अनुवाद के आउटपुट को संपादित करता है।

सारांश के लिए अनुप्रयोग और प्रणालियाँ

संक्षेपण कार्यक्रम किस पर केंद्रित है, इस पर निर्भर करते हुए साधारणतया दो प्रकार के समापन सारांश कार्य होते हैं। पहला सामान्य सारांश है, जो एक संग्रह का सामान्य सारांश या सार प्राप्त करने पर केंद्रित है (चाहे दस्तावेज, छवियों के सेट, या वीडियो, समाचार कहानियां आदि)। दूसरा क्वेरी-प्रासंगिक सारांश है, जिसे कभी-कभी क्वेरी-आधारित सारांश कहा जाता है, जो किसी क्वेरी के लिए विशिष्ट आइटमों का सार प्रस्तुत करता है। सारांश प्रणाली उपयोगकर्ता की आवश्यकता के आधार पर क्वेरी-प्रासंगिक पाठ सारांश और सामान्य मशीन-जनित सारांश दोनों का उत्पादन करने में सक्षम है।

सारांशीकरण समस्या का एक उदाहरण दस्तावेज़ सारांशीकरण है, जो किसी दिए गए दस्तावेज़ से स्वचालित रूप से सार उत्पन्न करने का प्रयास करता है। कभी-कभी एक स्रोत दस्तावेज़ से सारांश बनाने में रुचि हो सकती है, जबकि अन्य कई स्रोत दस्तावेज़ों का उपयोग कर सकते हैं (उदाहरण के लिए, एक ही विषय पर लेखों का समूह)। इस समस्या को मल्टी-डॉक्यूमेंट सारांश कहा जाता है। संबंधित ऐप्लिकेशन समाचार लेखों का सारांश प्रस्तुत कर रहा है। एक ऐसी प्रणाली की कल्पना करें, जो किसी दिए गए विषय (वेब ​​से) पर स्वचालित रूप से समाचार लेखों को एक साथ खींचती है, और संक्षिप्त रूप से सारांश के रूप में नवीनतम समाचारों का प्रतिनिधित्व करती है।

इमेज आर्काइव (छवि संग्रह) सारांश स्वचालित सारांश का एक और उदाहरण है। इसमें छवियों के एक बड़े सेट से छवियों के एक प्रतिनिधि सेट का चयन करना सम्मिलित है।[13] एक छवि संग्रह अन्वेषण प्रणाली में परिणामों की सबसे अधिक प्रतिनिधि छवियां दिखाने के लिए एक सारांश इस संदर्भ में उपयोगी है। वीडियो सारांश एक संबंधित डोमेन है, जहां सिस्टम स्वचालित रूप से एक लंबे वीडियो के लिए ट्रेलर बनाता है। इसमें उपभोक्ता या व्यक्तिगत वीडियो के अनुप्रयोग भी हैं, जहां कोई उबाऊ या दोहराव वाले कार्यों को छोड़ना चाहता है। इसी तरह, निगरानी वीडियो में, कैप्चर किए गए सभी उबाऊ और निरर्थक फ़्रेमों को नज़रअंदाज़ करते हुए, कोई भी महत्वपूर्ण और संदिग्ध गतिविधि को निकालना चाहेगा।

एक बहुत ही उच्च स्तर पर, सारांशीकरण एल्गोरिदम वस्तुओं के सबसेट (जैसे वाक्यों का एक सेट, या छवियों का एक सेट) खोजने की कोशिश करता है, जो पूरे सेट के बारे में जानकारी को कवर करता है। इसे कोर सेट भी कहा जाता है। ये एल्गोरिद्म विविधता, कवरेज, जानकारी और सारांश की प्रतिनिधित्व जैसी अवधारणाओं को मॉडल करते हैं. क्वेरी-आधारित संक्षिप्तीकरण तकनीक, क्वेरी के साथ सारांश की प्रासंगिकता के लिए अतिरिक्त मॉडल। कुछ तकनीकें और एल्गोरिदम जो स्वाभाविक रूप से सारांश समस्याओं का मॉडल करते हैं, टेक्स्टरैंक और पेजरैंक, सबमॉड्यूलर सेट फ़ंक्शन, निर्धारक बिंदु प्रक्रिया, अधिकतम सीमांत प्रासंगिकता (एमएमआर) आदि हैं।

कीफ्रेज़ निष्कर्षण (मुख्य वाक्यांश)

निम्नलिखित कार्य है। आपको पाठ का एक खण्ड दिया जाता है, जैसे कि एक पत्रिका लेख, और आपको कीवर्ड या कुंजी [वाक्यांशों] की एक सूची तैयार करनी चाहिए जो पाठ में चर्चा किए गए प्राथमिक विषयों को कैप्चर करते हैं।[14] शोध आलेखों के मामले में, कई लेखक मैन्युअल रूप से असाइन किए गए कीवर्ड प्रदान करते हैं, लेकिन अधिकांश पाठ में पहले से मौजूद कीफ़्रेज़ का अभाव होता है। उदाहरण के लिए, समाचार लेखों में शायद ही कभी कीफ़्रेज़ संलग्न होते हैं, लेकिन नीचे चर्चा की गई कई अनुप्रयोगों के लिए स्वचालित रूप से ऐसा करने में सक्षम होना उपयोगी होगा। समाचार लेख के उदाहरण पाठ पर विचार करें:

"2006 के तूफान के मौसम की प्रारम्भ तक न्यू ऑरलियन्स की रक्षा के लिए राष्ट्रपति बुश के वादे को पूरा करने के लिए इंजीनियरों की सेना कोर, अपने स्वयं के विशेषज्ञ से चेतावनी के बावजूद पिछले साल दोषपूर्ण बाढ़ नियंत्रण पंप स्थापित किए थे कि उपकरण एक तूफान के दौरान विफल हो जाएगा, तदनुसार द एसोसिएटेड प्रेस द्वारा प्राप्त दस्तावेजों के लिए "।

एक कीफ्रेज़ एक्सट्रैक्टर "आर्मी कॉर्प्स ऑफ़ इंजीनियर्स", "प्रेसिडेंट बुश", "न्यू ऑरलियन्स" और "डिफेक्टिव फ्लड-कंट्रोल पंप" को मुख्य वाक्यांशों के रूप में चुन सकता है। ये सीधे पाठ से खींचे जाते हैं। इसके विपरीत, एक अमूर्त कीफ्रेज प्रणाली किसी तरह सामग्री को आंतरिक बना देगी और प्रमुख वाक्यांशों को उत्पन्न करेगी जो पाठ में प्रकट नहीं होते हैं, लेकिन अधिक बारीकी से मिलते जुलते हैं जो मानव उत्पन्न कर सकता है, जैसे "राजनीतिक लापरवाही" या "बाढ़ से अपर्याप्त सुरक्षा"। अमूर्तता के लिए पाठ की गहरी समझ की आवश्यकता होती है, जो कंप्यूटर सिस्टम के लिए कठिन बना देता है। कुंजी वाक्यांशों के कई अनुप्रयोग होते हैं। वे एक संक्षिप्त सारांश प्रदान करके दस्तावेज़ ब्राउज़िंग को सक्षम कर सकते हैं, सूचना पुनर्प्राप्ति में सुधार कर सकते हैं (यदि दस्तावेज़ों में कीफ़्रेज़ असाइन किए गए हैं, तो एक उपयोगकर्ता एक पूर्ण-पाठ खोज की तुलना में अधिक विश्वसनीय हिट उत्पन्न करने के लिए कीफ़्रेज़ द्वारा खोज कर सकता है) खोज सकता है), और बड़ी संख्या में अनुक्रमणिका प्रविष्टियाँ टेक्स्ट फंड उत्पन्न करने के लिए नियोजित किया जा सकता है।

विभिन्न साहित्य और कीवर्ड, शब्दों या वाक्यांशों की परिभाषाओं के आधार पर, कीवर्ड निष्कर्षण एक अत्यधिक संबंधित विषय है।

पर्यवेक्षित शिक्षण दृष्टिकोण

टर्नी के काम से प्रारम्भ करते हुए,[15] कई शोधकर्ताओं ने पर्यवेक्षित मशीन सीखने की समस्या के रूप में कीफ्रेज निष्कर्षण से संपर्क किया है। किसी दस्तावेज़ को देखते हुए, हम पाठ में पाए जाने वाले प्रत्येक यूनिग्राम, बिग्राम और ट्रिग्राम के लिए एक उदाहरण बनाते हैं (हालांकि अन्य पाठ इकाइयाँ भी संभव हैं, जैसा कि नीचे चर्चा की गई है)। इसके बाद हम प्रत्येक उदाहरण का वर्णन करने वाली विभिन्न विशेषताओं की गणना करते हैं (उदाहरण के लिए, क्या वाक्यांश एक बड़े अक्षर से शुरू होता है?)। हम मानते हैं कि प्रशिक्षण दस्तावेज़ों के एक सेट के लिए ज्ञात कुंजी वाक्यांश उपलब्ध हैं। ज्ञात कुंजी वाक्यांशों का उपयोग करके, हम उदाहरणों के लिए धनात्मक या ऋणात्मक लेबल निर्दिष्ट कर सकते हैं। फिर हम एक क्लासिफायरियर सीखते हैं जो सुविधाओं के एक समारोह के रूप में धनात्मक और ऋणात्मक उदाहरणों के बीच अंतर कर सकता है। कुछ क्लासिफायर एक परीक्षण उदाहरण के लिए एक द्विआधारी वर्गीकरण करते हैं, जबकि अन्य एक प्रमुख वाक्यांश होने की संभावना प्रदान करते हैं। उदाहरण के लिए, उपरोक्त पाठ में, हम एक नियम सीख सकते हैं जो कहता है कि आरंभिक बड़े अक्षरों वाले वाक्यांश मुख्य वाक्यांश हो सकते हैं। एक शिक्षार्थी को प्रशिक्षित करने के बाद, हम निम्नलिखित तरीके से परीक्षण दस्तावेजों के लिए कीफ्रेज का चयन कर सकते हैं। हम परीक्षण दस्तावेजों के लिए एक ही उदाहरण-निर्माण रणनीति लागू करते हैं, और फिर प्रत्येक उदाहरण को शिक्षार्थी के माध्यम से चलाते हैं। हम बाइनरी वर्गीकरण निर्णयों या हमारे सीखे हुए मॉडल से लौटाई गई संभावनाओं को देखकर कीफ़्रेज़ निर्धारित कर सकते हैं। यदि संभावनाएँ दी गई हैं, तो कुंजी वाक्यांशों का चयन करने के लिए एक थ्रेशोल्ड का उपयोग किया जाता है। कीफ्रेज एक्सट्रैक्टर्स का मूल्यांकन सामान्यतः सटीकता और रिकॉल का उपयोग करके किया जाता है। सटीकता मापती है कि कितने प्रस्तावित मुख्य वाक्यांश वास्तव में सही हैं। रिकॉल यह मापता है कि आपके सिस्टम ने कितने वास्तविक कीफ्रेज़ प्रस्तावित किए हैं। दो उपायों को एक एफ-स्कोर में जोड़ा जा सकता है, जो कि दोनों का हार्मोनिक माध्य है (F = 2PR/(P + R))। प्रस्तावित प्रमुख वाक्यांशों और ज्ञात कीफ्रेज के बीच मिलान को स्टेमिंग या किसी अन्य पाठ सामान्यीकरण को लागू करने के बाद जांचा जा सकता है।

एक पर्यवेक्षित कीफ्रेज़ निष्कर्षण प्रणाली को डिजाइन करने में कई विकल्पों पर निर्णय लेना सम्मिलित है (इनमें से कुछ अनपर्यवेक्षित पर भी लागू होते हैं)। पहला विकल्प यह है कि उदाहरण कैसे तैयार किए जाएं। टर्नी और अन्य लोगों ने विराम चिह्नों में हस्तक्षेप किए बिना और स्टॉपवर्ड्स को हटाने के बाद सभी संभावित यूनिग्राम, बिग्राम और ट्रिग्राम का उपयोग किया है। हल्थ ने दिखाया कि आप भाषण टैग के कुछ पैटर्न से मेल खाने वाले टोकन के अनुक्रम होने के उदाहरणों का चयन करके कुछ सुधार प्राप्त कर सकते हैं। आदर्श रूप से, उदाहरण उत्पन्न करने के लिए तंत्र सभी ज्ञात लेबल वाले कीफ्रेज़ को उम्मीदवारों के रूप में उत्पन्न करता है, हालांकि अक्सर ऐसा नहीं होता है। उदाहरण के लिए, यदि हम केवल यूनीग्राम, बिग्राम और ट्रिग्राम का उपयोग करते हैं, तो हम चार शब्दों वाले ज्ञात कुंजी वाक्यांश को निकालने में कभी सक्षम नहीं होंगे। इस प्रकार, रिकॉल को नुकसान हो सकता है। हालांकि, बहुत अधिक उदाहरण उत्पन्न करने से भी कम सटीकता हो सकती है।

हमें ऐसी विशेषताओं को बनाने की भी आवश्यकता है जो उदाहरणों का वर्णन करती हैं और गैर-कीफ्रेज़ से कीफ़्रेज़ में भेदभाव करने के लिए सीखने के एल्गोरिदम को अनुमति देने के लिए पर्याप्त जानकारीपूर्ण हैं। सामान्यतः विशेषताओं में विभिन्न शब्द आवृत्तियाँ सम्मिलित होती हैं (वर्तमान पाठ में या एक बड़े कॉर्पस में कितनी बार एक वाक्यांश प्रकट होता है), उदाहरण की लंबाई, पहली घटना की सापेक्ष स्थिति, विभिन्न बूलियन वाक्य-विन्यास विशेषताएं (जैसे, सभी कैप्स सम्मिलित हैं), आदि टर्नी पेपर में ऐसी लगभग 12 विशेषताओं का उपयोग किया गया था। हल्थ सुविधाओं के एक कम सेट का उपयोग करता है, जो टर्नी के सेमिनल पेपर से प्राप्त केईए (कीफ्रेज़ एक्सट्रैक्शन एल्गोरिथम) कार्य में सबसे सफल पाए गए थे।

अंततः, सिस्टम को परीक्षण दस्तावेज़ के लिए कीफ़्रेज़ की एक सूची लौटाने की आवश्यकता होगी, इसलिए हमें संख्या को सीमित करने का एक तरीका चाहिए। समेकन विधियों (अर्थात्, कई क्लासिफायरों से वोटों का उपयोग करके) का उपयोग एक संख्यात्मक स्कोर बनाने के लिए किया गया है जिसे उपयोगकर्ता द्वारा प्रदान किए गए कीफ्रेज़ की संख्या प्रदान करने के लिए थ्रेसहोल्ड किया जा सकता है। यह C4.5 डिसीजन ट्री के साथ टर्ननी द्वारा उपयोग की जाने वाली एक तकनीक है। हल्थ ने एक एकल बाइनरी क्लासिफायरियर (द्विआधारी वर्गीकरण) का उपयोग किया, इसलिए सीखने के एल्गोरिथ्म ने स्पष्ट रूप से उपयुक्त संख्या निर्धारित की।

एक बार उदाहरण और सुविधाएँ बन जाने के बाद, हमें कीफ़्रेज़ की भविष्यवाणी करना सीखने का एक तरीका चाहिए। वस्तुतः किसी भी पर्यवेक्षित शिक्षण एल्गोरिथम का उपयोग किया जा सकता है, जैसे कि डिसीजन ट्री, नैवे बेयस और रूल इंडक्शन। टर्न के जेनएक्स एल्गोरिथम के मामले में, एक जेनेटिक (जन्म प्रमेय) एल्गोरिथम का उपयोग डोमेन-विशिष्ट कीफ्रेज निष्कर्षण एल्गोरिथम के मापदंडों को सीखने के लिए किया जाता है। चिमटा प्रमुख वाक्यांशों की पहचान करने के लिए अनुमानों की एक श्रृंखला का अनुसरण करता है। जेनेटिक एल्गोरिथम ज्ञात कुंजी वाक्यांशों के साथ प्रशिक्षण दस्तावेजों पर प्रदर्शन के संबंध में इन अनुमानों के लिए मापदंडों का अनुकूलन करता है।

अनियंत्रित दृष्टिकोण: टेक्स्टरैंक

टेक्स्टरैंक एक अन्य कुंजी वाक्यांश निष्कर्षण एल्गोरिथ्म है। जबकि पर्यवेक्षित तरीकों में कुछ अच्छे गुण होते हैं, जैसे कि कीवर्ड सुविधाओं के लिए व्याख्यात्मक नियम उत्पन्न करने में सक्षम होना, उन्हें बड़ी मात्रा में प्रशिक्षण डेटा की भी आवश्यकता होती है। जाने-पहचाने प्रमुख वाक्यांशों वाले कई दस्तावेज़ आवश्यक हैं। इसके अलावा, एक विशिष्ट डोमेन पर प्रशिक्षण उस डोमेन के लिए निष्कर्षण प्रक्रिया को अनुकूलित करता है, इसलिए परिणामी वर्गीकरण पोर्टेबल नहीं है, जैसा कि टर्न के कुछ परिणाम प्रदर्शित करते हैं। अनियंत्रित कीफ़्रेज़ निष्कर्षण प्रशिक्षण डेटा की आवश्यकता को समाप्त करता है। यह समस्या को एक अलग कोण से देखता है। प्रमुख वाक्यांशों की विशेषता वाली स्पष्ट विशेषताओं को सीखने की कोशिश करने के बजाय, टेक्स्टरैंक एल्गोरिथ्म [16] टेक्स्ट की संरचना का उपयोग उन प्रमुख वाक्यांशों को निर्धारित करने के लिए करता है जो टेक्स्ट के लिए "केंद्रीय" दिखाई देते हैं, जैसे महत्वपूर्ण वेब पेजों का पेजरैंक। चयन करता है। याद रखें कि यह सामाजिक नेटवर्क से "प्रतिष्ठा" या "सिफारिश" की धारणा पर आधारित है। इस तरह, टेक्स्टरैंक किसी भी पिछले प्रशिक्षण डेटा पर निर्भर नहीं करता है, लेकिन पाठ के किसी भी मनमाने टुकड़े पर चलाया जा सकता है, और यह केवल पाठ के आंतरिक गुणों के आधार पर आउटपुट का उत्पादन कर सकता है। इस प्रकार एल्गोरिदम आसानी से नए डोमेन और भाषाओं के लिए पोर्टेबल है।

टेक्स्टरैंक एनएलपी के लिए एक सामान्य उद्देश्य ग्राफ आधारित रैंकिंग एल्गोरिदम है। अनिवार्य रूप से, यह एक विशेष एनएलपी कार्य के लिए विशेष रूप से डिज़ाइन किए गए ग्राफ़ पर पेजरैंक चलाता है। कीफ़्रेज़ निष्कर्षण के लिए, यह पाठ इकाइयों के कुछ सेट को वर्टिकल के रूप में उपयोग करके एक ग्राफ़ बनाता है। किनारे पाठ इकाई के शीर्षों के बीच सिमेंटिक या लेक्सिकल (शाब्दिक) समानता के कुछ माप पर आधारित होते हैं। पेजरैंक के विपरीत, किनारे सामान्यतः अप्रत्यक्ष होते हैं और समानता की डिग्री को दर्शाने के लिए उन्हें भारित किया जा सकता है। एक बार ग्राफ का निर्माण हो जाने के बाद, इसका उपयोग एक स्टोकेस्टिक मैट्रिक्स बनाने के लिए किया जाता है, जो एक डंपिंग कारक ("यादृच्छिक सर्फर मॉडल" के रूप में) के साथ संयुक्त होता है, और ईजेनवेल्यू 1 (के अनुरूप ईजेनवेक्टर को खोजने के द्वारा कोने पर रैंकिंग प्राप्त की जाती है। ग्राफ़ पर यादृच्छिक चलने का स्थिर वितरण)।

शीर्षों को वह होना चाहिए जो हम रैंक करना चाहते हैं। संभावित रूप से, हम पर्यवेक्षित विधियों के समान कुछ कर सकते हैं और प्रत्येक यूनीग्राम, बिग्राम, ट्रिग्राम आदि के लिए एक शीर्ष बना सकते हैं। हालांकि, ग्राफ को छोटा रखने के लिए, लेखक पहले चरण में अलग-अलग यूनिग्राम को रैंक करने का निर्णय लेते हैं और फिर दूसरा चरण सम्मिलित करते हैं। जो बहु-शब्द वाक्यांशों को बनाने के लिए अत्यधिक रैंक वाले आसन्न यूनीग्रामों को मिला देता है। यह हमें मनमाना लंबाई के कुंजी वाक्यांशों का उत्पादन करने की अनुमति देने का अच्छा दुष्प्रभाव है। उदाहरण के लिए, यदि हम यूनीग्राम को रैंक करते हैं और पाते हैं कि "उन्नत", "प्राकृतिक", "भाषा", और "प्रसंस्करण" सभी को उच्च रैंक मिलती है, तो हम मूल पाठ को देखेंगे और देखेंगे कि ये शब्द लगातार दिखाई देते हैं और एक अंतिम बनाते हैं सभी चारों का एक साथ उपयोग करते हुए कीफ्रेज़। ध्यान दें कि ग्राफ़ में रखे गए यूनीग्राम को वाक् के भाग द्वारा फ़िल्टर किया जा सकता है। लेखकों ने पाया कि विशेषण और संज्ञाएं सम्मिलित करने के लिए सबसे अच्छे थे। इस प्रकार, इस चरण में कुछ भाषाई ज्ञान चलन में आ जाता है।

टेक्स्टरैंक के इस एप्लिकेशन में शब्द सह-घटना के आधार पर किनारे बनाए गए हैं। यदि मूल पाठ में आकार एन की खिड़की के भीतर यूनीग्राम दिखाई देते हैं तो दो कोने एक किनारे से जुड़े होते हैं। एन आम तौर पर लगभग 2-10 होता है। इस प्रकार, "प्राकृतिक" और "भाषा" को एनएलपी के बारे में एक पाठ में जोड़ा जा सकता है। "प्राकृतिक" और "प्रसंस्करण" को भी जोड़ा जाएगा क्योंकि वे दोनों एन शब्दों के एक ही तार में दिखाई देंगे। ये किनारे "टेक्स्ट सामंजस्य" की धारणा पर निर्मित होते हैं और यह विचार है कि जो शब्द एक-दूसरे के निकट दिखाई देते हैं, वे संभावित रूप से एक सार्थक तरीके से संबंधित होते हैं और पाठक को एक-दूसरे की "अनुशंसा" करते हैं।

चूंकि यह विधि केवल अलग-अलग शीर्षों को रैंक करती है, इसलिए हमें दहलीज तक पहुंचने या सीमित संख्या में प्रमुख वाक्यांशों का उत्पादन करने की आवश्यकता है। चुनी गई तकनीक ग्राफ़ में शीर्षों की कुल संख्या का एक उपयोगकर्ता-निर्दिष्ट अंश होने के लिए एक गणना टी सेट करना है। फिर उनकी स्थिर संभावनाओं के आधार पर शीर्ष टी कोने/यूनीग्राम का चयन किया जाता है। एक पोस्ट-प्रोसेसिंग कदम तब इन टी यूनिग्राम के आसन्न उदाहरणों को मर्ज करने के लिए लागू किया जाता है। नतीजतन, संभावित रूप से टी अंतिम कीफ्रेज से अधिक या कम उत्पादन किया जाएगा, लेकिन संख्या मूल पाठ की लंबाई के अनुपात में होनी चाहिए।

प्रारम्भ में यह स्पष्ट नहीं है कि सह-घटना ग्राफ़ पर पेजरैंक लागू करने से उपयोगी कीफ़्रेज़ क्यों बनेंगे। इसके बारे में सोचने का एक तरीका इस प्रकार है। एक शब्द जो पूरे पाठ में कई बार प्रकट होता है, उसके कई अलग-अलग सह-पड़ोस हो सकते हैं। उदाहरण के लिए, मशीन लर्निंग के बारे में एक पाठ में, यूनीग्राम "लर्निंग" चार अलग-अलग वाक्यों में "मशीन", "पर्यवेक्षित", "अन-पर्यवेक्षित" और "अर्ध-पर्यवेक्षित" के साथ सह-घटित हो सकता है। इस प्रकार, "सीखना" शीर्ष एक केंद्रीय "हब" होगा जो इन अन्य संशोधित शब्दों से जुड़ता है। ग्राफ़ पर पेजरैंक/टेक्स्टरैंक चलाने से "सीखने" की उच्च रैंक होने की संभावना है। इसी तरह, यदि टेक्स्ट में "पर्यवेक्षित वर्गीकरण" वाक्यांश सम्मिलित है, तो "पर्यवेक्षित" और "वर्गीकरण" के बीच एक बढ़त होगी। यदि "वर्गीकरण" कई अन्य स्थानों में प्रकट होता है और इस प्रकार कई पड़ोसी हैं, तो इसका महत्व "पर्यवेक्षण" के महत्व में योगदान देगा। यदि यह एक उच्च रैंक के साथ समाप्त होता है, तो इसे "सीखने" और शायद "वर्गीकरण" के साथ-साथ शीर्ष टी यूनिग्राम में से एक के रूप में चुना जाएगा। अंतिम पोस्ट-प्रोसेसिंग चरण में, हम तब "पर्यवेक्षित शिक्षण" और "पर्यवेक्षित वर्गीकरण" कीफ़्रेज़ के साथ समाप्त होंगे।

संक्षेप में, सह-घटना ग्राफ़ में अक्सर और विभिन्न संदर्भों में दिखाई देने वाले शब्दों के लिए सघन रूप से जुड़े क्षेत्र सम्मिलित होंगे। इस ग्राफ पर एक यादृच्छिक चलने का एक स्थिर वितरण होगा जो क्लस्टर के केंद्रों में शर्तों को बड़ी संभावनाएँ प्रदान करता है। यह सघन रूप से जुड़े हुए वेब पेजों के समान है, जिन्हें पेजरैंक द्वारा उच्च स्थान दिया गया है। दस्तावेज़ सारांशीकरण में भी इस दृष्टिकोण का उपयोग किया गया है, जिसे नीचे माना गया है।

आलेख सारांश

मुख्यवाक्यांश निष्कर्षण की तरह, दस्तावेज़ संक्षेपीकरण का उद्देश्य किसी पाठ के सार की पहचान करना है। केवल वास्तविक अंतर यह है कि अब हम शब्दों और वाक्यांशों के बजाय बड़ी पाठ्य इकाइयों-पूरे वाक्यों के साथ काम कर रहे हैं।

पर्यवेक्षित शिक्षण दृष्टिकोण

पर्यवेक्षित पाठ संक्षेपीकरण पर्यवेक्षित कीफ़्रेज़ निष्कर्षण के समान है। मूल रूप से, यदि आपके पास उनके लिए दस्तावेज़ों और मानव-निर्मित सारांशों का एक संग्रह है, तो आप वाक्यों की उन विशेषताओं को सीख सकते हैं जो उन्हें सारांश में सम्मिलित करने के लिए अच्छे उम्मीदवार बनाती हैं। सुविधाओं में दस्तावेज़ में स्थिति सम्मिलित हो सकती है (यानी, पहले कुछ वाक्य शायद महत्वपूर्ण हैं), वाक्य में शब्दों की संख्या, आदि। पर्यवेक्षित निष्कर्ष सारांश में मुख्य कठिनाई यह है कि ज्ञात सारांश मैन्युअल रूप से वाक्यों को निकालने के द्वारा बनाया जाना चाहिए। एक मूल प्रशिक्षण दस्तावेज़ के वाक्यों को "सारांश में" या "सारांश में नहीं" के रूप में लेबल किया जा सकता है। यह सामान्यतः नहीं है कि लोग सारांश कैसे बनाते हैं, इसलिए केवल जर्नल सार या मौजूदा सारांश का उपयोग करना पर्याप्त नहीं है। इन सारांशों में दिए गए वाक्य मूल पाठ के वाक्यों से आवश्यक रूप से मेल नहीं खाते हैं, इसलिए प्रशिक्षण के लिए उदाहरणों को लेबल देना मुश्किल होगा। ध्यान दें, हालांकि, इन प्राकृतिक सारांशों का अभी भी मूल्यांकन उद्देश्यों के लिए उपयोग किया जा सकता है क्योंकि रूज़ -1 (ROUGE-1) मूल्यांकन केवल यूनीग्राम को ही मानता है।

अधिकतम एन्ट्रापी-आधारित सारांश

डीयूसी 2001 और 2002 के मूल्यांकन कार्यशालाओं के दौरान, टीएनओ (नुप्रयुक्त वैज्ञानिक अनुसंधान के लिए नीदरलैंड संगठन) ने समाचार क्षेत्र में बहु-दस्तावेज़ सारांश के लिए एक वाक्य निष्कर्षण प्रणाली विकसित की। यह प्रणाली मॉडलिंग के लिए एक सहज बेयस क्लासिफायरियर और एक सांख्यिकीय भाषा मॉडल का उपयोग करके एक हाइब्रिड प्रणाली पर आधारित थी। हालांकि इस प्रणाली ने अच्छे परिणाम प्रदर्शित किए, लेकिन शोधकर्ता बैठक के सारांशीकरण कार्य के लिए अधिकतम एंट्रॉपी (एमई) क्लासिफायर की प्रभावशीलता का पता लगाना चाहते थे, क्योंकि एमई को फीचर निर्भरता के खिलाफ मजबूत माना जाता है। प्रसारण समाचार डोमेन में संक्षेपण के लिए अधिकतम एंट्रोपी को भी सफलतापूर्वक लागू किया गया है।

अनुकूली सारांश

अनुकूली दस्तावेज़/पाठ सारांशीकरण एक आशाजनक दृष्टिकोण है।[17] इसमें पहले पाठ शैली को पहचानना और फिर इस शैली के लिए अनुकूलित सारांश एल्गोरिदम लागू करना सम्मिलित है। ऐसा सॉफ्टवेयर तैयार किया गया है।[18]

टेक्स्टरैंक और लेक्सरैंक

संक्षेपण के लिए अप्रशिक्षित दृष्टिकोण भी अप्रशिक्षित कीफ्रेज़ निष्कर्षण की भावना के समान है और महंगा प्रशिक्षण डेटा के मुद्दे के आसपास हो जाता है। कुछ गैर-पर्यवेक्षित सारांशीकरण दृष्टिकोण "केन्द्रक" वाक्य खोजने पर आधारित होते हैं, जो दस्तावेज़ में सभी वाक्यों का औसत शब्द वेक्टर होता है। तब वाक्यों को इस केन्द्रक वाक्य के साथ उनकी समानता के आधार पर रैंक किया जा सकता है।

वाक्य के महत्व का अनुमान लगाने का एक अधिक सैद्धांतिक तरीका यादृच्छिक चाल और आइजनवेक्टर केंद्रीयता का उपयोग करना है। लेक्सरैंक[19] अनिवार्य रूप से टेक्स्टरैंक के समान एक एल्गोरिद्म है, और दोनों ही इस दृष्टिकोण का उपयोग दस्तावेज़ संक्षेपण के लिए करते हैं। दो विधियों को एक ही समय में अलग-अलग समूहों द्वारा विकसित किया गया था, और लेक्सरैंक ने केवल संक्षेपण पर ध्यान केंद्रित किया था, लेकिन कीफ्रेज़ निष्कर्षण या किसी अन्य एनएलपी रैंकिंग कार्य के लिए आसानी से उपयोग किया जा सकता था।

लेक्सरैंक और टेक्स्टरैंक दोनों में, दस्तावेज़ में प्रत्येक वाक्य के लिए एक शीर्ष बनाकर एक ग्राफ का निर्माण किया जाता है।

वाक्यों के बीच के किनारे अर्थ-संबंधी समानता या सामग्री अतिव्यापन के कुछ प्रकार पर आधारित होते हैं। जबकि लेक्सरैंक टीएफ-आईडीएफ (TF-IDF) वैक्टर की कोसाइन समानता का उपयोग करता है, टेक्स्टरैंक शब्दों की संख्या के आधार पर एक समान माप का उपयोग करता है जो दो वाक्यों में आम है (वाक्य की लंबाई द्वारा सामान्यीकृत)। लेक्सरैंक पेपर ने कोसाइन वैल्यू के लिए थ्रेसहोल्ड लागू करने के बाद अनवीटेड किनारों का उपयोग करके पता लगाया लेकिन समानता स्कोर के बराबर वजन वाले किनारों का उपयोग करने के साथ भी प्रयोग किया। टेक्स्टरैंक प्रभाव के रूप में निरंतर समानता स्कोर का उपयोग करता है।

दोनों एल्गोरिथम में, परिणामी ग्राफ़ पर पेजरैंक लागू करके वाक्यों को रैंक दिया जाता है। सारांश के आकार को सीमित करने के लिए थ्रेसहोल्ड या लंबाई कटऑफ़ का उपयोग करके, शीर्ष-रैंकिंग वाक्यों को मिलाकर एक सारांश तैयार किया जाता है।

यह ध्यान देने योग्य है कि टेक्स्टरैंक को सारांशीकरण के लिए लागू किया गया था जैसा कि यहां वर्णित है, जबकि लेक्सरैंक का उपयोग एक बड़े संक्षेपण प्रणाली (एमईएडी) के हिस्से के रूप में किया गया था जो लेक्सरैंक स्कोर (स्थिर संभाव्यता) को अन्य विशेषताओं जैसे वाक्य की स्थिति और लंबाई के साथ एक खिक संयोजन का उपयोग करके जोड़ती है। या तो उपयोगकर्ता-निर्दिष्ट या स्वचालित रूप से ट्यून किए गए प्रभाव के साथ। इस मामले में, कुछ प्रशिक्षण दस्तावेज़ों की आवश्यकता हो सकती है, हालांकि टेक्स्टरैंक परिणाम दिखाते हैं कि अतिरिक्त सुविधाएँ बिल्कुल आवश्यक नहीं हैं।

टेक्स्टरैंक के विपरीत, लेक्सरैंक बहु-दस्तावेज़ सारांशों पर कार्यान्वित किया जाता है।

बहु-दस्तावेज़ सारांश

बहु-दस्तावेज़ सारांश एक स्वचालित प्रक्रिया है जिसका उद्देश्य एक ही विषय के बारे में लिखे गए कई पाठों से जानकारी निकालना है। परिणामी सारांश रिपोर्ट व्यक्तिगत उपयोगकर्ताओं, जैसे पेशेवर सूचना उपभोक्ताओं को दस्तावेज़ों के एक बड़े समूह में निहित जानकारी के साथ जल्दी से परिचित होने की अनुमति देती है। ऐसे में, बहु-दस्तावेज़ संक्षेपण प्रणालियाँ सूचना अधिभार से निपटने के अगले चरण में प्रदर्शन करने वाले समाचार एग्रीगेटरों की पूरक हैं। एक प्रश्न के उत्तर में बहु-दस्तावेज़ सारांश भी किया जा सकता है।[20][11]

बहु-दस्तावेज़ सारांश सूचना रिपोर्ट तैयार करता है जो संक्षिप्त और व्यापक दोनों हैं। प्रत्येक विषय को एक दस्तावेज़ के भीतर कई दृष्टिकोणों से वर्णित किया गया है, जिसमें अलग-अलग राय एक साथ समूहीकृत और रेखांकित हैं। जबकि एक संक्षिप्त सारांश का लक्ष्य सूचना खोज को सरल बनाना और सबसे प्रासंगिक स्रोत दस्तावेजों की ओर इशारा करते हुए समय कम करना है, व्यापक बहु-दस्तावेज़ सारांश में स्वयं आवश्यक जानकारी होनी चाहिए, इसलिए शोधन के मामलों में मूल फ़ाइलों तक पहुँचने की आवश्यकता होती है। स्वचालित सारांश किसी भी संपादकीय स्पर्श या व्यक्तिपरक मानव हस्तक्षेप के बिना, एल्गोरिदमिक रूप से कई स्रोतों से निकाली गई जानकारी प्रस्तुत करते हैं, इस प्रकार पूरी तरह से निष्पक्ष होते हैं।[dubious ]

विविधता

बहु-दस्तावेज़ निकालने का सारांश अतिरेक की समस्या का सामना करता है। आदर्श रूप से, हम उन वाक्यों को निकालना चाहते हैं जो "केंद्रीय" हैं (यानी, मुख्य विचार सम्मिलित हैं) और "विविध" (यानी, वे एक-दूसरे से भिन्न हैं)। उदाहरण के लिए, किसी घटना के बारे में समाचार लेखों के एक सेट में, प्रत्येक लेख में कई समान वाक्यों को सम्मिलित करने की संभावना होती है। इस समस्या को हल करने के लिए, लेक्सरैंक एक हेयुरिस्टिक पोस्ट-प्रोसेसिंग कदम लागू करता है जो वाक्यों को रैंक क्रम में जोड़ता है लेकिन उन वाक्यों को छोड़ देता है जो पहले से ही सारांश में बहुत समान हैं। इस विधि को क्रॉस-सेंटेंस इंफॉर्मेशन सबसम्प्शन (सीएसआईएस) कहा जाता है। ये विधियाँ इस विचार पर आधारित हैं कि वाक्य पाठक को अन्य समान वाक्यों की "अनुशंसा" करते हैं। इस प्रकार, यदि कोई वाक्य कई अन्य वाक्यों के समान है, तो यह संभवतः बहुत महत्व का वाक्य होगा। इसका महत्व "सिफारिश" वाक्य के महत्व से भी उपजा है। इस प्रकार, उच्च रैंक करने और सारांश में रखे जाने के लिए, एक वाक्य को कई वाक्यों के समान होना चाहिए जो बदले में कई अन्य वाक्यों के समान भी हों। यह सहज समझ में आता है और एल्गोरिदम को मनमाने ढंग से नए टेक्स्ट पर लागू करने की अनुमति देता है। विधियां डोमेन-स्वतंत्र और आसानी से पोर्टेबल हैं। कोई कल्पना कर सकता है कि समाचार क्षेत्र में महत्वपूर्ण वाक्यों को दर्शाने वाली विशेषताएँ बायोमेडिकल डोमेन से काफी अलग हो सकती हैं। हालांकि, बिना निगरानी वाली "अनुशंसा"-आधारित पद्धति किसी भी डोमेन पर लागू होती है।

एक संबंधित विधि मैक्सिमल मार्जिनल रेलेवेंस (एमएमआर) है,[21] जो पेज/लेक्स/टेक्स्टरैंक जैसे सामान्य-उद्देश्य वाले ग्राफ-आधारित रैंकिंग एल्गोरिदम का उपयोग करती है, जो मार्कोव को अवशोषित करने के आधार पर एकीकृत गणितीय ढांचे में "केंद्रीयता" और "विविधता" दोनों को संभालती है। चेन रैंडम वॉक (एक रैंडम वॉक जहां कुछ राज्यों में वॉक खत्म होती है)। एल्गोरिदम को ग्रासहॉपर कहा जाता है।[22] रैंकिंग प्रक्रिया के दौरान विविधता को स्पष्ट रूप से बढ़ावा देने के अलावा, ग्रासहॉपर एक पूर्व रैंकिंग (सारांशीकरण के मामले में वाक्य की स्थिति के आधार पर) को सम्मिलित करता है।

सबमॉड्यूलर कार्यों के मिश्रण का उपयोग करके बहु-दस्तावेज़ संक्षेपण के लिए अत्याधुनिक परिणाम प्राप्त किए जाते हैं। इन पद्धतियों ने दस्तावेज़ सारांश कॉर्पोरा, डीयूसी 04 - 07 के लिए अत्याधुनिक परिणाम प्राप्त किए हैं।[23] डीयूसी-04 के लिए निर्धारक बिंदु प्रक्रियाओं (जो सबमॉड्यूलर कार्यों का एक विशेष मामला है) के उपयोग से समान परिणाम प्राप्त किए गए थे।[24]

बहु-भाषी बहु-दस्तावेज़ संक्षेपीकरण के लिए एक नई विधि जो अतिरेक से बचाती है, प्रत्येक दस्तावेज़ में प्रत्येक वाक्य के अर्थ का प्रतिनिधित्व करने के लिए आइडियोग्राम उत्पन्न करती है, फिर आइडोग्राम आकार और स्थिति की तुलना करके समानता का मूल्यांकन करती है। यह शब्द आवृत्ति, प्रशिक्षण या पूर्वप्रक्रमण का उपयोग नहीं करता है। यह उपयोगकर्ता द्वारा प्रदान किए गए दो मापदंडों का उपयोग करता है: तुल्यता (जब दो वाक्यों को समकक्ष माना जाए?) और प्रासंगिकता (इच्छित सारांश कितना लंबा है?)।

सारांशीकरण के लिए सामान्य उपकरण के रूप में सबमॉड्यूलर कार्य करता है

एक सबमॉड्यूलर सेट फ़ंक्शन का विचार हाल ही में विभिन्न सारांश समस्याओं के लिए एक शक्तिशाली मॉडलिंग टूल के रूप में उभरा है। सबमॉड्यूलर फ़ंक्शंस स्वाभाविक रूप से कवरेज, सूचना, प्रतिनिधित्व और विविधता के आदर्श विचार हैं। इसके अलावा, कई महत्वपूर्ण दहनशील अनुकूलन समस्याएं सबमॉड्यूलर अनुकूलन के विशेष उदाहरण के रूप में उत्पन्न होती हैं। उदाहरण के लिए, सेट कवर समस्या सबमॉड्यूलर अनुकूलन का एक विशेष मामला है, चूंकि सेट कवर फ़ंक्शन सबमॉड्यूलर है। सेट कवर फ़ंक्शन वस्तुओं का एक सबसेट खोजने का प्रयास करता है जो अवधारणाओं के दिए गए सेट को कवर करता है। उदाहरण के लिए, दस्तावेज़ संक्षेपण में, कोई चाहेगा कि सारांश दस्तावेज़ में सभी महत्वपूर्ण और प्रासंगिक अवधारणाओं को सम्मिलित करे। यह एक सेट कवर का उदाहरण है। इसी प्रकार, सुविधा स्थान की समस्या सबमॉड्यूलर कार्यों का एक विशेष मामला है। सुविधा स्थान फ़ंक्शन स्वाभाविक रूप से कवरेज और विविधता को भी मॉडल करता है। सबमॉड्यूलर ऑप्टिमाइज़ेशन समस्या का एक अन्य उदाहरण मॉडल विविधता के लिए एक निर्धारक बिंदु प्रक्रिया का उपयोग कर रहा है। इसी तरह, अधिकतम-सीमांत-प्रासंगिकता प्रक्रिया को सबमॉड्यूलर ऑप्टिमाइज़ेशन के उदाहरण के रूप में भी देखा जा सकता है। कवरेज, विविधता और जानकारी को प्रोत्साहित करने वाले ये सभी महत्वपूर्ण मॉडल सबमॉड्यूलर हैं। इसके अलावा, सबमॉड्यूलर कार्यों को कुशलता से संयोजित किया जा सकता है, और परिणामी फ़ंक्शन अभी भी सबमॉड्यूलर है। इसलिए, कोई एक सबमॉड्यूलर फ़ंक्शन को जोड़ सकता है जो विविधता का मॉडल करता है, और दूसरा एक जो मॉडल कवरेज करता है और समस्या के लिए एक सबमॉड्यूलर फ़ंक्शन का सही मॉडल सीखने के लिए मानव पर्यवेक्षण का उपयोग करता है।

जबकि सबमॉड्यूलर फ़ंक्शंस सारांश के लिए उपयुक्त समस्याएँ हैं, वे अनुकूलन के लिए बहुत कुशल एल्गोरिदम भी स्वीकार करते हैं। उदाहरण के लिए, एक साधारण अतोषणीय एल्गोरिथम निरंतर गुणनखंडन गारंटी को स्वीकार करता है।[25] इसके अलावा, लालची एल्गोरिथ्म को लागू करना बेहद सरल है और बड़े डेटासेट को स्केल कर सकता है, जो सारांश समस्याओं के लिए बहुत महत्वपूर्ण है।

सबमॉड्यूलर फ़ंक्शंस ने लगभग सभी संक्षेपण समस्याओं के लिए अत्याधुनिक हासिल किया है। उदाहरण के लिए, लिन और बिल्म्स, 2012[26] द्वारा किए गए कार्य से पता चलता है कि सबमॉड्यूलर फ़ंक्शंस दस्तावेज़ सारांश के लिए डीयूसी-04, डीयूसी-05, डीयूसी-06 और डीयूसी-07 सिस्टम पर आज तक के सर्वोत्तम परिणाम प्राप्त करते हैं। इसी तरह, लिन और बिल्म्स, 2011,[27] द्वारा किए गए कार्य से पता चलता है कि स्वचालित संक्षेपण के लिए कई मौजूदा सिस्टम सबमॉड्यूलर कार्यों के उदाहरण हैं। यह संक्षेपण समस्याओं के लिए सही मॉडल के रूप में सबमॉड्यूलर कार्यों को स्थापित करने वाला एक सफल परिणाम था।[citation needed]

अन्य सारांश कार्यों के लिए सबमॉड्यूलर फ़ंक्शंस का भी उपयोग किया गया है। चिआत्शेक एट अल, 2014 दिखाते हैं[28] कि सबमॉड्यूलर फ़ंक्शंस के मिश्रण से छवि संग्रह सारांश के लिए अत्याधुनिक परिणाम प्राप्त होते हैं। इसी तरह, बैरी एट अल।, 2015[29] बहु-दस्तावेज़ विषय पदानुक्रमों को सारांशित करने के लिए सबमॉड्यूलर फ़ंक्शंस की उपयोगिता दिखाते हैं। मशीन लर्निंग डेटासेट को संक्षेप में प्रस्तुत करने के लिए सबमॉड्यूलर फ़ंक्शंस का भी सफलतापूर्वक उपयोग किया गया है।[30]

अनुप्रयोग

स्वचालित सारांश के विशिष्ट अनुप्रयोगों में सम्मिलित हैं:

रेडिट (Reddit) बॉट "ऑटोटीएलडीआर (autotldr)", [31]2011 में बनाया गया था जो रेडिट पोस्ट के टिप्पणी अनुभाग में समाचार लेखों को सारांशित करता है। रेडिट समुदाय द्वारा इसे बहुत उपयोगी पाया गया, जिसने इसके सारांश को सैकड़ों हजारों बार अपवोट किया। [32] यह नाम टीएल; डीआर - इंटरनेट स्लैंग "टू लॉन्ग; डिन्ट रीड" का संदर्भ है।[32][33]

मूल्यांकन

स्वचालित सारांशों की सूचनात्मकता का मूल्यांकन करने का सबसे आम तरीका उनकी मानव-निर्मित मॉडल सारांशों के साथ तुलना करना है।

मूल्यांकन आंतरिक या बाहरी हो सकता है,[34] और अंतर-पाठ्य या अंतर-पाठ्य।[35]

आंतरिक बनाम बाह्य

आंतरिक मूल्यांकन सीधे सारांशों का आकलन करता है, जबकि बाह्य मूल्यांकन मूल्यांकन करता है कि कैसे संक्षेपण प्रणाली किसी अन्य कार्य को पूरा करने को प्रभावित करती है। आंतरिक मूल्यांकन ने मुख्य रूप से सारांशों की सुसंगतता और सूचनात्मकता का मूल्यांकन किया है। दूसरी ओर, बाहरी मूल्यांकनों ने प्रासंगिकता मूल्यांकन, पढ़ने की समझ आदि जैसे कार्यों पर सारांशीकरण के प्रभाव का परीक्षण किया है।

इंटर-टेक्सचुअल बनाम इंट्रा-टेक्सचुअल

अंतर-पाठ्य मूल्यांकन एक विशिष्ट सारांश प्रणाली के आउटपुट का आकलन करता है, जबकि अंतर-पाठ्य मूल्यांकन कई संक्षेपण प्रणालियों के आउटपुट के विपरीत विश्लेषण पर केंद्रित है।

मानव निर्णय अक्सर "अच्छा" सारांश मानता है, इसलिए एक स्वचालित मूल्यांकन प्रक्रिया बनाना विशेष रूप से कठिन होता है। नियमावली मूल्यांकन का उपयोग किया जा सकता है, लेकिन यह समय और श्रम-गहन दोनों है, क्योंकि इसके लिए मनुष्यों को न केवल सारांश बल्कि स्रोत दस्तावेजों को भी पढ़ना पड़ता है। अन्य मुद्दे वे हैं जो सुसंगति और व्याप्ति से संबंधित हैं।

सारांशों का मूल्यांकन करने का सबसे आम तरीका है रूज (ROUGE) (रिकॉल-ओरिएंटेड अंडरस्टडी फॉर गिस्टिंग इवैल्यूएशन)। एनआईएसटी के दस्तावेज़ समझ सम्मेलनों में सारांशीकरण और अनुवाद प्रणालियों के लिए यह बहुत आम है। रूज एक रिकॉल-आधारित माप है कि सारांश मानव-जनित सारांशों की सामग्री को संदर्भ के रूप में कितनी अच्छी तरह कवर करता है। यह स्वचालित रूप से जेनरेट किए गए सारांशों और पहले लिखित मानव सारांशों के बीच एन-ग्राम ओवरलैप्स की गणना करता है। सारांशों में सभी महत्वपूर्ण विषयों को सम्मिलित करने के लिए प्रोत्साहित करने के लिए यह स्मरण-आधारित है। रिकॉल की गणना यूनिग्राम, बिग्राम, ट्रिग्राम या 4-ग्राम मैचिंग के संबंध में की जा सकती है। उदाहरण के लिए, रूज -1 यूनिग्राम का अंश है जो संदर्भ सारांश और स्वचालित सारांश दोनों में दिखाई देता है, जो संदर्भ सारांश में सभी यूनिग्राम में से होता है। यदि कई संदर्भ सारांश हैं, तो उनके स्कोर औसत हैं। ओवरलैप का एक उच्च स्तर दो सारांशों के बीच उच्च स्तर की साझा अवधारणाओं को इंगित करना चाहिए।

रूज यह निर्धारित नहीं कर सकता कि परिणाम सुसंगत है या नहीं, यानी वाक्य समझदारी से एक साथ प्रवाहित होते हैं या नहीं। उच्च-क्रम एन-ग्राम रूज उपाय कुछ हद तक मदद करते हैं।

एक और अनसुलझी समस्या है एनाफोर रिज़ॉल्यूशन। इसी तरह, छवि सारांशीकरण के लिए, चिआत्चेक एट अल. ने एक विज़ुअल-रूज स्कोर विकसित किया, जो छवि सारांशीकरण के लिए एल्गोरिदम के प्रदर्शन का न्याय करता है।[36]

डोमेन-विशिष्ट बनाम डोमेन-स्वतंत्र सारांश

डोमेन-स्वतंत्र सारकरण तकनीक सूचना-समृद्ध पाठ खंडों की पहचान करने के लिए सामान्य सुविधाओं के सेट लागू करती है। हालिया शोध पाठ के डोमेन के लिए विशिष्ट ज्ञान का उपयोग करते हुए डोमेन-विशिष्ट संक्षेपण पर केंद्रित है, जैसे कि चिकित्सा ज्ञान और चिकित्सा ग्रंथों को सारांशित करने के लिए सत्तामीमांसा। [37]

गुणात्मक

अब तक की मूल्यांकन प्रणाली का मुख्य दोष यह है कि हमें मॉडल के साथ स्वचालित सारांश की तुलना करने के लिए एक संदर्भ सारांश (कुछ विधियों के लिए, एक से अधिक) की आवश्यकता होती है। यह एक कठिन और महंगा काम है। ग्रंथों का संग्रह और उनके अनुरूप सारांश बनाने के लिए बहुत प्रयास किए जाने की आवश्यकता है। इसके अलावा, कुछ तरीकों के लिए सारांश के मैनुअल एनोटेशन की आवश्यकता होती है (जैसे पिरामिड विधि में एससीयू)। इसके अलावा, वे सभी अलग-अलग समानता मेट्रिक्स के संबंध में मात्रात्मक मूल्यांकन करते हैं।

इतिहास

इस क्षेत्र में पहला प्रकाशन 1957 [38] (हंस पीटर लुहान) का है, जिसकी प्रारम्भ एक सांख्यिकीय तकनीक से हुई थी। 2015 में अनुसंधान में काफी वृद्धि हुई। 2016 तक शब्द आवृत्ति-उलटा दस्तावेज़ आवृत्ति का उपयोग किया गया था। 2016 में पाया गया बहु-दस्तावेज़ संक्षेपण के लिए पैटर्न-आधारित सारांश सबसे शक्तिशाली विकल्प था। अगले वर्ष, यह अव्यक्त सिमेंटिक विश्लेषण (एलएसए) से आगे निकल गया था ) गैर-ऋणात्मक मैट्रिक्स गुणनखंडन (एनएमएफ) के साथ संयुक्त। हालांकि वे अन्य दृष्टिकोणों को प्रतिस्थापित नहीं करते थे और अक्सर उनके साथ संयुक्त होते हैं, 2019 तक मशीन सीखने के तरीकों ने एकल दस्तावेजों के निष्कर्षण सारांश पर हावी हो गए, जिसे परिपक्वता के करीब माना जाता था। 2020 तक, क्षेत्र अभी भी बहुत सक्रिय था और अनुसंधान अमूर्त योग और वास्तविक समय के सारांश की ओर बढ़ रहा है।[39]

हालिया दृष्टिकोण

हाल ही में अधिक परंपरागत आरएनएन (एलएसटीएम) की जगह ट्रांसफॉर्मर मॉडल के उदय ने टेक्स्ट अनुक्रमों के मानचित्रण में एक अलग प्रकार के टेक्स्ट अनुक्रमों में लचीलापन प्रदान किया है, जो स्वचालित सारांश के लिए उपयुक्त है। इसमें T5[40] और पेगासस जैसे मॉडल सम्मिलित हैं।

यह भी देखें

संदर्भ

  1. Torres-Moreno, Juan-Manuel (1 October 2014). स्वचालित पाठ सारांश. Wiley. pp. 320–. ISBN 978-1-848-21668-6.
  2. Pan, Xingjia; Tang, Fan; Dong, Weiming; Ma, Chongyang; Meng, Yiping; Huang, Feiyue; Lee, Tong-Yee; Xu, Changsheng (2021-04-01). "छवि संग्रह के लिए सामग्री-आधारित दृश्य सारांश". IEEE Transactions on Visualization and Computer Graphics. 27 (4): 2298–2312. doi:10.1109/tvcg.2019.2948611. ISSN 1077-2626. PMID 31647438. S2CID 204865221.
  3. "WIPO ने "छवि सारांश प्रणाली और विधि" (दक्षिण कोरियाई आविष्कारक) के लिए KT का पेटेंट प्रकाशित किया". US Fed News Service. January 10, 2018. ProQuest 1986931333. Retrieved January 22, 2021.
  4. Li Tan; Yangqiu Song; Shixia Liu; Lexing Xie (February 2012). "इमेजहाइव: इंटरएक्टिव कंटेंट-अवेयर इमेज सारांश". IEEE Computer Graphics and Applications. 32 (1): 46–55. doi:10.1109/mcg.2011.89. ISSN 0272-1716. PMID 24808292. S2CID 7668289.
  5. Sankar K. Pal; Alfredo Petrosino; Lucia Maddalena (25 January 2012). वीडियो निगरानी के लिए सॉफ्ट कंप्यूटिंग पर हैंडबुक. CRC Press. pp. 81–. ISBN 978-1-4398-5685-7.
  6. Elhamifar, Ehsan; Sapiro, Guillermo; Vidal, Rene. "कुछ को देखकर सभी देखें: प्रतिनिधि वस्तुओं को खोजने के लिए विरल मॉडलिंग". ieeexplore.ieee.org. IEEE. Retrieved 4 December 2022.
  7. Mademlis, Ioannis; Tefas, Anastasios; Nikolaidis, Nikos; Pitas, Ioannis. "वर्णनात्मक विशेषताओं के अनुरूप मल्टीमॉडल स्टीरियोस्कोपिक मूवी सारांश". ieeexplore.ieee.org. IEEE. Retrieved 4 December 2022.
  8. Mademlis, Ioannis; Tefas, Anastasios; Pitas, Ioannis. "की-फ्रेम निष्कर्षण के माध्यम से गतिविधि वीडियो सारांश के लिए एक प्रमुख शब्दकोश सीखने की रूपरेखा". sciencedirect.com. Elsevier. Retrieved 4 December 2022.
  9. "Google डॉक्स में स्वतः जनित सारांश". Google AI Blog (in English). Retrieved 2022-04-03.
  10. Richard Sutz, Peter Weverka. How to skim text. https://www.dummies.com/education/language-arts/speed-reading/how-to-skim-text/ Accessed Dec 2019.
  11. 11.0 11.1 अफजल एम, आलम एफ, मलिक केएम, मलिक जीएम, क्लिनिकल कॉन्टेक्स्ट-अवेयर बायोमेडिकल टेक्स्ट समराइजेशन यूजिंग डीप न्यूरल नेटवर्क: मॉडल डेवलपमेंट एंड वैलिडेशन, जे मेड इंटरनेट Res 2020;22(10):e19810, DOI: 10.2196/19810, PMID 33095174
  12. Zhai, ChengXiang (2016). पाठ डेटा प्रबंधन और विश्लेषण: सूचना पुनर्प्राप्ति और पाठ खनन के लिए एक व्यावहारिक परिचय. Sean Massung. [New York, NY]. p. 321. ISBN 978-1-970001-19-8. OCLC 957355971.{{cite book}}: CS1 maint: location missing publisher (link)
  13. Jorge E. Camargo and Fabio A. González. A Multi-class Kernel Alignment Method for Image Collection Summarization. In Proceedings of the 14th Iberoamerican Conference on Pattern Recognition: Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications (CIARP '09), Eduardo Bayro-Corrochano and Jan-Olof Eklundh (Eds.). Springer-Verlag, Berlin, Heidelberg, 545-552. doi:10.1007/978-3-642-10268-4_64
  14. Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation". कम्प्यूटेशनल इंटेलिजेंस सिस्टम में अग्रिम. Advances in Intelligent Systems and Computing. Vol. 650. pp. 222–235. doi:10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.
  15. Turney, Peter D (2002). "कीफ्रेज एक्सट्रैक्शन के लिए लर्निंग एल्गोरिदम". Information Retrieval, ). 2 (4): 303–336. arXiv:cs/0212020. Bibcode:2002cs.......12020T. doi:10.1023/A:1009976227802. S2CID 7007323.
  16. Rada Mihalcea and Paul Tarau, 2004: TextRank: Bringing Order into Texts, Department of Computer Science University of North Texas "Archived copy" (PDF). Archived from the original on 2012-06-17. Retrieved 2012-07-20.{{cite web}}: CS1 maint: archived copy as title (link) CS1 maint: bot: original URL status unknown (link)
  17. Yatsko, V. A.; Starikov, M. S.; Butakov, A. V. (2010). "स्वचालित शैली पहचान और अनुकूली पाठ सारांश". Automatic Documentation and Mathematical Linguistics. 44 (3): 111–120. doi:10.3103/S0005105510030027. S2CID 1586931.
  18. UNIS (Universal Summarizer)
  19. Güneş Erkan and Dragomir R. Radev: LexRank: Graph-based Lexical Centrality as Salience in Text Summarization [1]
  20. "Versatile question answering systems: seeing in synthesis", International Journal of Intelligent Information Database Systems, 5(2), 119-142, 2011.
  21. Carbonell, Jaime, and Jade Goldstein. "The use of MMR, diversity-based reranking for reordering documents and producing summaries." Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1998.
  22. Zhu, Xiaojin, et al. "Improving Diversity in Ranking using Absorbing Random Walks." HLT-NAACL. 2007.
  23. Hui Lin, Jeff Bilmes. "Learning mixtures of submodular shells with application to document summarization
  24. Alex Kulesza and Ben Taskar, Determinantal point processes for machine learning. Foundations and Trends in Machine Learning, December 2012.
  25. Nemhauser, George L., Laurence A. Wolsey, and Marshall L. Fisher. "An analysis of approximations for maximizing submodular set functions—I." Mathematical Programming 14.1 (1978): 265-294.
  26. Hui Lin, Jeff Bilmes. "Learning mixtures of submodular shells with application to document summarization", UAI, 2012
  27. Hui Lin, Jeff Bilmes. "A Class of Submodular Functions for Document Summarization", The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-HLT), 2011
  28. Sebastian Tschiatschek, Rishabh Iyer, Hoachen Wei and Jeff Bilmes, Learning Mixtures of Submodular Functions for Image Collection Summarization, In Advances of Neural Information Processing Systems (NIPS), Montreal, Canada, December - 2014.
  29. Ramakrishna Bairi, Rishabh Iyer, Ganesh Ramakrishnan and Jeff Bilmes, Summarizing Multi-Document Topic Hierarchies using Submodular Mixtures, To Appear In the Annual Meeting of the Association for Computational Linguistics (ACL), Beijing, China, July - 2015
  30. Kai Wei, Rishabh Iyer, and Jeff Bilmes, Submodularity in Data Subset Selection and Active Learning, To Appear In Proc. International Conference on Machine Learning (ICML), Lille, France, June - 2015
  31. "autotldr के लिए अवलोकन". reddit (in English). Retrieved 9 February 2017.
  32. "'टीएलडीआर' क्या है?". Lifewire. Retrieved 9 February 2017.
  33. "टीएल; डीआर क्या मतलब है? एएमए? तिल? Reddit शर्तों और संक्षेपों की शब्दावली". International Business Times. 29 March 2012. Retrieved 9 February 2017.
  34. Mani, I. Summarization evaluation: an overview
  35. Yatsko, V. A.; Vishnyakov, T. N. (2007). "स्वचालित पाठ संक्षेपीकरण की आधुनिक प्रणालियों के मूल्यांकन के लिए एक विधि". Automatic Documentation and Mathematical Linguistics. 41 (3): 93–103. doi:10.3103/S0005105507030041. S2CID 7853204.
  36. Sebastian Tschiatschek, Rishabh Iyer, Hoachen Wei and Jeff Bilmes, Learning Mixtures of Submodular Functions for Image Collection Summarization, In Advances of Neural Information Processing Systems (NIPS), Montreal, Canada, December - 2014. (PDF)
  37. Sarker, Abeed; Molla, Diego; Paris, Cecile (2013). साक्ष्य-आधारित चिकित्सा के लिए प्रश्न-केंद्रित पाठ संक्षेपण के लिए एक दृष्टिकोण. Lecture Notes in Computer Science. Vol. 7885. pp. 295–304. doi:10.1007/978-3-642-38326-7_41. ISBN 978-3-642-38325-0.
  38. Luhn, Hans Peter (1957). "A Statistical Approach to Mechanized Encoding and Searching of Literary Information" (PDF). IBM Journal of Research and Development. 1 (4): 309–317. doi:10.1147/rd.14.0309.
  39. Widyassari, Adhika Pramita; Rustad, Supriadi; Shidik, Guruh Fajar; Noersasongko, Edi; Syukur, Abdul; Affandy, Affandy; Setiadi, De Rosal Ignatius Moses (2020-05-20). "स्वचालित पाठ संक्षिप्तीकरण तकनीकों और विधियों की समीक्षा". Journal of King Saud University - Computer and Information Sciences (in English). 34 (4): 1029–1046. doi:10.1016/j.jksuci.2020.05.006. ISSN 1319-1578.
  40. "T5 के साथ ट्रांसफर लर्निंग की खोज: टेक्स्ट-टू-टेक्स्ट ट्रांसफर ट्रांसफॉर्मर". Google AI Blog (in English). Retrieved 2022-04-03.


अग्रिम पठन