स्वचालित सारांश

स्वत: संक्षेपण डेटा के एक सेट को कम्प्यूटेशनल रूप से छोटा करने की प्रक्रिया है, एक सबसेट (एक सार (सारांश)) बनाने के लिए जो मूल सामग्री के भीतर सबसे महत्वपूर्ण या प्रासंगिक जानकारी का प्रतिनिधित्व करता है। इसे प्राप्त करने के लिए कृत्रिम होशियारी कलन विधि आमतौर पर विकसित और नियोजित होते हैं, जो विभिन्न प्रकार के डेटा के लिए विशिष्ट होते हैं।

मूलपाठ सारांशीकरण आमतौर पर प्राकृतिक भाषा प्रसंस्करण विधियों द्वारा कार्यान्वित किया जाता है, जिसे किसी दिए गए दस्तावेज़ में सबसे अधिक जानकारीपूर्ण वाक्यों का पता लगाने के लिए डिज़ाइन किया गया है. दूसरी ओर, कंप्यूटर दृष्टि एल्गोरिदम का उपयोग करके दृश्य सामग्री को संक्षेप में प्रस्तुत किया जा सकता है। छवि सारांश जारी शोध का विषय है; मौजूदा दृष्टिकोण आम तौर पर किसी दिए गए छवि संग्रह से सबसे अधिक प्रतिनिधि छवियों को प्रदर्शित करने का प्रयास करते हैं, या एक वीडियो उत्पन्न करते हैं जिसमें पूरे संग्रह से केवल सबसे महत्वपूर्ण सामग्री शामिल होती है. वीडियो संक्षेपीकरण एल्गोरिदम मूल वीडियो सामग्री से सबसे महत्वपूर्ण फ़्रेम (की-फ़्रेम), और/या सबसे महत्वपूर्ण वीडियो सेगमेंट (की-शॉट) की पहचान करते हैं और निकालते हैं, सामान्य रूप से अस्थायी रूप से आदेशित फ़ैशन में. वीडियो सारांश केवल मूल वीडियो फ़्रेमों के सावधानी से चयनित सबसेट को बनाए रखते हैं और इसलिए, वीडियो सिनॉप्सिस एल्गोरिदम के आउटपुट के समान नहीं होते हैं, जहां मूल वीडियो सामग्री के आधार पर नए वीडियो फ़्रेमों को संश्लेषित किया जा रहा है।

वाणिज्यिक उत्पाद
2022 में Google डॉक्स ने एक स्वचालित सारांश सुविधा जारी की।

दृष्टिकोण
स्वचालित सारांशीकरण के लिए दो सामान्य दृष्टिकोण हैं: सूचना निष्कर्षण और सार (सारांश)।

निष्कर्षण-आधारित सारांश
यहां, मूल डेटा से सामग्री निकाली जाती है, लेकिन निकाली गई सामग्री को किसी भी तरह से संशोधित नहीं किया जाता है। निकाली गई सामग्री के उदाहरणों में मुख्य-वाक्यांश शामिल हैं जिनका उपयोग किसी पाठ दस्तावेज़ को टैग या अनुक्रमित करने के लिए किया जा सकता है, या मुख्य वाक्य (शीर्षकों सहित) जिसमें सामूहिक रूप से एक सार, और प्रतिनिधि चित्र या वीडियो खंड शामिल हैं, जैसा कि ऊपर कहा गया है। पाठ के लिए, निष्कर्षण स्किमिंग की प्रक्रिया के अनुरूप है, जहां सारांश (यदि उपलब्ध हो), शीर्षक और उपशीर्षक, आंकड़े, किसी अनुभाग के पहले और अंतिम पैराग्राफ, और वैकल्पिक रूप से एक पैराग्राफ में पहले और अंतिम वाक्यों को चुनने से पहले पढ़ा जाता है। पूरे दस्तावेज़ को विस्तार से पढ़ने के लिए। निष्कर्षण के अन्य उदाहरण जिनमें नैदानिक ​​प्रासंगिकता (रोगी/समस्या, हस्तक्षेप और परिणाम सहित) के संदर्भ में पाठ के प्रमुख अनुक्रम शामिल हैं।

अमूर्त-आधारित सारांश
सारगर्भित संक्षिप्तीकरण विधियाँ नया पाठ उत्पन्न करती हैं जो मूल पाठ में मौजूद नहीं था। यह मुख्य रूप से पाठ के लिए लागू किया गया है। अमूर्त विधियाँ मूल सामग्री (अक्सर एक भाषा मॉडल कहा जाता है) का एक आंतरिक शब्दार्थ प्रतिनिधित्व का निर्माण करती हैं, और फिर इस प्रतिनिधित्व का उपयोग एक सारांश बनाने के लिए करती हैं जो एक मानव व्यक्त कर सकता है। निष्कर्षण की तुलना में एक पाठ को अधिक मजबूती से संघनित करने के लिए, स्रोत दस्तावेज़ के स्वचालित पैराफ्रेशिंग अनुभागों द्वारा अमूर्त सामग्री को रूपांतरित किया जा सकता है। इस तरह के परिवर्तन, हालांकि, निष्कर्षण की तुलना में कम्प्यूटेशनल रूप से बहुत अधिक चुनौतीपूर्ण है, जिसमें प्राकृतिक भाषा प्रसंस्करण और अक्सर मूल पाठ के डोमेन की गहरी समझ शामिल होती है, जहां मूल दस्तावेज ज्ञान के एक विशेष क्षेत्र से संबंधित होता है। व्याख्या करना छवि और वीडियो पर लागू करना और भी कठिन है, यही कारण है कि अधिकांश संक्षेपण प्रणालियां निष्कर्षात्मक हैं।

सहायता प्राप्त सारांश
उच्च संक्षिप्तीकरण गुणवत्ता के उद्देश्य से किए गए दृष्टिकोण संयुक्त सॉफ्टवेयर और मानव प्रयास पर निर्भर करते हैं। मशीन एडेड ह्यूमन समराइजेशन में, एक्सट्रैक्टिव तकनीकें शामिल करने के लिए कैंडिडेट पैसेज को हाइलाइट करती हैं (जिसमें मानव टेक्स्ट जोड़ता या हटाता है)। ह्यूमन एडेड मशीन सारांश में, एक मानव पोस्ट-प्रोसेस सॉफ़्टवेयर आउटपुट, ठीक उसी तरह जैसे कि कोई Google अनुवाद द्वारा स्वचालित अनुवाद के आउटपुट को संपादित करता है।

संक्षेपण के लिए अनुप्रयोग और प्रणालियाँ
संक्षेपण कार्यक्रम किस पर केंद्रित है, इसके आधार पर मोटे तौर पर दो प्रकार के निष्कर्षात्मक सारांश कार्य हैं। पहला सामान्य सारांश है, जो एक सामान्य सारांश या संग्रह का सार (चाहे दस्तावेज़, या छवियों के सेट, या वीडियो, समाचार कहानियां इत्यादि) प्राप्त करने पर केंद्रित है। दूसरा क्वेरी प्रासंगिक सारांश है, जिसे कभी-कभी क्वेरी-आधारित सारांश कहा जाता है, जो किसी क्वेरी के लिए विशिष्ट वस्तुओं को सारांशित करता है। उपयोगकर्ता की आवश्यकता के आधार पर सारांशीकरण प्रणालियाँ क्वेरी प्रासंगिक पाठ सारांश और सामान्य मशीन-जनित सारांश दोनों बनाने में सक्षम हैं।

संक्षेपण समस्या का एक उदाहरण दस्तावेज़ सारांशीकरण है, जो किसी दिए गए दस्तावेज़ से स्वचालित रूप से एक सार उत्पन्न करने का प्रयास करता है। कभी-कभी एक स्रोत दस्तावेज़ से सारांश उत्पन्न करने में रुचि हो सकती है, जबकि अन्य कई स्रोत दस्तावेज़ों का उपयोग कर सकते हैं (उदाहरण के लिए, एक ही विषय पर लेखों का क्लस्टर विश्लेषण)। इस समस्या को बहु-दस्तावेज़ संक्षेपीकरण कहा जाता है। एक संबंधित अनुप्रयोग समाचार लेखों का सारांश प्रस्तुत कर रहा है। एक ऐसी प्रणाली की कल्पना करें, जो स्वचालित रूप से किसी दिए गए विषय (वेब ​​​​से) पर समाचार लेखों को एक साथ खींचती है, और संक्षेप में सारांश के रूप में नवीनतम समाचारों का प्रतिनिधित्व करती है।

छवि संग्रह संक्षेपण स्वचालित सारांशीकरण का एक अन्य अनुप्रयोग उदाहरण है। इसमें छवियों के एक बड़े सेट से छवियों के प्रतिनिधि सेट का चयन करना शामिल है। एक छवि संग्रह अन्वेषण प्रणाली में परिणामों की सबसे अधिक प्रतिनिधि छवियों को दिखाने के लिए इस संदर्भ में एक सारांश उपयोगी है। वीडियो सारांश एक संबंधित डोमेन है, जहां सिस्टम स्वचालित रूप से एक लंबे वीडियो का ट्रेलर बनाता है। इसमें उपभोक्ता या व्यक्तिगत वीडियो में भी एप्लिकेशन हैं, जहां कोई उबाऊ या दोहराव वाले कार्यों को छोड़ना चाहता है। इसी तरह, सर्विलांस वीडियो में, कैप्चर किए गए सभी उबाऊ और निरर्थक फ़्रेमों को नज़रअंदाज़ करते हुए, कोई व्यक्ति महत्वपूर्ण और संदिग्ध गतिविधि निकालना चाहेगा।

एक बहुत ही उच्च स्तर पर, संक्षेपीकरण एल्गोरिदम वस्तुओं के सबसेट (जैसे वाक्यों का सेट, या छवियों का एक सेट) खोजने की कोशिश करता है, जो पूरे सेट की जानकारी को कवर करता है। इसे कोर-सेट भी कहते हैं। ये एल्गोरिदम विविधता, कवरेज, सूचना और सारांश की प्रतिनिधित्व जैसी धारणाओं को मॉडल करते हैं। क्वेरी आधारित सारांश तकनीक, क्वेरी के साथ सारांश की प्रासंगिकता के लिए अतिरिक्त रूप से मॉडल। कुछ तकनीकें और एल्गोरिदम जो संक्षेपण समस्याओं को स्वाभाविक रूप से मॉडल करते हैं, टेक्स्टरैंक और पेजरैंक, सबमॉड्यूलर सेट फ़ंक्शन, निर्धारक बिंदु प्रक्रिया, अधिकतम सीमांत प्रासंगिकता (एमएमआर) आदि हैं।

कीफ्रेज़ निष्कर्षण
कार्य निम्नलिखित है। आपको पाठ का एक टुकड़ा दिया जाता है, जैसे कि एक जर्नल लेख, और आपको उन कीवर्ड्स या कुंजी [वाक्यांशों] की एक सूची तैयार करनी चाहिए जो पाठ में चर्चा किए गए प्राथमिक विषयों को कैप्चर करते हैं। शोध लेखों के मामले में, कई लेखक मैन्युअल रूप से असाइन किए गए कीवर्ड प्रदान करते हैं, लेकिन अधिकांश टेक्स्ट में पहले से मौजूद कीफ़्रेज़ का अभाव होता है। उदाहरण के लिए, समाचार लेखों में शायद ही कीफ्रेज़ संलग्न होते हैं, लेकिन नीचे चर्चा किए गए कई अनुप्रयोगों के लिए स्वचालित रूप से ऐसा करने में सक्षम होना उपयोगी होगा। एक समाचार लेख से उदाहरण पाठ पर विचार करें:


 * इंजीनियरों की सेना कोर, 2006 के तूफान के मौसम की शुरुआत तक न्यू ऑरलियन्स की रक्षा के राष्ट्रपति बुश के वादे को पूरा करने के लिए भागते हुए, अपने स्वयं के विशेषज्ञ द्वारा चेतावनी के बावजूद पिछले साल दोषपूर्ण बाढ़ नियंत्रण पंप स्थापित किए गए थे कि उपकरण एक तूफान के दौरान विफल हो जाएगा। एसोसिएटेड प्रेस द्वारा प्राप्त दस्तावेजों के लिए।

कीफ्रेज एक्सट्रैक्टर आर्मी कॉर्प्स ऑफ इंजीनियर्स, प्रेसिडेंट बुश, न्यू ऑरलियन्स, और दोषपूर्ण फ्लड-कंट्रोल पंपों को कीफ्रेज के रूप में चुन सकता है। इन्हें सीधे टेक्स्ट से खींचा जाता है। इसके विपरीत, एक अमूर्त कुंजी वाक्यांश किसी तरह सामग्री को आंतरिक बना देगा और ऐसे कुंजी वाक्यांश उत्पन्न करेगा जो पाठ में प्रकट नहीं होते हैं, लेकिन अधिक निकटता से मिलते जुलते हैं जो एक मानव उत्पन्न कर सकता है, जैसे कि राजनीतिक लापरवाही या बाढ़ से अपर्याप्त सुरक्षा। अमूर्तता के लिए गहरी प्राकृतिक-भाषा समझ की आवश्यकता होती है, जो कंप्यूटर सिस्टम के लिए इसे कठिन बना देती है। कीफ्रेज़ के कई अनुप्रयोग हैं। वे एक संक्षिप्त सारांश प्रदान करके दस्तावेज़ ब्राउज़िंग को सक्षम कर सकते हैं, सूचना पुनर्प्राप्ति में सुधार कर सकते हैं (यदि दस्तावेज़ों में कीफ़्रेज़ असाइन किए गए हैं, तो एक उपयोगकर्ता पूर्ण-पाठ खोज की तुलना में अधिक विश्वसनीय हिट उत्पन्न करने के लिए कीफ़्रेज़ द्वारा खोज सकता है), और एक बड़े के लिए अनुक्रमणिका प्रविष्टियाँ उत्पन्न करने में नियोजित किया जा सकता है। पाठ कोष।

विभिन्न साहित्य और प्रमुख शब्दों, शब्दों या वाक्यांशों की परिभाषा के आधार पर, खोजशब्द निष्कर्षण एक उच्च संबंधित विषय है।

पर्यवेक्षित शिक्षण दृष्टिकोण
टर्नी के काम से शुरुआत, कई शोधकर्ताओं ने पर्यवेक्षित मशीन सीखने की समस्या के रूप में कीफ्रेज निष्कर्षण से संपर्क किया है। एक दस्तावेज़ दिया गया है, हम पाठ में पाए जाने वाले प्रत्येक unigram, बाइग्राम और ट्रिग्राम के लिए एक उदाहरण बनाते हैं (हालांकि अन्य पाठ इकाइयां भी संभव हैं, जैसा कि नीचे चर्चा की गई है)। इसके बाद हम प्रत्येक उदाहरण का वर्णन करने वाली विभिन्न विशेषताओं की गणना करते हैं (उदाहरण के लिए, क्या वाक्यांश अपर-केस अक्षर से शुरू होता है?) हम मानते हैं कि प्रशिक्षण दस्तावेज़ों के एक सेट के लिए ज्ञात कीफ़्रेज़ उपलब्ध हैं। ज्ञात कीफ्रेज़ का उपयोग करके, हम उदाहरणों को सकारात्मक या नकारात्मक लेबल दे सकते हैं। फिर हम एक क्लासिफायरियर सीखते हैं जो सुविधाओं के कार्य के रूप में सकारात्मक और नकारात्मक उदाहरणों के बीच भेदभाव कर सकता है। कुछ क्लासिफायर एक परीक्षण उदाहरण के लिए एक बाइनरी वर्गीकरण बनाते हैं, जबकि अन्य एक कीफ़्रेज़ होने की संभावना प्रदान करते हैं। उदाहरण के लिए, उपरोक्त पाठ में, हम एक नियम सीख सकते हैं जो कहता है कि आरंभिक बड़े अक्षरों वाले वाक्यांशों की कीफ्रेज़ होने की संभावना है। एक शिक्षार्थी को प्रशिक्षित करने के बाद, हम निम्नलिखित तरीके से परीक्षण दस्तावेजों के लिए मुख्य वाक्यांशों का चयन कर सकते हैं। हम परीक्षण दस्तावेज़ों के लिए समान उदाहरण-निर्माण रणनीति लागू करते हैं, फिर प्रत्येक उदाहरण को शिक्षार्थी के माध्यम से चलाते हैं। हम बाइनरी वर्गीकरण निर्णयों या हमारे सीखे हुए मॉडल से वापस आने वाली संभावनाओं को देखकर कीफ़्रेज़ निर्धारित कर सकते हैं। यदि संभावनाएँ दी गई हैं, तो कुंजी वाक्यांशों का चयन करने के लिए एक सीमा का उपयोग किया जाता है। कीफ्रेज एक्सट्रैक्टर्स का आमतौर पर सटीक और रिकॉल का उपयोग करके मूल्यांकन किया जाता है। सटीक उपाय कैसे करें कई प्रस्तावित कुंजी वाक्यांश वास्तव में सही हैं। याद मापें कि कितने सत्य हैं आपके सिस्टम द्वारा प्रस्तावित मुख्य वाक्यांश। दो उपायों को एफ-स्कोर में जोड़ा जा सकता है, जो कि है दोनों का हार्मोनिक माध्य (F = 2PR/(P + R) )। प्रस्तावित कुंजी वाक्यांशों और ज्ञात कुंजी वाक्यांशों के बीच मिलानों को स्टेमिंग या किसी अन्य पाठ सामान्यीकरण को लागू करने के बाद जांचा जा सकता है।

पर्यवेक्षित कीफ़्रेज़ निष्कर्षण प्रणाली को डिज़ाइन करने में कई विकल्पों पर निर्णय लेना शामिल है (इनमें से कुछ अप्रशिक्षित पर भी लागू होते हैं)। पहली पसंद बिल्कुल उदाहरण उत्पन्न करने का तरीका है। टर्नी और अन्य लोगों ने विराम चिह्नों में हस्तक्षेप किए बिना और स्टॉपवर्ड्स को हटाने के बाद सभी संभव यूनीग्राम, बिग्राम और ट्रिग्राम का उपयोग किया है। हल्थ ने दिखाया कि आप टोकन के अनुक्रम होने के उदाहरणों का चयन करके कुछ सुधार प्राप्त कर सकते हैं जो पार्ट-ऑफ-स्पीच टैग के कुछ पैटर्न से मेल खाते हैं। आदर्श रूप से, उदाहरण उत्पन्न करने के लिए तंत्र सभी ज्ञात लेबल वाले कीफ्रेज़ को उम्मीदवारों के रूप में उत्पन्न करता है, हालांकि यह अक्सर मामला नहीं होता है। उदाहरण के लिए, यदि हम केवल यूनीग्राम, बिग्राम और ट्रिग्राम का उपयोग करते हैं, तो हम कभी भी चार शब्दों वाले ज्ञात कीफ्रेज़ को निकालने में सक्षम नहीं होंगे। इस प्रकार, रिकॉल पीड़ित हो सकता है। हालाँकि, बहुत सारे उदाहरण उत्पन्न करने से भी कम सटीकता हो सकती है।

हमें ऐसी विशेषताओं को बनाने की भी आवश्यकता है जो उदाहरणों का वर्णन करती हैं और गैर-कीफ्रेज़ से कीफ़्रेज़ को अलग करने के लिए एक लर्निंग एल्गोरिथम की अनुमति देने के लिए पर्याप्त जानकारीपूर्ण हैं। आमतौर पर विशेषताओं में विभिन्न शब्द आवृत्तियाँ शामिल होती हैं (वर्तमान पाठ में या एक बड़े कॉर्पस में कितनी बार एक वाक्यांश प्रकट होता है), उदाहरण की लंबाई, पहली घटना की सापेक्ष स्थिति, विभिन्न बूलियन वाक्य-विन्यास विशेषताएं (जैसे, सभी कैप शामिल हैं), आदि। टर्नी पेपर में ऐसी लगभग 12 विशेषताओं का उपयोग किया गया था। हल्थ सुविधाओं के एक कम सेट का उपयोग करता है, जो टर्नी के सेमिनल पेपर से प्राप्त KEA (कीफ्रेज़ एक्सट्रैक्शन एल्गोरिथम) कार्य में सबसे सफल पाए गए थे।

अंत में, सिस्टम को परीक्षण दस्तावेज़ के लिए कीफ़्रेज़ की एक सूची वापस करने की आवश्यकता होगी, इसलिए हमें संख्या को सीमित करने का एक तरीका चाहिए। समेकन विधियों (अर्थात्, कई क्लासिफायरों से वोटों का उपयोग करके) का उपयोग संख्यात्मक स्कोर बनाने के लिए किया गया है जिसे उपयोगकर्ता द्वारा प्रदान की जाने वाली कीफ्रेज़ की संख्या प्रदान करने के लिए थ्रेसहोल्ड किया जा सकता है। यह C4.5 डिसीजन ट्री के साथ टर्ननी द्वारा उपयोग की जाने वाली तकनीक है। हल्थ ने एक सिंगल द्विआधारी वर्गीकरण का इस्तेमाल किया है, इसलिए लर्निंग एल्गोरिथम स्पष्ट रूप से उपयुक्त संख्या निर्धारित करता है।

एक बार उदाहरण और सुविधाएँ बन जाने के बाद, हमें कीफ़्रेज़ की भविष्यवाणी करना सीखने का एक तरीका चाहिए। वस्तुतः कोई भी पर्यवेक्षित शिक्षण एल्गोरिथम कर सकता हैd का उपयोग किया जा सकता है, जैसे कि डिसीजन ट्री, Naive Bayes और रूल इंडक्शन। टर्नी के जेनएक्स एल्गोरिथम के मामले में, एक जन्म प्रमेय का उपयोग डोमेन-विशिष्ट कीफ्रेज निष्कर्षण एल्गोरिथ्म के लिए मापदंडों को सीखने के लिए किया जाता है। चिमटा कुंजी वाक्यांशों की पहचान करने के लिए अनुमानों की एक श्रृंखला का अनुसरण करता है। ज्ञात प्रमुख वाक्यांशों के साथ प्रशिक्षण दस्तावेजों पर प्रदर्शन के संबंध में आनुवंशिक एल्गोरिथ्म इन अनुमानों के लिए मापदंडों का अनुकूलन करता है।

अनियंत्रित दृष्टिकोण: टेक्स्टरैंक
एक अन्य कीफ़्रेज़ निष्कर्षण एल्गोरिथम टेक्स्टरैंक है। जबकि पर्यवेक्षित विधियों में कुछ अच्छे गुण होते हैं, जैसे कीफ़्रेज़ की विशेषताओं के लिए व्याख्यात्मक नियम तैयार करने में सक्षम होना, उन्हें बड़ी मात्रा में प्रशिक्षण सेट की भी आवश्यकता होती है। ज्ञात कुंजी वाक्यांशों वाले कई दस्तावेज़ों की आवश्यकता होती है। इसके अलावा, एक विशिष्ट डोमेन पर प्रशिक्षण उस डोमेन के लिए निष्कर्षण प्रक्रिया को अनुकूलित करता है, इसलिए परिणामी क्लासिफायर आवश्यक रूप से पोर्टेबल नहीं है, जैसा कि टर्न के कुछ परिणाम प्रदर्शित करते हैं। अनियंत्रित कीफ़्रेज़ निष्कर्षण प्रशिक्षण डेटा की आवश्यकता को हटा देता है। यह समस्या को एक अलग कोण से देखता है। कुंजी वाक्यांशों की विशेषता बताने वाली स्पष्ट विशेषताओं को सीखने की कोशिश करने के बजाय, TextRank एल्गोरिथम मुख्य वाक्यांशों को निर्धारित करने के लिए पाठ की संरचना का ही उपयोग करता है जो पाठ के केंद्र में उसी तरह दिखाई देते हैं जैसे पृष्ठ स्तर महत्वपूर्ण वेब पेजों का चयन करता है। स्मरण करो यह प्रतिष्ठा की धारणा या सामाजिक नेटवर्क से सिफारिश पर आधारित है। इस तरह, टेक्स्टरैंक किसी भी पिछले प्रशिक्षण डेटा पर बिल्कुल भी निर्भर नहीं करता है, बल्कि पाठ के किसी भी मनमाने टुकड़े पर चलाया जा सकता है, और यह पाठ के आंतरिक गुणों के आधार पर आउटपुट का उत्पादन कर सकता है। इस प्रकार एल्गोरिदम नए डोमेन और भाषाओं के लिए आसानी से पोर्टेबल है।

टेक्स्टरैंक प्राकृतिक भाषा प्रसंस्करण के लिए एक सामान्य उद्देश्य ग्राफ (अमूर्त डेटा प्रकार) आधारित रैंकिंग एल्गोरिदम है। अनिवार्य रूप से, यह एक विशेष एनएलपी कार्य के लिए विशेष रूप से डिज़ाइन किए गए ग्राफ़ पर पेजरैंक चलाता है। कीफ़्रेज़ निष्कर्षण के लिए, यह पाठ इकाइयों के कुछ सेट को वर्टिकल के रूप में उपयोग करके एक ग्राफ़ बनाता है। किनारे टेक्स्ट यूनिट वर्टिकल के बीच सिमेंटिक या शाब्दिक (लाक्षणिकता) सिमेंटिक समानता के कुछ माप पर आधारित हैं। पेजरैंक के विपरीत, किनारे आमतौर पर अप्रत्यक्ष होते हैं और समानता की डिग्री को दर्शाने के लिए उन्हें भारित किया जा सकता है। एक बार ग्राफ का निर्माण हो जाने के बाद, इसका उपयोग एक स्टोकेस्टिक मैट्रिक्स बनाने के लिए किया जाता है, जो एक डंपिंग कारक (यादृच्छिक सर्फर मॉडल के रूप में) के साथ संयुक्त होता है, और eigenvalue 1 (यानी, स्थिर वितरण) के अनुरूप ईजेनवेक्टर को ढूंढकर कोने पर रैंकिंग प्राप्त की जाती है। ग्राफ पर यादृच्छिक चलना)।

हम जो रैंक करना चाहते हैं, उसके अनुरूप शीर्षों को होना चाहिए। संभावित रूप से, हम पर्यवेक्षित विधियों के समान कुछ कर सकते हैं और प्रत्येक यूनिग्राम, बिग्राम, ट्रिग्राम इत्यादि के लिए एक शीर्ष बना सकते हैं। हालांकि, ग्राफ को छोटा रखने के लिए, लेखक पहले चरण में अलग-अलग यूनिग्राम को रैंक करने का निर्णय लेते हैं, और फिर दूसरा शामिल करते हैं कदम जो बहु-शब्द वाक्यांशों को बनाने के लिए अत्यधिक रैंक वाले आसन्न यूनीग्रामों को मिलाता है। यह हमें मनमाना लंबाई के कीफ्रेज बनाने की अनुमति देने का एक अच्छा साइड इफेक्ट है। उदाहरण के लिए, यदि हम यूनीग्राम को रैंक करते हैं और पाते हैं कि उन्नत, प्राकृतिक, भाषा और प्रसंस्करण सभी को उच्च रैंक मिलती है, तो हम मूल पाठ को देखेंगे और देखेंगे कि ये शब्द लगातार दिखाई देते हैं और चारों का एक साथ उपयोग करके एक अंतिम कीफ्रेज़ बनाते हैं। ध्यान दें कि ग्राफ़ में रखे गए यूनीग्राम को भाषण के भाग द्वारा फ़िल्टर किया जा सकता है। लेखकों ने पाया कि शामिल करने के लिए विशेषण और संज्ञा सबसे अच्छे थे। इस प्रकार, इस चरण में कुछ भाषाई ज्ञान काम आता है।

टेक्स्टरैंक के इस एप्लिकेशन में शब्द सह-घटना के आधार पर किनारों का निर्माण किया जाता है। यदि मूल पाठ में आकार N की एक खिड़की के भीतर यूनीग्राम दिखाई देते हैं, तो दो कोने एक किनारे से जुड़े होते हैं। एन आम तौर पर लगभग 2-10 है। इस प्रकार, एनएलपी के बारे में पाठ में प्राकृतिक और भाषा को जोड़ा जा सकता है। प्राकृतिक और प्रसंस्करण भी जुड़े होंगे क्योंकि वे दोनों एन शब्दों के एक ही तार में दिखाई देंगे। ये किनारे पाठ सामंजस्य (भाषाविज्ञान) की धारणा पर निर्मित होते हैं और यह विचार है कि जो शब्द एक-दूसरे के निकट दिखाई देते हैं, वे संभावित रूप से सार्थक तरीके से संबंधित होते हैं और पाठक को एक-दूसरे की सलाह देते हैं।

चूँकि यह विधि केवल अलग-अलग शीर्षों को रैंक करती है, इसलिए हमें सीमित संख्या में कीफ़्रेज़ को थ्रेशोल्ड या उत्पन्न करने के तरीके की आवश्यकता होती है। चुनी गई तकनीक ग्राफ में कोने की कुल संख्या के उपयोगकर्ता द्वारा निर्दिष्ट अंश के रूप में गिनती टी सेट करना है। फिर शीर्ष टी कोने/यूनीग्राम को उनकी स्थिर संभावनाओं के आधार पर चुना जाता है। एक पोस्ट-प्रोसेसिंग कदम तब इन टी यूनिग्राम के आसन्न उदाहरणों को मर्ज करने के लिए लागू किया जाता है। नतीजतन, संभावित रूप से टी अंतिम कीफ्रेज से अधिक या कम उत्पादन किया जाएगा, लेकिन संख्या मूल पाठ की लंबाई के लगभग आनुपातिक होनी चाहिए।

शुरुआत में यह स्पष्ट नहीं है कि सह-घटना ग्राफ़ पर पेजरैंक लागू करने से उपयोगी कुंजी वाक्यांश क्यों उत्पन्न होंगे। इसके बारे में सोचने का एक तरीका निम्नलिखित है। एक शब्द जो पूरे पाठ में कई बार प्रकट होता है, उसके कई अलग-अलग सह-अस्तित्व वाले पड़ोसी हो सकते हैं। उदाहरण के लिए, मशीन लर्निंग के बारे में एक पाठ में, यूनीग्राम लर्निंग चार अलग-अलग वाक्यों में मशीन, पर्यवेक्षित, अन-पर्यवेक्षित और अर्ध-पर्यवेक्षित के साथ सह-हो सकता है। इस प्रकार,लर्निंग वर्टेक्स एक केंद्रीय केंद्र होगा जो इन अन्य संशोधित शब्दों से जुड़ता है। पेजरैंक/टेक्स्टरैंक को ग्राफ़ पर चलाने से सीखने की रैंक उच्च होने की संभावना है। इसी तरह, यदि पाठ में पर्यवेक्षित वर्गीकरण वाक्यांश शामिल है, तो पर्यवेक्षित और वर्गीकरण के बीच एक किनारा होगा। यदि वर्गीकरण कई अन्य स्थानों पर प्रकट होता है और इस प्रकार इसके कई पड़ोसी हैं, तो इसका महत्व पर्यवेक्षित के महत्व में योगदान देगा। यदि यह एक उच्च रैंक के साथ समाप्त होता है, तो इसे सीखने और संभवतः वर्गीकरण के साथ शीर्ष टी यूनिग्राम में से एक के रूप में चुना जाएगा। अंतिम पोस्ट-प्रोसेसिंग चरण में, हम तब कीफ्रेज़ पर्यवेक्षित शिक्षण और पर्यवेक्षित वर्गीकरण के साथ समाप्त होंगे।

संक्षेप में, सह-घटना ग्राफ़ में उन शब्दों के लिए सघन रूप से जुड़े क्षेत्र होंगे जो अक्सर और विभिन्न संदर्भों में दिखाई देते हैं। इस ग्राफ पर एक यादृच्छिक चलने का एक स्थिर वितरण होगा जो क्लस्टर के केंद्रों में शर्तों के लिए बड़ी संभावनाएं प्रदान करता है। यह सघन रूप से जुड़े वेब पेजों के समान है, जिन्हें पेजरैंक द्वारा अत्यधिक रैंक दिया जाता है। इस दृष्टिकोण का उपयोग दस्तावेज़ सारांशीकरण में भी किया गया है, जिसे नीचे माना गया है।

दस्तावेज़ सारांश
मुख्यवाक्यांश निष्कर्षण की तरह, दस्तावेज़ सारांशीकरण का उद्देश्य पाठ के सार की पहचान करना है। एकमात्र वास्तविक अंतर यह है कि अब हम शब्दों और वाक्यांशों के बजाय बड़ी टेक्स्ट इकाइयों-पूरे वाक्यों के साथ काम कर रहे हैं।

पर्यवेक्षित शिक्षण दृष्टिकोण
पर्यवेक्षित पाठ संक्षेपीकरण बहुत हद तक पर्यवेक्षित कीफ़्रेज़ निष्कर्षण जैसा है। मूल रूप से, यदि आपके पास उनके लिए दस्तावेजों और मानव-निर्मित सारांशों का संग्रह है, तो आप वाक्यों की विशेषताओं को सीख सकते हैं जो उन्हें सारांश में शामिल करने के लिए अच्छे उम्मीदवार बनाती हैं। विशेषताओं में दस्तावेज़ में स्थिति शामिल हो सकती है (अर्थात, पहले कुछ वाक्य संभवतः महत्वपूर्ण हैं), वाक्य में शब्दों की संख्या, आदि। पर्यवेक्षित निष्कर्ष सारांश में मुख्य कठिनाई यह है कि ज्ञात सारांश मैन्युअल रूप से वाक्यों को निकालकर बनाया जाना चाहिए ताकि एक मूल प्रशिक्षण दस्तावेज़ में वाक्यों को सारांश में लेबल किया जा सकता है या सारांश में नहीं। यह आम तौर पर नहीं है कि लोग सारांश कैसे बनाते हैं, इसलिए केवल जर्नल सार या मौजूदा सारांश का उपयोग करना आमतौर पर पर्याप्त नहीं होता है। इन सारांशों के वाक्य मूल पाठ के वाक्यों से आवश्यक रूप से मेल नहीं खाते हैं, इसलिए प्रशिक्षण के लिए उदाहरणों को लेबल देना कठिन होगा। ध्यान दें, हालांकि, इन प्राकृतिक सारांशों का अभी भी मूल्यांकन उद्देश्यों के लिए उपयोग किया जा सकता है, क्योंकि ROUGE-1 मूल्यांकन केवल यूनीग्राम पर विचार करता है।

अधिकतम एन्ट्रापी-आधारित सारांश
DUC 2001 और 2002 के मूल्यांकन कार्यशालाओं के दौरान, अनुप्रयुक्त वैज्ञानिक अनुसंधान के लिए नीदरलैंड संगठन ने समाचार डोमेन में बहु-दस्तावेज़ सारांश के लिए एक वाक्य निष्कर्षण प्रणाली विकसित की। यह प्रणाली एक सहज बेयस क्लासिफायरियर और मॉडलिंग के लिए सांख्यिकीय भाषा मॉडल का उपयोग करते हुए एक हाइब्रिड प्रणाली पर आधारित थी। हालांकि इस प्रणाली ने अच्छे परिणाम प्रदर्शित किए, लेकिन शोधकर्ता बैठक सारांशीकरण कार्य के लिए एक अधिकतम एन्ट्रॉपी क्लासिफायरियर (एमई) क्लासिफायर की प्रभावशीलता का पता लगाना चाहते थे, क्योंकि एमई को फीचर निर्भरता के खिलाफ मजबूत माना जाता है। प्रसारण समाचार डोमेन में संक्षेपण के लिए अधिकतम एन्ट्रापी को भी सफलतापूर्वक लागू किया गया है।

अनुकूली सारांश
अनुकूली दस्तावेज़/पाठ सारांशीकरण एक आशाजनक दृष्टिकोण है। इसमें पहले टेक्स्ट शैली को पहचानना और फिर इस शैली के लिए अनुकूलित सारांश एल्गोरिदम लागू करना शामिल है। ऐसा सॉफ्टवेयर बनाया गया है।

टेक्स्टरैंक और लेक्सरैंक
संक्षेपण के लिए अप्रशिक्षित दृष्टिकोण भी अप्रशिक्षित कीफ्रेज़ निष्कर्षण की भावना के समान है और महंगा प्रशिक्षण डेटा के मुद्दे को हल करता है। कुछ अप्रशिक्षित सारांशीकरण दृष्टिकोण एक केन्द्रक वाक्य खोजने पर आधारित होते हैं, जो दस्तावेज़ में सभी वाक्यों का औसत शब्द वेक्टर है। तब वाक्यों को इस केन्द्रक वाक्य से उनकी समानता के संबंध में रैंक किया जा सकता है।

वाक्य के महत्व का अनुमान लगाने का एक अधिक सैद्धांतिक तरीका यादृच्छिक चाल और ईजेनवेक्टर केंद्रीयता का उपयोग कर रहा है। लेक्सरैंक अनिवार्य रूप से TextRank के समान एक एल्गोरिद्म है, और दोनों दस्तावेज़ संक्षेपण के लिए इस दृष्टिकोण का उपयोग करते हैं। दो विधियों को एक ही समय में अलग-अलग समूहों द्वारा विकसित किया गया था, और लेक्सरैंक ने केवल संक्षेपण पर ध्यान केंद्रित किया, लेकिन कीफ़्रेज़ निष्कर्षण या किसी अन्य एनएलपी रैंकिंग कार्य के लिए आसानी से उपयोग किया जा सकता है।

लेक्सरैंक और टेक्स्टरैंक दोनों में, दस्तावेज़ में प्रत्येक वाक्य के लिए एक शीर्ष बनाकर एक ग्राफ का निर्माण किया जाता है।

वाक्यों के बीच के किनारे सिमेंटिक समानता या सामग्री ओवरलैप के कुछ रूपों पर आधारित होते हैं। जबकि LexRank TF-IDF वैक्टर की कोसाइन समानता का उपयोग करता है, TextRank शब्दों की संख्या के आधार पर एक बहुत ही समान माप का उपयोग करता है जो दो वाक्यों में आम है (वाक्यों की लंबाई द्वारा क्वांटाइल सामान्यीकरण)। लेक्सरैंक पेपर ने कोज्या मूल्यों के लिए एक सीमा लागू करने के बाद अनवीटेड किनारों का उपयोग करके पता लगाया, लेकिन समानता स्कोर के बराबर वजन वाले किनारों का उपयोग करने के साथ भी प्रयोग किया। टेक्स्टरैंक निरंतर समानता स्कोर का उपयोग वजन के रूप में करता है।

दोनों एल्गोरिदम में, परिणामी ग्राफ़ में पेजरैंक लागू करके वाक्यों को रैंक दिया जाता है। सारांश के आकार को सीमित करने के लिए थ्रेसहोल्ड या लंबाई कटऑफ़ का उपयोग करके शीर्ष रैंकिंग वाक्यों को मिलाकर एक सारांश बनाया जाता है।

यह ध्यान देने योग्य है कि टेक्स्टरैंक को सारांशीकरण के लिए लागू किया गया था जैसा कि यहां वर्णित है, जबकि लेक्सरैंक का उपयोग एक बड़े सारांश प्रणाली (एमईएडी) के हिस्से के रूप में किया गया था जो लेक्सरैंक स्कोर (स्थिर संभाव्यता) को अन्य सुविधाओं जैसे वाक्य की स्थिति और लंबाई के साथ एक रैखिक संयोजन का उपयोग करके जोड़ती है। उपयोगकर्ता द्वारा निर्दिष्ट या स्वचालित रूप से ट्यून किए गए वज़न के साथ। इस मामले में, कुछ प्रशिक्षण दस्तावेजों की आवश्यकता हो सकती है, हालांकि टेक्स्टरैंक परिणाम दिखाते हैं कि अतिरिक्त सुविधाएं बिल्कुल जरूरी नहीं हैं।

टेक्स्टरैंक के विपरीत, लेक्सरैंक को बहु-दस्तावेज़ सारांश पर लागू किया गया है।

बहु-दस्तावेज़ संक्षिप्तीकरण
बहु-दस्तावेज़ सारांश एक स्वचालित प्रक्रिया है जिसका उद्देश्य एक ही विषय के बारे में लिखे गए कई पाठों से जानकारी निकालना है। परिणामी सारांश रिपोर्ट व्यक्तिगत उपयोगकर्ताओं, जैसे पेशेवर सूचना उपभोक्ताओं को दस्तावेजों के एक बड़े समूह में निहित जानकारी के साथ खुद को जल्दी से परिचित कराने की अनुमति देती है। ऐसे में, बहु-दस्तावेज़ संक्षेपण प्रणालियाँ सूचना अधिभार से मुकाबला करने के अगले चरण में प्रदर्शन करने वाले समाचार एग्रीगेटरों का पूरक हैं। किसी प्रश्न के उत्तर में बहु-दस्तावेज़ सारांश भी किया जा सकता है।

बहु-दस्तावेज़ सारांश सूचना रिपोर्ट बनाता है जो संक्षिप्त और व्यापक दोनों हैं। अलग-अलग मतों को एक साथ रखने और रेखांकित करने के साथ, प्रत्येक विषय को एक दस्तावेज़ के भीतर कई दृष्टिकोणों से वर्णित किया गया है। जबकि एक संक्षिप्त सारांश का लक्ष्य सूचना खोज को आसान बनाना है और सबसे अधिक प्रासंगिक स्रोत दस्तावेजों को इंगित करके समय कम करना है, व्यापक बहु-दस्तावेज़ सारांश में स्वयं आवश्यक जानकारी होनी चाहिए, इसलिए शोधन होने पर मूल फ़ाइलों तक पहुँचने की आवश्यकता को सीमित करना आवश्यक। स्वचालित सारांश किसी भी संपादकीय स्पर्श या व्यक्तिपरक मानवीय हस्तक्षेप के बिना, एल्गोरिदमिक रूप से कई स्रोतों से निकाली गई जानकारी प्रस्तुत करते हैं, इस प्रकार यह पूरी तरह से निष्पक्ष है।

विविधता
बहु-दस्तावेज़ निकालने वाला सारांश अतिरेक की समस्या का सामना करता है। आदर्श रूप से, हम उन वाक्यों को निकालना चाहते हैं जो दोनों केंद्रीय हैं (अर्थात, मुख्य विचार शामिल हैं) और विविध (अर्थात, वे एक दूसरे से भिन्न हैं)। उदाहरण के लिए, किसी घटना के बारे में समाचार लेखों के एक सेट में, प्रत्येक लेख में कई समान वाक्य होने की संभावना होती है। इस समस्या को हल करने के लिए, लेक्सरैंक एक अनुमानी पोस्ट-प्रोसेसिंग कदम लागू करता है जो वाक्यों को रैंक क्रम में जोड़ता है, लेकिन उन वाक्यों को छोड़ देता है जो पहले से ही सारांश में बहुत समान हैं। इस विधि को क्रॉस-सेंटेंस इंफॉर्मेशन सब्सम्पशन (CSIS) कहा जाता है। ये विधियाँ इस विचार पर आधारित हैं कि वाक्य पाठक को अन्य समान वाक्यों की सलाह देते हैं। इस प्रकार, यदि एक वाक्य कई अन्य वाक्यों के समान है, तो यह संभवतः बहुत महत्व का वाक्य होगा। इसका महत्व इसकी अनुशंसा करने वाले वाक्यों के महत्व से भी उत्पन्न होता है। इस प्रकार, उच्च रैंक प्राप्त करने और सारांश में रखने के लिए, एक वाक्य को कई वाक्यों के समान होना चाहिए जो बदले में कई अन्य वाक्यों के समान भी हों। यह सहज समझ में आता है और एल्गोरिदम को मनमाने ढंग से नए पाठ पर लागू करने की अनुमति देता है। विधियां डोमेन-स्वतंत्र और आसानी से पोर्टेबल हैं। कोई कल्पना कर सकता है कि समाचार क्षेत्र में महत्वपूर्ण वाक्यों को इंगित करने वाली विशेषताएं बायोमेडिकल डोमेन से काफी भिन्न हो सकती हैं। हालाँकि, किसी भी डोमेन पर अनपर्यवेक्षित अनुशंसा-आधारित दृष्टिकोण लागू होता है।

एक संबंधित पद्धति अधिकतम सीमांत प्रासंगिकता (एमएमआर) है, जो पेज/लेक्स/टेक्स्टरैंक जैसे सामान्य-उद्देश्य वाले ग्राफ़-आधारित रैंकिंग एल्गोरिदम का उपयोग करता है जो मार्कोव श्रृंखला रैंडम वॉक को अवशोषित करने के आधार पर एकीकृत गणितीय ढांचे में केंद्रीयता और विविधता दोनों को संभालता है (एक यादृच्छिक चलना जहां कुछ राज्य चलना समाप्त करते हैं)। एल्गोरिथ्म को ग्रासहॉपर कहा जाता है। रैंकिंग प्रक्रिया के दौरान स्पष्ट रूप से विविधता को बढ़ावा देने के अलावा, ग्रासहॉपर एक पूर्व रैंकिंग (सारांशीकरण के मामले में वाक्य की स्थिति के आधार पर) को शामिल करता है।

सबमॉड्यूलर कार्यों के मिश्रण का उपयोग करके बहु-दस्तावेज़ संक्षेपण के लिए अत्याधुनिक परिणाम प्राप्त किए जाते हैं। इन पद्धतियों ने दस्तावेज़ संक्षेपीकरण कॉर्पोरा, DUC 04 - 07 के लिए अत्याधुनिक परिणाम प्राप्त किए हैं। DUC-04 के लिए निर्धारक बिंदु प्रक्रियाओं (जो सबमॉड्यूलर कार्यों का एक विशेष मामला है) के उपयोग के साथ समान परिणाम प्राप्त किए गए थे। बहु-भाषी बहु-दस्तावेज़ संक्षेपण के लिए एक नई विधि जो अतिरेक से बचाती है, प्रत्येक दस्तावेज़ में प्रत्येक वाक्य के अर्थ का प्रतिनिधित्व करने के लिए आइडियोग्राम उत्पन्न करती है, फिर आइडियोग्राम आकार और स्थिति की तुलना करके समानता का मूल्यांकन करती है। यह शब्द आवृत्ति, प्रशिक्षण या प्रीप्रोसेसिंग का उपयोग नहीं करता है। यह उपयोगकर्ता द्वारा प्रदान किए गए दो मापदंडों का उपयोग करता है: तुल्यता (जब दो वाक्यों को समकक्ष माना जाता है?) और प्रासंगिकता (वांछित सारांश कितना लंबा है?)।

संक्षेपण के लिए सामान्य उपकरण के रूप में सबमॉड्यूलर कार्य करता है
एक सबमॉड्यूलर सेट फ़ंक्शन का विचार हाल ही में विभिन्न सारांश समस्याओं के लिए एक शक्तिशाली मॉडलिंग टूल के रूप में उभरा है। सबमॉड्यूलर फ़ंक्शंस स्वाभाविक रूप से कवरेज, सूचना, प्रतिनिधित्व और विविधता की मॉडल धारणाएँ हैं। इसके अलावा, कई महत्वपूर्ण दहनशील अनुकूलन समस्याएं सबमॉड्यूलर अनुकूलन के विशेष उदाहरणों के रूप में होती हैं। उदाहरण के लिए, सेट कवर समस्या सबमॉड्यूलर ऑप्टिमाइज़ेशन का एक विशेष मामला है, क्योंकि सेट कवर फ़ंक्शन सबमॉड्यूलर है। सेट कवर फ़ंक्शन उन वस्तुओं के सबसेट को खोजने का प्रयास करता है जो अवधारणाओं के दिए गए सेट को कवर करते हैं। उदाहरण के लिए, दस्तावेज़ सारांशीकरण में, कोई चाहता है कि सारांश दस्तावेज़ में सभी महत्वपूर्ण और प्रासंगिक अवधारणाओं को शामिल करे। यह सेट कवर का उदाहरण है। इसी तरह, सुविधा स्थान की समस्या सबमॉड्यूलर कार्यों का एक विशेष मामला है। सुविधा स्थान फ़ंक्शन भी स्वाभाविक रूप से कवरेज और विविधता को मॉडल करता है। एक सबमॉड्यूलर अनुकूलन समस्या का एक और उदाहरण मॉडल विविधता के लिए एक निर्धारक बिंदु प्रक्रिया का उपयोग कर रहा है। इसी तरह, अधिकतम-सीमांत-प्रासंगिकता प्रक्रिया को सबमॉड्यूलर अनुकूलन के उदाहरण के रूप में भी देखा जा सकता है। कवरेज, विविधता और सूचना को प्रोत्साहित करने वाले ये सभी महत्वपूर्ण मॉडल सबमॉड्यूलर हैं। इसके अलावा, सबमॉड्यूलर फ़ंक्शंस को कुशलता से जोड़ा जा सकता है, और परिणामी फ़ंक्शन अभी भी सबमॉड्यूलर है। इसलिए, कोई एक सबमॉड्यूलर फ़ंक्शन को जोड़ सकता है जो मॉडल विविधता, दूसरा जो मॉडल कवरेज और समस्या के लिए एक सबमॉड्यूलर फ़ंक्शन के सही मॉडल को सीखने के लिए मानव पर्यवेक्षण का उपयोग करता है।

जबकि सबमॉड्यूलर फ़ंक्शंस संक्षेपण के लिए उपयुक्त समस्याएँ हैं, वे अनुकूलन के लिए बहुत कुशल एल्गोरिदम भी स्वीकार करते हैं। उदाहरण के लिए, एक साधारण लालची एल्गोरिदम निरंतर कारक गारंटी स्वीकार करता है। इसके अलावा, लालची एल्गोरिथ्म लागू करने के लिए बेहद सरल है और बड़े डेटासेट को स्केल कर सकता है, जो सारांश समस्याओं के लिए बहुत महत्वपूर्ण है।

सबमॉड्यूलर कार्यों ने लगभग सभी सारांश समस्याओं के लिए अत्याधुनिक हासिल किया है। उदाहरण के लिए, लिन और बिल्म्स द्वारा कार्य, 2012 दिखाता है कि सबमॉड्यूलर फ़ंक्शंस दस्तावेज़ सारांशीकरण के लिए DUC-04, DUC-05, DUC-06 और DUC-07 सिस्टम पर आज तक के सर्वोत्तम परिणाम प्राप्त करते हैं। इसी प्रकार, लिन और बिल्म्स द्वारा कार्य, 2011, दिखाता है कि स्वचालित संक्षेपण के लिए कई मौजूदा प्रणालियाँ सबमॉड्यूलर फ़ंक्शंस के उदाहरण हैं। संक्षेपण समस्याओं के लिए सही मॉडल के रूप में सबमॉड्यूलर कार्यों की स्थापना के लिए यह एक सफलता का परिणाम था। सबमॉड्यूलर फ़ंक्शंस का उपयोग अन्य संक्षेपण कार्यों के लिए भी किया गया है। चियात्शेक एट अल।, 2014 शो सबमॉड्यूलर कार्यों का मिश्रण छवि संग्रह सारांश के लिए अत्याधुनिक परिणाम प्राप्त करता है। इसी तरह, बैरी एट अल।, 2015 बहु-दस्तावेज़ विषय पदानुक्रमों को सारांशित करने के लिए सबमॉड्यूलर फ़ंक्शंस की उपयोगिता दिखाएं। मशीन लर्निंग डेटासेट को सारांशित करने के लिए सबमॉड्यूलर फ़ंक्शंस का भी सफलतापूर्वक उपयोग किया गया है।

अनुप्रयोग
स्वचालित संक्षेपण के विशिष्ट अनुप्रयोगों में शामिल हैं:
 * reddit इंटरनेट बॉट autotldr, 2011 में बनाया गया reddit पोस्ट के टिप्पणी-अनुभाग में समाचार लेखों को सारांशित करता है। इसे रेडिट समुदाय द्वारा बहुत उपयोगी पाया गया जिसने इसके सारांश को सैकड़ों हजारों बार अपवोट किया। नाम टीएल; डीआर - इंटरनेट की ख़ास बोली फॉर टू लॉन्ग; नहीं पढ़ा।

मूल्यांकन
स्वचालित सारांशों की सूचनात्मकता का मूल्यांकन करने का सबसे आम तरीका मानव निर्मित मॉडल सारांशों के साथ उनकी तुलना करना है।

मूल्यांकन आंतरिक या बाह्य हो सकता है, और अंतर-पाठ्य या अंतर-पाठ्य।

आंतरिक बनाम बाह्य
आंतरिक मूल्यांकन सीधे सारांश का आकलन करता है, जबकि बाह्य मूल्यांकन मूल्यांकन करता है कि सारांश प्रणाली किसी अन्य कार्य को पूरा करने को कैसे प्रभावित करती है। आंतरिक मूल्यांकन ने मुख्य रूप से सारांशों की सुसंगतता और सूचनात्मकता का आकलन किया है। दूसरी ओर, बाहरी मूल्यांकनों ने प्रासंगिक मूल्यांकन, पढ़ने की समझ आदि जैसे कार्यों पर संक्षेपण के प्रभाव का परीक्षण किया है।

इंटर-टेक्स्टुअल बनाम इंट्रा-टेक्स्टुअल
अंतर-पाठ्य मूल्यांकन एक विशिष्ट सारांश प्रणाली के आउटपुट का आकलन करता है, जबकि अंतर-पाठ्य मूल्यांकन कई संक्षेपण प्रणालियों के आउटपुट के विपरीत विश्लेषण पर केंद्रित होता है।

मानव निर्णय अक्सर एक अच्छा सारांश मानने में बहुत भिन्न होता है, इसलिए स्वचालित मूल्यांकन प्रक्रिया बनाना विशेष रूप से कठिन होता है। मैनुअल मूल्यांकन का उपयोग किया जा सकता है, लेकिन यह समय और श्रम-गहन दोनों है, क्योंकि इसके लिए मनुष्यों को न केवल सारांश बल्कि स्रोत दस्तावेजों को भी पढ़ने की आवश्यकता होती है। अन्य मुद्दे सुसंगतता (भाषाविज्ञान) और कवरेज से संबंधित हैं।

सारांश का मूल्यांकन करने का सबसे आम तरीका है ROUGE (मीट्रिक) (रिकॉल-ओरिएंटेड अंडरस्टडी फॉर गिस्टिंग इवैल्यूएशन)। एनआईएसटी के दस्तावेज़ समझ सम्मेलनों में संक्षेपण और अनुवाद प्रणाली के लिए यह बहुत आम है। संदर्भ के रूप में ज्ञात मानव-निर्मित सारांशों की सामग्री को सारांश कितनी अच्छी तरह से कवर करता है। यह स्वचालित रूप से जेनरेट किए गए सारांश और पहले लिखित मानव सारांश के बीच एन-ग्राम ओवरलैप्स की गणना करता है। सारांश में सभी महत्वपूर्ण विषयों को शामिल करने के लिए प्रोत्साहित करने के लिए यह स्मरण-आधारित है। रिकॉल की गणना यूनीग्राम, बिग्राम, ट्रिग्राम या 4-ग्राम मिलान के संबंध में की जा सकती है। उदाहरण के लिए, ROUGE-1 यूनिग्राम का अंश है जो संदर्भ सारांश और स्वचालित सारांश दोनों में संदर्भ सारांश में सभी यूनिग्राम में से दिखाई देता है। यदि कई संदर्भ सारांश हैं, तो उनके अंकों का औसत निकाला जाता है। एक उच्च स्तर के ओवरलैप को दो सारांशों के बीच उच्च स्तर की साझा अवधारणाओं का संकेत देना चाहिए।

ROUGE यह निर्धारित नहीं कर सकता कि क्या परिणाम सुसंगत है, अर्थात यदि वाक्य समझदारी से एक साथ प्रवाहित होते हैं। हाई-ऑर्डर एन-ग्राम रूज उपाय कुछ हद तक मदद करते हैं।

एक और अनसुलझी समस्या अनाफोरा (भाषाविज्ञान) है। इसी तरह, छवि सारांशीकरण के लिए, त्शिआत्चेक एट अल।, ने एक विज़ुअल-रूज स्कोर विकसित किया जो छवि संक्षेपण के लिए एल्गोरिदम के प्रदर्शन का न्याय करता है।

डोमेन-विशिष्ट बनाम डोमेन-स्वतंत्र सारांश
डोमेन-स्वतंत्र सारकरण तकनीक सूचना-समृद्ध पाठ खंडों की पहचान करने के लिए सामान्य सुविधाओं के सेट लागू करती है। हाल के शोध पाठ के डोमेन के लिए विशिष्ट ज्ञान का उपयोग करके डोमेन-विशिष्ट संक्षेपण पर ध्यान केंद्रित करते हैं, जैसे चिकित्सा ज्ञान और चिकित्सा ग्रंथों को सारांशित करने के लिए ऑन्कोलॉजी।

गुणात्मक
अब तक की मूल्यांकन प्रणाली का मुख्य दोष यह है कि मॉडल के साथ स्वचालित सारांश की तुलना करने के लिए हमें एक संदर्भ सारांश (कुछ विधियों के लिए, एक से अधिक) की आवश्यकता होती है। यह एक कठिन और खर्चीला कार्य है। ग्रंथों का संग्रह और उनके अनुरूप सारांश बनाने के लिए बहुत प्रयास करना पड़ता है। इसके अलावा, कुछ विधियों के लिए सारांश के मैनुअल एनोटेशन की आवश्यकता होती है (उदाहरण के लिए पिरामिड विधि में SCU)। इसके अलावा, वे सभी विभिन्न समानता मेट्रिक्स के संबंध में एक मात्रात्मक मूल्यांकन करते हैं।

इतिहास
क्षेत्र में पहला प्रकाशन 1957 का है (उनका पीटर लुहान), एक सांख्यिकीय तकनीक से शुरू करते हुए। 2015 में शोध में काफी वृद्धि हुई। 2016 तक शब्द आवृत्ति-उलटा दस्तावेज़ आवृत्ति का उपयोग किया गया था। 2016 तक बहु-दस्तावेज़ संक्षेपण के लिए पैटर्न-आधारित संक्षेपण सबसे शक्तिशाली विकल्प था। अगले वर्ष इसे अव्यक्त सिमेंटिक विश्लेषण (एलएसए) द्वारा पार कर लिया गया था। गैर-नकारात्मक मैट्रिक्स गुणनखंडन (NMF) के साथ संयुक्त। हालांकि वे अन्य दृष्टिकोणों को प्रतिस्थापित नहीं करते थे और अक्सर उनके साथ संयुक्त होते हैं, 2019 तक मशीन सीखने के तरीकों ने एकल दस्तावेजों के निष्कर्षण सारांश पर हावी कर दिया था, जिसे परिपक्वता के करीब माना जाता था। 2020 तक, क्षेत्र अभी भी बहुत सक्रिय था और अनुसंधान सारगर्भित योग और वास्तविक समय के सारांश की ओर बढ़ रहा है।

हाल के दृष्टिकोण
हाल ही में ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) के उदय ने अधिक पारंपरिक Rnn (सॉफ्टवेयर) (LSTM) की जगह पाठ अनुक्रमों की मैपिंग में एक अलग प्रकार के पाठ अनुक्रमों के लिए एक लचीलापन प्रदान किया है, जो स्वचालित सारांश के लिए अच्छी तरह से अनुकूल है। इसमें T5 जैसे मॉडल शामिल हैं और पेगासस।

यह भी देखें

 * वाक्य निष्कर्षण
 * टेक्स्ट खनन
 * बहु-दस्तावेज़ सारांश

इस पेज में लापता आंतरिक लिंक की सूची

 * कंप्यूटर दृष्टी
 * गूगल दस्तावेज़
 * स्वचालित व्याख्या
 * बहु-दस्तावेज़ सारांश
 * पूरा पाठ खोजें
 * सूचना की पुनर्प्राप्ति
 * शोध आलेख
 * कीवर्ड निष्कर्षण
 * प्राकृतिक भाषा की समझ
 * पर्यवेक्षित मशीन लर्निंग
 * शब्दार्थ समानता
 * सामंजस्य (भाषा विज्ञान)
 * यादृच्छिक चाल
 * सामाजिक जाल
 * ग्राफ़ (सार डेटा प्रकार)
 * अधिकतम एन्ट्रापी वर्गीकारक
 * मात्रात्मक सामान्यीकरण
 * घास का मैदान
 * बहुत ज्यादा जानकारी
 * समाचार एग्रीगेटर्स
 * मार्कोव श्रृंखला को अवशोषित करना
 * कवर समस्या सेट करें
 * संयोजन अनुकूलन
 * रूज (मीट्रिक)
 * अनाफोरा (भाषा विज्ञान)
 * अव्यक्त शब्दार्थ विश्लेषण
 * ट्रांसफार्मर (मशीन लर्निंग मॉडल)
 * आरएनएन (सॉफ्टवेयर)

अग्रिम पठन

 * , Conceptual artwork using automatic summarization software in Microsoft Word 2008.
 * , Published in Proceeding RIAO'10 Adaptivity, Personalization and Fusion of Heterogeneous Information, CID Paris, France
 * , The GRASSHOPPER algorithm
 * , Conceptual Structures for STEM Research and Education.
 * , Conceptual artwork using automatic summarization software in Microsoft Word 2008.
 * , Published in Proceeding RIAO'10 Adaptivity, Personalization and Fusion of Heterogeneous Information, CID Paris, France
 * , The GRASSHOPPER algorithm
 * , Conceptual Structures for STEM Research and Education.
 * , Conceptual artwork using automatic summarization software in Microsoft Word 2008.
 * , Published in Proceeding RIAO'10 Adaptivity, Personalization and Fusion of Heterogeneous Information, CID Paris, France
 * , The GRASSHOPPER algorithm
 * , Conceptual Structures for STEM Research and Education.
 * , The GRASSHOPPER algorithm
 * , Conceptual Structures for STEM Research and Education.