पाठसंग्रह

भाषाविज्ञान में, एक कॉर्पस (बहुवचन कॉर्पोरा) या टेक्स्ट कॉर्पस एक भाषा संसाधन है जिसमें टेक्स्ट का एक बड़ा और संरचित सेट होता है (आजकल आमतौर पर इलेक्ट्रॉनिक रूप से संग्रहीत और संसाधित होता है)। कॉर्पस भाषाविज्ञान में, उनका उपयोग सांख्यिकीय विश्लेषण और सांख्यिकीय परिकल्पना परीक्षण, घटनाओं की जांच करने या किसी विशिष्ट भाषा क्षेत्र के भीतर भाषाई नियमों को मान्य करने के लिए किया जाता है।

खोज इंजन (कंप्यूटिंग) में, कॉर्पस उन दस्तावेज़ों का संग्रह है जिन्हें खोजा जा रहा है।

सिंहावलोकन
एक कोष में एक ही भाषा में पाठ (एकभाषी कोष) या कई भाषाओं में पाठ डेटा (बहुभाषी कोष) हो सकता है।

भाषाई अनुसंधान करने के लिए कॉर्पोरा को अधिक उपयोगी बनाने के लिए, उन्हें अक्सर टिप्पणी  के रूप में जानी जाने वाली प्रक्रिया के अधीन किया जाता है। कॉर्पस को एनोटेट करने का एक उदाहरण भाषण का भाग टैगिंग या पीओएस-टैगिंग है, जिसमें प्रत्येक शब्द के भाषण के भाग (क्रिया, संज्ञा, विशेषण, आदि) के बारे में जानकारी टैग के रूप में कॉर्पस में जोड़ी जाती है। एक अन्य उदाहरण प्रत्येक शब्द के लेम्मा (आकृति विज्ञान) (आधार) रूप को इंगित कर रहा है। जब कॉर्पस की भाषा इसका उपयोग करने वाले शोधकर्ताओं की कामकाजी भाषा नहीं होती है, तो एनोटेशन को द्विभाषी बनाने के लिए इंटरलीनियर चमक का उपयोग किया जाता है।

कुछ निगमों में विश्लेषण के और अधिक संरचित स्तर लागू होते हैं। विशेष रूप से, छोटे कॉर्पोरा पूरी तरह से पदच्छेद  हो सकते हैं। ऐसे निगमों को आमतौर पर ट्रीबैंक या ट्रीबैंक कहा जाता है। यह सुनिश्चित करने में कठिनाई कि संपूर्ण कॉर्पस पूरी तरह से और लगातार एनोटेट किया गया है, इसका मतलब है कि ये कॉर्पोरा आमतौर पर छोटे होते हैं, जिनमें लगभग एक से तीन मिलियन शब्द होते हैं। भाषाई संरचित विश्लेषण के अन्य स्तर संभव हैं, जिनमें आकृति विज्ञान (भाषाविज्ञान), शब्दार्थ और व्यावहारिकता के लिए एनोटेशन शामिल हैं।

अनुप्रयोग
कॉर्पोरा कॉर्पस भाषाविज्ञान में मुख्य ज्ञान आधार हैं। आवेदन के अन्य उल्लेखनीय क्षेत्रों में शामिल हैं:


 * भाषा प्रौद्योगिकी, प्राकृतिक भाषा प्रसंस्करण, कम्प्यूटेशनल भाषा विज्ञान
 * विभिन्न प्रकार के कॉर्पोरा का विश्लेषण और प्रसंस्करण कम्प्यूटेशनल भाषाविज्ञान, भाषण मान्यता और मशीन अनुवाद में भी बहुत काम का विषय है, जहां उन्हें अक्सर भाषण टैगिंग और अन्य उद्देश्यों के लिए छिपे छिपा हुआ मार्कोव मॉडल बनाने के लिए उपयोग किया जाता है। इनसे प्राप्त कॉर्पोरा और आवृत्ति सूचियाँ भाषा शिक्षण के लिए उपयोगी होती हैं। कॉर्पोरा को एक प्रकार की विदेशी भाषा लेखन सहायता के रूप में माना जा सकता है क्योंकि कॉर्पोरा में प्रामाणिक पाठों के संपर्क के माध्यम से गैर-देशी भाषा उपयोगकर्ताओं द्वारा प्राप्त प्रासंगिक व्याकरणिक ज्ञान शिक्षार्थियों को लक्ष्य भाषा में वाक्य निर्माण के तरीके को समझने की अनुमति देता है, जिससे प्रभावी लेखन संभव हो पाता है।
 * मशीन अनुवाद
 * बहुभाषी कॉर्पोरा जिन्हें विशेष रूप से साथ-साथ तुलना के लिए स्वरूपित किया गया है, संरेखित समानांतर कॉर्पोरा कहलाते हैं। समानांतर कॉर्पोरा के दो मुख्य प्रकार हैं जिनमें दो भाषाओं में पाठ शामिल हैं। अनुवाद कोष में, एक भाषा के पाठ दूसरी भाषा के पाठ का अनुवाद होते हैं। एक तुलनीय कोष में, पाठ एक ही प्रकार के होते हैं और एक ही सामग्री को कवर करते हैं, लेकिन वे एक दूसरे के अनुवाद नहीं होते हैं। समानांतर पाठ का उपयोग करने के लिए, समतुल्य पाठ खंडों (वाक्यांशों या वाक्यों) की पहचान करने वाले किसी प्रकार का पाठ संरेखण विश्लेषण के लिए एक पूर्व शर्त है। दो भाषाओं के बीच अनुवाद करने के लिए मशीनी अनुवाद एल्गोरिदम को अक्सर पहली भाषा के कॉर्पस और दूसरी भाषा के कॉर्पस वाले समानांतर टुकड़ों का उपयोग करके प्रशिक्षित किया जाता है, जो पहली भाषा के कॉर्पस का तत्व-दर-तत्व अनुवाद है।
 * भाषाशास्त्र
 * टेक्स्ट कॉर्पोरा का उपयोग ऐतिहासिक दस्तावेजों के अध्ययन में भी किया जाता है, उदाहरण के लिए प्राचीन लिपियों को समझने के प्रयासों में, या बाइबिल छात्रवृत्ति में। कुछ पुरातात्विक निगम इतनी छोटी अवधि के हो सकते हैं कि वे समय का एक स्नैपशॉट प्रदान करते हैं। समय के सबसे छोटे कॉर्पोरा में से एक 15-30 साल का अमर्ना पत्र ग्रंथ (1350 ईसा पूर्व) हो सकता है। एक प्राचीन शहर का कोष, (उदाहरण के लिए तुर्की के कुल्तेपे ग्रंथ), उनके खोज स्थल की तारीखों द्वारा निर्धारित, कोष की एक श्रृंखला से गुजर सकता है।

यह भी देखें

 * कॉनकॉर्डेंस (प्रकाशन)
 * कॉर्पस भाषाविज्ञान
 * वितरण-संबंधपरक डेटाबेस
 * भाषाई डेटा कंसोर्टियम
 * प्राकृतिक भाषा प्रसंस्करण
 * प्राकृतिक भाषा टूलकिट
 * समानांतर पाठ संरेखण
 * खोज इंजन: वे वेब कॉर्पस तक पहुंचते हैं।
 * वाक् कोष
 * अनुवाद स्मृति
 * ट्रीबैंक
 * ज़िपफ का नियम

बाहरी संबंध

 * ACL SIGLEX Resource Links: Text Corpora
 * Developing Linguistic Corpora: a Guide to Good Practice
 * Free samples (not free), web-based corpora (45-425 million words each): American (COCA, COHA, TIME), British (BNC), Spanish, Portuguese
 * Intercorp Building synchronous parallel corpora of the languages taught at the Faculty of Arts of Charles University.
 * Sketch Engine: Open corpora with free access
 * TS Corpus – A Turkish Corpus freely available for academic research.
 * Turkish National Corpus – A general-purpose corpus for contemporary Turkish
 * Corpus of Political Speeches, Free access to political speeches by American and Chinese politicians, developed by Hong Kong Baptist University Library
 * Russian National Corpus

<!--