टेक्स्ट एन्कोडिंग इनिशिएटिव

पाठ एन्कोडिंग पहल (टीईआई) डिजिटल मानविकी के शैक्षणिक क्षेत्र में अभ्यास का पाठ-केंद्रित समुदाय पाठ-केंद्रित समुदाय है, जो 1980 के दशक से लगातार काम कर रहा है। समुदाय वर्तमान में एक मेलिंग सूची, बैठकें और सम्मेलन श्रृंखला चलाता है, और टीईआई तकनीकी मानक, एक वैज्ञानिक पत्रिका, एक विकी ,एक गिटहब रिपॉजिटरी और एक टूलचेन बनाए रखता है।

टीईआई दिशानिर्देश
टीईआई दिशानिर्देश सामूहिक रूप से एक प्रकार के एक्सएमएलप्रारूप को परिभाषित करते हैं, और अभ्यास के समुदाय के परिभाषित आउटपुट हैं। यह प्रारूप पाठ के लिए अन्य प्रसिद्ध खुले प्रारूपों (जैसे एचटीएमएल और अनिर्णित प्रपत्र) से भिन्न है, क्योंकि यह प्रस्तुतिकरण के बजाय मुख्य रूप से अर्थपूर्ण है; प्रत्येक टैग और विशेषता के शब्दार्थ और व्याख्या निर्दिष्ट हैं।

लगभग 500 अलग-अलग पाठ्य घटक और अवधारणाएँ हैं

(word, sentence, character, glyph, person,

आदि); प्रत्येक एक या अधिक शैक्षणिक विषयों पर आधारित है और उदाहरण दिए गए हैं।

तकनीकी विवरण
मानक को दो भागों में विभाजित किया गया है, विस्तारित उदाहरणों और चर्चा के साथ एक विवेचनात्मक पाठ्य विवरण और टैग-दर-टैग परिभाषाओं का सेट इस प्रकार किया गया है। अधिकांश आधुनिक प्रारूपों (दस्तावेज़ प्रकार परिभाषा, रिलैक्स एनजी और डब्लू3सी  स्कीमा) में स्कीमाटा टैग-दर-टैग परिभाषाओं से स्वचालित रूप से उत्पन्न होते हैं। कई उपकरण दिशानिर्देशों के उत्पादन और विशिष्ट परियोजनाओं के लिए दिशानिर्देशों के अनुप्रयोग का समर्थन करते हैं।

अंतर्निहित यूनिकोड द्वारा लगाए गए प्रतिबंधों से बचने के लिए कई विशेष टैग का उपयोग किया जाता है; ग्लिफ़ उन वर्णों के प्रतिनिधित्व की अनुमति देता है जो यूनिकोड समावेशन के लिए योग्य नहीं हैं और आवश्यक सख्त रैखिकता पर काबू पाने की अनुमति देता है।

प्रारूप के अधिकांश उपयोगकर्ता टैग की पूरी श्रृंखला का उपयोग नहीं करते हैं, लेकिन दिशानिर्देशों द्वारा परिभाषित टैग और विशेषताओं के प्रोजेक्ट-विशिष्ट उपसमूह का उपयोग करके अनुकूलन का उत्पादन करते हैं। टीईआई इस उद्देश्य के लिए एक परिष्कृत अनुकूलन तंत्र को परिभाषित करता है जिसे ओडीडी के रूप में जाना जाता है। प्रत्येक टीईआई टैग का दस्तावेजीकरण और वर्णन करने के अलावा, एक ओडीडी विनिर्देश इसके सामग्री मॉडल और अन्य उपयोग बाधाओं को निर्दिष्ट करता है, जिसे स्कीमट्रॉन का उपयोग करके व्यक्त किया जा सकता है।

टीईआई लाइट ऐसे अनुकूलन का एक उदाहरण है। यह पाठ्य भाग के आदान-प्रदान के लिए एक एक्सएमएल - आधारित फ़ाइल स्वरूप को परिभाषित करता है। संपूर्ण टीईआई दिशानिर्देशों में उपलब्ध तत्वों के व्यापक सेट से एक प्रबंधनीय चयन है।

एक्सएमएल -आधारित प्रारूप के रूप में, टीईआई सीधे ओवरलैपिंग मार्कअप और गैर-श्रेणीबद्ध संरचनाओं से निपट नहीं सकता है। दिशानिर्देशों द्वारा इस प्रकार के डेटा का प्रतिनिधित्व करने के लिए कई प्रकार के विकल्प सुझाए गए हैं।

उदाहरण
टीईआई दिशानिर्देशों का पाठ उदाहरणों से समृद्ध है। टीईआई विकी पर एक नमूना पृष्ठ भी है, जो वास्तविक दुनिया की परियोजनाओं के उदाहरण देता है जो उनके अंतर्निहित टीईआई को उजागर करते हैं।

गद्य उपनाम
टीईआईपाठ्य भाग को ग्रैन्युलैरिटी या ग्रैन्युलैरिटी के मिश्रण के किसी भी स्तर पर वाक्यात्मक रूप से चिह्नित करने की अनुमति देता है। उदाहरण के लिए, इस अनुच्छेद (पी) को वाक्यों और खंडों (सीएल) में चिह्नित किया गया है।

पद्य
टीईआई में पद्य को चिह्नित करने के लिए टैग हैं। यह उदाहरण (टीईआई दिशानिर्देशों के फ्रेंच अनुवाद से लिया गया) एक सॉनेट दिखाता है।

चयन उपनाम चयन उपनाम का उपयोग पाठ के उन अनुभागों को दर्शाने के लिए किया जाता है जिन्हें एक से अधिक संभावित तरीकों से एन्कोड या टैग किया जा सकता है। निम्नलिखित उदाहरण में, मानक में एक के आधार पर, विकल्प का उपयोग दो बार किया जाता है, एक बार मूल और सही संख्या को इंगित करने के लिए, और एक बार मूल और नियमित वर्तनी को इंगित करने के लिए है।

ओडीडी
वन डॉक्यूमेंट डू इट ऑल (ओडीडी ) एक्सएमएल स्कीमा के लिए एक साक्षर प्रोग्रामिंग भाषा है।

साक्षर-प्रोग्रामिंग शैली में, ओडीडी दस्तावेज़ पाठ एन्कोडिंग पहल के दस्तावेज़ीकरण तत्व मॉड्यूल का उपयोग करके मानव-पठनीय दस्तावेज़ और मशीन-पठनीय मॉडल को जोड़ते हैं। उपकरण स्थानीयकृत और अंतर्राष्ट्रीयकृत एचटीएमएल, इपुब, या पीडीएफ मानव-पठनीय आउटपुट और दस्तावेज़ प्रकार परिभाषाएँ, एक्सएमएल  स्कीमा (डब्लू3सी ), रिलैक्स एनजी कॉम्पैक्ट सिंटेक्स, या रिलैक्स एनजी एक्सएमएल  सिंटेक्स मशीन-पठनीय आउटपुट उत्पन्न करते हैं।

रोमा वेब एप्लिकेशन ओडीडी प्रारूप के आसपास बनाया गया है और इसका उपयोग दस्तावेज़ प्रकार परिभाषा, एक्सएमएल स्कीमा (डब्लू3सी ), रिलैक्स एनजी कॉम्पैक्ट सिंटैक्स, या रिलैक्स एनजी एक्सएमएल  सिंटेक्स प्रारूपों में स्कीमा उत्पन्न करने के लिए किया जा सकता है, जैसा कि कई एक्सएमएल सत्यापन उपकरण और सेवाओं द्वारा उपयोग किया जाता है।

ओडीडी टीईआई तकनीकी मानकों और सुरक्षा प्राधिकरण के लिए टेक्स्ट एन्कोडिंग पहल द्वारा आंतरिक रूप से उपयोग किया जाने वाला प्रारूप है। हालाँकि ओडीडी फाइलें आम तौर पर एक अनुकूलित एक्सएमएल  प्रारूप और पूर्ण टीईआई मॉडल के बीच के अंतर का वर्णन करती हैं, ओडीडी  का उपयोग एक्सएमएल  प्रारूपों का वर्णन करने के लिए भी किया जा सकता है जो टीईआई से पूरी तरह से अलग हैं। इसका एक उदाहरण डब्लू3सी  का अंतर्राष्ट्रीयकरण टैग सेट है जो स्कीमा उत्पन्न करने और अपनी शब्दावली का दस्तावेजीकरण करने के लिए ओडीडी प्रारूप का उपयोग करता है।

टीईआई अनुकूलन
टीईआई अनुकूलन विशेष क्षेत्रों या विशिष्ट समुदायों द्वारा उपयोग के लिए टीईआई एक्सएमएल विनिर्देश की विशेषज्ञता है। टीईआई में अनुकूलन ऊपर उल्लिखित ओडीडी तंत्र के माध्यम से किया जाता है। वास्तव में इसके P5 संस्करण के बाद से, टीईआई दिशानिर्देशों के सभी तथाकथित 'टीईआई अनुरूप' उपयोग टीईआई ओडीडी फ़ाइल में प्रलेखित टीईआई अनुकूलन पर आधारित हैं। यहां तक कि जब उपयोगकर्ता सत्यापित करने के लिए ऑफ-द-शेल्फ पूर्व-निर्मित स्कीमा में से किसी एक को चुनते हैं, तो इन्हें स्वतंत्र रूप से उपलब्ध अनुकूलन फ़ाइलों से बनाया गया है।
 * एपिडॉक (पुरालेख दस्तावेज़)
 * चार्टर्स एन्कोडिंग पहल
 * मध्यकालीन नॉर्डिक पाठ संग्रह(मेनोटा)

परियोजनाओं
इस प्रारूप का उपयोग दुनिया भर में कई परियोजनाओं द्वारा किया जाता है। व्यावहारिक रूप से सभी परियोजनाएँ एक या अधिक विश्वविद्यालयों से जुड़ी होती हैं। टीईआई का उपयोग करके टेक्स्ट को एन्कोड करने वाली कुछ प्रसिद्ध परियोजनाओं में शामिल हैं:

इतिहास
टीईआई के निर्माण से पहले, मानविकी विद्वानों के पास इलेक्ट्रॉनिक ग्रंथों को इस तरह से एन्कोड करने के लिए कोई सामान्य मानक नहीं थे जो उनके शैक्षणिक लक्ष्यों को पूरा कर सके (हॉकी 1993, पृष्ठ 41) है। 1987 में, मानविकी, भाषाविज्ञान और कंप्यूटिंग के क्षेत्रों का प्रतिनिधित्व करने वाले विद्वानों का एक समूह वासर कॉलेज में दिशानिर्देशों का एक सेट पेश करने के लिए बुलाया गया, जिसे "पॉकीप्सी सिद्धांत" के रूप में जाना जाता है। इन दिशानिर्देशों ने पहले टीईआई मानक, पी1 के विकास को निर्देशित किया।
 * 1987 - कंप्यूटर और मानविकी संघ द्वारा कार्य शुरू किया गया, टीईआई क्या बनेगा, इस पर कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन, और साहित्यिक और भाषाई कम्प्यूटिंग के लिए एसोसिएशन जो बाद में टीईआई बन जाएगा। इसका समापन वासर योजना सम्मेलन के समापन वक्तव्य में हुआ।
 * 1994 - टीईआई पी3 जारी किया गया, लो बर्नार्ड (ऑक्सफ़ोर्ड विश्वविद्यालय में) और माइकल स्पर्बर्ग-मैकक्वीन (तब शिकागो में इलिनोइस विश्वविद्यालय में, बाद में डब्लू3सी में) द्वारा सह-संपादित किया गया।
 * 1999 - टीईआई पी3 अद्यतन किया गया।
 * 2002 - टीईआई पी4 जारी किया गया, एसजीएमएल से एक्सएमएल की ओर बढ़ते हुए; यूनिकोड को अपनाना, जिसका एक्सएमएल पारसर्स को समर्थन करना आवश्यक है।
 * 2007 - टीईआई पी5 जारी किया गया,जिसमें डब्लू3सी से   और   विशेषताओं के साथ एकीकरण शामिल है। (ये पहले टीईआई नेमस्पेस में विशेषताएँ थीं), हैश का उपयोग करने के लिए स्थानीय पॉइंटिंग विशेषताओं का नियमितीकरण (जैसा कि एचटीएमएल में उपयोग किया जाता है) और पीटीआर और एक्सपीटीआर टैग का एकीकरण। कई नए परिवर्धन के साथ ये परिवर्तन पी5 को अधिक नियमित बनाते हैं और इसे डब्लू3सी  द्वारा प्रचारित और अन्य एक्सएमएल वेरिएंट द्वारा उपयोग किए जाने वाले वर्तमान एक्सएमएल अभ्यास के करीब लाते हैं। टीईआई पी5 के रखरखाव और फीचर अपडेट संस्करण 2007 से वर्ष में कम से कम दो बार जारी किए गए हैं।
 * 2011 - आनुवंशिक संपादन के समर्थन के साथ टीईआई पी5 v2.0.1 जारी किया गया (कई अन्य परिवर्धनों के बीच आनुवंशिक संपादन सुविधाएँ पाठों को उनके विशिष्ट शब्दार्थ की व्याख्या किए बिना एन्कोड करने की अनुमति देती हैं)।
 * 2017 - टीईआई को एलायंस ऑफ डिजिटल मानविकी संगठन की ओर से एंटोनियो ज़म्पोली पुरस्कार से सम्मानित किया गया।

बाहरी संबंध

 * TEI Consortium Web site with a list of TEI projects, a form for adding your project and wiki
 * Journal of the TEI
 * TEI Lite: An Introduction to Text Encoding for Interchange
 * TEI @ Oxford (hosted at Oxford University) with development and backup versions of much of the core content.
 * TEI GitHub site (hosted at GitHub) with repository and issue tracker
 * Larger list of TEI Projects
 * What is the TEI? (Introductory overview by Lou Burnard)