टेक्स्ट एन्कोडिंग इनिशिएटिव

पाठ एन्कोडिंग पहल (टीईआई) डिजिटल मानविकी के शैक्षणिक क्षेत्र में अभ्यास का पाठ-केंद्रित समुदाय पाठ-केंद्रित समुदाय है, जो 1980 के दशक से लगातार काम कर रहा है। समुदाय वर्तमान में एक मेलिंग सूची, बैठकें और सम्मेलन श्रृंखला चलाता है, और टीईआई तकनीकी मानक, एक वैज्ञानिक पत्रिका, एक विकी ,एक गिटहब रिपॉजिटरी और एक टूलचेन बनाए रखता है।

टीईआई दिशानिर्देश
टीईआई दिशानिर्देश सामूहिक रूप से एक प्रकार के एक्सएमएलप्रारूप को परिभाषित करते हैं, और अभ्यास के समुदाय के परिभाषित आउटपुट हैं। यह प्रारूप पाठ के लिए अन्य प्रसिद्ध खुले प्रारूपों (जैसे एचटीएमएल और अनिर्णित प्रपत्र) से भिन्न है, क्योंकि यह प्रस्तुतिकरण के बजाय मुख्य रूप से अर्थपूर्ण है; प्रत्येक टैग और विशेषता के शब्दार्थ और व्याख्या निर्दिष्ट हैं।

लगभग 500 अलग-अलग पाठ्य घटक और अवधारणाएँ हैं

(word, sentence, character, glyph, person,

आदि); प्रत्येक एक या अधिक शैक्षणिक विषयों पर आधारित है और उदाहरण दिए गए हैं।

तकनीकी विवरण
मानक को दो भागों में विभाजित किया गया है, विस्तारित उदाहरणों और चर्चा के साथ एक विवेचनात्मक पाठ्य विवरण और टैग-दर-टैग परिभाषाओं का सेट इस प्रकार किया गया है। अधिकांश आधुनिक प्रारूपों (दस्तावेज़ प्रकार परिभाषा, RELAX NG और W3C स्कीमा) में स्कीमाटा टैग-दर-टैग परिभाषाओं से स्वचालित रूप से उत्पन्न होते हैं। कई उपकरण दिशानिर्देशों के उत्पादन और विशिष्ट परियोजनाओं के लिए दिशानिर्देशों के अनुप्रयोग का समर्थन करते हैं।

अंतर्निहित यूनिकोड द्वारा लगाए गए प्रतिबंधों से बचने के लिए कई विशेष टैग का उपयोग किया जाता है; ग्लिफ़ उन वर्णों के प्रतिनिधित्व की अनुमति देता है जो यूनिकोड समावेशन के लिए योग्य नहीं हैं और आवश्यक सख्त रैखिकता पर काबू पाने की अनुमति देता है।

प्रारूप के अधिकांश उपयोगकर्ता टैग की पूरी श्रृंखला का उपयोग नहीं करते हैं, लेकिन दिशानिर्देशों द्वारा परिभाषित टैग और विशेषताओं के प्रोजेक्ट-विशिष्ट उपसमूह का उपयोग करके अनुकूलन का उत्पादन करते हैं। टीईआई इस उद्देश्य के लिए एक परिष्कृत अनुकूलन तंत्र को परिभाषित करता है जिसे ओडीडी के रूप में जाना जाता है। प्रत्येक टीईआई टैग का दस्तावेजीकरण और वर्णन करने के अलावा, एक ओडीडी विनिर्देश इसके सामग्री मॉडल और अन्य उपयोग बाधाओं को निर्दिष्ट करता है, जिसे स्कीमट्रॉन का उपयोग करके व्यक्त किया जा सकता है।

टीईआई लाइट ऐसे अनुकूलन का एक उदाहरण है। यह पाठ्य भाग के आदान-प्रदान के लिए एक एक्सएमएल - आधारित फ़ाइल स्वरूप को परिभाषित करता है। संपूर्ण टीईआई दिशानिर्देशों में उपलब्ध तत्वों के व्यापक सेट से एक प्रबंधनीय चयन है।

एक्सएमएल -आधारित प्रारूप के रूप में, टीईआई सीधे ओवरलैपिंग मार्कअप और गैर-श्रेणीबद्ध संरचनाओं से निपट नहीं सकता है। दिशानिर्देशों द्वारा इस प्रकार के डेटा का प्रतिनिधित्व करने के लिए कई प्रकार के विकल्प सुझाए गए हैं।

उदाहरण
टीईआई दिशानिर्देशों का पाठ उदाहरणों से समृद्ध है। टीईआई विकी पर एक नमूना पृष्ठ भी है, जो वास्तविक दुनिया की परियोजनाओं के उदाहरण देता है जो उनके अंतर्निहित टीईआई को उजागर करते हैं।

गद्य उपनाम
टीईआईपाठ्य भाग को ग्रैन्युलैरिटी या ग्रैन्युलैरिटी के मिश्रण के किसी भी स्तर पर वाक्यात्मक रूप से चिह्नित करने की अनुमति देता है। उदाहरण के लिए, इस अनुच्छेद (पी) को वाक्यों और खंडों (सीएल) में चिह्नित किया गया है।

पद्य
टीईआई में पद्य को चिह्नित करने के लिए टैग हैं। यह उदाहरण (टीईआई दिशानिर्देशों के फ्रेंच अनुवाद से लिया गया) एक सॉनेट दिखाता है।

चयन उपनाम चयन उपनाम का उपयोग पाठ के उन अनुभागों को दर्शाने के लिए किया जाता है जिन्हें एक से अधिक संभावित तरीकों से एन्कोड या टैग किया जा सकता है। निम्नलिखित उदाहरण में, मानक में एक के आधार पर, विकल्प का उपयोग दो बार किया जाता है, एक बार मूल और सही संख्या को इंगित करने के लिए, और एक बार मूल और नियमित वर्तनी को इंगित करने के लिए है।

ओडीडी
वन डॉक्यूमेंट डू इट ऑल (ओडीडी ) एक्सएमएल स्कीमा के लिए एक साक्षर प्रोग्रामिंग भाषा है। साक्षर-प्रोग्रामिंग शैली में, ओडीडी दस्तावेज़ पाठ एन्कोडिंग पहल के दस्तावेज़ीकरण तत्व मॉड्यूल का उपयोग करके मानव-पठनीय दस्तावेज़ीकरण और मशीन-पठनीय मॉडल को जोड़ते हैं। उपकरण अंतर्राष्ट्रीयकरण और स्थानीयकरण HTML, ePub, या PDF मानव-पठनीय आउटपुट और दस्तावेज़ प्रकार परिभाषाएँ, एक्सएमएल  स्कीमा (W3C), RELAX NG कॉम्पैक्ट सिंटेक्स, या रिलैक्स NG एक्सएमएल  सिंटेक्स मशीन-पठनीय आउटपुट उत्पन्न करते हैं।

रोमा वेब एप्लिकेशन ओडीडी प्रारूप के आसपास बनाया गया है और इसका उपयोग दस्तावेज़ प्रकार परिभाषा, एक्सएमएल स्कीमा (W3C), RELAX NG कॉम्पैक्ट सिंटैक्स, या आराम NG एक्सएमएल  सिंटेक्स प्रारूपों में स्कीमा उत्पन्न करने के लिए कर सकता है, जैसा कि कई एक्सएमएल  सत्यापन उपकरण और सेवाओं द्वारा उपयोग किया जाता है।

ओडीडी टीईआई तकनीकी मानकों और सुरक्षा प्राधिकरण के लिए टेक्स्ट एन्कोडिंग पहल द्वारा आंतरिक रूप से उपयोग किया जाने वाला प्रारूप है। हालाँकि ओडीडी फाइलें आम तौर पर एक अनुकूलित एक्सएमएल  प्रारूप और पूर्ण टीईआई मॉडल के बीच के अंतर का वर्णन करती हैं, ओडीडी  का उपयोग एक्सएमएल  स्वरूपों का वर्णन करने के लिए भी किया जा सकता है जो टीईआई से पूरी तरह से अलग हैं। इसका एक उदाहरण W3C| है W3C का अंतर्राष्ट्रीयकरण टैग सेट जो स्कीमा उत्पन्न करने और इसकी शब्दावली को दस्तावेज करने के लिए ओडीडी  प्रारूप का उपयोग करता है।

टीईआई अनुकूलन
टीईआई अनुकूलन विशेष क्षेत्रों में या विशिष्ट समुदायों द्वारा उपयोग के लिए टीईआई एक्सएमएल विनिर्देश के विशेषज्ञ हैं। टीईआई में अनुकूलन ऊपर वर्णित ओडीडी तंत्र के माध्यम से किया जाता है। वास्तव में इसके P5 संस्करण के बाद से, टीईआई दिशानिर्देशों के सभी तथाकथित 'टीईआई अनुरूप' उपयोग टीईआई ओडीडी फ़ाइल में प्रलेखित टीईआई अनुकूलन पर आधारित हैं। यहां तक ​​कि जब उपयोगकर्ता ऑफ-द-शेल्फ प्री-जेनरेट किए गए स्कीमा में से किसी एक को मान्य करने के लिए चुनते हैं, तो ये स्वतंत्र रूप से उपलब्ध अनुकूलन फ़ाइलों से बनाए गए हैं।
 * एपिडॉक (एपिग्राफिक दस्तावेज़)
 * चार्टर्स एन्कोडिंग पहल
 * मध्यकालीन नॉर्डिक टेक्स्ट आर्काइव (मेनोटा)

प्रोजेक्ट्स
प्रारूप का उपयोग दुनिया भर में कई परियोजनाओं द्वारा किया जाता है। व्यावहारिक रूप से सभी परियोजनाएं एक या एक से अधिक विश्वविद्यालयों से जुड़ी हैं। कुछ प्रसिद्ध परियोजनाएं जो टीईआई का उपयोग करते हुए ग्रंथों को सांकेतिक शब्दों में बदलना शामिल हैं:

इतिहास
टीईआई के निर्माण से पहले, मानविकी विद्वानों के पास इलेक्ट्रॉनिक पाठ्य सामग्री को इस तरह से एन्कोड करने के लिए कोई सामान्य मानक नहीं थे जो उनके शैक्षणिक लक्ष्यों को पूरा करे (सुसान हॉकी 1993, पृष्ठ 41)। 1987 में, वासर कॉलेज में मानविकी, भाषा विज्ञान और कंप्यूटिंग के क्षेत्रों का प्रतिनिधित्व करने वाले विद्वानों के एक समूह ने "पोकीकीसी सिद्धांतों" के रूप में जाने जाने वाले दिशानिर्देशों का एक सेट प्रस्तुत किया। इन दिशानिर्देशों ने पहले TEI मानक, P1 के विकास को निर्देशित किया।
 * 1987 - कंप्यूटर और मानविकी संघ द्वारा काम शुरू किया गया, कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन, और साहित्यिक और भाषाई कम्प्यूटिंग के लिए एसोसिएशन जो बाद में टीईआई बन जाएगा। इसकी परिणति वासर योजना सम्मेलन के समापन वक्तव्य में हुई।
 * 1994 - टीईआई P3 जारी, लो बर्नार्ड (ऑक्सफ़ोर्ड विश्वविद्यालय में) और माइकल स्पर्बर्ग-मैकक्वीन (तब शिकागो में इलिनोइस विश्वविद्यालय में, बाद में W3C में) द्वारा सह-संपादित किया गया।
 * 1999 - टीईआई पी3 अपडेट किया गया।
 * 2002 - टीईआई पी4 जारी, एसजीएमएल से एक्सएमएल में स्थानांतरित; यूनिकोड को अपनाना, जिसका समर्थन करने के लिए एक्सएमएल पारसर्स की आवश्यकता होती है।
 * 2007 - टीईआई P5 जारी किया गया, जिसमें एकीकरण शामिल है  और   W3C से गुण (ये पहले टीईआई नेमस्पेस में विशेषताएँ थीं), हैश का उपयोग करने के लिए स्थानीय पॉइंटिंग विशेषताओं का नियमितीकरण (जैसा कि HTML में उपयोग किया जाता है) और ptr और xptr टैग का एकीकरण। कई और नए संयोजनों के साथ ये परिवर्तन P5 को अधिक नियमित बनाते हैं और इसे W3C द्वारा प्रचारित और अन्य एक्सएमएल  वेरिएंट द्वारा उपयोग किए जाने वाले वर्तमान xml अभ्यास के करीब लाते हैं। 2007 से टीईआई पी5 के रखरखाव और फीचर अपडेट संस्करणों को वर्ष में कम से कम दो बार जारी किया गया है।
 * 2011 - आनुवंशिक संपादन के समर्थन के साथ टीईआई P5 v2.0.1 जारी किया गया (कई अन्य परिवर्धनों के बीच अनुवांशिक संपादन विशेषताएं टेक्स्ट को उनके विशिष्ट शब्दार्थ के बिना व्याख्या के एन्कोडिंग की अनुमति देती हैं)।
 * 2017 - टीईआई को डिजिटल मानविकी संगठनों के गठबंधन से यूरोपीय_भाषा_संसाधन_एसोसिएशन#एंटोनियो_ज़ामपोली_पुरस्कार से सम्मानित किया गया।

बाहरी संबंध

 * TEI Consortium Web site with a list of TEI projects, a form for adding your project and wiki
 * Journal of the TEI
 * TEI Lite: An Introduction to Text Encoding for Interchange
 * TEI @ Oxford (hosted at Oxford University) with development and backup versions of much of the core content.
 * TEI GitHub site (hosted at GitHub) with repository and issue tracker
 * Larger list of TEI Projects
 * What is the TEI? (Introductory overview by Lou Burnard)