टेक्स्ट फ़ाइल

टेक्स्ट फाइल (कभी-कभी वर्तनी टेक्स्ट फाइल; पुराना वैकल्पिक नाम फ़्लैटफ़ाइल है) एक प्रकार की कंप्यूटर फ़ाइल है जिसे इलेक्ट्रॉनिक पाठ की पंक्ति (टेक्स्ट फाइल) के अनुक्रम के रूप में संरचित किया जाता है। रेखा (टेक्स्ट फाइल) कंप्यूटर फ़ाइल प्रणाली के भीतर आधार सामग्री भंडारण उपस्थित है। सीपी/एम और एमएस-डॉस जैसे ऑपरेटिंग सिस्टम (क्रिया संचालन प्रणाली) में, जहां क्रिया संचालन प्रणाली बाइट्स में फ़ाइल आकार का ट्रैक नहीं रखता है, टेक्स्ट फ़ाइल के अंत को एक या एक से अधिक विशेष वर्ण रखकर दर्शाया जाता है, जिसे एंड-ऑफ के रूप में जाना जाता है। फ़ाइल मार्कर, टेक्स्ट फाइल में अंतिम पंक्ति के बाद पैडिंग के रूप में होता है। माइक्रोसॉफ़्ट विंडोज़ और यूनिक्स जैसे प्रणाली आधुनिक क्रिया संचालन प्रणाली पर, टेक्स्ट फाइलों में कोई विशेष ईओएफ(एन्ड-ऑफ़-फाइल) कैरेक्टर नहीं होता है, क्योंकि उन क्रिया संचालन प्रणाली पर फाइल प्रणाली बाइट्स में फ़ाइल आकार का ट्रैक रखता है। अधिकांश टेक्स्ट फाइल में नई पंक्ति होती है l एंड-ऑफ़-लाइन सीमांकक होना आवश्यक है, जो क्रिया संचालन प्रणाली के आधार पर कुछ अलग तरीकों से किया जाता है। रिकॉर्ड-उन्मुख फ़ाइल प्रणाली के साथ क्रिया संचालन प्रणाली हैl रिकॉर्ड-ओरिएंटेड फाइल  प्रणाली नए रेखा सीमांकक का उपयोग नहीं कर सकते हैं और मुख्य रूप प्लेन टेक्स्ट फाइलों को फिक्स्ड या  परिवर्तनीय लम्बाई अभिलेख (वेरिएबल लेंथ रिकॉर्ड) के रूप में अलग-अलग रेखाओं के साथ इकठ्ठा करेंगे।

टेक्स्ट फाइल एक प्रकार के कंटेनर को संदर्भित करती है, जबकि प्लेन फाइल सामग्री के प्रकार को संदर्भित करता है।

विवरण के सामान्य स्तर पर, दो प्रकार की कंप्यूटर फ़ाइलें होती हैं: टेक्स्ट फाइल और बाइनरी फ़ाइल है।

डेटा संग्रहण
उनकी सरलता के कारण, टेक्स्ट फाइल का उपयोग सामान्य तौर पर सूचना के कंप्यूटर डेटा भंडारण के लिए किया जाता है। वे अन्य फ़ाइल स्वरूपों के साथ आने वाली कुछ समस्याओं से बचते हैं, जैसे एंडियननेस, पैडिंग बाइट्स, या किसी शब्द (कंप्यूटर आर्किटेक्चर) में बाइट्स की संख्या में अंतर होना है। इसके अतिरिक्त, जब किसी टेक्स्ट फाइल में डेटा करप्शन होता है, तो अधिकांशतः इसे पुनर्प्राप्त करना और शेष सामग्री को संसाधित करना जारी रखना आसान होता है। टेक्स्ट फाइल का एक नुकसान यह है कि उनके पास सामान्य तौर पर कम एंट्रॉपी (सूचना सिद्धांत) होता है, जिसका अर्थ है कि जानकारी सख्ती से जरूरी से ज्यादा स्टोरेज करती है।

व्याख्या में पाठक की सहायता के लिए एक साधारण टेक्स्ट फाइल को अतिरिक्त मेटा डेटा (इसके वर्ण समूह के ज्ञान के अतिरिक्त) की आवश्यकता नहीं हो सकती है। टेक्स्ट फाइल में कोई डेटा नहीं हो सकता है, जो कि शून्य-बाइट फ़ाइल का कथन है।

एनकोडिंग
एएससीआईआई अंग्रेजी-भाषा टेक्स्ट फाइल के लिए वर्ण समूह का सबसे सामान्य संगत उपसमुच्चय है, और सामान्य तौर पर कई स्थितियों में डिफ़ॉल्ट फ़ाइल स्वरूप माना जाता है। इसमें अमेरिकी अंग्रेजी सम्मिलित है, परन्तु ब्रिटिश पाउन्ड चिन्ह, यूरो चिह्न, या अंग्रेजी के बाहर उपयोग किए जाने वाले वर्णों के लिए, समृद्ध वर्ण समूह का उपयोग किया जाना चाहिए। कई प्रणालियों में, इसे पढ़ने वाले कंप्यूटर पर डिफ़ॉल्ट लोकेल (कंप्यूटर सॉफ़्टवेयर) सेटिंग के आधार पर चुना जाता है। यूटीएफ-8 से पहले, यह पारंपरिक प्रकार से यूरोपीय भाषाओं के लिए एकल-बाइट एनकोडिंग (जैसे आईएसओ-8859-1 से आईएसओ-8859-16) और एशियाई भाषाओं के लिए विस्तृत वर्ण एनकोडिंग था।

क्योंकि एन्कोडिंग में आवश्यक प्रकार से वर्णों का सीमित प्रदर्शन होता है, अधिकांशतः बहुत छोटा होता है, एक मात्र मानव भाषाओं के सीमित उपसमुच्चय में पाठ का प्रतिनिधित्व करने के लिए उपयोग योग्य होते हैं। यूनिकोड सभी ज्ञात भाषाओं का प्रतिनिधित्व करने के लिए सामान्य मानक बनाने का प्रयास है, और अधिकांश ज्ञात वर्ण समूह बहुत बड़े यूनिकोड वर्ण समूह के उपसमुच्चय हैं। यद्यपि यूनिकोड के लिए कई वर्ण एनकोडिंग उपलब्ध हैं, सबसे सामान्य यूएफटी-8 है, जिसका एएससीआइआइ के साथ पश्च-संगत होने का लाभ है; अर्थात्, प्रत्येक एएससीआइआइ टेक्स्ट फाइल समान अर्थ वाली यूएफटी-8 टेक्स्ट फाइल भी है। यूएफटी-8 का यह भी लाभ है कि यूएफटी-8 फॉलबैक और ऑटो-डिटेक्शन होता हैl यह आसानी से ऑटो-डिटेक्टेबल है। इस प्रकार, यूएफटी-8 सक्षम सॉफ़्टवेयर का सामान्य ऑपरेटिंग मोड, अज्ञात एन्कोडिंग की फ़ाइलें खोलते समय, यूएफटी-8 को पहले परखना है और जब यह निश्चित प्रकार से यूएफटी-8 नहीं है, तो लोकेल आश्रित लीगेसी एन्कोडिंग पर वापस आना है।

प्रारूप
अधिकांश क्रिया संचालन प्रणाली पर नाम टेक्स्ट फ़ाइल फ़ाइल प्रारूप को संदर्भित करती है जो केवल प्लेन फाइल सामग्री को बहुत कम स्वरूपण के साथ अनुमति देती है (उदाहरण के लिए, कोई 'जोर (टाइपोग्राफी)' या इटैलिक प्रकार नहीं)। ऐसी फाइलों को टेक्स्ट टर्मिनलों या साधारण टेक्स्ट एडिटर में देखा और संपादित किया जा सकता है। टेक्स्ट फाइल में सामान्य तौर पर एमआइएमइ प्रकार होता है टेक्स्/फाइल, सामान्य तौर पर एन्कोडिंग इंगित करने वाली अतिरिक्त जानकारी के साथ होता है।

माइक्रोसॉफ्ट विंडोज टेक्स्ट फाइल
एमएस-डीओएस और मइक्रोसॉफ़्ट विंडोज सामान्य टेक्स्ट फाइल स्वरूप का उपयोग करते हैं, टेक्स्ट की प्रत्येक पंक्ति को दो-वर्ण संयोजन द्वारा अलग किया जाता है: कैरिज रिटर्न (सीआर) और रेखा भरण (एलएफ) है। टेक्स्ट की अंतिम पंक्ति को सीआर-एलएफ मार्कर के साथ समाप्त नहीं करना सामान्य बात है, और कई टेक्स्ट संपादक (नोटपैड (विंडोज़) सहित) स्वचालित प्रकार से अंतिम पंक्ति पर सम्मिलित नहीं होते हैं।

मइक्रोसॉफ़्ट विंडोज क्रिया संचालन प्रणाली पर, फ़ाइल को टेक्स्ट फ़ाइल माना जाता है यदि फ़ाइल के नाम का प्रत्यय (फ़ाइल नाम एक्सटेंशन) है. . चूंकि, कई अन्य प्रत्ययों का उपयोग विशिष्ट उद्देश्यों वाली टेक्स्ट फ़ाइलों के लिए किया जाता है। उदाहरण के लिए, कंप्यूटर प्रोग्राम के लिए स्रोत कोड सामान्य तौर पर टेक्स्ट फाइलों में रखा जाता है जिसमें फ़ाइल नाम प्रत्यय होता है जो उस प्रोग्रामिंग भाषा को दर्शाता है जिसमें स्रोत लिखा गया है।

अधिकांश मइक्रोसॉफ़्ट विंडोज टेक्स्ट फाइल एएनएसआइ, ओइएम, यूनिकोड या यूएफटी-8 एन्कोडिंग का उपयोग करती हैं। मइक्रोसॉफ़्ट विंडोज शब्दावली जिसे एएनएसआइ एनकोडिंग कहते है, वह सामान्य तौर पर सिंगल-बाइट आइएसओ /आइइसी 8859 एनकोडिंग होती है (अर्थात माइक्रोसॉफ्ट नोटपैड मेनू में एएनएसआइ वास्तव में प्रणाली कोड पेज है, गैर-यूनिकोड, लीगेसी एन्कोडिंग), चीनी, जापानी और कोरियाई जैसे स्थानों को छोड़कर जिसके लिए डबल-बाइट कैरेक्टर समूह की आवश्यकता होती है। यूनिकोड में संक्रमण से पहले एएनएसआई एनकोडिंग परंपरागत रूप से माइक्रोसॉफ्ट विंडोज के भीतर डिफ़ॉल्ट प्रणाली लोकेल के रूप में उपयोग किया जाता था। इसके विपरीत, ओईएम एनकोडिंग, जिसे डॉस कोड पेज के रूप में भी जाना जाता है, आईबीएम द्वारा मूल आईबीएम पीसी टेक्स्ट मोड डिस्प्ले प्रणाली में उपयोग के लिए परिभाषित किया गया था। वे सामान्य तौर पर डॉस अनुप्रयोगों में ग्राफिकल और लाइन-ड्राइंग वर्ण सम्मिलित  करते हैं। यूनिकोड-एन्कोडेड माइक्रोसॉफ्ट विंडोज टेक्स्ट फाइलों में यूटीएफ-16-16 यूनिकोड ट्रांसफॉर्मेशन फॉर्मेट में टेक्स्ट होता है। ऐसी फाइलें सामान्य तौर पर   बाइट ऑर्डर मार्क (बीओएम) से प्रारम्भ होती हैं, जो फ़ाइल सामग्री की अंतहीनता को संप्रेषित करती हैं। चूंकि यूएफटी-8 एंडियननेस समस्याओं से ग्रस्त नहीं है, कई मइक्रोसॉफ़्ट विंडोज प्रोग्राम (अर्थात नोटपैड) बीओएम के साथ यूएफटी-8-एन्कोडेड फ़ाइलों की सामग्री को आगे बढ़ाते हैं, यूएफटी-8 एन्कोडिंग को अन्य 8-बिट एन्कोडिंग से अलग करने के लिए  करते हैं।

यूनिक्स टेक्स्ट फाइल
यूनिक्स की तरह के क्रिया संचालन प्रणाली पर टेक्स्ट फाइल फॉर्मेट का ठीक-ठीक वर्णन किया गया है: पीओएसआइएक्स टेक्स्ट फाइल को एक फाइल के रूप में परिभाषित करता है जिसमें शून्य या अत्यधिक रेखाओं में व्यवस्थित वर्ण होते हैं, जहाँ रेखाएँ शून्य या अधिक गैर-न्यूलाइन वर्णों के साथ-साथ समाप्ति न्यूलाइन वर्ण के अनुक्रम हैं, सामान्य प्रकार से एल.एफ हैं.

इसके अतिरिक्त, पीओएसआइएक्स को परिभाषित करता है प्रिंटेबल फाइल एक टेक्स्ट फाइल के रूप में जिसके कैरेक्टर प्रादेशिक नियमों के अनुसार प्रिंट करने योग्य या स्पेस या बैकस्पेस हैं। इसमें अधिकांश नियंत्रण वर्ण सम्मिलित नहीं हैं, जो प्रिंट करने योग्य नहीं हैं।

एप्पल मैकिंटोश टेक्स्ट फाइल
एमएसीओएस के आने से पूर्व, क्लासिक एमएसीओएस प्रणाली ने फ़ाइल की सामग्री (डेटा फोर्क) को टेक्स्ट फ़ाइल माना जब इसके संसाधन फोर्क ने संकेत दिया कि फ़ाइल का प्रकार टेक्स्ट था। क्लासिक मैक ओएस टेक्स्ट फाइलों की पंक्तियों को कैरिज रिटर्न वर्णों के साथ समाप्त किया गया है।

यूनिक्स जैसी प्रणाली होने के कारण, एमएसीओएस टेक्स्ट फ़ाइलों के लिए यूनिक्स प्रारूप का उपयोग करता है। एमएसीओएस में टेक्स्ट फ़ाइलों के लिए उपयोग किया जाने वाला वर्दी प्रकार पहचानकर्ता (यूटीआइ) पब्लिक प्लेन-टेक्स्ट है; इसके अतिरिक्त, अत्यधिक विशिष्ट यूटीआई हैं: यूएफटी-8-एन्कोडेड टेक्स्ट के लिए पब्लिक.यूएफटी8-प्लेन-टेक्स्ट, यूएफटी-16-एन्कोडेड टेक्स्ट के लिए पब्लिक.यूएफटी16- एक्सटर्नल-प्लेन-टेक्स्ट और पब्लिक.यूएफटी16-प्लेन-टेक्स्ट और कॉम.एप्पल क्लासिक मैक ओएस टेक्स्ट फाइल के लिए .ट्रेडीसिनल-मैक-प्लेन-टेक्स्ट है।

प्रतिपादन
टेक्स्ट संपादक द्वारा खोले जाने पर, मानव-पठनीय सामग्री उपयोगकर्ता को प्रस्तुत की जाती है। इसमें अधिकांशतः फ़ाइल का प्लेन फाइल होता है जो उपयोगकर्ता को दिखाई देता है। आवेदन के आधार पर, नियंत्रण कोड या तो संपादक द्वारा क्रियान्वित शाब्दिक निर्देशों के रूप में, या दृश्य बचने वाले कैरेक्टर के रूप में प्रस्तुत किए जा सकते हैं जिन्हें प्लेन टेक्स्ट के रूप में संपादित किया जा सकता है। यद्यपि टेक्स्ट फाइल में प्लेन फाइल हो सकता है, फ़ाइल के भीतर नियंत्रण वर्ण (विशेष प्रकार से अंत-फ़ाइल वर्ण) विशेष विधि द्वारा प्लेन टेक्स्ट को अनदेखा कर सकते हैं।

यह भी देखें

 * एएससीआईआई
 * इबीसीडीआइसी
 * फ़ाइल नाम एक्सटेंशन
 * फ़ाइल स्वरूपों की सूची
 * नई पंक्ति
 * वाक्य-विन्यास पर प्रकाश डालना
 * पाठ संपादक
 * यूनिकोड

बाहरी संबंध

 * C2: the Power of Plain Text