टेक्स्ट फ़ाइल

एक पाठ फ़ाइल (कभी-कभी वर्तनी पाठ फ़ाइल; एक पुराना वैकल्पिक नाम फ़्लैटफ़ाइल है) एक प्रकार की कंप्यूटर फ़ाइल है जिसे इलेक्ट्रॉनिक पाठ की पंक्ति (पाठ फ़ाइल) के अनुक्रम के रूप में संरचित किया जाता है। रेखा (पाठ फ़ाइल) कंप्यूटर फ़ाइल सिस्टम के भीतर आधार सामग्री भंडारण मौजूद है। सीपी/एम और एमएस-डॉस जैसे ऑपरेटिंग सिस्टम में, जहां ऑपरेटिंग सिस्टम बाइट्स में फ़ाइल आकार का ट्रैक नहीं रखता है, टेक्स्ट फ़ाइल के अंत को एक या एक से अधिक विशेष वर्ण रखकर दर्शाया जाता है, जिसे एंड-ऑफ के रूप में जाना जाता है। -फ़ाइल मार्कर, पाठ फ़ाइल में अंतिम पंक्ति के बाद पैडिंग के रूप में। माइक्रोसॉफ़्ट विंडोज़ और यूनिक्स जैसे सिस्टम जैसे आधुनिक ऑपरेटिंग सिस्टम पर, टेक्स्ट फाइलों में कोई विशेष ईओएफ कैरेक्टर नहीं होता है, क्योंकि उन ऑपरेटिंग सिस्टम पर फाइल सिस्टम बाइट्स में फ़ाइल आकार का ट्रैक रखता है। अधिकांश पाठ फ़ाइलों में नई पंक्ति | एंड-ऑफ़-लाइन परिसीमक होना आवश्यक है, जो ऑपरेटिंग सिस्टम के आधार पर कुछ अलग तरीकों से किया जाता है। रिकॉर्ड-उन्मुख फ़ाइल सिस्टम सिस्टम के साथ कुछ ऑपरेटिंग सिस्टम | रिकॉर्ड-ओरिएंटेड फाइल सिस्टम नए लाइन डिलिमिटर्स का उपयोग नहीं कर सकते हैं और मुख्य रूप सादे पाठ फाइलों को फिक्स्ड या वेरिएबल लेंथ रिकॉर्ड के रूप में अलग-अलग लाइनों के साथ स्टोर करेंगे।

पाठ फ़ाइल एक प्रकार के कंटेनर को संदर्भित करती है, जबकि सादा पाठ सामग्री के प्रकार को संदर्भित करता है।

विवरण के एक सामान्य स्तर पर, दो प्रकार की कंप्यूटर फ़ाइलें होती हैं: पाठ फ़ाइलें और बाइनरी फ़ाइलें।

डेटा संग्रहण
उनकी सरलता के कारण, पाठ फ़ाइलों का उपयोग आमतौर पर सूचना के कंप्यूटर डेटा भंडारण के लिए किया जाता है। वे अन्य फ़ाइल स्वरूपों के साथ आने वाली कुछ समस्याओं से बचते हैं, जैसे endianness, पैडिंग बाइट्स, या किसी वर्ड (कंप्यूटर आर्किटेक्चर) में बाइट्स की संख्या में अंतर। इसके अलावा, जब किसी पाठ फ़ाइल में डेटा भ्रष्टाचार होता है, तो अक्सर इसे पुनर्प्राप्त करना और शेष सामग्री को संसाधित करना जारी रखना आसान होता है। पाठ फ़ाइलों का एक नुकसान यह है कि उनके पास आमतौर पर कम एंट्रॉपी (सूचना सिद्धांत) होता है, जिसका अर्थ है कि जानकारी सख्ती से जरूरी से ज्यादा भंडारण करती है।

व्याख्या में पाठक की सहायता के लिए एक साधारण पाठ फ़ाइल को अतिरिक्त मेटा डेटा (इसके वर्ण सेट के ज्ञान के अलावा) की आवश्यकता नहीं हो सकती है। एक पाठ फ़ाइल में कोई डेटा नहीं हो सकता है, जो कि शून्य-बाइट फ़ाइल का मामला है।

एनकोडिंग
एएससीआईआई अंग्रेजी-भाषा पाठ फ़ाइलों के लिए वर्ण सेट का सबसे आम संगत उपसमुच्चय है, और आमतौर पर कई स्थितियों में डिफ़ॉल्ट फ़ाइल स्वरूप माना जाता है। इसमें अमेरिकी अंग्रेजी शामिल है, लेकिन ब्रिटिश पाउन्ड चिन्ह, यूरो चिह्न, या अंग्रेजी के बाहर उपयोग किए जाने वाले वर्णों के लिए, एक समृद्ध वर्ण सेट का उपयोग किया जाना चाहिए। कई प्रणालियों में, इसे पढ़ने वाले कंप्यूटर पर डिफ़ॉल्ट लोकेल (कंप्यूटर सॉफ़्टवेयर) सेटिंग के आधार पर चुना जाता है। UTF-8 से पहले, यह पारंपरिक रूप से यूरोपीय भाषाओं के लिए एकल-बाइट एनकोडिंग (जैसे ISO-8859-1 से ISO-8859-16) और एशियाई भाषाओं के लिए विस्तृत वर्ण एनकोडिंग था।

क्योंकि एन्कोडिंग में आवश्यक रूप से वर्णों का केवल एक सीमित प्रदर्शन होता है, अक्सर बहुत छोटा होता है, कई केवल मानव भाषाओं के सीमित उपसमुच्चय में पाठ का प्रतिनिधित्व करने के लिए उपयोग योग्य होते हैं। यूनिकोड सभी ज्ञात भाषाओं का प्रतिनिधित्व करने के लिए एक सामान्य मानक बनाने का एक प्रयास है, और अधिकांश ज्ञात वर्ण सेट बहुत बड़े यूनिकोड वर्ण सेट के सबसेट हैं। यद्यपि यूनिकोड के लिए कई वर्ण एनकोडिंग उपलब्ध हैं, सबसे आम UTF-8 है, जिसका ASCII के साथ पश्च-संगत होने का लाभ है; अर्थात्, प्रत्येक ASCII पाठ फ़ाइल समान अर्थ वाली UTF-8 पाठ फ़ाइल भी है। UTF-8 का यह भी फायदा है कि UTF-8#फॉलबैक और ऑटो-डिटेक्शन | यह आसानी से ऑटो-डिटेक्टेबल है। इस प्रकार, UTF-8 सक्षम सॉफ़्टवेयर का एक सामान्य ऑपरेटिंग मोड, अज्ञात एन्कोडिंग की फ़ाइलें खोलते समय, UTF-8 को पहले आज़माना है और जब यह निश्चित रूप से UTF-8 नहीं है, तो लोकेल आश्रित लीगेसी एन्कोडिंग पर वापस आना है।

प्रारूप
अधिकांश ऑपरेटिंग सिस्टम पर नाम टेक्स्ट फ़ाइल फ़ाइल प्रारूप को संदर्भित करती है जो केवल सादा पाठ सामग्री को बहुत कम स्वरूपण के साथ अनुमति देती है (उदाहरण के लिए, कोई 'जोर (टाइपोग्राफी)' या इटैलिक प्रकार प्रकार नहीं)। ऐसी फाइलों को पाठ टर्मिनलों या साधारण पाठ संपादक्स में देखा और संपादित किया जा सकता है। पाठ फ़ाइलों में आमतौर पर MIME प्रकार होता है, आमतौर पर एक एन्कोडिंग इंगित करने वाली अतिरिक्त जानकारी के साथ।

माइक्रोसॉफ्ट विंडोज पाठ फ़ाइलें
MS-DOS और Microsoft Windows एक सामान्य पाठ फ़ाइल स्वरूप का उपयोग करते हैं, पाठ की प्रत्येक पंक्ति को दो-वर्ण संयोजन द्वारा अलग किया जाता है: कैरिज रिटर्न (CR) और रेखा भरण (LF)। पाठ की अंतिम पंक्ति को सीआर-एलएफ मार्कर के साथ समाप्त नहीं करना आम बात है, और कई पाठ संपादक (नोटपैड (विंडोज़) सहित) स्वचालित रूप से अंतिम पंक्ति पर सम्मिलित नहीं होते हैं।

Microsoft Windows ऑपरेटिंग सिस्टम पर, फ़ाइल को टेक्स्ट फ़ाइल माना जाता है यदि फ़ाइल के नाम का प्रत्यय (फ़ाइल नाम एक्सटेंशन) है. हालाँकि, कई अन्य प्रत्ययों का उपयोग विशिष्ट उद्देश्यों वाली टेक्स्ट फ़ाइलों के लिए किया जाता है। उदाहरण के लिए, कंप्यूटर प्रोग्राम के लिए स्रोत कोड आमतौर पर पाठ फ़ाइलों में रखा जाता है जिसमें फ़ाइल नाम प्रत्यय होता है जो उस प्रोग्रामिंग भाषा को दर्शाता है जिसमें स्रोत लिखा गया है।

अधिकांश Microsoft Windows पाठ फ़ाइलें ANSI, OEM , यूनिकोड या UTF-8 एन्कोडिंग का उपयोग करती हैं। Microsoft Windows शब्दावली जिसे ANSI एनकोडिंग कहती है, वह आमतौर पर सिंगल-बाइट ISO/IEC 8859 एनकोडिंग होती है (अर्थात Microsoft नोटपैड मेनू में ANSI वास्तव में सिस्टम कोड पेज है, गैर-यूनिकोड, लीगेसी एन्कोडिंग), चीनी, जापानी और कोरियाई जैसे स्थानों को छोड़कर जिसके लिए डबल-बाइट कैरेक्टर सेट की आवश्यकता होती है। यूनिकोड में संक्रमण से पहले एएनएसआई एनकोडिंग परंपरागत रूप से माइक्रोसॉफ्ट विंडोज के भीतर डिफ़ॉल्ट सिस्टम लोकेल के रूप में उपयोग किया जाता था। इसके विपरीत, ओईएम एनकोडिंग, जिसे डॉस कोड पेज के रूप में भी जाना जाता है, आईबीएम द्वारा मूल आईबीएम पीसी टेक्स्ट मोड डिस्प्ले सिस्टम में उपयोग के लिए परिभाषित किया गया था। वे आम तौर पर डॉस अनुप्रयोगों में ग्राफिकल और लाइन-ड्राइंग वर्ण शामिल करते हैं। यूनिकोड-एन्कोडेड माइक्रोसॉफ्ट विंडोज टेक्स्ट फाइलों में यूटीएफ-16 -16 यूनिकोड ट्रांसफॉर्मेशन फॉर्मेट में टेक्स्ट होता है। ऐसी फाइलें आमतौर पर बाइट ऑर्डर मार्क (बीओएम) से शुरू होती हैं, जो फ़ाइल सामग्री की अंतहीनता को संप्रेषित करती हैं। हालांकि UTF-8 एंडियननेस समस्याओं से ग्रस्त नहीं है, कई Microsoft Windows प्रोग्राम (यानी नोटपैड) BOM के साथ UTF-8-एन्कोडेड फ़ाइलों की सामग्री को आगे बढ़ाते हैं, UTF-8 एन्कोडिंग को अन्य 8-बिट एन्कोडिंग से अलग करने के लिए।

यूनिक्स पाठ फ़ाइलें
यूनिक्स की तरह के ऑपरेटिंग सिस्टम पर टेक्स्ट फाइल फॉर्मेट का ठीक-ठीक वर्णन किया गया है: POSIX एक टेक्स्ट फाइल को एक फाइल के रूप में परिभाषित करता है जिसमें शून्य या अधिक लाइनों में व्यवस्थित वर्ण होते हैं, जहाँ रेखाएँ शून्य या अधिक गैर-न्यूलाइन वर्णों के साथ-साथ एक समाप्ति न्यूलाइन वर्ण के अनुक्रम हैं, सामान्य रूप से एल.एफ.

इसके अतिरिक्त, POSIX a को परिभाषित करता हैprintable fileएक पाठ फ़ाइल के रूप में जिसके पात्र क्षेत्रीय नियमों के अनुसार प्रिंट करने योग्य या स्पेस या बैकस्पेस हैं। इसमें अधिकांश नियंत्रण वर्ण शामिल नहीं हैं, जो प्रिंट करने योग्य नहीं हैं।

Apple Macintosh पाठ फ़ाइलें
MacOS के आगमन से पहले, क्लासिक Mac OS सिस्टम ने फ़ाइल की सामग्री (डेटा फोर्क) को एक टेक्स्ट फ़ाइल माना जब इसके संसाधन फोर्क ने संकेत दिया कि फ़ाइल का प्रकार TEXT था। क्लासिक मैक ओएस पाठ फ़ाइलों की पंक्तियों को कैरिज रिटर्न वर्णों के साथ समाप्त किया गया है। यूनिक्स जैसी प्रणाली होने के कारण, macOS टेक्स्ट फ़ाइलों के लिए यूनिक्स प्रारूप का उपयोग करता है। MacOS में टेक्स्ट फ़ाइलों के लिए उपयोग किया जाने वाला वर्दी प्रकार पहचानकर्ता (UTI) public.plain-text है; अतिरिक्त, अधिक विशिष्ट यूटीआई हैं: utf-8-एन्कोडेड टेक्स्ट के लिए public.utf8-plain-text, utf-16-एन्कोडेड टेक्स्ट के लिए public.utf16-external-plain-text और public.utf16-plain-text और com.apple क्लासिक मैक ओएस पाठ फ़ाइलों के लिए .traditional-mac-plain-text।

प्रतिपादन
पाठ संपादक द्वारा खोले जाने पर, मानव-पठनीय सामग्री उपयोगकर्ता को प्रस्तुत की जाती है। इसमें अक्सर फ़ाइल का सादा पाठ होता है जो उपयोगकर्ता को दिखाई देता है। आवेदन के आधार पर, नियंत्रण कोड या तो संपादक द्वारा क्रियान्वित शाब्दिक निर्देशों के रूप में, या दृश्य बचने वाले पात्रों के रूप में प्रस्तुत किए जा सकते हैं जिन्हें सादे पाठ के रूप में संपादित किया जा सकता है। यद्यपि पाठ फ़ाइल में सादा पाठ हो सकता है, फ़ाइल के भीतर नियंत्रण वर्ण (विशेष रूप से अंत-फ़ाइल वर्ण) एक विशेष विधि द्वारा सादे पाठ को अनदेखा कर सकते हैं।

यह भी देखें

 * एएससीआईआई
 * EBCDIC
 * फ़ाइल नाम एक्सटेंशन
 * फ़ाइल स्वरूपों की सूची
 * नई पंक्ति
 * वाक्य - विन्यास पर प्रकाश डालना
 * पाठ संपादक
 * यूनिकोड

बाहरी संबंध

 * C2: the Power of Plain Text