दस्तावेज़ प्रसंस्करण

दस्तावेज़ प्रसंस्करण अनुसंधान का क्षेत्र है और उत्पादन प्रक्रियाओं का समूह है जिसका उद्देश्य एनालॉग दस्तावेज़ को डिजिटल बनाना है। दस्तावेज़ प्रसंस्करण का उद्देश्य केवल डिजिटल छवि प्राप्त करने के लिए दस्तावेज़ की तस्वीर लेना या छवि स्कैन करना नहीं है, किंतु इसे डिजिटल रूप से समझने योग्य बनाना भी है। इस प्रकार इसमें दस्तावेज़ की संरचना निकालना या दस्तावेज़ लेआउट विश्लेषण और फिर सामग्री को निकालना सम्मिलित है, जो पाठ या छवियों का रूप ले सकता है। इस प्रक्रिया में पारंपरिक कंप्यूटर दृष्टि एल्गोरिदम, कन्वेन्शनल न्यूरल नेटवर्क या मैन्युअल श्रम सम्मिलित हो सकता है। इस प्रकार संबोधित की गई समस्याएं सिमेंटिक सेगमेंटेशन, ऑब्जेक्ट डिटेक्शन, ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर), हस्तलिखित टेक्स्ट रिकग्निशन (एचटीआर) और, अधिक व्यापक रूप से, ट्रांसक्रिप्शन, चाहे स्वचालित हो या नहीं, से संबंधित हैं। इस शब्द में स्कैनर का उपयोग करके दस्तावेज़ को डिजिटाइज़ करने का चरण और दस्तावेज़ की व्याख्या करने का चरण भी सम्मिलित हो सकता है, उदाहरण के लिए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) या छवि वर्गीकरण प्रौद्योगिकियों का उपयोग करना। इसे प्रशासनिक प्रक्रियाओं, मेल प्रसंस्करण और एनालॉग संग्रह और ऐतिहासिक दस्तावेजों के डिजिटलीकरण के अनुकूलन के लिए अनेक औद्योगिक और वैज्ञानिक क्षेत्रों में प्रयुक्त किया जाता है।

पृष्ठभूमि
दस्तावेज़ प्रसंस्करण प्रारंभ में था, जैसा कि अभी भी कुछ सीमा तक प्रकार का उत्पादन लाइन कार्य है जो डेटा को सॉर्ट करने, निकालने या बड़े पैमाने पर निकालने के उद्देश्य से पत्रों और पार्सल जैसे दस्तावेज़ों के उपचार से संबंधित है। यह कार्य इन-हाउस या व्यापार प्रक्रिया बाहरी स्रोत से सेवाएँ प्राप्त करना के माध्यम से किया जा सकता है। इस प्रकार दस्तावेज़ प्रसंस्करण में वास्तव में कुछ प्रकार के बाहरी मैनुअल श्रम सम्मिलित हो सकते हैं, जैसे अमेज़ॅन मैकेनिकल तुर्क।

मैन्युअल दस्तावेज़ प्रसंस्करण के उदाहरण के रूप में, अपेक्षाकृत हाल ही में सत्र 2007 में, "लाखों वीज़ा और नागरिकता आवेदनों" के लिए दस्तावेज़ प्रसंस्करण में "मेल रूम और डेटा प्रविष्टि लिपिक के प्रबंधन" के लिए काम करने वाले "लगभग 1,000 अनुबंध श्रमिकों" के उपयोग के बारे में सम्मिलित था।

जबकि दस्तावेज़ प्रसंस्करण में कम्प्यूटर माउस या छवि स्कैनर के उपयोग से पहले कीबोर्ड के माध्यम से डेटा प्रविष्टि सम्मिलित थी, 1990 दी न्यू यौर्क टाइम्स के लेख में इसे "पेपरलेस कार्यालय" कहा गया था कि "दस्तावेज़ प्रसंस्करण स्कैनर से शुरू होता है"। इस संदर्भ में, ज़ेरॉक्स के पूर्व उपाध्यक्ष, पॉल स्ट्रैसमैन ने आलोचनात्मक राय व्यक्त करते हुए कहा कि कंप्यूटर किसी कार्यालय में कागज की मात्रा को कम करने के अतिरिक्त बढ़ाता है। ऐसा कहा जाता था कि हवाई जहाज के इंजीनियरिंग और रखरखाव दस्तावेजों का वजन "हवाई जहाज से भी अधिक" होता है.

स्वचालित दस्तावेज़ प्रसंस्करण
जैसे-जैसे कला की स्थिति उन्नत हुई, दस्तावेज़ प्रसंस्करण "दस्तावेज़ घटकों... डेटाबेस संस्थाओं के रूप में" को संभालने के लिए परिवर्तित हो गया

स्वचालित दस्तावेज़ प्रसंस्करण या कभी-कभी बुद्धिमान दस्तावेज़ प्रसंस्करण (आईडी) नामक विधि प्रक्रिया स्वचालन (आईपीए) के विशिष्ट रूप के रूप में उभरी है, जो अनेक प्रकार के दस्तावेज़ों से डेटा निकालने के लिए मशीन लर्निंग (एमएल), प्राकृतिक भाषा प्रसंस्करण (एनएलपी) या इंटेलिजेंट कैरेक्टर रिकग्निशन (आईसीई) जैसी कृत्रिम बुद्धिमत्ता का संयोजन करती है।

अनुप्रयोग
स्वचालित दस्तावेज़ प्रसंस्करण दस्तावेज़ों की पूरी श्रृंखला पर प्रयुक्त होता है, चाहे वह संरचित हो या नहीं। उदाहरण के लिए, व्यवसाय और वित्त की विश्व में, प्रौद्योगिकियों का उपयोग कागज-आधारित चालान, फॉर्म, खरीद आदेश, अनुबंध और मुद्रा बिल को संसाधित करने के लिए किया जा सकता है। वित्तीय संस्थान विनियामक प्रपत्रों या ऋण दस्तावेजों जैसे बड़ी मात्रा में प्रपत्रों को संसाधित करने के लिए बुद्धिमान दस्तावेज़ प्रसंस्करण का उपयोग करते हैं। इस प्रकार आईडी दस्तावेजों से डेटा निकालने और वर्गीकृत करने के लिए मैन्युअल डेटा प्रविष्टि के स्थान एआई का उपयोग करता है।

चिकित्सा में, विशेष रूप से चिकित्सा या प्रयोगशाला विश्लेषण सूचीयों को डिजिटाइज़ करके, रोगी अनुवर्ती कार्रवाई को सुविधाजनक बनाने और प्रशासनिक प्रक्रियाओं को सुव्यवस्थित करने के लिए दस्तावेज़ प्रसंस्करण विधियों को विकसित किया गया है। इस प्रकार लक्ष्य मेडिकल डेटाबेस को मानकीकृत करना भी है। चिकित्सा निदान में चिकित्सकों की सहायता के लिए एल्गोरिदम का भी सीधे उपयोग किया जाता है, उदाहरण के लिए चुंबकीय अनुनाद इमेजिंग का विश्लेषण करके, या माइक्रोस्कोप छवियाँ हैं।

अभिलेखागार या विरासत संग्रह से ऐतिहासिक बड़े डेटा को निकालने के लिए दस्तावेज़ प्रसंस्करण का व्यापक रूप से मानविकी और डिजिटल मानविकी में भी उपयोग किया जाता है। इस प्रकार विभिन्न स्रोतों के लिए विशिष्ट दृष्टिकोण विकसित किए गए, जिनमें पाठ्य दस्तावेज़, जैसे समाचार पत्र अभिलेखागार, किन्तु छवियाँ भी, या मानचित्र भी सम्मिलित हैं।

प्रौद्योगिकियों
यदि, सत्र 1980 के दशक के पश्चात् से, दस्तावेज़ प्रसंस्करण समस्याओं को हल करने के लिए पारंपरिक कंप्यूटर विज़न एल्गोरिदम का व्यापक रूप से उपयोग किया जाने लगा था, इस प्रकार इन्हें सत्र 2010 के दशक में धीरे-धीरे तंत्रिका नेटवर्क प्रौद्योगिकियों द्वारा प्रतिस्थापित किया गया है। चूँकि, पारंपरिक कंप्यूटर विज़न विधियों का उपयोग अभी भी कुछ क्षेत्रों में, कभी-कभी तंत्रिका नेटवर्क के संयोजन में किया जाता है।

अनेक प्रौद्योगिकियां दस्तावेज़ प्रसंस्करण के विकास का समर्थन करती हैं, विशेष रूप से ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर), और हस्तलिखित टेक्स्ट रिकग्निशन (एचटीआर), जो टेक्स्ट को स्वचालित रूप से ट्रांसक्रिप्ट करने की अनुमति देती हैं। इस प्रकार टेक्स्ट सेगमेंट को उदाहरण या ऑब्जेक्ट डिटेक्शन एल्गोरिदम का उपयोग करके पहचाना जाता है, जिसका उपयोग कभी-कभी दस्तावेज़ की संरचना का पता लगाने के लिए भी किया जा सकता है। पश्चात् की समस्या का समाधान कभी-कभी सिमेंटिक विभाजन एल्गोरिदम का भी उपयोग करता है।

यह प्रौद्योगिकियाँ अधिकांशतः दस्तावेज़ प्रसंस्करण का मूल बनती हैं। चूँकि, अन्य एल्गोरिदम इन प्रक्रियाओं से पहले या पश्चात् में हस्तक्षेप कर सकते हैं। मुख्य रूप से, दस्तावेज़ डिजिटलीकरण प्रौद्योगिकियां भी सम्मिलित हैं, चाहे वह मौलिक या त्रि-आयामी स्कैनिंग के रूप में हो। इस प्रकार 3डी दस्तावेजों का डिजिटलीकरण विशेष रूप से फोटोग्रामेट्री के डेरिवेटिव का सहारा ले सकता है। कभी-कभी, दस्तावेज़ों के आकार के अनुकूल या स्कैनिंग एर्गोनॉमिक्स के कारणों से विशिष्ट 2डी स्कैनर भी विकसित किए जाने चाहिए। दस्तावेज़ प्रसंस्करण उपयुक्त फ़ाइल प्रारूप में दस्तावेज़ों की डिजिटल एन्कोडिंग पर भी निर्भर करता है। इसके अतिरिक्त, विषम डेटाबेस का प्रसंस्करण छवि वर्गीकरण प्रौद्योगिकियों पर भरोसा कर सकता है।

श्रृंखला के दूसरे छोर पर विभिन्न छवि पूर्णता, एक्सट्रपलेशन या डेटा क्लीनअप एल्गोरिदम हैं। इस प्रकार पाठ्य दस्तावेजों के लिए, व्याख्या प्राकृतिक भाषा प्रसंस्करण (एनएलपी) प्रौद्योगिकियों का उपयोग कर सकती है।

यह भी देखें

 * दस्तावेज़ स्वचालन
 * दस्तावेज़ मॉडलिंग
 * डाटा प्रासेसिंग
 * दस्तावेज़ इमेजिंग
 * डुप्लेक्स स्कैनिंग
 * टेक्स्ट खनन
 * कार्यप्रवाह