दस्तावेज़ प्रसंस्करण

दस्तावेज़ प्रसंस्करण अनुसंधान का क्षेत्र है और उत्पादन प्रक्रियाओं का समूह है जिसका उद्देश्य एनालॉग दस्तावेज़ को डिजिटल बनाना है। दस्तावेज़ प्रसंस्करण का उद्देश्य केवल डिजिटल छवि प्राप्त करने के लिए दस्तावेज़ की तस्वीर लेना या छवि स्कैन करना नहीं है, किंतु इसे डिजिटल रूप से समझने योग्य बनाना भी है। इसमें दस्तावेज़ की संरचना निकालना या दस्तावेज़ लेआउट विश्लेषण और फिर सामग्री सम्मिलित है, जो पाठ या छवियों का रूप ले सकती है। इस प्रक्रिया में पारंपरिक कंप्यूटर दृष्टि एल्गोरिदम, कन्वेन्शनल न्यूरल नेटवर्क या मैन्युअल श्रम सम्मिलित हो सकता है। संबोधित समस्याएं शब्दार्थ विभाजन, वस्तु का पता लगाना, ऑप्टिकल कैरेक्टर मान्यता|ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर), हस्तलिखित टेक्स्ट रिकग्निशन|हस्तलिखित टेक्स्ट रिकग्निशन (एचटीआर) और अधिक मोटे तौर पर ट्रांसक्रिप्शन (भाषाविज्ञान), चाहे स्वचालन हो या नहीं, से संबंधित हैं। इस शब्द में स्कैनर का उपयोग करके दस्तावेज़ को डिजिटाइज़ करने का चरण और दस्तावेज़ की व्याख्या करने का चरण भी सम्मिलित हो सकता है, उदाहरण के लिए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) या छवि वर्गीकरण प्रौद्योगिकियों का उपयोग करना। इसे प्रशासनिक प्रक्रियाओं, मेल प्रसंस्करण और एनालॉग संग्रह और ऐतिहासिक दस्तावेजों के डिजिटलीकरण के अनुकूलन के लिए अनेक औद्योगिक और वैज्ञानिक क्षेत्रों में प्रयुक्त किया जाता है।

पृष्ठभूमि
दस्तावेज़ प्रसंस्करण प्रारंभ में था, जैसा कि अभी भी कुछ सीमा तक प्रकार का उत्पादन लाइन कार्य है जो डेटा को सॉर्ट करने, निकालने या बड़े पैमाने पर निकालने के उद्देश्य से पत्रों और पार्सल जैसे दस्तावेज़ों के उपचार से संबंधित है। यह कार्य इन-हाउस या व्यापार प्रक्रिया बाहरी स्रोत से सेवाएँ प्राप्त करना के माध्यम से किया जा सकता है। दस्तावेज़ प्रसंस्करण में वास्तव में कुछ प्रकार के बाहरी मैनुअल श्रम सम्मिलित हो सकते हैं, जैसे अमेज़ॅन मैकेनिकल तुर्क।

मैन्युअल दस्तावेज़ प्रसंस्करण के उदाहरण के रूप में, अपेक्षाकृत हाल ही में 2007 में, लाखों वीज़ा और नागरिकता आवेदनों के लिए दस्तावेज़ प्रसंस्करण में मेल रूम और डेटा प्रविष्टि लिपिक के प्रबंधन के लिए काम करने वाले लगभग 1,000 अनुबंध श्रमिकों का उपयोग सम्मिलित था।

जबकि दस्तावेज़ प्रसंस्करण में कम्प्यूटर का माउस या छवि स्कैनर के उपयोग से पहले कीबोर्ड के माध्यम से डेटा प्रविष्टि सम्मिलित थी, 1990 दी न्यू यौर्क टाइम्स के लेख में इसे पेपरलेस कार्यालय कहा जाता था, जिसमें कहा गया था कि दस्तावेज़ प्रसंस्करण स्कैनर से प्रारंभ होता है। इस संदर्भ में, ज़ीरक्सा के पूर्व उपाध्यक्ष, पॉल स्ट्रैसमैन ने आलोचनात्मक राय व्यक्त करते हुए कहा कि कंप्यूटर किसी कार्यालय में कागज की मात्रा को कम करने के अतिरिक्त बढ़ाता है। ऐसा कहा जाता था कि हवाई जहाज के इंजीनियरिंग और रखरखाव दस्तावेजों का वजन हवाई जहाज से भी अधिक होता है.

स्वचालित दस्तावेज़ प्रसंस्करण
जैसे-जैसे कला की स्थिति उन्नत हुई, दस्तावेज़ प्रसंस्करण दस्तावेज़ घटकों को संभालने के लिए परिवर्तित हो गया... डेटाबेस संस्थाओं के रूप में। स्वचालित दस्तावेज़ प्रसंस्करण या कभी-कभी बुद्धिमान दस्तावेज़ प्रसंस्करण (आईडी) नामक विधि प्रक्रिया स्वचालन (आईपीए) के विशिष्ट रूप के रूप में उभरी, जिसमें यंत्र अधिगम (एमएल), प्राकृतिक भाषा प्रसंस्करण (एनएलपी) या बुद्धिमान चरित्र पहचान (आईसीई) जैसी कृत्रिम बुद्धिमत्ता का संयोजन किया गया। अनेक प्रकार के दस्तावेज़ों से डेटा निकालने के लिए।

अनुप्रयोग
स्वचालित दस्तावेज़ प्रसंस्करण दस्तावेज़ों की पूरी श्रृंखला पर प्रयुक्त होता है, चाहे वह संरचित हो या नहीं। उदाहरण के लिए, व्यवसाय और वित्त की विश्व में, प्रौद्योगिकियों का उपयोग कागज-आधारित चालान, फॉर्म, खरीद आदेश, अनुबंध और मुद्रा बिल को संसाधित करने के लिए किया जा सकता है। वित्तीय संस्थान विनियामक प्रपत्रों या ऋण दस्तावेजों जैसे बड़ी मात्रा में प्रपत्रों को संसाधित करने के लिए बुद्धिमान दस्तावेज़ प्रसंस्करण का उपयोग करते हैं। आईडी दस्तावेजों से डेटा निकालने और वर्गीकृत करने के लिए मैन्युअल डेटा प्रविष्टि की स्थान एआई का उपयोग करता है।

चिकित्सा में, विशेष रूप से चिकित्सा या प्रयोगशाला विश्लेषण सूचीों को डिजिटाइज़ करके, रोगी अनुवर्ती कार्रवाई को सुविधाजनक बनाने और प्रशासनिक प्रक्रियाओं को सुव्यवस्थित करने के लिए दस्तावेज़ प्रसंस्करण विधियों को विकसित किया गया है। लक्ष्य मेडिकल डेटाबेस को मानकीकृत करना भी है। चिकित्सा निदान में चिकित्सकों की सहायता के लिए एल्गोरिदम का भी सीधे उपयोग किया जाता है, उदाहरण के लिए चुंबकीय अनुनाद इमेजिंग का विश्लेषण करके, या माइक्रोस्कोप छवियाँ।

अभिलेखागार या विरासत संग्रह से ऐतिहासिक बड़े डेटा को निकालने के लिए दस्तावेज़ प्रसंस्करण का व्यापक रूप से मानविकी और डिजिटल मानविकी में भी उपयोग किया जाता है। विभिन्न स्रोतों के लिए विशिष्ट दृष्टिकोण विकसित किए गए, जिनमें पाठ्य दस्तावेज़, जैसे समाचार पत्र अभिलेखागार, किन्तु छवियाँ भी, या मानचित्र। रेफरी>

प्रौद्योगिकी
यदि, 1980 के दशक के पश्चात् से, दस्तावेज़ प्रसंस्करण समस्याओं को हल करने के लिए पारंपरिक कंप्यूटर विज़न एल्गोरिदम का व्यापक रूप से उपयोग किया जाने लगा, इन्हें 2010 के दशक में धीरे-धीरे तंत्रिका नेटवर्क प्रौद्योगिकियों द्वारा प्रतिस्थापित किया गया है। चूँकि, पारंपरिक कंप्यूटर विज़न विधि ों का उपयोग अभी भी कुछ क्षेत्रों में, कभी-कभी तंत्रिका नेटवर्क के संयोजन में किया जाता है।

अनेक प्रौद्योगिकियां दस्तावेज़ प्रसंस्करण के विकास का समर्थन करती हैं, विशेष रूप से ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर), और हस्तलिखित टेक्स्ट रिकग्निशन (एचटीआर), जो टेक्स्ट को स्वचालित रूप से ट्रांसक्रिप्ट करने की अनुमति देती हैं। टेक्स्ट सेगमेंट को उदाहरण या ऑब्जेक्ट डिटेक्शन एल्गोरिदम का उपयोग करके पहचाना जाता है, जिसका उपयोग कभी-कभी दस्तावेज़ की संरचना का पता लगाने के लिए भी किया जा सकता है। पश्चात् की समस्या का समाधान कभी-कभी सिमेंटिक विभाजन एल्गोरिदम का भी उपयोग करता है।

यह प्रौद्योगिकियाँ अधिकांशतः दस्तावेज़ प्रसंस्करण का मूल बनती हैं। चूँकि, अन्य एल्गोरिदम इन प्रक्रियाओं से पहले या पश्चात् में हस्तक्षेप कर सकते हैं। मुख्य रूप से, दस्तावेज़ डिजिटलीकरण प्रौद्योगिकियां भी सम्मिलित हैं, चाहे वह मौलिक या त्रि-आयामी स्कैनिंग के रूप में हो। 3डी दस्तावेजों का डिजिटलीकरण विशेष रूप से photogrammetry के डेरिवेटिव का सहारा ले सकता है। कभी-कभी, दस्तावेज़ों के आकार के अनुकूल या स्कैनिंग एर्गोनॉमिक्स के कारणों से विशिष्ट 2डी स्कैनर भी विकसित किए जाने चाहिए। दस्तावेज़ प्रसंस्करण उपयुक्त फ़ाइल प्रारूप में दस्तावेज़ों की डिजिटल एन्कोडिंग पर भी निर्भर करता है। इसके अतिरिक्त, विषम डेटाबेस का प्रसंस्करण छवि वर्गीकरण प्रौद्योगिकियों पर भरोसा कर सकता है।

श्रृंखला के दूसरे छोर पर विभिन्न छवि पूर्णता, एक्सट्रपलेशन या डेटा क्लीनअप एल्गोरिदम हैं। पाठ्य दस्तावेजों के लिए, व्याख्या प्राकृतिक भाषा प्रसंस्करण (एनएलपी) प्रौद्योगिकियों का उपयोग कर सकती है।

यह भी देखें

 * दस्तावेज़ स्वचालन
 * दस्तावेज़ मॉडलिंग
 * डाटा प्रासेसिंग
 * दस्तावेज़ इमेजिंग
 * डुप्लेक्स स्कैनिंग
 * टेक्स्ट खनन
 * कार्यप्रवाह