दस्तावेज़ प्रसंस्करण

दस्तावेज़ प्रसंस्करण अनुसंधान का एक क्षेत्र है और उत्पादन प्रक्रियाओं का एक समूह है जिसका उद्देश्य एनालॉग दस्तावेज़ को डिजिटल बनाना है। दस्तावेज़ प्रसंस्करण का उद्देश्य केवल डिजिटल छवि प्राप्त करने के लिए दस्तावेज़ की तस्वीर लेना या छवि स्कैन करना नहीं है, बल्कि इसे डिजिटल रूप से समझने योग्य बनाना भी है। इसमें दस्तावेज़ की संरचना निकालना या दस्तावेज़ लेआउट विश्लेषण और फिर सामग्री शामिल है, जो पाठ या छवियों का रूप ले सकती है। इस प्रक्रिया में पारंपरिक कंप्यूटर दृष्टि एल्गोरिदम, कन्वेन्शनल न्यूरल नेटवर्क या मैन्युअल श्रम शामिल हो सकता है। संबोधित समस्याएं शब्दार्थ विभाजन, वस्तु का पता लगाना, ऑप्टिकल कैरेक्टर मान्यता|ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर), हस्तलिखित टेक्स्ट रिकग्निशन|हस्तलिखित टेक्स्ट रिकग्निशन (एचटीआर) और अधिक मोटे तौर पर ट्रांसक्रिप्शन (भाषाविज्ञान), चाहे  स्वचालन  हो या नहीं, से संबंधित हैं। इस शब्द में स्कैनर का उपयोग करके दस्तावेज़ को डिजिटाइज़ करने का चरण और दस्तावेज़ की व्याख्या करने का चरण भी शामिल हो सकता है, उदाहरण के लिए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) या छवि वर्गीकरण प्रौद्योगिकियों का उपयोग करना। इसे प्रशासनिक प्रक्रियाओं, मेल प्रसंस्करण और एनालॉग संग्रह और ऐतिहासिक दस्तावेजों के डिजिटलीकरण के अनुकूलन के लिए कई औद्योगिक और वैज्ञानिक क्षेत्रों में लागू किया जाता है।

पृष्ठभूमि
दस्तावेज़ प्रसंस्करण प्रारंभ में था, जैसा कि अभी भी कुछ हद तक एक प्रकार का उत्पादन लाइन कार्य है जो डेटा को सॉर्ट करने, निकालने या बड़े पैमाने पर निकालने के उद्देश्य से पत्रों और पार्सल जैसे दस्तावेज़ों के उपचार से संबंधित है। यह कार्य इन-हाउस या व्यापार प्रक्रिया बाहरी स्रोत से सेवाएँ प्राप्त करना  के माध्यम से किया जा सकता है।  दस्तावेज़ प्रसंस्करण में वास्तव में कुछ प्रकार के बाहरी मैनुअल श्रम शामिल हो सकते हैं, जैसे अमेज़ॅन मैकेनिकल तुर्क।

मैन्युअल दस्तावेज़ प्रसंस्करण के एक उदाहरण के रूप में, अपेक्षाकृत हाल ही में 2007 में, लाखों वीज़ा और नागरिकता आवेदनों के लिए दस्तावेज़ प्रसंस्करण में मेल रूम और डेटा प्रविष्टि लिपिक के प्रबंधन के लिए काम करने वाले लगभग 1,000 अनुबंध श्रमिकों का उपयोग शामिल था।

जबकि दस्तावेज़ प्रसंस्करण में कम्प्यूटर का माउस  या छवि स्कैनर के उपयोग से पहले कीबोर्ड के माध्यम से डेटा प्रविष्टि शामिल थी, 1990 दी न्यू यौर्क टाइम्स के एक लेख में इसे पेपरलेस कार्यालय कहा जाता था, जिसमें कहा गया था कि दस्तावेज़ प्रसंस्करण स्कैनर से शुरू होता है। इस संदर्भ में, ज़ीरक्सा के पूर्व उपाध्यक्ष, पॉल स्ट्रैसमैन ने एक आलोचनात्मक राय व्यक्त करते हुए कहा कि कंप्यूटर किसी कार्यालय में कागज की मात्रा को कम करने के बजाय बढ़ाता है। ऐसा कहा जाता था कि एक हवाई जहाज के इंजीनियरिंग और रखरखाव दस्तावेजों का वजन हवाई जहाज से भी अधिक होता है.

स्वचालित दस्तावेज़ प्रसंस्करण
जैसे-जैसे कला की स्थिति उन्नत हुई, दस्तावेज़ प्रसंस्करण दस्तावेज़ घटकों को संभालने के लिए परिवर्तित हो गया... डेटाबेस संस्थाओं के रूप में। स्वचालित दस्तावेज़ प्रसंस्करण या कभी-कभी बुद्धिमान दस्तावेज़ प्रसंस्करण (आईडी) नामक एक तकनीक प्रक्रिया स्वचालन (आईपीए) के एक विशिष्ट रूप के रूप में उभरी, जिसमें यंत्र अधिगम  (एमएल), प्राकृतिक भाषा प्रसंस्करण (एनएलपी) या बुद्धिमान चरित्र पहचान (आईसीई) जैसी कृत्रिम बुद्धिमत्ता का संयोजन किया गया। कई प्रकार के दस्तावेज़ों से डेटा निकालने के लिए।

अनुप्रयोग
स्वचालित दस्तावेज़ प्रसंस्करण दस्तावेज़ों की पूरी श्रृंखला पर लागू होता है, चाहे वह संरचित हो या नहीं। उदाहरण के लिए, व्यवसाय और वित्त की दुनिया में, प्रौद्योगिकियों का उपयोग कागज-आधारित चालान, फॉर्म, खरीद आदेश, अनुबंध और मुद्रा बिल को संसाधित करने के लिए किया जा सकता है। वित्तीय संस्थान विनियामक प्रपत्रों या ऋण दस्तावेजों जैसे बड़ी मात्रा में प्रपत्रों को संसाधित करने के लिए बुद्धिमान दस्तावेज़ प्रसंस्करण का उपयोग करते हैं। आईडी दस्तावेजों से डेटा निकालने और वर्गीकृत करने के लिए मैन्युअल डेटा प्रविष्टि की जगह एआई का उपयोग करता है। चिकित्सा में, विशेष रूप से चिकित्सा या प्रयोगशाला विश्लेषण रिपोर्टों को डिजिटाइज़ करके, रोगी अनुवर्ती कार्रवाई को सुविधाजनक बनाने और प्रशासनिक प्रक्रियाओं को सुव्यवस्थित करने के लिए दस्तावेज़ प्रसंस्करण विधियों को विकसित किया गया है। लक्ष्य मेडिकल डेटाबेस को मानकीकृत करना भी है। चिकित्सा निदान में चिकित्सकों की सहायता के लिए एल्गोरिदम का भी सीधे उपयोग किया जाता है, उदाहरण के लिए चुंबकीय अनुनाद इमेजिंग का विश्लेषण करके, या माइक्रोस्कोप छवियाँ। अभिलेखागार या विरासत संग्रह से ऐतिहासिक बड़े डेटा को निकालने के लिए दस्तावेज़ प्रसंस्करण का व्यापक रूप से मानविकी और डिजिटल मानविकी में भी उपयोग किया जाता है। विभिन्न स्रोतों के लिए विशिष्ट दृष्टिकोण विकसित किए गए, जिनमें पाठ्य दस्तावेज़, जैसे समाचार पत्र अभिलेखागार, लेकिन छवियाँ भी, या मानचित्र। रेफरी>

प्रौद्योगिकी
यदि, 1980 के दशक के बाद से, दस्तावेज़ प्रसंस्करण समस्याओं को हल करने के लिए पारंपरिक कंप्यूटर विज़न एल्गोरिदम का व्यापक रूप से उपयोग किया जाने लगा, इन्हें 2010 के दशक में धीरे-धीरे तंत्रिका नेटवर्क प्रौद्योगिकियों द्वारा प्रतिस्थापित किया गया है। हालाँकि, पारंपरिक कंप्यूटर विज़न तकनीकों का उपयोग अभी भी कुछ क्षेत्रों में, कभी-कभी तंत्रिका नेटवर्क के संयोजन में किया जाता है।

कई प्रौद्योगिकियां दस्तावेज़ प्रसंस्करण के विकास का समर्थन करती हैं, विशेष रूप से ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर), और हस्तलिखित टेक्स्ट रिकग्निशन (एचटीआर), जो टेक्स्ट को स्वचालित रूप से ट्रांसक्रिप्ट करने की अनुमति देती हैं। टेक्स्ट सेगमेंट को उदाहरण या ऑब्जेक्ट डिटेक्शन एल्गोरिदम का उपयोग करके पहचाना जाता है, जिसका उपयोग कभी-कभी दस्तावेज़ की संरचना का पता लगाने के लिए भी किया जा सकता है। बाद की समस्या का समाधान कभी-कभी सिमेंटिक विभाजन एल्गोरिदम का भी उपयोग करता है।

ये प्रौद्योगिकियाँ अक्सर दस्तावेज़ प्रसंस्करण का मूल बनती हैं। हालाँकि, अन्य एल्गोरिदम इन प्रक्रियाओं से पहले या बाद में हस्तक्षेप कर सकते हैं। दरअसल, दस्तावेज़ डिजिटलीकरण प्रौद्योगिकियां भी शामिल हैं, चाहे वह शास्त्रीय या त्रि-आयामी स्कैनिंग के रूप में हो। 3डी दस्तावेजों का डिजिटलीकरण विशेष रूप से photogrammetry  के डेरिवेटिव का सहारा ले सकता है। कभी-कभी, दस्तावेज़ों के आकार के अनुकूल या स्कैनिंग एर्गोनॉमिक्स के कारणों से विशिष्ट 2डी स्कैनर भी विकसित किए जाने चाहिए। दस्तावेज़ प्रसंस्करण उपयुक्त फ़ाइल प्रारूप में दस्तावेज़ों की डिजिटल एन्कोडिंग पर भी निर्भर करता है। इसके अलावा, विषम डेटाबेस का प्रसंस्करण छवि वर्गीकरण प्रौद्योगिकियों पर भरोसा कर सकता है।

श्रृंखला के दूसरे छोर पर विभिन्न छवि पूर्णता, एक्सट्रपलेशन या डेटा क्लीनअप एल्गोरिदम हैं। पाठ्य दस्तावेजों के लिए, व्याख्या प्राकृतिक भाषा प्रसंस्करण (एनएलपी) प्रौद्योगिकियों का उपयोग कर सकती है।

यह भी देखें

 * दस्तावेज़ स्वचालन
 * दस्तावेज़ मॉडलिंग
 * डाटा प्रासेसिंग
 * दस्तावेज़ इमेजिंग
 * डुप्लेक्स स्कैनिंग
 * टेक्स्ट खनन
 * कार्यप्रवाह