स्टाइलोमेट्री

स्टाइलोमेट्री आमतौर पर लिखित भाषा में स्टाइलिस्टिक्स (भाषाविज्ञान) का अनुप्रयोग है। इसे संगीत पर भी सफलतापूर्वक लागू किया गया है, चित्रों, और शतरंज. अन्य अवधारणा इसे भाषाई अनुशासन के रूप में परिभाषित करती है जो किसी लेखक की शैली का मूल्यांकन उनके काम के लिए सांख्यिकीय विश्लेषण के अनुप्रयोग के माध्यम से करता है।

स्टाइलोमेट्री का उपयोग अक्सर अज्ञात कार्य या विवादित दस्तावेज़ों को लेखकत्व देने के लिए किया जाता है। इसमें कानूनी के साथ-साथ अकादमिक और साहित्यिक अनुप्रयोग भी हैं, जिसमें शेक्सपियर एट्रिब्यूशन अध्ययन के प्रश्न से लेकर फोरेंसिक भाषा विज्ञान तक शेक्सपियर के कार्यों के लेखकत्व और पाठ पठनीयता के विश्लेषण के साथ पद्धतिगत समानताएं हैं।

स्टाइलोमेट्री का उपयोग छद्म नाम वाले या अज्ञात लेखकों को बेनकाब करने के लिए, या पूर्ण पहचान के अभाव में लेखक के बारे में कुछ जानकारी प्रकट करने के लिए किया जा सकता है। लेखक अपने संचार की सार्थक सामग्री को बदले बिना अपनी स्वयं की शैलीगत विशेषताओं को समाप्त करके इस पहचान का विरोध करने के लिए प्रतिकूल शैलीमिति का उपयोग कर सकते हैं। यह उन विश्लेषणों को पराजित कर सकता है जो इसकी संभावना को ध्यान में नहीं रखते हैं, लेकिन प्रतिकूल वातावरण में स्टाइलोमेट्री की अंतिम प्रभावशीलता अनिश्चित है:

इतिहास
प्रामाणिकता, लेखक की पहचान और अन्य प्रश्नों के प्रमाण के लिए ग्रंथों का विश्लेषण करने की पुरानी तकनीकों से स्टाइलोमेट्री का विकास हुआ।

अनुशासन के आधुनिक अभ्यास को अंग्रेजी पुनर्जागरण नाटक में लेखकीय समस्याओं के अध्ययन से प्रचार मिला। शोधकर्ताओं और पाठकों ने देखा कि उस युग के कुछ नाटककारों की भाषा प्राथमिकताओं के विशिष्ट पैटर्न थे, और उन्होंने अनिश्चित या सहयोगात्मक कार्यों के लेखकों की पहचान करने के लिए उन पैटर्न का उपयोग करने का प्रयास किया। शुरुआती प्रयास हमेशा सफल नहीं रहे: 1901 में, शोधकर्ता ने जॉन फ्लेचर (नाटककार)|जॉन फ्लेचर की पसंद ⁠ ⁠'em को, उनके संकुचनात्मक रूप को, उनके सहयोग में फ्लेचर और फिलिप मासिंगर के बीच अंतर करने के लिए मार्कर के रूप में उपयोग करने का प्रयास किया- - लेकिन उन्होंने गलती से मैसिंगर के कार्यों का संस्करण नियोजित कर दिया जिसमें संपादक ने ⁠ ⁠'em के सभी उदाहरणों का विस्तार किया था। स्टाइलोमेट्री की मूल बातें पोलिश दार्शनिक विंसेंटी लुटोस्लाव्स्की द्वारा प्रिंसिपेस डी स्टाइलोमेट्री (1890) में स्थापित की गई थीं। लुटोस्लाव्स्की ने प्लेटो के संवादों का कालक्रम विकसित करने के लिए इस पद्धति का उपयोग किया। बड़ी मात्रा में डेटा का विश्लेषण करने के लिए कंप्यूटर और उनकी क्षमताओं के विकास ने इस प्रकार के प्रयास को परिमाण के क्रम में बढ़ाया। हालाँकि, डेटा विश्लेषण के लिए कंप्यूटर की महान क्षमता अच्छी गुणवत्ता वाले आउटपुट की गारंटी नहीं देती है। 1960 के दशक की शुरुआत में, रेव. ए. क्यू. मॉर्टन ने सेंट पॉल को जिम्मेदार ठहराते हुए न्यू टेस्टामेंट के चौदह पत्रों का कंप्यूटर विश्लेषण तैयार किया, जिसने संकेत दिया कि छह अलग-अलग लेखकों ने उस कार्य को लिखा था। जेम्स जॉयस के कार्यों पर लागू की गई उनकी पद्धति की जांच से यह परिणाम मिला कि यूलिसिस (उपन्यास), जॉयस का बहु-परिप्रेक्ष्य, बहु-शैली उपन्यास, पांच अलग-अलग व्यक्तियों द्वारा रचा गया था, जिनमें से किसी का भी स्पष्ट रूप से क्राफ्टिंग में कोई हिस्सा नहीं था। जॉयस का पहला उपन्यास, युवा व्यक्ति के रूप में कलाकार का चित्र हालाँकि, समय के साथ और अभ्यास के साथ, शोधकर्ताओं और विद्वानों ने बेहतर परिणाम प्राप्त करने के लिए अपने तरीकों को परिष्कृत किया है। उल्लेखनीय प्रारंभिक सफलता फ्रेडरिक मोस्टेलर और डेविड वालेस द्वारा द फेडरलिस्ट पेपर्स के बारह के विवादित लेखकत्व का समाधान था। हालाँकि प्रारंभिक मान्यताओं और तरीकों से संबंधित अभी भी प्रश्न हैं (और, शायद, हमेशा रहेंगे), अब कुछ लोग इस मूल आधार पर विवाद करते हैं कि लिखित ग्रंथों का भाषाई विश्लेषण मूल्यवान जानकारी और अंतर्दृष्टि उत्पन्न कर सकता है। (वास्तव में, यह कंप्यूटर के आगमन से पहले भी स्पष्ट था: साइरस होय और अन्य लोगों द्वारा फ्लेचर कैनन में पाठ्य/भाषाई विश्लेषण के सफल अनुप्रयोग से 1950 के दशक के अंत और 1960 के दशक की शुरुआत में स्पष्ट परिणाम मिले।)

अनुप्रयोग
स्टाइलोमेट्री के अनुप्रयोगों में साहित्यिक अध्ययन, ऐतिहासिक अध्ययन, सामाजिक अध्ययन, सूचना पुनर्प्राप्ति और कई फोरेंसिक मामले और अध्ययन शामिल हैं। इसे कोड स्टाइलोमेट्री पर भी लागू किया जा सकता है और सामग्री समानता का पता लगाना#स्टाइलोमेट्री, जो दस्तावेज़ के भीतर लेखन शैली में परिवर्तन के आधार पर साहित्यिक चोरी का पता लगाना है। स्टाइलोमेट्री का उपयोग यह अनुमान लगाने के लिए भी किया जा सकता है कि कोई व्यक्ति अपनी कीस्ट्रोक गतिशीलता के आधार पर अंग्रेजी बोलने वाला है या नहीं। एक विधि के रूप में स्टाइलोमेट्री पुनरीक्षण के दौरान पाठ के विरूपण के प्रति संवेदनशील है। लेखक द्वारा अपने करियर के दौरान विभिन्न शैलियों को अपनाने का भी मामला है, जैसा कि प्लेटो के मामले में प्रदर्शित किया गया था, जिन्होंने सुकराती समस्या को संबोधित करने वाले प्रारंभिक और मध्य संवादों के लिए अपनाई गई विभिन्न शैलीगत नीतियों को चुना था।

सुविधाएँ
लेखकीय विशेषता के लिए रुचि की पाठ्य विशेषताएं ओर विशिष्ट अभिव्यक्तियों या निर्माणों की घटनाओं की गणना करना है (उदाहरण के लिए यह जांचना कि लेखक इंटरपंक्शन का उपयोग कैसे करता है या कितनी बार लेखक एजेंट रहित निष्क्रिय निर्माणों का उपयोग करता है) और दूसरी ओर पठनीयता विश्लेषण के लिए उपयोग किए जाने वाले समान हैं जैसे शाब्दिक भिन्नता और वाक्यविन्यास भिन्नता के उपाय। चूंकि लेखकों के पास अक्सर कुछ विषयों के लिए प्राथमिकताएं होती हैं, इसलिए लेखकत्व गुण में शोध प्रयोग फीचर सेट से संज्ञा, विशेषण और क्रिया जैसे सामग्री शब्दों को हटा देते हैं, केवल पाठ के संरचनात्मक तत्वों को बनाए रखते हैं ताकि लेखक की विशेषताओं के बजाय विषय पर उनके मॉडल को ओवरफिट करने से बचा जा सके। शैलीगत विशेषताओं की गणना अक्सर किसी पाठ या किसी लेखक के संपूर्ण एकत्रित कार्यों के औसत के रूप में की जाती है, जिससे औसत शब्द लंबाई या औसत वाक्य लंबाई जैसे माप प्राप्त होते हैं। यह मॉडल को उन लेखकों की पहचान करने में सक्षम बनाता है जिनके पास शब्दाडंबरपूर्ण या संक्षिप्त वाक्यों के लिए स्पष्ट प्राथमिकता है लेकिन भिन्नता छिपाते हैं: लंबे और छोटे वाक्यों के मिश्रण वाले लेखक का औसत लगातार मध्य-लंबाई वाले वाक्यों वाले लेखक के समान होगा। इस तरह की भिन्नता को पकड़ने के लिए, कुछ प्रयोग औसत देखी गई आवृत्तियों के बजाय अवलोकनों पर अनुक्रमों या पैटर्न का उपयोग करते हैं, उदाहरण के लिए नोटिंग। कि लेखक निश्चित तनाव या जोर पैटर्न के लिए प्राथमिकता दिखाता है, या कि लेखक छोटे वाक्य के साथ लंबे वाक्यों का क्रम अपनाता है। मेंडेनहॉल द्वारा लेखकत्व की पहचान के सबसे पहले तरीकों में से एक, अपने अवलोकनों को बिना औसत किए एकत्रित करना कहा जा सकता है। हाल के लेखकत्व एट्रिब्यूशन मॉडल लेखक की शैली के लिए जो विशिष्ट है उसे स्वचालित रूप से कैप्चर करने के लिए शब्द एम्बेडिंग का उपयोग करते हैं, लेकिन वे अधिक पारंपरिक मॉडल के समान कारणों से विवेकपूर्ण फीचर इंजीनियरिंग पर भी भरोसा करते हैं।

एडवर्सरियल स्टाइलोमेट्री
एडवरसैरियल स्टाइलोमेट्री लेखक की पहचान या उनकी विशेषताओं की खोज करने के लिए स्टाइलोमेट्री की क्षमता को कम करने के लिए लेखन शैली को बदलने का अभ्यास है। इस कार्य को लेखकत्व अस्पष्टता या लेखकत्व अज्ञातीकरण के रूप में भी जाना जाता है। स्टाइलोमेट्री गुमनाम लेखकों को बेनकाब करने या छद्म नामों को किसी लेखक की अन्य पहचान से जोड़ने की क्षमता में महत्वपूर्ण गोपनीयता चुनौती पेश करती है, जो, उदाहरण के लिए, मुखबिरों के लिए कठिनाइयाँ पैदा करता है, कार्यकर्ता, और धोखाधड़ी करने वाले और धोखेबाज़। यंत्र अधिगम तकनीक और पाठ निगम विकसित होने के कारण गोपनीयता जोखिम बढ़ने की उम्मीद है।

सभी प्रतिकूल शैलीमिति स्रोत पाठ को ईमानदारी से व्याख्या (कम्प्यूटेशनल भाषाविज्ञान) करने के मूल विचार को साझा करती है ताकि अर्थ अपरिवर्तित रहे लेकिन शैलीगत संकेत अस्पष्ट रहें। ऐसा विश्वसनीय पैराफ़्रेज़ स्टाइलोमेट्रिक क्लासिफायरियर के लिए प्रतिकूल उदाहरण है। इसके लिए कई व्यापक दृष्टिकोण मौजूद हैं, कुछ ओवरलैप के साथ: नकल, लेखक की अपनी शैली को दूसरे की शैली से प्रतिस्थापित करना; अनुवाद, मशीनी अनुवाद को इस आशा के साथ लागू करना कि यह स्रोत पाठ में विशिष्ट शैली को समाप्त कर देगा; और अस्पष्टता, किसी पाठ की शैली को जानबूझकर संशोधित करना ताकि वह लेखक की अपनी शैली से मेल न खाए।

शैली को मैन्युअल रूप से अस्पष्ट करना संभव है, लेकिन श्रमसाध्य; कुछ परिस्थितियों में, यह बेहतर या आवश्यक है। स्वचालित टूलींग, या तो अर्ध- या पूर्ण-स्वचालित, लेखक की सहायता कर सकती है। कार्य को सर्वोत्तम तरीके से कैसे निष्पादित किया जाए और ऐसे उपकरणों का डिज़ाइन खुला शोध प्रश्न है। जबकि कुछ दृष्टिकोणों को विशेष स्टाइलोमेट्रिक विश्लेषणों को पराजित करने में सक्षम दिखाया गया है, विशेष रूप से वे जो प्रतिकूलता की संभावना को ध्यान में नहीं रखते हैं, अज्ञात विश्लेषणों के सामने सुरक्षा स्थापित करना मुद्दा है। पैराफ़्रेज़ की विश्वसनीयता सुनिश्चित करना स्वचालित उपकरणों के लिए महत्वपूर्ण चुनौती है।

यह अनिश्चित है कि प्रतिकूल स्टाइलोमेट्री का अभ्यास अपने आप में पता लगाने योग्य है या नहीं। कुछ अध्ययनों में पाया गया है कि विशेष तरीकों ने आउटपुट टेक्स्ट में सिग्नल उत्पन्न किए हैं, लेकिन स्टाइलोमेट्रिस्ट जो अनिश्चित है कि किन तरीकों का इस्तेमाल किया गया होगा, वह विश्वसनीय रूप से उनका पता लगाने में सक्षम नहीं हो सकता है।

वर्तमान शोध
आधुनिक स्टाइलोमेट्री सांख्यिकीय विश्लेषण के लिए कंप्यूटर का उपयोग करती है, और कृत्रिम बुद्धि और इंटरनेट के माध्यम से उपलब्ध ग्रंथों के बढ़ते पाठ संग्रह तक पहुंच का उपयोग करती है। सॉफ्टवेयर सिस्टम जैसे सिग्नेचर (ऑक्सफोर्ड विश्वविद्यालय के डॉ. पीटर मिलिकन द्वारा निर्मित फ्रीवेयर), जेजीएएपी (जावा ग्राफिकल ऑथरशिप एट्रिब्यूशन प्रोग्राम-डुक्सेन विश्वविद्यालय के डॉ. पैट्रिक जुओला द्वारा निर्मित फ्रीवेयर), स्टाइलो (विभिन्न प्रकार के स्टाइलोमेट्रिक विश्लेषणों के लिए ओपन-सोर्स आर पैकेज, जिसमें ऑथरशिप एट्रिब्यूशन भी शामिल है, जिसे मैसीज एडर, जान रयबिकी और माइक केस्टेमोंट द्वारा विकसित किया गया है) और स्टाइलिन डचों के लिए (एंटवर्प विश्वविद्यालय के प्रोफेसर वाल्टर डेलेमैन्स और गेन्ट विश्वविद्यालय के डॉ. वेरोनिक होस्टे द्वारा ऑनलाइन फ्रीवेयर) इसके उपयोग को गैर-विशेषज्ञों के लिए भी तेजी से व्यावहारिक बनाता है।

अकादमिक स्थल और कार्यक्रम
स्टाइलोमेट्रिक विधियों का उपयोग कई शैक्षणिक विषयों के लिए किया जाता है, जैसे भाषाविज्ञान, कोशलेखन, या साहित्यिक अध्ययन के अनुप्रयोग के रूप में, प्राकृतिक भाषा प्रसंस्करण और मशीन लर्निंग के संयोजन में, और साहित्यिक चोरी का पता लगाने, लेखकत्व विश्लेषण, या सूचना पुनर्प्राप्ति के लिए लागू किया जाता है।

फोरेंसिक भाषाविज्ञान
फोरेंसिक भाषाविदों का अंतर्राष्ट्रीय संघ (आईएएफएल) इंटरनेशनल एसोसिएशन ऑफ फोरेंसिक लिंग्विस्ट्स के द्विवार्षिक सम्मेलन ( बंदरगाह में 2016 में 13वां संस्करण) का आयोजन करता है और अपने केंद्रीय विषयों में से के रूप में फोरेंसिक स्टाइलिस्टिक्स के साथ द इंटरनेशनल जर्नल ऑफ स्पीच, लैंग्वेज एंड द लॉ प्रकाशित करता है।

AAAI
आर्टिफिशियल इंटेलिजेंस की उन्नति के लिए एसोसिएशन (एएएआई) ने पाठ के व्यक्तिपरक और शैलीगत विश्लेषण पर कई कार्यक्रमों की मेजबानी की है।

पैन
पैन कार्यशालाएँ (मूल रूप से, साहित्यिक चोरी विश्लेषण, लेखकत्व की पहचान, और निकट-डुप्लिकेट का पता लगाना, बाद में साहित्यिक चोरी, लेखकत्व और सामाजिक सॉफ़्टवेयर के दुरुपयोग को उजागर करने पर अधिक सामान्यतः कार्यशाला) 2007 से मुख्य रूप से सूचना पहुंच सम्मेलनों जैसे सूचना पर एसीएम विशेष रुचि समूह के संयोजन में आयोजित की गईं। पुनर्प्राप्ति, सूचना पुनर्प्राप्ति मूल्यांकन के लिए फ़ोरम, और मूल्यांकन फ़ोरम के सम्मेलन और प्रयोगशालाएँ। पैन साहित्यिक चोरी का पता लगाने के लिए साझा चुनौती कार्य तैयार करता है, लेखकत्व की पहचान, लेखक लिंग पहचान, लेखक प्रोफाइलिंग, बर्बरता का पता लगाना, और अन्य संबंधित पाठ विश्लेषण कार्य, जिनमें से कई स्टाइलोमेट्री पर निर्भर हैं।

रुचि का केस अध्ययन

 * 1439 में, लोरेंजो वल्ला ने दिखाया कि कॉन्स्टेंटाइन का दान जालसाजी था, यह तर्क आंशिक रूप से चौथी शताब्दी के प्रामाणिक दस्तावेजों में प्रयुक्त लैटिन के साथ तुलना पर आधारित था।
 * 1952 में, स्वीडिश पादरी डिक हेलैंडर को स्ट्रांगनास का बिशप चुना गया था। अभियान प्रतिस्पर्धी था और हेलैंडर पर स्ट्रांगनास के बिशप पद के मतदाताओं के लिए अन्य उम्मीदवारों के बारे में सैकड़ों गुमनाम अपमानजनक पत्रों की श्रृंखला लिखने का आरोप लगाया गया था। हेलैंडर को पहले पत्र लिखने का दोषी ठहराया गया और बिशप के रूप में अपना पद खो दिया, लेकिन बाद में आंशिक रूप से दोषमुक्त कर दिया गया। पत्रों का अध्ययन कई स्टाइलोमेट्रिक उपायों (और टाइपराइटर विशेषताओं) और विभिन्न अदालती मामलों और आगे की परीक्षाओं का उपयोग करके किया गया था, जिनमें से कई को 1978 में उनकी मृत्यु तक हेलैंडर द्वारा स्वयं अनुबंधित किया गया था, स्टाइलोमेट्रिक विधि और साक्ष्य के रूप में इसके मूल्य पर कुछ विस्तार से चर्चा की गई थी।.
 * 1975 में, रोनाल्ड रीगन के कैलिफ़ोर्निया के गवर्नर के रूप में कार्य करने के बाद, उन्होंने सैकड़ों स्टेशनों को सिंडिकेटेड साप्ताहिक रेडियो कमेंट्री देना शुरू किया। 2001 में उनके 90वें जन्मदिन पर उनके व्यक्तिगत नोट्स सार्वजनिक होने के बाद, अध्ययन में स्टाइलोस्टैटिस्टिकल तरीकों का उपयोग करके यह निर्धारित किया गया कि उनमें से कौन सी बातचीत उनके द्वारा लिखी गई थी और कौन सी उनके विभिन्न सहयोगियों द्वारा लिखी गई थी। * 1996 में, वासर कॉलेज के प्रोफेसर डोनाल्ड फोस्टर (प्रोफेसर) द्वारा प्रस्तुत विवादास्पद, छद्म नाम से लिखी गई पुस्तक प्राथमिक रंग (उपन्यास)उपन्यास) का स्टाइलोमेट्रिक विश्लेषण लेखक की सही पहचान जो क्लेन के रूप में करने के बाद विषय को व्यापक दर्शकों के ध्यान में लाया गया। (हस्तलेख विश्लेषण द्वारा लेखकत्व की पुष्टि के बाद ही यह मामला सुलझाया गया।)
 * 1996 में, यूनाबॉम्बर घोषणापत्र की तुलना संदिग्धों में से एक, थिओडोर कैज़िंस्की द्वारा लिखे गए पत्रों के साथ करने के लिए स्टाइलोमेट्रिक तरीकों का इस्तेमाल किया गया था, जिसके परिणामस्वरूप काकज़िनस्की की आशंका हुई और बाद में उसे दोषी ठहराया गया। * अप्रैल 2015 में, स्टाइलोमेट्री तकनीकों का उपयोग करने वाले शोधकर्ताओं ने विलियम शेक्सपियर के काम के रूप में नाटक, दोहरा झूठ की पहचान की। शोधकर्ताओं ने शेक्सपियर और जॉन फ्लेचर (नाटककार) के 54 नाटकों का विश्लेषण किया, और औसत वाक्य लंबाई की तुलना की, असामान्य शब्दों के उपयोग का अध्ययन किया और उनकी भाषा की जटिलता और मनोवैज्ञानिक वैधता (भाषा विज्ञान) की मात्रा निर्धारित की।
 * 2016 में, मैकडोनाल्ड पी. जैक्सन, न्यूजीलैंड के ऑकलैंड विश्वविद्यालय में अंग्रेजी के एमेरिटस प्रोफेसर और न्यूजीलैंड की रॉयल सोसाइटी के फेलो, जिन्होंने अपना पूरा शैक्षणिक करियर लेखकत्व गुण का विश्लेषण करते हुए बिताया था, ने हू वॉट्ट द नाम से किताब लिखी थी। क्रिसमस से पहले की रात?: क्लेमेंट क्लार्क मूर बनाम का विश्लेषण। हेनरी लिविंगस्टन प्रश्न, जिसमें वह विरोधी तर्कों का मूल्यांकन करता है और, पहली बार, लंबे समय से चले आ रहे विवाद की जांच करने के लिए आधुनिक कम्प्यूटेशनल शैली विज्ञान की लेखक-एट्रिब्यूशन तकनीकों का उपयोग करता है। जैक्सन कई प्रकार के परीक्षणों को नियोजित करता है और नया, स्वरों का सांख्यिकीय विश्लेषण प्रस्तुत करता है; उन्होंने निष्कर्ष निकाला कि लिविंगस्टन क्लासिक काम के सच्चे लेखक हैं।
 * 2017 में, साइमन फुलर और जेम्स ओ'सुल्लीवन (आयरिश अकादमिक)|जेम्स ओ'सुल्लीवन ने अध्ययन प्रकाशित किया जिसमें दावा किया गया कि बेस्टसेलिंग लेखक जेम्स पैटरसन अपने स्पष्ट रूप से सह-लेखक उपन्यासों में कोई लेखन नहीं करते हैं।  ओ'सुलिवन के अनुसार, पूर्व अमेरिकी राष्ट्रपति बिल क्लिंटन के साथ उनका सहयोग, राष्ट्रपति लापता है (उपन्यास)उपन्यास), इस नियम का अपवाद है।
 * 2017 में, भाषाविदों, कंप्यूटर वैज्ञानिकों और विद्वानों के समूह ने ऐलेना फेरांटे के लेखकत्व का विश्लेषण किया। पडुआ विश्वविद्यालय में बनाए गए कोष के आधार पर जिसमें 40 लेखकों द्वारा लिखे गए 150 उपन्यास शामिल हैं, उन्होंने फेरांटे की शैली का उसके सात उपन्यासों के आधार पर विश्लेषण किया। उदाहरण के लिए, स्टाइलो का उपयोग करके वे उनकी लेखन शैली की तुलना 39 अन्य उपन्यासकारों से करने में सक्षम थे। निष्कर्ष उन सभी के लिए समान था: डोमेनिको स्टारनोन ऐलेना फेरांटे के गुप्त लेखक हैं।
 * 2018 में, हार्वर्ड विश्वविद्यालय में सांख्यिकी के वरिष्ठ व्याख्याता, मार्क ग्लिकमैन ने हार्वर्ड के पूर्व सांख्यिकी छात्र रयान सॉन्ग और नोवा स्कोटिया में डलहौजी विश्वविद्यालय के प्रोफेसर जेसन ब्राउन के साथ काम किया, और यह पता लगाने के लिए स्टाइलोमेट्री का उपयोग किया कि, सबसे अधिक संभावना हैद बीटल्स का गीत मेरे जीवन में ़ जॉन लेनन द्वारा रचा गया था, लेकिन 50% संभावना है कि पॉल मेकार्टनी ने मध्य आठ लिखा था।
 * 2019 में, ETSO प्रोजेक्ट: स्टाइलोमेट्री को स्पैनिश गोल्डन एज ​​थिएटर में लागू किया गया, फिल्म का निर्देशन अल्वारो कुएलर गोंजालेज और जर्मन वेगा गार्सिया-लुएंगोस ने किया है। स्टाइलोमेट्रिकल विश्लेषण लागू करने के बाद, महिलाओं और पालक बच्चों का श्रेय लोप डी वेगा को दिया गया अनुमोदित किया गया था, और ला मोन्ज़ा अल्फ़ेरेज़ में लेखकत्व समस्या का पता चला था, जो पेरेज़ डी मोंटालबैन के लिए जिम्मेदार नाटक था, जो इन विश्लेषणों और ऐतिहासिक और भाषाविज्ञान अनुसंधान के माध्यम से, अंततः जुआन रुइज़ डी अलारकोन को जिम्मेदार ठहराया गया था।    2023 में, उसी प्रोजेक्ट में लोप डी वेगा को ला फ्रांसेसा लॉरा (द फ्रेंचवूमन लॉरा) के लेखक के रूप में पाया गया, जबकि पांडुलिपि उनकी मृत्यु के वर्षों बाद लिखी गई थी। कॉमेडी को लोप डी वेगा के दिवंगत कार्य के रूप में वर्गीकृत किया गया था और यह 1628 से 1630 तक की थी, क्योंकि फ्रांस के प्रति इसके चापलूसीपूर्ण व्यवहार का श्रेय तीस साल के युद्ध के दौरान स्पेन और फ्रांस के बीच क्षणिक अच्छे संबंधों को दिया जा सकता है, जिसमें इंग्लैंड आम दुश्मन था। . इस विश्लेषण में, जांच के तहत पाठ के 500 सबसे अधिक बार आने वाले शब्दों की तुलना बाकी कार्यों के 500 से की गई है। ला फ्रांसेसा लॉरा के मामले में, खोज से पता चला कि जिन 100 कार्यों के साथ यह निकटतम था, उनमें से लगभग सभी लोप डी वेगा के थे। कार्यों के लेखकत्व पर पारंपरिक भाषाविज्ञान विश्लेषण ने कृत्रिम बुद्धि की जांच की पुष्टि की है।
 * 2020 में, राचेल मैक्कार्थी और जेम्स ओ'सुल्लीवन (आयरिश अकादमिक)|जेम्स ओ'सुल्लीवन ने तर्क दिया कि एमिली ब्रोंटे वर्थरिंग हाइट्स की सच्ची लेखिका हैं, जिससे कुछ आलोचकों की अटकलें समाप्त हो गईं कि उपन्यास उनके किसी भाई-बहन द्वारा लिखा गया हो सकता है, विशेष रूप से या तो ब्रैनवेल ब्रोंटे या चार्लोट ब्रोंटे।
 * 2020 में, हार्टमुट इल्सेमैन ने आर स्टाइलो प्रोग्राम सूट से रोलिंग डेल्टा और रोलिंग क्लासीफाई का उपयोग यह दिखाने के लिए किया कि मार्लो कॉर्पस शैलीगत रूप से अमानवीय है, और दो टैम्बुरलेन्स के लेखक शायद ही मार्लो के शेष आधिकारिक कॉर्पस में मौजूद थे।
 * 2022 में, इतालवी विद्वान सिमोन रेबोरा और मास्सिमो साल्गारो ने जॉन एफ. बरोज़ की "डेल्टा डिस्टेंस" पद्धति का उपयोग करते हुए दिखाया कि फ़ेलिक्स साल्टेन 1906 के गुमनाम उपन्यास जोसेफिन मटज़ेनबैकर के सबसे संभावित लेखक हैं, अंतिम पृष्ठों को बाहर रखा गया है।

डेटा और विधियाँ
चूँकि स्टाइलोमेट्री में वर्णनात्मक उपयोग के दोनों मामले हैं, जिनका उपयोग संग्रह की सामग्री को चित्रित करने के लिए किया जाता है, और पहचानात्मक उपयोग के मामले, जैसे। लेखकों या पाठों की श्रेणियों की पहचान करना, ऊपर दिए गए डेटा और सुविधाओं का विश्लेषण करने के लिए उपयोग की जाने वाली विधियां वस्तुओं को सेट में वर्गीकृत करने या फीचर भिन्नता के स्थान पर वस्तुओं को वितरित करने के लिए बनाई गई विधियों से भिन्न होती हैं। अधिकांश विधियाँ प्रकृति में सांख्यिकीय हैं, जैसे क्लस्टर विश्लेषण और विभेदक विश्लेषण, आम तौर पर भाषाविज्ञान डेटा और विशेषताओं पर आधारित होती हैं, और आधुनिक मशीन सीखने के तरीकों के लिए उपयोगी अनुप्रयोग डोमेन हैं।

जबकि अतीत में, स्टाइलोमेट्री ने किसी पाठ के सबसे दुर्लभ या सबसे हड़ताली तत्वों पर जोर दिया था, समकालीन तकनीकें भाषण के सामान्य हिस्सों में भी पहचान पैटर्न को अलग कर सकती हैं। अधिकांश प्रणालियाँ शाब्दिक आँकड़ों पर आधारित होती हैं, यानी पाठ (या उसके लेखक) को चित्रित करने के लिए पाठ में शब्दों और शब्दों की आवृत्तियों का उपयोग करना। इस संदर्भ में, सूचना पुनर्प्राप्ति के विपरीत, अंग्रेजी में सबसे आम शब्दों के देखे गए घटना पैटर्न उन सामयिक शब्दों की तुलना में अधिक दिलचस्प हैं जो कम बार होते हैं। प्राथमिक स्टाइलोमेट्रिक विधि लेखक अपरिवर्तनीय है: किसी दिए गए लेखक द्वारा लिखे गए सांख्यिकीय रूप से महत्वपूर्ण परिणाम देने वाले विश्लेषण को स्वीकार करने के लिए सभी ग्रंथों, या कम से कम सभी ग्रंथों द्वारा समान रूप से रखी गई संपत्ति। लेखक अपरिवर्तनीय का उदाहरण लेखक द्वारा प्रयुक्त फ़ंक्शन शब्दों की आवृत्ति है।

ऐसी ही विधि में, 50 सबसे सामान्य शब्दों को खोजने के लिए पाठ का विश्लेषण किया जाता है। फिर पाठ को 5,000 शब्द खंडों में विभाजित किया जाता है और उस खंड में उन 50 शब्दों की आवृत्ति का पता लगाने के लिए प्रत्येक खंड का विश्लेषण किया जाता है। यह प्रत्येक टुकड़े के लिए अद्वितीय 50-संख्या पहचानकर्ता उत्पन्न करता है। ये संख्याएँ पाठ के प्रत्येक भाग को 50-आयामी स्थान में बिंदु पर रखती हैं। इस 50-आयामी स्थान को प्रमुख घटक विश्लेषण (पीसीए) का उपयोग करके विमान में समतल किया गया है। इसके परिणामस्वरूप उन बिंदुओं का प्रदर्शन होता है जो लेखक की शैली के अनुरूप होते हैं। यदि दो साहित्यिक कृतियों को ही तल पर रखा जाता है, तो परिणामी पैटर्न यह दिखा सकता है कि क्या दोनों कृतियाँ ही लेखक या अलग-अलग लेखकों की हैं।

गाऊसी आँकड़े
स्टाइलोमेट्रिक डेटा को जिपफ-मंडेलब्रॉट कानून के अनुसार वितरित किया जाता है। वितरण अत्यंत कांटेदार और लेप्टोकुर्टिक है, यही कारण है कि शोधकर्ता इसे हल करने के लिए आंकड़ों का उपयोग नहीं कर सके। लेखकत्व एट्रिब्यूशन समस्याएं. फिर भी, डेटा परिवर्तन (सांख्यिकी) को लागू करके गाऊसी सांख्यिकी का उपयोग पूरी तरह से संभव है।

तंत्रिका नेटवर्क
तंत्रिका नेटवर्क, सांख्यिकीय मशीन सीखने के तरीकों का विशेष मामला, का उपयोग ग्रंथों के लेखकत्व का विश्लेषण करने के लिए किया गया है। निर्विवाद लेखकत्व के ग्रंथों का उपयोग तंत्रिका नेटवर्क को पश्चप्रचार जैसी प्रक्रियाओं द्वारा प्रशिक्षित करने के लिए किया जाता है, जैसे कि प्रशिक्षण त्रुटि की गणना की जाती है और सटीकता बढ़ाने के लिए प्रक्रिया को अद्यतन करने के लिए उपयोग किया जाता है। गैर-रेखीय प्रतिगमन के समान प्रक्रिया के माध्यम से, नेटवर्क नए पाठों के लिए अपनी पहचान क्षमता को सामान्यीकृत करने की क्षमता हासिल करता है, जिसे अभी तक उजागर नहीं किया गया है, और उन्हें आत्मविश्वास की निश्चित डिग्री के अनुसार वर्गीकृत किया जाता है। ऐसी तकनीकों को विलियम शेक्सपियर के उनके समकालीन जॉन फ्लेचर (नाटककार) और क्रिस्टोफर मार्लो के साथ सहयोग के लंबे समय से चले आ रहे दावों पर लागू किया गया था, और अधिक पारंपरिक विद्वता के आधार पर इस राय की पुष्टि की कि ऐसा सहयोग वास्तव में हुआ था। 1999 के अध्ययन से पता चला कि तंत्रिका नेटवर्क कार्यक्रम उन कविताओं के लेखकत्व को निर्धारित करने में 70% सटीकता तक पहुंच गया, जिनका उसने अभी तक विश्लेषण नहीं किया था। व्रीजे यूनिवर्सिटिट के इस अध्ययन में केवल डेन जैसे अक्षर अनुक्रमों का उपयोग करके तीन डच लेखकों की कविताओं की पहचान की जांच की गई। एक अध्ययन में निरंतर प्रमाणीकरण (सीए) के लिए लागू लेखकत्व सत्यापन मॉडल के लिए गहन विश्वास नेटवर्क (डीबीएन) का उपयोग किया गया। विश्लेषण की इस पद्धति के साथ समस्या यह है कि नेटवर्क अपने प्रशिक्षण सेट के आधार पर पक्षपाती हो सकता है, संभवतः उन लेखकों का चयन करना जिनका नेटवर्क ने अधिक बार विश्लेषण किया है।

आनुवंशिक एल्गोरिदम
जेनेटिक एल्गोरिद्म स्टाइलोमेट्री के लिए उपयोग की जाने वाली अन्य मशीन लर्निंग तकनीक है। इसमें ऐसी विधि शामिल है जो नियमों के सेट से शुरू होती है। उदाहरण नियम हो सकता है, यदि प्रत्येक हजार शब्दों में 1.7 बार से अधिक प्रकट होता है, तो पाठ लेखक एक्स है। कार्यक्रम पाठ के साथ प्रस्तुत किया गया है और लेखकत्व निर्धारित करने के लिए नियमों का उपयोग करता है। नियमों का परीक्षण ज्ञात पाठों के सेट के विरुद्ध किया जाता है और प्रत्येक नियम को फिटनेस स्कोर दिया जाता है। सबसे कम अंक वाले 50 नियमों का उपयोग नहीं किया जाता है। बाकी 50 नियमों में छोटे-छोटे बदलाव किए गए हैं और 50 नए नियम लाए गए हैं। इसे तब तक दोहराया जाता है जब तक कि विकसित नियम पाठों का सही विवरण न दे दें।

दुर्लभ जोड़े
शैली की पहचान करने की विधि को दुर्लभ जोड़े कहा जाता है, और यह संयोजन की व्यक्तिगत आदतों पर निर्भर करता है। किसी विशेष लेखक के लिए कुछ शब्दों का उपयोग, अन्य पूर्वानुमानित शब्दों के उपयोग के साथ अज्ञात रूप से जुड़ा हो सकता है।

त्वरित संदेश सेवा में लेखकत्व एट्रिब्यूशन
इंटरनेट के प्रसार ने लेखकत्व श्रेय का ध्यान ऑनलाइन पाठ (वेब ​​पेज, ब्लॉग इत्यादि), इलेक्ट्रॉनिक संदेश (ई-मेल, ट्वीट, पोस्ट इत्यादि), और अन्य प्रकार की लिखित जानकारी की ओर स्थानांतरित कर दिया है जो कि से बहुत छोटी हैं। औसत पुस्तक, रंग, पृष्ठ लेआउट, फ़ॉन्ट, GRAPHICS, इमोटिकॉन्स इत्यादि जैसे अभिव्यंजक तत्वों के संदर्भ में बहुत कम औपचारिक और अधिक विविध है। संरचना और वाक्यविन्यास दोनों के स्तर पर ऐसे पहलुओं को ध्यान में रखने के प्रयासों की सूचना दी गई थी। इसके अलावा, जानबूझकर शैलीगत विकल्पों का खुलासा करने के लिए सामग्री-विशिष्ट और विशिष्ट संकेत (उदाहरण के लिए, विषय मॉडल और व्याकरण जांच उपकरण) पेश किए गए थे। त्वरित संदेश द्वारा चैट की सामग्री को वर्गीकृत करने के लिए मानक स्टाइलोमेट्रिक सुविधाओं को नियोजित किया गया है, या प्रतिभागियों का व्यवहार, लेकिन चैट प्रतिभागियों की पहचान करने के प्रयास अभी भी कम और शुरुआती हैं। इसके अलावा, चैट डेटा और किसी अन्य प्रकार की लिखित जानकारी के बीच बड़ा अंतर होने के बावजूद मौखिक बातचीत और चैट इंटरैक्शन के बीच समानता को नजरअंदाज कर दिया गया है।

यह भी देखें

 * डेटा पुनः पहचान
 * डिजिटल वॉटरमार्किंग
 * भाषाविज्ञान और मॉर्मन की पुस्तक या स्टाइलोमेट्री (वर्डप्रिंट अध्ययन)|भाषाविज्ञान और मॉर्मन की पुस्तक, स्टाइलोमेट्री (वर्डप्रिंट अध्ययन)
 * मोशे युगल
 * मात्रात्मक भाषाविज्ञान
 * स्टेग्नोग्राफ़ी
 * लिखोमुद्रण

संदर्भ

 * Van Droogenbroeck, Frans J. (2016) "Handling the Zipf distribution in computerized authorship attribution"
 * Van Droogenbroeck, Frans J. (2019) "An essential rephrasing of the Zipf-Mandelbrot law to solve authorship attribution applications by Gaussian statistics"
 * Van Droogenbroeck, Frans J. (2016) "Handling the Zipf distribution in computerized authorship attribution"
 * Van Droogenbroeck, Frans J. (2019) "An essential rephrasing of the Zipf-Mandelbrot law to solve authorship attribution applications by Gaussian statistics"
 * Van Droogenbroeck, Frans J. (2016) "Handling the Zipf distribution in computerized authorship attribution"
 * Van Droogenbroeck, Frans J. (2019) "An essential rephrasing of the Zipf-Mandelbrot law to solve authorship attribution applications by Gaussian statistics"
 * Van Droogenbroeck, Frans J. (2016) "Handling the Zipf distribution in computerized authorship attribution"
 * Van Droogenbroeck, Frans J. (2019) "An essential rephrasing of the Zipf-Mandelbrot law to solve authorship attribution applications by Gaussian statistics"
 * Van Droogenbroeck, Frans J. (2016) "Handling the Zipf distribution in computerized authorship attribution"
 * Van Droogenbroeck, Frans J. (2019) "An essential rephrasing of the Zipf-Mandelbrot law to solve authorship attribution applications by Gaussian statistics"
 * Van Droogenbroeck, Frans J. (2016) "Handling the Zipf distribution in computerized authorship attribution"
 * Van Droogenbroeck, Frans J. (2019) "An essential rephrasing of the Zipf-Mandelbrot law to solve authorship attribution applications by Gaussian statistics"
 * Van Droogenbroeck, Frans J. (2016) "Handling the Zipf distribution in computerized authorship attribution"
 * Van Droogenbroeck, Frans J. (2019) "An essential rephrasing of the Zipf-Mandelbrot law to solve authorship attribution applications by Gaussian statistics"
 * Van Droogenbroeck, Frans J. (2016) "Handling the Zipf distribution in computerized authorship attribution"
 * Van Droogenbroeck, Frans J. (2019) "An essential rephrasing of the Zipf-Mandelbrot law to solve authorship attribution applications by Gaussian statistics"
 * Van Droogenbroeck, Frans J. (2016) "Handling the Zipf distribution in computerized authorship attribution"
 * Van Droogenbroeck, Frans J. (2019) "An essential rephrasing of the Zipf-Mandelbrot law to solve authorship attribution applications by Gaussian statistics"
 * Van Droogenbroeck, Frans J. (2016) "Handling the Zipf distribution in computerized authorship attribution"
 * Van Droogenbroeck, Frans J. (2019) "An essential rephrasing of the Zipf-Mandelbrot law to solve authorship attribution applications by Gaussian statistics"
 * Van Droogenbroeck, Frans J. (2019) "An essential rephrasing of the Zipf-Mandelbrot law to solve authorship attribution applications by Gaussian statistics"

अग्रिम पठन
See also the academic journal Literary and Linguistic Computing, now Digital Scholarship in the Humanities (published by the University of Oxford) and the Language Resources and Evaluation journal (previously Computers and the Humanities).

बाहरी संबंध

 * Association for Computers and the Humanities
 * Literary and Linguistic Computing
 * Computational Stylistics Group
 * Signature Stylometric System
 * JGAAP Authorship Attribution Program
 * Uncovering the Mystery of J.K. Rowling's Latest Novel