स्पीकर डायराइजेशन

स्पीकर डायराइजेशन प्रत्येक स्पीकर की पहचान के अनुसार मानव भाषण युक्त श्रवण स्ट्रीम को सजातीय खंडों में विभाजित करने की प्रक्रिया है। यह श्रवण स्ट्रीम को स्पीकर घुमाव में संरचित करके एवं स्पीकर की वास्तविक पहचान प्रदान करके, वाक् प्रमाण प्रणाली के साथ उपयोग किए जाने पर स्पीकर मान्यता की पठनीयता को विस्तृत कर सकता है। इसका प्रयोग इस प्रश्न का उत्तर देने के लिए किया जाता है कि कौन कब बोला? स्पीकर डायराइजेशन स्पीकर विभाजन एवं स्पीकर समूह का संयोजन है। पूर्व का उद्देश्य श्रवण स्ट्रीम में स्पीकर परिवर्तन बिंदु अवलोकन करना है। द्वितीय उद्देश्य स्पीकर की विशेषताओं के आधार पर भाषण खंडों को साथ में समूहीकृत करना है।

प्रसारण की विस्तृत संख्या के साथ, प्रत्येक वर्ष बैठक अभिलेख एवं स्वर-पत्र एकत्र किए जाते हैं, स्पीकर डायराइजेशन ने भाषण समुदाय द्वारा अधिक ध्यान आकर्षित किया है, जैसा कि टेलीफोन के लिए राष्ट्रीय मानक एवं प्रौद्योगिकी संस्थान के तत्वावधान में इसके लिए समर्पित विशिष्ट मूल्यांकन से प्रकट होता है। भाषण, प्रसारण समाचार एवं बैठकें होती है।

डायरीकरण प्रणाली के मुख्य प्रकार
स्पीकर डायराइजेशन में, सबसे लोकप्रिय प्रविधियों में से है, प्रत्येक स्पीकर को प्रतिरूप करने के लिए मिश्रण प्रतिरूप का उपयोग करना, एवं छिपे मार्कोव प्रतिरूप की सहायता से प्रत्येक स्पीकर के लिए संबंधित आकृति नियुक्त करना है। क्लस्टरिंग परिदृश्य के दो मुख्य प्रकार हैं। प्रथम अब तक का सबसे लोकप्रिय है एवं इसे बॉटम-अप कहा जाता है। एल्गोरिथ्म क्लस्टर के उत्तराधिकार में पूर्ण श्रवण सामग्री को विभाजित करना प्रारम्भ करता है एवं ऐसी स्थिति तक पहुंचने के लिए उत्तरोत्तर निरर्थक समूहों को विलय करने का प्रयत्न करता है जहां प्रत्येक समूह वास्तविक स्पीकर से युग्मित होता है। द्वितीय क्लस्टरिंग रणनीति को टॉप-डाउन कहा जाता है एवं सभी श्रवण डेटा के लिए एकल समूह से प्रारम्भ होता है एवं इसे तब तक विभाजित करने का प्रयत्न करता है जब तक कि स्पीकरों की संख्या के समान समूहों की संख्या तक पहुँचना 2010 की समीक्षा पर देखा जा सकता है।

शीघ्र ही, कृत्रिम तंत्रिका नेटवर्क एवं स्थूल ग्राफ़िक्स प्रोसेसिंग युनिट कंप्यूटिंग के कारण स्पीकर डायराइजेशन किया जाता है, जिससे कुछ अधिक कुशल डायरीकरण एल्गोरिथम संभव हो जाता है।

विवृत स्रोत स्पीकर डायराइजेशन प्रक्रिया सामग्री
स्पीकर डायराइजेशन के लिए कुछ विवृत स्रोत प्रयत्न हैं (वर्णानुक्रम में)-


 * एलीज़ स्पीकर डायराइजेशन (अंतिम संग्रह अद्यतन जुलाई 2016; अंतिम प्रदर्शन: फरवरी 2013, संस्करण: 3.0): एलीज़ डायरीकरण प्रणाली, एविग्नन विश्वविद्यालय में विकसित किया गया, प्रदर्शन 2.0 उपलब्ध होता है।
 * श्रवण अनुभाग (अंतिम संग्रह अद्यतन: मई 2014; अंतिम प्रदर्शन: जनवरी 2010, संस्करण: 1.2): श्रवण अनुभाग उपकरण है, जो श्रवण विभाजन एवं श्रवण धारा के वर्गीकरण के लिए समर्पित होता है।
 * पायनोट श्रवण (अंतिम संग्रह अद्यतन: अगस्त 2022, अंतिम प्रदर्शन: जुलाई 2022, संस्करण: 2.0): पायनोट श्रवण स्पीकर डायराइजेशन के लिए पायथन में लिखा गया विवृत स्रोत उपकरण है।
 * पायथन श्रवण विश्लेषण (अंतिम संग्रह अद्यतन: अगस्त 2018): पायथन श्रवण विश्लेषण पुस्तकालय: सुविधा निकालना, वर्गीकरण, विभाजन एवं अनुप्रयोग करना है।
 * शाउट (अंतिम अद्यतन: दिसंबर 2010; संस्करण: 0.3): शाउट सॉफ्टवेयर पैकेज है जिसे ट्वेंटी विश्वविद्यालय में वाक् प्रमाण अनुसंधान में सहायता के लिए विकसित किया गया है। शाउट ट्वेंटी विश्वविद्यालय में वाक् प्रमाण अनुसंधान के लिए डच परिवर्णी शब्द होता है।
 * |LIUM SpkDiarization (अंतिम प्रदर्शन: सितंबर 2013, संस्करण: 8.4.1): LIUM_SpkDiarization (डायरीकरण) उपकरण है।