स्पीकर डायराइजेशन

वक्ता डायरीकरण प्रत्येक वक्ता की पहचान के अनुसार मानव भाषण युक्त ऑडियो स्ट्रीम को सजातीय खंडों में विभाजित करने की प्रक्रिया है। यह ऑडियो स्ट्रीम को वक्ता घुमाव में संरचित करके एवं वक्ता की वास्तविक पहचान प्रदान करके, वाक् पहचान प्रणाली के साथ उपयोग किए जाने पर वक्ता मान्यता की पठनीयता को बढ़ा सकता है। इसका प्रयोग इस प्रश्न का उत्तर देने के लिए किया जाता है कि कौन कब बोला? वक्ता डायरीकरण वक्ता विभाजन एवं वक्ता समूह का संयोजन है। पूर्व का उद्देश्य ऑडियो स्ट्रीम में वक्ता परिवर्तन बिंदु अवलोकन करना है। दूसरा उद्देश्य वक्ता की विशेषताओं के आधार पर भाषण खंडों को साथ में समूहीकृत करना है।

प्रसारण की बढ़ती संख्या के साथ, प्रत्येक वर्ष बैठक अभिलेख एवं स्वर-पत्र एकत्र किए जाते हैं, वक्ता डायरीकरण ने भाषण समुदाय द्वारा अधिक ध्यान आकर्षित किया है, जैसा कि टेलीफोन के लिए राष्ट्रीय मानक एवं प्रौद्योगिकी संस्थान के तत्वावधान में इसके लिए समर्पित विशिष्ट मूल्यांकन से प्रकट होता है। भाषण, प्रसारण समाचार एवं बैठकें होती है।

डायरीकरण प्रणाली के मुख्य प्रकार
वक्ता डायरीकरण में, सबसे लोकप्रिय प्रविधियों में से है, प्रत्येक वक्ता को प्रतिरूप करने के लिए मिश्रण प्रतिरूप का उपयोग करना, एवं छिपे मार्कोव प्रतिरूप की सहायता से प्रत्येक वक्ता के लिए संबंधित आकृति नियुक्त करना है। क्लस्टरिंग परिदृश्य के दो मुख्य प्रकार हैं। प्रथम अब तक का सबसे लोकप्रिय है एवं इसे बॉटम-अप कहा जाता है। एल्गोरिथ्म क्लस्टर के उत्तराधिकार में पूर्ण ऑडियो सामग्री को विभाजित करना प्रारम्भ करता है एवं ऐसी स्थिति तक पहुंचने के लिए उत्तरोत्तर निरर्थक समूहों को विलय करने का प्रयत्न करता है जहां प्रत्येक समूह वास्तविक वक्ता से मेल खाता है। दूसरी क्लस्टरिंग रणनीति को टॉप-डाउन कहा जाता है एवं सभी श्रवण डेटा के लिए एकल समूह से प्रारम्भ होता है एवं इसे तब तक विभाजित करने का प्रयत्न करता है जब तक कि वक्ताओं की संख्या के समान समूहों की संख्या तक पहुँचना 2010 की समीक्षा पर देखा जा सकता है।

शीघ्र में ही, कृत्रिम तंत्रिका नेटवर्क एवं स्थूल ग्राफ़िक्स प्रोसेसिंग युनिट कंप्यूटिंग के कारण वक्ता डायरीकरण किया जाता है, जिससे कुछ अधिक कुशल डायरीकरण एल्गोरिथम संभव हो जाता है।

ओपन सोर्स वक्ता डायरीकरण सॉफ्टवेयर
वक्ता डायरीकरण के लिए कुछ ओपन सोर्स पहलें हैं (वर्णानुक्रम में):


 * ALIZE वक्ता डायरीकरण (अंतिम रिपॉजिटरी अपडेट: जुलाई 2016; अंतिम रिलीज़: फरवरी 2013, संस्करण: 3.0): एलीज़ डायराइज़ेशन प्रणाली, एविग्नन विश्वविद्यालय में विकसित किया गया, एक रिलीज़ 2.0 उपलब्ध है fr/svn/LIA_RAL/branches/2.0/LIA_SpkSeg/।
 * ऑडियो सेग (अंतिम रिपॉजिटरी अपडेट: मई 2014; अंतिम रिलीज़: जनवरी 2010, संस्करण: 1.2): ऑडियोसेग एक टूलकिट है जो ऑडियो विभाजन एवं ऑडियो स्ट्रीम के वर्गीकरण के लिए समर्पित है। ।
 * pyannote.audio (अंतिम रिपॉजिटरी अपडेट: अगस्त 2022, अंतिम रिलीज़: जुलाई 2022, संस्करण: 2.0): pyannote.audio वक्ता डायरीकरण के लिए पायथन में लिखा गया एक ओपन-सोर्स टूलकिट है। ।
 * pyAudioAnalysis (अंतिम रिपॉजिटरी अपडेट: अगस्त 2018): पायथन ऑडियो एनालिसिस लाइब्रेरी: फ़ीचर एक्सट्रैक्शन, क्लासिफिकेशन, विभाजन एवं एप्लिकेशन
 * SHoUT (अंतिम अपडेट: दिसंबर 2010; संस्करण: 0.3): SHoUT एक सॉफ्टवेयर पैकेज है जिसे ट्वेंटी विश्वविद्यालय में वाक् पहचान अनुसंधान में सहायता के लिए विकसित किया गया है। SHoUT ट्वेंटी विश्वविद्यालय में वाक् पहचान अनुसंधान के लिए एक डच परिवर्णी शब्द है।
 * |LIUM SpkDiarization (अंतिम रिलीज़: सितंबर 2013, संस्करण: 8.4.1): LIUM_SpkDiarization टूल lium.univ-lemans.fr/fr/content/liumspkdiarization।