स्पीकर डायराइजेशन

स्पीकर डायराइजेशन (अमेरिकी और ब्रिटिश अंग्रेजी वर्तनी अंतर # -ise.2C -ize .28-isation.2C -ization.29 डायराइजेशन) प्रत्येक वक्ता की पहचान के अनुसार मानव भाषण युक्त एक ऑडियो स्ट्रीम को सजातीय खंडों में विभाजित करने की प्रक्रिया है। यह ऑडियो स्ट्रीम को स्पीकर टर्न में संरचित करके और स्पीकर की वास्तविक पहचान प्रदान करके, वाक् पहचान सिस्टम के साथ उपयोग किए जाने पर वक्ता मान्यता की पठनीयता को बढ़ा सकता है। इसका प्रयोग इस प्रश्न का उत्तर देने के लिए किया जाता है कि कौन कब बोला? स्पीकर डायराइजेशन स्पीकर सेगमेंटेशन और स्पीकर क्लस्टरिंग का संयोजन है। पहले का उद्देश्य ऑडियो स्ट्रीम में स्पीकर परिवर्तन बिंदु खोजना है। दूसरा उद्देश्य वक्ता की विशेषताओं के आधार पर भाषण खंडों को एक साथ समूहीकृत करना है।

ब्रॉडकास्ट की बढ़ती संख्या के साथ, हर साल मीटिंग रिकॉर्डिंग और वॉइस मेल एकत्र किए जाते हैं, स्पीकर डायरीकरण ने भाषण समुदाय द्वारा बहुत अधिक ध्यान आकर्षित किया है, जैसा कि टेलीफोन के लिए राष्ट्रीय मानक और प्रौद्योगिकी संस्थान के तत्वावधान में इसके लिए समर्पित विशिष्ट मूल्यांकन से प्रकट होता है। भाषण, प्रसारण समाचार और बैठकें।

डायराइजेशन सिस्टम के मुख्य प्रकार
स्पीकर डायरीकरण में, सबसे लोकप्रिय तरीकों में से एक है प्रत्येक स्पीकर को मॉडल करने के लिए एक मिश्रण मॉडल का उपयोग करना, और एक छिपे हिडन मार्कोव मॉडल की सहायता से प्रत्येक स्पीकर के लिए संबंधित फ्रेम असाइन करना। क्लस्टरिंग परिदृश्य के दो मुख्य प्रकार हैं। पहला अब तक का सबसे लोकप्रिय है और इसे बॉटम-अप कहा जाता है। एल्गोरिथ्म क्लस्टर के उत्तराधिकार में पूर्ण ऑडियो सामग्री को विभाजित करना शुरू करता है और एक ऐसी स्थिति तक पहुंचने के लिए उत्तरोत्तर निरर्थक समूहों को मर्ज करने का प्रयास करता है जहां प्रत्येक क्लस्टर एक वास्तविक वक्ता से मेल खाता है। दूसरी क्लस्टरिंग रणनीति को टॉप-डाउन कहा जाता है और सभी ऑडियो डेटा के लिए एक सिंगल क्लस्टर से शुरू होता है और इसे तब तक विभाजित करने की कोशिश करता है जब तक कि वक्ताओं की संख्या के बराबर समूहों की संख्या तक पहुँचना। 2010 की समीक्षा पर देखी जा सकती है।

हाल ही में, कृत्रिम तंत्रिका नेटवर्क और भारी ग्राफ़िक्स प्रोसेसिंग युनिट  कंप्यूटिंग के कारण स्पीकर डायराइजेशन किया जाता है, जिससे कुछ अधिक कुशल डायरेक्शन एल्गोरिथम संभव हो जाता है।

ओपन सोर्स स्पीकर डायराइजेशन सॉफ्टवेयर
स्पीकर डायरीकरण के लिए कुछ ओपन सोर्स पहलें हैं (वर्णानुक्रम में):


 * ALIZE स्पीकर डायराइजेशन (अंतिम रिपॉजिटरी अपडेट: जुलाई 2016; अंतिम रिलीज़: फरवरी 2013, संस्करण: 3.0): एलीज़ डायराइज़ेशन सिस्टम, एविग्नन विश्वविद्यालय में विकसित किया गया, एक रिलीज़ 2.0 उपलब्ध है fr/svn/LIA_RAL/branches/2.0/LIA_SpkSeg/।
 * ऑडियो सेग (अंतिम रिपॉजिटरी अपडेट: मई 2014; अंतिम रिलीज़: जनवरी 2010, संस्करण: 1.2): ऑडियोसेग एक टूलकिट है जो ऑडियो विभाजन और ऑडियो स्ट्रीम के वर्गीकरण के लिए समर्पित है। ।
 * pyannote.audio (अंतिम रिपॉजिटरी अपडेट: अगस्त 2022, अंतिम रिलीज़: जुलाई 2022, संस्करण: 2.0): pyannote.audio स्पीकर डायराइजेशन के लिए पायथन में लिखा गया एक ओपन-सोर्स टूलकिट है। ।
 * pyAudioAnalysis (अंतिम रिपॉजिटरी अपडेट: अगस्त 2018): पायथन ऑडियो एनालिसिस लाइब्रेरी: फ़ीचर एक्सट्रैक्शन, क्लासिफिकेशन, सेगमेंटेशन और एप्लिकेशन
 * SHoUT (अंतिम अपडेट: दिसंबर 2010; संस्करण: 0.3): SHoUT एक सॉफ्टवेयर पैकेज है जिसे ट्वेंटी विश्वविद्यालय में वाक् पहचान अनुसंधान में सहायता के लिए विकसित किया गया है। SHoUT ट्वेंटी विश्वविद्यालय में वाक् पहचान अनुसंधान के लिए एक डच परिवर्णी शब्द है।
 * |LIUM SpkDiarization (अंतिम रिलीज़: सितंबर 2013, संस्करण: 8.4.1): LIUM_SpkDiarization टूल lium.univ-lemans.fr/fr/content/liumspkdiarization।