समूह परीक्षण

सांख्यिकी और संयोजन विज्ञान में, समूह परीक्षण कोई भी प्रक्रिया है जो कुछ वस्तुओं की पहचान करने के कार्य को अलग-अलग वस्तुओं के बजाय वस्तुओं के समूहों पर परीक्षण में विभाजित करती है। पहली बार 1943 में रॉबर्ट डॉर्फमैन द्वारा अध्ययन किया गया, समूह परीक्षण अनुप्रयुक्त गणित का एक अपेक्षाकृत नया क्षेत्र है जिसे व्यावहारिक अनुप्रयोगों की एक विस्तृत श्रृंखला पर अनुप्रयुक्त किया जा सकता है और आज अनुसंधान का एक सक्रिय क्षेत्र है।

समूह परीक्षण के एक परिचित उदाहरण में श्रृंखला में जुड़े प्रकाश बल्बों की एक श्रृंखला सम्मिलित होती है, जहां बल्बों में से एक को टूटा हुआ जाना जाता है। इसका उद्देश्य सबसे कम संख्या में परीक्षणों का उपयोग करके टूटे हुए बल्ब को ढूंढना है (जहां एक परीक्षण तब होता है जब कुछ बल्ब बिजली की आपूर्ति से जुड़े होते हैं)। प्रत्येक बल्ब का व्यक्तिगत रूप से परीक्षण करना एक सरल तरीका है। हालाँकि, जब बड़ी संख्या में बल्ब होते हैं तो बल्बों को समूहों में पूल करना अधिक कुशल होगा। उदाहरण के लिए, बल्बों के पहले आधे भाग को एक साथ जोड़कर, यह निर्धारित किया जा सकता है कि कौन सा आधा बल्ब टूटा हुआ है, केवल एक परीक्षण में आधे बल्बों को खारिज कर दिया गया है।

समूह परीक्षण करने की योजनाएँ सरल या सम्मिश्र हो सकती हैं और प्रत्येक चरण में सम्मिलित परीक्षण भिन्न हो सकते हैं। ऐसी योजनाएँ जिनमें अगले चरण के परीक्षण पिछले चरणों के परिणामों पर निर्भर करते हैं, उन्हें 'अनुकूली प्रक्रियाएँ' कहा जाता है, जबकि योजनाएँ इस तरह से परिकल्पित की जाती हैं कि सभी परीक्षणों को पूर्व से जाना जाता है, जिन्हें 'गैर-अनुकूली प्रक्रियाएँ' कहा जाता है। एक गैर-अनुकूली प्रक्रिया में सम्मिलित परीक्षणों की योजना की संरचना को 'संयोजन प्रारुप' के रूप में जाना जाता है।

समूह परीक्षण में सांख्यिकी, जीव विज्ञान, अभिकलित्र विज्ञान, चिकित्सा, अभियांत्रिकी और साइबर सुरक्षा सहित कई अनुप्रयोग हैं। मानव जीनोम परियोजना द्वारा इन परीक्षण योजनाओं में आधुनिक रुचि को पुनः जगाया गया है।

मूल विवरण और शर्तें
गणित के कई क्षेत्रों के विपरीत, समूह परीक्षण की उत्पत्ति एक ही रिपोर्ट में खोजी जा सकती है एक व्यक्ति द्वारा लिखित: रॉबर्ट डोर्फ़मैन। द्वितीय विश्व युद्ध के पर्यंत प्रेरणा उत्पन्न हुई जब संयुक्त राज्य अमेरिका की सार्वजनिक स्वास्थ्य सेवा और चयनात्मक सेवा प्रणाली ने सभी उपदंश पुरुषों को सम्मिलित करने के लिए बुलाए जाने के लिए एक बड़े पैमाने पर परियोजना शुरू की। सिफलिस के लिए किसी व्यक्ति के परीक्षण में रक्त का नमूना लेना और फिर सिफलिस की उपस्थिति या अनुपस्थिति का निर्धारण करने के लिए नमूने का विश्लेषण करना सम्मिलित है। उस समय, यह परीक्षण करना महंगा था, और प्रत्येक सैनिक का व्यक्तिगत रूप से परीक्षण करना बहुत महंगा और अक्षम होता।

मान लीजिए कि हैं $$n$$ सैनिकों, परीक्षण की इस पद्धति की ओर जाता है $$n$$ अलग परीक्षण। यदि लोगों का एक बड़ा हिस्सा संक्रमित है तो यह तरीका उचित होगा। हालांकि, अधिक संभावना वाले मामले में कि पुरुषों का केवल एक बहुत ही छोटा हिस्सा संक्रमित होता है, एक अधिक कुशल परीक्षण योजना प्राप्त की जा सकती है। एक अधिक प्रभावी परीक्षण योजना की व्यवहार्यता निम्नलिखित गुणों पर निर्भर करती है: सैनिकों को समूहों में बांटा जा सकता है, और प्रत्येक समूह में रक्त के प्रतिरूपों को एक साथ जोड़ा जा सकता है। संयुक्त नमूने का परीक्षण यह जांचने के लिए किया जा सकता है कि समूह में कम से कम एक सैनिक को सिफलिस है या नहीं। समूह परीक्षण के पीछे यह केंद्रीय विचार है। यदि इस समूह के एक या अधिक सैनिकों को सिफलिस है, तो एक परीक्षण व्यर्थ है (यह कौन सा सैनिक था यह जानने के लिए और परीक्षण किए जाने की आवश्यकता है)। दूसरी ओर, यदि पूल में किसी को सिफलिस नहीं है, तो कई परीक्षण बच जाते हैं, क्योंकि उस समूह के प्रत्येक सैनिक को केवल एक परीक्षण से समाप्त किया जा सकता है।

जिन वस्तुओं के कारण एक समूह सकारात्मक परीक्षण करता है, उन्हें सामान्यतः दोषपूर्ण आइटम कहा जाता है (ये टूटे हुए लाइटबल्ब, सिफिलिटिक पुरुष, आदि हैं)। प्रायः, वस्तुओं की कुल संख्या को इस रूप में दर्शाया जाता है $$n$$ और $$d$$ ज्ञात होने पर दोषों की संख्या का प्रतिनिधित्व करता है।

समूह-परीक्षण समस्याओं का वर्गीकरण
समूह-परीक्षण समस्याओं के लिए दो स्वतंत्र वर्गीकरण हैं; प्रत्येक समूह-परीक्षण समस्या या तो अनुकूली या गैर-अनुकूली होती है, और या तो संभाव्य या मिश्रित होती है।

संभाव्य मॉडलों में, दोषपूर्ण वस्तुओं को कुछ संभाव्यता वितरण का पालन करने के लिए माना जाता है और इसका उद्देश्य प्रत्येक वस्तु की दोषपूर्णता की पहचान करने के लिए आवश्यक परीक्षणों की अपेक्षित मूल्य संख्या को कम करना है। दूसरी ओर, संयोजी समूह परीक्षण के साथ, लक्ष्य 'सबसे खराब स्थिति' में आवश्यक परीक्षणों की संख्या को कम करना है - अर्थात, एक मिनमैक्स एल्गोरिदम  बनाएं - और दोषों के वितरण का कोई ज्ञान नहीं माना जाता है।

अन्य वर्गीकरण, अनुकूलता, इस बात से संबंधित है कि परीक्षण में किन वस्तुओं को समूहित करने के लिए चुनते समय कौन सी सूचना का उपयोग किया जा सकता है। सामान्य तौर पर, परीक्षण करने के लिए किन वस्तुओं का चुनाव पिछले परीक्षणों के परिणामों पर निर्भर कर सकता है, जैसा कि उपरोक्त लाइटबल्ब समस्या में है। एक कलन विधि जो एक परीक्षण करके आगे बढ़ता है, और फिर परिणाम (और सभी पिछले परिणाम) का उपयोग करके यह तय करता है कि कौन सा अगला परीक्षण करना है, अनुकूली कहा जाता है। इसके विपरीत, गैर-अनुकूली एल्गोरिदम में, सभी परीक्षण पहले से तय किए जाते हैं। इस विचार को मल्टीस्टेज एल्गोरिदम के लिए सामान्यीकृत किया जा सकता है, जहां परीक्षणों को चरणों में विभाजित किया जाता है, और अगले चरण में प्रत्येक परीक्षण को पहले से तय किया जाना चाहिए, केवल पिछले चरणों में परीक्षणों के परिणामों के ज्ञान के साथ। हालांकि अनुकूली एल्गोरिदम डिजाइन में बहुत अधिक स्वतंत्रता प्रदान करते हैं, यह ज्ञात है कि अनुकूली समूह-परीक्षण एल्गोरिदम दोषपूर्ण वस्तुओं के समुच्चय की पहचान करने के लिए आवश्यक परीक्षणों की संख्या में एक स्थिर कारक से अधिक गैर-अनुकूली पर सुधार नहीं करते हैं। इसके अलावा, गैर-अनुकूली विधियां प्रायः व्यवहार में उपयोगी होती हैं क्योंकि परीक्षण प्रक्रिया के प्रभावी वितरण की अनुमति देते हुए, पिछले सभी परीक्षणों के परिणामों का पहले विश्लेषण किए बिना क्रमिक परीक्षणों के साथ आगे बढ़ सकते हैं।

रूपांतर और विस्तार
समूह परीक्षण की समस्या को बढ़ाने के कई तरीके हैं। सबसे महत्वपूर्ण में से एक को शोर समूह परीक्षण कहा जाता है, और मूल समस्या की एक बड़ी धारणा से संबंधित है: यह परीक्षण त्रुटि रहित है। एक समूह-परीक्षण समस्या को शोर कहा जाता है जब कुछ संभावना होती है कि समूह परीक्षण का परिणाम गलत होता है (उदाहरण के लिए सकारात्मक आता है जब परीक्षण में कोई दोष नहीं होता है)। बर्नौली शोर मॉडल मानता है कि यह संभावना कुछ स्थिर है, $$q$$, लेकिन सामान्य तौर पर यह परीक्षण में दोषों की वास्तविक संख्या और परीक्षण की गई वस्तुओं की संख्या पर निर्भर कर सकता है। उदाहरण के लिए, कमजोर पड़ने के प्रभाव को एक सकारात्मक परिणाम कहकर मॉडल किया जा सकता है जब परीक्षण में अधिक दोष (या परीक्षण संख्या के एक अंश के रूप में अधिक दोषपूर्ण) होते हैं। एक शोर एल्गोरिथम में हमेशा एक त्रुटि करने की गैर-शून्य संभावना होगी (अर्थात, किसी आइटम को गलत तरीके से लेबल करना)।

समूह परीक्षण को उन परिदृश्यों पर विचार करके बढ़ाया जा सकता है जिनमें एक परीक्षण के दो से अधिक संभावित परिणाम हैं। उदाहरण के लिए, एक परीक्षण के परिणाम हो सकते हैं $$0, 1$$ और $$2^+$$, कोई दोष नहीं होने के अनुरूप, एक दोषपूर्ण, या एक से अधिक दोषों की अज्ञात संख्या। अधिक सामान्यतः, परीक्षण के परिणाम-समुच्चय पर विचार करना संभव है $${0, 1, \ldots, k^+}$$ कुछ के लिए $$k \in \mathbb{N}$$.

एक और विस्तार ज्यामितीय प्रतिबंधों पर विचार करना है, जिन पर समुच्चय का परीक्षण किया जा सकता है। उपरोक्त लाइटबल्ब समस्या इस प्रकार के प्रतिबंध का एक उदाहरण है: केवल लगातार दिखाई देने वाले बल्बों का परीक्षण किया जा सकता है। इसी तरह, वस्तुओं को एक सर्कल में व्यवस्थित किया जा सकता है, या सामान्य तौर पर, एक नेट, जहां ग्राफ़ पर परीक्षण उपलब्ध पथ हैं। एक अन्य प्रकार का ज्यामितीय प्रतिबंध उन वस्तुओं की अधिकतम संख्या पर होगा जिनका एक समूह में परीक्षण किया जा सकता है, या समूह का आकार सम होना चाहिए और इसी तरह आगे भी। इसी तरह, यह प्रतिबंध पर विचार करने के लिए उपयोगी हो सकता है कि कोई भी आइटम केवल कुछ निश्चित परीक्षणों में ही प्रदर्शित हो सकता है।

समूह परीक्षण के मूल सूत्र को रीमिक्स करना जारी रखने के अंतहीन तरीके हैं। निम्नलिखित विस्तार से कुछ अधिक विदेशी रूपों का विचार मिलेगा। 'अच्छे-औसत-खराब' मॉडल में, प्रत्येक आइटम 'अच्छे', 'औसत दर्जे' या 'बुरे' में से एक है, और एक परीक्षण का परिणाम समूह में 'सबसे खराब' आइटम का प्रकार है। दहलीज समूह परीक्षण में, परीक्षण का परिणाम सकारात्मक होता है यदि समूह में दोषपूर्ण वस्तुओं की संख्या कुछ सीमा मान या अनुपात से अधिक है। अवरोधकों के साथ समूह परीक्षण आण्विक जीवविज्ञान में अनुप्रयोगों के साथ एक प्रकार है। यहां, अवरोधक नामक वस्तुओं की एक तीसरी श्रेणी है, और एक परीक्षण का परिणाम सकारात्मक होता है यदि इसमें कम से कम एक दोषपूर्ण और कोई अवरोधक नहीं होता है।

आविष्कार और प्रारंभिक प्रगति
समूह परीक्षण की अवधारणा को पहली बार 1943 में रॉबर्ट डॉर्फमैन ने एक छोटी रिपोर्ट में पेश किया था गणितीय सांख्यिकी के इतिहास के नोट्स अनुभाग में प्रकाशित। डोर्फ़मैन की रिपोर्ट - जैसा कि समूह परीक्षण पर सभी शुरुआती काम के साथ - संभाव्य समस्या पर केंद्रित है, और सैनिकों के दिए गए पूल में सभी सिफिलिटिक पुरुषों को छांटने के लिए आवश्यक परीक्षणों की अपेक्षित संख्या को कम करने के लिए समूह परीक्षण के उपन्यास विचार का उपयोग करने का लक्ष्य है।. विधि सरल थी: सैनिकों को एक दिए गए आकार के समूहों में रखें, और सकारात्मक समूहों पर अलग-अलग परीक्षण (आकार एक के समूहों में परीक्षण आइटम) का उपयोग करके पता लगाएं कि कौन से संक्रमित थे। डोर्फ़मैन ने जनसंख्या में दोषपूर्णता की व्यापकता दर के विरुद्ध इस रणनीति के लिए इष्टतम समूह आकार सारणीबद्ध किया। स्टीफन सैमुअल्स प्रसार दर के कार्य के रूप में इष्टतम समूह आकार के लिए एक बंद-रूप समाधान मिला।

1943 के बाद, कई वर्षों तक समूह परीक्षण काफी हद तक अछूता रहा। फिर 1957 में, स्टेरेट ने डॉर्फ़मैन की प्रक्रिया में सुधार किया। यह नई प्रक्रिया फिर से सकारात्मक समूहों पर अलग-अलग परीक्षण करके शुरू होती है, लेकिन जैसे ही दोष की पहचान होती है, रुक जाती है। फिर, समूह में शेष वस्तुओं का एक साथ परीक्षण किया जाता है, क्योंकि यह बहुत संभावना है कि उनमें से कोई भी दोषपूर्ण नहीं है।

सोबेल और ग्रॉल द्वारा समूह परीक्षण का पहला संपूर्ण उपचार इस विषय पर उनके प्रारंभिक 1959 के पेपर में दिया गया था। उन्होंने पांच नई प्रक्रियाओं का वर्णन किया - व्यापकता दर अज्ञात होने पर सामान्यीकरण के अलावा - और इष्टतम के लिए, उन्होंने परीक्षणों की अपेक्षित संख्या के लिए एक स्पष्ट सूत्र प्रदान किया जो इसका उपयोग करेगा। पेपर ने पहली बार समूह परीक्षण और सूचना सिद्धांत के मध्य संबंध भी बनाया, साथ ही समूह-परीक्षण समस्या के कई सामान्यीकरणों पर चर्चा की और सिद्धांत के कुछ नए अनुप्रयोग प्रदान किए।

1960 में पीटर उंगर द्वारा मौलिक परिणाम से पता चलता है कि यदि व्यापकता दर $$p>p_{u}=(3-\sqrt{5})/2\approx 0.38$$, तो व्यक्तिगत परीक्षण परीक्षणों की अपेक्षित संख्या के संबंध में इष्टतम समूह परीक्षण प्रक्रिया है, और यदि $$p2$$.

मिश्रित समूह परीक्षण
समूह परीक्षण का पहली बार 1962 में ली द्वारा मिश्रित संदर्भ में अध्ययन किया गया था, ली की शुरूआत के साथ $$s$$-स्टेज एल्गोरिथम। ली के विस्तार का प्रस्ताव रखा डोरफ़मैन का '2-स्टेज एल्गोरिथम' चरणों की एक मनमानी संख्या के लिए जिसे और अधिक की आवश्यकता नहीं है बजाय $$t = \frac{e}{\log_2(e)}d \log_2(n)$$ परीक्षण खोजने की गारंटी होगी $$d$$ या कम दोषपूर्ण $$n$$ सामान। विचार यह था कि नकारात्मक परीक्षणों में सभी वस्तुओं को हटा दिया जाए, और शेष वस्तुओं को समूहों में विभाजित कर दिया जाए जैसा कि प्रारंभिक पूल के साथ किया गया था। यह किया जाना था $$s - 1$$ व्यक्तिगत परीक्षण करने से पहले कई बार।

संयुक्त समूह परीक्षण सामान्य रूप से बाद में 1973 में कैटोना द्वारा पूर्ण तरह से अध्ययन किया गया था। काटोना ने गैर-अनुकूली समूह-परीक्षण के गैर-अनुकूली एल्गोरिदम का प्रतिनिधित्व पेश किया और गैर-अनुकूली 1-दोषपूर्ण मामले में दोषपूर्ण खोजने के लिए एक प्रक्रिया का उत्पादन किया $$t =\lceil \log_2(n) \rceil$$परीक्षण, जो वह भी इष्टतम साबित हुआ।

सामान्य तौर पर, अनुकूल संयोजन समूह परीक्षण के लिए इष्टतम एल्गोरिदम खोजना कठिन है, और हालांकि समूह परीक्षण के कम्प्यूटेशनल जटिलता सिद्धांत को निर्धारित नहीं किया गया है, यह कुछ जटिलता वर्ग में पूर्ण (जटिलता) होने का संदेह है। हालांकि, 1972 में #सामान्यीकृत बाइनरी-स्प्लिटिंग एल्गोरिथम|सामान्यीकृत बाइनरी-स्प्लिटिंग एल्गोरिथम की प्रारंभ के साथ एक महत्वपूर्ण सफलता मिली। सामान्यीकृत बाइनरी-स्प्लिटिंग एल्गोरिथम सकारात्मक परीक्षण करने वाले समूहों पर एक बाइनरी खोज करके काम करता है, और एक सरल एल्गोरिथ्म है जो #सूचना निचली सीमा से अधिक नहीं में एक दोष पाता है। सूचना-निम्न-सीमा परीक्षणों की संख्या।

ऐसे परिदृश्यों में जहां दो या दो से अधिक दोष हैं, सामान्यीकृत बाइनरी-विभाजन एल्गोरिथ्म अभी भी निकट-इष्टतम परिणाम उत्पन्न करता है, जिसके लिए अधिकतम आवश्यकता होती है $$d - 1$$ सूचना के ऊपर परीक्षण निचली सीमा जहाँ $$d$$ दोषों की संख्या है। 2013 में अल्लेमैन द्वारा इसमें काफी सुधार किए गए थे, जिससे परीक्षणों की आवश्यक संख्या कम हो गई थी $$0.187d + 0.5\log_2(d) + 5.5$$ सूचना के ऊपर निचली सीमा जब $$n/d \geq 38$$ और $$d \geq 10$$. यह बाइनरी-स्प्लिटिंग एल्गोरिथम में बाइनरी खोज को अतिव्यापी परीक्षण समूहों के साथ उप-एल्गोरिदम के एक सम्मिश्र समुच्चय में बदलकर प्राप्त किया गया था। जैसे, अनुकूली संयोजी समूह परीक्षण की समस्या - दोषों की संख्या पर एक ज्ञात संख्या या ऊपरी सीमा के साथ - आगे सुधार के लिए बहुत कम जगह के साथ अनिवार्य रूप से हल किया गया है।

एक खुला प्रश्न है कि व्यक्तिगत परीक्षण न्यूनतम कब होता है। हू, ह्वांग और वैंग ने 1981 में दिखाया कि व्यक्तिगत परीक्षण कब न्यूनतम होता है $$n \leq \lfloor (5d + 1)/2 \rfloor$$, और यह कि यह minmax कब नहीं है $$n > 3d$$. वर्तमान में यह अनुमान लगाया गया है कि यह सीमा तीक्ष्ण है: अर्थात, व्यक्तिगत परीक्षण न्यूनतम है यदि और केवल यदि $$n \leq 3d$$. 2000 में Riccio और Colbourn द्वारा कुछ प्रगति की गई, जिन्होंने बड़े पैमाने पर यह दिखाया $$n$$, व्यक्तिगत परीक्षण न्यूनतम है जब $$d \geq n/\log_{3/2}(3) \approx 0.369n$$.

गैर-अनुकूली और संभाव्य परीक्षण
गैर-अनुकूली समूह परीक्षण में प्रमुख अंतर्दृष्टि में से एक यह है कि आवश्यकता को समाप्त करके महत्वपूर्ण लाभ प्राप्त किया जा सकता है कि समूह-परीक्षण प्रक्रिया सफल होने के लिए निश्चित है (संयोजन समस्या), बल्कि इसे कुछ कम लेकिन गैर-शून्य होने की अनुमति दें प्रत्येक आइटम को गलत लेबल करने की संभावना (संभाव्य समस्या)। यह ज्ञात है कि जैसे-जैसे दोषपूर्ण वस्तुओं की संख्या वस्तुओं की कुल संख्या तक पहुँचती है, सटीक संयोजी समाधानों के लिए संभाव्य समाधानों की तुलना में काफी अधिक परीक्षणों की आवश्यकता होती है - यहाँ तक कि संभाव्य समाधान भी त्रुटि के केवल असममित रूप से इष्टतम एल्गोरिथ्म की अनुमति देते हैं।

इस नस में, चैन एट अल। (2011) ने #कॉम्बिनेटोरियल ऑर्थोगोनल मैचिंग परस्यूट (COMP) पेश किया, एक संभाव्य एल्गोरिथम जिसके लिए इससे अधिक की आवश्यकता नहीं है $$t = ed(1+\delta)\ln(n)$$ तक खोजने के लिए परीक्षण $$d$$ में खराबी है $$n$$ त्रुटि की संभावना वाले आइटम से अधिक नहीं $$n^{-\delta}$$. यह के एक स्थिर कारक के भीतर है $$t = O(d\log_2 n)$$ निम्न परिबंध।

चान एट अल। (2011) ने एक साधारण शोर मॉडल के लिए COMP का एक सामान्यीकरण भी प्रदान किया, और इसी तरह एक स्पष्ट प्रदर्शन बाध्यता का उत्पादन किया, जो फिर से केवल एक स्थिर (असफल परीक्षण की संभावना पर निर्भर) संबंधित निचली सीमा से ऊपर था। सामान्य तौर पर, बर्नौली शोर मामले में आवश्यक परीक्षणों की संख्या नीरव मामले की तुलना में एक बड़ा कारक है।

एल्ड्रिज, बलदासिनी और जॉनसन (2014) ने COMP एल्गोरिथम का एक विस्तार तैयार किया जिसमें अतिरिक्त पोस्ट-प्रोसेसिंग चरण जोड़े गए। उन्होंने दिखाया कि इस नए एल्गोरिथ्म का प्रदर्शन, जिसे #Definite दोषपूर्ण (DD) कहा जाता है, COMP से सख्ती से अधिक है, और यह कि DD उन परिदृश्यों में 'अनिवार्य रूप से इष्टतम' है जहां $$d^2 \geq n$$, इसे एक काल्पनिक एल्गोरिथम से तुलना करके जो एक उचित इष्टतम को परिभाषित करता है। इस काल्पनिक एल्गोरिथम के प्रदर्शन से पता चलता है कि जब सुधार की गुंजाइश है $$d^2 < n$$, साथ ही यह सुझाव दे रहा है कि इससे कितना सुधार हो सकता है।

संयोजक समूह परीक्षण का औपचारिककरण
यह खंड समूह परीक्षण से संबंधित धारणाओं और शर्तों को औपचारिक रूप से परिभाषित करता है।


 * इनपुट सदिश, $$\mathbf{x} = (x_1, x_2, \dots, x_n)$$, को लंबाई के बाइनरी सदिश के रूप में परिभाषित किया गया है $$n$$ (वह है, $$\mathbf{x} \in \{0,1\}^n$$), जे-वें आइटम को दोषपूर्ण कहा जा रहा है यदि और केवल यदि $$x_j= 1$$. इसके अलावा, किसी भी गैर-दोषपूर्ण वस्तु को 'अच्छी' वस्तु कहा जाता है।

$$\mathbf{x}$$ दोषपूर्ण वस्तुओं के (अज्ञात) समुच्चय का वर्णन करने का इरादा है। की प्रमुख संपत्ति है $$\mathbf{x}$$ यह है कि यह एक निहित इनपुट है। कहने का तात्पर्य यह है कि इसकी प्रविष्टियाँ क्या हैं, इसका कोई प्रत्यक्ष ज्ञान नहीं है $$\mathbf{x}$$ इसके अलावा, जो 'परीक्षणों' की कुछ श्रृंखलाओं के माध्यम से अनुमान लगाया जा सकता है। यह अगली परिभाषा की ओर जाता है।


 * होने देना $$\mathbf{x}$$ एक इनपुट सदिश बनें। एक समुच्चय, $$S \subseteq \{ 1, 2, \dots, n \}$$ एक परीक्षण कहा जाता है। जब परीक्षण नीरव होता है, तो परीक्षण के मौजूद होने पर उसका परिणाम सकारात्मक होता है $$j \in S$$ ऐसा है कि $$x_j = 1$$, और परिणाम नकारात्मक है अन्यथा।

इसलिए, समूह परीक्षण का लक्ष्य अनुमति देने वाले परीक्षणों की 'लघु' श्रृंखला चुनने के लिए एक विधि के साथ आना है $$\mathbf{x}$$ निर्धारित करने के लिए, या तो बिल्कुल या उच्च स्तर की निश्चितता के साथ।


 * एक समूह-परीक्षण एल्गोरिथम को एक त्रुटि करने के लिए कहा जाता है यदि यह किसी आइटम को गलत तरीके से लेबल करता है (अर्थात, किसी भी दोषपूर्ण आइटम को गैर-दोषपूर्ण या इसके विपरीत के रूप में लेबल करता है)। यह एक समूह परीक्षण के गलत होने के परिणाम के समान नहीं है। एक एल्गोरिथ्म को शून्य-त्रुटि कहा जाता है यदि संभावना है कि यह त्रुटि करता है शून्य है।
 * $$t(d, n)$$ हमेशा खोजने के लिए आवश्यक परीक्षणों की न्यूनतम संख्या को दर्शाता है $$d$$ मध्य में खराबी $$n$$ किसी भी समूह-परीक्षण एल्गोरिथम द्वारा त्रुटि की शून्य संभावना वाले आइटम। समान मात्रा के लिए लेकिन प्रतिबंध के साथ कि एल्गोरिथ्म गैर-अनुकूली है, अंकन $$\bar{t}(d, n)$$ प्रयोग किया जाता है।

सामान्य सीमा
चूंकि सेटिंग द्वारा व्यक्तिगत परीक्षण का सहारा लेना हमेशा संभव होता है $$S_j = \{j\}$$ प्रत्येक के लिए $$1 \leq j \leq n$$, यह वह होना चाहिए $$\bar{t}(d, n) \leq n$$. इसके अलावा, चूंकि किसी भी गैर-अनुकूली परीक्षण प्रक्रिया को एक अनुकूली एल्गोरिथम के रूप में लिखा जा सकता है, केवल उनके परिणामों की परवाह किए बिना सभी परीक्षण करके, $$t(d, n) \leq \bar{t}(d, n)$$. अंत में, कब $$0 \neq d \neq n$$, कम से कम एक वस्तु है जिसकी खराबी निर्धारित की जानी चाहिए (कम से कम एक परीक्षण द्वारा), और इसी तरह $$1 \leq t(d, n)$$.

संक्षेप में (मानते समय $$0 \neq d \neq n$$), $$1 \leq t(d,n) \leq \bar{t}(d, n) \leq n $$.

सूचना निचली सीमा
निरूपित नमूना स्थान की धारणा का उपयोग करके आवश्यक परीक्षणों की संख्या पर एक निचली सीमा का वर्णन किया जा सकता है $$\mathcal{S}$$, जो केवल दोषों के संभावित प्लेसमेंट का समुच्चय है। नमूना स्थान के साथ किसी भी समूह परीक्षण समस्या के लिए $$\mathcal{S}$$ और कोई भी समूह-परीक्षण एल्गोरिथ्म, यह दिखाया जा सकता है $$t \geq \lceil \log_2{|\mathcal{S}|} \rceil$$, जहाँ $$t$$ त्रुटि की शून्य संभावना के साथ सभी दोषों की पहचान करने के लिए आवश्यक परीक्षणों की न्यूनतम संख्या है। इसे सूचना निचली सीमा कहा जाता है। यह सीमा इस तथ्य से ली गई है कि प्रत्येक परीक्षण के बाद, $$\mathcal{S}$$ दो अलग-अलग उपसमुच्चय में विभाजित है, प्रत्येक परीक्षण के दो संभावित परिणामों में से एक के अनुरूप है।

हालाँकि, छोटी-छोटी समस्याओं के लिए भी सूचनाएँ सामान्यतः अप्राप्य होती हैं। इसका कारण बंटवारा है $$\mathcal{S}$$ मनमाना नहीं है, क्योंकि इसे किसी परीक्षण द्वारा साकार किया जाना चाहिए।

वास्तव में, निचली सीमा की सूचना को उस मामले में सामान्यीकृत किया जा सकता है जहां गैर-शून्य संभावना है कि एल्गोरिदम त्रुटि करता है। इस रूप में, प्रमेय हमें परीक्षणों की संख्या के आधार पर सफलता की संभावना पर ऊपरी सीमा देता है। प्रदर्शन करने वाले किसी भी समूह-परीक्षण एल्गोरिदम के लिए $$t$$ परीक्षण, सफलता की संभावना, $$\mathbb{P}(\textrm{success})$$, संतुष्ट करता है $$\mathbb{P}(\textrm{success}) \leq t/\log_2{n \choose d}$$. इसे मजबूत किया जा सकता है: $$\mathbb{P}(\textrm{success}) \leq \frac{2^t}$$.

गैर-अनुकूली एल्गोरिदम का प्रतिनिधित्व
गैर-अनुकूली समूह परीक्षण के एल्गोरिदम में दो अलग-अलग चरण होते हैं। सबसे पहले, यह तय किया जाता है कि कितने परीक्षण करने हैं और प्रत्येक परीक्षण में कौन से आइटम सम्मिलित करने हैं। दूसरे चरण में, जिसे प्रायः डिकोडिंग चरण कहा जाता है, प्रत्येक समूह परीक्षण के परिणामों का विश्लेषण यह निर्धारित करने के लिए किया जाता है कि किन वस्तुओं के ख़राब होने की संभावना है। पहले चरण को सामान्यतः आव्यूह में निम्नानुसार एन्कोड किया जाता है।


 * मान लीजिए कि एक गैर-अनुकूली समूह परीक्षण प्रक्रिया है $$n$$ आइटम में परीक्षण सम्मिलित हैं $$S_1, S_2, \dots, S_t$$ कुछ के लिए $$t \in \mathbb{N}_{\geq 0}$$. इस योजना के लिए परीक्षण आव्यूह है $$t \times n$$ बाइनरी आव्यूह, $$M$$, जहाँ $$(M)_{ij} = 1$$ यदि और केवल यदि $$j \in S_i$$ (और शून्य है अन्यथा)।

इस प्रकार प्रत्येक स्तंभ $$M$$ एक आइटम का प्रतिनिधित्व करता है और प्रत्येक पंक्ति एक के साथ एक परीक्षण का प्रतिनिधित्व करती है $$1$$ में $$(i,j)\textrm{-th}$$ प्रविष्टि दर्शाती है कि $$i\textrm{-th}$$ परीक्षण सम्मिलित है $$j\textrm{-th}$$ आइटम और ए $$0$$ अन्यथा इंगित करना।

साथ ही सदिश $$\mathbf{x}$$ (लंबाई का $$n$$) जो अज्ञात दोषपूर्ण समुच्चय का वर्णन करता है, परिणाम सदिश पेश करना आम है, जो प्रत्येक परीक्षण के परिणामों का वर्णन करता है।


 * होने देना $$t$$ एक गैर-अनुकूली एल्गोरिथम द्वारा किए गए परीक्षणों की संख्या हो। परिणाम सदिश, $$\mathbf{y} = (y_1, y_2, \dots, y_t)$$, लंबाई का एक बाइनरी सदिश है $$t$$ (वह है, $$\mathbf{y} \in \{0,1\}^t$$) ऐसा है कि $$y_i= 1$$ यदि और केवल यदि का परिणाम है $$i\textrm{-th}$$ परीक्षण सकारात्मक था (अर्थात कम से कम एक दोषपूर्ण था)।

इन परिभाषाओं के साथ, गैर-अनुकूली समस्या को निम्नानुसार फिर से तैयार किया जा सकता है: पहले एक परीक्षण आव्यूह चुना जाता है, $$M$$, जिसके बाद सदिश $$\mathbf{y}$$ लौटा दिया जाता है। फिर समस्या विश्लेषण करने की है $$\mathbf{y}$$ के लिए कुछ अनुमान खोजने के लिए $$\mathbf{x}$$.

सरलतम शोर वाले मामले में, जहां एक निरंतर संभावना होती है, $$q$$, कि एक समूह परीक्षण का एक गलत परिणाम होगा, एक यादृच्छिक बाइनरी सदिश पर विचार करता है, $$\mathbf{v}$$, जहां प्रत्येक प्रविष्टि की संभावना है $$q$$ होने का $$1$$, और है $$0$$ अन्यथा। लौटाया गया सदिश तब है $$\hat{\mathbf{y}} = \mathbf{y} + \mathbf{v}$$, सामान्य जोड़ के साथ $$(\mathbb{Z}/2\mathbb{Z})^n$$ (समान रूप से यह तत्व-वार XOR ऑपरेशन है)। एक शोर एल्गोरिथम का अनुमान लगाना चाहिए $$\mathbf{x}$$ का उपयोग करते हुए $$\hat{\mathbf{y}}$$ (अर्थात, प्रत्यक्ष ज्ञान के बिना $$\mathbf{y}$$).

गैर-अनुकूली एल्गोरिदम के लिए सीमाएं
आव्यूह प्रतिनिधित्व गैर-अनुकूली समूह परीक्षण पर कुछ सीमाएं साबित करना संभव बनाता है। दृष्टिकोण कई नियतात्मक डिजाइनों का दर्पण है, जहां $$d$$- वियोज्य मेट्रिसेस पर विचार किया जाता है, जैसा कि नीचे परिभाषित किया गया है।


 * एक बाइनरी आव्यूह, $$M$$, कहा जाता है$$d$$- वियोज्य यदि प्रत्येक बूलियन योग (तार्किक OR) किसी का भी $$d$$ इसके कॉलम अलग हैं। इसके अतिरिक्त, अंकन$$\bar{d}$$- वियोज्य इंगित करता है कि किसी भी तक का प्रत्येक योग $$d$$ का $$M$$का कॉलम अलग है। (यह समान नहीं है $$M$$ प्राणी $$k$$-प्रत्येक के लिए वियोज्य $$k \leq d$$.)

कब $$M$$ एक परीक्षण आव्यूह है, होने की संपत्ति $$d$$- वियोज्य ($$\bar{d}$$-अलग करने योग्य) (तक) के मध्य अंतर करने में सक्षम होने के समान है $$d$$ दोष। हालांकि, यह गारंटी नहीं देता है कि यह सीधा होगा। एक मजबूत संपत्ति, कहा जाता है$$d$$-डिसजंक्टनेस करता है।


 * एक बाइनरी आव्यूह, $$M$$ कहा जाता है$$d$$-डिसजंक्ट यदि किसी का बूलियन योग $$d$$ कॉलम में कोई अन्य कॉलम नहीं है। (इस संदर्भ में, एक कॉलम ए में एक कॉलम बी होता है, यदि हर इंडेक्स के लिए जहां बी में 1 है, ए में भी 1 है।)

का उपयोगी गुण है $$d$$-डिसजंक्ट टेस्टिंग मैट्रिसेस वह है, जिसके साथ $$d$$ दोषपूर्ण, प्रत्येक गैर-दोषपूर्ण वस्तु कम से कम एक परीक्षण में दिखाई देगी जिसका परिणाम नकारात्मक है। इसका अर्थ है कि दोषों को खोजने के लिए एक सरल प्रक्रिया है: नकारात्मक परीक्षण में दिखाई देने वाली प्रत्येक वस्तु को हटा दें।

के गुणों का उपयोग करना $$d$$- वियोज्य और $$d$$-disjunct matrices को पहचानने की समस्या के लिए निम्नलिखित दिखाया जा सकता है $$d$$ मध्य में खराबी $$n$$ कुल सामान। # त्रुटि पैमानों की विषमता से छोटी औसत संभावना के लिए आवश्यक परीक्षणों की संख्या $$O(d\log_2 n)$$.
 * 1) त्रुटि पैमानों की असम्बद्ध रूप से छोटी अधिकतम संभावना के लिए आवश्यक परीक्षणों की संख्या $$O(d^2 \log_2 n)$$.
 * 2) त्रुटि पैमानों की शून्य संभावना के लिए आवश्यक परीक्षणों की संख्या $$O \left(\frac{d^2 \log_2 n}{\log_2 d} \right)$$.

सामान्यीकृत बाइनरी-विभाजन एल्गोरिथम
सामान्यीकृत बाइनरी-स्प्लिटिंग एल्गोरिथम एक अनिवार्य रूप से इष्टतम अनुकूली समूह-परीक्षण एल्गोरिथम है जो पाता है $$d$$ या कम दोषपूर्ण $$n$$ आइटम इस प्रकार है:
 * 1) यदि $$n \leq 2d - 2$$, परीक्षण करें $$n$$ आइटम व्यक्तिगत रूप से। अन्यथा समुच्चय करें $$l = n - d + 1$$ और $$\alpha = \lfloor \log_2{l/d} \rfloor$$.
 * 2) आकार के समूह का परीक्षण करें $$2^\alpha$$. यदि परिणाम नकारात्मक है, तो समूह की प्रत्येक वस्तु को गैर-दोषपूर्ण घोषित किया जाता है; तय करना $$n := n - 2^\alpha$$ और चरण 1 पर जाएं। अन्यथा, एक दोषपूर्ण और एक अनिर्दिष्ट संख्या, जिसे कॉल किया जाता है, की पहचान करने के लिए एक द्विआधारी खोज का उपयोग करें $$x$$, गैर-दोषपूर्ण वस्तुओं का; तय करना $$n := n - 1 - x$$ और $$d := d - 1$$. चरण 1 पर जाएँ।

सामान्यीकृत बाइनरी-स्प्लिटिंग एल्गोरिथम से अधिक की आवश्यकता नहीं है $$T$$ परीक्षण जहां $$ T = \begin{cases} n & n \leq 2d-2\\ (\alpha+2)d + p - 1 & n \geq 2d - 1 \end{cases} $$.

के लिए $$n/d$$ बड़ा, यह दिखाया जा सकता है $$T \rightarrow d \log_2(n/d)$$, जो के अनुकूल तुलना करता है $$t = \frac{e}{\log_2 e}d\log_2 \left( \frac{n}{d} \right)$$ ली के लिए आवश्यक परीक्षण $$s$$-स्टेज एल्गोरिथम। वास्तव में, सामान्यीकृत बाइनरी-विभाजन एल्गोरिथ्म निम्नलिखित अर्थों में इष्टतम के करीब है। कब $$d \geq 2$$ यह दिखाया जा सकता है $$T - B_I(d,n) \leq (d-1)$$, जहाँ $$B_I(d,n) = \left\lceil \log_2 \sum_{i=0}^d {n \choose i} \right\rceil$$ सूचना निचली सीमा है।

गैर-अनुकूली एल्गोरिदम
गैर-अनुकूली समूह-परीक्षण एल्गोरिदम यह मानते हैं कि दोषों की संख्या, या कम से कम उन पर एक अच्छी ऊपरी सीमा ज्ञात है। यह मात्रा बताई गई है $$d$$ इस खंड में। यदि कोई सीमा ज्ञात नहीं है, तो कम क्वेरी जटिलता वाले गैर-अनुकूली एल्गोरिदम हैं जो अनुमान लगाने में सहायता कर सकते हैं $$d$$.

संयोजी ऑर्थोगोनल मैचिंग परस्यूट (COMP)
कॉम्बिनेटरियल ऑर्थोगोनल मैचिंग पर्पस, या COMP, एक सरल गैर-अनुकूली समूह-परीक्षण एल्गोरिथ्म है जो इस खंड में आने वाले अधिक सम्मिश्र एल्गोरिदम के लिए आधार बनाता है।

सबसे पहले, परीक्षण आव्यूह की प्रत्येक प्रविष्टि को स्वतंत्र चुना जाता है और समान रूप से यादृच्छिक चर वितरित किया जाता है|i.i.d. होना $$1$$ संभावना के साथ $$1/d$$ और $$0$$ अन्यथा।

डिकोडिंग कदम कॉलम-वार (यानी आइटम द्वारा) आगे बढ़ता है। यदि प्रत्येक परीक्षण जिसमें कोई वस्तु दिखाई देती है, सकारात्मक है, तो वस्तु को दोषपूर्ण घोषित किया जाता है; अन्यथा आइटम को गैर-दोषपूर्ण माना जाता है। या समकक्ष रूप से, यदि कोई आइटम किसी परीक्षण में दिखाई देता है जिसका परिणाम नकारात्मक है, तो आइटम को गैर-दोषपूर्ण घोषित किया जाता है; अन्यथा वस्तु को दोषपूर्ण माना जाता है। इस एल्गोरिदम की एक महत्वपूर्ण संपत्ति यह है कि यह कभी भी झूठी नकारात्मक नहीं बनाता है, हालांकि झूठी सकारात्मक तब होती है जब सभी स्थान जे-वें कॉलम में होते हैं $$M$$ (एक गैर-दोषपूर्ण आइटम जे के अनुरूप) दोषपूर्ण वस्तुओं के अनुरूप अन्य स्तंभों के द्वारा छुपाए जाते हैं।

COMP एल्गोरिदम को इससे अधिक की आवश्यकता नहीं है $$ed(1 + \delta) \ln(n)$$ त्रुटि संभावना से कम या समान होने के लिए परीक्षण $$n^{-\delta}$$. यह उपरोक्त त्रुटि की औसत संभावना के लिए निचली सीमा के एक स्थिर कारक के भीतर है।

शोर के मामले में, मूल COMP एल्गोरिथम में आवश्यकता को शिथिल किया जाता है जो कि किसी भी कॉलम में किसी के स्थान का समुच्चय होता है $$M$$ एक सकारात्मक आइटम के अनुरूप पूर्ण तरह से परिणाम सदिश में उनके स्थानों के समुच्चय में समाहित होना चाहिए। इसके बजाय, कोई एक निश्चित संख्या में "बेमेल" की अनुमति देता है - बेमेल की यह संख्या प्रत्येक कॉलम में दोनों की संख्या और शोर पैरामीटर दोनों पर निर्भर करती है, $$q$$. इस शोर COMP एल्गोरिथम से अधिक की आवश्यकता नहीं है $$4.36(\sqrt{\delta} + \sqrt{1 + \delta})^2 (1 - 2q)^{-2}d \log_2{n}$$ अधिकतम त्रुटि संभावना प्राप्त करने के लिए परीक्षण $$n^{-\delta}$$.

निश्चित दोष (डीडी)
निश्चित दोषपूर्ण विधि (DD) COMP एल्गोरिथम का एक विस्तार है जो किसी भी गलत सकारात्मक को हटाने का प्रयास करता है। डीडी के लिए निष्पादन गारंटियों को COMP से सख्ती से अधिक दिखाया गया है। डिकोडिंग चरण COMP एल्गोरिथम की एक उपयोगी संपत्ति का उपयोग करता है: कि प्रत्येक आइटम जो COMP गैर-दोषपूर्ण घोषित करता है, निश्चित रूप से गैर-दोषपूर्ण है (अर्थात, कोई गलत नकारात्मक नहीं है)। यह निम्नानुसार आगे बढ़ता है।


 * 1) सबसे पहले COMP एल्गोरिथम चलाया जाता है, और इसके द्वारा पता लगाए गए किसी भी गैर-दोष को हटा दिया जाता है। शेष सभी आइटम अब संभवतः दोषपूर्ण हैं।
 * 2) अगला एल्गोरिथ्म सभी सकारात्मक परीक्षणों को देखता है। यदि कोई वस्तु किसी परीक्षण में एकमात्र संभव दोष के रूप में दिखाई देती है, तो उसे दोषपूर्ण होना चाहिए, इसलिए एल्गोरिद्म उसे दोषपूर्ण घोषित करता है।
 * 3) अन्य सभी वस्तुओं को गैर-दोषपूर्ण माना जाता है। इस अंतिम चरण का औचित्य इस धारणा से आता है कि दोषों की संख्या कुल वस्तुओं की संख्या से बहुत कम है।

ध्यान दें कि चरण 1 और 2 में कभी गलती नहीं होती है, इसलिए एल्गोरिद्म केवल तभी गलती कर सकता है जब वह किसी दोषपूर्ण वस्तु को गैर-दोषपूर्ण घोषित करता है। इस प्रकार डीडी एल्गोरिथ्म केवल गलत नकारात्मक बना सकता है।

अनुक्रमिक COMP (SCOMP)
एससीओएमपी (अनुक्रमिक कॉम्प) एक एल्गोरिदम है जो इस तथ्य का उपयोग करता है कि डीडी अंतिम चरण तक कोई गलती नहीं करता है, जहां यह माना जाता है कि शेष आइटम गैर-दोषपूर्ण हैं। बता दें कि घोषित दोषों का समुच्चय है $$K$$. एक सकारात्मक परीक्षण द्वारा समझाया गया कहा जाता है $$K$$ यदि इसमें कम से कम एक आइटम है $$K$$. एससीओएमपी के साथ मुख्य अवलोकन यह है कि डीडी द्वारा पाए गए दोषों का समुच्चय हर सकारात्मक परीक्षण की व्याख्या नहीं कर सकता है, और यह कि प्रत्येक अस्पष्टीकृत परीक्षण में एक छिपी हुई खराबी होनी चाहिए।

एल्गोरिथ्म निम्नानुसार आगे बढ़ता है।
 * 1) प्राप्त करने के लिए डीडी एल्गोरिथ्म के चरण 1 और 2 को पूरा करें $$K$$, दोषों के समुच्चय के लिए एक प्रारंभिक अनुमान।
 * 2) यदि $$K$$ हर सकारात्मक परीक्षण की व्याख्या करता है, एल्गोरिथम को समाप्त करता है: $$K$$ दोषों के समुच्चय के लिए अंतिम अनुमान है।
 * 3) यदि कोई अस्पष्टीकृत परीक्षण हैं, तो संभावित दोष खोजें जो अस्पष्टीकृत परीक्षणों की सबसे बड़ी संख्या में प्रकट होता है, और इसे दोषपूर्ण घोषित करें (अर्थात, इसे समुच्चय में जोड़ें) $$K$$). चरण 2 पर जाएँ।

सिमुलेशन में, एससीओएमपी को बेहतर प्रदर्शन के करीब दिखाया गया है।

बहुपद पूल (पीपी)
एक नियतात्मक एल्गोरिथम जो सटीक रूप से गारंटीकृत है तक की पहचान करें $$ d $$ सकारात्मक बहुपद पूल (पीपी) है। . एल्गोरिदम पूलिंग आव्यूह के निर्माण के लिए है $$M$$, जिसका सीधा उपयोग किया जा सकता है में टिप्पणियों को डिकोड करने के लिए $$ y $$. के समान COMP, संबंध के अनुसार एक नमूना डीकोड किया गया है: $$ x_i = 1 \text{ if }  M(:,i)~.*~y = M(:,i) $$, जहाँ $$ .* $$ तत्व वार गुणन का प्रतिनिधित्व करता है और $$M(:,i)$$ है $$i$$का स्तम्भ $$M$$. चूंकि डिकोडिंग चरण कठिन नहीं है, पीपी उत्पन्न करने के लिए विशिष्ट है $$M$$.

समूह बनाना
एक समूह / पूल $$ \ell $$ है एक बहुपद संबंध का उपयोग करके उत्पन्न किया जाता है जो प्रत्येक पूल में निहित प्रतिरूपों के सूचकांकों को निर्दिष्ट करता है। इनपुट पैरामीटर का एक समुच्चय एल्गोरिथम निर्धारित करता है। एक प्रमुख संख्या के लिए $$p>1$$ और एक पूर्णांक $$n \ge 1$$ किसी भी प्रमुख शक्ति द्वारा परिभाषित किया गया है $$q=p^n$$. एक आयामी पैरामीटर के लिए $$ c \ge 2 $$ प्रतिरूपों की कुल संख्या है $$ n = q^c $$ और प्रति पूल प्रतिरूपों की संख्या है $$ q^{c-1} $$. आगे, द आदेश का परिमित क्षेत्र $$q$$ द्वारा निरूपित किया जाता है $$ \mathbb{F}_q $$ (यानी, पूर्णांक $$\{0,1,2,\ldots,q-1\}$$ विशेष अंकगणितीय परिचालनों द्वारा परिभाषित किया गया है जो यह सुनिश्चित करता है कि जोड़ और गुणा में $$\mathbb{F}_q $$ में रहता है $$ \mathbb{F}_q $$). विधि प्रत्येक नमूने को ग्रिड में व्यवस्थित करती है और निर्देशांक द्वारा इसका प्रतिनिधित्व करती है $$ x = (u,v) $$. निर्देशांकों की गणना पूर्णांकों का उपयोग करके एक बहुपद संबंध के अनुसार की जाती है $$ 1 \le l \le c-1 $$, $$ 0 \le u_{i_l} \le q-1 $$

$$   v~=~a^{c-1}~u_{i_{c-1}} + \cdots + a~u_{i_1} + b, \quad a, b, u_{i_l} \in \mathbb{F}_q. $$ के माध्यम से लूपिंग का संयोजन $$ u_{i_l} $$ मूल्यों को एक समुच्चय द्वारा दर्शाया गया है $$ q^{c-1} $$ अनुक्रम के तत्व $$ d-1 $$ पूर्णांक, यानी, $$ u_{i_1} \times \cdots \times u_{i_{c-1}} = \{(i_1,\ldots,i_{c-1})\} $$, जहाँ $$ 0 \le i_l \le q-1 $$. व्यापकता के नुकसान के बिना, संयोजन ऐसा है $$ i_{d-1} $$ चक्र हर $$q$$ समय, $$ i_{d-2} $$ चक्र हर $$q^2$$ समय तक $$ i_1 $$ चक्र केवल एक बार। सूत्र जो निश्चित के लिए नमूना सूचकांकों की गणना करते हैं, और इस प्रकार संबंधित पूल $$a$$ और $$b$$, द्वारा दिया गया है

$$ \begin{align} u_i &= \sum_{l=1}^{c-1}~q^{d-1-l}~i_l \\ v_{u_i} &= \sum_{l=1}^{c-1}~a^{l}~i_l + b\quad (\text{computed in } \mathbb{F}_q) \\ x_{q u_i + v_{u_i}} &= (u_i,v_{u_i}) \end{align} $$ में गणनाएँ $$ \mathbb{F}_q $$ परिमित क्षेत्रों के लिए सार्वजनिक रूप से उपलब्ध सॉफ्टवेयर पुस्तकालयों के साथ कार्यान्वित किया जा सकता है, जब $$q$$ प्रधान शक्ति है। कब $$q$$ एक अभाज्य संख्या है तो संगणना में $$\mathbb{F}_q$$ मॉडुलो अंकगणित को सरल करें, अर्थात, $$v_{u_i} = (\sum_{l=1}^{c-1}a^{l}i_l + b) ~ \text{mod}~q $$. कैसे एक पूल उत्पन्न करने का एक उदाहरण $$ \ell $$ कब $$ a = 1, b = 0, c = 2 $$ नीचे दी गई तालिका में प्रदर्शित किया गया है, जबकि प्रतिरूपों का संबंधित चयन ऊपर की आकृति में दिखाया गया है। यह तरीका इस्तेमाल करता है $$ q(c-1)(d+1) $$ सटीक पहचान करने के लिए परीक्षण $$ d $$ के मध्य सकारात्मक $$ n = q^c $$ नमूने। इस वजह से पीपी बड़े नमूना आकारों के लिए विशेष रूप से प्रभावी है, क्योंकि परीक्षणों की संख्या केवल रैखिक रूप से बढ़ती है $$ c $$ जबकि नमूने इस पैरामीटर के साथ तेजी से बढ़ते हैं। हालांकि पीपी छोटे नमूना आकार के लिए भी प्रभावी हो सकता है।

उदाहरण अनुप्रयोग
समूह परीक्षण के सिद्धांत की व्यापकता इसे कई विविध अनुप्रयोगों के लिए उधार देती है, जिसमें क्लोन स्क्रीनिंग, विद्युत शॉर्ट्स का पता लगाना सम्मिलित है; उच्च गति परिकलक संजाल; चिकित्सा परीक्षा, मात्रा खोज, सांख्यिकी; मशीन लर्निंग, डीएनए अनुक्रमण; क्रिप्टोग्राफी; और  आंकड़े फोरेंसिक। यह खंड इन अनुप्रयोगों के एक छोटे से चयन का एक संक्षिप्त अवलोकन प्रदान करता है।

बहु अभिगम माध्यम
एक माध्यम एक्सेस विधि एक संचार माध्यम है जो कई उपयोगकर्ताओं को एक साथ जोड़ती है। प्रत्येक उपयोगकर्ता माध्यम पर सुन सकता है और प्रसारित कर सकता है, लेकिन यदि एक से अधिक उपयोगकर्ता एक ही समय में प्रसारित करते हैं, तो संकेत टकराते हैं और अस्पष्ट शोर में कम हो जाते हैं। विभिन्न वास्तविक दुनिया के अनुप्रयोगों, विशेष रूप से वायरलेस परिकलक संजाल और फोन संजाल के लिए बहु अभिगम माध्यम महत्वपूर्ण हैं। बहु अभिगम माध्यमों के साथ एक प्रमुख समस्या यह है कि उपयोगकर्ताओं को ट्रांसमिशन समय कैसे आवंटित किया जाए ताकि उनके संदेश आपस में न टकराएं। एक सरल तरीका यह है कि प्रत्येक उपयोगकर्ता को अपना खुद का टाइम स्लॉट दिया जाए, जिसमें आवश्यकता पड़ने पर प्रसारित किया जा सके $$n$$ स्लॉट। (इसे टाइम डिवीजन मल्टीप्लेक्सिंग, या टीडीएम कहा जाता है।) हालांकि, यह बहुत ही अक्षम है, क्योंकि यह उन उपयोगकर्ताओं को ट्रांसमिशन स्लॉट प्रदान करेगा जिनके पास संदेश नहीं हो सकता है, और सामान्यतः यह माना जाता है कि केवल कुछ उपयोगकर्ता ही किसी भी समय संचारित करना चाहेंगे। दिया गया समय - अन्यथा एक बहु अभिगम माध्यम पहले स्थान पर व्यावहारिक नहीं है।

समूह परीक्षण के संदर्भ में, इस समस्या का समाधान सामान्यतः समय को 'युगों' में निम्न प्रकार से विभाजित करके किया जाता है। एक उपयोगकर्ता को 'सक्रिय' कहा जाता है यदि उसके पास युग की प्रारंभ में कोई संदेश है। (यदि एक युग के पर्यंत एक संदेश उत्पन्न होता है, तो उपयोगकर्ता केवल अगले एक की प्रारंभ में सक्रिय हो जाता है।) एक युग समाप्त हो जाता है जब प्रत्येक सक्रिय उपयोगकर्ता ने अपना संदेश सफलतापूर्वक प्रेषित कर दिया हो। समस्या यह है कि किसी दिए गए युग में सभी सक्रिय उपयोगकर्ताओं को ढूंढना है, और उनके लिए संचारित करने के लिए एक समय निर्धारित करना है (यदि वे पहले से ही सफलतापूर्वक ऐसा नहीं कर पाए हैं)। यहां, उपयोगकर्ताओं के एक समुच्चय पर एक परीक्षण उन उपयोगकर्ताओं से मेल खाता है जो ट्रांसमिशन का प्रयास कर रहे हैं। परीक्षण के परिणाम उन उपयोगकर्ताओं की संख्या हैं जिन्होंने संचारित करने का प्रयास किया, $$0, 1,$$ और $$2^+$$, क्रमशः कोई सक्रिय उपयोगकर्ता नहीं, वास्तव में एक सक्रिय उपयोगकर्ता (संदेश सफल) या एक से अधिक सक्रिय उपयोगकर्ता (संदेश टकराव) के अनुरूप। इसलिए, परिणामों के साथ अनुकूली समूह परीक्षण एल्गोरिदम का उपयोग करना $$\{ 0, 1, 2^+\}$$, यह निर्धारित किया जा सकता है कि कौन से उपयोगकर्ता युग में प्रसारित करना चाहते हैं। फिर, कोई भी उपयोगकर्ता जिसने अभी तक एक सफल प्रसारण नहीं किया है, अब निष्क्रिय उपयोगकर्ताओं को समय बर्बाद किए बिना, संचारित करने के लिए एक स्लॉट सौंपा जा सकता है।

यंत्र अधिगम और संकुचित संवेदन
मशीन लर्निंग परिकलक विज्ञान का एक क्षेत्र है जिसमें डीएनए वर्गीकरण, धोखाधड़ी का पता लगाने और लक्षित विज्ञापन जैसे कई सॉफ्टवेयर अनुप्रयोग हैं। मशीन लर्निंग के मुख्य उपक्षेत्रों में से एक 'उदाहरणों द्वारा सीखना' समस्या है, जहाँ कार्य कुछ विशिष्ट बिंदुओं पर इसके मान दिए जाने पर कुछ अज्ञात फ़ंक्शन का अनुमान लगाना है। जैसा कि इस खंड में रेखांकित किया गया है, इस कार्य सीखने की समस्या को समूह-परीक्षण दृष्टिकोण से हल किया जा सकता है।

समस्या के एक साधारण संस्करण में, कुछ अज्ञात कार्य है, $$f: \{0,1\}^N \to \{0,1\}$$ जहाँ $$f(\textbf{x}) = \textbf{a} \cdot \textbf{x}$$, और $$\textbf{a} \in \{0,1\}^N$$ (तार्किक अंकगणित का उपयोग करना: जोड़ तार्किक है या और गुणा तार्किक है)। यहाँ $$\textbf{a}$$ है '$$d$$ विरल', जिसका अर्थ है कि अधिकतम $$d \ll N$$ इसकी प्रविष्टियाँ हैं $$1$$. उद्देश्य के लिए एक सन्निकटन का निर्माण करना है $$f$$ का उपयोग करते हुए $$t$$ बिंदु मूल्यांकन, जहां $$t$$ जितना संभव हो उतना छोटा है। (बिल्कुल ठीक हो रहा है $$f$$ शून्य-त्रुटि एल्गोरिदम से मेल खाती है, जबकि $$f$$ एल्गोरिदम द्वारा अनुमान लगाया गया है जिसमें त्रुटि की गैर-शून्य संभावना है।)

इस समस्या में ठीक हो रहे हैं $$f$$ खोजने के समान है $$\textbf{a}$$. इसके अतिरिक्त, $$f(\textbf{p}) = 1$$ यदि और केवल यदि वहाँ कुछ सूचकांक है, $$n$$, जहाँ $$\textbf{a}_n = \textbf{p}_n = 1$$. इस प्रकार यह समस्या समूह-परीक्षण समस्या के समान है $$d$$ दोषपूर्ण और $$n$$ कुल सामान। की प्रविष्टियाँ $$\textbf{a}$$ वे वस्तुएँ हैं, जो यदि हैं तो दोषपूर्ण हैं $$1$$, $$\textbf{p}$$ एक परीक्षण निर्दिष्ट करता है, और एक परीक्षण सकारात्मक है यदि और केवल यदि $$f(\textbf{p}) = 1$$.

वास्तव में, प्रायः उन कार्यों में रुचि होगी जो अधिक सम्मिश्र हैं, जैसे $$f: \mathbb{C}^N \to \mathbb{C}$$, फिर जहाँ $$f(\textbf{x}) = \textbf{a} \cdot \textbf{x}$$. संकुचित संवेदन, जो समूह परीक्षण से निकटता से संबंधित है, का उपयोग इस समस्या को हल करने के लिए किया जा सकता है।

संकुचित संवेदन में, लक्ष्य एक संकेत को फिर से बनाना है, $$\textbf{v} \in \mathbb{C}^N$$, कई माप लेकर। इन मापों को डॉट उत्पाद लेने के रूप में तैयार किया गया है $$\textbf{v}$$ एक चुने हुए सदिश के साथ। उद्देश्य कम संख्या में मापन का उपयोग करना है, हालांकि यह सामान्यतः तब तक संभव नहीं है जब तक कि संकेत के बारे में कुछ अनुमान न लगाया जाए। ऐसी ही एक धारणा (जो आम है ) यह है कि प्रविष्टियों की केवल एक छोटी संख्या $$\textbf{v}$$ महत्वपूर्ण हैं, जिसका अर्थ है कि उनके पास एक बड़ा परिमाण है। चूंकि माप के डॉट उत्पाद हैं $$\textbf{v}$$, समीकरण $$M\textbf{v} = \textbf{q}$$ रखता है, जहाँ $$M$$ एक है $$t \times N$$ आव्यूह जो चुने गए माप के समुच्चय का वर्णन करता है और $$\mathbf{q}$$ माप परिणामों का समुच्चय है। इस निर्माण से पता चलता है कि संकुचित संवेदन एक तरह का 'निरंतर' समूह परीक्षण है।

संकुचित संवेदन में प्राथमिक कठिनाई यह पहचानना है कि कौन सी प्रविष्टियाँ महत्वपूर्ण हैं। एक बार यह हो जाने के बाद, प्रविष्टियों के वास्तविक मूल्यों का अनुमान लगाने के लिए कई तरीके हैं। समूह परीक्षण के एक सरल अनुप्रयोग के साथ पहचान के इस कार्य तक पहुँचा जा सकता है। यहां एक समूह परीक्षण एक सम्मिश्र संख्या उत्पन्न करता है: परीक्षण की जाने वाली प्रविष्टियों का योग। एक परीक्षण के परिणाम को सकारात्मक कहा जाता है यदि यह एक बड़े परिमाण के साथ एक सम्मिश्र  संख्या का उत्पादन करता है, जो यह मानते हुए कि महत्वपूर्ण प्रविष्टियाँ विरल हैं, यह दर्शाता है कि परीक्षण में कम से कम एक महत्वपूर्ण प्रविष्टि निहित है।

इस प्रकार के संयोजी खोज एल्गोरिथम के लिए स्पष्ट नियतात्मक निर्माण हैं, जिनके लिए आवश्यकता होती है $$d2^{(\log_2 \log_2 N)^{O(1)}}$$ माप। हालांकि, समूह-परीक्षण के साथ, ये उप-इष्टतम हैं, और यादृच्छिक निर्माण (जैसे COMP) प्रायः ठीक हो सकते हैं $$f$$ उप-रैखिक रूप से $$N$$.

COVID19 परीक्षण के लिए मल्टीप्लेक्स परख डिजाइन
2020 में COVID-19 के प्रकोप जैसी महामारी के पर्यंत, वायरस का पता लगाने वाले परीक्षण कभी-कभी गैर-अनुकूली समूह परीक्षण प्रारूपों का उपयोग करके चलाए जाते हैं।  एक उदाहरण ओरिगेमी एसेज़ प्रोजेक्ट द्वारा प्रदान किया गया था जिसने प्रयोगशाला मानक 96 वेल प्लेट पर चलने के लिए ओपन सोर्स समूह परीक्षण प्रारुप जारी किया था।

एक प्रयोगशाला अवस्थापन में, समूह परीक्षण की एक चुनौती यह है कि मिश्रण का निर्माण समय लेने वाला हो सकता है और हाथ से सही तरीके से करना कठिन हो सकता है। परीक्षण कुओं में रोगी के प्रतिरूपों को कैसे आवंटित किया जाए, इस पर प्रविधिज्ञ को मार्गदर्शन करने के लिए पत्र आधार पट्ट प्रदान करके ओरिगेमी एसेज़ ने इस निर्माण समस्या के लिए समाधान प्रदान किया। सबसे बड़े समूह परीक्षण डिजाइन (XL3) का उपयोग करके 94 परख कुओं में 1120 रोगी प्रतिरूपों का परीक्षण करना संभव था। यदि वास्तविक सकारात्मक दर काफी कम थी, तो किसी अतिरिक्त परीक्षण की आवश्यकता नहीं थी।

आंकड़े फोरेंसिक
आंकड़े फोरेंसिक एक अपराध के डिजिटल साक्ष्य को संकलित करने के तरीकों को खोजने के लिए समर्पित क्षेत्र है। इस तरह के अपराधों में सामान्यतः एक विरोधी सम्मिलित होता है जो किसी पीड़ित के आंकड़े, दस्तावेजों या आंकड़ाकोष को संशोधित करता है, उदाहरण के साथ कर रिकॉर्ड में फेरबदल, एक वायरस अपनी उपस्थिति को छुपाता है, या एक पहचान चोर व्यक्तिगत आंकड़े को संशोधित करता है।

आंकड़े फोरेंसिक में एक सामान्य उपकरण हैश फंकशन | वन-वे क्रिप्टोग्राफ़िक द्रुतान्वेषण। यह एक ऐसा कार्य है जो आंकड़े लेता है, और एक कठिन-से-रिवर्स प्रक्रिया के माध्यम से, एक अद्वितीय संख्या उत्पन्न करता है जिसे द्रुतान्वेषण कहा जाता है। हैश, जो प्रायः आंकड़े की तुलना में बहुत कम होते हैं, हमें यह जाँचने की अनुमति देते हैं कि क्या सूचना की पूर्ण प्रतियों को बर्बाद किए बिना आंकड़े को परिवर्तित कर दिया गया है: वर्तमान आंकड़े के द्रुतान्वेषण की तुलना पिछले द्रुतान्वेषण से की जा सकती है, यह निर्धारित करने के लिए कि क्या कोई है परिवर्तन हुए हैं। इस पद्धति की एक दुर्भाग्यपूर्ण संपत्ति यह है कि, हालांकि यह बताना सरल है कि क्या  आंकड़े संशोधित किया गया है, यह निर्धारित करने का कोई तरीका नहीं है कि कैसे: अर्थात, आंकड़े के किस भाग में परिवर्तन आया है, यह पुनर्प्राप्त करना असंभव है।

इस सीमा के आसपास जाने का एक तरीका अधिक हैश को स्टोर करना है - अब आंकड़े संरचना के सबसेट का - जहां हमला हुआ है, उसे कम करने के लिए। हालांकि, एक सहज दृष्टिकोण के साथ हमले के सटीक स्थान का पता लगाने के लिए, संरचना में प्रत्येक डेटाम के लिए एक द्रुतान्वेषण को संग्रहीत करने की आवश्यकता होगी, जो पहले स्थान पर हैश के बिंदु को पराजित करेगा। (कोई भी आंकड़े की एक नियमित प्रति संग्रहीत कर सकता है।) समूह परीक्षण का उपयोग नाटकीय रूप से संग्रहित किए जाने वाले हैश की संख्या को कम करने के लिए किया जा सकता है। एक परीक्षण संग्रहीत और वर्तमान हैश के मध्य तुलना बन जाता है, जो बेमेल होने पर सकारात्मक होता है। यह इंगित करता है कि कम से कम एक संपादित आंकड़े (जो इस मॉडल में दोष के रूप में लिया गया है) उस समूह में निहित है जिसने वर्तमान द्रुतान्वेषण उत्पन्न किया है।

वास्तव में, आवश्यक हैश की मात्रा इतनी कम है कि वे परीक्षण आव्यूह के साथ-साथ आंकड़े के संगठनात्मक ढांचे के भीतर भी संग्रहीत किए जा सकते हैं। इसका अर्थ यह है कि जहां तक ​​स्मृति का संबंध है, परीक्षण 'मुफ्त में' किया जा सकता है। (यह मास्टर-कुंजी/पासवर्ड के अपवाद के साथ सच है जिसका उपयोग हैशिंग फ़ंक्शन को गुप्त रूप से निर्धारित करने के लिए किया जाता है।)

सामान्य संदर्भ

 * एरर करेक्टिंग कोड्स पर अत्रि रुद्र का कोर्स: कॉम्बिनेटरिक्स, एल्गोरिदम, और एप्लिकेशन (स्प्रिंग 2007), व्याख्यान 7।
 * एरर करेक्टिंग कोड्स पर अत्रि रुद्र का कोर्स: कॉम्बिनेटरिक्स, एल्गोरिथम, और एप्लिकेशन (स्प्रिंग 2010), व्याख्यान 10, 11, कोडिंग-सिद्धांत/spr10/lectures/lect28.pdf 28, 29
 * डू, डी., और ह्वांग, एफ. (2006)। पूलिंग डिज़ाइन और गैर-अनुकूली समूह परीक्षण। बोस्टन: ट्वेन पब्लिशर्स।
 * एल्ड्रिज, एम., जॉनसन, ओ. और स्कारलेट, जे. (2019), समूह परीक्षण: एक सूचना सिद्धांत परिप्रेक्ष्य, संचार और सूचना सिद्धांत में नींव और रुझान: वॉल्यूम। 15: संख्या 3-4, पीपी 196-392।
 * एली पोराट, आमिर रोथ्सचाइल्ड: स्पष्ट गैर-अनुकूली संयोजन समूह परीक्षण योजनाएँ। आईसीएएलपी (1) 2008: 748-759
 * एली पोराट, आमिर रोथ्सचाइल्ड: स्पष्ट गैर-अनुकूली संयोजन समूह परीक्षण योजनाएँ। आईसीएएलपी (1) 2008: 748-759

यह भी देखें

 * संतुलन पहेली

श्रेणी: संयोजन विज्ञान श्रेणी:प्रयोगों का डिजाइन