प्रेरणिक संभाव्यता (इंडक्टिव प्रोबेबिलिटी)

प्रेरणिक संभाव्यता (इंडक्टिव प्रोबेबिलिटी) अतीत की घटनाओं के आधार पर भविष्य की घटनाओं की संभावना देने का प्रयास करती है। इस प्रकार यह आगमनात्मक तर्क का आधार है एवं सीखने और पैटर्न की धारणा के लिए गणितीय आधार देता है। यह विश्व के बारे में ज्ञान का एक स्रोत है।

ज्ञान के तीन स्रोत हैं:

अनुमान, संचार और निगमन।

संचार अन्य तरीकों का उपयोग करके पाई गई जानकारी को रिले करता है। इस प्रकार कटौती उपस्ति तथ्यों के आधार पर नए तथ्य स्थापित करती है। अनुमान आँकड़ों से नये तथ्य स्थापित करता है। इसका आधार बेयस प्रमेय है।

विश्व का वर्णन करने वाली जानकारी एक भाषा में लिखी जाती है। उदाहरण के लिए, प्रस्तावों की एक सरल गणितीय भाषा चुनी जा सकती है। इस भाषा में वाक्यों को वर्णों की श्रृंखला के रूप में लिखा जा सकता है। किन्तु कंप्यूटर में इन वाक्यों को बिट्स (1s और 0s) की स्ट्रिंग के रूप में एन्कोड करना संभव है। फिर भाषा को एन्कोड किया जा सकता है जिससे कि सबसे अधिक उपयोग किए जाने वाले वाक्य सबसे छोटे हों। इस प्रकार यह आंतरिक भाषा स्पष्ट रूप से कथनों की संभावनाओं का प्रतिनिधित्व करती है।

ओकाम का रेजर कहता है कि "डेटा के अनुरूप सबसे सरल सिद्धांत के सही होने की सबसे अधिक संभावना है।" सबसे "सरल सिद्धांत" की व्याख्या इस आंतरिक भाषा में लिखे गए सिद्धांत के प्रतिनिधित्व के रूप में की जाती है। इस प्रकार आंतरिक भाषा में सबसे छोटी एन्कोडिंग वाला सिद्धांत सही होने की सबसे अधिक संभावना है।

इतिहास
संभाव्यता और सांख्यिकी संभाव्यता वितरण और महत्व के परीक्षणों पर केंद्रित थी। संभाव्यता औपचारिक थी, अच्छी तरह से परिभाषित थी, किन्तु सीमा में सीमित थी। विशेष रूप से इसका अनुप्रयोग उन स्थितियों तक सीमित था जिन्हें एक अच्छी तरह से परिभाषित जनसंख्या के साथ एक प्रयोग या परीक्षण के रूप में परिभाषित किया जा सकता था।

बेयस प्रमेय का नाम रेव थॉमस बेयस 1701-1761 के नाम पर रखा गया है। बायेसियन अनुमान ने संभाव्यता के अनुप्रयोग को अनेक स्थितियों में विस्तृत किया जहां जनसंख्या को अच्छी तरह से परिभाषित नहीं किया गया था। किन्तु बेयस का प्रमेय सदैव नई संभावनाओं को उत्पन्न करने के लिए पूर्व संभावनाओं पर निर्भर करता था। यह स्पष्ट नहीं था कि यह पूर्व संभावनाएँ कहाँ से आनी चाहिए।

रे सोलोमोनोव ने एल्गोरिथम संभाव्यता विकसित की, जिसने यह स्पष्टीकरण दिया कि यादृच्छिकता क्या है और डेटा में पैटर्न को कंप्यूटर प्रोग्राम द्वारा कैसे दर्शाया जा सकता है, जो साल 1964 के आसपास डेटा का संक्षिप्त प्रतिनिधित्व देते हैं।

क्रिस वालेस (कंप्यूटर वैज्ञानिक) और डी. एम. बोल्टन ने साल 1968 के आसपास न्यूनतम संदेश लंबाई विकसित की। इस प्रकार पश्चात् में जोर्मा रिसेनन ने लगभग साल 1978 के आसपास न्यूनतम विवरण लंबाई विकसित की। यह विधियाँसूचना सिद्धांत को संभाव्यता से संबंधित करने की अनुमति देती हैं, एक तरह से जिसकी तुलना बेयस प्रमेय के अनुप्रयोग से की जा सकती है‚ किन्तु जो पूर्व संभावनाओं की भूमिका के लिए एक स्रोत और स्पष्टीकरण देता है।

मार्कस हटर ने लगभग साल 1998 में एक बुद्धिमान एजेंट के लिए पेरेटो दक्षता व्यवहार के लिए एक सिद्धांत देने के लिए निर्णय सिद्धांत को रे सोलोमोनोव और एंड्री कोलमोगोरोव के काम के साथ जोड़ा।

न्यूनतम विवरण/संदेश की लंबाई
डेटा से मेल खाने वाली सबसे छोटी लंबाई वाला प्रोग्राम भविष्य के डेटा की भविष्यवाणी करने की सबसे अधिक संभावना है। इस प्रकार न्यूनतम संदेश लंबाई और न्यूनतम विवरण लंबाई विधियों के पीछे यही थीसिस हैं।

पहली नज़र में बेयस का प्रमेय न्यूनतम संदेश/विवरण लंबाई सिद्धांत से भिन्न प्रतीत होता है। इस प्रकार बारीकी से निरीक्षण करने पर यह वैसा ही निकला। बेयस का प्रमेय सशर्त संभावनाओं के बारे में है, और यह संभावना बताता है कि घटना बी तब घटित होती है जब सबसे पहले घटना ए घटित होती है:


 * $$P(A \land B) = P(B) \cdot P(A | B) = P(A) \cdot P(B |  A)$$

संदेश की लंबाई L के संदर्भ में हो जाता है,
 * $$L(A \land B) = L(B) + L(A | B) = L(A) + L(B |  A).$$

इसका कारण यह है कि यदि सभी जानकारी किसी घटना का वर्णन करते हुए दी गई है तब सूचना की लंबाई का उपयोग घटना की मूल संभावना बताने के लिए किया जा सकता है। इसलिए यदि ए की घटना का वर्णन करने वाली जानकारी, बी द्वारा दिए गए ए का वर्णन करने वाली जानकारी के साथ दी गई है, तब ए और बी का वर्णन करने वाली सभी जानकारी दी गई है।

ओवरफिटिंग
ओवरफिटिंग तब होती है जब मॉडल यादृच्छिक ध्वनि से मेल खाता है न कि डेटा में पैटर्न से। उदाहरण के लिए, उस स्थिति को लें जहां बिंदुओं के एक समूह पर एक वक्र फिट किया गया है। यदि अनेक पदों वाला बहुपद फिट किया जाता है तब यह डेटा को अधिक बारीकी से प्रदर्शित कर सकता है। तब फिट उत्तम होगा, और फिट किए गए वक्र से विचलन का वर्णन करने के लिए आवश्यक जानकारी कम होगी। इस प्रकार छोटी सूचना लंबाई का कारण उच्च संभावना है।

चूँकि, वक्र का वर्णन करने के लिए आवश्यक जानकारी पर भी विचार किया जाना चाहिए। अनेक पदों वाले वक्र के लिए कुल जानकारी कम पदों वाले वक्र की तुलना में अधिक हो सकती है, जो उतनी अच्छी तरह से फिट नहीं होती है, किन्तु बहुपद का वर्णन करने के लिए कम जानकारी की आवश्यकता होती है।

प्रोग्राम की जटिलता पर आधारित अनुमान
सोलोमनॉफ़ का आगमनात्मक अनुमान का सिद्धांत भी आगमनात्मक अनुमान है। एक बिट स्ट्रिंग x देखी गई है। फिर उन सभी प्रोग्रामों पर विचार करें जो x से प्रारंभ होने वाली स्ट्रिंग उत्पन्न करते हैं। इस प्रकार आगमनात्मक अनुमान के रूप में डाले गए, प्रोग्राम ऐसे सिद्धांत हैं जो बिट स्ट्रिंग x के अवलोकन का संकेत देते हैं।

आगमनात्मक अनुमान के लिए संभावनाएं देने के लिए यहां उपयोग की जाने वाली विधि सोलोमनॉफ के आगमनात्मक अनुमान के सिद्धांत पर आधारित है।

डेटा में पैटर्न का पता लगाना
यदि सभी बिट्स 1 हैं, तब लोग अनुमान लगाते हैं कि सिक्के में एक पूर्वाग्रह है और यह भी अधिक संभावना है कि अगला बिट भी 1 है। इसे डेटा से सीखने या उसमें एक पैटर्न का पता लगाने के रूप में वर्णित किया गया है।

इस तरह के पैटर्न को एक कंप्यूटर प्रोग्राम द्वारा दर्शाया जा सकता है। इस प्रकार एक छोटा कंप्यूटर प्रोग्राम लिखा जा सकता है जो बिट्स की एक श्रृंखला उत्पन्न करता है जो सभी 1 हैं। यदि प्रोग्राम की लंबाई K है $$L(K)$$ बिट्स तब इसकी पूर्व संभावना है,
 * $$P(K) = 2^{-L(K)}$$

बिट्स की स्ट्रिंग का प्रतिनिधित्व करने वाले सबसे छोटे प्रोग्राम की लंबाई को कोलमोगोरोव जटिलता कहा जाता है।

कोलमोगोरोव जटिलता गणना योग्य नहीं है। यह रुकने की समस्या से संबंधित है‚ सबसे छोटे प्रोग्राम की खोज करते समय कुछ प्रोग्राम अनंत लूप में जा सकते हैं।

सभी सिद्धांतबं पर विचार करना
यूनानी दार्शनिक एपिक्यूरस को यह कहते हुए उद्धृत किया गया है कि यदि एक से अधिक सिद्धांत अवलोकनों के अनुरूप हैं, तब सभी सिद्धांतबं को रखें।

जैसा कि एक अपराध उपन्यास में संभावित हत्यारे को निर्धारित करने में सभी सिद्धांतबं पर विचार किया जाना चाहिए, इसलिए आगमनात्मक संभावना के साथ बिट्स की धारा से उत्पन्न होने वाले संभावित भविष्य के बिट्स को निर्धारित करने में सभी कार्यक्रमों पर विचार किया जाना चाहिए।

जो प्रोग्राम पहले से ही n से अधिक लंबे हैं उनमें कोई पूर्वानुमानित शक्ति नहीं है। कच्ची (या पूर्व) संभावना है कि बिट्स का पैटर्न यादृच्छिक है (कोई पैटर्न नहीं है)। $$2^{-n}$$.

प्रत्येक प्रोग्राम जो बिट्स का अनुक्रम उत्पन्न करता है, किन्तु n से छोटा है, बिट्स के बारे में एक सिद्धांत/पैटर्न है जिसकी संभावना है $$2^{-k}$$ जहाँ k प्रोग्राम की लंबाई है।

बिट्स x की एक श्रृंखला प्राप्त करने के पश्चात् बिट्स y का एक क्रम प्राप्त करने की संभावना, दिए गए x को प्राप्त करने की सशर्त संभावना है, जो कि y के साथ x की संभावना है, जिसे x की संभावना से विभाजित किया जाता है।

सार्वभौमिक पूर्वज
प्रोग्रामिंग भाषा स्ट्रिंग में अगले बिट की भविष्यवाणियों को प्रभावित करती है। भाषा पूर्व संभाव्यता के रूप में कार्य करती है। यह विशेष रूप से एक समस्या है जहां प्रोग्रामिंग भाषा संख्याओं और अन्य डेटा प्रकारों के लिए कोड करती है। सहज रूप से हम सोचते हैं कि 0 और 1 सरल संख्याएँ हैं, और अभाज्य संख्याएँ उन संख्याओं की तुलना में किसी तरह अधिक जटिल हैं जो मिश्रित हो सकती हैं।

कोलमोगोरोव जटिलता का उपयोग करने से किसी संख्या की पूर्व संभावना का निष्पक्ष अनुमान (एक सार्वभौमिक पूर्व) मिलता है। एक विचार प्रयोग के रूप में एक बुद्धिमान एजेंट को कच्चे नंबरों पर कुछ परिवर्तन फलन प्रयुक्त करने के पश्चात्, संख्याओं की एक श्रृंखला देने वाले डेटा इनपुट डिवाइस के साथ फिट किया जा सकता है। इस प्रकार किसी अन्य एजेंट के पास भिन्न परिवर्तन फलन के साथ समान इनपुट डिवाइस हो सकता है। एजेंट इन परिवर्तन कार्यों को नहीं देखते या जानते नहीं हैं। तब एक कार्य को दूसरे पर प्राथमिकता देने का कोई तर्कसंगत आधार नहीं दिखता हैं। इस प्रकार एक सार्वभौमिक पूर्व यह सुनिश्चित करता है कि यद्यपि दो एजेंटों के पास डेटा इनपुट के लिए भिन्न-भिन्न प्रारंभिक संभाव्यता वितरण हो सकते हैं, अंतर एक स्थिरांक द्वारा सीमित होगा।

इसलिए सार्वभौमिक प्राथमिकताएं प्रारंभिक पूर्वाग्रह को खत्म नहीं करती हैं, किंतु वह इसे कम और सीमित करती हैं। जब भी हम किसी घटना का किसी भाषा में वर्णन करते हैं, या तब प्राकृतिक भाषा या अन्य भाषा का उपयोग करते हुए, भाषा हमारी पूर्व अपेक्षाओं को इसमें समाहित कर देती है। इसलिए पूर्व संभावनाओं पर कुछ निर्भरता अपरिहार्य है।

एक समस्या उत्पन्न होती है जहां एक बुद्धिमान एजेंट की पूर्व अपेक्षाएं पर्यावरण के साथ बातचीत करके एक स्व-सुदृढ़ीकरण फ़ीड बैक लूप बनाती हैं। यह पूर्वाग्रह या पूर्वाग्रह की समस्या है‚ सार्वभौमिक प्राथमिकताएँ इस समस्या को कम तब करती हैं किन्तु ख़त्म नहीं करतीं है।

सार्वभौमिक कृत्रिम बुद्धिमत्ता
सार्वभौमिक कृत्रिम बुद्धिमत्ता का सिद्धांत निर्णय सिद्धांत को आगमनात्मक संभावनाओं पर प्रयुक्त करता है। सिद्धांत दिखाता है कि इनाम फलन को अनुकूलित करने के लिए सर्वोत्तम कार्यों को कैसे चुना जा सकता है। इस प्रकार परिणाम बुद्धि का एक सैद्धांतिक मॉडल है।

यह बुद्धि का एक मौलिक सिद्धांत है, जो एजेंटों के व्यवहार को अनुकूलित करता है,
 * पर्यावरण की खोज; ऐसी प्रतिक्रियाएँ प्राप्त करने के लिए कार्य करना जो एजेंटों के ज्ञान को विस्तृत करें।
 * किसी अन्य एजेंट के साथ प्रतिस्पर्धा या सहयोग करना; खेल.
 * लघु और दीर्घकालिक पुरस्कारों को संतुलित करना।

सामान्यतः कोई भी एजेंट सभी स्थितियों में सदैव सर्वोत्तम कार्रवाई प्रदान नहीं करेगा। इस प्रकार किसी एजेंट द्वारा चुना गया कोई विशेष विकल्प गलत हो सकता है और वातावरण एजेंट को प्रारंभिक खराब विकल्प से उबरने का कोई रास्ता नहीं दे सकता है। चूँकि एजेंट पेरेटो इष्टतम है इस अर्थ में कि कोई भी अन्य एजेंट इस वातावरण में इस एजेंट से उत्तम काम नहीं करेगा, बिना किसी अन्य वातावरण में खराब किए। इस अर्थ में किसी अन्य एजेंट को उत्तम नहीं कहा जा सकता है।

वर्तमान में सिद्धांत अगणनीयता (रुकने की समस्या) द्वारा सीमित है। इससे बचने के लिए अनुमानों का उपयोग किया जा सकता है। प्रसंस्करण गति और दहनशील विस्फोट कृत्रिम बुद्धिमत्ता के लिए प्राथमिक सीमित कारक बने हुए हैं।

संभावना
संभाव्यता कथनों की सत्यता के बारे में अनिश्चित या आंशिक ज्ञान का प्रतिनिधित्व है। संभावनाएं पिछले अनुभव और डेटा से बने अनुमानों के आधार पर संभावित परिणामों के व्यक्तिपरक और व्यक्तिगत अनुमान हैं।

संभाव्यता का यह वर्णन प्रथम दृष्टया अजीब लग सकता है। प्राकृतिक भाषा में हम इस संभावना को संदर्भित करते हैं कि सूर्य कल उगेगा। हम आपकी संभावना का उल्लेख नहीं करते कि सूर्य उदय होगा। किन्तु अनुमान को सही ढंग से मॉडल करने के लिए संभाव्यता व्यक्तिगत होनी चाहिए, और अनुमान का कार्य पूर्व संभावनाओं से नई पिछली संभावनाएं उत्पन्न करता है।

संभावनाएँ व्यक्तिगत होती हैं क्योंकि वह व्यक्ति के ज्ञान पर निर्भर होती हैं। इस प्रकार संभावनाएँ व्यक्तिपरक होती हैं क्योंकि वह सदैव, कुछ सीमा तक, व्यक्ति द्वारा निर्दिष्ट पूर्व संभावनाओं पर निर्भर करती हैं। यहां सब्जेक्टिव का अर्थ अस्पष्ट या अपरिभाषित नहीं लिया जाना चाहिए।

बुद्धिमान एजेंट शब्द का प्रयोग संभावनाओं के धारक को संदर्भित करने के लिए किया जाता है। बुद्धिमान एजेंट इंसान या मशीन हो सकता है। यदि बुद्धिमान एजेंट पर्यावरण के साथ बातचीत नहीं करता है तब संभावना समय के साथ घटना की आवृत्ति में परिवर्तित हो जाएगी।

यदि फिर भी एजेंट पर्यावरण के साथ बातचीत करने की संभावना का उपयोग करता है तब एक प्रतिक्रिया हो सकती है, जिससे कि समान वातावरण में दो एजेंट केवल थोड़े भिन्न पूर्ववर्तियों से प्रारंभ होकर पूरी तरह से भिन्न संभावनाओं के साथ समाप्त हो जाएं। इस स्थितियों में इष्टतम निर्णय सिद्धांत जैसा कि मार्कस हटर में है | इस प्रकार मार्कस हटर की यूनिवर्सल आर्टिफिशियल इंटेलिजेंस एजेंट के लिए पेरेटो को इष्टतम प्रदर्शन देगी। इसका कारण यह है कि कोई भी अन्य बुद्धिमान एजेंट एक वातावरण में उत्तम प्रदर्शन किए बिना दूसरे वातावरण में बदतर प्रदर्शन नहीं कर सकता है।

निगमनात्मक संभाव्यता से तुलना
निगमनात्मक संभाव्यता सिद्धांतबं में, संभाव्यताएँ पूर्ण होती हैं, जो मूल्यांकन करने वाले व्यक्ति से स्वतंत्र होती हैं। किन्तु निगमनात्मक संभावनाएँ इस पर आधारित हैं,
 * ज्ञान साझा किया।
 * अनुमानित तथ्य, जिसका अनुमान आंकड़ों से लगाया जाना चाहिए।

उदाहरण के लिए, एक परीक्षण में प्रतिभागियों को परीक्षणों के सभी पिछले इतिहास के परिणामों के बारे में पता होता है। वह यह भी मानते हैं कि प्रत्येक परिणाम समान रूप से संभावित है। साथ में यह संभाव्यता के एकल बिना शर्त मूल्य को परिभाषित करने की अनुमति देता है।

किन्तु हकीकत में हर व्यक्ति के पास एक जैसी जानकारी नहीं होती और सामान्यतः प्रत्येक परिणाम की संभावना समान नहीं होती है। पासा लोड किया जा सकता है और इस लोडिंग का अनुमान डेटा से लगाया जाना चाहिए।

अनुमान के रूप में संभाव्यता
संभाव्यता सिद्धांत में उदासीनता के सिद्धांत ने महत्वपूर्ण भूमिका निभाई है। इसमें कहा गया है कि यदि एन कथन सममित हैं जिससे कि एक स्थिति को दूसरे पर प्राथमिकता न दी जा सके तब सभी कथन समान रूप से संभावित हैं।

गंभीरता से लिया जाए तब संभाव्यता के मूल्यांकन में यह सिद्धांत विरोधाभासों की ओर ले जाता है। मान लीजिए कि दूर पर सोने के 3 बैग हैं और उनमें से एक को चुनने के लिए कहा जाता है। फिर दूरी की वजह से बैग का साइज नजर नहीं आता है। तब आप उदासीनता के सिद्धांत का उपयोग करके अनुमान लगाते हैं कि प्रत्येक बैग में समान मात्रा में सोना है, और प्रत्येक बैग में एक तिहाई सोना है।

अभी, जबकि हम में से एक नहीं देख रहा है, दूसरा एक बैग लेता है और उसे 3 बैगों में बांट देता है। अभी वहां 5 बैग सोना है. उदासीनता का सिद्धांत अभी कहता है कि प्रत्येक बैग में सोने का पांचवां हिस्सा है। जिस बैग में एक तिहाई सोना होने का अनुमान था, अभी अनुमान है कि उसमें पांचवां सोना है।

बैग से जुड़े मूल्य के रूप में लिए गए मूल्य भिन्न हैं इसलिए विरोधाभासी हैं। किन्तु एक विशेष परिदृश्य के अनुसार दिए गए अनुमान के रूप में लिया गया, दोनों मूल्य भिन्न-भिन्न परिस्थितियों में दिए गए भिन्न-भिन्न अनुमान हैं और यह मानने का कोई कारण नहीं है कि वह समान हैं।

पूर्व संभावनाओं के अनुमान विशेष रूप से संदिग्ध हैं। ऐसे अनुमान बनाए जाएंगे जो किसी सुसंगत आवृत्ति वितरण का पालन नहीं करते हैं। इस कारण पूर्व संभावनाओं को संभावनाओं के अतिरिक्त संभावनाओं का अनुमान माना जाता है।

एक पूर्ण सैद्धांतिक उपचार प्रत्येक संभाव्यता के साथ संबद्ध होगा,
 * कथन
 * पूर्व ज्ञान
 * पूर्व संभावनाएँ
 * संभावना बताने के लिए उपयोग की जाने वाली अनुमान प्रक्रिया।

संभाव्यता दृष्टिकोणों का संयोजन
प्रेरणिक संभाव्यता (इंडक्टिव प्रोबेबिलिटी) संभाव्यता के दो भिन्न-भिन्न दृष्टिकोणों को जोड़ती है।
 * संभावना और जानकारी
 * संभाव्यता और आवृत्ति

प्रत्येक दृष्टिकोण थोड़ा भिन्न दृष्टिकोण देता है। सूचना सिद्धांत का उपयोग संभावनाओं को सूचना की मात्रा से जोड़ने में किया जाता है। इस दृष्टिकोण का उपयोग अधिकांशतः पूर्व संभावनाओं का अनुमान देने में किया जाता है।

बारंबारतावादी संभाव्यता संभावनाओं को वस्तुनिष्ठ कथन के रूप में परिभाषित करती है कि कोई घटना कितनी बार घटित होती है। संभावित दुनियाओं पर प्रयोग (संभावना सिद्धांत) को परिभाषित करके इस दृष्टिकोण को बढ़ाया जा सकता है। इस प्रकार संभावित विश्व के बारे में कथन घटना (संभावना सिद्धांत) को परिभाषित करते हैं।

संभाव्यता और जानकारी
जबकि तर्क केवल दो मूल्यों का प्रतिनिधित्व करता है; कथन के मानों के अनुसार सत्य और असत्य, संभाव्यता प्रत्येक कथन में [0,1] में एक संख्या जोड़ती है। यदि किसी कथन की प्रायिकता 0 है, तब कथन असत्य है। यदि किसी कथन की प्रायिकता 1 है तब कथन सत्य है।

कुछ डेटा को बिट्स की एक स्ट्रिंग के रूप में 1s और 0s के अनुक्रम के लिए पूर्व संभावनाओं पर विचार करने पर, 1 और 0 की संभावना सामान्तर होती है। इसलिए, प्रत्येक अतिरिक्त बिट बिट्स के अनुक्रम की संभावना को आधा कर देता है।

इससे यह निष्कर्ष निकलता है कि,
 * $$P(x) = 2^{-L(x)}$$

कहाँ $$P(x)$$ बिट्स की स्ट्रिंग की संभावना है $$x$$ और $$L(x)$$ इसकी लंबाई है.

किसी भी कथन की पूर्व संभाव्यता की गणना उसे बताने के लिए आवश्यक बिट्स की संख्या से की जाती है। सूचना सिद्धांत भी देखें।

जानकारी का संयोजन
दो कथन $$A$$ और $$B$$ दो भिन्न-भिन्न एन्कोडिंग द्वारा दर्शाया जा सकता है। फिर एन्कोडिंग की लंबाई है,


 * $$L(A \land B) = L(A) + L(B)$$

या संभाव्यता के संदर्भ में,


 * $$P(A \land B) = P(A) P(B)$$

किन्तु यह नियम सदैव सत्य नहीं होता क्योंकि एन्कोडिंग की एक छोटी विधि भी हो सकती है $$B$$ यदि हम मान लें $$A$$. अतः उपरोक्त संभाव्यता नियम केवल तभी प्रयुक्त होता है यदि $$A$$ और $$B$$ स्वतंत्र हैं.

सूचना की आंतरिक भाषा
संभाव्यता के लिए सूचना दृष्टिकोण का प्राथमिक उपयोग कथनों की जटिलता का अनुमान प्रदान करना है। इस प्रकार याद रखें कि ओकाम का रेजर कहता है कि सभी चीजें समान होने पर, सबसे सरल सिद्धांत के सही होने की सबसे अधिक संभावना है। इस नियम को प्रयुक्त करने के लिए, सबसे पहले सरलतम साधन की परिभाषा की आवश्यकता है। सूचना सिद्धांत सबसे सरल को सबसे कम एन्कोडिंग के रूप में परिभाषित करता है।

ज्ञान को कथन (तर्क) के रूप में दर्शाया जाता है। प्रत्येक कथन एक बूलियन बीजगणित अभिव्यक्ति (गणित) है। अभिव्यक्तियाँ एक फलन द्वारा एन्कोड की जाती हैं जो अभिव्यक्ति का विवरण (मान के विपरीत) लेता है और इसे बिट स्ट्रिंग के रूप में एन्कोड करता है।

किसी कथन की एन्कोडिंग की लंबाई किसी कथन की संभावना का अनुमान देती है। इस संभाव्यता अनुमान का उपयोग अधिकांशतः किसी कथन की पूर्व संभाव्यता के रूप में किया जाएगा।

विधि रूप से यह अनुमान संभाव्यता नहीं है क्योंकि इसका निर्माण आवृत्ति वितरण से नहीं किया गया है। इसके द्वारा दिए गए संभाव्यता अनुमान सदैव संभाव्यता के योग के नियम का पालन नहीं करते हैं। कुल संभाव्यता के नियम को विभिन्न परिदृश्यों में प्रयुक्त करने से सामान्यतः कथन की लंबाई के अनुमान की तुलना में पूर्व संभाव्यता का अधिक त्रुटिहीन संभाव्यता अनुमान मिलेगा।

अभिव्यक्ति एन्कोडिंग
एक अभिव्यक्ति का निर्माण उपअभिव्यक्तियों से होता है,
 * स्थिरांक (फलन पहचानकर्ता सहित)।
 * कार्यों का अनुप्रयोग.
 * परिमाणक (तर्क)।

हफ़मैन कोडिंग को 3 स्थितियों में अंतर करना चाहिए। प्रत्येक कोड की लंबाई प्रत्येक प्रकार के उपअभिव्यक्तियों की आवृत्ति पर आधारित होती है।

प्रारंभ में सभी स्थिरांकों को समान लंबाई/संभावना दी गई है। इस प्रकार अभी तक रिकॉर्ड किए गए सभी अभिव्यक्तियों में फलन आईडी के उपयोग की संख्या के आधार पर हफ़मैन कोड का उपयोग करके पश्चात् के स्थिरांक को एक संभावना सौंपी जा सकती है। हफ़मैन कोड का उपयोग करने का लक्ष्य संभावनाओं का अनुमान लगाना है, न कि डेटा को संपीड़ित करना।

फलन एप्लिकेशन की लंबाई फलन पहचानकर्ता स्थिरांक की लंबाई और प्रत्येक पैरामीटर के लिए अभिव्यक्तियों के आकार का योग है।

एक क्वांटिफ़ायर की लंबाई उस अभिव्यक्ति की लंबाई है जिसे परिमाणित किया जा रहा है।

संख्याओं का वितरण
प्राकृतिक संख्याओं का कोई स्पष्ट प्रतिनिधित्व नहीं दिया गया है। चूँकि, उत्तराधिकारी फलन को 0 पर प्रयुक्त करके और फिर अन्य अंकगणितीय कार्यों को प्रयुक्त करके प्राकृतिक संख्याओं का निर्माण किया जा सकता है। इस प्रकार प्रत्येक संख्या के निर्माण की जटिलता के आधार पर, इसमें प्राकृतिक संख्याओं का वितरण निहित है।

परिमेय संख्याओं का निर्माण प्राकृतिक संख्याओं के विभाजन से होता है। सबसे सरल निरूपण में अंश और हर के मध्य कोई सामान्य गुणनखंड नहीं होता है। इससे प्राकृतिक संख्याओं के संभाव्यता वितरण को तर्कसंगत संख्याओं तक बढ़ाया जा सकता है।

संभाव्यता और आवृत्ति
किसी घटना की संभाव्यता (संभावना सिद्धांत) की व्याख्या परिणाम (संभावना) की आवृत्तियों के रूप में की जा सकती है जहां कथन सत्य को परिणामों की कुल संख्या से विभाजित किया जाता है। यदि परिणाम सातत्य बनाते हैं तब आवृत्ति को संभाव्यता माप से बदलने की आवश्यकता हो सकती है।

घटनाएँ परिणामों का समूह हैं। कथन घटनाओं से संबंधित हो सकते हैं. परिणामों के बारे में एक बूलियन कथन बी परिणामों के एक समूह को परिभाषित करता है बी,
 * $$ b = \{x : B(x)\} $$

सशर्त संभाव्यता
प्रत्येक संभावना सदैव तर्क में एक विशेष बिंदु पर ज्ञान की स्थिति से जुड़ी होती है। अनुमान से पहले की संभावनाओं को पूर्व संभावनाओं के रूप में जाना जाता है, और पश्चात् की संभावनाओं को पश्च संभावनाओं के रूप में जाना जाता है।

संभाव्यता ज्ञात तथ्यों पर निर्भर करती है। इस प्रकार किसी तथ्य की सच्चाई परिणामों के क्षेत्र को तथ्य के अनुरूप परिणामों तक सीमित कर देती है। पूर्व संभावनाएँ किसी तथ्य के ज्ञात होने से पहले की संभावनाएँ हैं। पिछली संभावनाएँ किसी तथ्य के ज्ञात होने के पश्चात् होती हैं। पिछली संभावनाओं को तथ्य पर सशर्त कहा जाता है। संभावना है कि $$B$$ यह सत्य है $$A$$ सत्य है इस प्रकार लिखा गया है: $$P(B |  A).$$

सभी संभावनाएँ कुछ अर्थों में सशर्त हैं। की पूर्व संभावना $$B$$ है,
 * $$P(B) = P(B | \top)$$

बारंबारतावादी दृष्टिकोण संभावित दुनियाओं पर प्रयुक्त होता है
फ़्रीक्वेंटिस्ट अनुमान में, संभावनाओं को किसी घटना के अंदर परिणामों (संभावना) की संख्या और परिणामों की कुल संख्या के अनुपात के रूप में परिभाषित किया जाता है। संभावित विश्व मॉडल में प्रत्येक संभावित विश्व एक परिणाम है, और संभावित विश्व के बारे में कथन घटनाओं को परिभाषित करते हैं। इस प्रकार किसी कथन के सत्य होने की प्रायिकता उन संभावित विश्वों की संख्या है जहां कथन सत्य है, संभावित विश्वों की कुल संख्या से विभाजित किया जाता है। किसी कथन की संभावना $$A$$ संभावित विश्व के बारे में सच होना तब है,
 * $$ P(A) = \frac{|\{x : A(x)\}|}{|x : \top|} $$

एक सशर्त संभाव्यता के लिए.
 * $$ P(B |  A) = \frac{|\{x : A(x) \land B(x)\}|}{|x : A(x)|} $$

तब


 * $$ \begin{align} P(A \land B) &= \frac{|\{x : A(x) \land B(x)\}|}{|x : \top|} \\[8pt]

&= \frac{|\{x : A(x) \land B(x)\}|}{|\{x : A(x)\}|} \frac{|\{x : A(x)\}|}{|x : \top|} \\[8pt] &= P(A) P(B |  A) \end{align}$$ समरूपता का उपयोग करके इस समीकरण को बेयस नियम के रूप में लिखा जा सकता है।
 * $$ P(A \land B) = P(A) P(B |  A) = P(B) P(A  |  B)$$

जब नए तथ्य सीखे जाते हैं तब यह नियम पूर्व और पश्च संभावनाओं के मध्य संबंध का वर्णन करता है।

जानकारी की मात्रा के रूप में लिखा गया बेयस प्रमेय बन जाता है,
 * $$L(A \land B) = L(A) + L(B |  A) = L(B) + L(A  |  B)$$

दो कथन A और B स्वतंत्र कहलाते हैं यदि A का सत्य जानने से B की संभावना नहीं बदलती। गणितीय रूप से यह है,
 * $$P(B) = P(B |  A)$$

तब बेयस प्रमेय कम हो जाता है,
 * $$P(A \land B) = P(A) P(B)$$

संभाव्यता के योग का नियम
परस्पर अनन्य संभावनाओं के एक समूह के लिए $$A_i$$, पिछली संभावनाओं का योग 1 होना चाहिए।
 * $$\sum_i{P(A_i |  B)} = 1$$

बेयस प्रमेय का उपयोग करके प्रतिस्थापित करने से कुल संभाव्यता का नियम मिलता है
 * $$\sum_i{P(B |  A_i)P(A_i)} = \sum_i{P(A_i  |  B)P(B)}$$
 * $$P(B) = \sum_i{P(B |  A_i) P(A_i)}$$

इस परिणाम का उपयोग बेयस प्रमेय#विस्तारित रूप|बेयस प्रमेय का विस्तारित रूप देने के लिए किया जाता है,
 * $$P(A_i |  B) = \frac{P(B  |  A_i) P(A_i)}{\sum_j{P(B  |  A_j) P(A_j)}}$$

यह व्यवहार में प्रयुक्त बेयस प्रमेय का सामान्य रूप है, क्योंकि यह सभी पिछली संभावनाओं के योग की गारंटी देता है $$A_i$$ 1 है.

वैकल्पिक संभावनाएँ
परस्पर अनन्य संभावनाओं के लिए, संभावनाएँ जोड़ी जाती हैं।
 * $$ P(A \lor B) = P(A) + P(B), \qquad \text{if } P(A \land B) = 0 $$

का उपयोग करते हुए
 * $$ A \lor B = (A \land \neg (A \land B)) \lor (B \land \neg (A \land B)) \lor (A \land B)$$

फिर विकल्प
 * $$ A \land \neg (A \land B), \quad B \land \neg (A \land B), \quad A \land B $$

सभी परस्पर अनन्य हैं। भी,
 * $$ (A \land \neg (A \land B)) \lor (A \land B) = A $$
 * $$ P(A \land \neg (A \land B)) + P(A \land B) = P(A) $$
 * $$ P(A \land \neg (A \land B)) = P(A) - P(A \land B) $$

तब, यह सब एक साथ रखकर,


 * $$ \begin{align}

P(A \lor B) &= P((A \land \neg (A \land B)) \lor (B \land \neg (A \land B)) \lor (A \land B)) \\ & = P(A \land \neg (A \land B) + P(B \land \neg (A \land B)) + P(A \land B) \\ &= P(A) - P(A \land B) + P(B) - P(A \land B) + P(A \land B) \\ &= P(A) + P(B) - P(A \land B) \end{align}$$

निषेध
जैसा,
 * $$ A \lor \neg A = \top $$

तब
 * $$ P(A) + P(\neg A) = 1$$

निहितार्थ और स्थिति संभावना

निहितार्थ निम्नलिखित समीकरण द्वारा सशर्त संभाव्यता से संबंधित है,
 * $$A \to B \iff P(B |  A) = 1$$

व्युत्पत्ति,


 * $$\begin{align}

A \to B & \iff P(A \to B) = 1 \\ &\iff P(A \land B \lor \neg A) = 1 \\ &\iff P(A \land B) + P(\neg A) = 1 \\ &\iff P(A \land B) = P(A) \\ &\iff P(A) \cdot P(B |  A) = P(A) \\ &\iff P(B |  A) = 1 \end{align}$$

बायेसियन परिकल्पना परीक्षण
बेयस प्रमेय का उपयोग कुछ तथ्यों एफ को देखते हुए एक परिकल्पना या सिद्धांत एच की संभावना का अनुमान लगाने के लिए किया जा सकता है। एच की पिछली संभावना तब होती है


 * $$P(H |  F) = \frac{P(H)P(F  |  H)}{P(F)}$$

या जानकारी के संदर्भ में,
 * $$P(H |  F) = 2^{-(L(H) + L(F  |  H) - L(F))} $$

यह मानकर कि परिकल्पना सत्य है, कथन F का एक सरल प्रतिनिधित्व दिया जा सकता है। इस सरल निरूपण की एन्कोडिंग की लंबाई है $$L(F |  H).$$

$$L(H) + L(F |  H) $$ यदि H सत्य है, तब तथ्य F का प्रतिनिधित्व करने के लिए आवश्यक जानकारी की मात्रा का प्रतिनिधित्व करता है। $$L(F)$$ परिकल्पना एच के बिना एफ का प्रतिनिधित्व करने के लिए आवश्यक जानकारी की मात्रा है। अंतर यह है कि एच को सत्य मानकर तथ्यों के प्रतिनिधित्व को कितना संकुचित किया गया है। यह इस बात का प्रमाण है कि परिकल्पना H सत्य है।

यदि $$L(F)$$ एन्कोडिंग लंबाई से पहले संभावना से अनुमान लगाया जाता है तब प्राप्त संभावना 0 और 1 के मध्य नहीं होगी। इस प्रकार प्राप्त मूल्य एक अच्छी संभावना अनुमान के बिना, संभावना के आनुपातिक है। प्राप्त संख्या को कभी-कभी सापेक्ष संभाव्यता के रूप में संदर्भित किया जाता है, सिद्धांत को न मानने की तुलना में सिद्धांत कितना अधिक संभावित है।

यदि साक्ष्य प्रदान करने वाली परस्पर अनन्य परिकल्पना का पूरा समूह ज्ञात है, तब पूर्व संभावना के लिए एक उचित अनुमान दिया जा सकता है $$P(F)$$.

परिकल्पना का समूह
संभावनाओं की गणना बेयस प्रमेय के विस्तारित रूप से की जा सकती है। सभी परस्पर अनन्य परिकल्पनाओं को देखते हुए $$H_i$$ जो प्रमाण देते हैं, जैसे कि,
 * $$L(H_i) + L(F |  H_i) < L(F)$$

और परिकल्पना आर भी, कि कोई भी परिकल्पना सत्य नहीं है, तब,
 * $$ \begin{align}

P(H_i |  F) &= \frac{P(H_i) P(F  |  H_i)}{P(F|R) + \sum_j{P(H_j) P(F  |  H_j)}} \\[8pt] P(R |  F) &= \frac{P(F  |  R)}{P(F  |  R) + \sum_j{P(H_j) P(F  |  H_j)}} \end{align}$$ जानकारी के संदर्भ में,


 * $$\begin{align}

P(H_i | F) &= \frac{2^{-(L(H_i) + L(F |  H_i))}}{2^{-L(F  |  R)} + \sum_j 2^{-(L(H_j) + L(F |  H_j)) }} \\[8pt] P(R| F) &= \frac{2^{-L(F |  R)}}{2^{-L(F  |  R)} + \sum_j{2^{-(L(H_j) + L(F  |  H_j))}}} \end{align}$$ अधिकांश स्थितियों में यह मान लेना एक अच्छा अनुमान है $$F$$ से स्वतंत्र है $$R$$, कारण$$P(F |  R) = P(F)$$ देना,


 * $$\begin{align}

P(H_i |  F) &\approx \frac{2^{-(L(H_i) + L(F  |  H_i))}}{2^{-L(F)} + \sum_j{2^{-(L(H_j) + L(F|H_j))}}} \\[8pt] P(R |  F) &\approx \frac{2^{-L(F)}}{2^{-L(F)} + \sum_j{2^{-(L(H_j) + L(F  |  H_j))}}} \end{align}$$

बूलियन आगमनात्मक अनुमान
अपहरण संबंधी तर्क संभाव्य अपहरण   तथ्यों के एक समूह F से प्रारंभ होता है जो एक कथन (बूलियन अभिव्यक्ति) है। अपहरणात्मक तर्क का स्वरूप है,


 * एक सिद्धांत टी कथन एफ को दर्शाता है। चूंकि सिद्धांत टी, एफ की तुलना में सरल है, अपहरण कहता है कि संभावना है कि सिद्धांत टी एफ द्वारा निहित है।

सिद्धांत टी, जिसे स्थिति एफ की व्याख्या भी कहा जाता है, सर्वव्यापी तथ्यात्मक क्यों प्रश्न का उत्तर है। इस प्रकार उदाहरण के लिए, स्थिति F के लिए सेब क्यों गिरते हैं? . उत्तर एक सिद्धांत टी है जिसका तात्पर्य है कि सेब गिरते हैं;
 * $$F = G \frac{m_1 m_2}{r^2}$$

आगमनात्मक अनुमान का स्वरूप है,
 * वर्ग C में सभी देखी गई वस्तुओं में एक गुण P होता है। इसलिए संभावना है कि वर्ग C में सभी देखी गई वस्तुओं में एक गुण P होता है।

अपहरणात्मक अनुमान के संदर्भ में, वर्ग सी या समूह में सभी वस्तुओं में एक संपत्ति पी होती है, यह एक सिद्धांत है जो प्रेक्षित स्थिति का तात्पर्य करता है, वर्ग सी में सभी देखी गई वस्तुओं में एक संपत्ति पी है।

अतः आगमनात्मक अनुमान अपहरणात्मक अनुमान का एक विशेष मामला है। सामान्य उपयोग में आगमनात्मक अनुमान शब्द का प्रयोग अधिकांशतः अपहरणात्मक और आगमनात्मक अनुमान दोनों को संदर्भित करने के लिए किया जाता है।

सामान्यीकरण और विशेषज्ञता
आगमनात्मक अनुमान सामान्यीकरण से संबंधित है। किसी विशिष्ट मान को किसी श्रेणी की सदस्यता से प्रतिस्थापित करके, या किसी श्रेणी की सदस्यता को व्यापक श्रेणी की सदस्यता से प्रतिस्थापित करके कथनों से सामान्यीकरण बनाया जा सकता है। इस प्रकार निगमनात्मक तर्क में, सामान्यीकरण नए सिद्धांतबं को उत्पन्न करने का एक शक्तिशाली विधि है जो सत्य हो सकते हैं। आगमनात्मक अनुमान में सामान्यीकरण उन सिद्धांतबं को उत्पन्न करता है जिनके सत्य होने की संभावना होती है।

सामान्यीकरण के विपरीत विशेषज्ञता है। किसी विशिष्ट स्थितियों में सामान्य नियम प्रयुक्त करने में विशेषज्ञता का उपयोग किया जाता है। किसी श्रेणी की सदस्यता को किसी विशिष्ट मान से प्रतिस्थापित करके, या किसी श्रेणी को उपश्रेणी से प्रतिस्थापित करके सामान्यीकरण से विशेषज्ञताएँ बनाई जाती हैं।

जीवित चीजों और वस्तुओं का कार्ल लिनिअस वर्गीकरण सामान्यीकरण और विशिष्टता का आधार बनता है। पहचानने, पहचानने और वर्गीकृत करने की क्षमता सामान्यीकरण का आधार है। विश्व को वस्तुओं के संग्रह के रूप में समझना मानव बुद्धि का एक प्रमुख पहलू प्रतीत होता है। गैर कंप्यूटर विज्ञान अर्थ में यह वस्तु उन्मुख मॉडल है।

वस्तु उन्मुख मॉडल का निर्माण हमारी धारणा से होता है। विशेष रूप से दृश्य धारणा दो छवियों की तुलना करने और गणना करने की क्षमता पर आधारित है कि एक छवि को दूसरी छवि में रूपांतरित या मानचित्र करने के लिए कितनी जानकारी की आवश्यकता है। इस प्रकार कंप्यूटर दृष्टि इस मानचित्रण का उपयोग स्टीरियोस्कोपी से 3डी छवियों के निर्माण के लिए करता है।

आगमनात्मक तर्क प्रोग्रामिंग सिद्धांत के निर्माण का एक साधन है जो एक स्थिति का तात्पर्य करता है। प्लॉटकिन का सापेक्ष न्यूनतम सामान्यीकरण (आरएलजीजी) दृष्टिकोण स्थिति के अनुरूप सबसे सरल सामान्यीकरण का निर्माण करता है।

न्यूटन द्वारा प्रेरण का उपयोग
आइजैक न्यूटन ने अपने न्यूटन के सार्वभौमिक गुरुत्वाकर्षण के नियम के निर्माण में आगमनात्मक तर्कों का उपयोग किया। कथन से प्रारंभ करते हुए,
 * सेब का केंद्र पृथ्वी के केंद्र की ओर गिरता है।

वस्तु के स्थान पर सेब और वस्तु के स्थान पर पृथ्वी के स्थान पर सामान्यीकरण करने से, दो निकाय प्रणाली में,
 * एक वस्तु का केंद्र दूसरी वस्तु के केंद्र की ओर पड़ता है।

सिद्धांत सभी वस्तुओं के गिरने की व्याख्या करता है, इसलिए इसके पुख्ता प्रमाण हैं। दूसरा अवलोकन,
 * ग्रह अण्डाकार पथ पर चलते प्रतीत होते हैं।

कुछ जटिल गणितीय गणना के पश्चात्, यह देखा जा सकता है कि यदि त्वरण व्युत्क्रम वर्ग नियम का पालन करता है तब वस्तुएँ एक दीर्घवृत्त का अनुसरण करेंगी। अतः प्रेरण व्युत्क्रम वर्ग नियम का प्रमाण देता है।

गैलीलियो गैलीली का उपयोग करना|गैलीलियो का अवलोकन कि सभी वस्तुएँ समान गति से गिरती हैं,
 * $$F_1 = m_1 a_1 = \frac{m_1 k_1}{r^2} i_1$$
 * $$F_2 = m_2 a_2 = \frac{m_2 k_2}{r^2} i_2$$

कहाँ $$i_1$$ और $$i_2$$ अन्य वस्तु के केंद्र की ओर सदिश। फिर न्यूटन के गति के नियमों का उपयोग करते हुए#न्यूटन का तीसरा नियम|न्यूटन का तीसरा नियम $$F_1 = -F_2$$
 * $$F = G\frac{m_1 m_2}{r^2}$$

आगमनात्मक अनुमान की संभावनाएँ

 * 1) निहितार्थ और स्थिति संभाव्यता,
 * $$T \to F \iff P(F |  T) = 1$$

इसलिए,
 * $$P(F |  T) = 1$$
 * $$L(F |  T) = 0$$

इस परिणाम का उपयोग बायेसियन परिकल्पना परीक्षण के लिए दी गई संभावनाओं में किया जा सकता है। एकल सिद्धांत के लिए, H = T और,
 * $$P(T |  F) = \frac{P(T)}{P(F)}$$

या जानकारी के संदर्भ में, सापेक्ष संभावना है,
 * $$P(T |  F) = 2^{-(L(T) - L(F))} $$

ध्यान दें कि P(T|F) के लिए यह अनुमान सही संभावना नहीं है। यदि $$L(T_i) < L(F)$$ तब सिद्धांत के पास इसका समर्थन करने के लिए प्रमाण हैं। फिर सिद्धांतबं के एक समूह के लिए $$T_i = H_i$$, ऐसा है कि $$L(T_i) < L(F)$$,


 * $$P(T_i |  F) = \frac{P(T_i)}{P(F  |  R) + \sum_j{P(T_j)}}$$
 * $$P(R |  F) = \frac{P(F  |  R)}{P(F  |  R) + \sum_j{P(T_j)}}$$

देना,
 * $$P(T_i |  F) \approx \frac{2^{-L(T_i)}}{2^{-L(F)} + \sum_j{2^{-L(T_j)}}}$$
 * $$P(R |  F) \approx \frac{2^{-L(F)}}{2^{-L(F)} + \sum_j{2^{-L(T_j)}}}$$

व्युत्पत्तियाँ

प्रेरणिक संभाव्यता (इंडक्टिव प्रोबेबिलिटी) की व्युत्पत्ति
सभी सबसे छोटे कार्यक्रमों की एक सूची बनाएं $$K_i$$ कि प्रत्येक बिट्स की एक भिन्न अनंत स्ट्रिंग उत्पन्न करता है, और संबंध को संतुष्ट करता है,


 * $$T_n(R(K_i)) = x$$

कहाँ $$R(K_i)$$ प्रोग्राम चलाने का परिणाम है $$K_i$$ और $$T_n$$ n बिट्स के पश्चात् स्ट्रिंग को छोटा कर देता है।

समस्या इस संभावना की गणना करना है कि स्रोत प्रोग्राम द्वारा निर्मित किया गया है $$K_i,$$ दिया गया है कि n बिट्स के पश्चात् काटा गया स्रोत x है। इसे सशर्त संभाव्यता द्वारा दर्शाया गया है,


 * $$P(s = R(K_i) | T_n(s) = x)$$

बेयस प्रमेय का उपयोग करना#विस्तारित रूप|बेयस प्रमेय का विस्तारित रूप


 * $$P(s = R(K_i) |T_n(s) = x) = \frac{P(T_n(s) = x|s = R(K_i))P(s = R(K_i))}{\sum_j P(T_n(s) = x|s = R(K_j)) P(s = R(K_j))}.$$

विस्तारित रूप कुल संभाव्यता के नियम पर निर्भर करता है। इसका कारणयह है कि $$s = R(K_i) $$ भिन्न-भिन्न संभावनाएँ होनी चाहिए, जो इस शर्त द्वारा दी गई है कि प्रत्येक $$K_i$$ एक भिन्न अनंत स्ट्रिंग उत्पन्न करें। शर्तबं में से एक यह भी $$s = R(K_i) $$ सच होना चाहिए. यह सच होना चाहिए, जैसा कि सीमा में है $$n \to \infty,$$ सदैव कम से कम एक प्रोग्राम होता है जो उत्पादन करता है $$T_n(s)$$.

जैसा $$K_i$$ इसलिए चुना जाता है $$T_n(R(K_i)) = x,$$ तब,
 * $$P(T_n(s) = x | s = R(K_i)) = 1 $$

स्ट्रिंग के बारे में कोई जानकारी न दिए जाने पर, प्रोग्राम से स्ट्रिंग उत्पन्न होने की प्राथमिक संभावना, प्रोग्राम के आकार पर आधारित होती है,
 * $$P(s = R(K_i)) = 2^{-I(K_i)}$$

देना,
 * $$P(s = R(K_i) | T_n(s) = x) = \frac{2^{-I(K_i)}}{\sum_j 2^{-I(K_j)}}.$$

ऐसे प्रोग्राम जो x की लंबाई के समान या उससे अधिक लंबे होते हैं, कोई पूर्वानुमानित शक्ति प्रदान नहीं करते हैं। उन्हें देकर भिन्न करो,
 * $$P(s = R(K_i) | T_n(s) = x) = \frac{2^{-I(K_i)}}{\sum_{j:I(K_j)<n} 2^{-I(K_j)}+\sum_{j:I(K_j)\geqslant n} 2^{-I(K_j)}}.$$

फिर दो संभावनाओं को इस प्रकार पहचानें,
 * $$P(x \text{ has pattern}) = \sum_{j:I(K_j)<n} 2^{-I(K_j)}$$
 * $$P(x \text{ is random}) = \sum_{j:I(K_j)\geqslant n} 2^{-I(K_j)}$$

किन्तु पूर्व संभावना यह है कि x बिट्स का एक यादृच्छिक समूह है $$2^{-n}$$. इसलिए,
 * $$P(s = R(K_i) | T_n(s) = x) = \frac{2^{-I(K_i)}}{2^{-n} + \sum_{j:I(K_j)<n} 2^{-I(K_j)}}.$$

संभावना है कि स्रोत यादृच्छिक है, या अप्रत्याशित है,
 * $$P(\operatorname{random}(s) | T_n(s) = x) = \frac{2^{-n}}{2^{-n} + \sum_{j:I(K_j)<n} 2^{-I(K_j)}}.$$

आगमनात्मक अनुमान के लिए एक मॉडल
विश्व का निर्माण कैसे किया जाता है इसका एक मॉडल सिद्धांतबं की संभावनाओं को निर्धारित करने में उपयोग किया जाता है,
 * एक यादृच्छिक बिट स्ट्रिंग का चयन किया जाता है।
 * बिट स्ट्रिंग से एक शर्त का निर्माण किया जाता है।
 * एक ऐसी विश्व का निर्माण होता है जो स्थिति के अनुरूप होती है।

यदि w बिट स्ट्रिंग है तब विश्व ऐसी बनाई गई है $$R(w)$$ क्या सच है। एक बुद्धिमान एजेंट के पास शब्द के बारे में कुछ तथ्य होते हैं, जिन्हें बिट स्ट्रिंग सी द्वारा दर्शाया जाता है, जो शर्त देता है,
 * $$C = R(c)$$

बिट स्ट्रिंग्स का समूह किसी भी स्थिति x के समान है $$E(x)$$.
 * $$\forall x, E(x) = \{w : R(w) \equiv x \}$$

एक सिद्धांत एक सरल स्थिति है जो सी की व्याख्या (या तात्पर्य) करती है। ऐसे सभी सिद्धांतबं के समूह को टी कहा जाता है,
 * $$ T(C) = \{t : t \to C \}$$

बेयस प्रमेय को प्रयुक्त करना
बेयस प्रमेय#विस्तारित रूप|बेयस प्रमेय का विस्तारित रूप प्रयुक्त किया जा सकता है
 * $$P(A_i | B) = \frac{P(B |  A_i)\,P(A_i)}{\sum_j P(B |  A_j)\,P(A_j)},$$

कहाँ,
 * $$B = E(C)$$
 * $$A_i = E(t)$$

बेयस प्रमेय को प्रयुक्त करने के लिए निम्नलिखित का पालन करना होगा: $$A_i$$ इवेंट स्पेस के एक समूह का एक विभाजन है।

के लिए $$T(C)$$ एक विभाजन होने के लिए, कोई भी बिट स्ट्रिंग n दो सिद्धांतबं से संबंधित नहीं हो सकती है। इसे सिद्ध करना करने के लिए वह मान सकते हैं और एक विरोधाभास निकाल सकते हैं,
 * $$(N \in T) \land (N \in M) \land (N \ne M) \land (n \in E(N) \land n \in E(M))$$
 * $$\implies (N \ne M) \land R(n) \equiv N \land R(n) \equiv M$$
 * $$\implies \bot$$

दूसरे सिद्ध करें कि T में शर्त के अनुरूप सभी परिणाम सम्मिलित हैं। चूंकि सी के अनुरूप सभी सिद्धांत सम्मिलित हैं $$R(w)$$ इस समूह में होना चाहिए.

इसलिए बेयस प्रमेय को निर्दिष्ट रूप में प्रयुक्त किया जा सकता है,
 * $$\forall t \in T(C), P(E(t) | E(C)) = \frac{P(E(t)) \cdot P(E(C) | E(t))}{\sum_{j \in T(C)} P(E(j)) \cdot P(E(C) | E(j))} $$


 * 1) निहितार्थ और स्थिति संभाव्यता का उपयोग करते हुए, की परिभाषा $$T(C)$$ तात्पर्य,
 * $$\forall t \in T(C), P(E(C) | E(t)) = 1$$

टी में प्रत्येक सिद्धांत की संभावना इस प्रकार दी गई है,
 * $$ \forall t \in T(C), P(E(t)) = \sum_{n: R(n) \equiv t} 2^{-L(n)}$$

इसलिए,
 * $$\forall t \in T(C), P(E(t) | E(C)) = \frac{\sum_{n: R(n) \equiv t} 2^{-L(n)}}{\sum_{j \in T(C)} \sum_{m: R(m) \equiv j} 2^{-L(m)}} $$

अंततः घटनाओं की संभावनाओं को उस स्थिति की संभावनाओं से पहचाना जा सकता है जिसे घटना के परिणाम संतुष्ट करते हैं,
 * $$\forall t \in T(C), P(E(t) | E(C)) = P(t | C)$$

दे रही है
 * $$\forall t \in T(C), P(t | C) = \frac{\sum_{n: R(n) \equiv t} 2^{-L(n)}}{\sum_{j \in T(C)} \sum_{m: R(m) \equiv j} 2^{-L(m)}} $$

यह देखने के पश्चात् कि स्थिति C कायम है, सिद्धांत t की संभावना है।

भविष्यवाणी की शक्ति के बिना सिद्धांतबं को हटाना
ऐसे सिद्धांत जो स्थिति C से कम संभावित हैं, उनमें कोई पूर्वानुमान लगाने की शक्ति नहीं है। उन्हें देकर भिन्न करो,
 * $$\forall t \in T(C), P(t | C) = \frac{P(E(t))}{(\sum_{j : j \in T(C) \land P(E(j)) > P(E(C))} P(E(j))) + (\sum_{j : j \in T(C) \land P(E(j)) \le P(E(C))} P(j))} $$

C पर पूर्वानुमानित शक्ति के बिना सिद्धांतबं की संभावना C की संभावना के समान है। इसलिए,
 * $$P(E(C)) = \sum_{j : j \in T(C) \land P(E(j)) \le P(E(C))} P(j)$$

तब संभावना
 * $$\forall t \in T(C), P(t | C) = \frac{P(E(t))}{P(E(C)) + \sum_{j : j \in T(C) \land P(E(j)) > P(E(C))} P(E(j))} $$

और C के लिए कोई भविष्यवाणी न होने की संभावना, इस प्रकार लिखी गई है $$\operatorname{random}(C)$$,
 * $$P(\text{random}(C) | C) = \frac{P(E(C))}{P(E(C)) + \sum_{j : j \in T(C) \land P(E(j)) > P(E(C))} P(E(j))} $$

एक शर्त की संभावना इस प्रकार दी गई थी,
 * $$ \forall t, P(E(t)) = \sum_{n: R(n) \equiv t} 2^{-L(n)}$$

सिद्धांतबं के लिए बिट स्ट्रिंग्स जो एजेंट को इनपुट के रूप में दी गई बिट स्ट्रिंग से अधिक जटिल हैं, उनमें कोई पूर्वानुमानित शक्ति नहीं है। वहाँ संभावनाओं को यादृच्छिक स्थितियों में उत्तम ढंग से सम्मिलित किया गया है। इसे प्रयुक्त करने के लिए F के रूप में एक नई परिभाषा दी गई है,


 * $$ \forall t, P(F(t, c)) = \sum_{n: R(n) \equiv t \land L(n) < L(c)} 2^{-L(n)}$$

एफ का उपयोग करते हुए, अपहरण की संभावनाओं का एक उन्नत संस्करण है,
 * $$\forall t \in T(C), P(t | C) = \frac{P(F(t, c))}{P(F(C, c)) + \sum_{j : j \in T(C) \land P(F(j, c)) > P(F(C, c))} P(E(j, c))} $$
 * $$P(\operatorname{random}(C) | C) = \frac{P(F(C, c))}{P(F(C, c)) + \sum_{j : j \in T(C) \land P(F(j, c)) > P(F(C, c))} P(F(j, c))} $$

प्रमुख लोग

 * ओखम के विलियम
 * थॉमस बेयस
 * रे सोलोमोफ़
 * एंड्री कोलमोगोरोव
 * क्रिस वालेस (कंप्यूटर वैज्ञानिक)
 * डी. एम. बोल्टन
 * जोर्मा रिसेनन
 * मार्कस हटर

यह भी देखें

 * अपहरणात्मक तर्क
 * एल्गोरिथम संभाव्यता
 * एल्गोरिथम सूचना सिद्धांत
 * बायेसियन अनुमान
 * सूचना सिद्धांत
 * आगमनात्मक अनुमान
 * आगमनात्मक तर्क प्रोग्रामिंग
 * विवेचनात्मक तार्किकता
 * सीखना
 * न्यूनतम संदेश लंबाई
 * न्यूनतम विवरण लंबाई
 * ओकाम का उस्तरा
 * सोलोमनॉफ का आगमनात्मक अनुमान का सिद्धांत
 * सार्वभौमिक कृत्रिम बुद्धिमत्ता

बाहरी संबंध

 * Rathmanner, S and Hutter, M., "A Philosophical Treatise of Universal Induction" in Entropy 2011, 13, 1076–1136: A very clear philosophical and mathematical analysis of Solomonoff's Theory of Inductive Inference.
 * C.S. Wallace, Statistical and Inductive Inference by Minimum Message Length, Springer-Verlag (Information Science and Statistics), ISBN 0-387-23795-X, May 2005 – |toc chapter headings, table of contents and sample pages.