न्यूनतम विवरण लंबाई

न्यूनतम विवरण लंबाई (एमडीएल) मॉडल चयन एक ऐसा सिद्धांत है जहां डेटा का सबसे छोटा विवरण सबसे ठीक मॉडल है। एमडीएल विधियां डेटा संपीड़न परिप्रेक्ष्य के माध्यम से सीखती हैं और कभी-कभी उन्हें ओकाम के रेजर के गणितीय अनुप्रयोगों के रूप में वर्णित किया जाता है। एमडीएल सिद्धांत को आगमनात्मक अनुमान और सीखने के अन्य रूपों तक बढ़ाया जा सकता है, इस प्रकार से उदाहरण के लिए अनुमान और अनुक्रमिक भविष्यवाणी, डेटा के भी मॉडल को स्पष्ट रूप से पहचाने बिना।

इस प्रकार से एमडीएल की उत्पत्ति अधिकांशतः सूचना सिद्धांत में हुई है और इसे सांख्यिकी, सैद्धांतिक कंप्यूटर विज्ञान और मशीन लर्निंग, और अधिक संकीर्ण संगणनात्मक शिक्षण सिद्धांत के सामान्य क्षेत्रों में विकसित किया गया है।

ऐतिहासिक रूप से, निश्चित संज्ञा वाक्यांश "न्यूनतम विवरण लंबाई सिद्धांत" के अलग-अलग, फिर भी परस्पर संबंधित, उपयोग हैं जो विवरण के अर्थ में भिन्न हैं:
 * जोर्मा रिसेनन के सीखने के सिद्धांत के भीतर, सूचना सिद्धांत की केंद्रीय अवधारणा, मॉडल सांख्यिकीय परिकल्पनाएं हैं और विवरण को सार्वभौमिक कोड के रूप में परिभाषित किया गया है।
 * स्वचालित रूप से संक्षिप्त विवरण प्राप्त करने का रिसेनन का 1978 का व्यावहारिक प्रथम प्रयास, बायेसियन सूचना मानदंड (बीआईसी) से संबंधित है।
 * एल्गोरिदम सूचना सिद्धांत के भीतर, जहां डेटा अनुक्रम की विवरण लंबाई उस डेटा समुच्चय को आउटपुट करने वाले सबसे छोटे प्रोग्राम की लंबाई है। इस संदर्भ में, इसे 'आदर्शीकृत' एमडीएल सिद्धांत के रूप में भी जाना जाता है और यह सोलोमनॉफ के आगमनात्मक अनुमान के सिद्धांत से निकटता से संबंधित है, जो यह है कि डेटा समुच्चय का सबसे ठीक मॉडल उसके सबसे छोटे स्व-निष्कर्षण संग्रह द्वारा दर्शाया जाता है।

अवलोकन
इस प्रकार से सर्वोत्तम मॉडल के रूप में उपलब्ध डेटा की न्यूनतम लंबाई विवरण का चयन करना ओकैम के रेजर के रूप में पहचाने गए सिद्धांत का पालन करता है। कंप्यूटर प्रोग्रामन के आगमन से पूर्व, ऐसे विवरण तैयार करना वैज्ञानिक सिद्धांतकारों का बौद्धिक श्रम था। यह कंप्यूटर युग की तुलना में बहुत कम औपचारिक था। यदि दो वैज्ञानिकों के बीच सैद्धांतिक असहमति होती, तो वे अपने सिद्धांतों के बीच चयन करने के लिए संभवतः कभी औपचारिक रूप से ओकाम के रेजर का उपयोग कर पाते है। उनके निकट अलग-अलग डेटा समुच्चय और संभवतः अलग-अलग वर्णनात्मक भाषाएँ होंगी। फिर भी, विज्ञान उन्नत हुआ क्योंकि ओकाम का रेजर यह निर्धारित करने में अनौपचारिक मार्गदर्शक था कि कौन सा मॉडल सबसे ठीक था।

अतः औपचारिक भाषाओं और कंप्यूटर प्रोग्रामन के आगमन के साथ ओकाम के रेज़र को गणितीय रूप से परिभाषित किया गया। अवलोकनों के दिए गए समुच्चय के मॉडल, डेटा के बिट के रूप में एन्कोड किए गए, कंप्यूटर प्रोग्राम के रूप में बनाए जा सकते हैं जो उस डेटा को आउटपुट करते हैं। इसके बाद ओकाम का रेज़र औपचारिक रूप से सबसे छोटे प्रोग्राम का चयन कर सकता है, जिसे इस एल्गोरिदम सूचना के बिट में सर्वोत्तम मॉडल के रूप में मापा जाता है।

भ्रम से बचने के लिए, ध्यान दें कि एमडीएल सिद्धांत में ऐसा कुछ भी नहीं है जो यह दर्शाता हो कि मशीन ने मॉडल को मूर्त रूप देते हुए प्रोग्राम तैयार किया है। यह पूर्ण रूप से मनुष्यों का उत्पाद हो सकता है। एमडीएल सिद्धांत इस पर ध्यान दिए बिना लागू होता है कि कंप्यूटर पर चलाया जाने वाला विवरण मनुष्यों, मशीनों या उनके किसी संयोजन का उत्पाद है या नहीं। एमडीएल सिद्धांत के लिए मात्र यह आवश्यक है कि सबसे छोटा विवरण, निष्पादित होने पर, त्रुटि के बिना मूल डेटा समुच्चय तैयार करे।

दो-भाग कोड
इस प्रकार से कंप्यूटर प्रोग्राम में प्रोग्राम और शाब्दिक डेटा के बीच का अंतर सभी औपचारिक विवरणों पर लागू होता है और कभी-कभी इसे विवरण के दो भागों के रूप में संदर्भित किया जाता है। सांख्यिकीय एमडीएल सीखने में, ऐसे विवरण को प्रायः दो-भाग वाला कोड कहा जाता है।

मशीन लर्निंग में एमडीएल
अतः एमडीएल मशीन लर्निंग में लागू होता है जब एल्गोरिदम (मशीनें) विवरण उत्पन्न करते हैं। सीखना तब होता है जब एल्गोरिदम समान डेटा समुच्चय का छोटा विवरण तैयार करता है।

यद्यपि, डेटा समुच्चय की सैद्धांतिक न्यूनतम विवरण लंबाई, जिसे इसकी कोलमोगोरोव जटिलता कहा जाता है, अतः इसकी गणना नहीं की जा सकती है। कहने का तात्पर्य यह है कि, यद्यपि यादृच्छिक संयोग से एल्गोरिदम डेटा समुच्चय को आउटपुट करने वाले सभी में से सबसे छोटा प्रोग्राम उत्पन्न करता है, स्वचालित प्रमेय सिद्ध नहीं कर सकता है कि ऐसा कोई छोटा प्रोग्राम नहीं है। फिर भी, डेटासमुच्चय को आउटपुट करने वाले दो प्रोग्राम दिए गए हैं, एमडीएल सिद्धांत सर्वोत्तम मॉडल को मूर्त रूप देने के लिए दोनों में से छोटे को चुनता है।

एल्गोरिदमिक एमडीएल लर्निंग पर वर्तमान कार्य
वर्तमान में सांख्यिकीय के विपरीत, एल्गोरिदमिक की मशीन एमडीएल लर्निंग, डेटा मॉडल ने डेटा की बढ़ती उपलब्धता, गणना संसाधनों और सैद्धांतिक प्रगति के साथ ध्यान आकर्षित किया है। कृत्रिम सामान्य बुद्धि के बढ़ते क्षेत्र द्वारा दृष्टिकोणों को सूचित किया जाता है। इस प्रकार से अपनी मृत्यु से कुछ समय पूर्व, मार्विन मिंस्की ने शोध की इस दिशा के पक्ष में दृढ़ता से सामने आते हुए कहा:

"मुझे ऐसा लगता है कि गोडेल के बाद से सबसे महत्वपूर्ण खोज चैटिन, सोलोमोनोव और कोलमोगोरोव द्वारा एल्गोरिथमिक प्रायिकता नामक अवधारणा की खोज थी, जो अनुभवों के संग्रह को देखते हुए भविष्यवाणियां करने का एक मौलिक नवीन सिद्धांत है और यह एक सुंदर सिद्धांत है, प्रत्येक को इसे सीखना चाहिए, परन्तु इसमें एक समस्या है, वह यह है कि आप वस्तुतः यह गणना नहीं कर सकते कि यह सिद्धांत क्या भविष्यवाणी करता है क्योंकि यह बहुत जटिल है, इसके लिए अनंत मात्रा में कार्य की आवश्यकता होती है। यद्यपि, चैतिन, कोलमोगोरोव, सोलोमोनॉफ़ सिद्धांत का व्यावहारिक अनुमान लगाना संभव होना चाहिए जो आज हमारे निकट स्थित किसी भी वस्तु से ठीक भविष्यवाणियाँ करेगा। प्रत्येक किसी को इसके विषय में सब कुछ सीखना चाहिए और अपना शेष जीवन इस पर कार्य करते हुए बिताना चाहिए।"

- समझ की सीमाएं, विश्व विज्ञान महोत्सव, एनवाईसी, 14 दिसंबर 2014 पर पैनल चर्चा

सांख्यिकीय एमडीएल सीखना
इस प्रकार से डेटा के किसी भी समुच्चय को परिमित (जैसे, बाइनरी अंक प्रणाली) वर्णमाला से प्रतीकों की स्ट्रिंग द्वारा दर्शाया जा सकता है।

"एमडीएल सिद्धांत निम्नलिखित अंतर्दृष्टि पर आधारित है: डेटा के दिए गए समुच्चय में किसी भी नियमितता का उपयोग डेटा संपीड़न के लिए किया जा सकता है, अथात डेटा का शाब्दिक वर्णन करने के लिए आवश्यकता से कम प्रतीकों का उपयोग करके इसका वर्णन करना। (ग्रुनवाल्ड, 2004)"

अतः इसके आधार पर, 1978 में, जोर्मा रिसेनन ने एल्गोरिदम सूचना के अतिरिक्त एन्ट्रॉपी (सूचना सिद्धांत) का उपयोग करके एमडीएल लर्निंग एल्गोरिदम प्रकाशित किया। पूर्व 40 वर्षों में यह सांख्यिकीय और मशीन सीखने की प्रक्रियाओं के समृद्ध सिद्धांत के रूप में विकसित हुआ है, जो बायेसियन मॉडल चयन और औसत, लासो और रिज जैसे दंडात्मक विधियों के संयोजन के साथ सांख्यिकीय और मशीन सीखने की प्रक्रियाओं के एक समृद्ध सिद्धांत के रूप में विकसित हुआ है, जैसे कि लैस्सो और रिज, इत्यादि - ग्रुनवाल्ड और रोस (2020) सभी आधुनिक विकासों सहित एक परिचय देते हैं। रिसेनन ने इस विचार के साथ प्रारंभ किया: सभी सांख्यिकीय शिक्षा डेटा में नियमितता खोजने के विषय में है, और डेटा में नियमितता का वर्णन करने के लिए सबसे ठीक परिकल्पना भी वह है जो डेटा को सांख्यिकीय रूप से सबसे अधिक संपीड़ित करने में सक्षम है। अन्य सांख्यिकीय विधियों के जैसे, इसका उपयोग कुछ डेटा का उपयोग करके किसी मॉडल के मापदंडों को सीखने के लिए किया जा सकता है। यद्यपि, सामान्यतः मानक सांख्यिकीय पद्धतियाँ मानती हैं कि किसी मॉडल का सामान्य रूप निश्चित है। एमडीएल का मुख्य सामर्थ्य यह है कि इसका उपयोग किसी मॉडल के सामान्य रूप और उसके मापदंडों का चयन करने के लिए भी किया जा सकता है। रुचि की मात्रा (कभी-कभी मात्र मॉडल, कभी-कभी मात्र पैरामीटर, कभी-कभी ही समय में दोनों) को परिकल्पना कहा जाता है। मूल विचार तब दोषरहित संपीड़न (दोषरहित) दो-चरण कोड पर विचार करना है जो डेटा $$D$$ को पहले लम्बाई $$ {L(D)} $$के साथ एन्कोड करता है, पहले विचारित परिकल्पना $$H$$ के समुच्चय में एक परिकल्पना $$H$$ को एन्कोड करता है और फिर $${\cal H}$$ की सहायता से $$D$$ को कोड करता है; सबसे सरल संदर्भ में इसका अर्थ मात्र $$H$$;$$ {L(D)} = \min_{H \in {\cal H}} \ (\ L(H) + L(D|H) \ ) \ $$द्वारा की गई भविष्यवाणियों से डेटा के विचलन को एन्कोड करना है।

इस न्यूनतम को प्राप्त करने वाले $$H$$ को डेटा $$D$$ की सबसे ठीक व्याख्या के रूप में देखा जाता है। एक सरल उदाहरण के रूप में, एक प्रतिगमन समस्या लें: डेटा $$D$$ में बिंदुओं $$D = (x_1,y_1), \ldots, (x_n,y_n)$$ का अनुक्रम सम्मिलित हो सकता है, समुच्चय $$ {\cal H} $$ $$X$$ से $$Y$$ सतक सभी बहुपदों का समुच्चय हो सकता है। घात (कहें) k के बहुपद H का वर्णन करने के लिए, किसी को पहले कुछ परिशुद्धता के लिए मापदंडों को अलग करना होगा; फिर किसी को इस परिशुद्धता (एक प्राकृतिक संख्या) का वर्णन करना होगा; इसके बाद, किसी को घात k (एक अन्य प्राकृतिक संख्या) का वर्णन करना होगा, और अंतिम चरण में, किसी को k+1 पैरामीटर का वर्णन करना होगा; कुल लंबाई L(H) होगी। फिर कोई व्यक्ति x-मानों के लिए कुछ निश्चित कोड का उपयोग करके D में बिंदुओं का वर्णन करेगा और फिर n विचलन $$y_i - H(x_i)$$ के लिए एक कोड का उपयोग करेगा।

व्यवहार में, व्यक्ति प्रायः (परन्तु सदैव नहीं) प्रायिकता मॉडल का उपयोग करता है। इस प्रकार से उदाहरण के लिए, कोई प्रत्येक बहुपद $$H$$ को संबंधित सप्रतिबन्ध वितरण के साथ जोड़ता है, जो दर्शाता है कि दिए गए $$X$$, $$Y$$ को सामान्यतः माध्य $$H(X)$$ और कुछ भिन्नता $$\sigma^2$$ के साथ वितरित किया जाता है जिसे या तो निर्धारित किया जा सकता है या एक मुक्त पैरामीटर के रूप में जोड़ा जा सकता है। फिर परिकल्पनाओं का समुच्चय $${\cal H}$$ एक रैखिक मॉडल, $$Y=H(X)+\epsilon$$ की धारणा में बदल जाता है, जिसमें $$H$$ एक बहुपद है।

इसके अतिरिक्त, किसी को प्रायः विशिष्ट पैरामीटर मानों में प्रत्यक्ष रूप से रूचि नहीं होती है, परन्तु इस प्रकार से उदाहरण के लिए, बहुपद की घात में। उस स्थिति में, कोई $${\cal H}$$ को $${\cal H} = \{ {\cal H}_0, {\cal H}_1, \ldots \}$$ के रूप में समूहित करता है जहां प्रत्येक $${\cal H}_j$$ इस परिकल्पना का प्रतिनिधित्व करता है कि डेटा को j-वीं घात बहुपद के रूप में सबसे ठीक वर्णित किया गया है। इसके बाद एक-भाग वाले कोड का उपयोग करके डेटा $$D$$ को दी गई परिकल्पना $${\cal H}_j$$ को कोड किया जाता है, ताकि जब भी कोई परिकल्पना $$H \in {\cal H}_j$$ डेटा को ठीक रूप से फिट करे, तो कोड लंबाई $$L(D|H)$$ छोटा हो। ऐसे कोड के डिज़ाइन को सार्वभौमिक कोड (डेटा कम्प्रेशन) कहा जाता है। विभिन्न प्रकार के सार्वभौमिक कोड हैं जिनका उपयोग कोई भी कर सकता है, जो प्रायः लंबे डेटा अनुक्रमों के लिए समान लंबाई देते हैं परन्तु छोटे डेटा अनुक्रमों के लिए भिन्न होते हैं। 'सर्वोत्तम' (इस अर्थ में कि इसमें न्यूनतम अधिकतम इष्टतमता गुण है) सामान्यीकृत अधिकतम प्रायिकता (एनएमएल) या श्टार्कोव कोड हैं। कोड का अत्यधिक उपयोगी वर्ग बायेसियन सीमांत प्रायिकता कोड है। वितरण के घातांकीय वर्गों के लिए, जब जेफ़्रीज़ पूर्व का उपयोग किया जाता है और पैरामीटर स्थान उपयुक्त रूप से प्रतिबंधित होता है, तो ये असममित रूप से एनएमएल कोड के साथ मेल खाते हैं; यह एमडीएल सिद्धांत को वस्तुनिष्ठ बेयस मॉडल चयन के निकट संपर्क में लाता है, जिसमें व्यक्ति कभी-कभी जेफ़रीज़ के पूर्व को भी अपनाता है, यद्यपि यह अलग-अलग कारणों से है। मॉडल चयन के लिए एमडीएल दृष्टिकोण बड़ी संख्या में प्रतिदर्शों के लिए "औपचारिक रूप से बायेसियन सूचना मानदंड दृष्टिकोण के समान एक चयन मानदंड देता है"।

सांख्यिकीय एमडीएल लर्निंग का उदाहरण
अतः एक सिक्के को 1000 बार उछाला जाता है और चित और पट की संख्या निर्दिष्ट की जाती है। इस प्रकार से दो मॉडल वर्गों पर विचार करें:
 * प्रथम कोड है जो चित के लिए 0 या पट के लिए 1 के साथ परिणामों को दर्शाता है। यह कोड इस परिकल्पना का प्रतिनिधित्व करता है कि सिक्का निष्पक्ष है। इस कोड के अनुसार कोड की लंबाई सदैव ठीक 1000 बिट होती है।
 * दूसरे में वे सभी कोड सम्मिलित हैं जो कुछ विशिष्ट पूर्वाग्रह वाले सिक्के के लिए कुशल हैं, जो इस परिकल्पना का प्रतिनिधित्व करते हैं कि सिक्का निष्पक्ष नहीं है। मान लीजिए कि हम 510 चित और 490 पट देखते हैं। फिर दूसरे मॉडल वर्ग में सर्वोत्तम कोड के अनुसार कोड की लंबाई 1000 बिट से कम है।

इस कारण से, अनुभवहीन सांख्यिकीय पद्धति डेटा के लिए ठीक स्पष्टीकरण के रूप में दूसरे मॉडल को चुन सकती है। यद्यपि, एमडीएल दृष्टिकोण मात्र सर्वश्रेष्ठ का उपयोग करने के अतिरिक्त, परिकल्पना के आधार पर एकल कोड का निर्माण करेगा। यह कोड सामान्यीकृत अधिकतम प्रायिकता कोड या बायेसियन कोड हो सकता है। यदि ऐसे कोड का उपयोग किया जाता है, तो दूसरे मॉडल वर्ग के आधार पर कुल कोड लंबाई 1000 बिट से बड़ी होगी। इसलिए, एमडीएल दृष्टिकोण का पालन करते समय निष्कर्ष अनिवार्य रूप से है कि पक्षपाती सिक्के की परिकल्पना का समर्थन करने के लिए पर्याप्त परिमाण नहीं हैं, यद्यपि दूसरे मॉडल वर्ग का सबसे ठीक तत्व डेटा के लिए ठीक फिट प्रदान करता है।

सांख्यिकीय एमडीएल संकेतन
एमडीएल सिद्धांत का केंद्र कोड लंबाई फलन (गणित) और प्रायिकता वितरण के बीच एक-से-एक पत्राचार है (यह क्राफ्ट-मैकमिलन प्रमेय | क्राफ्ट-मैकमिलन असमानता से अनुसरण करता है)। किसी भी प्रायिकता वितरण $$P$$ के लिए, कोड $$C$$ बनाना संभव है ताकि $$C(x)$$ की लंबाई (बिट में) $$-\log_2 P(x)$$ के बराबर हो; यह कोड अपेक्षित कोड लंबाई को कम करता है। इसके विपरीत, एक कोड $$C$$ दिए जाने पर, कोई प्रायिकता वितरण $$P$$ का निर्माण कर सकता है, ताकि वही बना रहे। (यहां गोलाई संबंधी समस्याओं को अनदेखा कर दिया गया है।) दूसरे शब्दों में, कुशल कोड की खोज ठीक प्रायिकता वितरण की खोज के बराबर है।

सांख्यिकीय एमडीएल लर्निंग की सीमाएं
इस प्रकार से सांख्यिकीय एमडीएल की विवरण भाषा संगणनात्मक रूप से सार्वभौमिक नहीं है। इसलिए, सिद्धांत रूप में भी, यह पुनरावर्ती प्राकृतिक प्रक्रियाओं के मॉडल नहीं सीख सकता है।

संबंधित अवधारणाएँ
सांख्यिकीय एमडीएल सीखना ऊपर उल्लिखित कोड और प्रायिकता वितरण के बीच पत्राचार के माध्यम से प्रायिकता सिद्धांत और आंकड़ों से बहुत दृढ़ता से जुड़ा हुआ है। इसने कुछ शोधकर्ताओं को एमडीएल को बायेसियन अनुमान के समकक्ष देखने के लिए प्रेरित किया है: एमडीएल में मॉडल और डेटा की कोड लंबाई क्रमशः बायेसियन संरचना में पूर्व प्रायिकता और सीमांत प्रायिकता के अनुरूप है।

जबकि बायेसियन मशीनरी प्रायः कुशल एमडीएल कोड बनाने में उपयोगी होती है, एमडीएल संरचना अन्य कोड को भी समायोजित करता है जो बायेसियन नहीं हैं। उदाहरण श्टार्कोव सामान्यीकृत अधिकतम प्रायिकता कोड है, जो वर्तमान एमडीएल सिद्धांत में केंद्रीय भूमिका निभाता है, परन्तु बायेसियन अनुमान में इसका कोई समकक्ष नहीं है। इसके अतिरिक्त, रिसेनन इस बात पर बल देते हैं कि हमें वास्तविक प्रायिकता मॉडल के विषय में कोई धारणा नहीं बनानी चाहिए। अंतिम उल्लिखित संदर्भ में रिसेनन कोलमोगोरोव संरचना कार्य पर एमडीएल के गणितीय आधार को आधार बनाता है।

एमडीएल दर्शन के अनुसार, बायेसियन विधियों को निरस्त कर दिया जाना चाहिए यदि वे असुरक्षित पूर्व प्रायिकता पर आधारित हैं जिससे निकृष्ट परिणाम मिलेंगे। जो प्राथमिकताएं एमडीएल के दृष्टिकोण से स्वीकार्य हैं, उन्हें तथाकथित वस्तुनिष्ठ बायेसियन प्रायिकता विश्लेषण में भी चयनित किया जाता है; यद्यपि, वहाँ प्रेरणा सामान्यतः भिन्न होती है।

अन्य पद्धति
रिसेनन का सीखने का प्रथम सूचना-सैद्धांतिक दृष्टिकोण नहीं था; 1968 के प्रारंभ में वालेस और बोल्टन ने न्यूनतम संदेश लंबाई (एमएमएल) नामक संबंधित अवधारणा का संचालन किया। एमडीएल और एमएमएल के बीच अंतर निरंतर भ्रम का स्रोत है। अल्पज्ञता से, विधियाँ अधिकतर समतुल्य दिखाई देती हैं, परन्तु कुछ महत्वपूर्ण अंतर हैं, इस प्रकार से विशेषकर व्याख्या में:
 * एमएमएल पूर्ण रूप से व्यक्तिपरक बायेसियन दृष्टिकोण है: यह इस विचार से प्रारंभ होता है कि कोई व्यक्ति पूर्व वितरण के रूप में डेटा-जनक प्रक्रिया के विषय में अपनी मान्यताओं का प्रतिनिधित्व करता है। एमडीएल डेटा-जनक प्रक्रिया के विषय में धारणाओं से बचता है।
 * दोनों विधियाँ दो-भाग कोड का उपयोग करती हैं: प्रथम भाग सदैव उस सूचना का प्रतिनिधित्व करता है जिसे कोई सीखने का प्रयास कर रहा है, जैसे मॉडल वर्ग का सूचकांक (मॉडल चयन) या पैरामीटर मान (पैरामीटर अनुमान); दूसरा भाग पूर्व भाग में दी गई सूचना दिए गए डेटा का एन्कोडिंग है। विधियों के बीच अंतर यह है कि, एमडीएल साहित्य में, यह पक्षपोषित किया जाता है कि अवांछित मापदंडों को कोड के दूसरे भाग में ले जाया जाना चाहिए, जहां उन्हें तथाकथित एक-भाग कोड का उपयोग करके डेटा के साथ दर्शाया जा सकता है, जो प्रायः दो-भाग वाले कोड की तुलना में अधिक कुशल होता है। एमएमएल के मूल विवरण में, सभी पैरामीटर पूर्व भाग में एन्कोड किए गए हैं, इसलिए सभी पैरामीटर सीखे गए हैं।
 * एमएमएल संरचना के भीतर, प्रत्येक पैरामीटर निश्चित यथार्थ रूप से बताया गया है जिसके परिणामस्वरूप इष्टतम समग्र संदेश लंबाई होती है: पूर्ववर्ती उदाहरण उत्पन्न हो सकता है यदि कुछ पैरामीटर को मूल रूप से संभवतः मॉडल के लिए उपयोगी माना जाता था परन्तु बाद में समझाने में सहायता करने में असमर्थ पाया गया डेटा (ऐसे पैरामीटर को (बायेसियन) पूर्व प्रायिकता के अनुरूप कोड लंबाई दी जाएगी कि पैरामीटर अनुपयोगी पाया जाएगा)। एमडीएल संरचना में, मॉडल की तुलना में मॉडल वर्गों की तुलना करने पर अधिक ध्यान केंद्रित किया जाता है, और मॉडलों के वर्ग की तुलना करके उसी प्रश्न पर विचार करना अधिक स्वाभाविक है जिसमें स्पष्ट रूप से किसी अन्य वर्ग के विरुद्ध ऐसा पैरामीटर सम्मिलित होता है जो ऐसा नहीं करता है। अंतर ही निष्कर्ष पर पहुंचने के लिए लागू की गई मशीनरी में निहित है।

यह भी देखें

 * एल्गोरिदम प्रायिकता
 * एल्गोरिदम सूचना सिद्धांत
 * आगमनात्मक अनुमान
 * आगमनात्मक प्रायिकता
 * लेम्पेल-ज़िव जटिलता

अग्रिम पठन

 * Minimum Description Length on the Web, by the University of Helsinki. Features readings, demonstrations, events and links to MDL researchers.
 * Homepage of Jorma Rissanen, containing lecture notes and other recent material on MDL.
 * Advances in Minimum Description Length, MIT Press, ISBN 0-262-07262-9.