मिश्रित डेटा का कारक विश्लेषण

आंकड़ों में, मिश्रित डेटा का कारक विश्लेषण या मिश्रित डेटा का तथ्यात्मक विश्लेषण (एफएएमडी, फ्रांसीसी मूल में: एएफडीएम या एनालिसिस फैक्टरिएले डी डोनीज़ मिक्सटेस), डेटा तालिकाओं के लिए समर्पित कारक विश्लेषण है जिसमें व्यक्तियों के एक समूह को मात्रात्मक और गुणात्मक दोनों चर द्वारा वर्णित किया जाता है। यह जीन-पॉल बेंज़ेक्रि द्वारा स्थापित एनालिसिस डेस डोनीज़ (डेटा विश्लेषण) नामक फ्रांसीसी स्कूल द्वारा विकसित खोजपूर्ण तरीकों से संबंधित है।

मिश्रित शब्द मात्रात्मक और गुणात्मक दोनों चर के उपयोग को संदर्भित करता है। मोटे तौर पर, हम कह सकते हैं कि एफएएमडी मात्रात्मक चर के लिए प्रमुख घटक विश्लेषण (पीसीए) के रूप में और गुणात्मक चर के लिए एकाधिक पत्राचार विश्लेषण (एमसीए) के रूप में काम करता है।

दायरा
जब डेटा में दोनों प्रकार के चर शामिल होते हैं लेकिन सक्रिय चर सजातीय होते हैं, तो पीसीए या एमसीए का उपयोग किया जा सकता है।

वास्तव में, व्यक्तियों पर चर और कारक विश्लेषण के बीच सहसंबंध गुणांक द्वारा एमसीए में पूरक मात्रात्मक चर को शामिल करना आसान है (व्यक्तियों पर एक कारक एक फैक्टोरियल अक्ष पर व्यक्तियों के निर्देशांक को इकट्ठा करने वाला वेक्टर है); प्राप्त प्रतिनिधित्व एक सहसंबंध चक्र है (जैसा कि पीसीए में है)।

इसी प्रकार, पीसीए में पूरक श्रेणीगत चर शामिल करना आसान है। इसके लिए, प्रत्येक श्रेणी को उन व्यक्तियों के गुरुत्वाकर्षण के केंद्र द्वारा दर्शाया जाता है जिनके पास यह (एमसीए के रूप में) है।

जब सक्रिय चर मिश्रित होते हैं, तो सामान्य अभ्यास मात्रात्मक चर पर विवेकीकरण करना होता है (उदाहरण के लिए आमतौर पर सर्वेक्षणों में आयु को आयु वर्गों में बदल दिया जाता है)। इस प्रकार प्राप्त डेटा को MCA द्वारा संसाधित किया जा सकता है।

यह प्रथा अपनी सीमा तक पहुँचती है:
 * जब कुछ व्यक्ति होते हैं (विचारों को ठीक करने के लिए सौ से भी कम) तो ऐसी स्थिति में एमसीए अस्थिर होता है;
 * जब मात्रात्मक चर के संबंध में कुछ गुणात्मक चर होते हैं (एक एकल गुणात्मक चर को ध्यान में रखने के लिए बीस मात्रात्मक चर को अलग करने में कोई अनिच्छुक हो सकता है)।

मानदंड
डेटा शामिल है $$ K $$ मात्रात्मक चर $${k = 1,\dots, K} $$ और $$Q$$ गुणात्मक चर $$ {q = 1,\dots, Q}$$.

$$ z $$ एक मात्रात्मक चर है. हम लिखते हैं:
 * $$ r(z,k) $$ चरों के बीच सहसंबंध गुणांक $$ k $$ और $$ z $$ ;
 * $$ \eta^2(z, q) $$ चरों के बीच वर्ग सहसंबंध अनुपात $$ z $$ और $$ q $$.

के पीसीए में $$ K $$, हम फ़ंक्शन की तलाश करते हैं $$ I $$ (एक समारोह पर $$ I $$ प्रत्येक व्यक्ति को एक मान निर्दिष्ट करता है, यह प्रारंभिक चर और प्रमुख घटकों का मामला है) सभी से सबसे अधिक सहसंबंधित $$ K $$ निम्नलिखित अर्थों में चर:


 * $$\sum_k r^2(z,k)$$ अधिकतम।

Q के MCA में, हम फ़ंक्शन की तलाश करते हैं $$ I $$ सभी से अधिक संबंधित $$ Q $$ निम्नलिखित अर्थों में चर:


 * $$\sum_q\eta^2(z, q) $$ अधिकतम।

FAMD में $$ \{K, Q\} $$, हम फ़ंक्शन की तलाश करते हैं $$ I $$ सभी से अधिक संबंधित $$ K + Q $$ निम्नलिखित अर्थों में चर:


 * $$ \sum_k r^2(z, k) + \sum_q\eta^2(z, q) $$ अधिकतम।

इस मानदंड में, दोनों प्रकार के चर समान भूमिका निभाते हैं। इस मानदंड में प्रत्येक चर का योगदान 1 से घिरा है।

प्लॉट
व्यक्तियों का प्रतिनिधित्व सीधे कारकों से होता है $$ I $$.

मात्रात्मक चर का प्रतिनिधित्व पीसीए (सहसंबंध सर्कल) के रूप में बनाया गया है।

गुणात्मक चर की श्रेणियों का प्रतिनिधित्व एमसीए के समान है: एक श्रेणी उन व्यक्तियों के केंद्र में होती है जिनके पास यह होती है। ध्यान दें कि हम सटीक सेंट्रोइड लेते हैं, न कि, जैसा कि एमसीए में प्रथागत है, अक्ष पर निर्भर गुणांक तक का सेंट्रोइड (एमसीए में यह गुणांक आइगेनवैल्यू के वर्गमूल के व्युत्क्रम के बराबर है; यह एफएएमडी में अपर्याप्त होगा)।

चरों के निरूपण को संबंध वर्ग कहा जाता है। गुणात्मक चर का निर्देशांक $$ j $$ अक्ष के अनुदिश $$ s $$ चर के बीच वर्ग सहसंबंध अनुपात के बराबर है $$ j $$ और रैंक का कारक $$ s $$ (संकेतित $$\eta^2(j,s) $$). मात्रात्मक चर के निर्देशांक $$ k $$ अक्ष के अनुदिश $$ s $$ चर के बीच वर्ग सहसंबंध गुणांक के बराबर है $$ k $$ और रैंक का कारक $$ s $$ (संकेतित $$ r^2(k,s) $$).

व्याख्या में सहायता
प्रारंभिक चरों के बीच संबंध संकेतक एक तथाकथित संबंध मैट्रिक्स में संयुक्त होते हैं, जिसमें पंक्ति के चौराहे पर शामिल होते हैं $$ l $$ और स्तंभ $$ c $$:
 * यदि चर $$ l$$ और $$ c $$ मात्रात्मक हैं, चर के बीच वर्ग सहसंबंध गुणांक $$ l$$ और $$ c $$ ;
 * यदि चर $$ l$$ गुणात्मक एवं परिवर्तनशील है $$ c$$ मात्रात्मक है, के बीच चुकता सहसंबंध अनुपात $$ l$$ और $$ c$$;
 * यदि चर $$ l$$ और $$ c $$ गुणात्मक, सूचक हैं $$ \phi^2 $$ चरों के बीच $$l$$ और $$c $$.

उदाहरण
एक बहुत छोटा डेटा सेट (तालिका 1) एफएएमडी के संचालन और आउटपुट को दर्शाता है। छह व्यक्तियों का वर्णन तीन मात्रात्मक चर और तीन गुणात्मक चर द्वारा किया जाता है। आर पैकेज फ़ंक्शन FAMD FactoMineR का उपयोग करके डेटा का विश्लेषण किया गया।

संबंध मैट्रिक्स में, गुणांक बराबर होते हैं $$R^2 $$ (मात्रात्मक चर), $$ \phi^2 $$ (गुणात्मक चर) या $$ \eta^2 $$ (प्रत्येक प्रकार का एक चर)।

मैट्रिक्स दो प्रकार के चरों के बीच संबंधों की उलझन को दर्शाता है।

व्यक्तियों का प्रतिनिधित्व (चित्र 1) स्पष्ट रूप से व्यक्तियों के तीन समूहों को दर्शाता है। पहली धुरी व्यक्ति 1 और 2 का अन्य सभी से विरोध करती है। दूसरी धुरी व्यक्ति 3 और 4 का व्यक्ति 5 और 6 से विरोध करती है।

चरों का प्रतिनिधित्व (संबंध वर्ग, चित्र 2) दर्शाता है कि पहली धुरी ($$ F1$$) चरों से निकटता से जुड़ा हुआ है $$ k_2 $$, $$ k_3 $$ और $$ Q_3 $$. सहसंबंध चक्र (चित्रा 3) के बीच सहसंबंध का संकेत निर्दिष्ट करता है $$ F1 $$, $$ k_2 $$ और $$ k_3 $$; श्रेणियों का प्रतिनिधित्व (चित्र 4) बीच संबंध की प्रकृति को स्पष्ट करता है $$ F1 $$ और $$ Q_3 $$. अंत में व्यक्ति 1 और 2, पहली धुरी द्वारा वैयक्तिकृत, उच्च मूल्यों की विशेषता रखते हैं $$ k_2$$ और $$ k_3 $$ और श्रेणियों द्वारा $$ c $$ का $$ Q_3 $$ भी।

यह उदाहरण दिखाता है कि एफएएमडी एक साथ मात्रात्मक और गुणात्मक चर का विश्लेषण कैसे करता है। इस प्रकार, इस उदाहरण में, यह दो प्रकार के चर पर आधारित पहला आयाम दिखाता है।

इतिहास
FAMD का मूल कार्य ब्रिगिट एस्कोफ़ियर के कारण है और गिल्बर्ट सपोर्टा। यह काम 2002 में जेरोम पेजेस द्वारा फिर से शुरू किया गया था। अंग्रेजी में एफएएमडी की सबसे संपूर्ण प्रस्तुति जेरोम पेजेस की पुस्तक में शामिल है।

सॉफ़्टवेयर
विधि आर पैकेज FactoMineR में लागू की गई है। यह विधि पायथन लाइब्रेरी Prince में लागू की गई है।