अंदर आना
भाषण चिकित्सा पोर्टल
  • जहां हत्यारे रहते थे। क्या हत्यारे हैं? हत्यारा - यह कौन है? इतिहास में एक संक्षिप्त भ्रमण
  • देवदार रैपिड्स - आयोवा में स्थित है अगर आप जल गए हैं तो सनबर्न से कैसे निपटें
  • महिलाओं के कपड़ों में पुरुषों को दिखाया गया है कि द्वितीय विश्व युद्ध के दौरान सैनिकों ने कैसे मज़ा किया था। द्वितीय विश्व युद्ध के दौरान सैनिकों ने कैसे मज़ा किया था
  • उच्च आत्मसम्मान के पेशेवरों और विपक्ष
  • ऑर्गेनोसिलिकॉन जीवन रूप
  • आप दूरबीन के माध्यम से क्या देख सकते हैं?
  • जिसके लिए तराजू प्रतिगमन विश्लेषण लागू किया जाता है। प्रतिगमन समीकरण। एकाधिक प्रतिगमन समीकरण। एक रेखीय प्रतिगमन समीकरण का उपयोग कर समस्या

    जिसके लिए तराजू प्रतिगमन विश्लेषण लागू किया जाता है। प्रतिगमन समीकरण। एकाधिक प्रतिगमन समीकरण। एक रेखीय प्रतिगमन समीकरण का उपयोग कर समस्या

    प्रतिगमन और सहसंबंध विश्लेषण - सांख्यिकीय अनुसंधान विधियों। ये एक या अधिक स्वतंत्र चर पर एक पैरामीटर की निर्भरता दिखाने के लिए सबसे आम तरीके हैं।

    नीचे, विशिष्ट व्यावहारिक उदाहरणों का उपयोग करते हुए, हम इन दो विश्लेषणों पर विचार करेंगे जो अर्थशास्त्रियों के बीच बहुत लोकप्रिय हैं। और साथ ही हम उनका संयोजन करते समय परिणाम प्राप्त करने का एक उदाहरण देंगे।

    एक्सेल में प्रतिगमन विश्लेषण

    आश्रित चर पर कुछ मूल्यों (स्वतंत्र, स्वतंत्र) के प्रभाव को दर्शाता है। उदाहरण के लिए, आर्थिक रूप से सक्रिय आबादी की संख्या उद्यमों की संख्या, मजदूरी के आकार और अन्य मापदंडों पर निर्भर करती है। या: विदेशी निवेश, ऊर्जा की कीमतें आदि कैसे जीडीपी के स्तर को प्रभावित करते हैं।

    विश्लेषण का परिणाम आपको प्राथमिकता देने की अनुमति देता है। और मुख्य कारकों के आधार पर, प्राथमिकता वाले क्षेत्रों के विकास की भविष्यवाणी करें, प्रबंधन निर्णय लें।

    प्रतिगमन होता है:

    • रैखिक (y \u003d a + bx);
    • परवलयिक (y \u003d a + bx + cx 2);
    • घातांक (y \u003d a * exp (bx));
    • शक्ति (y \u003d a * x ^ b);
    • हाइपरबोलिक (y \u003d b / x + a);
    • लघुगणक (y \u003d b * 1n (x) + a);
    • घातांक (y \u003d a * b ^ x)।

    आइए एक्सेल में एक प्रतिगमन मॉडल बनाने और परिणामों की व्याख्या करने के एक उदाहरण को देखें। चलो एक रैखिक प्रतिगमन प्रकार लेते हैं।

    एक कार्य। औसत मासिक वेतन और छोड़ने वाले कर्मचारियों की संख्या का विश्लेषण 6 उद्यमों में किया गया था। औसत वेतन पर छोड़ने वाले कर्मचारियों की संख्या की निर्भरता निर्धारित करना आवश्यक है।

    रैखिक प्रतिगमन मॉडल इस प्रकार है:

    Y \u003d a 0 + a 1 x 1 + ... + a k x k

    जहां एक - प्रतिगमन गुणांक, एक्स - प्रभावित चर, कारकों की संख्या।

    हमारे उदाहरण में, वाई उन कर्मचारियों का संकेतक है जो नौकरी छोड़ देते हैं। प्रभावित करने वाला कारक मजदूरी (x) है।

    एक्सेल में बिल्ट-इन फ़ंक्शंस हैं जिनका उपयोग आप लीनियर रिग्रेशन मॉडल के मापदंडों की गणना करने के लिए कर सकते हैं। लेकिन एनालिसिस पैकेज ऐड-इन इसे तेजी से करेगा।

    हम एक शक्तिशाली विश्लेषणात्मक उपकरण सक्रिय करते हैं:

    सक्रियण पर, ऐड-इन डेटा टैब पर उपलब्ध होगा।

    अब चलो प्रतिगमन विश्लेषण पर सीधे चलते हैं।



    सबसे पहले, आर-स्क्वायर और गुणांक पर ध्यान दें।

    आर-वर्ग दृढ़ संकल्प का गुणांक है। हमारे उदाहरण में, 0.755, या 75.5%। इसका मतलब यह है कि मॉडल के परिकलित पैरामीटर 75.5% द्वारा अध्ययन किए गए मापदंडों के बीच संबंध की व्याख्या करते हैं। दृढ़ संकल्प का गुणांक जितना अधिक होगा, मॉडल उतना ही बेहतर होगा। अच्छा - 0.8 से ऊपर। खराब - 0.5 से कम (इस तरह के विश्लेषण को शायद ही उचित माना जा सकता है)। हमारे उदाहरण में - "बुरा नहीं है"।

    गुणांक 64.1428 दिखाता है कि वाई क्या होगा यदि विचाराधीन मॉडल के सभी चर 0. के बराबर हैं। अर्थात, अन्य कारक जो मॉडल में वर्णित नहीं हैं, वे भी विश्लेषण किए गए पैरामीटर के मूल्य को प्रभावित करते हैं।

    गुणांक -0.16285 वाई पर चर एक्स का वजन दर्शाता है। अर्थात, इस मॉडल के भीतर औसत मासिक वेतन -0.16285 के वजन के साथ छोड़ने वाले लोगों की संख्या को प्रभावित करता है (यह प्रभाव की एक छोटी डिग्री है)। "-" संकेत एक नकारात्मक प्रभाव को इंगित करता है: उच्च वेतन, कम quitters। जो उचित है।

    

    एक्सेल में सहसंबंध विश्लेषण

    सहसंबंध विश्लेषण यह स्थापित करने में मदद करता है कि क्या एक या दो नमूनों में संकेतकों के बीच संबंध है। उदाहरण के लिए, मशीन के संचालन समय और मरम्मत की लागत, उपकरणों की कीमत और संचालन की अवधि, बच्चों की ऊंचाई और वजन, आदि के बीच।

    यदि कोई संबंध है, तो क्या एक पैरामीटर में वृद्धि से वृद्धि (सकारात्मक सहसंबंध) होती है या दूसरे में कमी (नकारात्मक) होती है? सहसंबंध विश्लेषण विश्लेषक को यह निर्धारित करने में मदद करता है कि क्या एक संकेतक का मूल्य दूसरे के संभावित मूल्य का अनुमान लगा सकता है।

    सहसंबंध गुणांक आर चिह्नित है। +1 से -1 तक बदलता है। विभिन्न क्षेत्रों के लिए सहसंबंधों का वर्गीकरण अलग होगा। यदि गुणांक 0 है, तो नमूनों के बीच कोई रैखिक संबंध नहीं है।

    चलो सहसंबंध गुणांक खोजने के लिए एक्सेल टूल का उपयोग करने का तरीका देखें।

    युग्मित गुणांक खोजने के लिए, CORREL फ़ंक्शन का उपयोग किया जाता है।

    कार्य: यह निर्धारित करें कि खराद के परिचालन समय और इसके रखरखाव की लागत के बीच कोई संबंध है या नहीं।

    हम किसी भी सेल में कर्सर रखते हैं और fx बटन दबाते हैं।

    1. "सांख्यिकीय" श्रेणी में, CORREL फ़ंक्शन का चयन करें।
    2. तर्क "एरे 1" - मूल्यों की पहली श्रेणी - मशीन संचालन समय: ए 2: ए 14।
    3. एरे 2 तर्क - मूल्यों की दूसरी श्रेणी - मरम्मत की लागत: बी 2: बी 14। ओके पर क्लिक करें।

    कनेक्शन के प्रकार को निर्धारित करने के लिए, आपको गुणांक की पूर्ण संख्या को देखने की जरूरत है (गतिविधि के प्रत्येक क्षेत्र के लिए अपना स्वयं का पैमाना है)।

    कई मापदंडों (2 से अधिक) के सहसंबंध विश्लेषण के लिए, डेटा विश्लेषण (विश्लेषण पैकेज ऐड-इन) का उपयोग करना अधिक सुविधाजनक है। सूची में, आपको एक सहसंबंध का चयन करने और एक सरणी नामित करने की आवश्यकता है। सब।

    प्राप्त गुणांक सहसंबंध मैट्रिक्स में प्रदर्शित किए जाएंगे। कुछ इस तरह:

    सहसंबंध-प्रतिगमन विश्लेषण

    व्यवहार में, इन दो तकनीकों को अक्सर एक साथ उपयोग किया जाता है।

    उदाहरण:


    अब प्रतिगमन डेटा भी दिखाई दे रहा है।

    अपने अध्ययन के दौरान, छात्रों को अक्सर कई तरह के समीकरण मिलते हैं। उनमें से एक - प्रतिगमन समीकरण - इस लेख में चर्चा की गई है। गणितीय मानकों के बीच संबंधों की विशेषताओं का वर्णन करने के लिए विशेष रूप से इस प्रकार के समीकरण का उपयोग किया जाता है। इस प्रकार की समानता का उपयोग सांख्यिकी और अर्थमिति में किया जाता है।

    प्रतिगमन को परिभाषित करना

    गणित में, प्रतिगमन एक मात्रा को संदर्भित करता है जो किसी अन्य मात्रा के मूल्यों पर डेटा के एक सेट के औसत मूल्य की निर्भरता का वर्णन करता है। प्रतिगमन समीकरण दिखाता है, एक विशेष सुविधा के कार्य के रूप में, दूसरी विशेषता का औसत। प्रतिगमन फ़ंक्शन के पास एक साधारण समीकरण y \u003d x का रूप है, जिसमें y आश्रित चर है, और x स्वतंत्र (सुविधा कारक) है। वास्तव में, प्रतिगमन को y \u003d f (x) के रूप में व्यक्त किया जाता है।

    चर के बीच संबंधों के प्रकार क्या हैं

    सामान्य तौर पर, दो विपरीत प्रकार के संबंध हैं: सहसंबंध और प्रतिगमन।

    पहले सशर्त चर की समानता द्वारा विशेषता है। इस मामले में, यह निश्चित रूप से ज्ञात नहीं है कि कौन सा चर दूसरे पर निर्भर करता है।

    यदि चर के बीच कोई समानता नहीं है और स्थितियां कहती हैं कि कौन सा चर व्याख्यात्मक है और जो निर्भर है, तो हम दूसरे प्रकार के संबंध की उपस्थिति के बारे में बात कर सकते हैं। रैखिक प्रतिगमन समीकरण बनाने के लिए, यह पता लगाना आवश्यक होगा कि किस प्रकार का संबंध देखा जाता है।

    प्रतिगमन प्रकार

    आज, 7 अलग-अलग प्रकार के प्रतिगमन हैं: हाइपरबोलिक, लीनियर, मल्टीपल, नॉनलेयर, पेयर, इनवर्स, लॉगरिदमिकली लीनियर।

    हाइपरबोलिक, लीनियर और लॉगरिदमिक

    रेखीय प्रतिगमन समीकरण का उपयोग आंकड़ों में समीकरण के मापदंडों को स्पष्ट रूप से समझाने के लिए किया जाता है। यह y \u003d c + m * x + E जैसा दिखता है। हाइपरबोलिक समीकरण में एक नियमित हाइपरबोला y \u003d c + m / x + E. का रूप है। लॉगरिदमिक रैखिक समीकरण एक लॉगरिदमिक फ़ंक्शन का उपयोग करके संबंध को व्यक्त करता है: y \u003d इन c + m * में x + In E।

    एकाधिक और ग़ैर

    दो और जटिल प्रकार के प्रतिगमन कई और ग़ैर-अस्पष्ट हैं। एकाधिक प्रतिगमन समीकरण को y \u003d f (x 1, x 2 ... x c) + E द्वारा व्यक्त किया जाता है। इस स्थिति में, y निर्भर चर है, और x व्याख्यात्मक है। वेरिएबल ई स्टोचस्टिक है और इसमें समीकरण के अन्य कारकों का प्रभाव शामिल है। गैर-रेखीय प्रतिगमन समीकरण थोड़ा विवादास्पद है। एक ओर, यह खाते में लिए गए संकेतकों के संबंध में रैखिक नहीं है, लेकिन दूसरी ओर, संकेतकों के मूल्यांकन की भूमिका में, यह रैखिक है।

    उलटा और युग्मित प्रतिगमन प्रकार

    उलटा एक प्रकार का फ़ंक्शन है जिसे रैखिक में परिवर्तित करने की आवश्यकता होती है। सबसे पारंपरिक अनुप्रयोगों में, यह एक फ़ंक्शन y \u003d 1 / c + m * x + E का रूप लेता है। युग्मित प्रतिगमन समीकरण, y \u003d f (x) + E. के फ़ंक्शन के रूप में डेटा के बीच के संबंधों को प्रदर्शित करता है, जैसे अन्य समीकरणों में, y x पर निर्भर करता है, और E एक स्टोकेस्टिक पैरामीटर है।

    सहसंबंध की अवधारणा

    यह एक संकेतक है जो दो घटनाओं या प्रक्रियाओं के बीच संबंध के अस्तित्व को दर्शाता है। रिश्ते की मजबूती को सहसंबंध गुणांक के रूप में व्यक्त किया जाता है। इसका मूल्य अंतराल के भीतर उतार-चढ़ाव करता है [-1; +1]। एक नकारात्मक संकेतक प्रतिक्रिया की उपस्थिति को इंगित करता है, एक सकारात्मक सूचक एक प्रत्यक्ष को इंगित करता है। यदि गुणांक 0 के बराबर मान लेता है, तो कोई संबंध नहीं है। 1 के करीब मान 1 है - मापदंडों के बीच संबंध मजबूत, 0 के करीब - कमजोर।

    तरीकों

    सहसंबंध पैरामीट्रिक तरीके रिश्ते की निकटता का आकलन कर सकते हैं। वे सामान्य वितरण कानून के पालन करने वाले मापदंडों का अध्ययन करने के लिए वितरण के एक अनुमान के आधार पर उपयोग किया जाता है।

    रैखिक प्रतिगमन समीकरण के पैरामीटर निर्भरता के प्रकार की पहचान करने, प्रतिगमन समीकरण के कार्य और चयनित संबंध सूत्र के संकेतकों का मूल्यांकन करने के लिए आवश्यक हैं। सहसंबंध क्षेत्र का उपयोग लिंक पहचान विधि के रूप में किया जाता है। ऐसा करने के लिए, सभी मौजूदा डेटा को ग्राफिक रूप से प्रदर्शित किया जाना चाहिए। एक आयताकार द्वि-आयामी समन्वय प्रणाली में, सभी ज्ञात डेटा को प्लॉट किया जाना चाहिए। इस प्रकार सहसंबंध क्षेत्र बनता है। वर्णन करने वाले कारक के मूल्य को एब्सिस्सा के साथ चिह्नित किया गया है, जबकि आश्रित कारक के मूल्यों को समन्वय के साथ चिह्नित किया गया है। यदि मापदंडों के बीच एक कार्यात्मक संबंध है, तो उन्हें एक पंक्ति के रूप में व्यवस्थित किया जाता है।

    यदि इस तरह के डेटा का सहसंबंध गुणांक 30% से कम है, तो हम संचार की लगभग पूर्ण अनुपस्थिति के बारे में बात कर सकते हैं। यदि यह 30% और 70% के बीच है, तो यह औसत घनत्व के लिंक की उपस्थिति को इंगित करता है। 100% संकेतक कार्यात्मक कनेक्शन का प्रमाण है।

    एक रेखीय एक की तरह एक गैर-रेखीय प्रतिगमन समीकरण, एक सहसंबंध सूचकांक (आर) के साथ पूरक होना चाहिए।

    एकाधिक प्रतिगमन के लिए सहसंबंध

    निर्धारण का गुणांक कई सहसंबंध के वर्ग का एक उपाय है। वह अध्ययनित विशेषता के साथ संकेतकों के प्रस्तुत परिसर के संबंधों की जकड़न के बारे में बोलता है। वह परिणाम पर मापदंडों के प्रभाव की प्रकृति के बारे में भी बात कर सकता है। इस संकेतक का उपयोग करके कई प्रतिगमन समीकरण का अनुमान लगाया जाता है।

    एकाधिक सहसंबंध सूचकांक की गणना करने के लिए, इसके सूचकांक की गणना करना आवश्यक है।

    कम से कम चौकोर विधि

    यह विधि प्रतिगमन कारकों का आकलन करने का एक तरीका है। इसका सार वर्ग में विचलन के योग को कम करने में निहित है, जो फ़ंक्शन पर कारक की निर्भरता के कारण प्राप्त होता है।

    इस पद्धति का उपयोग करके एक युग्मित रैखिक प्रतिगमन समीकरण का अनुमान लगाया जा सकता है। इस प्रकार के समीकरणों का उपयोग युग्मित रैखिक संबंध के संकेतकों के बीच पता लगाने के मामले में किया जाता है।

    समीकरण मापदंडों

    रैखिक प्रतिगमन फ़ंक्शन के प्रत्येक पैरामीटर का एक विशिष्ट अर्थ है। युग्मित रैखिक प्रतिगमन समीकरण में दो पैरामीटर होते हैं: c और m। पैरामीटर m फ़ंक्शन y के अंतिम संकेतक में औसत परिवर्तन दिखाता है, जो एक पारंपरिक इकाई द्वारा चर x में कमी (वृद्धि) के अधीन है। यदि चर x शून्य है, तो फ़ंक्शन पैरामीटर c के बराबर है। यदि चर x शून्य नहीं है, तो कारक c का कोई आर्थिक अर्थ नहीं है। फ़ंक्शन पर एकमात्र प्रभाव कारक सी से पहले संकेत है। यदि कोई ऋण है, तो हम कारक की तुलना में परिणाम में देरी से बदलाव के बारे में कह सकते हैं। यदि कोई प्लस है, तो यह परिणाम में तेजी से बदलाव का संकेत देता है।

    प्रत्येक पैरामीटर जो एक प्रतिगमन समीकरण के मूल्य को बदलता है, एक समीकरण के माध्यम से व्यक्त किया जा सकता है। उदाहरण के लिए, फ़ैक्टर c में फॉर्म c \u003d y - tx है।

    समूहीकृत डेटा

    कुछ समस्याएँ ऐसी होती हैं जिनमें सभी जानकारी को विशेषता x के अनुसार समूहीकृत किया जाता है, लेकिन एक निश्चित समूह के लिए उसी समय निर्भर संकेतक के संबंधित औसत मान इंगित किए जाते हैं। इस मामले में, औसत मानों की विशेषता है कि x के आधार पर संकेतक कैसे बदलता है। इस प्रकार, समूहीकृत जानकारी प्रतिगमन समीकरण को खोजने में मदद करती है। इसका उपयोग संबंध विश्लेषण के रूप में किया जाता है। हालाँकि, इस विधि में इसकी कमियां हैं। दुर्भाग्य से, औसत अक्सर बाहरी उतार-चढ़ाव के अधीन होते हैं। ये उतार-चढ़ाव रिश्ते की नियमितता का प्रतिबिंब नहीं हैं, वे केवल इसके "शोर" को मुखौटा करते हैं। औसत रिलेशनशिप पैटर्न को रेखीय रिग्रेशन समीकरण से बहुत खराब दिखाता है। हालांकि, उन्हें समीकरण खोजने के लिए आधार के रूप में उपयोग किया जा सकता है। एक व्यक्ति की आबादी के आकार को संबंधित औसत से गुणा करके, आप समूह के भीतर y का योग प्राप्त कर सकते हैं। अगला, आपको प्राप्त सभी राशियों को खटखटाने और अंतिम संकेतक y को खोजने की आवश्यकता है। राशि xy के संकेतक के साथ गणना करना थोड़ा अधिक कठिन है। इस घटना में कि अंतराल छोटे हैं, आप पारंपरिक रूप से सभी इकाइयों (समूह के भीतर) के लिए x इंडेक्स समान ले सकते हैं। X और y के उत्पादों का योग खोजने के लिए इसे y के योग से गुणा करें। इसके अलावा, सभी राशियों को एक साथ खटखटाया जाता है और कुल राशि प्राप्त होती है।

    मल्टीपल पेयरवाइज़ रिग्रेशन समीकरण: एक लिंक के महत्व का आकलन करना

    जैसा कि पहले चर्चा की गई है, एकाधिक प्रतिगमन में y \u003d f (x 1, x 2,…, x m) + E के रूप का एक कार्य है। ज्यादातर, इस तरह के समीकरण का उपयोग आपूर्ति की समस्या को हल करने और उत्पाद की मांग, पुनर्खरीद वाले शेयरों पर ब्याज आय और उत्पादन लागत फ़ंक्शन के कारणों और प्रकार का अध्ययन करने के लिए किया जाता है। यह व्यापक रूप से व्यापक आर्थिक अध्ययन और गणना में सक्रिय रूप से उपयोग किया जाता है, लेकिन सूक्ष्म आर्थिक स्तर पर, इस समीकरण का उपयोग अक्सर कम किया जाता है।

    एकाधिक प्रतिगमन का मुख्य कार्य एक डेटा मॉडल का निर्माण करना है जिसमें सूचनाओं की एक बड़ी मात्रा होती है ताकि यह निर्धारित किया जा सके कि प्रत्येक कारक को व्यक्तिगत रूप से क्या प्रभावित करता है और उनकी सामान्य समग्रता में संकेतक पर मॉडल और उसके गुणांक होने की आवश्यकता होती है। प्रतिगमन समीकरण विभिन्न प्रकार के मूल्यों को ले सकता है। इसी समय, रिश्ते का आकलन करने के लिए आमतौर पर दो प्रकार के कार्यों का उपयोग किया जाता है: रैखिक और गैर-रेखीय।

    एक रैखिक फ़ंक्शन को इस तरह के रिश्ते के रूप में दर्शाया गया है: y \u003d a 0 + a 1 x 1 + 2 x 2, + ... + a m x m। इस मामले में, a2, m, को "शुद्ध" प्रतिगमन का गुणांक माना जाता है। वे अन्य संकेतकों के एक स्थिर मूल्य की स्थिति के साथ, एक इकाई द्वारा प्रत्येक संगत पैरामीटर x में परिवर्तन (कमी या वृद्धि) के साथ पैरामीटर वाई में औसत परिवर्तन को चिह्नित करने के लिए आवश्यक हैं।

    नॉनलाइनियर समीकरणों में, उदाहरण के लिए, एक पावर फंक्शन y \u003d ax 1 b1 x 2 b2 ... x m bm का रूप है। इस स्थिति में, संकेतक b 1, b 2 ..... bm - को लोच गुणांक कहा जाता है, वे प्रदर्शित करते हैं कि परिणाम 1% से संबंधित सूचक x में वृद्धि (कमी) के साथ परिणाम कैसे (कितने%) बदल जाएगा। और अन्य कारकों के एक स्थिर संकेतक के साथ।

    एकाधिक प्रतिगमन का निर्माण करते समय किन कारकों पर विचार किया जाना चाहिए

    कई प्रतिगमन का सही ढंग से निर्माण करने के लिए, यह पता लगाना आवश्यक है कि किन कारकों पर विशेष ध्यान दिया जाना चाहिए।

    आर्थिक कारकों और प्रतिमानों के बीच संबंधों की प्रकृति की एक निश्चित समझ होना आवश्यक है। जिन कारकों को शामिल करना होगा, उन्हें निम्नलिखित मानदंडों को पूरा करना होगा:

    • परिमाणात्मक होना चाहिए। किसी भी मामले में, किसी वस्तु की गुणवत्ता का वर्णन करने वाले कारक का उपयोग करने के लिए, इसे परिमाणित किया जाना चाहिए।
    • कारकों, या कार्यात्मक संबंध का कोई अंतर्संबंध नहीं होना चाहिए। इस तरह की कार्रवाइयां अक्सर अपरिवर्तनीय परिणाम पैदा करती हैं - सामान्य समीकरणों की प्रणाली बिना शर्त बन जाती है, और यह इसकी अपरिवर्तनीयता और अस्पष्ट अनुमानों को पूरा करती है।
    • यदि कोई बड़ा सहसंबंध संकेतक है, तो अंतिम संकेतक परिणाम पर कारकों के पृथक प्रभाव का पता लगाने का कोई तरीका नहीं है, इसलिए, गुणांक निर्विवाद हो जाते हैं।

    निर्माण के तरीके

    एक समीकरण के लिए कारकों का चयन कैसे करें, यह समझाने के लिए तरीकों और तकनीकों के असंख्य हैं। हालाँकि, ये सभी विधियाँ सहसंबंध सूचक का उपयोग करते हुए गुणांक के चयन पर आधारित हैं। उनमें से हैं:

    • अपवर्जन विधि।
    • शामिल करने की विधि।
    • प्रतिगमन विश्लेषण कदम दर कदम।

    पहली विधि में समुच्चय समुच्चय से सभी गुणांक को फ़िल्टर करना शामिल है। दूसरी विधि में कई अतिरिक्त कारकों का परिचय शामिल है। खैर, तीसरा उन कारकों का उन्मूलन है जो पहले समीकरण पर लागू किए गए थे। इन विधियों में से प्रत्येक को अस्तित्व का अधिकार है। उनके पास अपने पेशेवरों और विपक्ष हैं, लेकिन वे सभी अपने तरीके से अनावश्यक संकेतकों को समाप्त करने के मुद्दे को हल कर सकते हैं। एक नियम के रूप में, प्रत्येक व्यक्तिगत विधि द्वारा प्राप्त परिणाम काफी करीब हैं।

    बहुभिन्नरूपी विश्लेषण विधियों

    कारकों को निर्धारित करने के लिए इस तरह के तरीके परस्पर संबंधित सुविधाओं के व्यक्तिगत संयोजनों पर विचार करने पर आधारित हैं। इनमें विभेदक विश्लेषण, आकृति मान्यता, प्रमुख घटक विश्लेषण और क्लस्टर विश्लेषण शामिल हैं। इसके अलावा, कारक विश्लेषण भी है, लेकिन यह घटकों की विधि के विकास के कारण दिखाई दिया। वे सभी कुछ शर्तों और कारकों के तहत कुछ परिस्थितियों में लागू होते हैं।

    प्रतिगमन विश्लेषण का उद्देश्य एक आश्रित चर और एक (युग्मित प्रतिगमन विश्लेषण) या एकाधिक (एकाधिक) स्वतंत्र चर के बीच संबंध को मापना है। व्याख्यात्मक चर को भाज्य, व्याख्यात्मक, निर्धारक, प्रतिगामी और भविष्यवक्ता भी कहा जाता है।

    आश्रित चर को कभी-कभी नियतनीय, व्याख्यात्मक, "प्रतिक्रिया" कहा जाता है। अनुभवजन्य अनुसंधान में प्रतिगमन विश्लेषण का अत्यधिक व्यापक उपयोग केवल इस तथ्य के कारण नहीं है कि यह परिकल्पना के परीक्षण के लिए एक सुविधाजनक उपकरण है। प्रतिगमन, विशेष रूप से कई प्रतिगमन, एक प्रभावी मॉडलिंग और पूर्वानुमान तकनीक है।

    प्रतिगमन विश्लेषण के साथ काम करने के सिद्धांतों को समझाने के लिए, हम एक सरल तरीके से शुरू करते हैं - जोड़ीदार विधि।

    युग्मित प्रतिगमन विश्लेषण

    प्रतिगमन विश्लेषण का उपयोग करते समय पहला चरण उन लोगों के लिए लगभग समान होगा जो हमने सहसंबंध गुणांक की गणना में लिया था। पियर्सन की विधि के अनुसार सहसंबंध विश्लेषण की प्रभावशीलता के लिए तीन मुख्य शर्तें - चर का सामान्य वितरण, चर का अंतराल माप, चर के बीच रैखिक संबंध - कई प्रतिगमन के लिए भी प्रासंगिक हैं। तदनुसार, पहले चरण में, स्कैप्लेट्स का निर्माण किया जाता है, चर का एक सांख्यिकीय वर्णनात्मक विश्लेषण किया जाता है, और प्रतिगमन रेखा की गणना की जाती है। जैसा कि सहसंबंध विश्लेषण के ढांचे में, कम से कम वर्गों की विधि का उपयोग करके प्रतिगमन रेखाएं बनाई जाती हैं।

    डेटा विश्लेषण के दो तरीकों के बीच अधिक स्पष्ट रूप से अंतर को स्पष्ट करने के लिए, आइए हम पहले से ही चर "पीसीए समर्थन" और "ग्रामीण आबादी के शेयर" के साथ उदाहरण पर बारी करें। मूल डेटा समान हैं। बिखराव में अंतर यह होगा कि प्रतिगमन विश्लेषण में यह निर्भर चर को स्थगित करने के लिए सही है - हमारे मामले में, वाई अक्ष के साथ "पीसीए के लिए समर्थन", जबकि सहसंबंध विश्लेषण में यह कोई फर्क नहीं पड़ता। आउटलेयर की सफाई के बाद, तितर बितर आरेख इस तरह दिखता है:

    प्रतिगमन विश्लेषण का मूल विचार यह है कि, चर के लिए एक सामान्य प्रवृत्ति - एक प्रतिगमन लाइन के रूप में - आश्रित चर के मूल्य की भविष्यवाणी करना संभव है, स्वतंत्र के मूल्यों के साथ।

    आइए सामान्य गणितीय रैखिक फ़ंक्शन का प्रतिनिधित्व करते हैं। यूक्लिडियन अंतरिक्ष में किसी भी सीधी रेखा को सूत्र द्वारा वर्णित किया जा सकता है:

    जहां एक स्थिर समन्वय के साथ विस्थापन को निर्दिष्ट करना है; बी - गुणांक जो लाइन के झुकाव के कोण को निर्धारित करता है।

    ढलान और स्थिरांक को जानते हुए, आप किसी भी x के लिए y के मूल्य की गणना (भविष्यवाणी) कर सकते हैं।

    इस सबसे सरल कार्य ने प्रोविज़ो के साथ प्रतिगमन विश्लेषण मॉडल का आधार बनाया कि हम y के मूल्य की सटीक भविष्यवाणी नहीं करेंगे, लेकिन एक निश्चित आत्मविश्वास अंतराल के भीतर, अर्थात्। के बारे में।

    एक स्थिरांक प्रतिगमन रेखा और ऑर्डिनेट (एफ-चौराहे, सांख्यिकीय पैकेजों में, आमतौर पर "इंटरसेप्टर") को चिह्नित करने का बिंदु है। पीसीए के लिए एक वोट के साथ हमारे उदाहरण में, इसका गोल मूल्य 10.55 होगा। ढलान b लगभग -0.1 होगा (जैसा कि सहसंबंध विश्लेषण में, संकेत संबंध के प्रकार को इंगित करता है - प्रत्यक्ष या रिवर्स)। इस प्रकार, परिणामी मॉडल में SP C \u003d -0.1 x Sel होगा। हमें। + 10.55।

    इसलिए, 47% ग्रामीण आबादी के एक हिस्से के साथ "रिपब्लिक ऑफ एडीगे" के मामले में, अनुमानित मूल्य 5.63 होगा:

    एटीपी \u003d -0.10 x 47 + 10.55 \u003d 5.63।

    प्रारंभिक और अनुमानित मूल्यों के बीच अंतर को शेष कहा जाता है (हमने पहले ही इस शब्द का सामना किया है, जो आंकड़ों के लिए मौलिक है, जब आकस्मिक तालिकाओं का विश्लेषण करते हैं)। तो, मामले के लिए "आद्याग गणराज्य" शेष 3.92 - 5.63 \u003d -1.71 होगा। शेष के बड़े मॉड्यूलर मूल्य, कम अच्छी तरह से अनुमानित मूल्य।

    हम सभी मामलों के लिए अनुमानित मूल्यों और अवशिष्टों की गणना करते हैं:
    हो रहा वह बैठ गया। हमें। धन्यवाद

    (मूल)

    धन्यवाद

    (भविष्यवाणी की)

    कूड़ा
    आदिगया गणराज्य 47 3,92 5,63 -1,71 -
    अल्ताई गणराज्य 76 5,4 2,59 2,81
    बशकोर्टोस्तान गणराज्य 36 6,04 6,78 -0,74
    Buryatia गणराज्य 41 8,36 6,25 2,11
    दगस्टान गणराज्य 59 1,22 4,37 -3,15
    इंगुशेतिया गणराज्य 59 0,38 4,37 3,99
    आदि।

    प्रारंभिक और अनुमानित मूल्यों के अनुपात का विश्लेषण परिणामी मॉडल की गुणवत्ता, इसकी भविष्य कहनेवाला क्षमता का आकलन करने का कार्य करता है। प्रतिगमन आँकड़ों के मुख्य संकेतकों में से एक बहु सहसंबंध गुणांक R है - निर्भर चर के मूल और अनुमानित मूल्यों के बीच सहसंबंध गुणांक। युग्मित प्रतिगमन विश्लेषण में, यह हमारे मामले में 0.63 पर निर्भर और स्वतंत्र चर के बीच पियर्सन के सामान्य सहसंबंध गुणांक के बराबर है। कई आर की सार्थक व्याख्या करने के लिए, इसे दृढ़ संकल्प के गुणांक में बदलना चाहिए। यह उसी तरह से किया जाता है जैसे कि सहसंबंध विश्लेषण में - स्क्वेरिंग द्वारा। निर्धारण R -square (R 2) का गुणांक स्वतंत्र (स्वतंत्र) चर द्वारा समझाए गए आश्रित चर में भिन्नता के अनुपात को दर्शाता है।

    हमारे मामले में, आर 2 \u003d 0.39 (0.63 2); इसका अर्थ है कि चर "ग्रामीण शेयर" चर "सीपीएस समर्थन" में भिन्नता के 40% के बारे में बताता है। निर्धारण के गुणांक का मूल्य जितना अधिक होगा, मॉडल की गुणवत्ता उतनी ही अधिक होगी।

    मॉडल गुणवत्ता का एक और उपाय अनुमान की मानक त्रुटि है। यह एक उपाय है कि प्रतिगमन रेखा के चारों ओर "बिखरे हुए" अंक कितने हैं। मानक विचलन अंतराल चर के लिए फैलाव का एक उपाय है। तदनुसार, अनुमान की मानक त्रुटि अवशिष्टों के वितरण का मानक विचलन है। इसका मूल्य जितना अधिक होगा, उतना अधिक प्रसार और मॉडल खराब होगा। हमारे मामले में, मानक त्रुटि 2.18 है। यह इस मान से है कि चर "SPS समर्थन" के मूल्य की भविष्यवाणी करते समय हमारा मॉडल "औसत रूप से गलत" होगा।

    प्रतिगमन आँकड़ों में विचरण का विश्लेषण भी शामिल है। इसकी मदद से, हमें पता चलता है: 1) आश्रित चर के भिन्नता (विचरण) के किस अनुपात को स्वतंत्र चर द्वारा समझाया गया है; 2) निर्भर चर के विचरण का अनुपात अवशिष्ट (अस्पष्टीकृत भाग) पर क्या होता है; 3) इन दो मात्राओं (/ - अनुपात) का अनुपात क्या है। नमूना अध्ययन के लिए फैलाव के आँकड़े विशेष रूप से महत्वपूर्ण हैं - यह दर्शाता है कि यह कितनी संभावना है कि सामान्य आबादी में स्वतंत्र और आश्रित चर के बीच एक संबंध है। निरंतर अध्ययन के लिए (हमारे उदाहरण के अनुसार), अध्ययन करें इस मामले में, यह जाँच की जाती है कि क्या पता चलता है कि नियमित नियमितता यादृच्छिक परिस्थितियों के संयोग के कारण होती है, यह उन परिस्थितियों के सेट के लिए कितना विशिष्ट है, जिनमें अध्ययन की गई जनसंख्या स्थित है, अर्थात्। कुल मिलाकर, लेकिन इसकी नियमितता की डिग्री, यादृच्छिक प्रभावों से मुक्ति।

    हमारे मामले में, एनोवा के आंकड़े इस प्रकार हैं:

    एसएस df एमएस एफ मूल्य
    फिर से करता है। 258,77 1,00 258,77 54,29 0.000000001
    शेष। 395,59 83,00 एल, ११
    संपूर्ण 654,36

    54.29 का एफ-अनुपात 0.0000000001 पर महत्वपूर्ण है। तदनुसार, हम विश्वासपूर्वक अशक्त परिकल्पना को अस्वीकार कर सकते हैं (कि जो संबंध हमें मिला वह यादृच्छिक है)।

    एक समान कार्य टी मानदंड द्वारा किया जाता है, लेकिन प्रतिगमन गुणांक (कोणीय और एफ-चौराहे) के संबंध में। / मानदंड का उपयोग करते हुए, हम परिकल्पना का परीक्षण करते हैं कि सामान्य आबादी में प्रतिगमन गुणांक शून्य के बराबर हैं। हमारे मामले में, हम फिर से अशक्त परिकल्पना को अस्वीकार कर सकते हैं।

    कई प्रतिगमन विश्लेषण

    बहु प्रतिगमन मॉडल युग्मित प्रतिगमन मॉडल के लगभग समान है; एकमात्र अंतर यह है कि कई स्वतंत्र चर क्रमबद्ध रूप से रैखिक फ़ंक्शन में शामिल होते हैं:

    Y \u003d b1X1 + b2X2 +… + bpXp + a।

    यदि दो से अधिक स्वतंत्र चर हैं, तो हमें उनके संबंधों का एक दृश्य विचार प्राप्त करने का अवसर नहीं है, इस संबंध में, जोड़ी प्रतिगमन की तुलना में कई प्रतिगमन कम "स्पष्ट" हैं। जब दो स्वतंत्र चर होते हैं, तो डेटा को 3 डी स्कैटर प्लॉट में प्रदर्शित करना उपयोगी हो सकता है। पेशेवर सांख्यिकीय सॉफ्टवेयर पैकेज (उदाहरण के लिए, स्टेटिस्टिक) में तीन-आयामी आरेख को घुमाने का एक विकल्प होता है, जो डेटा संरचना के एक अच्छे दृश्य प्रतिनिधित्व की अनुमति देता है।

    कई प्रतिगमन के साथ काम करते समय, एक जोड़ी प्रतिगमन के विपरीत, एक विश्लेषण एल्गोरिदम को परिभाषित करना आवश्यक है। मानक एल्गोरिथ्म में अंतिम प्रतिगमन मॉडल में सभी उपलब्ध भविष्यवक्ता शामिल हैं। चरण-दर-चरण एल्गोरिथ्म उनके व्याख्यात्मक "वजन" के आधार पर स्वतंत्र चर के अनुक्रमिक समावेश (बहिष्करण) को मानता है। जब कई स्वतंत्र चर होते हैं, तो चरणबद्ध विधि अच्छी होती है; यह स्पष्ट रूप से कमजोर भविष्यवक्ताओं से मॉडल को "साफ" करता है, जिससे यह अधिक कॉम्पैक्ट और लेकोनिक बनता है।

    एकाधिक प्रतिगमन (अंतराल, सामान्यता और रैखिकता के साथ) की शुद्धता के लिए एक अतिरिक्त स्थिति मल्टीकोलिनरिटी की अनुपस्थिति है - स्वतंत्र चर के बीच मजबूत सहसंबंधों की उपस्थिति।

    एकाधिक प्रतिगमन आँकड़ों की व्याख्या में वे सभी तत्व शामिल हैं जिन्हें हमने युग्मित प्रतिगमन के मामले के लिए माना था। इसके अलावा, कई प्रतिगमन आँकड़ों के लिए अन्य महत्वपूर्ण घटक हैं।

    हम रूस के क्षेत्रों में चुनावी गतिविधि के स्तर में अंतर को समझाते हुए परीक्षण परिकल्पना के उदाहरण का उपयोग करते हुए कई प्रतिगमन के साथ काम का वर्णन करेंगे। विशिष्ट अनुभवजन्य अध्ययनों ने सुझाव दिया है कि मतदाता मतदान से प्रभावित होता है:

    राष्ट्रीय कारक (चर "रूसी आबादी", रूसी संघ के घटक संस्थाओं में रूसी आबादी के हिस्से के रूप में संचालित)। यह माना जाता है कि रूसी आबादी की हिस्सेदारी में वृद्धि से मतदाता में कमी आती है;

    शहरीकरण का कारक (चर "शहरी आबादी"; रूसी संघ के घटक संस्थाओं में शहरी आबादी के हिस्से के रूप में संचालित; हम पहले से ही सहसंबंध विश्लेषण के ढांचे में इस कारक के साथ काम कर चुके हैं)। यह माना जाता है कि शहरी आबादी की हिस्सेदारी में वृद्धि भी मतदाता मतदान में कमी की ओर ले जाती है।

    निर्भर चर - "चुनावी गतिविधि की तीव्रता" ("परिसंपत्ति") को संघीय चुनावों में 1995 से 2003 तक क्षेत्रों के औसत डेटा के माध्यम से संचालित किया जाता है। दो स्वतंत्र और एक आश्रित चर के लिए प्रारंभिक डेटा तालिका होगी निम्नलिखित रूप:

    हो रहा चर
    एसेट्स। पहाड़ों। हमें। रस। हमें।
    आदिगया गणराज्य 64,92 53 68
    अल्ताई गणराज्य 68,60 24 60
    Buryatia गणराज्य 60,75 59 70
    दगस्टान गणराज्य 79,92 41 9
    इंगुशेतिया गणराज्य 75,05 41 23
    कल्मकिया गणराज्य 68,52 39 37
    करचाय-चर्कासी गणराज्य 66,68 44 42
    करेलिया गणराज्य 61,70 73 73
    कोमी गणराज्य 59,60 74 57
    मारी एल रिपब्लिक 65,19 62 47

    आदि। (उत्सर्जन को साफ करने के बाद, 88 में से 83 मामले शेष हैं)

    मॉडल की गुणवत्ता का वर्णन करने वाले आंकड़े:

    1. मल्टीपल आर \u003d 0.62; एल-वर्ग \u003d 0.38। नतीजतन, राष्ट्रीय कारक और शहरीकरण कारक एक साथ 38% परिवर्तनशील "चुनावी गतिविधि" के बारे में बताते हैं।

    2. औसत त्रुटि 3.38 है। इस तरह से "मॉडल" औसत रूप से निर्मित मॉडल गलत है जब मतदान स्तर की भविष्यवाणी की जाती है।

    3. समझाया और अस्पष्टीकृत भिन्नता का एल-अनुपात 0.000000003 के स्तर पर 25.2 है। पहचाने गए लिंक की यादृच्छिकता के बारे में अशक्त परिकल्पना खारिज कर दी गई है।

    4. चर "शहरी आबादी" और "रूसी आबादी" के निरंतर और प्रतिगमन गुणांक के लिए मानदंड 0.0000001 के स्तर पर महत्वपूर्ण है; क्रमशः 0.00005 और 0.007। गुणांकों की यादृच्छिकता की अशक्त परिकल्पना को खारिज कर दिया जाता है।

    आश्रित चर के मूल और अनुमानित मूल्यों के बीच संबंध का विश्लेषण करने में अतिरिक्त उपयोगी आंकड़े महालनोबिस दूरी और कुक दूरी हैं। पहला एक मामले की विशिष्टता का माप है (यह दर्शाता है कि किसी दिए गए मामले के लिए सभी स्वतंत्र चर के मूल्यों का संयोजन सभी स्वतंत्र चर के लिए माध्य से विचलन करता है)। दूसरी घटना के प्रभाव का माप है। प्रतिगमन रेखा के ढलान पर विभिन्न अवलोकनों के अलग-अलग प्रभाव होते हैं, और इस संकेतक के लिए उनकी तुलना करने के लिए कुक दूरी का उपयोग किया जा सकता है। यह तब उपयोगी हो सकता है जब आउटलेयर की सफाई (एक झटका को एक प्रभावशाली मामले के रूप में सोचा जा सकता है)।

    हमारे उदाहरण में, डागेस्तान अद्वितीय और प्रभावशाली मामलों में से एक है।

    हो रहा असली

    जिसका अर्थ है

    प्रेडेस्का

    जिसका अर्थ है

    कूड़ा दूरी

    महालनोबिस

    दूरी
    एडिगेया 64,92 66,33 -1,40 0,69 0,00
    अल्ताई गणराज्य 68,60 69.91 -1,31 6,80 0,01
    Buryatia गणराज्य 60,75 65,56 -4,81 0,23 0,01
    दगस्टान गणराज्य 79,92 71,01 8,91 10,57 0,44
    इंगुशेतिया गणराज्य 75,05 70,21 4,84 6,73 0,08
    कल्मकिया गणराज्य 68,52 69,59 -1,07 4,20 0,00

    प्रतिगमन मॉडल में स्वयं निम्नलिखित पैरामीटर हैं: Y- प्रतिच्छेदन (स्थिर) \u003d 75.99; बी (होर। सत।) \u003d -0.1; बी (रस। हमसे) \u003d -0.06। अंतिम सूत्र:

    ऐक्टिव, \u003d -0.1 x होरस। sat n + - 0.06 x रुस। sat n + 75.99।

    क्या हम गुणांक 61 के मूल्य के आधार पर भविष्यवक्ताओं की "व्याख्यात्मक शक्ति" की तुलना कर सकते हैं। इस मामले में, हाँ, चूंकि दोनों व्याख्यात्मक चर एक ही प्रतिशत प्रारूप हैं। हालांकि, सबसे अधिक बार कई प्रतिगमन विभिन्न पैमानों (उदाहरण के लिए, रूबल में आय स्तर और वर्षों में आयु) पर मापा चर के साथ संबंधित हैं। इसलिए, सामान्य मामले में, प्रतिगमन गुणांक द्वारा चर की भविष्य कहनेवाला क्षमताओं की तुलना करना गलत है। कई प्रतिगमन आंकड़ों में, इस उद्देश्य के लिए एक विशेष बीटा गुणांक (बी) है, प्रत्येक स्वतंत्र चर के लिए अलग से गणना की जाती है। यह एक निजी (सभी अन्य भविष्यवक्ताओं के प्रभाव को ध्यान में रखते हुए गणना की जाती है) कारक और प्रतिक्रिया के सहसंबंध गुणांक और प्रतिक्रिया मूल्यों की भविष्यवाणी के लिए कारक के स्वतंत्र योगदान को दर्शाता है। युग्मित प्रतिगमन विश्लेषण में, बीटा गुणांक आश्रित और स्वतंत्र चर के बीच युग्मित सहसंबंध गुणांक के बराबर होता है।

    हमारे उदाहरण में, बीटा (होर। यू।) \u003d -0.43, बीटा (रूस। हमारा) \u003d -0.28। इस प्रकार, दोनों कारक चुनावी गतिविधि के स्तर को नकारात्मक रूप से प्रभावित करते हैं, जबकि शहरीकरण कारक का महत्व राष्ट्रीय कारक के महत्व से काफी अधिक है। दोनों कारकों का संयुक्त प्रभाव चर "चुनावी गतिविधि" में भिन्नता का लगभग 38% निर्धारित करता है (एल-वर्ग का मूल्य देखें)।

    सांख्यिकीय मॉडलिंग में, प्रतिगमन विश्लेषण एक अध्ययन है जिसका उपयोग चर के बीच संबंधों का आकलन करने के लिए किया जाता है। इस गणितीय तकनीक में मॉडलिंग और कई चर का विश्लेषण करने के लिए कई अन्य तकनीकें शामिल हैं, जहां आश्रित चर और एक या अधिक स्वतंत्र चर के बीच संबंधों पर ध्यान केंद्रित किया गया है। अधिक विशेष रूप से, प्रतिगमन विश्लेषण आपको यह समझने में मदद करता है कि यदि एक व्याख्यात्मक चर बदल जाता है, जबकि अन्य व्याख्यात्मक चर निश्चित रहते हैं तो आश्रित चर का विशिष्ट मूल्य कैसे बदल जाता है।

    सभी मामलों में, लक्ष्य स्कोर व्याख्यात्मक चर का एक फ़ंक्शन है और इसे प्रतिगमन फ़ंक्शन कहा जाता है। प्रतिगमन विश्लेषण में, यह प्रतिगमन फ़ंक्शन के रूप में निर्भर चर में परिवर्तन को चिह्नित करने के लिए भी रुचि रखता है, जिसे एक संभावना वितरण का उपयोग करके वर्णित किया जा सकता है।

    प्रतिगमन विश्लेषण कार्य

    यह सांख्यिकीय अनुसंधान विधि व्यापक रूप से पूर्वानुमान के लिए उपयोग की जाती है, जहां इसके उपयोग का एक महत्वपूर्ण लाभ होता है, लेकिन कभी-कभी यह भ्रम या गलत दृष्टिकोण पैदा कर सकता है, इसलिए इस प्रश्न में सावधानीपूर्वक इसका उपयोग करने की सिफारिश की जाती है, उदाहरण के लिए, सहसंबंध का मतलब नहीं है कारण

    प्रतिगमन विश्लेषण करने के लिए बड़ी संख्या में तरीके विकसित किए गए हैं, जैसे कि रैखिक और साधारण न्यूनतम वर्ग प्रतिगमन, जो पैरामीट्रिक हैं। उनका सार यह है कि प्रतिगमन फ़ंक्शन अज्ञात मापदंडों की एक सीमित संख्या के संदर्भ में परिभाषित किया गया है जो डेटा से अनुमानित हैं। Nonparametric प्रतिगमन अपने कार्यों को एक विशिष्ट समूह के कार्यों में झूठ बोलने की अनुमति देता है, जो अनंत-आयामी हो सकता है।

    सांख्यिकीय अनुसंधान पद्धति के रूप में, व्यवहार में प्रतिगमन विश्लेषण डेटा पीढ़ी प्रक्रिया के रूप पर निर्भर करता है और यह प्रतिगमन दृष्टिकोण से कैसे संबंधित है। चूंकि डेटा प्रक्रिया का सही रूप आमतौर पर एक अज्ञात संख्या है, इसलिए डेटा का प्रतिगमन विश्लेषण अक्सर प्रक्रिया के बारे में मान्यताओं पर कुछ हद तक निर्भर करता है। पर्याप्त डेटा उपलब्ध होने पर ये धारणाएं कभी-कभी परीक्षण योग्य होती हैं। प्रतिगमन मॉडल अक्सर तब भी उपयोगी होते हैं जब मान्यताओं का उल्लंघन किया जाता है, हालांकि वे यथासंभव कुशलता से काम नहीं कर सकते हैं।

    एक संकीर्ण अर्थ में, प्रतिगमन विशेष रूप से निरंतर प्रतिक्रिया चर के आकलन के लिए संदर्भित कर सकता है, क्योंकि वर्गीकरण में उपयोग किए जाने वाले प्रतिक्रिया चर को असतत करने के विपरीत है। निरंतर उत्पादन चर के मामले को संबंधित समस्याओं से अलग करने के लिए मीट्रिक रिग्रेशन भी कहा जाता है।

    इतिहास

    प्रतिगमन का सबसे पहला रूप सुप्रसिद्ध न्यूनतम वर्ग विधि है। यह लीजेंड्रे द्वारा 1805 में और गॉस ने 1809 में प्रकाशित किया था। लीजेंड्रे एंड गॉस ने खगोलीय टिप्पणियों से सूर्य के चारों ओर निकायों की कक्षाओं (मुख्य रूप से धूमकेतु, लेकिन बाद में भी नए छोटे ग्रहों) के निर्धारण की समस्या पर विधि लागू की थी। गॉस ने 1821 में कम से कम वर्गों के सिद्धांत का एक और विकास प्रकाशित किया, जिसमें गॉस-मार्कोव प्रमेय का एक संस्करण शामिल था।

    "रिग्रेशन" शब्द 19 वीं शताब्दी में फ्रांसिस गैल्टन द्वारा एक जैविक घटना का वर्णन करने के लिए गढ़ा गया था। लब्बोलुआब यह था कि पूर्वजों की वृद्धि से संतानों की वृद्धि, एक नियम के रूप में, सामान्य साधन के लिए नीचे आती है। गैल्टन के लिए, प्रतिगमन का केवल यही जैविक अर्थ था, लेकिन बाद में उडनी यॉली और कार्ल पियर्सन द्वारा उनके काम को जारी रखा गया और एक अधिक सामान्य सांख्यिकीय संदर्भ में लाया गया। यूल और पियर्सन के काम में, प्रतिक्रिया और व्याख्यात्मक चर के संयुक्त वितरण को गौसियन माना जाता है। 1922 और 1925 के कार्यों में फिशर द्वारा इस धारणा को खारिज कर दिया गया था। फिशर ने सुझाव दिया कि प्रतिक्रिया चर का सशर्त वितरण गाऊसी है, लेकिन संयुक्त वितरण नहीं होना चाहिए। इस संबंध में, फिशर की परिकल्पना 1821 में गॉस के गठन के करीब है। 1970 तक, प्रतिगमन विश्लेषण का परिणाम प्राप्त करने में कभी-कभी 24 घंटे तक लग जाते थे।

    प्रतिगमन विश्लेषण विधियाँ सक्रिय अनुसंधान का एक क्षेत्र बनी हुई हैं। हाल के दशकों में, मजबूत प्रतिगमन के लिए नए तरीके विकसित किए गए हैं; सहसंबद्ध प्रतिक्रियाओं से संबंधित प्रतिगमन; प्रतिगमन विधियाँ जो विभिन्न प्रकार के लापता डेटा को समायोजित करती हैं; गैरपारंपरिक प्रतिगमन; बायेसियन रिग्रेशन के तरीके; ऐसे पूर्वानुमान जिनमें भविष्यवक्ता चर त्रुटि में मापा जाता है; टिप्पणियों की तुलना में अधिक पूर्वानुमानकर्ताओं के साथ प्रतिगमन; और प्रतिगमन के कारण कारण।

    प्रतिगमन मॉडल

    प्रतिगमन विश्लेषण मॉडल में निम्नलिखित चर शामिल हैं:

    • अज्ञात पैरामीटर, लेबल किए गए बीटा, जो एक अदिश या वेक्टर हो सकता है।
    • स्वतंत्र चर, एक्स।
    • आश्रित चर, Y.

    विज्ञान के विभिन्न क्षेत्रों में जहां प्रतिगमन विश्लेषण लागू किया जाता है, निर्भर और स्वतंत्र चर के बजाय अलग-अलग शब्दों का उपयोग किया जाता है, लेकिन सभी मामलों में प्रतिगमन मॉडल वाई को एक्स और function के एक फ़ंक्शन को संदर्भित करता है।

    सन्निकटन आमतौर पर E (Y | X) \u003d F (X,।) के रूप में लिखा जाता है। प्रतिगमन विश्लेषण के लिए, फ़ंक्शन च का रूप निर्धारित किया जाना चाहिए। कम सामान्यतः, यह वाई और एक्स के बीच संबंधों के ज्ञान पर आधारित है जो डेटा पर भरोसा नहीं करता है। यदि ऐसा ज्ञान उपलब्ध नहीं है, तो एक लचीला या सुविधाजनक एफ फॉर्म चुना जाता है।

    आश्रित चर Y

    अब मान लीजिए कि अज्ञात मापदंडों के वेक्टर की लंबाई k है। प्रतिगमन विश्लेषण करने के लिए, उपयोगकर्ता को निर्भर चर Y के बारे में जानकारी प्रदान करनी होगी:

    • यदि फॉर्म (Y, X) के एन डेटा पॉइंट हैं, जहां एन< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
    • यदि वास्तव में N \u003d K मनाया जाता है और फ़ंक्शन F रैखिक है, तो समीकरण Y \u003d F (X, β) को लगभग हल किया जा सकता है, लगभग नहीं। यह एन-अज्ञात (तत्वों,) के साथ एन-समीकरणों के एक सेट को हल करने के लिए उबलता है, जिसका एक अनूठा समाधान है जब तक एक्स रैखिक रूप से स्वतंत्र है। यदि F अरेखीय है, तो समाधान मौजूद नहीं हो सकता है, या कई समाधान मौजूद हो सकते हैं।
    • सबसे सामान्य स्थिति वह है जहां डेटा के लिए N\u003e बिंदु देखे जाते हैं। इस मामले में, β के लिए अद्वितीय मूल्य का अनुमान लगाने के लिए डेटा में पर्याप्त जानकारी है जो डेटा को सबसे अच्छी तरह से फिट बैठता है, और एक प्रतिगमन मॉडल जहां डेटा के लिए आवेदन को idden में एक ओवरराइड सिस्टम के रूप में देखा जा सकता है।

    बाद के मामले में, प्रतिगमन विश्लेषण के लिए उपकरण प्रदान करता है:

    • अज्ञात मापदंडों के लिए एक समाधान के लिए खोजें minimize, जो उदाहरण के लिए, वाई के मापा और अनुमानित मूल्य के बीच की दूरी को कम करेगा।
    • कुछ सांख्यिकीय मान्यताओं के तहत, प्रतिगमन विश्लेषण अज्ञात istical मापदंडों के बारे में सांख्यिकीय जानकारी प्रदान करने के लिए अतिरिक्त जानकारी का उपयोग करता है और आश्रित चर के मान की भविष्यवाणी करता है।

    स्वतंत्र माप की आवश्यक संख्या

    एक प्रतिगमन मॉडल पर विचार करें जिसमें तीन अज्ञात पैरामीटर हैं: β 0, that 1, और ression 2। मान लीजिए कि वेक्टर X के लिए स्वतंत्र चर के समान मूल्य पर प्रयोगकर्ता 10 माप लेता है। इस मामले में, प्रतिगमन विश्लेषण मूल्यों के एक अद्वितीय सेट का उत्पादन नहीं करता है। सबसे अच्छी बात यह है कि आश्रित चर वाई के माध्य और मानक विचलन का अनुमान लगाना है। इसी तरह, दो अलग-अलग एक्स-मानों को मापकर, आप दो अज्ञात के साथ पुन: प्राप्त करने के लिए पर्याप्त डेटा प्राप्त कर सकते हैं, लेकिन तीन या अधिक अज्ञात नहीं।

    यदि वेक्टर के एक्स के स्वतंत्र चर के तीन अलग-अलग मूल्यों पर प्रयोगकर्ता के माप किए गए थे, तो प्रतिगमन विश्लेषण parameters में तीन अज्ञात मापदंडों के लिए अनुमानों का एक अनूठा सेट प्रदान करेगा।

    सामान्य रेखीय प्रतिगमन के मामले में, उपरोक्त कथन इस आवश्यकता के बराबर है कि मैट्रिक्स एक्स टी एक्स उल्टा है।

    सांख्यिकीय मान्यताओं

    जब माप एन की संख्या अज्ञात मापदंडों k और माप त्रुटियों की संख्या से अधिक है then i, तो, एक नियम के रूप में, माप में निहित जानकारी की एक अतिरिक्त तब अज्ञात मापदंडों के संबंध में सांख्यिकीय भविष्यवाणियों के लिए फैल और उपयोग किया जाता है। सूचना की इस अधिकता को प्रतिगमन की स्वतंत्रता की डिग्री कहा जाता है।

    निहित पूर्वधारणायें

    प्रतिगमन विश्लेषण के लिए क्लासिक मान्यताओं में शामिल हैं:

    • नमूना अनुमान के अनुमान का प्रतिनिधि है।
    • त्रुटि शून्य के माध्यम से एक यादृच्छिक चर है, जो व्याख्यात्मक चर पर सशर्त है।
    • व्याख्यात्मक चर त्रुटि के बिना मापा जाता है।
    • स्वतंत्र चर (भविष्यवक्ता) के रूप में, वे रैखिक रूप से स्वतंत्र हैं, अर्थात, किसी भी भविष्यवक्ता को दूसरों के रैखिक संयोजन के रूप में व्यक्त करना संभव नहीं है।
    • त्रुटियाँ असंबंधित हैं, अर्थात्, विकर्णों की त्रुटि सहसंयोजक मैट्रिक्स और प्रत्येक गैर-अक्षीय प्रविष्टि त्रुटि विचरण है।
    • अवलोकनों के अनुसार त्रुटि का विचरण स्थिर है (समरूपता)। यदि नहीं, तो कम से कम वर्ग या अन्य तरीकों का इस्तेमाल किया जा सकता है।

    कम से कम वर्गों के अनुमान के लिए इन पर्याप्त स्थितियों में आवश्यक गुण हैं, विशेष रूप से, इन धारणाओं का मतलब है कि पैरामीटर अनुमान उद्देश्यपूर्ण, सुसंगत और कुशल होंगे, खासकर जब रैखिक अनुमानों की कक्षा में ध्यान में रखा जाता है। यह ध्यान रखना महत्वपूर्ण है कि सबूत शायद ही कभी शर्तों को पूरा करते हैं। अर्थात्, मान्यताओं के सही न होने पर भी विधि का उपयोग किया जाता है। मान्यताओं से भिन्नता का उपयोग कभी-कभी मॉडल के उपयोगी होने के उपाय के रूप में किया जा सकता है। इनमें से कई मान्यताओं को और अधिक उन्नत तरीकों से आराम दिया जा सकता है। सांख्यिकीय विश्लेषण रिपोर्टों में आमतौर पर मॉडल उपयोगिता के लिए नमूना डेटा और कार्यप्रणाली के खिलाफ परीक्षणों का विश्लेषण शामिल है।

    इसके अलावा, कुछ मामलों में चर बिंदु स्थानों पर मापे गए मूल्यों को संदर्भित करते हैं। वैधानिक मान्यताओं का उल्लंघन करने वाले चरों में स्थानिक रुझान और स्थानिक निरंकुशता हो सकती है। भौगोलिक भारित प्रतिगमन एकमात्र ऐसी तकनीक है जो इस तरह के डेटा से संबंधित है।

    रैखिक प्रतिगमन में, विशेषता यह है कि निर्भर चर, जो कि i i है, मापदंडों का एक रैखिक संयोजन है। उदाहरण के लिए, सरल रेखीय प्रतिगमन एक स्वतंत्र चर, x i, और दो मापदंडों, β 0 और, 1 का उपयोग करता है, एन-पॉइंट को मॉडल करने के लिए।

    कई रैखिक प्रतिगमन में, कई स्वतंत्र चर या उनके कार्य हैं।

    जब आबादी से यादृच्छिक रूप से नमूना लिया जाता है, तो इसके पैरामीटर एक रेखीय प्रतिगमन मॉडल का एक नमूना प्रदान करते हैं।

    इस पहलू में, सबसे लोकप्रिय वर्ग सबसे कम है। इसका उपयोग पैरामीटर अनुमान प्राप्त करने के लिए किया जाता है जो अवशेषों के वर्गों के योग को कम करता है। इस फ़ंक्शन के इस तरह के न्यूनतमकरण (जो रैखिक प्रतिगमन की विशिष्ट है) सामान्य समीकरणों के एक सेट और मापदंडों के साथ रैखिक समीकरणों के एक सेट की ओर जाता है, जो पैरामीटर अनुमान प्राप्त करने के लिए हल किए जाते हैं।

    आगे की धारणा के अनुसार कि जनसंख्या त्रुटि आमतौर पर प्रचारित की जाती है, शोधकर्ता मानक अंतराल के इन अनुमानों का उपयोग आत्मविश्वास अंतराल बनाने और इसके मापदंडों के बारे में परिकल्पना का परीक्षण करने के लिए कर सकते हैं।

    Nonlinear प्रतिगमन विश्लेषण

    एक उदाहरण जहां फ़ंक्शन मापदंडों के संबंध में रैखिक नहीं है, यह दर्शाता है कि पुनरावृत्तियों का उपयोग करके वर्गों का योग कम से कम किया जाना चाहिए। यह रैखिक और गैर-रैखिक कम से कम वर्गों के बीच अंतर करने वाली कई जटिलताओं का परिचय देता है। नतीजतन, एक अरेखीय विधि का उपयोग करते समय प्रतिगमन विश्लेषण के परिणाम कभी-कभी अप्रत्याशित होते हैं।

    शक्ति और नमूना आकार की गणना

    आमतौर पर मॉडल में व्याख्यात्मक चर की संख्या बनाम टिप्पणियों की संख्या के बारे में यहां कोई सुसंगत तरीके नहीं हैं। पहला नियम डोबरा और हार्डिन द्वारा प्रस्तावित किया गया था और यह N \u003d t ^ n की तरह दिखता है, जहां N नमूना आकार है, n स्वतंत्र चर की संख्या है, और t वांछित मॉडल की सटीकता प्राप्त करने के लिए आवश्यक टिप्पणियों की संख्या है यदि मॉडल था केवल एक स्वतंत्र चर। उदाहरण के लिए, एक शोधकर्ता एक डेटासेट का उपयोग करके एक रैखिक प्रतिगमन मॉडल बनाता है जिसमें 1000 रोगी (एन) होते हैं। यदि शोधकर्ता यह तय करता है कि सीधी रेखा (एम) को सही ढंग से निर्धारित करने के लिए पांच अवलोकनों की आवश्यकता है, तो मॉडल का समर्थन करने वाले स्वतंत्र चर की अधिकतम संख्या 4 है।

    अन्य विधियाँ

    यद्यपि एक प्रतिगमन मॉडल के मापदंडों को आमतौर पर कम से कम वर्गों की विधि का उपयोग करके अनुमान लगाया जाता है, लेकिन अन्य विधियां हैं जो बहुत कम बार उपयोग की जाती हैं। उदाहरण के लिए, ये निम्नलिखित तरीके हैं:

    • बायेसियन तरीके (उदा। बायेसियन रैखिक प्रतिगमन विधि)।
    • प्रतिशत प्रतिगमन, उन स्थितियों के लिए उपयोग किया जाता है जहां प्रतिशत त्रुटियों को कम करना अधिक उपयुक्त माना जाता है।
    • सबसे छोटे निरपेक्ष विचलन, जो कि बाह्यक की उपस्थिति में अधिक मजबूत होते हैं, जो मात्रात्मक प्रतिगमन की ओर ले जाते हैं।
    • बड़ी संख्या में अवलोकनों और गणनाओं की आवश्यकता के लिए गैरपारंपरिक प्रतिगमन।
    • दूरस्थ शिक्षा मीट्रिक, जिसे किसी दिए गए इनपुट स्थान में एक सार्थक दूरी मीट्रिक की खोज में सीखा जाता है।

    सॉफ्टवेयर

    सभी प्रमुख सांख्यिकीय सॉफ्टवेयर पैकेज कम से कम वर्ग प्रतिगमन विश्लेषण का उपयोग करके किए जाते हैं। सरल रैखिक प्रतिगमन और एकाधिक प्रतिगमन विश्लेषण का उपयोग कुछ स्प्रेडशीट अनुप्रयोगों के साथ-साथ कुछ कैलकुलेटर में भी किया जा सकता है। यद्यपि कई सांख्यिकीय सॉफ़्टवेयर पैकेज विभिन्न प्रकार के गैर-समरूप और मजबूत प्रतिगमन प्रदर्शन कर सकते हैं, ये विधियाँ कम मानकीकृत हैं; अलग-अलग सॉफ्टवेयर पैकेज अलग-अलग तरीकों को लागू करते हैं। सर्वेक्षण विश्लेषण और न्यूरोइमेजिंग जैसे क्षेत्रों में उपयोग के लिए विशेष प्रतिगमन सॉफ्टवेयर विकसित किया गया है।

    प्रतिगमन विश्लेषण अध्ययनित विशेषताओं के बीच स्टोकेस्टिक संबंध की विश्लेषणात्मक अभिव्यक्ति की स्थापना के लिए एक विधि है। प्रतिगमन समीकरण दिखाता है कि औसत कैसे बदलता है परजब किसी भी बदल रहा है एक्स मैं , और जैसा दिखता है:

    कहाँ पे y -आश्रित चर (यह हमेशा एक होता है);

    एक्स मैं - स्वतंत्र चर (कारक) (उनमें से कई हो सकते हैं)।

    यदि केवल एक व्याख्यात्मक चर है, तो यह एक सरल प्रतिगमन विश्लेषण है। यदि उनमें से कई हैं ( पी 2), तब इस तरह के विश्लेषण को बहुभिन्नरूपी कहा जाता है।

    प्रतिगमन विश्लेषण दो मुख्य कार्य हल करता है:

      एक प्रतिगमन समीकरण बनाना, अर्थात अंतिम संकेतक और स्वतंत्र कारकों के बीच संबंध के प्रकार का पता लगाना एक्स 1 , एक्स 2 , …, एक्स एन .

      परिणामी समीकरण के महत्व का एक अनुमान, अर्थात्। चयनित कारक विशेषताओं को किस सीमा तक निर्धारित करना विशेषता की भिन्नता को समझाता है पर।

    प्रतिगमन विश्लेषण का उपयोग मुख्य रूप से नियोजन, साथ ही एक नियामक ढांचे के विकास के लिए किया जाता है।

    सहसंबंध विश्लेषण के विपरीत, जो केवल इस सवाल का जवाब देता है कि क्या विश्लेषण सुविधाओं के बीच संबंध है, प्रतिगमन विश्लेषण भी इसकी औपचारिक अभिव्यक्ति देता है। इसके अलावा, यदि सहसंबंध विश्लेषण कारकों के किसी भी परस्पर संबंध का अध्ययन करता है, तो प्रतिगमन विश्लेषण एक तरफा निर्भरता का अध्ययन करता है, अर्थात। कारक संकेतों में परिवर्तन कैसे प्रभावी संकेत को प्रभावित करता है, यह दिखाने वाला कनेक्शन।

    प्रतिगमन विश्लेषण गणितीय आँकड़ों के सबसे विकसित तरीकों में से एक है। रिग्रेशन विश्लेषण को लागू करने के लिए, विशेष रूप से कई आवश्यकताओं को पूरा करना आवश्यक है (विशेष रूप से,) एक्स एल , एक्स 2 , ..., एक्स एन ;स्वतंत्र होना चाहिए, आम तौर पर निरंतर चर के साथ यादृच्छिक चर वितरित)। वास्तविक जीवन में, प्रतिगमन और सहसंबंध विश्लेषण की आवश्यकताओं के साथ सख्त अनुपालन बहुत दुर्लभ है, लेकिन आर्थिक अनुसंधान में ये दोनों तरीके काफी सामान्य हैं। अर्थव्यवस्था में निर्भरताएं न केवल प्रत्यक्ष हो सकती हैं, बल्कि उलटा और नॉनलाइन भी हो सकती हैं। एक प्रतिगमन मॉडल किसी भी निर्भरता की उपस्थिति में बनाया जा सकता है, हालांकि, बहुभिन्नरूपी विश्लेषण में, केवल फार्म के रैखिक मॉडल निम्न हैं:

    प्रतिगमन समीकरण का निर्माण, एक नियम के रूप में किया जाता है, कम से कम वर्ग विधि द्वारा, जिसका सार इसके गणना मूल्यों से परिणामी विशेषता के वास्तविक मूल्यों के विचलन के योग को कम करना है, अर्थात्:

    कहाँ पे टी -टिप्पणियों की संख्या;

    जे = ए + बी 1 एक्स 1 जे + बी 2 एक्स 2 जे + ... + बी एन एक्स एन जे - परिणामी कारक का परिकलित मान।

    एक व्यक्तिगत कंप्यूटर या एक विशेष वित्तीय कैलकुलेटर के लिए विश्लेषणात्मक पैकेज का उपयोग करके प्रतिगमन गुणांक निर्धारित करने की सिफारिश की जाती है। सबसे सरल मामले में, फॉर्म के एक-तरफ़ा रैखिक प्रतिगमन समीकरण के प्रतिगमन गुणांक y \u003d ए + बीएक्ससूत्र द्वारा पाया जा सकता है:

    समूह विश्लेषण

    क्लस्टर विश्लेषण एक बहुभिन्नरूपी विश्लेषण विधियों में से एक है जिसे जनसंख्या को समूहीकृत करने (क्लस्टरिंग) के लिए डिज़ाइन किया गया है, जिसके तत्व कई विशेषताओं की विशेषता है। प्रत्येक सुविधाओं के मूल्य सुविधाओं के बहुआयामी स्थान में अध्ययन की गई आबादी की प्रत्येक इकाई के निर्देशांक के रूप में कार्य करते हैं। प्रत्येक संकेतक, जिसमें कई संकेतकों के मूल्यों की विशेषता होती है, को इन संकेतकों के स्थान में एक बिंदु के रूप में दर्शाया जा सकता है, जिनमें से मानों को एक बहुआयामी स्थान में निर्देशांक माना जाता है। अंकों के बीच की दूरी आरतथा क्यूसे निर्देशांक को इस प्रकार परिभाषित किया गया है:

    क्लस्टरिंग के लिए मुख्य मानदंड यह है कि क्लस्टर के बीच अंतर एक ही क्लस्टर में निर्दिष्ट टिप्पणियों के बीच से अधिक महत्वपूर्ण होना चाहिए, अर्थात्। एक बहुआयामी स्थान में, असमानता देखी जानी चाहिए:

    कहाँ पे आर 1, 2 - समूहों 1 और 2 के बीच की दूरी।

    प्रतिगमन विश्लेषण प्रक्रियाओं की तरह, क्लस्टरिंग प्रक्रिया बल्कि श्रमसाध्य है, इसे कंप्यूटर पर प्रदर्शन करने की सलाह दी जाती है।