Vstúpiť
Portál logopédie
  • Kde žili atentátnici. Existujú vrahovia? Atentátnik - kto je to? Krátky exkurz do histórie
  • Cedar Rapids - Nachádza sa v Iowe. Ako sa vysporiadať s úpalom, ak ste popálení
  • Muži v ženskom odeve - ukázali, ako sa vojaci bavili počas druhej svetovej vojny Ako sa vojaci bavili počas druhej svetovej vojny
  • Klady a zápory vysokej sebaúcty
  • Organokremičitá forma života
  • Čo môžete vidieť cez ďalekohľad?
  • Pre ktoré stupnice sa použije regresná analýza. Regresná rovnica. Viacnásobná regresná rovnica. Úloha s využitím lineárnej regresnej rovnice

    Pre ktoré stupnice sa použije regresná analýza. Regresná rovnica. Viacnásobná regresná rovnica. Úloha s využitím lineárnej regresnej rovnice

    Regresná a korelačná analýza - metódy štatistického výskumu. Toto sú najbežnejšie spôsoby, ako zobraziť závislosť parametra od jednej alebo viacerých nezávislých premenných.

    Ďalej pomocou konkrétnych praktických príkladov zvážime tieto dve analýzy, ktoré sú medzi ekonómami veľmi populárne. A tiež uvedieme príklad získavania výsledkov pri ich kombinovaní.

    Regresná analýza v programe Excel

    Ukazuje vplyv niektorých hodnôt (nezávislé, nezávislé) na závislú premennú. Napríklad to, ako počet ekonomicky aktívneho obyvateľstva závisí od počtu podnikov, výšky miezd a ďalších parametrov. Alebo: ako ovplyvňujú úroveň HDP zahraničné investície, ceny energií atď.

    Výsledok analýzy vám umožňuje určiť priority. A na základe hlavných faktorov predpovedať, plánovať rozvoj prioritných oblastí, robiť rozhodnutia manažmentu.

    Regresia nastáva:

    • lineárne (y \u003d a + bx);
    • parabolický (y \u003d a + bx + cx 2);
    • exponenciálny (y \u003d a * exp (bx));
    • moc (y \u003d a * x ^ b);
    • hyperbolické (y \u003d b / x + a);
    • logaritmická (y \u003d b * 1n (x) + a);
    • exponenciálny (y \u003d a * b ^ x).

    Pozrime sa na príklad zostavenia regresného modelu v programe Excel a interpretácie výsledkov. Zoberme si typ lineárnej regresie.

    Úloha. Priemerný mesačný plat a počet odchádzajúcich zamestnancov boli analyzované v 6 podnikoch. Je potrebné určiť závislosť počtu zamestnancov, ktorí skončili od priemerného platu.

    Lineárny regresný model je nasledovný:

    Y \u003d a 0 + a 1 x 1 + ... + a k x k.

    Kde a - regresné koeficienty, x - ovplyvňujúce premenné, k - počet faktorov.

    V našom príklade je Y indikátorom zamestnancov, ktorí skončili. Ovplyvňujúcim faktorom sú mzdy (x).

    Excel má vstavané funkcie, ktoré môžete použiť na výpočet parametrov modelu lineárnej regresie. Doplnok Analysis Package to však zvládne rýchlejšie.

    Aktivujeme výkonný analytický nástroj:

    Po aktivácii bude doplnok k dispozícii na karte Údaje.

    Poďme teraz priamo k regresnej analýze.



    Najskôr venujte pozornosť štvorcu R a koeficientom.

    R-kvadrát je koeficient determinácie. V našom príklade 0,755 alebo 75,5%. To znamená, že vypočítané parametre modelu vysvetľujú vzťah medzi študovanými parametrami o 75,5%. Čím vyšší je koeficient determinácie, tým lepší je model. Dobré - nad 0,8. Zlé - menej ako 0,5 (takúto analýzu možno len ťažko považovať za primeranú). V našom príklade - „nie zlé“.

    Koeficient 64,1428 ukazuje, aké bude Y, ak sa všetky premenné v uvažovanom modeli budú rovnať 0. To znamená, že na hodnotu analyzovaného parametra majú vplyv aj ďalšie faktory, ktoré nie sú v modeli popísané.

    Koeficient -0,16285 udáva váhu premennej X na Y. To znamená, že priemerný mesačný plat v rámci tohto modelu ovplyvňuje počet ľudí odchádzajúcich s váhou -0,16285 (to je malá miera vplyvu). Znak „-“ označuje negatívny vplyv: čím vyšší plat, tým menej ľudí odchádza. Čo je spravodlivé.

    

    Korelačná analýza v programe Excel

    Korelačná analýza pomáha zistiť, či existuje vzťah medzi indikátormi v jednej alebo dvoch vzorkách. Napríklad medzi prevádzkovou dobou stroja a nákladmi na opravy, cenou zariadenia a dobou prevádzky, výškou a hmotnosťou detí atď.

    Ak existuje vzťah, vedie zvýšenie jedného parametra k zvýšeniu (pozitívna korelácia) alebo k zníženiu (negatívny) v druhom? Korelačná analýza pomáha analytikovi určiť, či hodnota jedného indikátora dokáže predpovedať možnú hodnotu druhého.

    Korelačný koeficient sa označuje r. Líši sa od +1 do -1. Klasifikácia korelácií pre rôzne oblasti sa bude líšiť. Ak je koeficient 0, nie je medzi vzorkami lineárny vzťah.

    Poďme sa pozrieť na to, ako používať nástroje programu Excel na nájdenie korelačného koeficientu.

    Na vyhľadanie párových koeficientov sa používa funkcia CORREL.

    Úloha: Zistite, či existuje vzťah medzi prevádzkovou dobou sústruhu a nákladmi na jeho údržbu.

    Dáme kurzor do ľubovoľnej bunky a stlačíme tlačidlo fx.

    1. V kategórii „Štatistické“ vyberte funkciu CORREL.
    2. Argument "Pole 1" - prvý rozsah hodnôt - doba prevádzky stroja: A2: A14.
    3. Argument 2 - druhý rozsah hodnôt - náklady na opravu: B2: B14. Kliknite na tlačidlo OK.

    Ak chcete určiť typ pripojenia, musíte sa pozrieť na absolútne číslo koeficientu (pre každé pole činnosti existuje vlastná stupnica).

    Pre korelačnú analýzu viacerých parametrov (viac ako 2) je pohodlnejšie použiť analýzu údajov (doplnok Analysis Package). V zozname musíte zvoliť koreláciu a určiť pole. Všetko.

    Získané koeficienty sa zobrazia v korelačnej matici. Niečo také:

    Korelačno-regresná analýza

    V praxi sa tieto dve techniky často používajú spoločne.

    Príklad:


    Teraz sú viditeľné aj regresné údaje.

    Počas štúdia sa študenti veľmi často stretávajú s rôznymi rovnicami. O jednom z nich - regresnej rovnici - pojednáva tento článok. Tento typ rovnice sa používa osobitne na opis charakteristík vzťahu medzi matematickými parametrami. Tento typ rovnosti sa používa v štatistike a ekonometrii.

    Definovanie regresie

    V matematike sa regresia týka veličiny, ktorá popisuje závislosť priemernej hodnoty súboru údajov od hodnôt inej veličiny. Regresná rovnica ukazuje ako funkciu konkrétneho znaku priemer iného znaku. Regresná funkcia má formu jednoduchej rovnice y \u003d x, v ktorej y je závislá premenná a x je nezávislá (faktor vlastnosti). V skutočnosti je regresia vyjadrená ako y \u003d f (x).

    Aké sú typy vzťahov medzi premennými

    Všeobecne existujú dva opačné typy vzťahov: korelácia a regresia.

    Prvý je charakterizovaný rovnosťou podmienených premenných. V takom prípade nie je isté, ktorá premenná závisí od druhej.

    Ak neexistuje rovnosť medzi premennými a podmienkami, ktoré hovoria, ktorá premenná je vysvetľujúca a ktorá je závislá, potom môžeme hovoriť o prítomnosti vzťahu druhého typu. Na zostavenie lineárnej regresnej rovnice bude potrebné zistiť, aký typ vzťahu sa pozoruje.

    Typy regresie

    Dnes existuje 7 rôznych typov regresie: hyperbolická, lineárna, viacnásobná, nelineárna, párová, inverzná, logaritmicky lineárna.

    Hyperbolické, lineárne a logaritmické

    Rovnica lineárnej regresie sa v štatistike používa na jasné vysvetlenie parametrov rovnice. Vyzerá to ako y \u003d c + m * x + E. Hyperbolická rovnica má formu pravidelnej hyperboly y \u003d c + m / x + E. Logaritmicky lineárna rovnica vyjadruje vzťah pomocou logaritmickej funkcie: In y \u003d In c + m * In x + In E.

    Viacnásobné a nelineárne

    Dva zložitejšie typy regresie sú viacnásobné a nelineárne. Rovnica násobnej regresie je vyjadrená funkciou y \u003d f (x 1, x 2 ... x c) + E. V tejto situácii je y závislá premenná a x vysvetľujúca. Premenná E je stochastická a zahŕňa do rovnice vplyv ďalších faktorov. Nelineárna regresná rovnica je trochu kontroverzná. Na jednej strane to nie je lineárne, pokiaľ ide o zohľadnené ukazovatele, ale na druhej strane je to v roli hodnotiacich ukazovateľov lineárne.

    Inverzné a spárované regresie

    Inverzná je druh funkcie, ktorú je potrebné previesť na lineárnu. V najtradičnejších aplikáciách má formu funkcie y \u003d 1 / c + m * x + E. Spárovaná regresná rovnica demonštruje vzťah medzi údajmi ako funkcia y \u003d f (x) + E. Rovnako ako v iných rovniciach, y závisí od x a E je stochastický parameter.

    Korelačná koncepcia

    Toto je ukazovateľ, ktorý demonštruje existenciu vzťahu medzi dvoma javmi alebo procesmi. Sila vzťahu je vyjadrená ako korelačný koeficient. Jeho hodnota kolíše v intervale [-1; +1]. Negatívny indikátor označuje prítomnosť spätnej väzby, pozitívny indikátor označuje priamu. Ak má koeficient hodnotu rovnú 0, potom neexistuje žiadny vzťah. Čím je hodnota bližšie k 1 - tým silnejší je vzťah medzi parametrami, tým bližšie k 0 - tým slabší.

    Metódy

    Korelačné parametrické metódy môžu posúdiť blízkosť vzťahu. Používajú sa na základe odhadu distribúcie na štúdium parametrov, ktoré sa riadia normálnym zákonom o distribúcii.

    Parametre lineárnej regresnej rovnice sú potrebné na identifikáciu typu závislosti, funkcie regresnej rovnice a na vyhodnotenie ukazovateľov vybraného vzťahového vzorca. Korelačné pole sa používa ako metóda identifikácie spojenia. Za týmto účelom musia byť všetky existujúce údaje zobrazené graficky. V obdĺžnikovom dvojrozmernom súradnicovom systéme musia byť zakreslené všetky známe údaje. Takto sa utvára korelačné pole. Hodnota popisujúceho faktora je vyznačená pozdĺž úsečky, zatiaľ čo hodnoty závislého faktora sú vyznačené pozdĺž súradnice. Ak existuje funkčný vzťah medzi parametrami, sú usporiadané vo forme čiary.

    Ak je korelačný koeficient takýchto údajov menší ako 30%, môžeme hovoriť o takmer úplnej absencii komunikácie. Ak je medzi 30% a 70%, znamená to prítomnosť odkazov priemernej hustoty. 100% indikátor je dôkazom funkčného spojenia.

    Nelineárnu regresnú rovnicu, podobne ako lineárnu, treba doplniť korelačným indexom (R).

    Korelácia pre viacnásobnú regresiu

    Koeficient determinácie je mierou druhej mocniny viacnásobnej korelácie. Hovorí o tesnosti vzťahu prezentovaného komplexu ukazovateľov k študovanej vlastnosti. Môže tiež hovoriť o povahe vplyvu parametrov na výsledok. Pomocou tohto ukazovateľa sa odhaduje rovnica viacnásobnej regresie.

    Na výpočet indexu viacnásobnej korelácie je potrebné vypočítať jeho index.

    Metóda najmenších štvorcov

    Táto metóda predstavuje spôsob odhadu regresných faktorov. Jeho podstata spočíva v minimalizácii súčtu odchýlok vo štvorci, získaných v dôsledku závislosti faktora od funkcie.

    Pomocou tejto metódy je možné odhadnúť párovú rovnicu lineárnej regresie. Tento typ rovníc sa používa v prípade detekcie medzi indikátormi párového lineárneho vzťahu.

    Parametre rovnice

    Každý parameter funkcie lineárnej regresie má konkrétny význam. Spárovaná rovnica lineárnej regresie obsahuje dva parametre: c a m. Parameter m demonštruje priemernú zmenu v konečnom ukazovateli funkcie y za predpokladu, že premenná x klesá (rastie) o jednu konvenčnú jednotku. Ak je premenná x nula, potom sa funkcia rovná parametru c. Ak premenná x nie je nula, potom nemá faktor c žiadny ekonomický význam. Jediný vplyv na funkciu je znamienko pred faktorom c. Ak je mínus, potom môžeme povedať o oneskorenej zmene výsledku v porovnaní s faktorom. Ak je plus, potom to znamená zrýchlenú zmenu výsledku.

    Každý parameter, ktorý mení hodnotu regresnej rovnice, je možné vyjadriť pomocou rovnice. Napríklad faktor c má tvar c \u003d y - tx.

    Zoskupené údaje

    Existujú podmienky problému, v ktorých sú všetky informácie zoskupené podľa atribútu x, ale súčasne sú pre určitú skupinu uvedené zodpovedajúce priemerné hodnoty závislého ukazovateľa. V takom prípade priemerné hodnoty charakterizujú, ako sa indikátor zmení v závislosti od x. Zoskupené informácie teda pomáhajú nájsť regresnú rovnicu. Používa sa ako analýza vzťahov. Táto metóda má však svoje nevýhody. Priemery bohužiaľ často podliehajú vonkajším výkyvom. Tieto výkyvy nie sú odrazom pravidelnosti vzťahu, iba maskujú jeho „šum“. Priemery ukazujú vzťahové vzorce oveľa horšie ako lineárna regresná rovnica. Môžu sa však použiť ako základ pre hľadanie rovnice. Vynásobením veľkosti jednotlivej populácie zodpovedajúcim priemerom môžete získať súčet y v skupine. Ďalej musíte vyradiť všetky prijaté sumy a nájsť konečný ukazovateľ y. O niečo ťažšie je robiť výpočty s indikátorom sumy xy. V prípade, že sú intervaly malé, môžete index x pre všetky jednotky (v skupine) brať rovnako. Vynásobte ju súčtom y, aby ste našli súčet súčinov x a y. Ďalej sa všetky množstvá zrazia dohromady a získa sa celkové množstvo xy.

    Multiple Pairwise Regression Equation: Assessing the Importance of a Link

    Ako už bolo uvedené, viacnásobná regresia má funkciu tvaru y \u003d f (x 1, x 2,…, x m) + E. Najčastejšie sa takáto rovnica používa na riešenie problému ponuky a dopytu po produkte, úrokových výnosov z odkúpených akcií a na štúdium dôvodov a typu funkcie výrobných nákladov. Aktívne sa používa aj v najrôznejších makroekonomických štúdiách a výpočtoch, ale na mikroekonomickej úrovni sa táto rovnica používa o niečo menej často.

    Hlavnou úlohou viacnásobnej regresie je zostaviť dátový model obsahujúci obrovské množstvo informácií, aby sa dalo ďalej určiť, aký vplyv má každý z faktorov jednotlivo a celkovo ako celok na ukazovateľ, ktorý je potrebné modelovať, a na jeho koeficienty. Regresná rovnica môže nadobúdať širokú škálu hodnôt. Zároveň sa na hodnotenie vzťahu zvyčajne používajú dva typy funkcií: lineárne a nelineárne.

    Lineárna funkcia je zobrazená vo forme takéhoto vzťahu: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. V tomto prípade sa a2, a m, považujú za koeficienty „čistej“ regresie. Je potrebné charakterizovať priemernú zmenu parametra y so zmenou (znížením alebo zvýšením) každého zodpovedajúceho parametra x o jednu jednotku, s podmienkou stabilnej hodnoty ostatných ukazovateľov.

    Nelineárne rovnice majú napríklad tvar výkonovej funkcie y \u003d os 1 b1 x 2 b2 ... x m bm. V tomto prípade sa ukazovatele b 1, b 2 ..... bm - nazývajú koeficienty pružnosti, ukazujú, ako sa zmení výsledok (o koľko%) so zvýšením (znížením) príslušného ukazovateľa x o 1% a so stabilným indikátorom ďalších faktorov.

    Aké faktory je potrebné vziať do úvahy pri konštrukcii viacnásobnej regresie

    Aby bolo možné správne zostaviť viacnásobnú regresiu, je potrebné zistiť, ktorým faktorom je potrebné venovať osobitnú pozornosť.

    Je potrebné mať určité znalosti o povahe vzťahu medzi ekonomickými faktormi a modelovanými. Faktory, ktoré bude potrebné zahrnúť, musia spĺňať nasledujúce kritériá:

    • Musí byť vyčísliteľné. Aby bolo možné použiť faktor popisujúci kvalitu objektu, mal by sa v každom prípade vyčísliť.
    • Nemalo by dochádzať k vzájomnej korelácii faktorov alebo funkčných vzťahov. Takéto kroky najčastejšie vedú k nezvratným následkom - systém bežných rovníc sa stáva nepodmieneným, čo má za následok jeho nespoľahlivosť a nejasné odhady.
    • Ak existuje obrovský korelačný index, neexistuje spôsob, ako zistiť izolovaný vplyv faktorov na konečný výsledok ukazovateľa, a preto sa koeficienty stanú neinterpretovateľnými.

    Konštrukčné metódy

    Existuje nespočetné množstvo metód a techník, ktoré vysvetľujú, ako môžete zvoliť faktory pre rovnicu. Všetky tieto metódy sú však založené na výbere koeficientov pomocou korelačného ukazovateľa. Medzi ne patria:

    • Metóda vylúčenia.
    • Spôsob začlenenia.
    • Regresná analýza krok za krokom.

    Prvá metóda spočíva v odfiltrovaní všetkých koeficientov z agregovanej množiny. Druhá metóda spočíva v zavedení mnohých ďalších faktorov. Treťou je eliminácia faktorov, ktoré sa predtým vzťahovali na rovnicu. Každá z týchto metód má právo na existenciu. Majú svoje klady a zápory, ale všetci môžu vyriešiť otázku eliminácie nepotrebných ukazovateľov po svojom. Spravidla sú výsledky získané každou jednotlivou metódou pomerne blízke.

    Metódy viacrozmernej analýzy

    Takéto metódy určovania faktorov sú založené na zvažovaní jednotlivých kombinácií vzájomne súvisiacich znakov. Patria sem diskriminačná analýza, rozpoznávanie tvarov, analýza hlavných komponentov a klastrová analýza. Okrem toho existuje aj faktorová analýza, ktorá sa však objavila v dôsledku vývoja metódy komponentov. Všetky z nich platia za určitých okolností, za určitých podmienok a za určitých okolností.

    Účelom regresnej analýzy je merať vzťah medzi závislou premennou a jednou (párová regresná analýza) alebo viacerými (viacerými) nezávislými premennými. Vysvetľujúce premenné sa tiež nazývajú faktoriál, vysvetľujúce, determinatívne, regresory a prediktory.

    Závislá premenná sa niekedy nazýva určiteľná, vysvetliteľná „odpoveď“. Extrémne rozšírené použitie regresnej analýzy v empirickom výskume nie je spôsobené iba skutočnosťou, že je vhodným nástrojom na testovanie hypotéz. Regresia, najmä viacnásobná regresia, je efektívna technika modelovania a predpovedania.

    Aby sme vysvetlili princípy práce s regresnou analýzou, začíname s jednoduchšou - párovou metódou.

    Párová regresná analýza

    Prvé kroky pri použití regresnej analýzy budú takmer identické s tými, ktoré sme podnikli pri výpočte korelačného koeficientu. Pre viacnásobnú regresiu sú relevantné aj tri hlavné podmienky účinnosti korelačnej analýzy podľa Pearsonovej metódy - normálne rozdelenie premenných, intervalové meranie premenných, lineárny vzťah medzi premennými. V súlade s tým sa v prvej fáze zostavia bodové diagramy, vykoná sa štatisticky deskriptívna analýza premenných a vypočíta sa regresná priamka. Rovnako ako v prípade korelačnej analýzy sú regresné čiary konštruované pomocou metódy najmenších štvorcov.

    Aby sme jasnejšie ilustrovali rozdiely medzi týmito dvoma metódami analýzy údajov, obráťme sa na už uvažovaný príklad s premennými „podpora PCA“ a „podiel vidieckeho obyvateľstva“. Pôvodné údaje sú totožné. Rozdiel v bodových grafoch bude v tom, že pri regresnej analýze je správne odložiť závislú premennú - v našom prípade „podporu PCA“ pozdĺž osi Y, zatiaľ čo pri korelačnej analýze to nevadí. Po vyčistení odľahlých hodnôt diagram rozptylu vyzerá takto:

    Základnou myšlienkou regresnej analýzy je, že pri všeobecnej tendencii k premenným - vo forme regresnej priamky - je možné predpovedať hodnotu závislej premennej, ktorá má hodnoty nezávislej.

    Predstavme zvyčajnú matematickú lineárnu funkciu. Akákoľvek priamka v euklidovskom priestore môže byť opísaná vzorcom:

    kde a je konštanta určujúca posunutie pozdĺž súradnice; b - koeficient, ktorý určuje uhol sklonu priamky.

    Ak poznáte sklon a konštantu, môžete vypočítať (predpovedať) hodnotu y pre ľubovoľné x.

    Táto najjednoduchšia funkcia tvorila základ modelu regresnej analýzy s tým, že hodnotu y nebudeme predpovedať presne, ale v rámci určitého intervalu spoľahlivosti, t. o.

    Konštanta je priesečník regresnej priamky a súradnice (priesečník F, v štatistických balíkoch obvykle označovaný ako „interceptor“). V našom príklade s hlasovaním za PCA bude jeho zaokrúhlená hodnota 10,55. Sklon b bude približne -0,1 (rovnako ako v korelačnej analýze, znamienko označuje typ vzťahu - priamy alebo opačný). Výsledný model teda bude mať tvar SP C \u003d -0,1 x Sel. nás. + 10,55.

    Pre prípad „Adygejskej republiky“ s podielom vidieckeho obyvateľstva na úrovni 47% bude predpokladaná hodnota 5,63:

    ATP \u003d -0,10 x 47 + 10,55 \u003d 5,63.

    Rozdiel medzi počiatočnou a predpokladanou hodnotou sa nazýva zvyšok (s týmto pojmom, ktorý je pre štatistiku zásadný, sme sa už stretli pri analýze pohotovostných tabuliek). Takže v prípade „republiky Adygea“ bude zvyšok 3,92 - 5,63 \u003d -1,71. Čím väčšia je modulárna hodnota zvyšku, tým menej dobre sa predpovedá hodnota.

    Vypočítame predpokladané hodnoty a zvyšky pre všetky prípady:
    Stáva sa Sadol si. nás. Vďaka

    (originál)

    Vďaka

    (predpokladané)

    Zvyšky
    Adygejská republika 47 3,92 5,63 -1,71 -
    Altajská republika 76 5,4 2,59 2,81
    Bashkortostanská republika 36 6,04 6,78 -0,74
    Burjatská republika 41 8,36 6,25 2,11
    Dagestanská republika 59 1,22 4,37 -3,15
    Ingušská republika 59 0,38 4,37 3,99
    Atď.

    Analýza pomeru počiatočných a predpokladaných hodnôt slúži na posúdenie kvality výsledného modelu a jeho prediktívnych schopností. Jedným z hlavných ukazovateľov regresnej štatistiky je viacnásobný korelačný koeficient R, ktorý je korelačným koeficientom medzi pôvodnou a predikovanou hodnotou závislej premennej. V párovej regresnej analýze sa rovná Pearsonovmu obvyklému korelačnému koeficientu medzi závislou a nezávislou premennou, v našom prípade 0,63. Aby sa mohla násobná R zmysluplne interpretovať, musí sa transformovať do koeficientu determinácie. To sa deje rovnakým spôsobom ako pri korelačnej analýze - štvorčekmi. Koeficient determinácie R - štvorec (R2) ukazuje podiel variácií v závislej premennej vysvetlený nezávislými (nezávislými) premennými.

    V našom prípade R2 \u003d 0,39 (0,63 2); To znamená, že premenná „podiel na vidieku“ vysvetľuje asi 40% variácie v premennej „podpora CPS“. Čím vyššia je hodnota rozhodovacieho koeficientu, tým vyššia je kvalita modelu.

    Ďalším meradlom kvality modelu je štandardná chyba odhadu. Je to miera toho, ako veľmi sú body „rozptýlené“ okolo regresnej čiary. Štandardná odchýlka je mierou disperzie pre intervalové premenné. V súlade s tým je štandardnou chybou odhadu štandardná odchýlka rozloženia zvyškov. Čím vyššia je jeho hodnota, tým väčšie je rozpätie a tým horší je model. V našom prípade je štandardná chyba 2,18. Práve touto hodnotou sa náš model v priemere „pomýli“ pri predpovedaní hodnoty premennej „SPS support“.

    Štatistika regresie zahŕňa aj analýzu odchýlky. S jeho pomocou zisťujeme: 1) aký podiel variácie (odchýlky) závislej premennej vysvetľuje nezávislá premenná; 2) aký podiel rozptylu závislej premennej pripadá na zvyšky (nevysvetliteľná časť); 3) aký je pomer týchto dvoch veličín (/ "- pomer). Štatistika disperzie je obzvlášť dôležitá pre výberové štúdie - ukazuje, aká je pravdepodobnosť, že existuje vzťah medzi nezávislými a závislými premennými v bežnej populácii. Avšak pre kontinuálne štúdie (ako v našom príklade), štúdia V tomto prípade sa kontroluje, či je odhalená štatistická pravidelnosť spôsobená zhodou náhodných okolností, aká je typická pre súbor podmienok, v ktorých sa študovaná populácia nachádza, t. agregát a miera jeho pravidelnosti, nezávislosť od náhodných vplyvov.

    V našom prípade sú štatistiky ANOVA nasledovné:

    SS df PANI F hodnotu
    Regres. 258,77 1,00 258,77 54,29 0.000000001
    Zvyšok. 395,59 83,00 L, 11
    Celkom 654,36

    Pomer F 54,29 je významný pri 0,0000000001. Podľa toho môžeme s istotou odmietnuť nulovú hypotézu (že vzťah, ktorý sme objavili, je náhodný).

    Podobnú funkciu plní kritérium t, ale vo vzťahu k regresným koeficientom (uhlový a F-priesečník). Pomocou kritéria / otestujeme hypotézu, že regresné koeficienty v bežnej populácii sa rovnajú nule. V našom prípade môžeme opäť sebavedome odmietnuť nulovú hypotézu.

    Viacnásobná regresná analýza

    Viacnásobný regresný model je takmer identický s párovým regresným modelom; jediný rozdiel je v tom, že do lineárnej funkcie je postupne zahrnutých niekoľko nezávislých premenných:

    Y \u003d b1X1 + b2X2 + ... + bpXp + a.

    Ak existujú viac ako dve nezávislé premenné, nemáme možnosť získať vizuálnu predstavu o ich vzťahu; v tomto ohľade je viacnásobná regresia menej „jasná“ ako regresia párov. Ak existujú dve nezávislé premenné, môže byť užitočné zobraziť údaje v 3D rozptylovom grafe. V profesionálnych štatistických softvérových balíkoch (napríklad Statisticа) existuje možnosť otáčania trojrozmerného diagramu, ktorý umožňuje dobrú vizuálnu reprezentáciu dátovej štruktúry.

    Pri práci s viacnásobnou regresiou je na rozdiel od párovej regresie potrebné definovať analytický algoritmus. Štandardný algoritmus obsahuje všetky dostupné prediktory v konečnom regresnom modeli. Krokový krokový algoritmus predpokladá postupné zahrnutie (vylúčenie) nezávislých premenných na základe ich vysvetľujúcej „váhy“. Kroková metóda je dobrá, ak existuje veľa nezávislých premenných; „čistí“ model úprimne slabých prediktorov, čím sa stáva kompaktnejším a lakonickejším.

    Ďalšou podmienkou správnosti mnohonásobnej regresie (spolu s intervalom, normálnosťou a linearitou) je absencia multicolinearity - prítomnosť silných korelácií medzi nezávislými premennými.

    Interpretácia štatistík viacnásobnej regresie obsahuje všetky prvky, ktoré sme brali do úvahy v prípade párovej regresie. Okrem toho existujú ďalšie dôležité komponenty štatistík viacerých regresií.

    Prácu si ukážeme na viacnásobnej regresii na príklade testovania hypotéz vysvetľujúcich rozdiely v úrovni volebných aktivít v regiónoch Ruska. Konkrétne empirické štúdie naznačujú, že účasť voličov je ovplyvnená:

    Národný faktor (premenná „ruská populácia“; operacionalizovaný ako podiel ruského obyvateľstva v základných jednotkách Ruskej federácie). Predpokladá sa, že zvýšenie podielu ruského obyvateľstva vedie k zníženiu volebnej účasti;

    Faktor urbanizácie (premenná „mestské obyvateľstvo“; operacionalizovaný ako podiel mestského obyvateľstva v základných zložkách Ruskej federácie, s týmto faktorom sme už pracovali v rámci korelačnej analýzy). Predpokladá sa, že zvýšenie podielu mestského obyvateľstva vedie aj k zníženiu volebnej účasti.

    Závislá premenná - „intenzita volebnej činnosti“ („majetok“) sa prevádzkuje prostredníctvom spriemerovaných údajov o volebnej účasti podľa krajov vo federálnych voľbách od roku 1995 do roku 2003. Tabuľka počiatočných údajov pre dve nezávislé a jednu závislú premennú bude mať nasledujúci formulár:

    Stáva sa Premenné
    Aktíva. Hory. nás. Rus. nás.
    Adygejská republika 64,92 53 68
    Altajská republika 68,60 24 60
    Burjatská republika 60,75 59 70
    Dagestanská republika 79,92 41 9
    Ingušská republika 75,05 41 23
    Republiky Kalmykia 68,52 39 37
    Karachay-Cherkessova republika 66,68 44 42
    Karelská republika 61,70 73 73
    Komi republika 59,60 74 57
    Marijská republika 65,19 62 47

    Atď. (po vyčistení emisií zostáva 83 prípadov z 88)

    Štatistiky popisujúce kvalitu modelu:

    1. Násobok R \u003d 0,62; L štvorec \u003d 0,38. Národný faktor a urbanizačný faktor preto spoločne vysvetľujú asi 38% variácií premennej „volebná činnosť“.

    2. Priemerná chyba je 3,38. Takto je „v priemere“ zostavený model nesprávny pri predpovedaní úrovne účasti.

    Pomer 3. / l vysvetlenej a nevysvetlenej zmeny je 25,2 na úrovni 0,000000003. Nulová hypotéza o náhodnosti identifikovaných odkazov je odmietnutá.

    4. Kritérium / pre konštantné a regresné koeficienty premenných „mestské obyvateľstvo“ a „ruské obyvateľstvo“ je významné na úrovni 0,0000001; 0,00005, respektíve 0,007. Nulová hypotéza náhodnosti koeficientov je odmietnutá.

    Ďalšou užitočnou štatistikou pri analýze vzťahu medzi pôvodnými a predpovedanými hodnotami závislej premennej sú Mahalanobisova vzdialenosť a Cookova vzdialenosť. Prvý z nich je mierou jedinečnosti prípadu (ukazuje, ako veľmi sa kombinácia hodnôt všetkých nezávislých premenných pre daný prípad líši od priemeru všetkých nezávislých premenných súčasne). Druhým je miera dopadu udalosti. Rôzne pozorovania majú rôzny vplyv na sklon regresnej priamky a na ich porovnanie je možné pre tento indikátor použiť Cookovu vzdialenosť. To môže byť užitočné pri čistení odľahlých hodnôt (odľahlú hodnotu možno považovať za príliš vplyvný prípad).

    V našom príklade je Dagestan jedným z jedinečných a vplyvných prípadov.

    Stáva sa Pôvodné

    význam

    Predsca

    význam

    Zvyšky Vzdialenosť

    Mahalanobis

    Vzdialenosť
    Adygea 64,92 66,33 -1,40 0,69 0,00
    Altajská republika 68,60 69.91 -1,31 6,80 0,01
    Burjatská republika 60,75 65,56 -4,81 0,23 0,01
    Dagestanská republika 79,92 71,01 8,91 10,57 0,44
    Ingušská republika 75,05 70,21 4,84 6,73 0,08
    Republiky Kalmykia 68,52 69,59 -1,07 4,20 0,00

    Samotný regresný model má nasledujúce parametre: Priesečník Y (konštanta) \u003d 75,99; B (hor. Sob.) \u003d -0,1; B (Rus. USA) \u003d -0,06. Konečný vzorec:

    Aktívny, \u003d -0,1 x Horus. sat n + - 0,06 x Rus. sat n + 75,99.

    Môžeme porovnať „vysvetľujúcu silu“ prediktorov na základe hodnoty koeficientu 61. V tomto prípade áno, pretože obe vysvetľujúce premenné majú rovnaký percentuálny formát. Najčastejšie sa však viacnásobná regresia zaoberá premennými meranými na rôznych škálach (napríklad úroveň príjmu v rubľoch a vek v rokoch). Preto je vo všeobecnom prípade nesprávne porovnávať prediktívne schopnosti premenných pomocou regresného koeficientu. V štatistikách viacnásobnej regresie existuje na tento účel špeciálny koeficient beta (B), ktorý sa počíta osobitne pre každú nezávislú premennú. Je to súkromný (vypočítaný po zohľadnení vplyvu všetkých ostatných prediktorov) korelačný koeficient faktora a odozvy a ukazuje nezávislý príspevok faktora k predikcii hodnôt odozvy. V párovej regresnej analýze je beta koeficient pochopiteľne rovný párovému korelačnému koeficientu medzi závislou a nezávislou premennou.

    V našom príklade beta (Hor. N.) \u003d -0,43, beta (Rus. N.) \u003d -0,28. Oba faktory teda negatívne ovplyvňujú úroveň volebnej činnosti, zatiaľ čo význam urbanizačného faktora je výrazne vyšší ako význam národného faktora. Spoločný vplyv obidvoch faktorov určuje asi 38% variácie premennej „volebná činnosť“ (pozri hodnotu štvorca L).

    V štatistickom modelovaní je regresná analýza štúdiou používanou na hodnotenie vzťahu medzi premennými. Táto matematická technika obsahuje mnoho ďalších techník na modelovanie a analýzu viacerých premenných, pri ktorých sa kladie dôraz na vzťah medzi závislou premennou a jednou alebo viacerými nezávislými premennými. Regresnejšia analýza vám konkrétnejšie pomôže pochopiť, ako sa mení typická hodnota závislej premennej, ak sa zmení jedna z vysvetľujúcich premenných, zatiaľ čo ostatné vysvetľujúce premenné zostanú pevné.

    Cieľové skóre je vo všetkých prípadoch funkciou vysvetľujúcich premenných a nazýva sa regresná funkcia. Pri regresnej analýze je tiež zaujímavé charakterizovať zmenu závislej premennej ako funkciu regresie, ktorú je možné opísať pomocou rozdelenia pravdepodobnosti.

    Úlohy regresnej analýzy

    Táto metóda štatistického výskumu sa často používa na predpovedanie, kde jej použitie má značnú výhodu, ale niekedy môže viesť k ilúzii alebo falošným postojom, preto sa v tejto otázke odporúča opatrne ju použiť, pretože napríklad príčinná súvislosť.

    Na vykonávanie regresnej analýzy bolo vyvinuté veľké množstvo metód, napríklad lineárna a obyčajná regresia najmenších štvorcov, ktoré sú parametrické. Ich podstatou je, že regresná funkcia je definovaná z hľadiska konečného počtu neznámych parametrov, ktoré sa odhadujú z údajov. Neparametrická regresia umožňuje, aby jej funkcie spočívali v určitej množine funkcií, ktoré môžu byť nekonečne rozmerné.

    Ako metóda štatistického výskumu závisí regresná analýza v praxi od formy procesu generovania údajov a od toho, ako súvisí s regresným prístupom. Pretože pravá forma dátového procesu je zvyčajne neznáme číslo, regresná analýza dát často do istej miery závisí od predpokladov o procese. Tieto predpoklady sú niekedy testovateľné, ak je k dispozícii dostatok údajov. Regresné modely sú často užitočné, aj keď sú predpoklady mierne porušené, aj keď nemusia fungovať čo najefektívnejšie.

    V užšom zmysle môže regresia odkazovať konkrétne na odhad premenných spojitej odozvy, na rozdiel od diskrétnych premenných odozvy použitých pri klasifikácii. Prípad spojitej výstupnej premennej sa tiež nazýva metrická regresia, aby sa odlíšil od súvisiacich problémov.

    História

    Najskoršou formou regresie je známa metóda najmenších štvorcov. Publikovali ho Legendre v roku 1805 a Gauss v roku 1809. Legendre a Gauss aplikovali metódu na problém určovania z astronomických pozorovaní obežných dráh telies okolo Slnka (hlavne komét, ale neskôr aj novoobjavených menších planét). Gauss publikoval ďalší vývoj teórie najmenších štvorcov v roku 1821 vrátane verzie Gauss-Markovovej vety.

    Pojem „regresia“ vytvoril v 19. storočí Francis Galton na opísanie biologického javu. Záverom bolo, že rast potomkov z rastu predkov má tendenciu klesať smerom k normálnemu priemeru. Pre Galtona mala regresia iba tento biologický význam, ale neskôr v jeho práci pokračovali Udney Yoley a Karl Pearson a dostali sa do všeobecnejších štatistických súvislostí. V práci Yule a Pearsona sa spoločné rozdelenie odozvy a vysvetľujúcich premenných považuje za gaussovské. Tento predpoklad Fischer v dielach z rokov 1922 a 1925 odmietol. Fisher navrhol, že podmienené rozdelenie premennej odpovede je gaussovské, ale spoločné rozdelenie by nemalo byť. V tomto ohľade je Fisherov predpoklad bližšie k formulácii Gaussa z roku 1821. Do roku 1970 trvalo výsledok regresnej analýzy niekedy až 24 hodín.

    Metódy regresnej analýzy sú naďalej oblasťou aktívneho výskumu. V posledných desaťročiach boli vyvinuté nové metódy pre silnú regresiu; regresie zahŕňajúce korelované odpovede; regresné metódy, ktoré vyhovujú rôznym typom chýbajúcich údajov; neparametrická regresia; Bayesovské regresné metódy; regresie, pri ktorých sa predikčné premenné merajú omylom; regresia s väčším počtom prediktorov ako pozorovaní a kauzálne závery s regresiou.

    Regresné modely

    Modely regresnej analýzy zahŕňajú nasledujúce premenné:

    • Neznáme parametre, označené ako beta, ktoré môžu byť skalárne alebo vektorové.
    • Nezávislé premenné, X.
    • Závislé premenné, Y.

    V rôznych vedných oblastiach, kde sa používa regresná analýza, sa namiesto závislých a nezávislých premenných používajú rôzne termíny, ale vo všetkých prípadoch regresný model odkazuje na Y s funkciou X a β.

    Aproximácia sa zvyčajne píše vo forme E (Y | X) \u003d F (X, β). Pre regresnú analýzu musí byť určený tvar funkcie f. Menej často je to založené na znalostiach vzťahu medzi Y a X, ktoré sa nespoliehajú na údaje. Ak také znalosti nie sú k dispozícii, zvolí sa flexibilná alebo pohodlná forma F.

    Závislá premenná Y

    Predpokladajme teraz, že vektor neznámych parametrov β má dĺžku k. Na vykonanie regresnej analýzy musí užívateľ poskytnúť informácie o závislej premennej Y:

    • Ak existuje N údajových bodov formulára (Y, X), kde N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
    • Ak sa pozoruje presne N \u003d K a funkcia F je lineárna, potom možno rovnicu Y \u003d F (X, β) vyriešiť presne, nie približne. Toto vedie k riešeniu množiny N-rovníc s N-neznámymi (prvky β), ktoré majú jedinečné riešenie, pokiaľ je X lineárne nezávislé. Ak je F nelineárne, riešenie nemusí existovať alebo môže existovať veľa riešení.
    • Najbežnejšia situácia je, keď sú pozorované N\u003e body. V tomto prípade je v dátach dostatok informácií na odhad jedinečnej hodnoty β, ktorá sa k údajom najlepšie hodí, a regresný model, v ktorom je možné aplikáciu na údaje považovať za predurčený systém v β.

    V druhom prípade poskytuje regresná analýza nástroje na:

    • Hľadajte riešenie pre neznáme parametre β, ktoré napríklad minimalizuje vzdialenosť medzi nameranou a predpokladanou hodnotou Y.
    • Za určitých štatistických predpokladov využíva regresná analýza nadbytočné informácie na poskytnutie štatistických informácií o neznámych parametroch β a predpovedaných hodnotách závislej premennej Y.

    Požadovaný počet nezávislých meraní

    Zvážte regresný model, ktorý má tri neznáme parametre: β 0, β 1 a β 2. Predpokladajme, že experimentátor vykoná 10 meraní na rovnakej hodnote nezávislej premennej pre vektor X. V takom prípade regresná analýza neprinesie jedinečnú množinu hodnôt. Najlepšie urobíte, ak odhadnete strednú a štandardnú odchýlku závislej premennej Y. Podobne, meraním dvoch rôznych X-hodnôt, môžete získať dostatok údajov na to, aby ste spadla s dvoma neznámymi, ale nie s tromi alebo viacerými neznámymi.

    Ak sa experimentátorove merania uskutočnili pri troch rôznych hodnotách nezávislej premennej vektora X, potom regresná analýza poskytne jedinečnú sadu odhadov pre tri neznáme parametre v β.

    V prípade všeobecnej lineárnej regresie je vyššie uvedené tvrdenie ekvivalentné požiadavke, aby bola matica X T X invertovateľná.

    Štatistické predpoklady

    Keď je počet meraní N väčší ako počet neznámych parametrov k a chyby merania ε i, potom sa spravidla rozšíri nadbytok informácií obsiahnutých v meraniach a použije sa na štatistické predpovede týkajúce sa neznámych parametrov. Tento prebytok informácií sa nazýva stupeň voľnosti regresie.

    Základné predpoklady

    Klasické predpoklady pre regresnú analýzu zahŕňajú:

    • Vzorka je reprezentatívna pre predikciu inferencie.
    • Chyba je náhodná premenná s priemerom nula, ktorá je podmienená vysvetľujúcimi premennými.
    • Vysvetľujúce premenné sa merajú bez chyby.
    • Ako nezávislé premenné (prediktory) sú lineárne nezávislé, to znamená, že nie je možné vyjadriť žiadny prediktor ako lineárnu kombináciu ostatných.
    • Chyby nie sú korelované, to znamená, že matica kovariančnej chyby diagonál a každá nenulová položka predstavuje odchýlku chyby.
    • Rozptyl chyby je podľa pozorovaní konštantný (homoscedasticita). Ak nie, potom je možné použiť najmenšie štvorce s vážením alebo iné metódy.

    Tieto dostatočné podmienky na odhad najmenších štvorcov majú požadované vlastnosti, najmä tieto predpoklady znamenajú, že odhady parametrov budú objektívne, konzistentné a efektívne, najmä ak sa zohľadnia v triede lineárnych odhadov. Je dôležité si uvedomiť, že dôkazy zriedka spĺňajú dané podmienky. To znamená, že metóda sa používa, aj keď predpoklady nie sú správne. Ako mierka užitočnosti modelu je niekedy možné použiť odchýlku od predpokladov. Mnoho z týchto predpokladov sa dá zmierniť pomocou pokročilejších metód. Správy o štatistickej analýze zvyčajne zahŕňajú analýzu testov na základe vzorových údajov a metodiku pre užitočnosť modelu.

    Okrem toho premenné v niektorých prípadoch odkazujú na hodnoty namerané v bodových polohách. V premenných môžu existovať priestorové trendy a priestorové autokorelácie, ktoré porušujú štatistické predpoklady. Geografická vážená regresia je jedinou technikou, ktorá sa zaoberá týmito údajmi.

    Pri lineárnej regresii je charakteristické, že závislá premenná, ktorou je Y i, je lineárnou kombináciou parametrov. Napríklad jednoduchá lineárna regresia používa na modelovanie n-bodov jednu nezávislú premennú, xi a dva parametre, β 0 a β 1.

    Vo viacnásobnej lineárnej regresii existuje niekoľko nezávislých premenných alebo ich funkcií.

    Keď sú náhodne vzorkované z populácie, jej parametre poskytujú vzorku modelu lineárnej regresie.

    V tomto aspekte sú najobľúbenejšou metódou najmenšie štvorce. Používa sa na získanie odhadov parametrov, ktoré minimalizujú súčet štvorcov zvyškov. Tento druh minimalizácie (ktorý je charakteristický pre lineárnu regresiu) tejto funkcie vedie k množine normálnych rovníc a množine lineárnych rovníc s parametrami, ktoré sa riešia na získanie odhadov parametrov.

    Za predpokladu ďalšieho predpokladaného rozšírenia populačnej chyby môže výskumník pomocou týchto štandardných odhadov chýb vytvoriť intervaly spoľahlivosti a testovať hypotézy o jej parametroch.

    Nelineárna regresná analýza

    Príklad, keď funkcia nie je vzhľadom na parametre lineárna, naznačuje, že súčet štvorcov by sa mal minimalizovať pomocou iteračného postupu. To predstavuje veľa komplikácií, ktoré rozlišujú medzi lineárnymi a nelineárnymi najmenšími štvorcami. V dôsledku toho sú výsledky regresnej analýzy pri použití nelineárnej metódy niekedy nepredvídateľné.

    Výpočet výkonu a veľkosti vzorky

    Vo všeobecnosti neexistujú konzistentné metódy týkajúce sa počtu pozorovaní v porovnaní s počtom vysvetľujúcich premenných v modeli. Prvé pravidlo navrhli Dobra a Hardin a vyzerá ako N \u003d t ^ n, kde N je veľkosť vzorky, n je počet nezávislých premenných at je počet pozorovaní potrebných na dosiahnutie požadovanej presnosti, ak by model mal iba jedna nezávislá premenná. Napríklad výskumný pracovník zostavuje model lineárnej regresie pomocou súboru údajov, ktorý obsahuje 1 000 pacientov (N). Ak sa výskumný pracovník rozhodne, že na presné určenie priamky (m) je potrebných päť pozorovaní, potom maximálny počet nezávislých premenných, ktoré môže model podporovať, je 4.

    Iné metódy

    Aj keď sa parametre regresného modelu zvyčajne odhadujú pomocou metódy najmenších štvorcov, existujú aj iné metódy, ktoré sa používajú oveľa menej často. Ide napríklad o nasledujúce metódy:

    • Bayesovské metódy (napr. Bayesova lineárna regresia).
    • Percentuálna regresia, ktorá sa používa v situáciách, keď sa zníženie percentuálnej chyby považuje za vhodnejšie.
    • Najmenšie absolútne odchýlky, ktoré sú robustnejšie v prípade odľahlých hodnôt vedúcich k kvantilovej regresii.
    • Neparametrická regresia vyžadujúca veľké množstvo pozorovaní a výpočtov.
    • Metrika dištančného vzdelávania, ktorá sa učí pri hľadaní zmysluplnej metriky vzdialenosti v danom vstupnom priestore.

    Softvér

    Všetky hlavné štatistické softvérové \u200b\u200bbalíky sa vykonávajú pomocou regresnej analýzy najmenších štvorcov. V niektorých tabuľkových aplikáciách, ako aj v niektorých kalkulačkách je možné použiť jednoduchú lineárnu regresiu a analýzu viacerých regresií. Aj keď mnoho štatistických softvérových balíkov dokáže vykonávať rôzne typy neparametrickej a robustnej regresie, tieto metódy sú menej štandardizované; rôzne softvérové \u200b\u200bbalíčky implementujú rôzne metódy. Bol vyvinutý špecializovaný regresný softvér pre použitie v oblastiach, ako je analýza prieskumu a neuroimaging.

    Regresná analýza je metóda na stanovenie analytického vyjadrenia stochastického vzťahu medzi študovanými znakmi. Regresná rovnica ukazuje, ako sa priemer mení opri zmene ktoréhokoľvek z x i , a má formu:

    kde y -závislá premenná (je to vždy jedna);

    x i - nezávislé premenné (faktory) (môže ich byť niekoľko).

    Ak existuje iba jedna vysvetľujúca premenná, jedná sa o jednoduchú regresnú analýzu. Ak ich je viac ( p 2), potom sa takáto analýza nazýva viacrozmerná.

    Regresná analýza rieši dve hlavné úlohy:

      zostavenie regresnej rovnice, t.j. hľadanie typu vzťahu medzi konečným indikátorom a nezávislými faktormi x 1 , x 2 , …, x n .

      odhad významnosti výslednej rovnice, t.j. určenie, do akej miery vybrané atribúty faktora vysvetľujú variáciu atribútu o.

    Regresná analýza sa používa hlavne na plánovanie a na vývoj regulačného rámca.

    Na rozdiel od korelačnej analýzy, ktorá odpovedá iba na otázku, či existuje vzťah medzi analyzovanými znakmi, poskytuje regresná analýza aj svoje formálne vyjadrenie. Ak navyše korelačná analýza študuje akékoľvek vzájomné prepojenie faktorov, potom regresná analýza skúma jednostrannú závislosť, t. spojenie ukazujúce, ako zmena znakov faktora ovplyvňuje efektívne znamienko.

    Regresná analýza je jednou z najrozvinutejších metód matematickej štatistiky. Striktne povedané, na uskutočnenie regresnej analýzy je potrebné splniť množstvo osobitných požiadaviek (najmä x l , X 2 , ..., X n ; rmusia byť nezávislé, normálne rozdelené náhodné premenné s konštantnými odchýlkami). V reálnom živote je striktné dodržiavanie požiadaviek regresnej a korelačnej analýzy veľmi zriedkavé, ale obe tieto metódy sú v ekonomickom výskume úplne bežné. Závislosti v ekonomike môžu byť nielen priame, ale aj inverzné a nelineárne. Regresný model je možné vytvoriť za prítomnosti akejkoľvek závislosti, avšak pri viacrozmernej analýze sa používajú iba lineárne modely formy:

    Konštrukcia regresnej rovnice sa spravidla vykonáva metódou najmenších štvorcov, ktorej podstatou je minimalizovať súčet štvorcov odchýlok skutočných hodnôt výsledného atribútu od jeho vypočítaných hodnôt, t. J .:

    kde t -počet pozorovaní;

    j = a + b 1 x 1 j + b 2 x 2 j + ... + b n x n j - vypočítaná hodnota výsledného faktora.

    Odporúča sa určiť regresné koeficienty pomocou analytických balíkov pre osobný počítač alebo špeciálnu finančnú kalkulačku. V najjednoduchšom prípade sú to regresné koeficienty jednosmernej lineárnej regresnej rovnice tvaru y \u003d a + bxnájdete podľa vzorcov:

    Klastrová analýza

    Klastrová analýza je jednou z metód viacrozmernej analýzy určenej na zoskupenie (zoskupenie) populácie, ktorej prvky sa vyznačujú mnohými znakmi. Hodnoty každého z atribútov slúžia ako súradnice každej jednotky študovanej populácie vo viacrozmernom priestore atribútov. Každé pozorovanie, charakterizované hodnotami niekoľkých indikátorov, možno reprezentovať ako bod v priestore týchto indikátorov, ktorého hodnoty sa považujú za súradnice vo viacrozmernom priestore. Vzdialenosť medzi bodmi ra qod ksúradnice sú definované ako:

    Hlavným kritériom pre zhlukovanie je, že rozdiely medzi klastrami by mali byť výraznejšie ako medzi pozorovaniami priradenými k rovnakému klastru, t. vo viacrozmernom priestore je potrebné dodržať nerovnosť:

    kde r 1, 2 - vzdialenosť medzi klastrami 1 a 2.

    Rovnako ako postupy regresnej analýzy, aj postup zoskupovania je dosť namáhavý, je vhodné ho vykonať na počítači.