Vojsť dnu
Logopedický portál
  • Ako získať sebavedomie, dosiahnuť pokoj a zvýšiť sebaúctu: objavenie hlavných tajomstiev získania sebadôvery
  • Psychologické charakteristiky detí so všeobecným nedostatočným rozvojom reči: rysy kognitívnej činnosti Mentálne charakteristiky detí s onr
  • Čo je vyhorenie v práci a ako sa s ním vysporiadať Ako sa vysporiadať s vyhorením v práci
  • Ako sa vysporiadať s emocionálnym vyhorením Metódy boja proti emocionálnemu vyhoreniu
  • Ako sa vysporiadať s emocionálnym vyhorením Metódy boja proti emocionálnemu vyhoreniu
  • Vyhorenie - Ako sa vysporiadať s pracovným stresom Ako sa vyrovnať s emocionálnym vyhorením
  • Podľa počtu významných faktorov sa regresia delí na. Základy analýzy dát. Definovanie regresie

    Podľa počtu významných faktorov sa regresia delí na.  Základy analýzy dát.  Definovanie regresie

    1. Pojem „regresia“ prvýkrát predstavil zakladateľ biometrie F. Galton (XIX. Storočie), ktorého myšlienky rozvinul jeho nasledovník K. Pearson.

    Regresná analýza - metóda štatistického spracovania údajov, ktorá vám umožňuje zmerať vzťah medzi jednou alebo viacerými príčinami (ukazovatele faktorov) a dôsledkom (účinný ukazovateľ).

    Podpísať- to je hlavný rozlišovací znak, vlastnosť študovaného javu alebo procesu.

    Účinná funkcia - vyšetrovaný indikátor.

    Faktorový znak- ukazovateľ, ktorý ovplyvňuje hodnotu efektívneho atribútu.

    Účelom regresnej analýzy je posúdiť funkčnú závislosť priemernej hodnoty efektívnej vlastnosti ( o) z faktoriálu ( x 1, x 2, ..., x n), vyjadrené ako regresné rovnice

    o= f(x 1, x 2, ..., x n). (6.1)

    Existujú dva typy regresie: párové a viacnásobné.

    Spárovaná (jednoduchá) regresia- rovnica tvaru:

    o= f(X). (6.2)

    Výsledný znak v párovej regresii sa považuje za funkciu jedného argumentu, t.j. jeden faktoriálny atribút.

    Regresná analýza zahŕňa nasledujúce kroky:

    · Definícia typu funkcie;

    · Stanovenie regresných koeficientov;

    · Výpočet teoretických hodnôt efektívneho ukazovateľa;

    · Kontrola štatistickej významnosti regresných koeficientov;

    · Kontrola štatistickej významnosti regresnej rovnice.

    Viacnásobná regresia- rovnica tvaru:

    o= f(x 1, x 2, ..., x n). (6.3)

    Efektívna vlastnosť sa považuje za funkciu viacerých argumentov, t.j. veľa faktorových znakov.

    2. Na správne určenie typu funkcie je potrebné nájsť smer komunikácie na základe teoretických údajov.

    Podľa smeru vzťahu je regresia rozdelená na:

    · priama regresia, vznikajúce za predpokladu, že so zvýšením alebo znížením nezávislého množstva “ NS " hodnota závislého množstva “ y " podľa toho tiež zvyšovať alebo znižovať;

    · reverzná regresia, vznikajúce pod podmienkou, že so zvýšením alebo znížením nezávislého množstva "NS" závislé množstvo “ y " podľa toho klesá alebo sa zvyšuje.

    Na charakterizáciu vzťahov sa používajú nasledujúce typy párových regresných rovníc:

    · y = a + bxlineárne;

    · y = e ax + b - exponenciálny;

    · y = a + b / x - hyperbolické;

    · y = a + b 1 x + b 2 x 2 - parabolické;

    · y = ab x - exponenciálne a pod.

    kde a, b 1, b 2- koeficienty (parametre) rovnice; o- účinný znak; NS- faktoriálny znak.

    3. Konštrukcia regresnej rovnice sa redukuje na posúdenie jej koeficientov (parametrov) na toto použitie. metóda najmenších štvorcov(OLS).

    Metóda najmenších štvorcov umožňuje získať také odhady parametrov, pre ktoré súčet druhých mocnín odchýlok skutočných hodnôt efektívneho indikátora „ o"Z teoretického" y x»Je minimálna, to znamená

    Parametre regresnej rovnice y = a + bx najmenšie štvorce sa odhadujú pomocou vzorcov:

    kde a - voľný koeficient, b- regresný koeficient ukazuje, do akej miery je výsledné znamienko „ r„Pri zmene atribútu faktora“ X»Na mernú jednotku.

    4. Na posúdenie štatistickej významnosti regresných koeficientov sa používa Studentov t-test.

    Schéma testovania významu regresných koeficientov:

    1) H 0: a=0, b= 0 - regresné koeficienty sa od nuly nepodstatne líšia.

    H 1: a ≠ 0, b ≠ 0 - regresné koeficienty sa výrazne líšia od nuly.

    2) R.= 0,05 - hladina významnosti.

    kde m b,m a- náhodné chyby:

    ; . (6.7)

    4) t tab(R; f),

    kde f=n-k- 1 - počet stupňov voľnosti (tabuľková hodnota), n- počet pozorovaní, k NS “.

    5) Ak, potom sa zamietne, t.j. koeficient je významný.

    Ak, potom je to akceptované, t.j. koeficient je nevýznamný.

    5. Na kontrolu správnosti zostrojenej regresnej rovnice sa použije Fisherovo kritérium.

    Schéma testovania významu regresnej rovnice:

    1) H 0: regresná rovnica je nevýznamná.

    H 1: regresná rovnica je významná.

    2) R.= 0,05 - hladina významnosti.

    3) , (6.8)

    kde je počet pozorovaní; k je počet parametrov v rovnici pre premenné " NS "; o- skutočná hodnota efektívnej vlastnosti; y x- teoretická hodnota efektívnej vlastnosti; je párový korelačný koeficient.

    4) Tab(R; f 1; f 2),

    kde f 1 = k, f 2 = n-k-1- počet stupňov voľnosti (tabuľkové hodnoty).

    5) Ak F calc> F tab, potom je regresná rovnica zvolená správne a môže byť aplikovaná v praxi.

    Ak F vypočít , potom je regresná rovnica zvolená nesprávne.

    6. Hlavným ukazovateľom, ktorý odzrkadľuje mieru kvality regresnej analýzy, je koeficient určenia (R 2).

    Koeficient determinácie ukazuje, koľko zo závislej premennej " o»Zohľadnené v analýze a spôsobené vplyvom faktorov zahrnutých v analýze.

    Koeficient determinácie (R 2) má hodnoty medzi tým. Regresná rovnica je kvalitatívna, ak R 2 ≥0,8.

    Koeficient určenia sa rovná druhej mocnine korelačného koeficientu, t.j.

    Príklad 6.1. Pomocou nasledujúcich údajov zostrojte a analyzujte regresnú rovnicu:

    Riešenie.

    1) Vypočítajte korelačný koeficient :. Vzťah medzi znameniami je priamy a mierny.

    2) Zostavte párovú lineárnu regresnú rovnicu.

    2.1) Vytvorte výpočtovú tabuľku.

    NS o Hu x 2 y x (r-r-x) 2
    55,89 47,54 65,70
    45,07 15,42 222,83
    54,85 34,19 8,11
    51,36 5,55 11,27
    42,28 45,16 13,84
    47,69 1,71 44,77
    45,86 9,87 192,05
    Sum 159,45 558,55
    Priemerný 77519,6 22,78 79,79 2990,6

    ,

    Párová lineárna regresná rovnica: y x = 25,17 + 0,087x.

    3) Nájdite teoretické hodnoty “ y x„Nahradením skutočných hodnôt v regresnej rovnici“ NS».

    4) Zostavte grafy skutočných „ y " a teoretické hodnoty “ y x»Efektívne znamienko (obrázok 6.1): r xy = 0,47) a malý počet pozorovaní.

    7) Vypočítajte koeficient determinácie: R 2= (0,47) 2 = 0,22. Zostrojená rovnica má zlú kvalitu.

    Pretože výpočty počas regresnej analýzy sú dosť rozsiahle, odporúča sa použiť špeciálne programy („Statistica 10“, SPSS atď.).

    Obrázok 6.2 ukazuje tabuľku s výsledkami regresnej analýzy vykonanej pomocou programu Statistica 10.

    Obrázok 6.2. Výsledky regresnej analýzy vykonanej pomocou programu „Statistica 10“

    5. Literatúra:

    1. Gmurman V.E. Teória pravdepodobnosti a matematická štatistika: Učebnica. manuál pre univerzity / V.E. Gmurman. - M.: Vysoká škola, 2003.- 479 s.

    2. Koichubekov B.K. Biostatistika: učebnica. - Almaty: Evero, 2014.- 154 s.

    3. Lobotskaya N.L. Vyššia matematika. / N.L. Lobotskaya, Yu.V. Morozov, A.A. Dunaev. - Minsk: Vysoká škola, 1987.- 319 s.

    4. Medic V.A., Tokmachev M.S., Fishman B.B. Štatistiky v medicíne a biológii: manuál. V 2 zväzkoch / Ed. Yu.M. Komarova. T. 1. Teoretická štatistika. - M.: Medicína, 2000.- 412 s.

    5. Aplikácia metód štatistickej analýzy na štúdium verejného zdravia a zdravotnej starostlivosti: učebnica / ed. V.Z. Kucherenko - 4. vydanie, Rev. a pridať. - M.: GEOTAR- Médiá, 2011.- 256 s.

    Regresná analýza je metóda na stanovenie analytického vyjadrenia stochastického vzťahu medzi študovanými znakmi. Regresná rovnica ukazuje, ako sa priemer mení o pri zmene ktoréhokoľvek z nich X i , a má formu:

    kde y - závislá premenná (je vždy jedna);

    NS i - nezávislé premenné (faktory) (môže ich byť niekoľko).

    Ak existuje iba jedna vysvetľujúca premenná, je to jednoduchá regresná analýza. Ak ich je niekoľko ( NS 2), potom sa takáto analýza nazýva viacrozmerná.

    V priebehu regresnej analýzy sú vyriešené dve hlavné úlohy:

      budovanie regresnej rovnice, t.j. nájdenie typu vzťahu medzi konečným ukazovateľom a nezávislými faktormi X 1 , X 2 , …, X n .

      odhad významnosti výslednej rovnice, t.j. určovanie, do akej miery vybrané charakteristiky faktora vysvetľujú variácie charakteristiky o.

    Regresná analýza sa používa hlavne na plánovanie a vývoj regulačného rámca.

    Na rozdiel od korelačnej analýzy, ktorá odpovedá iba na otázku, či existuje vzťah medzi analyzovanými znakmi, regresná analýza poskytuje aj svoje formalizované vyjadrenie. Navyše, ak korelačná analýza študuje akékoľvek prepojenie faktorov, potom regresná analýza študuje jednostrannú závislosť, t.j. vzťah ukazujúci, ako zmena znaku faktora ovplyvňuje efektívne znamenie.

    Regresná analýza je jednou z najrozvinutejších metód matematickej štatistiky. Presne povedané, na implementáciu regresnej analýzy je potrebné splniť niekoľko špeciálnych požiadaviek (najmä X l , X 2 , ..., X n ;r musia byť nezávislé, normálne distribuované náhodné premenné s konštantnými odchýlkami). V reálnom živote je prísne dodržiavanie požiadaviek regresnej a korelačnej analýzy veľmi zriedkavé, ale obe tieto metódy sú v ekonomickom výskume celkom bežné. Závislosti v ekonomike môžu byť nielen priame, ale aj inverzné a nelineárne. Regresný model je možné zostaviť za prítomnosti akejkoľvek závislosti, avšak pri viacrozmernej analýze sa používajú iba lineárne modely formulára:

    Konštrukcia regresnej rovnice sa spravidla vykonáva metódou najmenších štvorcov, ktorej podstatou je minimalizovať súčet druhých mocnín odchýlok skutočných hodnôt výsledného atribútu od jeho vypočítaných hodnôt, tj .:

    kde T - počet pozorovaní;

    j =a + b 1 X 1 j + b 2 X 2 j + ... + b n NS n j - vypočítaná hodnota výsledného faktora.

    Regresné koeficienty sa odporúča určiť pomocou analytických balíkov pre osobný počítač alebo špeciálnu finančnú kalkulačku. V najjednoduchšom prípade sú regresné koeficienty jednosmernej lineárnej regresnej rovnice tvaru y = a + bx možno nájsť podľa vzorcov:

    Klastrová analýza

    Klastrová analýza je jednou z viacrozmerných analytických metód určených na zoskupovanie (klastrovanie) populácie, ktorej prvky sa vyznačujú mnohými vlastnosťami. Hodnoty každého z atribútov slúžia ako súradnice každej jednotky študovanej populácie vo viacrozmernom priestore atribútov. Každé pozorovanie, charakterizované hodnotami niekoľkých indikátorov, môže byť reprezentované ako bod v priestore týchto indikátorov, ktorých hodnoty sú považované za súradnice vo viacrozmernom priestore. Vzdialenosť medzi bodmi R. a q s k súradnice sú definované ako:

    Hlavným kritériom zhlukovania je, že rozdiely medzi klastrami by mali byť významnejšie ako medzi pozorovaniami priradenými k rovnakému klastru, t. vo viacrozmernom priestore je potrebné dodržať nerovnosť:

    kde r 1, 2 - vzdialenosť medzi klastrami 1 a 2.

    Rovnako ako postupy regresnej analýzy je postup klastrovania dosť namáhavý, odporúča sa vykonať ho na počítači.

    Čo je to regresia?

    Uvažujme dve spojité premenné x = (x 1, x 2, .., x n), y = (y 1, y 2, ..., y n).

    Položme body na 2D bodový graf a povedzme, že máme lineárny vzťah ak sú údaje vybavené priamkou.

    Ak tomu veríme r záleží na X, a zmeny v r sú spôsobené práve zmenami v X, môžeme určiť regresnú čiaru (regresia r na X), ktorá najlepšie popisuje priamy vzťah medzi týmito dvoma premennými.

    Štatistické použitie slova „regresia“ pochádza z fenoménu známeho ako regresia k priemeru, ktorý sa pripisuje Sirovi Francisovi Galtonovi (1889).

    Ukázal, že aj keď vysokí otcovia majú spravidla vysokých synov, priemerná výška synov je kratšia ako u ich vysokých otcov. Priemerná výška synov „klesla“ a „obrátila sa“ k priemernej výške všetkých otcov v populácii. V priemere teda majú vysokí otcovia nižších (ale stále vysokých) synov a nižší otcovia majú vyšších (ale stále dosť nízkych) synov.

    Regresná čiara

    Matematická rovnica, ktorá odhaduje jednoduchú (párovanú) lineárnu regresnú čiaru:

    X nazýva sa nezávislá premenná alebo prediktor.

    Y- závislá premenná alebo premenná reakcie. To je hodnota, ktorú očakávame r(v priemere), ak poznáme hodnotu X, t.j. táto „predpokladaná hodnota r»

    • a- voľný člen (priesečník) línie hodnotenia; túto hodnotu Y, kedy x = 0(Obr. 1).
    • b- sklon alebo sklon hodnotenej čiary; predstavuje čiastku, o ktorú Y sa zvyšuje v priemere, ak zvyšujeme X o jednu jednotku.
    • a a b sa nazývajú regresné koeficienty odhadovanej čiary, aj keď sa tento termín často používa iba pre b.

    Párovú lineárnu regresiu je možné rozšíriť tak, aby zahŕňala viac ako jednu nezávislú premennú; v tomto prípade je známy ako viacnásobná regresia.

    Obr. Lineárna regresná čiara znázorňujúca priesečník a a sklon b (množstvo nárastu Y ako x sa zvyšuje o jednu jednotku)

    Metóda najmenšieho štvorca

    Vykonávame regresnú analýzu pomocou vzorky pozorovaní, kde a a b- vzorové odhady skutočných (všeobecných) parametrov α a β, ktoré určujú lineárnu regresnú čiaru v populácii (všeobecná populácia).

    Najjednoduchšia metóda na stanovenie koeficientov a a b je metóda najmenších štvorcov(OLS).

    Vhodnosť sa odhaduje s prihliadnutím na zvyšky (zvislá vzdialenosť každého bodu od priamky, napríklad reziduálna = pozorovaná r- predpovedal r, Ryža. 2).

    Najvhodnejšia línia je zvolená tak, aby súčet druhých mocnín zvyškov bol minimálny.

    Ryža. 2. Lineárna regresná čiara so znázornenými zvyškami (zvislé prerušované čiary) pre každý bod.

    Predpoklady lineárnej regresie

    Takže pre každú pozorovanú hodnotu je zvyškový ekvivalent rozdielu a zodpovedajúcej predpovedanej hodnoty. Každý zvyškový môže byť kladný alebo záporný.

    Zvyšky môžete použiť na testovanie nasledujúcich predpokladov, ktoré sú základom lineárnej regresie:

    • Zostatky sú normálne rozdelené s nulovým priemerom;

    Ak sú predpoklady linearity, normality a / alebo konštantného rozptylu diskutabilné, môžeme transformovať alebo vypočítať novú regresnú priamku, pre ktorú sú tieto predpoklady splnené (napríklad použite logaritmickú transformáciu atď.).

    Abnormálne hodnoty (extrémne hodnoty) a body vplyvu

    „Vplyvné“ pozorovanie, ak je vynechané, mení jeden alebo viac odhadov parametrov modelu (tj. Sklon alebo zachytenie).

    Odľahlá hodnota (pozorovanie, ktoré je v rozpore s väčšinou hodnôt v súbore údajov) môže byť „vplyvným“ pozorovaním a dá sa dobre vizuálne zistiť pri pohľade z 2D bodového grafu alebo zo zvyškového grafu.

    Ako pre extrémne hodnoty, tak aj pre „vplyvné“ pozorovania (body) sa používajú modely, s nimi aj bez nich, pričom sa dbá na zmenu odhadu (regresné koeficienty).

    Pri analýze automaticky nevyhadzujte odľahlé hodnoty ani neovplyvňujte body, pretože jednoduché ignorovanie môže ovplyvniť dosiahnuté výsledky. Vždy skúmajte a analyzujte príčiny týchto odľahlých hodnôt.

    Hypotéza lineárnej regresie

    Pri konštrukcii lineárnej regresie sa testuje nulová hypotéza, že všeobecný sklon regresnej priamky β sa rovná nule.

    Ak je sklon čiary nula, neexistuje lineárny vzťah medzi a: zmena neovplyvní

    Na otestovanie nulovej hypotézy, že skutočný sklon je nulový, môžete použiť nasledujúci algoritmus:

    Vypočítajte štatistiku testu rovnajúcu sa pomeru, ktorý sa riadi rozdelením so stupňami voľnosti, kde štandardná chyba koeficientu je


    ,

    - odhad rozptylu zvyškov.

    Ak je dosiahnutá úroveň významnosti nulová hypotéza, obvykle sa zamietne.


    kde je percentuálny bod distribúcie so stupňami voľnosti, ktorý dáva pravdepodobnosť obojstranného testu

    Toto je interval, ktorý obsahuje všeobecný sklon s 95% pravdepodobnosťou.

    Pokiaľ ide o veľké vzorky, povedzme, že sa môžeme priblížiť k hodnote 1,96 (to znamená, že štatistiky kritérií budú mať tendenciu k normálnemu rozdeleniu)

    Vyhodnotenie kvality lineárnej regresie: koeficient determinácie R 2

    Vzhľadom na lineárny vzťah a očakávame, že sa zmení tak, ako sa mení , a nazývame túto variáciu, ktorá je spôsobená alebo vysvetlená regresiou. Zvyšková odchýlka by mala byť čo najmenšia.

    Ak je to tak, potom väčšina variácií bude spôsobená regresiou a body budú ležať blízko regresnej čiary, t.j. riadok sa dobre zhoduje s údajmi.

    Nazýva sa podiel celkového rozptylu, ktorý sa vysvetľuje regresiou koeficient determinácie, zvyčajne vyjadrené v percentách a označujú R 2(v párovej lineárnej regresii je to hodnota r 2, druhá mocnina korelačného koeficientu), vám umožňuje subjektívne posúdiť kvalitu regresnej rovnice.

    Rozdiel je v percentách rozptylu, ktoré nemožno vysvetliť regresiou.

    Neexistuje žiadny formálny test na vyhodnotenie, musíme sa spoliehať na subjektívny úsudok, aby sme určili kvalitu prispôsobenia regresnej čiary.

    Použitie regresnej čiary na predpoveď

    Regresnú priamku môžete použiť na predpovedanie hodnoty z hodnoty v rámci pozorovaného rozsahu (nikdy extrapolujte mimo tieto limity).

    Predpovedáme priemer pre pozorovateľné látky, ktoré majú konkrétnu hodnotu, vložením tejto hodnoty do rovnice regresnej priamky.

    Ak teda predpovedáme, ako použijeme túto predpovedanú hodnotu a jej štandardnú chybu na odhad intervalu spoľahlivosti pre skutočný priemer v populácii.

    Opakovaním tohto postupu pre rôzne hodnoty môžete pre tento riadok vytvoriť limity spoľahlivosti. Toto je pásmo alebo oblasť, ktorá obsahuje napríklad pravú čiaru s 95% úrovňou spoľahlivosti.

    Jednoduché regresné návrhy

    Jednoduché regresné návrhy obsahujú jeden spojitý prediktor. Ak existujú 3 prípady s hodnotami prediktora P, napríklad 7, 4 a 9, a návrh obsahuje efekt prvého rádu P, potom matica návrhu X bude mať tvar

    a regresná rovnica pomocou P pre X1 vyzerá takto

    Y = b0 + b1 P

    Ak jednoduchý regresný návrh obsahuje efekt vyššieho rádu na P, ako je napríklad kvadratický efekt, hodnoty v stĺpci X1 v návrhovej matici sa zvýšia na druhú mocninu:

    a rovnica má tvar

    Y = b0 + b1 P2

    Sigma-obmedzené a nadparametrizované kódovacie metódy sa nevzťahujú na jednoduché regresné návrhy a iné návrhy obsahujúce iba spojité prediktory (pretože kategorické prediktory jednoducho neexistujú). Bez ohľadu na zvolený spôsob kódovania sa hodnoty spojitých premenných zvýšia na príslušný stupeň a použijú sa ako hodnoty pre premenné X. V tomto prípade sa neprekóduje. Okrem toho pri opise regresných návrhov môžete vynechať úvahu o návrhovej matici X a pracovať iba s regresnou rovnicou.

    Príklad: Jednoduchá regresná analýza

    Tento príklad používa údaje uvedené v tabuľke:

    Ryža. 3. Tabuľka počiatočných údajov.

    Údaje boli zhromaždené z porovnania sčítania obyvateľstva v rokoch 1960 a 1970 v náhodne vybraných 30 okresoch. Názvy okresov sú reprezentované ako pozorovacie názvy. Informácie o každej premennej sú uvedené nižšie:

    Ryža. 4. Tabuľka špecifikácií premenných.

    Výskumná úloha

    V tomto prípade bude analyzovaná korelácia medzi mierou chudoby a mierou, ktorá predpovedá percento rodín, ktoré sa nachádzajú pod hranicou chudoby. Preto budeme s premennou 3 (Pt_Poor) zaobchádzať ako so závislou premennou.

    Dá sa predpokladať, že zmena populácie a percento rodín pod hranicou chudoby spolu súvisia. Zdá sa rozumné očakávať, že chudoba vedie k odlivu obyvateľstva, a preto bude existovať negatívna korelácia medzi percentom ľudí pod hranicou chudoby a populačnou zmenou. Preto budeme s premennou 1 (Pop_Chng) zaobchádzať ako s premennou prediktora.

    Zobrazenie výsledkov

    Regresné koeficienty

    Ryža. 5. Regresné koeficienty Pt_Poor na Pop_Chng.

    Na priesečníku riadkov Pop_Chng a Param. neštandardizovaný koeficient pre regresiu Pt_Poor na Pop_Chng je -0,40374. To znamená, že na každý jednotkový pokles populácie pripadá 40374 nárastu miery chudoby. Horné a dolné (predvolené) 95% limity spoľahlivosti pre tento neštandardizovaný koeficient nezahŕňajú nulu, takže regresný koeficient je významný na úrovni p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

    Rozdelenie premenných

    Korelačné koeficienty môžu byť výrazne nadhodnotené alebo podhodnotené, ak v údajoch existujú veľké hodnoty. Pozrime sa na distribúciu závislej premennej Pt_Poor podľa okresu. Aby sme to urobili, zostavme histogram premennej Pt_Poor.

    Ryža. 6. Histogram premennej Pt_Poor.

    Ako vidíte, distribúcia tejto premennej sa výrazne líši od normálnej distribúcie. Napriek tomu, že aj tieto dva kraje (dva stĺpce na pravej strane) majú vyššie percento domácností pod hranicou chudoby, ako sa očakáva od normálneho rozdelenia, zdá sa, že sú „v medziach“.

    Ryža. 7. Histogram premennej Pt_Poor.

    Tento úsudok je do istej miery subjektívny. Spravidla by sa malo počítať s odľahlými hodnotami, ak pozorovania (alebo pozorovania) nespadajú do intervalu (priemer ± 3 -násobok štandardnej odchýlky). V tomto prípade stojí za to zopakovať analýzu s odľahlými hodnotami a bez nich, aby sa zaistilo, že nebudú mať významný vplyv na koreláciu medzi členmi populácie.

    Bodový diagram

    Ak je jedna z hypotéz a priori o vzťahu medzi danými premennými, potom je užitočné skontrolovať ju na grafe zodpovedajúceho bodového grafu.

    Ryža. 8. Bodový diagram.

    Bodový graf ukazuje jasnú negatívnu koreláciu (-,65) medzi týmito dvoma premennými. Tiež ukazuje 95% interval spoľahlivosti pre regresnú čiaru, tj. S 95% pravdepodobnosťou regresná čiara prechádza medzi dvoma prerušovanými krivkami.

    Kritériá významnosti

    Ryža. 9. Tabuľka obsahujúca kritériá významnosti.

    Kritérium pre regresný koeficient Pop_Chng potvrdzuje, že Pop_Chng je v silnom spojení s Pt_Poor, s<.001 .

    Výsledok

    Tento príklad ukázal, ako analyzovať jednoduchý regresný návrh. Bola tiež predložená interpretácia neštandardizovaných a štandardizovaných regresných koeficientov. Prediskutuje sa dôležitosť štúdia distribúcie reakcií závislej premennej a demonštruje sa technika na určenie smeru a sily vzťahu medzi prediktorom a závislou premennou.

    V štatistickom modelovaní je regresná analýza štúdia používaná na hodnotenie vzťahu medzi premennými. Táto matematická technika zahŕňa mnoho ďalších techník na modelovanie a analýzu viacerých premenných, pričom dôraz je kladený na vzťah medzi závislou premennou a jednou alebo viacerými nezávislými premennými. Konkrétnejšie, regresná analýza vám pomôže pochopiť, ako sa typická hodnota závislej premennej zmení, ak sa jedna z vysvetľujúcich premenných zmení, zatiaľ čo ostatné vysvetľujúce premenné zostanú pevné.

    Vo všetkých prípadoch je cieľové skóre funkciou vysvetľujúcich premenných a nazýva sa regresná funkcia. Pri regresnej analýze je tiež zaujímavé charakterizovať zmenu v závislej premennej ako regresnú funkciu, ktorú je možné opísať pomocou rozdelenia pravdepodobnosti.

    Úlohy regresnej analýzy

    Táto metóda štatistického výskumu sa široko používa na prognózovanie, kde má jej použitie významnú výhodu, ale niekedy môže viesť k ilúzii alebo falošným postojom, preto sa odporúča používať ju v tejto otázke opatrne, pretože napríklad korelácia neznamená príčinná súvislosť.

    Bol vyvinutý veľký počet metód na vykonávanie regresnej analýzy, ako je lineárna a obyčajná regresia najmenších štvorcov, ktoré sú parametrické. Ich podstatou je, že regresná funkcia je definovaná pomocou konečného počtu neznámych parametrov, ktoré sa odhadujú z údajov. Neparametrická regresia umožňuje svojim funkciám spočívať v špecifickom súbore funkcií, ktoré môžu byť nekonečne dimenzionálne.

    Ako metóda štatistického výskumu závisí regresná analýza v praxi od formy procesu generovania údajov a od toho, ako súvisí s regresným prístupom. Pretože skutočnou formou dátového procesu je zvyčajne neznáme číslo, regresná analýza údajov často do určitej miery závisí od predpokladov o procese. Tieto predpoklady sú niekedy testovateľné, ak sú k dispozícii dostatočné údaje. Regresné modely sú často užitočné, aj keď sú predpoklady mierne narušené, aj keď nemusia fungovať tak efektívne.

    V užšom zmysle sa regresia môže vzťahovať konkrétne na odhad premenných spojitej odozvy, na rozdiel od diskrétnych odozvových premenných používaných pri klasifikácii. Prípad spojitej výstupnej premennej sa nazýva aj metrická regresia, aby sa rozlíšil od súvisiacich problémov.

    História

    Najskoršou formou regresie je dobre známa metóda najmenších štvorcov. Vydali ju Legendre v roku 1805 a Gauss v roku 1809. Legendre a Gauss aplikovali metódu na problém určovania obežných dráh tiel okolo Slnka z astronomických pozorovaní (hlavne komét, ale neskôr aj novoobjavených menších planét). Gauss publikoval ďalší vývoj teórie najmenších štvorcov v roku 1821 vrátane variantu Gaussovej-Markovovej vety.

    Termín regresia zaviedol Francis Galton v 19. storočí na opis biologického javu. Pointa bola v tom, že rast potomkov z rastu predkov spravidla klesá až na normálny priemer. Pre Galtona mala regresia iba tento biologický význam, ale neskôr v jeho práci pokračovali Udney Yoley a Karl Pearson a dostali sa do všeobecnejších štatistických súvislostí. V práci Yuleho a Pearsona sa spoločné rozdelenie odozvy a vysvetľujúcich premenných považuje za gaussovské. Tento predpoklad odmietol Fisher v rokoch 1922 a 1925. Fisher naznačil, že podmienené rozdelenie premennej odozvy je gaussovské, ale spoločné rozdelenie by nemalo byť. V tomto ohľade je Fisherov predpoklad bližšie k formulácii Gaussa v roku 1821. Do roku 1970 niekedy trvalo získanie výsledku regresnej analýzy až 24 hodín.

    Metódy regresnej analýzy sú naďalej oblasťou aktívneho výskumu. V posledných desaťročiach boli vyvinuté nové metódy na silnú regresiu; regresia s korelovanými reakciami; regresné metódy prispôsobujúce rôzne typy chýbajúcich údajov; neparametrická regresia; Bayesovské regresné metódy; regresie, v ktorých sú premenné prediktora merané s chybou; regresia s väčším počtom prediktorov ako pozorovaní a kauzálne závery s regresiou.

    Regresné modely

    Modely regresnej analýzy obsahujú nasledujúce premenné:

    • Neznáme parametre, označované ako beta, ktoré môžu byť skalárne alebo vektorové.
    • Nezávislé premenné, X.
    • Závislé premenné, Y.

    V rôznych oblastiach vedy, kde sa používa regresná analýza, sa namiesto závislých a nezávislých premenných používajú rôzne termíny, ale vo všetkých prípadoch regresný model priradí Y funkcii X a β.

    Aproximácia sa zvyčajne píše v tvare E (Y | X) = F (X, β). Na vykonanie regresnej analýzy je potrebné určiť formu funkcie f. Menej často je založený na znalosti vzťahu medzi Y a X, ktorý sa nespolieha na údaje. Ak také znalosti nie sú k dispozícii, zvolí sa flexibilná alebo pohodlná forma F.

    Závislá premenná Y

    Predpokladajme teraz, že vektor neznámych parametrov β má dĺžku k. Na vykonanie regresnej analýzy musí používateľ poskytnúť informácie o závislej premennej Y:

    • Ak je pozorovaných N dátových bodov tvaru (Y, X), kde N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
    • Ak je presne pozorované N = K a funkcia F je lineárna, potom rovnicu Y = F (X, β) možno vyriešiť presne, nie približne. To sa scvrkáva na riešenie sady N-rovníc s N-neznámymi (prvky β), ktoré majú jedinečné riešenie, pokiaľ je X lineárne nezávislé. Ak F je nelineárne, riešenie nemusí existovať alebo môže existovať veľa riešení.
    • Najbežnejšia situácia je tam, kde je pozorovaných N> bodov k údajom. V tomto prípade je v dátach dostatok informácií na odhad jedinečnej hodnoty p, ktorá najlepšie vyhovuje údajom, a regresného modelu, v ktorom je možné aplikáciu na údaje vnímať ako príliš určený systém v β.

    V druhom prípade regresná analýza poskytuje nástroje pre:

    • Hľadajte riešenie pre neznáme parametre β, ktoré napríklad minimalizuje vzdialenosť medzi nameranou a predpovedanou hodnotou Y.
    • Za určitých štatistických predpokladov používa regresná analýza nadbytočné informácie na poskytnutie štatistických informácií o neznámych parametroch β a predpovedaných hodnotách závislej premennej Y.

    Požadovaný počet nezávislých meraní

    Uvažujme o regresnom modeli, ktorý má tri neznáme parametre: β 0, β 1 a β 2. Predpokladajme, že experimentátor vykoná 10 meraní s rovnakou hodnotou nezávislej premennej pre vektor X. V tomto prípade regresná analýza neposkytuje jedinečný súbor hodnôt. Najlepšie urobíte, ak odhadnete priemer a štandardnú odchýlku závislej premennej Y. Podobne meraním dvoch rôznych hodnôt X získate dostatok údajov na regresiu s dvoma neznámymi, ale nie s tromi alebo viacerými neznámymi.

    Ak boli experimentátorove merania vykonané pri troch rôznych hodnotách nezávislej premennej vektora X, potom regresná analýza poskytne jedinečný súbor odhadov pre tri neznáme parametre v β.

    V prípade všeobecnej lineárnej regresie je vyššie uvedené tvrdenie ekvivalentné požiadavke, aby matica X T X bola invertibilná.

    Štatistické predpoklady

    Keď je počet meraní N väčší ako počet neznámych parametrov k a chyby merania e e, potom sa spravidla šíri prebytok informácií obsiahnutých v meraniach a použije sa na štatistické predpovede týkajúce sa neznámych parametrov. Tento prebytok informácií sa nazýva stupeň voľnosti regresie.

    Základné predpoklady

    Klasické predpoklady pre regresnú analýzu zahŕňajú:

    • Vzorka je reprezentantom predpovednej inferencie.
    • Chyba je náhodná premenná s priemerom nuly, ktorá je podmienená vysvetľujúcimi premennými.
    • Vysvetľujúce premenné sa merajú bez chyby.
    • Ako nezávislé premenné (prediktory) sú lineárne nezávislé, to znamená, že nie je možné vyjadriť žiadny prediktor ako lineárnu kombináciu ostatných.
    • Chyby sú nekorelované, to znamená, že chybová kovariančná matica uhlopriečok a každý nenulový prvok je odchýlkou ​​chyby.
    • Rozptyl chyby je podľa pozorovaní (homoscedasticita) konštantný. Ak nie, potom je možné použiť vážené najmenšie štvorce alebo iné metódy.

    Tieto dostatočné podmienky pre odhad najmenších štvorcov majú požadované vlastnosti, najmä tieto predpoklady znamenajú, že odhady parametrov budú objektívne, konzistentné a účinné, najmä ak sa vezmú do úvahy v triede lineárnych odhadov. Je dôležité poznamenať, že dôkazy len zriedka spĺňajú podmienky. To znamená, že metóda sa používa, aj keď predpoklady nie sú správne. Odchýlky od predpokladov možno niekedy použiť ako meradlo toho, ako užitočný je model. Mnoho z týchto predpokladov je možné uvoľniť v pokročilejších metódach. Správy o štatistickej analýze zvyčajne obsahujú analýzu testov na základe vzorových údajov a metodológiu užitočnosti modelu.

    Premenné sa v niektorých prípadoch navyše týkajú hodnôt nameraných v bodových polohách. V premenných môžu existovať priestorové trendy a priestorové autokorelácie, ktoré sú v rozpore so štatistickými predpokladmi. Geograficky vážená regresia je jedinou technikou, ktorá sa zaoberá týmto druhom údajov.

    Pri lineárnej regresii je vlastnosťou, že závislá premenná, ktorou je Y i, je lineárnou kombináciou parametrov. Napríklad jednoduchá lineárna regresia používa na modelovanie n bodov jednu nezávislú premennú x i a dva parametre β 0 a β 1.

    Pri viacnásobnej lineárnej regresii existuje niekoľko nezávislých premenných alebo ich funkcií.

    Pri náhodnom vzorkovaní z populácie jeho parametre poskytujú vzorku lineárneho regresného modelu.

    V tomto ohľade je metóda najmenších štvorcov najobľúbenejšia. Používa sa na získanie odhadov parametrov, ktoré minimalizujú súčet druhých mocnín zvyškov. Tento druh minimalizácie (ktorá je typická pre lineárnu regresiu) tejto funkcie vedie k množine normálnych rovníc a množine lineárnych rovníc s parametrami, ktoré sa riešia na získanie odhadov parametrov.

    Za predpokladu, že sa ďalej šíri populačná chyba, môže výskumník použiť tieto odhady štandardných chýb na vytvorenie intervalov spoľahlivosti a testovanie hypotéz o jeho parametroch.

    Nelineárna regresná analýza

    Príklad, kde funkcia nie je vzhľadom na parametre lineárna, naznačuje, že súčet druhých mocnín je potrebné minimalizovať iteračným postupom. To prináša mnoho komplikácií, ktoré rozlišujú lineárne a nelineárne najmenšie štvorce. V dôsledku toho sú výsledky regresnej analýzy pri použití nelineárnej metódy niekedy nepredvídateľné.

    Výpočet výkonu a veľkosti vzorky

    Tu spravidla neexistujú konzistentné metódy týkajúce sa počtu pozorovaní oproti počtu vysvetľujúcich premenných v modeli. Prvé pravidlo navrhli Dobra a Hardin a vyzerá ako N = t ^ n, kde N je veľkosť vzorky, n je počet nezávislých premenných a t je počet pozorovaní potrebných na dosiahnutie požadovanej presnosti, ak model mal iba jedna nezávislá premenná. Výskumník napríklad zostavuje model lineárnej regresie pomocou súboru údajov, ktorý obsahuje 1 000 pacientov (N). Ak sa výskumník rozhodne, že na presné určenie priamky (m) je potrebných päť pozorovaní, potom je maximálny počet nezávislých premenných, ktoré model môže podporovať, 4.

    Iné metódy

    Aj keď sa parametre regresného modelu zvyčajne odhadujú pomocou metódy najmenších štvorcov, existujú aj iné metódy, ktoré sa používajú oveľa menej často. Ide napríklad o nasledujúce metódy:

    • Bayesovské metódy (napríklad Bayesovská metóda lineárnej regresie).
    • Percentuálna regresia používaná v situáciách, kde je vhodnejšie zníženie percentuálnych chýb.
    • Najmenšie absolútne odchýlky, ktoré sú robustnejšie v prípade extrémnych hodnôt vedúcich k kvantilovej regresii.
    • Neparametrická regresia vyžadujúca veľký počet pozorovaní a výpočtov.
    • Metrika dištančného vzdelávania, ktorá sa učí pri hľadaní zmysluplnej metriky vzdialenosti v danom vstupnom priestore.

    Softvér

    Všetky hlavné balíčky štatistického softvéru sa vykonávajú pomocou regresnej analýzy s najmenšími štvorcami. Jednoduchú lineárnu regresnú a viacnásobnú regresnú analýzu je možné použiť v niektorých tabuľkových procesoroch aj v niektorých kalkulačkách. Napriek tomu, že mnohé balíky štatistického softvéru môžu vykonávať rôzne typy neparametrických a robustných regresií, tieto metódy sú menej štandardizované; rôzne softvérové ​​balíky implementujú rôzne metódy. Špecializovaný regresný softvér bol vyvinutý na použitie v oblastiach, ako je prieskumná analýza a neuroimaging.

    Moderná politológia vychádza z pozície vzťahu všetkých javov a procesov v spoločnosti. Nie je možné porozumieť udalostiam a procesom, predpovedať a riadiť javy politického života bez štúdia súvislostí a závislostí, ktoré existujú v politickej sfére života spoločnosti. Jedným z najbežnejších cieľov politického výskumu je preskúmať vzťah medzi určitými pozorovateľnými premennými. Tento problém pomáha vyriešiť celá trieda štatistických analytických metód, zjednotená všeobecným názvom „regresná analýza“ (alebo, ako sa nazýva aj „korelačno-regresná analýza“). Ak však korelačná analýza umožňuje posúdiť silu vzťahu medzi dvoma premennými, je možné pomocou regresnej analýzy určiť typ tohto vzťahu a predpovedať závislosť hodnoty akejkoľvek premennej od hodnoty inej premennej.

    Najprv si pripomeňme, čo je korelácia. Korelácia sa nazýva najdôležitejší špeciálny prípad štatistického spojenia, ktorý spočíva v tom, že rovnaké hodnoty jednej premennej zodpovedajú rôznym priemerné hodnotyďalší. So zmenou hodnoty atribútu x sa priemerná hodnota atribútu y mení pravidelným spôsobom, pričom v každom jednotlivom prípade hodnota atribútu o(s rôznou pravdepodobnosťou) môže nadobudnúť mnoho rôznych hodnôt.

    Výskyt pojmu „korelácia“ v štatistikách (a politológia zahŕňa dosahovanie štatistík, čo je teda disciplína súvisiaca s politológiou), je spojený s menom anglického biológa a štatistika Francisa Galtona, ktorý navrhol v r. 19. storočie. teoretické základy korelačnej a regresnej analýzy. Termín „korelácia“ bol vo vede známy už predtým. Najmä v paleontológii už v 18. storočí. aplikoval to francúzsky vedec Georges Cuvier. Zaviedol takzvaný zákon korelácie, pomocou ktorého z pozostatkov zvierat nájdených počas vykopávok bolo možné obnoviť ich vzhľad.

    S menom tohto vedca a jeho zákonom korelácie je spojený známy príbeh. V dni univerzitných prázdnin teda študenti, ktorí sa rozhodli trik so slávnym profesorom, vytiahli na jedného študenta koziu kožu s rohmi a kopytami. Preliezol oknom Cuvierovej spálne a zakričal: „Zjem ťa.“ Profesor sa zobudil, pozrel na siluetu a odpovedal: „Ak máš rohy a kopytá, si bylinožravec a nemôžeš ma jesť. A za neznalosť zákona korelácie dostanete dvojku. “ Otočil sa na druhú stranu a zaspal. Je to vtip, ale v tomto prípade pozorujeme špeciálny prípad použitia viacnásobnej korelačno-regresnej analýzy. Tu profesor vychádzajúc zo znalosti hodnôt dvoch pozorovaných znakov (prítomnosť rohov a kopýt) na základe korelačného zákona vyvodil priemernú hodnotu tretieho znaku (triedy, do ktorej toto zviera patrí). - bylinožravec). V tomto prípade nehovoríme o konkrétnej hodnote tejto premennej (t. J. Toto zviera by mohlo mať v nominálnom meradle rôzne hodnoty - môže to byť koza, baran alebo býk ...).

    Teraz prejdeme k pojmu „regresia“. Presne povedané, nesúvisí to s významom tých štatistických problémov, ktoré sa riešia touto metódou. Vysvetlenie pojmu je možné podať iba na základe znalosti histórie vývoja metód na štúdium súvislostí medzi znakmi. Jedným z prvých príkladov výskumu tohto druhu bola práca štatistikov F. Galtona a K. Pearsona, ktorí sa pokúsili nájsť vzorec medzi rastom otcov a ich detí v dvoch sledovaných charakteristikách (kde X- rast otcov a Y- rast detí). V priebehu svojho výskumu potvrdili počiatočnú hypotézu, že vysokí otcovia majú v priemere vysoké deti. Rovnaký princíp platí pre nízkych otcov a deti. Ak by sa však vedci zastavili, ich diela by nikdy neboli uvedené v učebniciach štatistiky. Vedci našli ďalší vzorec v rámci už spomínanej potvrdenej hypotézy. Dokázali, že veľmi vysokí otcovia sa rodia na priemerných vysokých deťoch, ale nie príliš vysokých na rozdiel od detí, ktorých otcovia, hoci sú nadpriemerní, sa od priemernej výšky príliš nelíšia. To isté platí pre otcov s veľmi nízkym rastom (odchyľujúcich sa od priemeru krátkej skupiny) - ich deti sa v priemere výškou nelíšili od svojich rovesníkov, ktorých otcovia boli jednoducho nízky. Nazvali funkciu popisujúcu tento vzorec regresná funkcia. Po tejto štúdii sa všetky rovnice popisujúce podobné funkcie a zostrojené podobným spôsobom nazývali regresné rovnice.

    Regresná analýza je jednou z metód viacrozmernej štatistickej analýzy údajov, ktorá kombinuje súbor štatistických techník určených na štúdium alebo modelovanie vzťahov medzi jednou závislou a niekoľkými (alebo jednou) nezávislými premennými. Závislá premenná sa podľa tradície akceptovanej v štatistikách nazýva odpoveď a označuje sa ako V. Nezávislé premenné sa nazývajú prediktory a označujú sa ako X. V priebehu analýzy budú niektoré premenné slabo závisieť od reakcie a budú z analýzy nakoniec vylúčené. Zostávajúce premenné súvisiace so závislými možno tiež označiť ako faktory.

    Regresná analýza umožňuje predpovedať hodnoty jednej alebo viacerých premenných v závislosti od inej premennej (napríklad sklon k nekonvenčnému politickému správaniu v závislosti od stupňa vzdelania) alebo niekoľkých premenných. Vypočítava sa na PC. Na zostavenie regresnej rovnice, ktorá vám umožní zmerať stupeň závislosti riadenej funkcie od faktoriálu, je potrebné zapojiť profesionálnych matematikov a programátorov. Regresná analýza môže poskytnúť neoceniteľnú službu pri vytváraní prediktívnych modelov pre rozvoj politickej situácie, pri hodnotení príčin sociálneho napätia a pri vykonávaní teoretických experimentov. Regresná analýza sa aktívne používa na štúdium vplyvu viacerých sociálno-demografických parametrov na volebné správanie občanov: pohlavie, vek, profesia, miesto pobytu, národnosť, úroveň a povaha príjmu.

    Regresná analýza používa koncepty nezávislý a závislý premenné. Nezávislá premenná je premenná, ktorá vysvetľuje alebo spôsobuje zmenu v inej premennej. Závislá premenná je premenná, ktorej hodnota sa vysvetľuje vplyvom prvej premennej. Napríklad v prezidentských voľbách v roku 2004 boli určujúce faktory, t.j. nezávislými premennými boli také ukazovatele, ako je stabilizácia materiálnej situácie obyvateľstva krajiny, úroveň popularity kandidátov a faktor úradujúca funkcia. Závislou premennou je v tomto prípade percento hlasov odovzdaných kandidátom. Podobne v páre premenných „vek voliča“ a „úroveň volebnej aktivity“ je prvý nezávislý a druhý závislý.

    Regresná analýza vám umožňuje vyriešiť nasledujúce úlohy:

    • 1) stanoviť samotný fakt prítomnosti alebo neprítomnosti štatisticky významného vzťahu medzi Ki X;
    • 2) zostaviť najlepšie (v štatistickom zmysle) odhady regresnej funkcie;
    • 3) podľa stanovených hodnôt X vytvoriť predpoveď pre neznáme Mať
    • 4) odhadnite špecifickú váhu vplyvu každého faktora X na Mať a podľa toho vylúčiť z modelu nepodstatné vlastnosti;
    • 5) identifikovaním príčinných vzťahov medzi premennými čiastočne kontrolovať hodnoty P reguláciou hodnôt vysvetľujúcich premenných X.

    Regresná analýza je spojená s potrebou výberu navzájom nezávislých premenných, ktoré ovplyvňujú hodnotu sledovaného indikátora, určenia formy regresnej rovnice, odhadu parametrov pomocou štatistických metód na spracovanie primárnych sociologických údajov. Tento typ analýzy je založený na myšlienke tvaru, smeru a tesnosti (hustoty) vzťahu. Rozlíšiť parná miestnosť a viacnásobná regresia v závislosti od počtu skúmaných funkcií. V praxi sa regresná analýza obvykle vykonáva v spojení s korelačnou analýzou. Regresná rovnica opisuje numerický vzťah medzi veličinami, vyjadrený ako tendencia k zvýšeniu alebo zníženiu v jednej premennej so zvýšením alebo znížením v druhej. Zároveň sú nahnevaní. mrazivý a nelineárna regresia. Pri popise politických procesov sa oba varianty regresie nachádzajú rovnako.

    Bodový graf distribúcie vzájomnej závislosti záujmu o politické články ( Y) a vzdelávanie respondentov (X) je lineárna regresia (obr. 30).

    Ryža. tridsať.

    Bodový graf rozloženia úrovne volebnej aktivity ( Y) a vek respondenta (A) (podmienený príklad) je nelineárnou regresiou (obr. 31).


    Ryža. 31.

    Na opis vzťahu medzi dvoma znakmi (A "a Y) v párovom regresnom modeli sa používa lineárna rovnica

    kde a, je náhodná hodnota chyby rovnice s variáciou znakov, t.j. odchýlka rovnice od „linearity“.

    Odhadnúť koeficienty a a b použite metódu najmenších štvorcov, ktorá predpokladá, že súčet druhých mocnín odchýlok každého bodu na bodovom grafe od regresnej čiary by mal byť minimálny. Kurzy a h b je možné vypočítať pomocou systému rovníc:

    Metóda odhadu najmenších štvorcov poskytuje také odhady koeficientov a a B, v ktorom priama čiara prechádza bodom so súradnicami NS a y, tí. vzťah platí o = sekera + b. Nazýva sa grafické znázornenie regresnej rovnice teoretická regresná čiara. Pri lineárnom vzťahu regresný koeficient predstavuje na grafe tangens sklonu teoretickej regresnej čiary k osi x. Znak na koeficiente ukazuje smer spojenia. Ak je väčšia ako nula, potom je spojenie priame; ak je menšie, je inverzné.

    Nasledujúci príklad zo štúdie „Politický Petersburg-2006“ (tabuľka 56) ukazuje lineárny vzťah medzi vnímaním občanov mierou spokojnosti so svojim životom v súčasnosti a očakávaniami zmien v kvalite života v budúcnosti. Vzťah je priamy, lineárny (štandardizovaný regresný koeficient je 0,233, hladina významnosti je 0,000). V tomto prípade je regresný koeficient nízky, ale presahuje dolnú hranicu štatisticky významného indikátora (dolná hranica štvorca štatisticky významného indikátora Pearsonovho koeficientu).

    Tabuľka 56

    Vplyv kvality života občanov v súčasnosti na očakávania

    (Petrohrad, 2006)

    * Závislá premenná: „Ako sa podľa vás zmení váš život v nasledujúcich 2-3 rokoch?“

    V politickom živote hodnota študovanej premennej najčastejšie závisí od viacerých charakteristík súčasne. Napríklad úroveň a charakter politickej aktivity súbežne ovplyvňuje politický režim štátu, politické tradície, zvláštnosti politického správania ľudí v danej oblasti a sociálna mikroskupina respondenta, jeho vek, vzdelanie, úroveň príjmu , politická orientácia a pod. V tomto prípade je potrebné použiť rovnicu viacnásobná regresia ktorý vyzerá takto:

    kde koeficient B.- koeficient čiastočnej regresie. Ukazuje príspevok každej nezávislej premennej k určeniu hodnôt nezávislej (výslednej) premennej. Ak je koeficient čiastočnej regresie blízky 0, potom môžeme dospieť k záveru, že neexistuje žiadny priamy vzťah medzi nezávislými a závislými premennými.

    Výpočet takéhoto modelu je možné vykonať na počítači PC pomocou maticovej algebry. Viacnásobná regresia vám umožňuje reflektovať multifaktoriálnu povahu sociálnych väzieb a objasniť mieru vplyvu každého faktora jednotlivo a kolektívne na výslednú vlastnosť.

    Označený koeficient B, sa nazýva koeficient lineárnej regresie a ukazuje silu vzťahu medzi variáciami atribútu faktora X a variácia efektívnej vlastnosti Y Tento koeficient meria pevnosť väzby v absolútnych jednotkách merania vlastností. Tesnosť korelácie medzi znakmi však možno vyjadriť v zlomkoch štandardnej odchýlky efektívneho znaku (takýto koeficient sa nazýva korelačný koeficient). Na rozdiel od regresného koeficientu b korelačný koeficient nezávisí od prijatých jednotiek merania znakov, a preto je porovnateľný s akýmikoľvek znakmi. Obvykle sa spojenie považuje za silné, ak /> 0,7, stredná tesnosť - pri 0,5 g 0,5.

    Ako viete, najbližšie spojenie je funkčné spojenie, kde každý jednotlivý význam Y je možné tejto hodnote jednoznačne priradiť X.Čím je teda korelačný koeficient bližšie k 1, tým bližšie je vzťah k funkčnému. Hladina významnosti pre regresnú analýzu by nemala prekročiť 0,001.

    Korelačný koeficient bol dlho považovaný za hlavný indikátor tesnosti vzťahu vlastností. Takýmto ukazovateľom sa však neskôr stal koeficient determinácie. Význam tohto koeficientu je nasledujúci - odráža podiel na celkovom rozptyle výsledného znaku Mať, vysvetlené odchýlkou ​​funkcie X. Zistí sa to jednoduchým štvorcovaním korelačného koeficientu (pohybujúcim sa od 0 do 1) a naopak pre lineárny vzťah odráža podiel od 0 (0%) do 1 (100%) charakteristické hodnoty Y, definované charakteristickými hodnotami X. Je napísané ako Ja 2, a vo výsledných tabuľkách regresnej analýzy v balíku SPSS - bez štvorca.

    Označme hlavné problémy zostrojenia rovnice viacnásobnej regresie.

    • 1. Výber faktorov zahrnutých v regresnej rovnici. V tejto fáze výskumník najskôr zostaví všeobecný zoznam hlavných dôvodov, ktoré podľa teórie určujú študovaný jav. Potom musí vybrať prvky v regresnej rovnici. Základné pravidlo výberu: faktory zahrnuté v analýze by mali navzájom korelovať čo najmenej; iba v tomto prípade je možné určitému faktorovému atribútu priradiť kvantitatívnu mieru vplyvu.
    • 2. Voľba tvaru viacnásobnej regresnej rovnice(v praxi často používajú lineárne alebo lineárne-logaritmické). Aby teda mohol použiť viacnásobnú regresiu, musí výskumník najskôr zostaviť hypotetický model účinku niekoľkých nezávislých premenných na výslednicu. Aby boli získané výsledky spoľahlivé, je nevyhnutné, aby model presne zodpovedal skutočnému postupu, t.j. vzťah medzi premennými musí byť lineárny, nemožno ignorovať žiadne významné nezávislé premenné a žiadnu premennú, ktorá priamo nesúvisí so skúmaným procesom, nemožno zahrnúť do analýzy. Všetky merania premenných musia byť navyše mimoriadne presné.

    Vyššie uvedený opis implikuje množstvo podmienok pre aplikáciu tejto metódy, bez ktorých nie je možné pokračovať v samotnom postupe viacnásobnej regresnej analýzy (MRA). Iba dodržiavanie všetkých nižšie uvedených bodov umožňuje správne vykonať regresnú analýzu.

    2005-2017, HOCHU.UA