Dispersioonanalüüs. Mitmemõõtmeline dispersioonanalüüs ANOVA dispersioonkomponentide mudel

Dispersioonanalüüs

1. Dispersioonanalüüsi mõiste

Dispersioonanalüüs on tunnuse varieeruvuse analüüs mis tahes kontrollitud muutuva faktori mõjul. Väliskirjanduses nimetatakse dispersioonanalüüsi sageli ANOVA-ks, mida tõlgitakse kui varieeruvuse analüüsi (Analysis of Variance).

ANOVA probleem seisneb erinevat tüüpi varieeruvuse eraldamises tunnuse üldisest varieeruvusest:

a) varieeruvus iga uuritava sõltumatu muutuja toimest;

b) uuritavate sõltumatute muutujate vastasmõjust tulenev varieeruvus;

c) kõigist teistest tundmatutest muutujatest tingitud juhuslik varieeruvus.

Uuritavate muutujate toimest ja nende vastasmõjust tulenev varieeruvus on korrelatsioonis juhusliku varieeruvusega. Selle seose indikaatoriks on Fisheri F-test.

F-kriteeriumi arvutamise valem sisaldab dispersioonide hinnanguid, st atribuudi jaotusparameetreid, seetõttu on F-kriteerium parameetriline kriteerium.

Mida rohkem on tunnuse varieeruvus tingitud uuritavatest muutujatest (teguritest) või nende vastasmõjust, seda suurem empiirilised kriteeriumi väärtused.

Null dispersioonanalüüsi hüpotees väidab, et uuritud efektiivse tunnuse keskmised väärtused on kõigis astmetes samad.

Alternatiivne hüpotees väidab, et saadud karakteristiku keskmised väärtused uuritava teguri erinevates astmetes on erinevad.

Dispersioonanalüüs võimaldab meil väita tunnuse muutust, kuid ei näita suunas need muudatused.

Alustame dispersioonanalüüsi käsitlemist kõige lihtsama juhtumiga, kui uurime ainult toimingut üks muutuv (üks tegur).

2. Mitteseotud valimite ühesuunaline dispersioonanalüüs

2.1. Meetodi eesmärk

Ühefaktorilise dispersioonanalüüsi meetodit kasutatakse juhtudel, kui efektiivse tunnuse muutusi uuritakse muutuvate tingimuste või teguri gradatsioonide mõjul. Meetodi selles versioonis on teguri iga gradatsiooni mõju erinevõppeainete näidised. Teguri astmeid peab olema vähemalt kolm. (Astmeid võib olla kaks, kuid sel juhul ei saa me luua mittelineaarseid sõltuvusi ja tundub mõistlikum kasutada lihtsamaid).

Seda tüüpi analüüsi mitteparameetriline versioon on Kruskal-Wallis H test.

Hüpoteesid

H 0: erinevused faktorite klasside (erinevate tingimuste) vahel ei ole suuremad kui juhuslikud erinevused igas rühmas.

H 1: erinevused faktorite klasside (erinevate tingimuste) vahel on suuremad kui juhuslikud erinevused iga rühma sees.

2.2. Sõltumatute proovide ühesuunalise dispersioonanalüüsi piirangud

1. Ühesuunaline dispersioonanalüüs nõuab vähemalt kolme teguri gradatsiooni ja vähemalt kahte ainet igas astmes.

2. Saadud tunnus peab uuritavas valimis olema normaalselt jaotunud.

Tõsi, enamasti ei näidata, kas räägitakse tunnuse jaotusest kogu uuritavas valimis või selle selles osas, mis moodustab dispersioonikompleksi.

3. Näide ülesande lahendamisest sõltumatute valimite ühesuunalise dispersioonanalüüsi meetodil, kasutades näidet:

Kolmele erinevale kuuest ainest koosnevale rühmale anti kümnesõnalised loendid. Esimesele rühmale esitati sõnu väikese kiirusega - 1 sõna 5 sekundis, teisele rühmale keskmise kiirusega - 1 sõna 2 sekundi kohta ja kolmandale rühmale suure kiirusega - 1 sõna sekundis. Eeldati, et reprodutseerimise jõudlus sõltub sõna esitlemise kiirusest. Tulemused on esitatud tabelis. 1.

Reprodutseeritud sõnade arv Tabel 1

Teema nr.

madal kiirus

keskmine kiirus

suur kiirus

kogu summa

H 0: Sõnaloome ulatuse erinevused vahel rühmad ei ole rohkem väljendunud kui juhuslikud erinevused sees iga rühm.

H1: Erinevused sõnade tootmise mahus vahel rühmad on rohkem väljendunud kui juhuslikud erinevused sees iga rühm. Kasutades tabelis esitatud katseväärtusi. 1, kehtestame mõned väärtused, mis on vajalikud F-kriteeriumi arvutamiseks.

Ühesuunalise dispersioonanalüüsi põhisuuruste arvutamine on toodud tabelis:

tabel 2

Tabel 3

Toimingute jada sõltumatute valimite ühesuunalises dispersioonanalüüsis

Selles ja järgnevates tabelites sageli esinev nimetus SS on lühend sõnadest "ruutude summa". Seda lühendit kasutatakse kõige sagedamini tõlkeallikates.

SS fakt tähendab tunnuse muutlikkust uuritava teguri toimest;

SS üldiselt- tunnuse üldine varieeruvus;

S C.A.- varieeruvus, mis tuleneb arvesse võtmata teguritest, "juhuslik" või "jääk" varieeruvus.

PRL- “keskmine ruut” ehk ruutude summa matemaatiline ootus, vastava SS-i keskmine väärtus.

df - vabadusastmete arv, mida mitteparameetrilisi kriteeriume arvesse võttes tähistasime kreeka tähega v.

Järeldus: H 0 lükatakse tagasi. H 1 on aktsepteeritud. Erinevused sõnade meeldejätmises rühmade vahel olid suuremad kui juhuslikud erinevused iga rühma sees (α=0,05). Niisiis mõjutab sõnade esitamise kiirus nende reprodutseerimise mahtu.

Allpool on toodud näide probleemi lahendamisest Excelis:

Algandmed:

Kasutades käsku: Tööriistad->Andmete analüüs->Ühesuunaline ANOVA, saame järgmised tulemused:

Nagu juba märgitud, on dispersioonimeetod tihedalt seotud statistiliste rühmitustega ja eeldab, et uuritav populatsioon jagatakse tegurite tunnuste järgi rühmadesse, mille mõju tuleks uurida.

Dispersioonanalüüsi põhjal saadakse järgmine:

1. grupi keskmiste erinevuste usaldusväärsuse hindamine ühe või mitme faktori tunnuse puhul;

2. tegurite vastastikmõjude usaldusväärsuse hindamine;

3. keskmiste paaride osaerinevuste hindamine.

Dispersioonanalüüsi rakendamine põhineb tunnuse dispersioonide (variatsioonide) komponentideks lagunemise seadusel.

Saadud karakteristiku koguvariatsiooni D o rühmitamise ajal saab jagada järgmisteks komponentideks:

1. rühmadesse D m on seotud rühmitamistunnusega;

2. jäägi jaoks(grupisisene) D B ei ole seotud grupeerimistunnusega.

Nende näitajate vahelist seost väljendatakse järgmiselt:

D o = D m + D in. (1.30)

Vaatame näite abil dispersioonanalüüsi kasutamist.

Oletame, et soovite tõestada, kas külvikuupäevad mõjutavad nisu saaki. Esialgsed eksperimentaalsed andmed dispersioonanalüüsiks on toodud tabelis. 8.

Tabel 8

Selles näites N = 32, K = 4, l = 8.

Määrame saagikuse kogumuutuse, mis on üksikute tunnuste väärtuste ruutude kõrvalekallete summa üldisest keskmisest:

kus N on rahvastiku ühikute arv; Y i – individuaalsed saagikuse väärtused; Y o on kogu populatsiooni keskmine saagikus.

Rühmadevahelise koguvariatsiooni määramiseks, mis määrab efektiivse karakteristiku variatsiooni uuritavast tegurist, on vaja teada iga rühma efektiivse karakteristiku keskmisi väärtusi. See koguvariatsioon võrdub rühmade keskmiste tunnuse üldisest keskmisest väärtusest tulenevate ruutude kõrvalekallete summaga, mis on kaalutud iga rühma populatsiooniüksuste arvuga:

Rühmasisene koguvariatsioon on võrdne tunnuse individuaalsete väärtuste ruutude kõrvalekallete summaga iga rühma rühma keskmistest väärtustest, mis on liidetud kõigi populatsiooni rühmade lõikes.

Teguri mõju tekkivale tunnusele avaldub Dm ja Dv vahelises seoses: mida tugevam on teguri mõju uuritava tunnuse väärtusele, seda suurem on Dm ja seda väiksem on Dv.

Dispersioonanalüüsi läbiviimiseks on vaja kindlaks teha tunnuse variatsiooni allikad, variatsiooni maht allikate kaupa ja määrata iga variatsioonikomponendi vabadusastmete arv.

Variatsiooni suurus on juba kindlaks määratud, nüüd on vaja määrata variatsiooni vabadusastmete arv. Vabadusastmete arv on tunnuse üksikute väärtuste sõltumatute kõrvalekallete arv selle keskmisest väärtusest. Vabadusastmete koguarv, mis vastab ANOVA hälvete ruudu summale, jagatakse variatsioonikomponentideks. Seega vastab hälvete ruudu summa D o variatsioonivabadusastmete arvule, mis on võrdne N – 1 = 31. Rühmavariatsioon D m  vastab variatsioonivabadusastmete arvule, mis võrdub K – 1 = 3. Grupisisene jääkvariatsioon vastab variatsioonivabadusastmete arvule, mis on võrdne N – K = 28.


Nüüd, teades hälvete ruudu summat ja vabadusastmete arvu, saame määrata iga komponendi dispersioonid. Tähistagem neid dispersioone: d m - rühm ja d - grupisisene.

Pärast nende dispersioonide arvutamist asume kindlaks määrama teguri mõju olulisuse saadud karakteristikule. Selleks leiame suhte: d M / d B = F f,

Suurus F f, nn Fisheri kriteerium , võrreldes tabeliga, F tabel. Nagu juba märgitud, kui F f > F tabel, siis on teguri mõju efektiivsele atribuudile tõestatud. Kui F f< F табл то можно утверждать, что различие между дисперсиями находится в пределах возможных случайных колебаний и, следовательно, не доказывает с достаточной вероятностью влияние изучаемого фактора.

Teoreetiline väärtus on seotud tõenäosusega ja tabelis on selle väärtus antud teatud otsuse tõenäosuse tasemel. Lisas on tabel, mis võimaldab määrata F-i võimaliku väärtuse kohtuotsuse tõenäosusele, kõige sagedamini kasutatavale: “nullhüpoteesi” tõenäosustase on 0,05. "Nullhüpoteesi" tõenäosuste asemel võib tabelit nimetada teguri mõju olulisuse tõenäosuse 0,95 tabeliks. Tõenäosustaseme suurendamine nõuab võrdluseks tabeli kõrgemat F väärtust.

F tabeli väärtus sõltub ka kahe võrreldava dispersiooni vabadusastmete arvust. Kui vabadusastmete arv kaldub lõpmatuseni, siis F tabel kaldub ühtsuse poole.

F-tabeli väärtuste tabel on koostatud järgmiselt: tabeli veerud näitavad suurema dispersiooni variatsioonivabadusastmeid ja read tähistavad väiksema (rühmasisese) dispersiooni vabadusastmeid. F väärtus leitakse vastavate variatsioonivabadusastmete veeru ja rea ​​ristumiskohast.

Niisiis, meie näites on F f = 21,3/3,8 = 5,6. Tabeli F tabeli väärtus tõenäosuse 0,95 ja vabadusastmete puhul, mis on vastavalt 3 ja 28, F tabel = 2,95.

Eksperimentaalselt saadud F f väärtus ületab teoreetilise väärtuse isegi tõenäosusega 0,99. Järelikult tõestab kogemus tõenäosusega üle 0,99 uuritava faktori mõju saagikusele, s.t kogemust võib pidada usaldusväärseks, tõestatuks ning seetõttu mõjutab külviaeg oluliselt nisu saagikust. Optimaalseks külviperioodiks tuleks pidada ajavahemikku 10.–15. mai, kuna just sellel külviperioodil saadi parimad saagitulemused.

Uurisime dispersioonanalüüsi meetodit ühe tunnuse järgi rühmitamisel ja korduste juhuslikult jaotamisel rühma sees. Tihti aga juhtub, et katselapil on mullaviljakuses mõningaid erinevusi jne. Seetõttu võib tekkida olukord, et paremasse ossa langeb suurem arv ühe variandi proovitükke ning selle näitajad on ülehinnatud ning teisest võimalusest - halvimal osal ja tulemused on sel juhul loomulikult halvemad, st alahinnatud.

Katsega mitteseotud põhjustest põhjustatud variatsiooni välistamiseks on vaja isoleerida korduste (plokkide) põhjal arvutatud dispersioon rühmasisesest (jääk) dispersioonist.

Ruuthälvete kogusumma jaguneb sel juhul kolmeks komponendiks:

D o = D m + D kordus + D puhkus. (1,33)

Meie näite puhul on korduste põhjustatud hälvete ruudu summa võrdne:

Seetõttu on hälvete ruudu tegelik juhuslik summa võrdne:

D puhkus = D sisse – D kordus; D puhkus = 106 – 44 = 62.

Jääkdispersiooni puhul on vabadusastmete arv võrdne 28 – 7 = 21. Dispersioonanalüüsi tulemused on toodud tabelis. 9.

Tabel 9

Kuna F-kriteeriumi tegelikud väärtused tõenäosusega 0,95 ületavad tabelites olevaid, tuleks külvikuupäevade ja korduste mõju nisu saagile pidada oluliseks. Vaadeldavat eksperimendi koostamise meetodit, kui sait on eelnevalt jagatud suhteliselt joondatud tingimustega plokkideks ja testitavad valikud jaotatakse ploki sees juhuslikus järjekorras, nimetatakse randomiseeritud plokkide meetodiks.

Dispersioonanalüüsi abil saate uurida mitte ainult ühe, vaid kahe või enama teguri mõju tulemusele. Sel juhul kutsutakse välja dispersioonanalüüs mitmemõõtmeline dispersioonanalüüs .

Kahesuunaline ANOVA erineb kahest ühefaktorilisest selle poolest oskab vastata järgmistele küsimustele:

1. 1 milline on mõlema teguri koosmõju?

2. Milline on nende tegurite kombinatsiooni roll?

Vaatleme katse dispersioonanalüüsi, mille käigus on vaja välja selgitada mitte ainult külvikuupäevade, vaid ka sortide mõju nisu saagile (tabel 10).

Tabel 10. Eksperimentaalsed andmed külvikuupäevade ja -sortide mõju kohta nisu saagile

on üksikute väärtuste üldkeskmisest kõrvalekallete ruudu summa.

Külviaja ja sordi koosmõju varieeruvus

on alamrühma keskmiste üldkeskmisest kõrvalekallete ruudus summa, mida on kaalutud korduste arvuga, st 4-ga.

Variatsiooni arvutamine ainult külvikuupäevade mõju põhjal:

Jääkvariatsioon on defineeritud kui erinevus kogu variatsiooni ja uuritavate tegurite ühisest mõjust tuleneva variatsiooni vahel:

D puhkus = D o – D ps = 170 – 96 = 74.

Kõik arvutused saab esitada tabeli kujul (tabel 11).

Tabel 11. Dispersioonanalüüsi tulemused

Dispersioonanalüüsi tulemused näitavad, et uuritud tegurite, st külviaja ja sordi mõju nisu saagile on oluline, kuna iga teguri tegelik F-kriteerium ületab oluliselt vastavate kraadide kohta leitud tabelis toodud kriteeriume. vabadusest ja samal ajal üsna suure tõenäosusega (p = 0,99). Sel juhul tegurite kombinatsiooni mõju puudub, kuna tegurid on üksteisest sõltumatud.

Kolme teguri mõju tulemusele analüüs viiakse läbi sama põhimõtte järgi nagu kahe teguri puhul, ainult sel juhul on teguritel kolm ja tegurite kombinatsioonil neli dispersiooni. Tegurite arvu suurenemisega suureneb järsult arvutustöö maht ja lisaks muutub esialgse teabe järjestamine kombinatsioonitabelisse keeruliseks. Seetõttu on vaevalt soovitatav dispersioonanalüüsi abil uurida paljude tegurite mõju tulemusele; parem on võtta väiksem arv, kuid valida majandusanalüüsi seisukohalt kõige olulisemad tegurid.

Tihti tuleb uurijal tegeleda nn ebaproportsionaalsete dispersioonikompleksidega, s.o sellistega, mille puhul variantide arvude proportsionaalsust ei peeta kinni.

Sellistes kompleksides ei ole tegurite kogumõju varieeruvus võrdne tegurite variatsiooni ja tegurite kombinatsiooni varieerumise summaga. See erineb summa võrra, mis sõltub proportsionaalsuse rikkumise tagajärjel tekkinud üksikute tegurite seoste määrast.

Sel juhul tekivad raskused iga teguri mõjuastme määramisel, kuna üksikute mõjude summa ei võrdu kogumõjuga.

Üks võimalus ebaproportsionaalse kompleksi taandamiseks ühtseks struktuuriks on selle asendamine proportsionaalse kompleksiga, kus sagedused on keskmistatud rühmade kaupa. Kui selline asendus tehakse, lahendatakse probleem proportsionaalsete komplekside põhimõtete kohaselt.

Dispersioonanalüüs on statistiliste meetodite kogum, mis on loodud hüpoteeside kontrollimiseks teatud tunnuste ja uuritud tegurite vahelise seose kohta, millel puudub kvantitatiivne kirjeldus, samuti tegurite mõju määra ja nende vastastikmõju kindlaksmääramiseks. Erikirjanduses nimetatakse seda sageli ANOVA-ks (ingliskeelsest nimetusest Analysis of Variations). Selle meetodi töötas esmakordselt välja R. Fischer 1925. aastal.

Dispersioonanalüüsi liigid ja kriteeriumid

Seda meetodit kasutatakse kvalitatiivsete (nominaalsete) tunnuste ja kvantitatiivse (pideva) muutuja vahelise seose uurimiseks. Sisuliselt kontrollib see hüpoteesi mitme valimi aritmeetiliste keskmiste võrdsuse kohta. Seega võib seda pidada parameetriliseks kriteeriumiks mitme valimi keskpunktide korraga võrdlemisel. Kui seda meetodit kasutatakse kahe valimi puhul, on dispersioonanalüüsi tulemused identsed Studenti t-testi tulemustega. Kuid erinevalt teistest kriteeriumidest võimaldab käesolev uuring probleemi üksikasjalikumalt uurida.

Dispersioonanalüüs statistikas põhineb seadusel: koondvalimi ruudus hälvete summa võrdub grupisiseste hälvete ruudu summaga ja rühmadevaheliste hälvete ruudu summaga. Uuringus kasutatakse Fisheri testi, et teha kindlaks rühmadevaheliste ja rühmadesiseste dispersioonide erinevus. Selle vajalikeks eeldusteks on aga valimite jaotusnormaalsus ja homoskedastilisus (dispersioonide võrdsus). On olemas ühemõõtmeline (ühefaktoriline) dispersioonanalüüs ja mitmemõõtmeline (mitmefaktoriline). Esimene arvestab uuritava väärtuse sõltuvust ühest tunnusest, teine ​​- paljudest korraga ja võimaldab tuvastada ka nendevahelise seose.

tegurid

Tegurid on kontrollitud asjaolud, mis mõjutavad lõpptulemust. Selle tase või töötlemismeetod on väärtus, mis iseloomustab selle seisundi konkreetset ilmingut. Need arvud esitatakse tavaliselt nominaal- või järgumõõtmise skaalal. Sageli mõõdetakse väljundväärtusi kvantitatiivsel või järguskaalal. Seejärel tekib probleem väljundandmete rühmitamisel mitmetes vaatlustes, mis vastavad ligikaudu samadele arvväärtustele. Kui rühmade arvu peetakse liiga suureks, võib nende vaatluste arv olla usaldusväärsete tulemuste saamiseks ebapiisav. Kui võtate arvu liiga väikeseks, võib see kaasa tuua süsteemi mõju oluliste omaduste kadumise. Konkreetne andmete rühmitamise viis sõltub väärtuste varieerumise suurusest ja olemusest. Intervallide arv ja suurus määratakse ühemõõtmelises analüüsis kõige sagedamini võrdsete intervallide või võrdsete sageduste põhimõttega.

Dispersioonprobleemide analüüs

Seega on juhtumeid, kui peate võrdlema kahte või enamat näidist. Just siis on soovitatav kasutada dispersioonanalüüsi. Meetodi nimetus näitab, et järeldused tehakse dispersioonikomponentide uurimise põhjal. Uuringu olemus seisneb selles, et indikaatori üldine muutus jagatakse komponentideks, mis vastavad iga üksiku teguri toimele. Vaatleme mitmeid probleeme, mis lahendatakse tüüpilise dispersioonanalüüsi abil.

Näide 1

Töökojas on hulk automaate, mis toodavad kindlat detaili. Iga osa suurus on juhuslik suurus, mis sõltub iga masina seadistusest ja osade tootmisprotsessi käigus tekkivatest juhuslikest kõrvalekalletest. Osade mõõtmete mõõtmisandmete põhjal tuleb kindlaks teha, kas masinad on konfigureeritud ühtemoodi.

Näide 2

Elektriseadme valmistamisel kasutatakse erinevat tüüpi isoleerpaberit: kondensaator-, elektri- jne. Seadet saab immutada erinevate ainetega: epoksüvaik, lakk, vaik ML-2 jne. Lekkeid saab kõrvaldada vaakumis kl. kõrgendatud rõhuga, soojendusega. Immutamine võib toimuda lakki kastmise teel, pideva lakijoa all jne. Elektriaparaat tervikuna täidetakse teatud ühendiga, mille valikuid on mitu. Kvaliteedinäitajad on isolatsiooni elektriline tugevus, mähise ülekuumenemistemperatuur töörežiimis ja mitmed teised. Seadmete valmistamise tehnoloogilise protsessi väljatöötamisel tuleb kindlaks teha, kuidas iga loetletud tegur mõjutab seadme jõudlust.

Näide 3

Trollibussidepoo teenindab mitut trolliliini. Nad juhivad erinevat tüüpi trollibusse ja piletihindu kogub 125 inspektorit. Depoo juhtkonda huvitab küsimus: kuidas võrrelda iga kontrolöri majandusnäitajaid (tulu), võttes arvesse erinevaid marsruute ja erinevat tüüpi trollibusse? Kuidas teha kindlaks teatud tüüpi trollibusside tootmise majanduslik otstarbekus konkreetsel liinil? Kuidas kehtestada mõistlikud nõuded tulu suurusele, mida konduktor eri tüüpi trollibussides igal liinil toob?

Meetodi valimise ülesanne on saada maksimaalset teavet iga teguri mõju kohta lõpptulemusele, määrata sellise mõju arvulised karakteristikud, nende usaldusväärsus minimaalsete kuludega ja võimalikult lühikese ajaga. Dispersioonanalüüsi meetodid võimaldavad selliseid probleeme lahendada.

Ühemõõtmeline analüüs

Uuringu eesmärk on hinnata konkreetse juhtumi mõju suurust analüüsitavale ülevaatele. Ühemõõtmelise analüüsi teine ​​​​eesmärk võib olla kahe või enama asjaolu võrdlemine üksteisega, et teha kindlaks erinevus nende mõjus meeldetuletamisele. Kui nullhüpotees lükatakse tagasi, on järgmise sammuna kvantifitseerida ja konstrueerida saadud karakteristikute jaoks usaldusvahemikud. Juhul, kui nullhüpoteesi ei saa ümber lükata, võetakse see tavaliselt vastu ja tehakse järeldus mõju olemuse kohta.

Ühesuunaline dispersioonanalüüs võib saada Kruskal-Wallise auaste meetodi mitteparameetriliseks analoogiks. Selle töötasid välja Ameerika matemaatik William Kruskal ja majandusteadlane Wilson Wallis 1952. aastal. Selle kriteeriumi eesmärk on testida nullhüpoteesi mõjude võrdsuse kohta uuritud näidistel, mille keskmised väärtused on teadmata, kuid võrdsed. Sel juhul peab proovide arv olema suurem kui kaks.

Jonckheere-Terpstra kriteeriumi pakkusid iseseisvalt välja Hollandi matemaatik T. J. Terpstra 1952. aastal ja Briti psühholoog E. R. Jonckheere 1954. aastal. Seda kasutatakse juhul, kui on ette teada, et olemasolevad tulemuste rühmad on järjestatud tulemuste mõju kasvu järgi. uuritav tegur, mida mõõdetakse järguskaalal.

M – Bartletti testi, mille pakkus välja Briti statistik Maurice Stevenson Bartlett 1937. aastal, kasutatakse nullhüpoteesi testimiseks mitme normaalse populatsiooni dispersioonide võrdsuse kohta, millest on võetud uuritavad proovid, mis on üldiselt erineva suurusega (igaühe populatsiooni arv). proovi peab olema vähemalt neli).

G – Cochrani test, mille avastas ameeriklane William Gemmell Cochran 1941. aastal. Seda kasutatakse nullhüpoteesi testimiseks normaalsete populatsioonide dispersioonide võrdsuse kohta võrdse suurusega sõltumatutes valimites.

Mitteparameetriline Levene test, mille pakkus välja Ameerika matemaatik Howard Levene 1960. aastal, on alternatiiv Bartletti testile tingimustes, kus puudub kindlus, et uuritavad proovid alluvad normaaljaotusele.

1974. aastal pakkusid Ameerika statistikud Morton B. Brown ja Alan B. Forsythe välja testi (Brown-Forsythe test), mis Levene testist veidi erineb.

Kahefaktoriline analüüs

Seotud normaaljaotusega valimite puhul kasutatakse kahesuunalist dispersioonanalüüsi. Praktikas kasutatakse sageli selle meetodi keerulisi tabeleid, eriti neid, milles iga lahter sisaldab andmete kogumit (korduvad mõõtmised), mis vastavad fikseeritud taseme väärtustele. Kui kahesuunalise dispersioonanalüüsi rakendamiseks vajalikud eeldused ei ole täidetud, kasutage mitteparameetrilist Friedmani järgu testi (Friedman, Kendall ja Smith), mille töötas välja Ameerika majandusteadlane Milton Friedman 1930. aasta lõpus. See test ei sõltu tüübist. levitamisest.

Eeldatakse ainult, et väärtuste jaotus on identne ja pidev ning need ise on üksteisest sõltumatud. Nullhüpoteesi testimisel esitatakse väljundandmed ristkülikukujulise maatriksi kujul, milles read vastavad teguri B tasemetele ja veerud A tasemetele. Tabeli (ploki) iga lahter võib olla ühe objekti või objektide rühma parameetrite mõõtmise tulemus mõlema teguri taseme konstantsete väärtustega. Sel juhul esitatakse vastavad andmed teatud parameetri keskmiste väärtustena uuritava proovi kõigi mõõtmete või objektide kohta. Väljundkriteeriumi rakendamiseks on vaja liikuda otseste mõõtmistulemuste juurest nende järjestusele. Järjestus viiakse läbi iga rea ​​jaoks eraldi, see tähendab, et väärtused tellitakse iga fikseeritud väärtuse jaoks.

Page'i test (L-test), mille pakkus välja Ameerika statistik E. B. Page 1963. aastal, on mõeldud nullhüpoteesi testimiseks. Suurte valimite puhul kasutatakse Page'i lähendust. Nad järgivad standardset normaaljaotust, olenevalt vastavate nullhüpoteeside tegelikkusest. Juhul, kui lähtetabeli ridadel on samad väärtused, on vaja kasutada keskmisi auastmeid. Sel juhul on järelduste täpsus seda halvem, mida suurem on selliste vastete arv.

Q – Cochrani kriteerium, pakkus välja W. Cochran 1937. Seda kasutatakse juhtudel, kui homogeensete subjektide rühmad puutuvad kokku mõjudega, mille arv ületab kahte ja mille puhul on võimalik kaks tagasisidet – tinglikult negatiivne (0) ja tinglikult positiivne (1) . Nullhüpotees seisneb raviefektide võrdsuses. Kahesuunaline dispersioonanalüüs võimaldab määrata raviefektide olemasolu, kuid ei võimalda kindlaks teha, milliste konkreetsete veergude puhul see mõju eksisteerib. Selle probleemi lahendamiseks kasutatakse seotud näidiste jaoks mitme Scheffe võrrandi meetodit.

Mitmemõõtmeline analüüs

Mitmemõõtmelise dispersioonanalüüsi probleem tekib siis, kui on vaja kindlaks teha kahe või enama tingimuse mõju teatud juhuslikule suurusele. Uuring hõlmab ühe sõltuva juhusliku muutuja olemasolu, mõõdetuna erinevuse või suhte skaalal, ja mitme sõltumatu muutuja olemasolu, millest igaüks on väljendatud nimetamis- või järguskaalal. Andmete dispersioonanalüüs on matemaatilise statistika üsna arenenud osa, millel on palju võimalusi. Uurimiskontseptsioon on ühine nii ühe- kui ka mitmefaktorilise puhul. Selle olemus seisneb selles, et kogu dispersioon jagatakse komponentideks, mis vastavad teatud andmete grupeeringule. Igal andmerühmal on oma mudel. Siin käsitleme ainult põhisätteid, mis on vajalikud selle enimkasutatud võimaluste mõistmiseks ja praktiliseks kasutamiseks.

Faktorite dispersioonanalüüs eeldab küllaltki hoolikat suhtumist sisendandmete kogumisse ja esitamisse ning eelkõige tulemuste tõlgendamisse. Erinevalt ühefaktorilisest testist, mille tulemused saab tinglikult paigutada teatud järjestusse, nõuavad kahefaktorilise testi tulemused keerukamat esitust. Olukord muutub veelgi keerulisemaks, kui asjaolusid on kolm, neli või enam. Seetõttu on üsna haruldane lisada mudelisse rohkem kui kolm (neli) tingimust. Näiteks võib tuua resonantsi esinemise elektriringi teatud mahtuvuse ja induktiivsuse väärtusel; keemilise reaktsiooni ilming teatud elementide komplektiga, millest süsteem on ehitatud; anomaalsete mõjude ilmnemine keerulistes süsteemides teatud asjaolude kokkulangemisel. Interaktsiooni olemasolu võib süsteemi mudelit radikaalselt muuta ja mõnikord viia selle nähtuste olemuse ümbermõtestamiseni, millega eksperimenteerija tegeleb.

Mitmemõõtmeline dispersioonanalüüs korduvate katsetega

Mõõtmisandmeid saab üsna sageli grupeerida mitte kahe, vaid suurema hulga tegurite järgi. Seega, kui võtta arvesse trollirataste rehvide kasutusea dispersioonanalüüsi, võttes arvesse asjaolusid (tootmisettevõte ja rehvide käitamise marsruut), siis võib eraldi tingimusena välja tuua hooaja, mil rehvid käitatakse (nimelt: talvine ja suvine töö). Selle tulemusena tekib meil kolmefaktorilise meetodi probleem.

Kui tingimusi on rohkem, on lähenemine sama, mis kahefaktorilise analüüsi puhul. Kõikidel juhtudel püüavad nad mudelit lihtsustada. Kahe teguri koosmõju nähtus ei ilmne nii sageli ja kolmekordne koostoime esineb ainult erandjuhtudel. Kaasake need interaktsioonid, mille kohta on olemas varasem teave ja head põhjused, miks seda mudelis arvesse võtta. Üksikute tegurite väljaselgitamise ja nendega arvestamise protsess on suhteliselt lihtne. Seetõttu on sageli soov tuua esile rohkem asjaolusid. Te ei tohiks sellest vaimustuda. Mida rohkem tingimusi, seda vähem usaldusväärseks mudel muutub ja seda suurem on vea tõenäosus. Mudel ise, mis sisaldab suurt hulka sõltumatuid muutujaid, muutub üsna keeruliseks tõlgendamiseks ja praktilise kasutamise jaoks ebamugavaks.

Üldine dispersioonanalüüsi idee

Statistika dispersioonanalüüs on meetod erinevatest samaaegsetest toimimisoludest sõltuvate vaatlustulemuste saamiseks ja nende mõju hindamiseks. Kontrollitavat muutujat, mis vastab uurimisobjekti mõjutamise meetodile ja omandab teatud aja jooksul teatud väärtuse, nimetatakse teguriks. Need võivad olla kvalitatiivsed ja kvantitatiivsed. Kvantitatiivsete tingimuste tasemed omandavad arvulisel skaalal teatud väärtuse. Näiteks temperatuur, pressimisrõhk, aine kogus. Kvalitatiivsed tegurid on erinevad ained, erinevad tehnoloogilised meetodid, seadmed, täiteained. Nende tasemed vastavad nimede skaalale.

Kvaliteet võib hõlmata ka pakkematerjali tüüpi ja ravimvormi säilitustingimusi. Samuti on ratsionaalne lisada tooraine jahvatusaste, graanulite fraktsionaalne koostis, millel on kvantitatiivne tähtsus, kuid mida on kvantitatiivse skaala kasutamisel raske reguleerida. Kvalitatiivsete tegurite arv sõltub ravimvormi tüübist, samuti ravimainete füüsikalistest ja tehnoloogilistest omadustest. Näiteks saab tablette saada kristallilistest ainetest otsese pressimise teel. Sel juhul piisab libisemis- ja määrdeainete valimisest.

Erinevat tüüpi ravimvormide kvaliteeditegurite näited

  • Tinktuurid. Ekstraktandi koostis, ekstraktori tüüp, tooraine valmistamise meetod, tootmismeetod, filtreerimismeetod.
  • Ekstraktid (vedelad, paksud, kuivad). Ekstraheerija koostis, ekstraheerimismeetod, paigaldusviis, ekstraheerimis- ja ballastainete eemaldamise meetod.
  • Tabletid. Abiainete, täiteainete, lagundavate ainete, sideainete, määrdeainete ja määrdeainete koostis. Tablettide saamise meetod, tehnoloogilise varustuse tüüp. Kesta tüüp ja selle komponendid, kilemoodustajad, pigmendid, värvained, plastifikaatorid, lahustid.
  • Süstelahused. Lahusti tüüp, filtreerimismeetod, stabilisaatorite ja säilitusainete olemus, steriliseerimistingimused, ampullide täitmise viis.
  • Suposiidid. Suposiitide aluse koostis, suposiitide valmistamise meetod, täiteained, pakendamine.
  • Salvid. Aluse koostis, konstruktsioonikomponendid, salvi valmistamise meetod, seadmete tüüp, pakend.
  • Kapslid. Kesta materjali tüüp, kapslite valmistamise meetod, plastifikaatori tüüp, säilitusaine, värvaine.
  • Liniments. Valmistamismeetod, koostis, seadme tüüp, emulgaatori tüüp.
  • Suspensioonid. Lahusti tüüp, stabilisaatori tüüp, dispersioonimeetod.

Näiteid tahvelarvuti tootmisprotsessi käigus uuritud kvaliteediteguritest ja nende tasemetest

  • Küpsetuspulber. Kartulitärklis, valge savi, naatriumvesinikkarbonaadi ja sidrunhappe segu, aluseline magneesiumkarbonaat.
  • Sidumislahus. Vesi, tärklisepasta, suhkrusiirup, metüültselluloosi lahus, hüdroksüpropüülmetüültselluloosi lahus, polüvinüülpürrolidooni lahus, polüvinüülalkoholi lahus.
  • Libisev aine. Aerosiil, tärklis, talk.
  • Täiteaine. Suhkur, glükoos, laktoos, naatriumkloriid, kaltsiumfosfaat.
  • Määrdeaine. Steariinhape, polüetüleenglükool, parafiin.

Dispersioonanalüüsi mudelid riigi konkurentsivõime taseme uurimisel

Üheks olulisemaks riigi seisundi hindamise kriteeriumiks, mille järgi hinnatakse riigi heaolu ja sotsiaalmajandusliku arengu taset, on konkurentsivõime ehk rahvamajandusele omaste omaduste kogum, mis määrab riigi elujõulisuse. võime konkureerida teiste riikidega. Olles kindlaks määranud riigi koha ja rolli maailmaturul, on võimalik luua selge strateegia majandusliku julgeoleku tagamiseks rahvusvahelisel tasandil, sest see on võti positiivseteks suheteks Venemaa ja kõigi maailmaturu osaliste: investorite vahel. , võlausaldajad ja valitsused.

Riikide konkurentsivõime taseme võrdlemiseks järjestatakse riigid keeruliste indeksite abil, mis sisaldavad erinevaid kaalutud näitajaid. Need indeksid põhinevad võtmeteguritel, mis mõjutavad majanduslikku, poliitilist jne olukorda. Riigi konkurentsivõime uurimise mudelite komplekt hõlmab mitme muutujaga statistilise analüüsi meetodite kasutamist (eelkõige dispersioonanalüüs (statistika), ökonomeetriline modelleerimine, otsuste tegemine) ja sisaldab järgmisi põhietappe:

  1. Näitajate süsteemi moodustamine.
  2. Riigi konkurentsivõime näitajate hindamine ja prognoosimine.
  3. Riikide konkurentsivõime näitajate võrdlus.

Vaatame nüüd selle kompleksi iga etapi mudelite sisu.

Esimesel etapil kasutades ekspertuuringu meetodeid, moodustatakse riigi konkurentsivõime hindamiseks riigi konkurentsivõime hindamiseks selle arengu spetsiifikat arvesse võttes rahvusvaheliste reitingute ja statistikaosakondade andmete põhjal põhjendatud majandusnäitajate kogum, mis kajastab süsteemi kui terviku seisu. ja selle protsessid. Nende näitajate valik on põhjendatud vajadusega valida need, mis praktilisest seisukohast võimaldavad kõige täielikumalt kindlaks teha riigi taseme, selle investeerimisatraktiivsuse ning olemasolevate potentsiaalsete ja tegelike ohtude suhtelise lokaliseerimise võimaluse.

Rahvusvaheliste reitingusüsteemide peamised näitajad on indeksid:

  1. Globaalne konkurentsivõime (GC).
  2. Majandusvabadus (IES).
  3. Inimareng (HDI).
  4. Korruptsiooni tajumine (CPC).
  5. Sise- ja välisohud (IVTH).
  6. Rahvusvaheline mõjupotentsiaal (IPIP).

Teine faas näeb ette riikide konkurentsivõime näitajate hindamise ja prognoosimise rahvusvaheliste reitingute järgi 139 uuritava maailma riigi kohta.

Kolmas etapp näeb ette riikide konkurentsivõime tingimuste võrdlemise korrelatsiooni- ja regressioonanalüüsi meetodite abil.

Uuringu tulemuste põhjal on võimalik kindlaks teha protsesside olemus üldiselt ja riigi konkurentsivõime üksikute komponentide lõikes; testida hüpoteesi tegurite mõju ja nende seoste kohta sobival olulisuse tasemel.

Kavandatava mudelikomplekti rakendamine võimaldab mitte ainult hinnata riikide konkurentsivõime taseme ja investeerimisatraktiivsuse hetkeolukorda, vaid ka analüüsida juhtimispuudujääke, ennetada valede otsuste vigu ja ennetada kriisi teket. olek.

Ühesuunaline dispersioonanalüüs.

Dispersioonanalüüsi kontseptsioon ja mudelid.

Teema 13. Dispersioonanalüüs

Loeng 1. Küsimused:

Dispersioonanalüüs kui uurimismeetod ilmus R. Fischeri (1918-1935) töödes seoses põllumajanduse uurimisega, et selgitada välja tingimused, mille korral katsetatav põllukultuuri sort annab maksimaalse saagi. Dispersioonanalüüsi arendati edasi Yeatsi töödes. Dispersioonanalüüs võimaldab meil vastata küsimusele, kas teatud teguritel on oluline mõju teguri varieeruvusele, mille väärtused on saadud kogemuse tulemusena. Statistiliste hüpoteeside kontrollimisel eeldatakse uuritavate tegurite juhuslikke variatsioone. Dispersioonanalüüsis muudetakse ühte või mitut tegurit antud viisil ja need muutused võivad mõjutada vaatluste tulemusi. Sellise mõju uurimine on dispersioonanalüüsi eesmärk.

Praegu kasutatakse dispersioonanalüüsi üha laiemalt majanduses, sotsioloogias, bioloogias jne, eriti pärast tarkvara tulekut, mis kõrvaldas statistiliste arvutuste kohmakuse probleemid.

Praktilises tegevuses, erinevates teadusvaldkondades, seisame sageli silmitsi vajadusega hinnata erinevate tegurite mõju teatud näitajatele. Sageli on need tegurid kvalitatiivse iseloomuga (näiteks võib majanduslikku efekti mõjutavaks kvalitatiivseks teguriks olla uue tootmisjuhtimissüsteemi juurutamine) ja siis omandab dispersioonanalüüs erilise väärtuse, kuna sellest saab ainuke statistiline uurimismeetod, mis seda annab. hinnang.

Dispersioonanalüüs võimaldab kindlaks teha, kas ühel või teisel vaadeldaval teguril on märkimisväärne mõju tunnuse muutlikkusele, samuti kvantifitseerida iga varieeruvuse allika “erikaal” nende kogusummas. Kuid dispersioonanalüüs võimaldab meil anda positiivse vastuse ainult olulise mõju olemasolu kohta, vastasel juhul jääb küsimus lahtiseks ja nõuab täiendavaid uuringuid (enamasti katsete arvu suurenemist).

Dispersioonanalüüsis kasutatakse järgmisi termineid.

Tegur (X) on midagi, mis meie arvates peaks mõjutama tulemust (tulemuslik atribuut) Y.

Faktori tase (või töötlemisviis, mõnikord sõna otseses mõttes, näiteks mullaharimismeetod) - väärtused (X, i = 1,2,...I), mida tegur võib võtta.

Vastus – mõõdetud tunnuse väärtus (tulemusväärtus Y).

ANOVA tehnika varieerub sõltuvalt uuritavate sõltumatute tegurite arvust. Kui tunnuse keskmise väärtuse varieeruvust põhjustavad tegurid kuuluvad ühte allikasse, siis on meil lihtne rühmitamine ehk ühefaktoriline dispersioonanalüüs ja seejärel vastavalt topeltrühmitus - kahefaktoriline dispersioonanalüüs, kolmefaktoriline. dispersioonanalüüs, ..., m-tegur. Mitmemõõtmelise analüüsi tegureid tähistatakse tavaliselt ladina tähtedega: A, B, C jne.



Dispersioonanalüüsi ülesanne on uurida teatud tegurite (või tegurite tasemete) mõju vaadeldavate juhuslike suuruste keskmiste väärtuste varieeruvusele.

Dispersioonanalüüsi olemus. Dispersioonanalüüs seisneb varieeruvust põhjustavate üksikute tegurite eraldamises ja hindamises. Selleks lagundatakse vaadeldava osapopulatsiooni summaarne dispersioon (tunnuse summaarne dispersioon), mis on põhjustatud kõigist varieeruvuse allikatest, sõltumatute tegurite poolt genereeritud dispersioonikomponentideks. Kõik need komponendid annavad hinnangu dispersioonile ,..., mis on põhjustatud konkreetsest varieeruvuse allikast kogu populatsioonis. Nende komponentide dispersioonihinnangute olulisuse testimiseks võrreldakse neid populatsiooni kogudispersiooniga (Fisheri test).

Näiteks kahefaktorilises analüüsis saame vormi lagunemise:

Uuritava tunnuse C summaarne dispersioon;

Faktori A mõjust põhjustatud dispersiooni osakaal;

Tegur B mõjust põhjustatud dispersiooni osakaal;

A- ja B-tegurite koosmõjust põhjustatud dispersiooni osakaal;

Arvestamata juhuslikest põhjustest põhjustatud dispersiooni osakaal (juhuslik dispersioon);

Dispersioonanalüüsis lähtutakse hüpoteesist: H 0 - ükski vaadeldavatest teguritest ei oma mõju tunnuse varieeruvusele. Iga dispersioonihinnangu olulisust kontrollitakse selle suhte väärtusega juhusliku dispersiooni hinnangusse ja võrreldakse vastava kriitilise väärtusega olulisuse tasemel a, kasutades Fisher-Snedecori F jaotuse kriitiliste väärtuste tabeleid (lisa 4). . Hüpotees H 0 ühe või teise varieeruvuse allika kohta lükatakse tagasi, kui arvutada F. >F kr. (näiteks teguri B puhul: S B 2 /S ε 2 >F cr.).

Dispersioonanalüüs võtab arvesse kolme tüüpi katseid:

a) katsed, milles kõigil teguritel on süstemaatilised (fikseeritud) tasemed;

b) katsed, milles kõigil teguritel on juhuslikud tasemed;

c) katsed, milles on tegurid, millel on juhuslikud tasemed, samuti tegurid, millel on fikseeritud tasemed.

Juhtumid a), b), c) vastavad kolmele mudelile, mida võetakse arvesse dispersioonanalüüsis.

Dispersioonanalüüsi sisendandmed esitatakse tavaliselt järgmise tabeli kujul:

Vaatlusnumber j Faktoritasemed
A 1 A 2 A r
X 11 X 21 X p1
X 12 X 22 Xp2
X 13 X 23 X p3
. . .
. . .
. . .
n X 1n X2n Xpn
TULEMUSED

Vaatleme ühiktegurit, mis võtab p erineval tasemel, ja eeldame, et igal tasandil tehakse n vaatlust, mis annab N=np vaatlust. (Piirdume dispersioonanalüüsi esimese mudeli kaalumisega - kõigil teguritel on fikseeritud tasemed.)

Olgu tulemused esitatud kujul X ij (i=1,2…,р; j=1,2,…,n).

Eeldatakse, et n vaatluse iga taseme jaoks on olemas keskmine, mis võrdub üldkeskmise ja selle valitud tasemest tuleneva variatsiooni summaga:

kus m on üldine keskmine;

A i - teguri i – m taseme poolt põhjustatud mõju;

e ij – tulemuste varieerumine individuaalse teguri tasandil. Mõiste e ij võtab arvesse kõiki kontrollimatuid tegureid.

Olgu fikseeritud teguri tasemel vaatlused normaalselt jaotunud keskmise m + A i ümber ühise dispersiooniga s 2 .

Seejärel (punkt indeksi asemel tähistab selle indeksi vastavate vaatluste keskmistamist):

A.X ij – X.. = (X i . – X..) + (X ij – X i .). (12.3)

Pärast võrrandi mõlema poole ruudustamist ning i ja j summeerimist saame:

aastast, aga

Vastasel juhul saab ruutude summa kirjutada: S = S 1 + S 2. S 1 väärtus arvutatakse p keskmiste hälvetest üldkeskmisest X.., seetõttu on S 1-l (p-1) vabadusastmed. S 2 väärtus arvutatakse N vaatluse hälvetest p valimi keskmisest ja seetõttu on sellel N-р = np - p=p(n-1) vabadusaste. S-l on (N-1) vabadusaste. Arvutustulemuste põhjal koostatakse dispersioonanalüüsi tabel.

ANOVA tabel

Kui hüpotees, et kõigi tasandite mõju on võrdne, on tõene, on nii M 1 kui ka M 2 (keskmised ruudud) s 2 erapooletud hinnangud. See tähendab, et hüpoteesi saab kontrollida, arvutades suhte (M 1 / M 2) ja võrreldes seda F cr-ga. ν 1 = (p-1) ja ν 2 = (N-p) vabadusastmetega.

Kui F arvutatakse >F kr. , siis ei aktsepteerita hüpoteesi teguri A ebaolulisest mõjust vaatlustulemustele.

Et hinnata erinevuste olulisust F arvut. F tabel arvutama:

a) katseviga

b) viga vahendite erinevuses

c) väikseim oluline erinevus

Võrreldes valikute keskmiste väärtuste erinevust NSR-iga, järeldavad nad, et keskmiste tasemete erinevused on märkimisväärsed.

Kommenteeri. Dispersioonanalüüsi kasutamine eeldab, et:

2) D(ε ij)=σ 2 = konst,

3) ε ij → N (0, σ) või x ij → N (a, σ).

Analüütiline statistik

7.1 Dispersioonanalüüs. 2

Meetodi selles versioonis avaldatakse iga astme mõjule erinevad katsealuste valimid. Teguril peavad olema vähemalt gradatsioonid kolm.

Näide 1. Kolmele erinevale kuuest ainest koosnevale rühmale anti kümnesõnalised loendid. Esimesele rühmale esitati sõnu väikese kiirusega - 1 sõna 5 sekundis, teisele rühmale keskmise kiirusega - 1 sõna 2 sekundi kohta ja kolmandale rühmale suure kiirusega - 1 sõna sekundis. Eeldati, et reprodutseerimise jõudlus sõltub sõna esitlemise kiirusest. Tulemused on esitatud tabelis. 1.

Tabel 1. Taasesitatud sõnade arv (autor J. Greene, M D "Olivera, 1989, lk 99)

Teema nr.

Grupp 1 madal kiirus

Grupp 2 keskmine kiirus

3. rühma suur kiirus

summad

keskmine

7,17

6,17

4,00

Kogu summa

Ühemõõtmeline dispersioonanalüüs võimaldab teil testida hüpoteese:

H0 : erinevused sõnade tootmise mahus vahel rühmad ei ole rohkem väljendunud kui juhuslikud erinevused sees iga rühm

H 1 : Sõnatootmise mahu erinevused vahel rühmad on rohkem väljendunud kui juhuslikud erinevused sees iga rühm.

Toimingute jada sõltumatute valimite ühesuunalises dispersioonanalüüsis:

1. loeme SS fakt- tunnuse muutlikkus uuritava teguri toimest. Ühine nimetus SS - "ruutude summa" lühend ( ruutude summa ). Seda lühendit kasutatakse kõige sagedamini tõlkeallikates (vt nt Glass J., Stanley J., 1976).

,(1)

kus T c on iga tingimuse individuaalsete väärtuste summa. Meie näite puhul 43, 37, 24 (vt tabel 1);

с – teguri tingimuste (gradatsioonide) arv (=3);

n – katsealuste arv igas rühmas (=6);

N – üksikute väärtuste koguarv (=18);

Individuaalsete väärtuste kogusumma ruut (=104 2 = 10816)

Pange tähele erinevust , milles kõik üksikud väärtused kõigepealt ruudustatakse ja seejärel summeeritakse, ja , kus individuaalsed väärtused liidetakse esmalt, et saada kogusumma, ja seejärel see summa ruudustatakse.

Kasutades valemit (1) ja arvutanud tunnuse tegeliku varieeruvuse, saame:

2. loeme SS kindral– tunnuse üldine varieeruvus:


(2)

3. arvutage juhuslik (jääk)väärtusSS sl, mis on põhjustatud arvesse võtmata teguritest:

(3)

4.vabadusastmete arv võrdub:

=3-1=2(4)

5."keskmine ruut" või vastavate ruutude summade SS keskmine väärtus on võrdne:

(5)

6.tähendus kriteeriumide statistika F em arvutage valemi abil:

(6)

Meie näiteks oleme : F em = 15,72/2,11 = 7,45

7.määratle F kriit statistiliste tabelite järgi Rakendused 3 df 1 =k 1 =2 ja df 2 =k 2 =15 korral on statistika tabeliväärtus 3,68

8. kui F em< Kui kriitiline, siis aktsepteeritakse nullhüpoteesi, vastasel juhul aktsepteeritakse alternatiivset hüpoteesi. Meie näite jaoks F em> F kriit (7,45>3,68), seega lk

Järeldus:rühmadevahelised erinevused sõnade meeldejätmises on rohkem väljendunud kui juhuslikud erinevused iga rühma sees (lk<0,05). Т.о. скорость предъявления слов влияет на объем их воспроизведения.

7.1.2 Seotud valimite dispersioonianalüüs

Seotud valimite dispersioonanalüüsi meetodit kasutatakse juhtudel, kui teguri erinevate gradatsioonide või erinevate tingimuste mõju sama katseainete valim. Teguril peavad olema vähemalt gradatsioonid kolm.

Sel juhul on subjektidevahelised erinevused võimalikuks sõltumatuks erinevuste allikaks. Ühesuunaline ANOVA seotud proovide jaoksvõimaldab meil kindlaks teha, mis kaalub üles – tegurimuutuse kõvera väljendatud tendents või subjektidevahelised individuaalsed erinevused. Individuaalsete erinevuste tegur võib olla olulisem kui katsetingimuste muutumise tegur.

Näide 2.Uuriti 5-liikmelist rühma, kasutades kolme eksperimentaalset ülesannet, mille eesmärk oli uurida intellektuaalset visadust (Sidorenko E. V., 1984). Igale subjektile esitati eraldi kolm identset anagrammi järjest: neljatäheline, viietäheline ja kuuetäheline. Kas on võimalik eeldada, et anagrammi pikkusetegur mõjutab selle lahendamise katsete kestust?

Tabel 2. Anagrammide lahendamise kestus (s)

Teema kood

Seisund 1. neljatäheline anagramm

Seisukord 2. Viietäheline anagramm

Seisukord 3. kuuetäheline anagramm

Summad ainete kaupa

summad

1244

1342

Sõnastame hüpoteese. Sel juhul on kaks hüpoteeside komplekti.

Komplekt A.

H 0 (A): Erineva pikkusega anagrammide lahendamise katsete kestuse erinevused ei ole rohkem väljendunud kui juhuslikest põhjustest tulenevad erinevused.

H 1 (A): Erineva pikkusega anagrammide lahendamise katsete kestuse erinevused on rohkem väljendunud kui juhuslikest põhjustest tulenevad erinevused.

Komplekt B.

N umbes (B): individuaalsed erinevused subjektide vahel ei ole rohkem väljendunud kui juhuslikest põhjustest tulenevad erinevused.

H 1 (B): individuaalsed erinevused katsealuste vahel on selgemad kui juhuslikest põhjustest tulenevad erinevused.

Seotud valimite ühesuunalise dispersioonanalüüsi toimingute jada:

1. loeme SS fakt- tunnuse varieeruvus, mis on tingitud uuritava teguri toimest valemi (1) järgi.

kus T c on iga tingimuse (veeru) individuaalsete väärtuste summa. Meie näite puhul 51, 1244, 47 (vt tabel 2); с – teguri tingimuste (gradatsioonide) arv (=3); n – katsealuste arv igas rühmas (=5); N – üksikute väärtuste koguarv (=15); - üksikute väärtuste kogusumma ruut (=1342 2)

2. loeme SS isp- märgi varieeruvus subjektide individuaalsete väärtuste tõttu.

Kus T ja on iga õppeaine individuaalsete väärtuste summa. Meie näite puhul 247, 631, 100, 181, 183 (vt tabel 2); с – teguri tingimuste (gradatsioonide) arv (=3); N – üksikute väärtuste koguarv (=15);

3. loeme SS kindral– tunnuse üldine varieeruvus vastavalt valemile (2):


4. arvutage juhuslik (jääk)väärtusSS sl, mis on põhjustatud arvesse võtmata teguritest vastavalt valemile (3):

5. vabadusastmete arv võrdub (4):

; ; ;

6. "keskmine ruut" või ruutude summa matemaatiline ootus, vastavate ruutude summade SS keskmine väärtus on võrdne (5):

;

7. kriteeriumi statistiline väärtus F em arvutage valemiga (6):

;

8. Määrame lisa 3 statistiliste tabelite põhjal F crit df 1 =k 1 =2 ja df 2 =k 2 =8 statistika tabeliväärtuse jaoks F crit_fact =4,46 ning df 3 =k 3 =4 ja df 2 =k korral 2 = 8 F crit_use = 3,84

9. F em_fact> F kriitiline_fakt (6,872>4,46), seega lk aktsepteeritakse alternatiivset hüpoteesi.

10. F em_use < F крит_исп (1,054<3,84), следовательно пNullhüpoteesiga nõustutakse.

Järeldus:erinevused sõnade taasesitamise mahus erinevates tingimustes on rohkem väljendunud kui juhuslikest põhjustest tulenevad erinevused (p<0,05).Индивидуальные различия между испытуе­мыми являются не более выраженными, чем различия, обусловленные случайными причинами.

7.2 Korrelatsioonianalüüs

7.2.1 Korrelatsiooni mõiste

Teadlast huvitab sageli, kuidas on ühes või mitmes uuritavas proovis kaks või enam muutujat üksteisega seotud. Näiteks kas kõrge ärevustasemega õpilased võivad näidata stabiilseid õppeedukust või kas õpetaja koolis töötamise aeg on seotud tema palga suurusega või mis on rohkem seotud õpilaste vaimse arengu tasemega - nende sooritus matemaatikas või kirjanduses jne .?

Sellist muutujate vahelist sõltuvust nimetatakse korrelatsiooniks või korrelatsiooniks. Korrelatsioon ühendus- see on kahe tunnuse koordineeritud muutus, mis peegeldab asjaolu, et ühe tunnuse varieeruvus on kooskõlas teise tunnuse muutlikkusega.

Näiteks on teada, et inimeste pikkuse ja kaalu vahel on keskmiselt positiivne seos ja selline, et mida suurem pikkus, seda suurem on inimese kaal. Sellest reeglist on siiski erandeid, kui suhteliselt lühikesed inimesed on ülekaalulised ja vastupidi, kõrge kasvuga asteenilised inimesed on väikese kaaluga. Selliste erandite põhjuseks on see, et iga bioloogilise, füsioloogilise või psühholoogilise tunnuse määrab paljude tegurite mõju: keskkonna, geneetilise, sotsiaalse, keskkonna jne.

Korrelatsiooniseosed on tõenäosuslikud muutused, mida saab matemaatilise statistika meetodeid kasutades uurida ainult esinduslike valimite põhjal. "Mõlemad terminid," kirjutab E.V. Sidorenko, - korrelatsiooniseos ja korrelatsioonisõltuvus- kasutatakse sageli vaheldumisi. Sõltuvus eeldab mõju, seost – mis tahes koordineeritud muutusi, mida saab seletada sadade põhjustega. Korrelatsiooniseoseid ei saa pidada põhjus-tagajärg seose tõendiks, need viitavad vaid sellele, et muutustega ühes tunnuses kaasnevad tavaliselt teatud muutused teises.

korrelatsioonisõltuvus - need on muutused, mis toovad ühe tunnuse väärtused teise tunnuse erinevate väärtuste ilmnemise tõenäosusse (E.V. Sidorenko, 2000).

Korrelatsioonianalüüsi ülesanne taandub muutuvate tunnuste vahelise seose suuna (positiivne või negatiivne) ja vormi (lineaarne, mittelineaarne) kindlaksmääramisele, selle läheduse mõõtmisele ja lõpuks saadud korrelatsioonikordajate olulisuse taseme kontrollimisele.

Korrelatsioonid on erinevad vormis, suunas ja astmes (tugevuses).

Kuju järgikorrelatsioonisuhe võib olla lineaarne või kõverjooneline. Näiteks võib seos simulaatori treeningute arvu ja kontrollseansi õigesti lahendatud probleemide arvu vahel olla sirgjooneline. Näiteks motivatsioonitaseme ja ülesande efektiivsuse vaheline seos võib olla kõverjooneline (vt joonis 1). Motivatsiooni kasvades tõuseb esmalt ülesande täitmise efektiivsus, seejärel saavutatakse optimaalne motivatsioonitase, mis vastab ülesande täitmise maksimaalsele efektiivsusele; Motivatsiooni edasise tõusuga kaasneb efektiivsuse langus.

Joonis 1. Probleemi lahendamise efektiivsuse seos

ja motivatsioonikalduvuse tugevus (vastavalt J. W. A t k in son, 1974, lk 200)

suunaskorrelatsioon võib olla positiivne ("otsene") ja negatiivne ("pöördvõrdeline"). Positiivse lineaarse korrelatsiooni korral vastavad ühe tunnuse kõrgemad väärtused teise suurematele väärtustele ja ühe tunnuse madalamad väärtused vastavad teise madalatele väärtustele. Negatiivse korrelatsiooni korral on suhted vastupidised. Positiivse korrelatsiooni korral on korrelatsioonikordaja näiteks positiivse märgigar = +0,207, negatiivse korrelatsiooniga – näiteks negatiivne märkr = -0,207.

Kraad, tugevus või tihedus korrelatsiooniseos määratakse korrelatsioonikordaja väärtusega.

Ühenduse tugevus ei sõltu selle suunast ja selle määrab korrelatsioonikordaja absoluutväärtus.

Korrelatsioonikordaja maksimaalne võimalik absoluutväärtusr = 1,00; miinimum r = 0,00.

Korrelatsioonide üldine klassifikatsioon (Ivanter E.V., Korosov A.V., 1992 järgi):

tugev, või tihe korrelatsioonikoefitsiendigar >0,70;

keskmine juures 0,50< r<0,69 ;

mõõdukas juures 0,30< r<0,49 ;

nõrk juures 0,20< r<0,29 ;

väga nõrk juures r<0,19 .

Muutujaid X ja Y saab mõõta erinevatel skaaladel, see määrabki sobiva korrelatsioonikordaja valiku (vt tabel 3):

Tabel 3. Korrelatsioonikordaja kasutamine sõltuvalt muutujate tüübist

Skaala tüüp

Ühenduse mõõt

Muutuja X

Muutuja Y

Intervall või suhe

Intervall või suhe

Pearsoni koefitsient

Aste, intervall või suhe

Spearmani koefitsient

Reastatud

Reastatud

Kendalli koefitsient

Dihhotoomne

Dihhotoomne

koefitsient "j"

Dihhotoomne

Reastatud

Rank-biserial

Dihhotoomne

Intervall või suhe

Biserial

7.2.2 Pearsoni korrelatsioonikordaja

Mõiste “korrelatsioon” võttis teaduses kasutusele väljapaistev inglise loodusteadlane Francis Galton aastal 1886. Täpse korrelatsioonikordaja arvutamise valemi töötas välja aga tema õpilane Karl Pearson.

Koefitsient iseloomustab ainult lineaarse seose olemasolu tunnuste vahel, mida tavaliselt tähistatakse sümbolitega X ja Y. Korrelatsioonikordaja arvutamise valem on konstrueeritud nii, et kui tunnustevaheline seos on lineaarne, määrab Pearsoni koefitsient täpselt selle suhte lähedus. Seetõttu nimetatakse seda ka Pearsoni lineaarseks korrelatsioonikordajaks. Kui seos muutujate X ja vahel Y ei ole lineaarne, siis pakkus Pearson selle seose läheduse hindamiseks välja nn korrelatsiooniseose.

Pearsoni lineaarse korrelatsioonikordaja väärtus ei tohi ületada +1 ja olla väiksem kui -1. Need kaks arvu +1 ja -1 on korrelatsioonikordaja piirid. Kui arvutuse tulemuseks on väärtus, mis on suurem kui +1 või väiksem kui -1, on arvutustes ilmnenud viga.

Korrelatsioonikordaja märk on tekkiva seose tõlgendamisel väga oluline. Rõhutame veel kord, et kui lineaarse korrelatsioonikordaja märk on pluss, siis seos korrelatsioonitunnuste vahel on selline, et ühe tunnuse (muutuja) suurem väärtus vastab teise tunnuse (teise muutuja) suuremale väärtusele. Teisisõnu, kui üks näitaja (muutuja) suureneb, siis teine ​​näitaja (muutuja) suureneb vastavalt. Seda sõltuvust nimetatakse otseselt proportsionaalseks sõltuvuseks.

Kui saadakse miinusmärk, siis ühe tunnuse suurem väärtus vastab teise väiksemale väärtusele. Teisisõnu, kui on miinusmärk, vastab ühe muutuja (märgi, väärtuse) suurenemine teise muutuja vähenemisele. Seda sõltuvust nimetatakse pöördvõrdeliseks sõltuvuseks.

Üldiselt on korrelatsioonikordaja arvutamise valem järgmine:

(7)

Kus X i- proovis X võetud väärtused,

y i- proovis Y aktsepteeritud väärtused;

X keskmine, Y puhul keskmine.

Pearsoni korrelatsioonikordaja arvutamisel eeldatakse, et muutujad X ja Y on jaotatud Hästi.

Valem (7) sisaldab kogust kui jagatud n (muutuja X või Y väärtuste arv) seda nimetatakse kovariatsioon. Valem (7) eeldab ka, et korrelatsioonikordajate arvutamisel on muutuja X väärtuste arv võrdne muutuja väärtuste arvuga Y.

Vabadusastmete arv k = n -2.

Näide 3. 1 0 kooliõpilasele tehti visuaal-kujundliku ja verbaalse mõtlemise testid. Testülesannete lahendamise keskmist aega mõõdeti sekundites. Uurijat huvitab küsimus: kas nende probleemide lahendamiseks kuluva aja vahel on seos? Muutuja X tähistab keskmist aega visuaal-kujundlike ülesannete lahendamiseks ja muutuja Y tähistab keskmist aega verbaalsete testülesannete lahendamiseks.

Lahendus. Esitame lähteandmed tabeli 4 kujul, mis sisaldab valemi (7) abil arvutamiseks vajalikke täiendavaid veerge.

Tabel 4

Õppeainete arv

x

x i -

(x i - ) 2

ja mina -

(y i -) 2

16,7

278,89

51,84

120,24

13,69

17,2

295,84

63,64

7,29

51,84

19,44

68,89

14,44

31,54

59,29

7,84

21,56

0,49

46,24

4,76

10,89

17,64

13,86

10,89

51,84

23,76

68,89

10,8

116,64

89,64

68,89

18,8

353,44

156,04

Summa

357

242

588,1

1007,6

416,6

Keskmine

35,7

24,2

Arvutame korrelatsioonikordaja empiirilise väärtuse valemi (7) abil:

Saadud korrelatsioonikordaja kriitilised väärtused määrame vastavalt lisas 3 olevale tabelile. Arvutatud Pearsoni lineaarse korrelatsioonikordaja kriitiliste väärtuste leidmisel arvutatakse vabadusastmete arv järgmiselt: k = n – 2 = 8.

k crit = 0,72 > 0,54, seega lükatakse hüpotees H 1 tagasi ja hüpotees aktsepteeritakse H0 , ehk siis visuaal-kujundlike ja verbaalsete testülesannete lahendamise aja seos pole tõestatud.

7.3 Regressioonanalüüs

See on meetodite rühm, mille eesmärk on tuvastada ja matemaatiliselt väljendada juhuslike muutujate süsteemis toimuvaid muutusi ja sõltuvusi. Kui selline süsteem modelleerib pedagoogilist, siis järelikult tehakse regressioonanalüüsi abil kindlaks psühholoogilised ja pedagoogilised nähtused ning nendevahelised sõltuvused ning väljendatakse matemaatiliselt. Nende nähtuste omadusi mõõdetakse erinevatel skaaladel, mis seab piirangud muutuste ja sõltuvuste matemaatilise väljendamise viisidele, mida õpetaja-teadur uurib.

Regressioonanalüüsi meetodid on mõeldud eelkõige stabiilse normaaljaotuse korral, mille puhul muutused katsest katsesse ilmnevad vaid sõltumatute katsete kujul.

Tuvastatakse erinevad regressioonanalüüsi formaalsed probleemid. Need võivad olla sõnastuse, matemaatiliste vahendite ja töömahukuse poolest lihtsad või keerulised. Loetleme ja kaalume näidetega need, mis tunduvad peamised.

Esimene ülesanne on tuvastada varieeruvuse fakt nähtus, mida uuritakse teatud, kuid mitte alati selgelt fikseeritud tingimustes. Eelmises loengus lahendasime selle ülesande juba parameetriliste ja mitteparameetriliste kriteeriumide abil.

Teine ülesanne - trendi tuvastada tunnuse perioodilise muutumisena. See funktsioon ise võib, kuid ei pruugi sõltuda tingimusmuutujast (see võib sõltuda tingimustest, mida uurija ei tea või ei kontrolli). Kuid see ei ole oluline vaadeldava ülesande jaoks, mis piirdub ainult trendi ja selle tunnuste tuvastamisega.

Hüpoteeside testimise trendi puudumise või olemasolu kohta saab läbi viia Abbe kriteeriumi abil . Abbe kriteerium loodud hüpoteeside kontrollimiseks 4 jaoks kehtestatud keskmiste väärtuste võrdsuse kohta

Abbe kriteeriumi empiiriline väärtus arvutatakse järgmise valemi abil:

(8)

kus on valimi aritmeetiline keskmine;

P– väärtuste arv proovis.

Vastavalt kriteeriumile lükatakse tagasi keskmiste võrdsuse hüpotees (alternatiivne hüpotees on aktsepteeritud), kui statistika väärtus on . Statistika tabeli (kriitiline) väärtus määratakse Abbe q-kriteeriumi tabelist, mis koos lühenditega on laenatud L.N. Bolõševa ja N.V. Smirnova (vt lisa 3).

Sellised suurused, mille puhul Abbe kriteeriumit kohaldatakse, võivad olla valimite osakaalud või protsendid, aritmeetilised keskmised ja muu valimijaotuse statistika, kui need on normaallähedased (või eelnevalt normaliseeritud). Seetõttu võib Abbe kriteerium leida laialdast rakendust psühholoogilistes ja pedagoogilistes uuringutes. Vaatleme näidet trendi tuvastamisest Abbe kriteeriumi abil.

Näide 4.Tabelis 5 näitab õpilaste protsendi dünaamikat IV kursusel, kes sooritas 10-aastase töötamise jooksul mõnes ülikooli teaduskonnas talvistel sessioonidel eksamid “hästi”.

Tabel 5. Neljanda kursuse suurepäraste üliõpilaste osakaalu dünaamika teaduskonna 10 tööaasta jooksul

Õppeaasta

1995-96

10,8

1996-97

16,4

1997-98

17,4

1998-99

22,0

1999-00

23,0

2000-01

21,5

2001-02

26,1

2002-03

17,2

2003-04

27,5

2004-05

33,0

Nagu null Testime hüpoteesi trendi puudumise kohta, st protsentide võrdsuse kohta.

Keskmistame tabelis toodud protsendid. 5, leiame, et =21,5. Arvutame erinevused valimi järgnevate ja eelmiste väärtuste vahel, ruudustame need ja liidame kokku:

Samamoodi arvutab nimetaja valemis (8), liidab iga mõõtmise ja aritmeetilise keskmise erinevuse ruudud:

Nüüd, kasutades valemit (8), saame:

Lisa 3 Abbe kriteeriumi tabelist leiame, et n = 10 ja olulisuse tasemega 0,05 on kriitiline väärtus suurem kui meie saadud 0,41, mistõttu tuleb püstitada hüpotees “suurepäraste õpilaste” protsendi võrdsuse kohta. lükatakse tagasi ja me võime aktsepteerida alternatiivset hüpoteesi trendi olemasolu kohta.

Kolmas ülesanne on korrelatsioonivõrrandi kujul väljendatud mustri tuvastamine (regressioon).

Näide 5.Eesti teadlane J. Mikk, uurides teksti mõistmise raskusi, kehtestas "loetavusvalemi", mis on mitmekordne lineaarne regressioon:

Hinnates teksti mõistmise raskust,

kus x 1 on sõltumatute lausete pikkus trükitud märkide arvus,

x 2 - erinevate võõraste sõnade protsent,

x 3 - nimisõnadega väljendatud korduvate mõistete abstraktsus .

Võrreldes tegurite mõjuastet väljendavaid regressioonikoefitsiente, on näha, et teksti mõistmise raskuse määrab eelkõige selle abstraktsus. Teksti mõistmise raskus sõltub poole vähem (0,27) võõraste sõnade arvust ja praktiliselt ei sõltu lause pikkusest.