Analiza varijanse. Multivarijantna analiza varijanse ANOVA model komponenti varijanse

Analiza varijanse

1. Koncept analize varijanse

Analiza varijanse je analiza varijabilnosti osobine pod uticajem bilo kojeg kontrolisanog varijabilnog faktora. U stranoj literaturi, analiza varijanse se često naziva ANOVA, što se prevodi kao analiza varijanse (Analysis of Variance).

ANOVA problem sastoji se u izolovanju varijabilnosti različite vrste od opšte varijabilnosti osobine:

a) varijabilnost zbog djelovanja svake od nezavisnih varijabli koje se proučavaju;

b) varijabilnost zbog interakcije nezavisnih varijabli koje se proučavaju;

c) slučajna varijabilnost zbog svih ostalih nepoznatih varijabli.

Varijabilnost zbog djelovanja varijabli koje se proučavaju i njihove interakcije je u korelaciji sa slučajnom varijabilnošću. Pokazatelj ovog odnosa je Fišerov F test.

Formula za izračunavanje F kriterija uključuje procjene varijansi, odnosno parametara distribucije atributa, stoga je F kriterij parametarski kriterij.

Što je varijabilnost osobine više uzrokovana varijablama (faktorima) koje se proučavaju ili njihovom interakcijom, to je veća vrijednosti empirijskih kriterija.

Zero hipoteza u analizi varijanse će reći da su prosječne vrijednosti proučavane efektivne karakteristike iste u svim gradacijama.

Alternativa hipoteza će reći da su prosječne vrijednosti rezultirajuće karakteristike u različitim gradacijama faktora koji se proučavaju različite.

Analiza varijanse nam omogućava da navedemo promjenu karakteristike, ali ne ukazuje smjer ove promjene.

Počnimo naše razmatranje analize varijanse s najjednostavnijim slučajem, kada proučavamo samo djelovanje jedan varijabla (jedan faktor).

2. Jednosmjerna analiza varijanse za nepovezane uzorke

2.1. Svrha metode

Metoda jednofaktorske analize varijanse koristi se u slučajevima kada se proučavaju promjene efektivne karakteristike pod utjecajem promjenjivih uslova ili gradacija faktora. U ovoj verziji metode, uticaj svake od gradacija faktora je drugačije uzorci subjekata. Moraju postojati najmanje tri gradacije faktora. (Možda postoje dvije gradacije, ali u ovom slučaju nećemo moći uspostaviti nelinearne zavisnosti i čini se da je razumnije koristiti jednostavnije).

Neparametrijska verzija ove vrste analize je Kruskal-Wallis H test.

Hipoteze

H 0: Razlike između faktorskih ocjena (različiti uslovi) nisu veće od slučajnih razlika unutar svake grupe.

H 1: Razlike između faktorskih ocjena (različiti uvjeti) veće su od slučajnih razlika unutar svake grupe.

2.2. Ograničenja jednosmjerne analize varijanse za nepovezane uzorke

1. Jednosmjerna analiza varijanse zahtijeva najmanje tri gradacije faktora i najmanje dva predmeta u svakoj gradaciji.

2. Rezultirajuća karakteristika mora biti normalno raspoređena u uzorku koji se proučava.

Istina, obično nije naznačeno da li je riječ o raspodjeli karakteristike u cijelom ispitivanom uzorku ili u onom njegovom dijelu koji čini kompleks disperzije.

3. Primjer rješavanja problema metodom jednosmjerne analize varijanse za nepovezane uzorke na primjeru:

Tri različite grupe od šest ispitanika dobile su liste od deset riječi. Prvoj grupi riječi su predstavljene malom brzinom - 1 riječ u 5 sekundi, drugoj grupi prosječnom brzinom - 1 riječ u 2 sekunde, a trećoj grupi velikom brzinom - 1 riječ u sekundi. Predviđeno je da će performanse reprodukcije zavisiti od brzine prezentacije reči. Rezultati su prikazani u tabeli. 1.

Broj reproduciranih riječi Tabela 1

Predmet br.

mala brzina

prosječna brzina

velika brzina

ukupan iznos

H 0: Razlike u rasponu proizvodnje riječi između grupe nisu izraženije od slučajnih razlika unutra svaka grupa.

H1: Razlike u obimu proizvodnje riječi između grupe su izraženije od slučajnih razlika unutra svaka grupa. Koristeći eksperimentalne vrijednosti prikazane u tabeli. 1, ustanovit ćemo neke vrijednosti koje će biti potrebne za izračunavanje F kriterija.

Izračun glavnih veličina za jednosmjernu analizu varijanse prikazan je u tabeli:

tabela 2

Tabela 3

Redoslijed operacija u jednosmjernoj analizi varijanse za nepovezane uzorke

Često se nalazi u ovoj i narednim tabelama, oznaka SS je skraćenica za "zbir kvadrata". Ova skraćenica se najčešće koristi u prevedenim izvorima.

SS činjenica označava varijabilnost karakteristike zbog djelovanja faktora koji se proučava;

SS općenito- opšta varijabilnost osobine;

S C.A.-varijabilnost zbog neuračunatih faktora, “slučajne” ili “rezidualne” varijabilnosti.

GOSPOĐA- “srednji kvadrat” ili matematičko očekivanje zbira kvadrata, prosječne vrijednosti odgovarajućeg SS.

df - broj stepena slobode, koji smo, uzimajući u obzir neparametarske kriterijume, označili grčkim slovom v.

Zaključak: H 0 je odbijen. H 1 je prihvaćen. Razlike u pamćenju riječi između grupa bile su veće od nasumičnih razlika unutar svake grupe (α=0,05). Dakle, brzina prezentacije riječi utječe na volumen njihove reprodukcije.

U nastavku je prikazan primjer rješavanja problema u Excelu:

Početni podaci:

Koristeći naredbu: Alati->Analiza podataka->Jednosmjerna ANOVA, dobijamo sljedeće rezultate:

Kao što je već napomenuto, metoda disperzije je usko povezana sa statističkim grupiranjem i pretpostavlja da je populacija koja se proučava podijeljena u grupe prema faktorskim karakteristikama, čiji uticaj treba proučavati.

Na osnovu analize varijanse, proizvodi se sljedeće:

1. procjena pouzdanosti razlika u grupnim srednjim vrijednostima za jednu ili više faktorskih karakteristika;

2. procjena pouzdanosti interakcija faktora;

3. procjena parcijalnih razlika između parova srednjih vrijednosti.

Primjena analize varijanse zasniva se na zakonu dekompozicije varijansi (varijacija) karakteristike na komponente.

Ukupna varijacija D o rezultirajuće karakteristike tokom grupisanja može se razložiti na sljedeće komponente:

1. u međugrupu D m povezan sa karakteristikom grupisanja;

2. za ostatke(unutar grupe) D B nije povezano sa karakteristikama grupisanja.

Odnos između ovih indikatora se izražava na sljedeći način:

D o = D m + D in. (1.30)

Pogledajmo upotrebu analize varijanse na primjeru.

Recimo da želite dokazati da li datumi sjetve utiču na prinose pšenice. Početni eksperimentalni podaci za analizu varijanse prikazani su u tabeli. 8.

Tabela 8

U ovom primjeru, N = 32, K = 4, l = 8.

Odredimo ukupnu ukupnu varijaciju prinosa, koja je zbir kvadrata odstupanja pojedinačnih vrijednosti osobine od ukupnog prosjeka:

gdje je N broj jedinica stanovništva; Y i – pojedinačne vrijednosti prinosa; Y o je ukupan prosječan prinos za cijelu populaciju.

Za određivanje međugrupne ukupne varijacije, koja određuje varijaciju efektivne karakteristike zbog faktora koji se proučava, potrebno je znati prosječne vrijednosti efektivne karakteristike za svaku grupu. Ova ukupna varijacija jednaka je zbiru kvadrata odstupanja proseka grupe od ukupne prosečne vrednosti osobine, ponderisane brojem populacijskih jedinica u svakoj grupi:

Ukupna varijacija unutar grupe jednaka je zbiru kvadrata odstupanja pojedinačnih vrijednosti osobine od grupnih prosjeka za svaku grupu, zbranih po svim grupama u populaciji.

Utjecaj faktora na rezultirajuću karakteristiku očituje se u odnosu između Dm i Dv: što je jači utjecaj faktora na vrijednost karakteristike koja se proučava, to je veći Dm, a manji je Dv.

Da bi se izvršila analiza varijanse, potrebno je utvrditi izvore varijacije u osobini, obim varijacije po izvoru i odrediti broj stupnjeva slobode za svaku komponentu varijacije.

Količina varijacije je već utvrđena, sada je potrebno odrediti broj stupnjeva slobode varijacije. Broj stepeni slobode je broj nezavisnih odstupanja pojedinačnih vrijednosti karakteristike od njene prosječne vrijednosti. Ukupan broj stupnjeva slobode, koji odgovara ukupnom zbiru kvadrata odstupanja u ANOVA, razlaže se na komponente varijacije. Dakle, ukupna suma kvadrata odstupanja D o odgovara broju stupnjeva slobode varijacije jednakom N – 1 = 31. Grupna varijacija D m odgovara broju stupnjeva slobode varijacije jednakom K – 1 = 3. Intragrupna rezidualna varijacija odgovara broju stupnjeva slobode varijacije jednakom N – K = 28.


Sada, znajući zbir kvadrata odstupanja i broj stupnjeva slobode, možemo odrediti varijanse za svaku komponentu. Označimo ove varijanse: d m - grupa i d u - unutargrupa.

Nakon izračunavanja ovih varijansi, nastavićemo sa utvrđivanjem značaja uticaja faktora na rezultujući atribut. Da bismo to učinili, nalazimo omjer: d M / d B = F f,

Količina F f, tzv Fisherov kriterijum , u poređenju sa tabelom, F tabela. Kao što je već napomenuto, ako je F f > F tabela, tada je dokazan uticaj faktora na efektivni atribut. Ako je F f< F табл то можно утверждать, что различие между дисперсиями находится в пределах возможных случайных колебаний и, следовательно, не доказывает с достаточной вероятностью влияние изучаемого фактора.

Teorijska vrijednost je povezana sa vjerovatnoćom, au tabeli je njena vrijednost data na određenom nivou vjerovatnoće presude. Dodatak sadrži tabelu koja vam omogućava da postavite moguću vrijednost F za vjerovatnoću prosuđivanja, koja se najčešće koristi: nivo vjerovatnoće “nulte hipoteze” je 0,05. Umesto verovatnoće „nulte hipoteze“, tabela se može nazvati tabela za verovatnoću od 0,95 značajnosti uticaja faktora. Povećanje nivoa verovatnoće zahteva veću F vrednost tabele za poređenje.

Vrijednost F tablice također ovisi o broju stupnjeva slobode dvije disperzije koje se upoređuju. Ako broj stepeni slobode teži beskonačnosti, onda F tabela teži jedinici.

Tabela vrijednosti F tabele je konstruisana na sledeći način: kolone tabele označavaju stepene slobode varijacije za veću disperziju, a redovi pokazuju stepene slobode za manju (unutar grupe) disperziju. Vrijednost F se nalazi na presjeku kolone i reda odgovarajućih stupnjeva slobode varijacije.

Dakle, u našem primjeru, F f = 21,3/3,8 = 5,6. Tabelarna vrijednost F tabele za vjerovatnoću od 0,95 i stepene slobode, odnosno jednake 3 i 28, F tabela = 2,95.

Eksperimentalno dobijena vrijednost F f premašuje teorijsku vrijednost čak i za vjerovatnoću od 0,99. Shodno tome, iskustvo sa verovatnoćom većom od 0,99 dokazuje uticaj proučavanog faktora na prinos, odnosno iskustvo se može smatrati pouzdanim, dokazanim, te stoga vreme setve ima značajan uticaj na prinos pšenice. Optimalnim periodom sjetve treba smatrati period od 10. do 15. maja, jer su upravo u tom periodu sjetve postignuti najbolji rezultati prinosa.

Ispitivali smo metodu analize varijanse pri grupisanju po jednoj karakteristici i nasumičnoj distribuciji replika unutar grupe. Međutim, često se dešava da ogledna parcela ima neke razlike u plodnosti tla i sl. Stoga može doći do situacije da veći broj parcela jedne od opcija padne u najbolji dio, a njeni pokazatelji budu precijenjeni, a druge opcije - po najgorem dijelu, a rezultati će u ovom slučaju prirodno biti lošiji, odnosno potcijenjeni.

Da bi se isključile varijacije koje su uzrokovane razlozima koji nisu povezani s eksperimentom, potrebno je izolirati varijansu izračunatu iz replika (blokova) od unutargrupne (rezidualne) varijanse.

Ukupan zbroj kvadrata odstupanja je u ovom slučaju podijeljen na 3 komponente:

D o = D m + D ponavljanje + D odmor. (1.33)

Za naš primjer, zbir kvadrata odstupanja uzrokovanih ponavljanjem bit će jednak:

Stoga će stvarni slučajni zbir kvadrata odstupanja biti jednak:

D odmor = D u – D ponavljanje; D odmor = 106 – 44 = 62.

Za rezidualnu disperziju, broj stupnjeva slobode će biti jednak 28 – 7 = 21. Rezultati analize varijanse prikazani su u tabeli. 9.

Tabela 9

Budući da stvarne vrijednosti F-kriterijuma za vjerovatnoću od 0,95 premašuju tabelarne, uticaj datuma sjetve i ponavljanja na prinos pšenice treba smatrati značajnim. Razmatrana metoda konstruisanja eksperimenta, kada je lokacija preliminarno podijeljena na blokove s relativno usklađenim uvjetima, a testirane opcije raspoređene unutar bloka nasumičnim redoslijedom, naziva se metodom nasumičnih blokova.

Koristeći analizu varijanse, možete proučavati utjecaj ne samo jednog faktora na rezultat, već dva ili više. Analiza varijanse u ovom slučaju će se pozvati multivarijantna analiza varijanse .

Dvosmjerna ANOVA razlikuje se od dva jednofaktorna po tome što može odgovoriti na sljedeća pitanja:

1. 1 kakav je efekat oba faktora zajedno?

2. Koja je uloga kombinacije ovih faktora?

Razmotrimo analizu varijanse ogleda, u kojoj je potrebno identifikovati uticaj ne samo rokova setve, već i sorti na prinos pšenice (tabela 10).

Tabela 10. Eksperimentalni podaci o uticaju rokova i sorti setve na prinos pšenice

je zbir kvadrata odstupanja pojedinačnih vrijednosti od ukupnog prosjeka.

Varijacije u zajedničkom uticaju vremena sjetve i sorte

je zbir kvadrata odstupanja srednjih vrednosti podgrupe od ukupne srednje vrednosti, ponderisane brojem ponavljanja, odnosno 4.

Proračun varijacije samo na osnovu uticaja vremena sjetve:

Preostala varijacija se definiše kao razlika između ukupne varijacije i varijacije zajedničkog uticaja proučavanih faktora:

D odmor = D o – D ps = 170 – 96 = 74.

Svi proračuni se mogu prikazati u obliku tabele (Tabela 11).

Tabela 11. Rezultati analize varijanse

Rezultati analize varijanse pokazuju da je uticaj proučavanih faktora, odnosno vremena sjetve i sorte, na prinos pšenice značajan, budući da stvarni F-kriterijumi za svaki od faktora značajno premašuju tabelarne utvrđene za odgovarajuće stepene. slobode, a istovremeno sa prilično velikom vjerovatnoćom (p = 0,99). Uticaj kombinacije faktora u ovom slučaju izostaje, jer su faktori nezavisni jedan od drugog.

Analiza uticaja tri faktora na rezultat vrši se po istom principu kao i za dva faktora, samo što će u ovom slučaju postojati tri varijanse za faktore i četiri varijanse za kombinaciju faktora. S povećanjem broja faktora, obim proračunskog rada naglo se povećava i, osim toga, postaje teško rasporediti početne informacije u kombiniranu tablicu. Stoga je teško preporučljivo proučavati uticaj mnogih faktora na rezultat pomoću analize varijanse; bolje je uzeti manji broj, ali izabrati najznačajnije faktore sa stanovišta ekonomske analize.

Često se istraživač mora baviti takozvanim disproporcionalnim disperzijskim kompleksima, odnosno onima u kojima se ne poštuje proporcionalnost broja varijanti.

U takvim kompleksima, varijacija u ukupnom efektu faktora nije jednaka zbiru varijacije među faktorima i varijacije u kombinaciji faktora. Razlikuje se za iznos u zavisnosti od stepena povezanosti pojedinih faktora koji nastaju kao rezultat kršenja proporcionalnosti.

U ovom slučaju nastaju poteškoće u određivanju stepena uticaja svakog faktora, jer zbir pojedinačnih uticaja nije jednak ukupnom uticaju.

Jedan od načina da se disproporcionalni kompleks svede na jednu strukturu je da se on zamijeni proporcionalnim kompleksom, u kojem su frekvencije prosječne po grupama. Kada se izvrši takva zamjena, problem se rješava prema principima proporcionalnih kompleksa.

Analiza varijanse je skup statističkih metoda dizajniranih da testiraju hipoteze o odnosu između određenih karakteristika i proučavanih faktora koji nemaju kvantitativni opis, kao i da utvrde stepen uticaja faktora i njihovu interakciju. U stručnoj literaturi se često naziva ANOVA (od engleskog naziva Analysis of Variations). Ovu metodu je prvi razvio R. Fischer 1925. godine.

Vrste i kriterijumi analize varijanse

Ova metoda se koristi za proučavanje odnosa između kvalitativnih (nominalnih) karakteristika i kvantitativne (kontinuirane) varijable. U suštini, testira hipotezu o jednakosti aritmetičkih sredina nekoliko uzoraka. Stoga se može smatrati parametarskim kriterijem za poređenje centara nekoliko uzoraka odjednom. Ako se ova metoda koristi za dva uzorka, rezultati analize varijanse će biti identični rezultatima Studentovog t-testa. Međutim, za razliku od drugih kriterija, ova studija nam omogućava da detaljnije proučimo problem.

Analiza disperzije u statistici se zasniva na zakonu: zbir kvadrata odstupanja kombinovanog uzorka jednak je zbiru kvadrata unutargrupnih devijacija i zbiru kvadrata međugrupnih devijacija. Studija koristi Fisherov test da bi se utvrdila značajnost razlike između međugrupnih varijansi i varijansi unutar grupe. Međutim, neophodni preduslovi za to su normalnost distribucije i homoskedastičnost (jednakost varijansi) uzoraka. Postoje univarijantna (jednofaktorska) analiza varijanse i multivarijantna (multifaktorska). Prvi razmatra ovisnost vrijednosti koja se proučava o jednoj karakteristici, drugi - o mnogima odjednom, a također nam omogućava da identificiramo vezu između njih.

Faktori

Faktori su kontrolisane okolnosti koje utiču na konačni rezultat. Njegov nivo ili metoda obrade je vrijednost koja karakterizira specifičnu manifestaciju ovog stanja. Ovi brojevi se obično prikazuju na nominalnoj ili ordinalnoj skali. Često se izlazne vrijednosti mjere na kvantitativnim ili ordinalnim skalama. Tada nastaje problem grupisanja izlaznih podataka u više opservacija koje odgovaraju približno istim numeričkim vrijednostima. Ako se uzme da je broj grupa preterano velik, onda broj opservacija u njima može biti nedovoljan za dobijanje pouzdanih rezultata. Ako broj uzmete premali, to može dovesti do gubitka značajnih karakteristika uticaja na sistem. Specifičan način grupiranja podataka zavisi od količine i prirode varijacija u vrednostima. Broj i veličina intervala u univarijantnoj analizi najčešće se određuju po principu jednakih intervala ili principu jednakih frekvencija.

Analiza problema varijanse

Dakle, postoje slučajevi kada trebate uporediti dva ili više uzoraka. Tada je preporučljivo koristiti analizu varijanse. Naziv metode ukazuje da se zaključci donose na osnovu proučavanja komponenti varijanse. Suština studije je da se ukupna promjena indikatora podijeli na sastavne dijelove koji odgovaraju djelovanju svakog pojedinačnog faktora. Razmotrimo niz problema koji se rješavaju tipičnom analizom varijanse.

Primjer 1

Radionica ima veliki broj automatskih mašina koje proizvode određeni deo. Veličina svakog dijela je slučajna varijabla koja ovisi o postavci svake mašine i slučajnim odstupanjima koja se javljaju tokom procesa proizvodnje dijelova. Potrebno je na osnovu podataka merenja dimenzija delova utvrditi da li su mašine konfigurisane na isti način.

Primjer 2

Prilikom izrade električnog uređaja koriste se različite vrste izolacionog papira: kondenzatorski, električni itd. Uređaj se može impregnirati raznim supstancama: epoksidna smola, lak, ML-2 smola itd. Curenja se mogu eliminisati pod vakuumom na povišenog pritiska, sa grejanjem. Impregnacija se može obaviti uranjanjem u lak, pod neprekidnim mlazom laka itd. Električni aparat u cjelini se puni određenim smjesom, od čega postoji nekoliko opcija. Pokazatelji kvalitete su električna čvrstoća izolacije, temperatura pregrijavanja namotaja u radnom režimu i niz drugih. Prilikom razvoja tehnološkog procesa izrade uređaja potrebno je utvrditi kako svaki od navedenih faktora utiče na performanse uređaja.

Primjer 3

Trolejbuski depo opslužuje nekoliko trolejbuskih linija. Oni upravljaju trolejbusima raznih tipova, a 125 inspektora naplaćuje karte. Upravu depoa zanima pitanje: kako uporediti ekonomske pokazatelje rada svakog kontrolora (prihoda) uzimajući u obzir različite rute i različite tipove trolejbusa? Kako odrediti ekonomsku isplativost proizvodnje trolejbusa određenog tipa na određenoj relaciji? Kako uspostaviti razumne zahtjeve za iznos prihoda koji kondukter donosi na svakoj trasi u različitim tipovima trolejbusa?

Zadatak izbora metode je kako dobiti maksimalnu informaciju o utjecaju svakog faktora na konačni rezultat, odrediti numeričke karakteristike takvog utjecaja, njihovu pouzdanost uz minimalne troškove i u najkraćem mogućem vremenu. Metode analize varijanse omogućavaju rješavanje ovakvih problema.

Univarijantna analiza

Svrha studije je procijeniti veličinu uticaja konkretnog slučaja na analizirani pregled. Druga svrha univarijantne analize može biti da uporedi dvije ili više okolnosti jedna s drugom kako bi se utvrdila razlika u njihovom utjecaju na prisjećanje. Ako se nulta hipoteza odbije, onda je sljedeći korak kvantificiranje i konstruiranje intervala povjerenja za dobijene karakteristike. U slučaju kada se nulta hipoteza ne može odbaciti, ona se obično prihvata i donosi zaključak o prirodi uticaja.

Jednosmjerna analiza varijanse može postati neparametarski analog Kruskal-Wallisove rang metode. Razvili su ga američki matematičar William Kruskal i ekonomista Wilson Wallis 1952. godine. Ovaj kriterijum je dizajniran da testira nultu hipotezu o jednakosti efekata na proučavane uzorke sa nepoznatim, ali jednakim prosečnim vrednostima. U ovom slučaju, broj uzoraka mora biti veći od dva.

Jonckheere-Terpstra kriterijum su nezavisno predložili holandski matematičar T. J. Terpstra 1952. godine i britanski psiholog E. R. Jonckheere 1954. godine. Koristi se kada se unapred zna da su postojeće grupe rezultata poređane rastom uticaja faktor koji se proučava, a koji se mjeri na ordinalnoj skali.

M - Bartlettov test, koji je predložio britanski statističar Maurice Stevenson Bartlett 1937. godine, koristi se za testiranje nulte hipoteze o jednakosti varijansi nekoliko normalnih populacija iz kojih su uzeti uzorci koji se proučavaju, uglavnom različite veličine (broj svake uzorak mora biti najmanje četiri).

G - Cochranov test, koji je otkrio Amerikanac William Gemmell Cochran 1941. godine. Koristi se za testiranje nulte hipoteze o jednakosti varijansi normalnih populacija u nezavisnim uzorcima jednake veličine.

Neparametarski Levenov test, koji je predložio američki matematičar Howard Levene 1960. godine, alternativa je Bartlett testu u uslovima u kojima nema pouzdanosti da su uzorci koji se proučavaju podložni normalnoj distribuciji.

Godine 1974. američki statističari Morton B. Brown i Alan B. Forsythe predložili su test (Brown-Forsyth test) koji se malo razlikuje od Levenovog testa.

Dvofaktorska analiza

Dvosmjerna analiza varijanse se koristi za povezane normalno raspoređene uzorke. U praksi se često koriste složene tablice ove metode, posebno one u kojima svaka ćelija sadrži skup podataka (ponovljena mjerenja) koji odgovaraju fiksnim vrijednostima nivoa. Ako pretpostavke potrebne za primjenu dvosmjerne analize varijanse nisu ispunjene, onda koristite neparametarski Friedmanov rang test (Friedman, Kendall i Smith), koji je razvio američki ekonomista Milton Friedman krajem 1930. godine. Ovaj test ne ovisi o vrsti distribucije.

Pretpostavlja se samo da je raspodjela vrijednosti identična i kontinuirana, te da su one same jedna od druge nezavisne. Prilikom testiranja nulte hipoteze, izlazni podaci se prikazuju u obliku pravokutne matrice, u kojoj redovi odgovaraju nivoima faktora B, a stupci nivoima A. Svaka ćelija tabele (bloka) može biti rezultat mjerenja parametara na jednom objektu ili na grupi objekata sa konstantnim vrijednostima nivoa oba faktora. U ovom slučaju, odgovarajući podaci se prikazuju kao prosječne vrijednosti određenog parametra za sve dimenzije ili objekte uzorka koji se proučava. Da bi se primenio izlazni kriterijum, potrebno je preći sa direktnih rezultata merenja na njihov rang. Rangiranje se vrši za svaki red posebno, odnosno vrijednosti se poređaju za svaku fiksnu vrijednost.

Pejdžov test (L-test), koji je predložio američki statističar E. B. Pejdž 1963. godine, dizajniran je da testira nultu hipotezu. Za velike uzorke koristi se Pageova aproksimacija. Oni, podložni realnosti odgovarajućih nultih hipoteza, poštuju standardnu ​​normalnu distribuciju. U slučaju da redovi izvorne tabele imaju iste vrijednosti, potrebno je koristiti prosječne rangove. U ovom slučaju, tačnost zaključaka će biti lošija, što je veći broj takvih utakmica.

Q - Cochranov kriterijum, koji je predložio W. Cochran 1937. godine. Koristi se u slučajevima kada su grupe homogenih subjekata izložene uticajima, čiji broj prelazi dva i za koje su moguće dvije opcije povratne informacije - uslovno negativna (0) i uslovno pozitivan (1) . Nulta hipoteza se sastoji od jednakosti efekata tretmana. Dvosmjerna analiza varijanse omogućava utvrđivanje postojanja efekata tretmana, ali ne omogućava utvrđivanje za koje specifične kolone postoji ovaj efekat. Da bi se riješio ovaj problem, koristi se metoda više Scheffeovih jednačina za povezane uzorke.

Multivarijantna analiza

Problem multivarijantne analize varijanse nastaje kada je potrebno utvrditi uticaj dva ili više uslova na određenu slučajnu varijablu. Studija uključuje prisustvo jedne zavisne slučajne varijable, mjerene na skali razlike ili omjera, i nekoliko nezavisnih varijabli, od kojih je svaka izražena na skali imenovanja ili rangiranja. Analiza varijanse podataka je prilično razvijen dio matematičke statistike, koji ima mnogo opcija. Koncept istraživanja je zajednički i za jednofaktore i za višefaktore. Njegova suština leži u činjenici da je ukupna varijansa podijeljena na komponente, što odgovara određenom grupisanju podataka. Svaka grupa podataka ima svoj model. Ovdje ćemo razmotriti samo osnovne odredbe potrebne za razumijevanje i praktičnu upotrebu njegovih najčešće korištenih opcija.

Analiza varijanse faktora zahtijeva prilično pažljiv odnos prema prikupljanju i prezentaciji ulaznih podataka, a posebno prema interpretaciji rezultata. Za razliku od jednofaktorskog testa, čiji se rezultati mogu uslovno smestiti u određeni niz, rezultati dvofaktorskog testa zahtevaju složeniji prikaz. Situacija postaje još složenija kada postoje tri, četiri ili više okolnosti. Zbog toga je prilično rijetko uključiti više od tri (četiri) uslova u model. Primjer bi bila pojava rezonancije pri određenoj vrijednosti kapacitivnosti i induktivnosti električnog kruga; manifestacija hemijske reakcije sa određenim skupom elemenata od kojih je sistem izgrađen; pojava anomalnih efekata u složenim sistemima pod određenom podudarnošću okolnosti. Prisustvo interakcije može radikalno promijeniti model sistema i ponekad dovesti do preispitivanja prirode fenomena s kojima se eksperimentator bavi.

Multivarijantna analiza varijanse s ponovljenim eksperimentima

Podaci mjerenja se često mogu grupirati ne po dva, već prema većem broju faktora. Dakle, ako uzmemo u obzir disperzijsku analizu vijeka trajanja guma trolejbuskih kotača uzimajući u obzir okolnosti (proizvodni pogon i rutu na kojoj se gumama prometuje), onda kao poseban uslov možemo izdvojiti sezonu tokom koje gume rade (i to: zimski i ljetni pogon). Kao rezultat toga, imaćemo problem trofaktorske metode.

Ako postoji više uslova, pristup je isti kao u dvofaktorskoj analizi. U svim slučajevima pokušavaju da pojednostave model. Fenomen interakcije dva faktora ne javlja se tako često, a trostruka interakcija se javlja samo u izuzetnim slučajevima. Uključite one interakcije za koje postoje prethodne informacije i dobri razlozi da ih uzmete u obzir u modelu. Proces identifikacije pojedinačnih faktora i njihovog uzimanja u obzir relativno je jednostavan. Stoga često postoji želja da se istakne više okolnosti. Ne biste se trebali zanositi ovim. Što je više uslova, to je model manje pouzdan i veća je vjerovatnoća greške. Sam model, koji uključuje veliki broj nezavisnih varijabli, postaje prilično složen za interpretaciju i neprikladan za praktičnu upotrebu.

Opća ideja analize varijanse

Analiza varijanse u statistici je metoda dobijanja rezultata opservacije zavisnih od različitih istovremeno operativnih okolnosti i procjene njihovog uticaja. Kontrolisana varijabla koja odgovara načinu uticaja na predmet proučavanja i dobija određenu vrijednost u određenom vremenskom periodu naziva se faktor. One mogu biti kvalitativne i kvantitativne. Nivoi kvantitativnih uslova dobijaju određeno značenje na numeričkoj skali. Primjeri su temperatura, pritisak pritiska, količina tvari. Kvalitativni faktori su različite supstance, različite tehnološke metode, uređaji, punila. Njihovi nivoi odgovaraju skali imena.

Kvalitet može uključivati ​​i vrstu ambalažnog materijala i uslove skladištenja doznog oblika. Također je racionalno uključiti stepen mljevenja sirovina, frakcijski sastav granula, koji imaju kvantitativni značaj, ali ih je teško regulisati ako se koristi kvantitativna skala. Broj kvalitativnih faktora zavisi od vrste doznog oblika, kao i od fizičkih i tehnoloških svojstava lekovitih supstanci. Na primjer, tablete se mogu dobiti od kristalnih supstanci direktnim kompresijom. U ovom slučaju dovoljno je odabrati klizne i mazive tvari.

Primjeri faktora kvaliteta za različite vrste doznih oblika

  • Tinkture. Sastav ekstraktora, tip ekstraktora, način pripreme sirovine, način proizvodnje, metoda filtracije.
  • Ekstrakti (tečni, gusti, suvi). Sastav ekstratanta, način ekstrakcije, vrsta instalacije, način uklanjanja ekstraktanta i balastnih materija.
  • Pilule. Sastav ekscipijenata, punila, dezintegranata, veziva, maziva i maziva. Način dobijanja tableta, vrsta tehnološke opreme. Vrsta ljuske i njene komponente, formirači filma, pigmenti, boje, plastifikatori, rastvarači.
  • Injekcioni rastvori. Vrsta rastvarača, način filtracije, priroda stabilizatora i konzervansa, uslovi sterilizacije, način punjenja ampula.
  • Supozitorije. Sastav baze za supozitorije, način proizvodnje supozitorija, punila, pakovanja.
  • Masti. Sastav baze, strukturne komponente, način pripreme masti, vrsta opreme, ambalaža.
  • Kapsule. Vrsta materijala ljuske, način proizvodnje kapsula, vrsta plastifikatora, konzervans, boja.
  • Linimenti. Način pripreme, sastav, vrsta opreme, vrsta emulgatora.
  • Suspenzije. Vrsta rastvarača, vrsta stabilizatora, metoda disperzije.

Primjeri faktora kvaliteta i njihovih nivoa proučavanih tokom procesa proizvodnje tableta

  • Brašno. Krompirov skrob, bijela glina, mješavina natrijum bikarbonata sa limunskom kiselinom, bazični magnezijum karbonat.
  • Rešenje za vezivanje. Voda, škrobna pasta, šećerni sirup, rastvor metilceluloze, rastvor hidroksipropilmetilceluloze, rastvor polivinilpirolidona, rastvor polivinil alkohola.
  • Klizna supstanca. Aerosil, skrob, talk.
  • Filler.Šećer, glukoza, laktoza, natrijum hlorid, kalcijum fosfat.
  • Lubricant. Stearinska kiselina, polietilen glikol, parafin.

Modeli analize varijanse u proučavanju nivoa konkurentnosti države

Jedan od najvažnijih kriterijuma za ocjenu stanja države, kojim se ocjenjuje nivo njenog blagostanja i društveno-ekonomskog razvoja, jeste konkurentnost, odnosno skup svojstava svojstvenih nacionalnoj ekonomiji koja određuju državu. sposobnost da se takmiči sa drugim zemljama. Odredivši mjesto i ulogu države na svjetskom tržištu, moguće je uspostaviti jasnu strategiju za osiguranje ekonomske sigurnosti na međunarodnom planu, jer je ona ključna za pozitivne odnose između Rusije i svih igrača na svjetskom tržištu: investitora. , kreditori i vlade.

Da bi se uporedio nivo konkurentnosti država, zemlje se rangiraju pomoću kompleksnih indeksa koji uključuju različite ponderisane indikatore. Ovi indeksi se zasnivaju na ključnim faktorima koji utiču na ekonomsku, političku itd. situaciju. Skup modela za proučavanje konkurentnosti države uključuje korištenje metoda multivarijantne statističke analize (posebno analizu varijanse (statistika), ekonometrijsko modeliranje, donošenje odluka) i uključuje sljedeće glavne faze:

  1. Formiranje sistema indikatora.
  2. Procjena i predviđanje indikatora konkurentnosti države.
  3. Poređenje indikatora konkurentnosti država.

Pogledajmo sada sadržaj modela svake od faza ovog kompleksa.

U prvoj fazi korištenjem stručnih metoda proučavanja formira se utemeljen skup ekonomskih pokazatelja za procjenu konkurentnosti države, uzimajući u obzir specifičnosti njenog razvoja na osnovu međunarodnih rejtinga i podataka statističkih službi, koji odražavaju stanje sistema u cjelini. i njegove procese. Izbor ovih indikatora opravdan je potrebom da se odaberu oni koji nam s praktične tačke gledišta najpotpunije omogućavaju utvrđivanje nivoa države, njene investicione atraktivnosti i mogućnosti relativne lokalizacije postojećih potencijalnih i stvarnih prijetnji.

Glavni pokazatelji međunarodnih rejting sistema su indeksi:

  1. Globalna konkurentnost (GC).
  2. Ekonomska sloboda (IES).
  3. Humani razvoj (HDI).
  4. Percepcija korupcije (CPC).
  5. Interne i eksterne prijetnje (IETH).
  6. Međunarodni potencijal uticaja (IPIP).

Druga faza predviđa procjenu i predviđanje indikatora konkurentnosti države prema međunarodnim ocjenama za 139 zemalja svijeta koje se proučavaju.

Treća faza omogućava poređenje uslova konkurentnosti država korišćenjem metoda korelacione i regresione analize.

Koristeći rezultate studije, moguće je utvrditi prirodu procesa općenito i za pojedine komponente konkurentnosti države; testirati hipotezu o uticaju faktora i njihovih odnosa na odgovarajućem nivou značaja.

Implementacija predloženog skupa modela omogućit će ne samo procjenu trenutnog stanja nivoa konkurentnosti i investicione atraktivnosti država, već i analizu nedostataka upravljanja, spriječiti greške pogrešnih odluka i spriječiti razvoj krize u zemlji. stanje.

Jednosmjerna analiza varijanse.

Pojam i modeli analize varijanse.

Tema 13. Analiza varijanse

Predavanje 1. Pitanja:

Analiza varijanse, kao istraživačka metoda, pojavila se u radovima R. Fišera (1918-1935) u vezi sa istraživanjima u poljoprivredi radi utvrđivanja uslova pod kojima ispitivana sorta poljoprivrednih kultura daje maksimalni prinos. Analiza varijanse je dalje razvijena u Yeatsovim radovima. Analiza varijanse nam omogućava da odgovorimo na pitanje da li određeni faktori imaju značajan uticaj na varijabilnost faktora, čije se vrednosti mogu dobiti kao rezultat iskustva. Prilikom testiranja statističkih hipoteza, pretpostavljaju se slučajne varijacije faktora koji se proučavaju. U analizi varijanse, jedan ili više faktora se mijenja na određeni način, a te promjene mogu uticati na rezultate posmatranja. Proučavanje takvog uticaja je svrha analize varijanse.

Trenutno je sve raširenija upotreba analize varijanse u ekonomiji, sociologiji, biologiji itd., posebno nakon pojave softvera koji je eliminisao probleme glomaznosti statističkih proračuna.

U praktičnim aktivnostima, u različitim oblastima nauke, često se susrećemo sa potrebom da procenimo uticaj različitih faktora na određene indikatore. Često su ovi faktori kvalitativne prirode (npr. kvalitativni faktor koji utiče na ekonomski efekat može biti uvođenje novog sistema upravljanja proizvodnjom) i tada analiza varijanse dobija posebnu vrednost, jer postaje jedina statistička metoda istraživanja koja daje takvu procjena.

Analiza varijanse omogućava da se utvrdi da li jedan ili drugi faktor koji se razmatra ima značajan uticaj na varijabilnost osobine, kao i da se kvantifikuje „specifična težina“ svakog izvora varijabilnosti u njihovoj ukupnosti. Ali analiza varijanse nam omogućava da damo pozitivan odgovor samo o prisutnosti značajnog utjecaja, inače pitanje ostaje otvoreno i zahtijeva dodatna istraživanja (najčešće povećanje broja eksperimenata).

Sljedeći termini se koriste u analizi varijanse.

Faktor (X) je nešto za šta vjerujemo da bi trebalo utjecati na rezultat (rezultativni atribut) Y.

Nivo faktora (ili metoda obrade, ponekad doslovno, na primjer - metoda obrade tla) - vrijednosti (X, i = 1,2,...I) koje faktor može uzeti.

Odziv – vrijednost mjerene karakteristike (vrijednost rezultata Y).

ANOVA tehnika varira u zavisnosti od broja nezavisnih faktora koji se proučavaju. Ako faktori koji uzrokuju varijabilnost u prosječnoj vrijednosti neke karakteristike pripadaju jednom izvoru, onda imamo jednostavno grupisanje, odnosno jednofaktorsku analizu varijanse i zatim, shodno tome, dvostruko grupisanje - dvofaktorska analiza varijanse, trofaktorska analiza varijanse, ..., m-faktor. Faktori u multivarijantnoj analizi obično se označavaju latiničnim slovima: A, B, C, itd.



Zadatak analize varijanse je proučavanje uticaja određenih faktora (ili nivoa faktora) na varijabilnost prosečnih vrednosti posmatranih slučajnih varijabli.

Suština analize varijanse. Analiza varijanse sastoji se od izolacije i procjene pojedinačnih faktora koji uzrokuju varijabilnost. U tu svrhu, ukupna varijansa posmatrane parcijalne populacije (ukupna varijansa osobine), uzrokovana svim izvorima varijabilnosti, razlaže se na komponente varijanse koje generišu nezavisni faktori. Svaka od ovih komponenti daje procjenu varijanse , ,..., uzrokovane određenim izvorom varijabilnosti, u ukupnoj populaciji. Da bi se testirala značajnost ovih procjena varijanse komponente, one se upoređuju sa ukupnom varijansom u populaciji (Fisherov test).

Na primjer, u dvofaktorskoj analizi dobijamo dekompoziciju oblika:

Ukupna varijansa proučavane osobine C;

Udio varijanse uzrokovane utjecajem faktora A;

Udio varijanse uzrokovan utjecajem faktora B;

Udio varijanse uzrokovan interakcijom faktora A i B;

Udio varijanse uzrokovane neuračunatim slučajnim uzrocima (slučajna varijansa);

U analizi varijanse uzima se u obzir hipoteza: H 0 - nijedan od faktora koji se razmatra ne utiče na varijabilnost osobine. Značajnost svake procjene varijanse se provjerava vrijednošću njenog omjera prema nasumičnoj procjeni varijanse i upoređuje s odgovarajućom kritičnom vrijednošću, na nivou značajnosti a, koristeći tablice kritičnih vrijednosti Fisher-Snedecor F distribucije (Dodatak 4) . Hipoteza H 0 o jednom ili drugom izvoru varijabilnosti se odbacuje ako se F izračuna. >F cr. (na primjer, za faktor B: S B 2 /S ε 2 >F cr.).

Analiza varijanse razmatra eksperimente od 3 vrste:

a) eksperimenti u kojima svi faktori imaju sistematske (fiksne) nivoe;

b) eksperimenti u kojima svi faktori imaju nasumične nivoe;

c) eksperimenti u kojima postoje faktori koji imaju nasumične nivoe, kao i faktori koji imaju fiksne nivoe.

Slučajevi a), b), c) odgovaraju tri modela koji se razmatraju u analizi varijanse.

Ulazni podaci za analizu varijanse obično se prikazuju u obliku sljedeće tabele:

Broj zapažanja j Nivoi faktora
A 1 A 2 A r
X 11 X 21 X p1
X 12 X 22 Xp2
X 13 X 23 X p3
. . .
. . .
. . .
n X 1n X2n XPn
REZULTATI

Razmotrite jedan faktor koji uzima p različitih nivoa i pretpostavite da se na svakom nivou vrši n zapažanja, dajući N=np zapažanja. (Ograničićemo se na razmatranje prvog modela analize varijanse – svi faktori imaju fiksne nivoe.)

Neka su rezultati prikazani u obliku X ij (i=1,2…,r; j=1,2,…,n).

Pretpostavlja se da za svaki nivo od n opservacija postoji prosjek, koji je jednak zbiru ukupnog prosjeka i njegove varijacije zbog odabranog nivoa:

gdje je m ukupan prosjek;

A i - efekat uzrokovan i – m nivoom faktora;

e ij – varijacija rezultata unutar nivoa pojedinačnog faktora. Termin e ij uzima u obzir sve nekontrolisane faktore.

Neka zapažanja na nivou fiksnog faktora budu normalno raspoređena oko srednje vrijednosti m + A i sa zajedničkom varijansom s 2 .

Zatim (tačka umjesto indeksa označava usrednjavanje odgovarajućih zapažanja preko ovog indeksa):

A.X ij – X.. = (X i . – X..) + (X ij – X i .). (12.3)

Nakon kvadriranja obje strane jednadžbe i sabiranja preko i i j, dobivamo:

od, ali

Inače, zbir kvadrata se može napisati: S = S 1 + S 2. Vrijednost S 1 se izračunava iz odstupanja p prosjeka od ukupnog prosjeka X.., stoga S 1 ima (p-1) stepene slobode. Vrijednost S 2 se izračunava iz odstupanja N opservacija od p srednjih vrijednosti uzorka i stoga ima N-r = np - p=p(n-1) stupnjeva slobode. S ima (N-1) stepene slobode. Na osnovu rezultata proračuna konstruiše se tabela analize varijanse.

ANOVA table

Ako je hipoteza da je uticaj svih nivoa jednak tačna, tada će i M 1 i M 2 (srednji kvadrati) biti nepristrasne procjene s 2. To znači da se hipoteza može provjeriti izračunavanjem omjera (M 1 / M 2) i poređenjem sa F cr. sa ν 1 = (p-1) i ν 2 = (N-p) stepenima slobode.

Ako se izračuna F >F cr. , onda se hipoteza o beznačajnom uticaju faktora A na rezultat posmatranja ne prihvata.

Za procjenu značajnosti razlika na F calc. F stol izračunati:

a) eksperimentalna greška

b) greška razlike srednjih vrijednosti

c) najmanja značajna razlika

Upoređujući razliku u prosječnim vrijednostima za opcije sa NSR, zaključuju da su razlike u nivou prosjeka značajne.

Komentar. Upotreba analize varijanse pretpostavlja da:

2) D(ε ij)=σ 2 = const,

3) ε ij → N (0, σ) ili x ij → N (a, σ).

Analitički statističar

7.1 Analiza varijanse. 2

U ovoj verziji metode, različiti uzorci ispitanika su izloženi uticaju svake od gradacija. Mora postojati barem gradacija faktora tri.

Primjer 1. Tri različite grupe od šest ispitanika dobile su liste od deset riječi. Prvoj grupi riječi su predstavljene malom brzinom - 1 riječ u 5 sekundi, drugoj grupi prosječnom brzinom - 1 riječ u 2 sekunde, a trećoj grupi velikom brzinom - 1 riječ u sekundi. Predviđeno je da će performanse reprodukcije zavisiti od brzine prezentacije reči. Rezultati su prikazani u tabeli. 1.

Tabela 1. Broj reproduciranih riječi (po J. Greene, M D "Olivera, 1989, str. 99)

Predmet br.

Grupa 1 mala brzina

Grupa 2 srednje brzine

Grupa 3 velike brzine

iznosi

prosjek

7,17

6,17

4,00

Ukupan iznos

Univarijantna analiza varijanse vam omogućava da testirate hipoteze:

H 0 : razlike u obimu proizvodnje riječi između grupe nisu izraženije od slučajnih razlika unutra svaka grupa

H 1 : Razlike u obimu proizvodnje riječi između grupe su izraženije od slučajnih razlika unutra svaka grupa.

Redoslijed operacija u jednosmjernoj analizi varijanse za nepovezane uzorke:

1. hajde da brojimo SS činjenica- varijabilnost osobine zbog djelovanja faktora koji se proučava. Uobičajena oznaka SS - skraćenica za "zbir kvadrata" ( zbir kvadrata ). Ova skraćenica se najčešće koristi u prevedenim izvorima (vidi, na primjer: Glass J., Stanley J., 1976).

,(1)

gdje je T c zbir pojedinačnih vrijednosti za svaki uslov. Za naš primjer, 43, 37, 24 (vidi tabelu 1);

s – broj uslova (gradacija) faktora (=3);

n – broj subjekata u svakoj grupi (=6);

N – ukupan broj pojedinačnih vrijednosti (=18);

Kvadrat ukupnog zbira pojedinačnih vrijednosti (=104 2 =10816)

Obratite pažnju na razliku između , u kojoj se sve pojedinačne vrijednosti prvo kvadriraju, a zatim zbrajaju, i , gdje se pojedinačne vrijednosti prvo zbrajaju kako bi se dobio ukupan zbroj, a zatim se ovaj zbroj kvadrira.

Koristeći formulu (1), nakon izračunavanja stvarne varijabilnosti osobine, dobijamo:

2. računajmo SS general– opšta varijabilnost osobine:


(2)

3. izračunati slučajnu (rezidualnu) vrijednostSS sl, uzrokovano neuračunatim faktorima:

(3)

4.broj stepena slobode jednako:

=3-1=2(4)

5."srednji kvadrat" ili je prosječna vrijednost odgovarajućih zbira kvadrata SS jednaka:

(5)

6.značenje statistika kriterijuma F em izračunaj koristeći formulu:

(6)

Za naš primjer imamo : F em =15,72/2,11=7,45

7.definisati F krit prema statističkim tabelama Prijave 3 za df 1 =k 1 =2 i df 2 =k 2 =15 tabelarna vrijednost statistike je 3,68

8. ako F em< F crit, tada se prihvata nulta hipoteza, u suprotnom prihvata se alternativna hipoteza. Za naš primjer F em> F krit (7,45>3,68), dakle str

zaključak:razlike u pamćenju riječi između grupa su izraženije od nasumičnih razlika unutar svake grupe (str<0,05). Т.о. скорость предъявления слов влияет на объем их воспроизведения.

7.1.2 Analiza varijanse za povezane uzorke

Metoda analize varijanse za povezane uzorke koristi se u slučajevima kada je uticaj različitih gradacija faktora ili različitih uslova na isti uzorak ispitanika. Mora postojati barem gradacija faktora tri.

U ovom slučaju, razlike između subjekata su mogući nezavisni izvor razlika. Jednosmjerna ANOVA za povezane uzorkeće nam omogućiti da odredimo šta nadmašuje - tendenciju izraženu krivom promjene faktora, ili individualne razlike između ispitanika. Faktor individualnih razlika može biti značajniji od faktora promjena u eksperimentalnim uslovima.

Primjer 2.Grupa od 5 ispitanika ispitana je pomoću tri eksperimentalna zadatka usmjerena na proučavanje intelektualne istrajnosti (Sidorenko E.V., 1984). Svaki predmet pojedinačno je predstavljen uzastopno sa tri identična anagrama: četvoroslovni, petoslovni i šestoslovni. Da li je moguće pretpostaviti da faktor dužine anagrama utiče na trajanje pokušaja da se on reši?

Tabela 2. Trajanje rješavanja anagrama (sek)

Šifra predmeta

Uslov 1. anagram od četiri slova

Uslov 2. Anagram od pet slova

Uslov 3. anagram od šest slova

Iznosi po predmetima

iznosi

1244

1342

Hajde da formulišemo hipoteze. U ovom slučaju postoje dva niza hipoteza.

Set A.

H 0 (A): Razlike u trajanju pokušaja rješavanja anagrama različitih dužina nisu ništa izraženije od razlika iz slučajnih razloga.

H 1 (A): Razlike u trajanju pokušaja rješavanja anagrama različitih dužina su izraženije od razlika iz slučajnih razloga.

Set B.

N o (B): Individualne razlike između ispitanika nisu ništa izraženije od razlika uzrokovanih slučajnim uzrocima.

H 1 (B): Individualne razlike između ispitanika su izraženije od razlika zbog slučajnih razloga.

Redoslijed operacija u jednosmjernoj analizi varijanse za povezane uzorke:

1. hajde da brojimo SS činjenica- varijabilnost osobine zbog djelovanja faktora koji se proučava prema formuli (1).

gdje je T c zbir pojedinačnih vrijednosti za svaki od uslova (kolona). Za naš primjer, 51, 1244, 47 (vidi tabelu 2); s – broj uslova (gradacija) faktora (=3); n – broj subjekata u svakoj grupi (=5); N – ukupan broj pojedinačnih vrijednosti (=15); - kvadrat ukupnog zbira pojedinačnih vrijednosti (=1342 2)

2. računajmo SS isp- varijabilnost znaka zbog individualnih vrijednosti subjekata.

Gdje je T i zbir pojedinačnih vrijednosti za svaki predmet. Za naš primjer, 247, 631, 100, 181, 183 (vidi tabelu 2); s – broj uslova (gradacija) faktora (=3); N – ukupan broj pojedinačnih vrijednosti (=15);

3. računajmo SS general– opšta varijabilnost osobine prema formuli (2):


4. izračunati slučajnu (rezidualnu) vrijednostSS sl, uzrokovan neuračunatim faktorima prema formuli (3):

5. broj stepena slobode jednako (4):

; ; ;

6. "srednji kvadrat" ili matematičko očekivanje zbira kvadrata, prosječna vrijednost odgovarajućih suma kvadrata SS jednaka je (5):

;

7. statistička vrijednost kriterija F em izračunaj koristeći formulu (6):

;

8. Odredimo F crit iz statističkih tabela Dodatka 3 za df 1 =k 1 =2 i df 2 =k 2 =8 tabelarne vrijednosti statistike F crit_fact =4,46, a za df 3 =k 3 =4 i df 2 =k 2 = 8 F crit_exp =3,84

9. F em_fact> F kritična_činjenica (6.872>4.46), dakle str alternativna hipoteza je prihvaćena.

10. F em_use < F крит_исп (1,054<3,84), следовательно пNul hipoteza je prihvaćena.

zaključak:razlike u obimu reprodukcije riječi u različitim uvjetima su izraženije od razlika iz slučajnih razloga (p<0,05).Индивидуальные различия между испытуе­мыми являются не более выраженными, чем различия, обусловленные случайными причинами.

7.2 Analiza korelacije

7.2.1 Koncept korelacije

Istraživača često zanima kako su dvije ili više varijabli međusobno povezane u jednom ili više uzoraka koji se proučavaju. Na primjer, mogu li učenici sa visokim nivoom anksioznosti pokazivati ​​stabilna akademska postignuća, ili je dužina rada nastavnika u školi povezana s visinom njegove plate, ili što je više u vezi sa nivoom mentalnog razvoja učenika - njihovim performanse iz matematike ili književnosti, itd.?

Ova vrsta zavisnosti između varijabli naziva se korelacija ili korelacija. Korelacija veza- ovo je koordinirana promjena dvije karakteristike, koja odražava činjenicu da je varijabilnost jedne karakteristike u skladu sa varijabilnošću druge.

Poznato je, na primjer, da u prosjeku postoji pozitivan odnos između visine ljudi i njihove težine, i to takav da što je visina veća, veća je i težina osobe. Međutim, postoje izuzeci od ovog pravila, kada relativno niski ljudi imaju prekomjernu težinu, i obrnuto, astenični ljudi visokog rasta imaju malu težinu. Razlog ovakvih izuzetaka je taj što je svaki biološki, fiziološki ili psihološki znak određen uticajem mnogih faktora: ekoloških, genetskih, društvenih, ekoloških itd.

Korelacione veze su probabilističke promjene koje se mogu proučavati samo na reprezentativnim uzorcima korištenjem metoda matematičke statistike. „Oba termina“, piše E.V. Sidorenko, - korelacione veze i korelacione zavisnosti- često se koriste kao sinonimi. Zavisnost podrazumeva uticaj, povezanost - bilo koje koordinisane promene koje se mogu objasniti stotinama razloga. Korelacijske veze se ne mogu smatrati dokazom uzročno-posljedične veze, one samo ukazuju na to da su promjene u jednoj osobini obično praćene određenim promjenama u drugoj.

Korelaciona zavisnost - to su promjene koje unose vrijednosti jedne karakteristike u vjerovatnoću pojave različitih vrijednosti druge karakteristike (E.V. Sidorenko, 2000).

Zadatak korelacione analize svodi se na utvrđivanje pravca (pozitivnog ili negativnog) i oblika (linearnog, nelinearnog) odnosa između različitih karakteristika, merenje njegove bliskosti i, na kraju, proveru nivoa značajnosti dobijenih koeficijenata korelacije.

Korelacije variraju po formi, pravcu i stepenu (snage).

Po oblikukorelacijski odnos može biti linearan ili krivolinijski. Na primjer, odnos između broja treninga na simulatoru i broja ispravno riješenih problema u kontrolnoj sesiji može biti jednostavan. Na primjer, odnos između nivoa motivacije i djelotvornosti zadatka može biti krivolinijski (vidi sliku 1). Sa porastom motivacije, prvo raste efektivnost izvršenja zadatka, a zatim se postiže optimalni nivo motivacije, koji odgovara maksimalnoj efektivnosti izvršenja zadatka; Dalje povećanje motivacije je praćeno smanjenjem efikasnosti.

Fig.1. Odnos između efektivnosti rješavanja problema

i snagu motivacione tendencije (prema J. W. A t k in sin, 1974, str. 200)

Towardskorelacija može biti pozitivna („direktna“) i negativna („inverzna“). Uz pozitivnu linearnu korelaciju, više vrijednosti jedne karakteristike odgovaraju višim vrijednostima druge, a niže vrijednosti jedne karakteristike odgovaraju niskim vrijednostima druge. Sa negativnom korelacijom, odnosi su obrnuti. Kod pozitivne korelacije, koeficijent korelacije ima pozitivan predznak, na primjerr =+0,207, s negativnom korelacijom - negativnim predznakom, na primjerr = -0,207.

Stepen, snaga ili zategnutost korelaciona veza je određena vrijednošću koeficijenta korelacije.

Jačina veze ne zavisi od njenog pravca i određena je apsolutnom vrednošću koeficijenta korelacije.

Maksimalna moguća apsolutna vrijednost koeficijenta korelacijer =1,00; minimum r =0,00.

Opšta klasifikacija korelacija (prema Ivanter E.V., Korosov A.V., 1992):

jaka, ili čvrsto sa koeficijentom korelacijer >0,70;

prosjek at 0,50< r<0,69 ;

umjereno at 0,30< r<0,49 ;

slab at 0,20< r<0,29 ;

vrlo slaba at r<0,19 .

Varijable X i Y se mogu mjeriti na različitim skalama, to je ono što određuje izbor odgovarajućeg koeficijenta korelacije (vidi tabelu 3):

Tabela 3. Upotreba koeficijenta korelacije ovisno o vrsti varijabli

Vrsta skale

Mjera veze

Varijabla X

Varijabla Y

Interval ili odnos

Interval ili odnos

Pearsonov koeficijent

Rang, interval ili omjer

Spearmanov koeficijent

Ranked

Ranked

Kendallov koeficijent

Dihotomno

Dihotomno

koeficijent "j"

Dihotomno

Ranked

Rang-biserijski

Dihotomno

Interval ili odnos

Biserial

7.2.2 Pearsonov koeficijent korelacije

Termin “korelacija” je u nauku uveo istaknuti engleski prirodnjak Francis Galton 1886. Međutim, tačnu formulu za izračunavanje koeficijenta korelacije razvio je njegov učenik Karl Pearson.

Koeficijent karakteriše postojanje samo linearnog odnosa između karakteristika, koji se obično označava simbolima X i Y. Formula za izračunavanje koeficijenta korelacije konstruisana je na način da ako je odnos između karakteristika linearan, Pirsonov koeficijent tačno utvrđuje bliskost ovog odnosa. Stoga se naziva i Pearsonov koeficijent linearne korelacije. Ako je veza između varijabli X i Y nije linearan, onda je Pearson predložio tzv. korelacioni odnos kako bi procenio bliskost ove veze.

Vrijednost Pearsonovog koeficijenta linearne korelacije ne može preći +1 i biti manja od -1. Ova dva broja +1 i -1 su granice za koeficijent korelacije. Kada proračun rezultira vrijednošću većom od +1 ili manjom od -1, došlo je do greške u proračunima.

Znak koeficijenta korelacije je veoma važan za tumačenje rezultirajućeg odnosa. Naglasimo još jednom da ako je predznak koeficijenta linearne korelacije plus, onda je odnos između koreliranih obilježja takav da veća vrijednost jednog svojstva (varijable) odgovara većoj vrijednosti drugog svojstva (druge varijable). Drugim riječima, ako se jedan indikator (varijabla) povećava, onda se drugi indikator (varijabla) povećava u skladu s tim. Ova zavisnost se naziva direktno proporcionalna zavisnost.

Ako se primi znak minus, tada veća vrijednost jedne karakteristike odgovara manjoj vrijednosti druge. Drugim riječima, ako postoji znak minus, povećanje jedne varijable (znaka, vrijednosti) odgovara smanjenju druge varijable. Ova zavisnost se naziva obrnuto proporcionalna zavisnost.

Generalno, formula za izračunavanje koeficijenta korelacije je:

(7)

Gdje X i- vrijednosti uzete u uzorku X,

y i- vrijednosti prihvaćene u uzorku Y;

Prosjek za X, - prosjek za Y.

Izračunavanje Pearsonovog koeficijenta korelacije pretpostavlja da su varijable X i Y distribuirane U redu.

Formula (7) sadrži količinu kada se podijeli sa n (broj vrijednosti varijable X ili Y) se zove kovarijansa. Formula (7) također pretpostavlja da je pri izračunavanju koeficijenata korelacije broj vrijednosti varijable X jednak broju vrijednosti varijable Y.

Broj stepeni slobode k = n -2.

Primjer 3. 10 školaraca je dobilo testove za vizuelno-figurativno i verbalno mišljenje. Prosječno vrijeme rješavanja testnih zadataka mjereno je u sekundama. Istraživača zanima pitanje: postoji li veza između vremena koje je potrebno za rješavanje ovih problema? Varijabla X označava prosječno vrijeme za rješavanje vizualno-figurativnih zadataka, a varijabla Y označava prosječno vrijeme za rješavanje verbalnih test zadataka.

Rješenje. Predstavimo početne podatke u obliku tabele 4, koja sadrži dodatne kolone potrebne za proračun po formuli (7).

Tabela 4

Broj subjekata

x

x i -

(x i - ) 2

y i -

(y i -) 2

16,7

278,89

51,84

120,24

13,69

17,2

295,84

63,64

7,29

51,84

19,44

68,89

14,44

31,54

59,29

7,84

21,56

0,49

46,24

4,76

10,89

17,64

13,86

10,89

51,84

23,76

68,89

10,8

116,64

89,64

68,89

18,8

353,44

156,04

Suma

357

242

588,1

1007,6

416,6

Prosjek

35,7

24,2

Izračunavamo empirijsku vrijednost koeficijenta korelacije koristeći formulu (7):

Određujemo kritične vrijednosti za dobijeni koeficijent korelacije prema tabeli u Dodatku 3. Prilikom pronalaženja kritičnih vrijednosti za izračunati Pearsonov koeficijent linearne korelacije, broj stupnjeva slobode se računa kao k = n – 2 = 8.

k crit = 0,72 > 0,54, dakle, hipoteza H 1 se odbacuje i hipoteza se prihvata H 0 , drugim riječima, nije dokazana veza između vremena rješavanja vizualno-figurativnih i verbalnih testnih zadataka.

7.3 Regresiona analiza

Ovo je grupa metoda čiji je cilj da identifikuju i matematički izraze one promene i zavisnosti koje se dešavaju u sistemu slučajnih varijabli. Ako takav sistem modelira pedagoški, onda se, posljedično, regresionom analizom identifikuju i matematički iskazuju psihološki i pedagoški fenomeni i zavisnosti među njima. Karakteristike ovih pojava mjere se na različitim skalama, što nameće ograničenja na načine matematičkog izražavanja promjena i zavisnosti koje proučava nastavnik-istraživač.

Metode regresijske analize su dizajnirane prvenstveno za slučaj stabilne normalne distribucije, u kojoj se promjene od pokušaja do pokušaja pojavljuju samo u obliku nezavisnih ispitivanja.

Identifikovani su različiti formalni problemi regresione analize. One mogu biti jednostavne ili složene u smislu formulacije, matematičkih sredstava i intenziteta rada. Nabrojimo i razmotrimo primjerima one koji se čine glavnim.

Prvi zadatak je identificirati činjenicu varijabilnosti fenomen koji se proučava pod određenim, ali ne uvek jasno utvrđenim uslovima. U prethodnom predavanju smo ovaj problem već rješavali koristeći parametarske i neparametarske kriterije.

Drugi zadatak - identifikovati trend kao periodična promena karakteristike. Ova karakteristika sama po sebi može ili ne mora zavisiti od varijable stanja (može zavisiti od uslova nepoznatih ili nekontrolisanih od strane istraživača). Ali to nije važno za zadatak koji se razmatra, a koji je ograničen samo na prepoznavanje trenda i njegovih karakteristika.

Testiranje hipoteza o odsustvu ili prisutnosti trenda može se izvršiti korištenjem Abbeovog kriterija . Abbeov kriterijum dizajniran za testiranje hipoteza o jednakosti prosječnih vrijednosti utvrđenih za 4

Empirijska vrijednost Abbeovog kriterija izračunava se po formuli:

(8)

gdje je aritmetička sredina uzorka;

P– broj vrijednosti u uzorku.

Prema kriteriju, hipoteza jednakosti sredstava se odbacuje (alternativna hipoteza se prihvata) ako je vrijednost statistike . Tabelarna (kritična) vrijednost statistike određena je iz tabele za Abbeov q-kriterijum, koji je, sa skraćenicama, posuđen iz knjige L.N. Bolysheva i N.V. Smirnova (vidi Dodatak 3).

Takve veličine za koje je primjenjiv Abbeov kriterij mogu biti udjeli ili procenti uzorka, aritmetički prosjeci i druge statistike distribucije uzoraka ako su blizu normalne (ili prethodno normalizirane). Stoga Abbeov kriterij može naći široku primjenu u psihološkim i pedagoškim istraživanjima. Razmotrimo primjer identificiranja trenda korištenjem Abbeovog kriterija.

Primjer 4.U tabeli 5 prikazuje dinamiku procenta učenika IV naravno, koji je položio ispite na zimskim sesijama sa „odličnošću“ tokom 10 godina rada na nekom od fakulteta.. Potrebno je utvrditi da li postoji tendencija povećanja akademskog uspjeha.

Tabela 5. Dinamika procenta odličnih studenata četvrte godine za 10 godina rada fakulteta

Akademska godina

1995-96

10,8

1996-97

16,4

1997-98

17,4

1998-99

22,0

1999-00

23,0

2000-01

21,5

2001-02

26,1

2002-03

17,2

2003-04

27,5

2004-05

33,0

As null Testiramo hipotezu o odsustvu trenda, odnosno o jednakosti postotaka.

Prosječni smo procenti dati u tabeli. 5, nalazimo da je =21,5. Izračunavamo razlike između sljedećih i prethodnih vrijednosti u uzorku, kvadriramo ih i zbrajamo:

Slično izračunava imenilac u formuli (8), zbrajajući kvadrate razlika između svakog mjerenja i aritmetičke sredine:

Sada koristeći formulu (8) dobijamo:

U tabeli Abbeovog kriterijuma iz Dodatka 3 nalazimo da je sa n = 10 i nivoom značajnosti 0,05 kritična vrednost veća od 0,41 koju smo dobili, pa hipoteza o jednakosti procenta „odličnih učenika“ mora biti odbačeno, i možemo prihvatiti alternativnu hipotezu o prisustvu trenda.

Treći zadatak je identificiranje obrasca izraženog u obliku korelacijske jednačine (regresija).

Primjer 5.Estonski istraživač J. Mikk, proučavajući poteškoće u razumijevanju teksta, uspostavio je „formulu čitljivosti“, koja je višestruka linearna regresija:

Procjenjujući poteškoće razumijevanja teksta,

gdje je x 1 dužina nezavisnih rečenica u broju ispisanih znakova,

x 2 - postotak različitih nepoznatih riječi,

x 3 - apstraktnost ponavljanja pojmova izraženih imenicama .

Upoređujući koeficijente regresije koji izražavaju stepen uticaja faktora, može se videti da je teškoća razumevanja teksta prvenstveno određena njegovom apstraktnošću. Teškoća razumijevanja teksta upola manje (0,27) ovisi o broju nepoznatih riječi i praktično uopće ne ovisi o dužini rečenice.