Variansanalys. Multivariat variansanalys ANOVA-modell av varianskomponenter

Variansanalys

1. Begreppet variansanalys

Variansanalysär en analys av variabiliteten hos en egenskap under påverkan av eventuella kontrollerade variabla faktorer. I utländsk litteratur benämns variansanalys ofta som ANOVA, vilket översätts som analys av variabilitet (Analysis of Variance).

ANOVA problem består i att isolera variabilitet av ett annat slag än den allmänna variabiliteten för en egenskap:

a) Variabilitet på grund av verkan av var och en av de oberoende variablerna som studeras;

b) variabilitet på grund av interaktionen mellan de oberoende variablerna som studeras;

c) slumpmässig variabilitet på grund av alla andra okända variabler.

Variabilitet på grund av verkan av variablerna som studeras och deras interaktion är korrelerad med slumpmässig variabilitet. En indikator på detta samband är Fishers F-test.

Formeln för beräkning av F-kriteriet inkluderar uppskattningar av varianser, det vill säga fördelningsparametrarna för attributet, därför är F-kriteriet ett parametriskt kriterium.

Ju mer variationen hos en egenskap beror på de variabler (faktorer) som studeras eller deras interaktion, desto högre empiriska kriterievärden.

Noll hypotesen i variansanalysen kommer att ange att medelvärdena för den studerade effektiva egenskapen är desamma i alla graderingar.

Alternativ hypotesen kommer att ange att medelvärdena för den resulterande egenskapen i olika graderingar av faktorn som studeras är olika.

Variansanalys tillåter oss att ange en förändring i en egenskap, men indikerar inte riktning dessa förändringar.

Låt oss börja vår övervägande av variansanalys med det enklaste fallet, när vi studerar handlingen av endast ett variabel (en faktor).

2. Envägsanalys av varians för icke-relaterade prover

2.1. Syftet med metoden

Metoden för enfaktorsanalys av varians används i de fall där förändringar i en effektiv egenskap studeras under påverkan av förändrade förhållanden eller graderingar av en faktor. I den här versionen av metoden är påverkan av var och en av faktorns gradationer annorlunda prover på ämnen. Det måste finnas minst tre graderingar av faktorn. (Det kan finnas två gradationer, men i det här fallet kommer vi inte att kunna etablera olinjära beroenden och det verkar rimligare att använda enklare).

En icke-parametrisk version av denna typ av analys är Kruskal-Wallis H-testet.

Hypoteser

H 0: Skillnader mellan faktorbetyg (olika förutsättningar) är inte större än slumpmässiga skillnader inom varje grupp.

H 1: Skillnader mellan faktorbetyg (olika förutsättningar) är större än slumpmässiga skillnader inom varje grupp.

2.2. Begränsningar för envägsanalys av varians för icke-relaterade prover

1. Envägsvariansanalys kräver minst tre graderingar av faktorn och minst två ämnen i varje gradering.

2. Den resulterande egenskapen måste vara normalfördelad i provet som studeras.

Det är sant att det vanligtvis inte anges om vi talar om fördelningen av egenskapen i hela det undersökta urvalet eller i den del av det som utgör dispersionskomplexet.

3. Ett exempel på att lösa ett problem med metoden för envägsanalys av varians för icke-relaterade prover med hjälp av exemplet:

Tre olika grupper om sex ämnen fick listor med tio ord. Orden presenterades för den första gruppen med låg hastighet - 1 ord per 5 sekunder, för den andra gruppen med medelhastighet - 1 ord per 2 sekunder, och för den tredje gruppen med hög hastighet - 1 ord per sekund. Reproduktionsprestanda förutspåddes bero på hastigheten på ordpresentationen. Resultaten presenteras i tabell. 1.

Antal återgivna ord bord 1

Ämne nr.

låg hastighet

medelhastighet

hög hastighet

totala summan

H 0: Skillnader i ordproduktionsspann mellan grupper är inte mer uttalade än slumpmässiga skillnader inuti varje grupp.

H1: Skillnader i ordproduktionsvolym mellan grupper är mer uttalade än slumpmässiga skillnader inuti varje grupp. Använda de experimentella värdena som presenteras i tabellen. 1 kommer vi att fastställa några värden som kommer att vara nödvändiga för att beräkna F-kriteriet.

Beräkningen av huvudkvantiteterna för envägsanalys av varians presenteras i tabellen:

Tabell 2

Tabell 3

Sekvens av operationer i envägsvariansanalys för icke-relaterade prover

Ofta finns det i denna och efterföljande tabeller, beteckningen SS är en förkortning för "kvadratsumman". Denna förkortning används oftast i översatta källor.

SS faktum betyder variabiliteten av egenskapen beroende på verkan av faktorn som studeras;

SS allmänt- egenskapens allmänna variation;

S C.A.-variabilitet på grund av oförklarade faktorer, "slumpmässig" eller "resterande" variabilitet.

FRÖKEN- "medelkvadrat", eller den matematiska förväntan av summan av kvadrater, medelvärdet för motsvarande SS.

df - antalet frihetsgrader, som vi, när vi överväger icke-parametriska kriterier, betecknade med en grekisk bokstav v.

Slutsats: H 0 förkastas. H 1 accepteras. Skillnader i ordåterkallelse mellan grupper var större än slumpmässiga skillnader inom varje grupp (α=0,05). Så hastigheten på presentationen av ord påverkar volymen av deras reproduktion.

Ett exempel på att lösa problemet i Excel presenteras nedan:

Initial data:

Genom att använda kommandot: Verktyg->Dataanalys->Envägs ANOVA får vi följande resultat:

Som redan noterats är spridningsmetoden nära relaterad till statistiska grupperingar och förutsätter att populationen som studeras är indelad i grupper efter faktoregenskaper, vars inflytande bör studeras.

Baserat på variansanalys tas följande fram:

1. bedömning av tillförlitligheten av skillnader i gruppmedelvärden för en eller flera faktoregenskaper;

2. bedömning av tillförlitligheten hos faktorinteraktioner;

3. bedömning av partiella skillnader mellan medelspar.

Tillämpningen av variansanalys baseras på lagen om nedbrytning av varianser (variationer) av en egenskap till komponenter.

Den totala variationen D o av den resulterande egenskapen under gruppering kan delas upp i följande komponenter:

1. till intergrupp D m associerad med en grupperingsegenskap;

2. för resterande(intern grupp) D B inte relaterad till grupperingsegenskapen.

Förhållandet mellan dessa indikatorer uttrycks som följer:

D o = D m + D in. (1.30)

Låt oss titta på användningen av variansanalys med ett exempel.

Låt oss säga att du vill bevisa om såningsdatum påverkar veteskörden. De initiala experimentella data för variansanalys presenteras i tabell. 8.

Tabell 8

I det här exemplet är N = 32, K = 4, l = 8.

Låt oss bestämma den totala totala variationen i avkastning, som är summan av kvadrerade avvikelser av individuella värden för en egenskap från det totala genomsnittet:

där N är antalet befolkningsenheter; Y i – individuella avkastningsvärden; Y o är den totala genomsnittliga avkastningen för hela befolkningen.

För att bestämma den totala variationen mellan grupperna, som bestämmer variationen av den effektiva egenskapen på grund av den faktor som studeras, är det nödvändigt att känna till medelvärdena för den effektiva egenskapen för varje grupp. Denna totala variation är lika med summan av de kvadrerade avvikelserna av gruppmedelvärden från egenskapens totala medelvärde, viktat med antalet befolkningsenheter i varje grupp:

Den totala variationen inom gruppen är lika med summan av kvadrerade avvikelser av individuella värden för en egenskap från gruppgenomsnitt för varje grupp, summerat över alla grupper i populationen.

En faktors inflytande på den resulterande egenskapen manifesteras i förhållandet mellan Dm och Dv: ju starkare faktorns inflytande på värdet av den egenskap som studeras, desto större Dm och desto mindre Dv.

För att utföra variansanalys är det nödvändigt att fastställa källorna till variation i en egenskap, variationsvolymen per källa och bestämma antalet frihetsgrader för varje variationskomponent.

Variationsmängden har redan fastställts, nu är det nödvändigt att bestämma antalet grader av variationsfrihet. Antal frihetsgrader är antalet oberoende avvikelser av individuella värden för en egenskap från dess medelvärde. Det totala antalet frihetsgrader, motsvarande den totala summan av kvadrerade avvikelser i ANOVA, delas upp i variationskomponenter. Den totala summan av kvadrerade avvikelser Do motsvarar alltså antalet variationsfrihetsgrader lika med N – 1 = 31. Gruppvariationen D m ​​svarar mot antalet variationsfrihetsgrader lika med K – 1 = 3. Restvariationen inom gruppen motsvarar antalet variationsfrihetsgrader lika med N – K = 28.


Nu, genom att känna till summan av kvadrerade avvikelser och antalet frihetsgrader, kan vi bestämma varianserna för varje komponent. Låt oss beteckna dessa varianser: d m - grupp och d i - intragrupp.

Efter att ha beräknat dessa varianser kommer vi att fortsätta med att fastställa betydelsen av faktorns inverkan på det resulterande attributet. För att göra detta hittar vi förhållandet: d M / d B = F f,

Kvantiteten F f, kallad Fisher kriterium , jämfört med tabellen, F-tabell. Som redan nämnts, om F f > F-tabellen, har faktorns inverkan på det effektiva attributet bevisats. Om F f< F табл то можно утверждать, что различие между дисперсиями находится в пределах возможных случайных колебаний и, следовательно, не доказывает с достаточной вероятностью влияние изучаемого фактора.

Det teoretiska värdet är förknippat med sannolikhet, och i tabellen anges dess värde vid en viss sannolikhetsnivå för bedömningen. Bilagan innehåller en tabell som låter dig ställa in det möjliga värdet på F för sannolikheten för bedömning, den mest använda: sannolikhetsnivån för "nollhypotesen" är 0,05. Istället för "nollhypotes"-sannolikheterna kan tabellen kallas tabellen för sannolikheten 0,95 av betydelsen av faktorns påverkan. Att öka sannolikhetsnivån kräver ett högre F-värde i tabellen för jämförelse.

Värdet på F-tabellen beror också på antalet frihetsgrader för de två dispersionerna som jämförs. Om antalet frihetsgrader tenderar till oändlighet, så tenderar F-tabellen till enhet.

Tabellen med F-tabellvärden är konstruerad enligt följande: kolumnerna i tabellen anger variationsfrihetsgraderna för den större spridningen, och raderna anger frihetsgraderna för den mindre (inom gruppen) spridningen. Värdet på F finns i skärningspunkten mellan kolumnen och raden för motsvarande variationsfrihetsgrader.

Så i vårt exempel är F f = 21,3/3,8 = 5,6. Det tabellerade värdet av F-tabellen för en sannolikhet på 0,95 och frihetsgrader, respektive lika med 3 och 28, F-tabellen = 2,95.

Värdet på F f som erhålls experimentellt överstiger det teoretiska värdet även för en sannolikhet på 0,99. Följaktligen bevisar erfarenheten med en sannolikhet på mer än 0,99 den studerade faktorns inverkan på avkastningen, det vill säga erfarenheten kan anses vara tillförlitlig, bevisad, och därför har såningstiden en betydande inverkan på avkastningen av vete. Den optimala såningsperioden bör betraktas som perioden från 10 till 15 maj, eftersom det var under denna såperiod som de bästa skörderesultaten erhölls.

Vi undersökte metoden för variansanalys när vi grupperade efter en egenskap och slumpmässigt fördelade replikat inom gruppen. Men det händer ofta att försöksområdet har vissa skillnader i markens bördighet etc. Därför kan en situation uppstå att ett större antal tomter av ett av alternativen kommer att falla in i den bästa delen, och dess indikatorer kommer att överskattas, och av det andra alternativet - av den värsta delen, och resultaten i det här fallet kommer naturligtvis att bli sämre, det vill säga underskattade.

För att utesluta variation som orsakas av orsaker som inte är relaterade till experimentet, är det nödvändigt att isolera variansen beräknad från replikat (block) från variansen inom gruppen (rest).

Den totala summan av kvadrerade avvikelser är i detta fall uppdelad i 3 komponenter:

D o = D m + D upprepa + D vila. (1,33)

I vårt exempel kommer summan av kvadrerade avvikelser orsakade av upprepningar att vara lika med:

Därför kommer den faktiska slumpmässiga summan av kvadrerade avvikelser att vara lika med:

D vila = D in – D upprepning; D vila = 106 – 44 = 62.

För restspridningen kommer antalet frihetsgrader att vara lika med 28 – 7 = 21. Resultaten av variansanalysen presenteras i tabell. 9.

Tabell 9

Eftersom de faktiska värdena för F-kriteriet för en sannolikhet på 0,95 överstiger de tabellerade, bör inverkan av sådddatum och upprepningar på veteskörden anses vara betydande. Den övervägda metoden att konstruera ett experiment, när platsen preliminärt är uppdelad i block med relativt anpassade villkor, och de testade alternativen fördelas inom blocket i en slumpmässig ordning, kallas metoden för randomiserade block.

Med hjälp av variansanalys kan du studera inverkan av inte bara en faktor på resultatet, utan två eller fler. Variansanalys i detta fall kommer att kallas multivariat variansanalys .

Tvåvägs ANOVA skiljer sig från två enfaktors genom att den kan svara på följande frågor:

1. 1 vad är effekten av båda faktorerna tillsammans?

2. Vilken roll spelar kombinationen av dessa faktorer?

Låt oss överväga en variansanalys av experimentet, där det är nödvändigt att identifiera påverkan av inte bara såningsdatum, utan också sorter på veteutbytet (tabell 10).

Tabell 10. Experimentella data om inverkan av sådatum och sorter på veteskörden

är summan av kvadrerade avvikelser av individuella värden från det totala genomsnittet.

Variation i gemensam påverkan av såtid och sort

är summan av de kvadrerade avvikelserna för undergruppens medelvärde från det totala medelvärdet, viktat med antalet replikeringar, dvs med 4.

Beräkning av variation endast baserat på påverkan av såtid:

Restvariation definieras som skillnaden mellan den totala variationen och variationen i ledpåverkan av de studerade faktorerna:

D vila = D o – D ps = 170 – 96 = 74.

Alla beräkningar kan presenteras i form av en tabell (tabell 11).

Tabell 11. Resultat av variansanalys

Resultaten av variansanalysen visar att inverkan av de studerade faktorerna, d.v.s. såtid och sort, på veteskörden är signifikant, eftersom de faktiska F-kriterierna för var och en av faktorerna väsentligt överstiger de tabellerade som hittats för motsvarande grader. av frihet, och samtidigt med en ganska hög sannolikhet (p = 0,99). Inverkan av en kombination av faktorer i detta fall är frånvarande, eftersom faktorerna är oberoende av varandra.

Analysen av tre faktorers inverkan på resultatet utförs enligt samma princip som för två faktorer, bara i detta fall kommer det att finnas tre varianser för faktorerna och fyra varianser för kombinationen av faktorer. Med en ökning av antalet faktorer ökar volymen av beräkningsarbetet kraftigt och dessutom blir det svårt att ordna den initiala informationen i en kombinationstabell. Därför är det knappast tillrådligt att studera inverkan av många faktorer på resultatet med hjälp av variansanalys; det är bättre att ta ett mindre antal, men välj de viktigaste faktorerna ur ekonomisk analyssynpunkt.

Ofta har forskaren att göra med så kallade oproportionerliga dispersionskomplex, det vill säga sådana där proportionaliteten av antalet varianter inte observeras.

I sådana komplex är variationen i den totala effekten av faktorer inte lika med summan av variationen mellan faktorer och variationen i kombinationen av faktorer. Det skiljer sig med ett belopp beroende på graden av samband mellan enskilda faktorer som uppstår till följd av ett brott mot proportionaliteten.

I detta fall uppstår svårigheter att bestämma graden av påverkan av varje faktor, eftersom summan av individuella influenser inte är lika med det totala inflytandet.

Ett av sätten att reducera ett oproportionerligt komplex till en enda struktur är att ersätta det med ett proportionellt komplex, där frekvenserna är medelvärde över grupper. När en sådan ersättning görs löses problemet enligt principerna för proportionella komplex.

Variansanalys är en uppsättning statistiska metoder utformade för att testa hypoteser om sambandet mellan vissa egenskaper och studerade faktorer som inte har en kvantitativ beskrivning, samt att fastställa graden av påverkan av faktorer och deras interaktion. I den specialiserade litteraturen kallas det ofta ANOVA (från det engelska namnet Analysis of Variations). Denna metod utvecklades först av R. Fischer 1925.

Typer och kriterier för variansanalys

Denna metod används för att studera sambandet mellan kvalitativa (nominella) egenskaper och en kvantitativ (kontinuerlig) variabel. I huvudsak testar den hypotesen om likheten mellan de aritmetiska medelvärdena för flera prover. Således kan det betraktas som ett parametriskt kriterium för att jämföra mitten av flera prov samtidigt. Om denna metod används för två prover kommer resultaten av variansanalysen att vara identiska med resultaten av studentens t-test. Men till skillnad från andra kriterier tillåter denna studie oss att studera problemet mer i detalj.

Spridningsanalys i statistik baseras på lagen: summan av kvadrerade avvikelser för det kombinerade urvalet är lika med summan av kvadrerade avvikelser mellan grupperna och summan av kvadrerade avvikelser mellan grupperna. Studien använder Fishers test för att fastställa betydelsen av skillnaden mellan intergruppvarianser och inomgruppvarianser. De nödvändiga förutsättningarna för detta är emellertid normalitet i fördelningen och homoskedasticitet (equality of varians) av prover. Det finns univariat (enfaktor) variansanalys och multivariat (multifaktoriell). Den första överväger beroendet av värdet som studeras på en egenskap, den andra - på många på en gång, och låter oss också identifiera sambandet mellan dem.

Faktorer

Faktorer är kontrollerade omständigheter som påverkar det slutliga resultatet. Dess nivå eller bearbetningsmetod är ett värde som kännetecknar en specifik manifestation av detta tillstånd. Dessa siffror presenteras vanligtvis på en nominell eller ordinär mätskala. Ofta mäts utdata på kvantitativa eller ordinalskalor. Då uppstår problemet med att gruppera utdata i ett antal observationer som motsvarar ungefär samma numeriska värden. Om antalet grupper anses vara överdrivet stort, kan antalet observationer i dem vara otillräckligt för att erhålla tillförlitliga resultat. Om du tar siffran för liten kan detta leda till förlust av betydande egenskaper för påverkan på systemet. Det specifika sättet att gruppera data beror på mängden och arten av variationer i värden. Antalet och storleken på intervall i univariat analys bestäms oftast av principen om lika intervall eller principen om lika frekvenser.

Analys av variansproblem

Så det finns fall då du behöver jämföra två eller flera prover. Det är då det är lämpligt att använda variansanalys. Namnet på metoden indikerar att slutsatser dras utifrån studiet av varianskomponenter. Kärnan i studien är att den övergripande förändringen av indikatorn är uppdelad i beståndsdelar som motsvarar verkan av varje enskild faktor. Låt oss överväga ett antal problem som löses genom typisk variansanalys.

Exempel 1

Verkstaden har ett antal automatiska maskiner som tillverkar en specifik detalj. Storleken på varje del är en slumpmässig variabel som beror på inställningen av varje maskin och de slumpmässiga avvikelser som uppstår under tillverkningsprocessen av delarna. Det är nödvändigt att bestämma, baserat på mätdata för delarnas dimensioner, om maskinerna är konfigurerade på samma sätt.

Exempel 2

Vid tillverkning av en elektrisk apparat används olika typer av isolerpapper: kondensator, elektrisk etc. Apparaten kan impregneras med olika ämnen: epoxiharts, lack, ML-2-harts etc. Läckor kan elimineras under vakuum kl. förhöjt tryck, med uppvärmning. Impregnering kan göras genom nedsänkning i lack, under en kontinuerlig ström av lack etc. Den elektriska apparaten som helhet är fylld med en viss förening, av vilken det finns flera alternativ. Kvalitetsindikatorer är isoleringens elektriska styrka, lindningens överhettningstemperatur i driftläge och ett antal andra. Under utvecklingen av den tekniska processen för tillverkning av enheter är det nödvändigt att bestämma hur var och en av de listade faktorerna påverkar enhetens prestanda.

Exempel 3

Trolleybussdepån trafikerar flera trådbussrutter. De kör trolleybussar av olika slag och 125 inspektörer samlar in biljettpriser. Depåledningen är intresserad av frågan: hur man jämför de ekonomiska indikatorerna för varje kontrollant (intäkter) med hänsyn till olika rutter och olika typer av trolleybussar? Hur avgör man den ekonomiska genomförbarheten av att tillverka trådbussar av en viss typ på en viss rutt? Hur ställer man rimliga krav på hur mycket en konduktör får in på varje sträcka i olika typer av trådbussar?

Uppgiften att välja en metod är hur man får maximal information om varje faktors inverkan på slutresultatet, bestämmer de numeriska egenskaperna för ett sådant inflytande, deras tillförlitlighet till minimal kostnad och på kortast möjliga tid. Metoder för variansanalys gör det möjligt att lösa sådana problem.

Univariat analys

Syftet med studien är att bedöma omfattningen av ett visst falls påverkan på den analyserade översikten. Ett annat syfte med univariat analys kan vara att jämföra två eller flera omständigheter med varandra för att fastställa skillnaden i deras inverkan på återkallelse. Om nollhypotesen förkastas är nästa steg att kvantifiera och konstruera konfidensintervall för de erhållna egenskaperna. I det fall där nollhypotesen inte kan förkastas accepteras den vanligtvis och man drar en slutsats om påverkans karaktär.

Envägsanalys av varians kan bli en icke-parametrisk analog till Kruskal-Wallis rankmetoden. Det utvecklades av den amerikanske matematikern William Kruskal och ekonomen Wilson Wallis 1952. Detta kriterium är utformat för att testa nollhypotesen om jämställdhet mellan effekter på de studerade proverna med okända men lika medelvärden. I detta fall måste antalet prover vara fler än två.

Jonckheere-Terpstra-kriteriet föreslogs oberoende av den holländska matematikern T. J. Terpstra 1952 och den brittiske psykologen E. R. Jonckheere 1954. Det används när det är känt i förväg att de befintliga grupperna av resultat är ordnade efter tillväxten av inflytandet från faktor under studie, som mäts på en ordinalskala.

M - Bartletts test, som föreslagits av den brittiske statistikern Maurice Stevenson Bartlett 1937, används för att testa nollhypotesen om varianslikhet mellan flera normala populationer från vilka proverna som studeras är tagna, i allmänhet har olika storlekar (antalet av varje provet måste vara minst fyra ).

G - Cochrans test, som upptäcktes av amerikanen William Gemmell Cochran 1941. Det används för att testa nollhypotesen om jämlikhet mellan varianser hos normala populationer i oberoende urval av lika stora.

Det icke-parametriska Levene-testet, som föreslogs av den amerikanske matematikern Howard Levene 1960, är ​​ett alternativ till Bartlett-testet under förhållanden där det inte finns något förtroende för att proverna som studeras är föremål för en normalfördelning.

1974 föreslog de amerikanska statistikerna Morton B. Brown och Alan B. Forsythe ett test (Brown-Forsyth-test) som skiljer sig något från Levenes test.

Tvåfaktorsanalys

Tvåvägsvariansanalys används för relaterade normalfördelade prover. I praktiken används ofta komplexa tabeller av denna metod, särskilt de där varje cell innehåller en uppsättning data (upprepade mätningar) som motsvarar värden på fast nivå. Om de antaganden som krävs för att tillämpa tvåvägsvariansanalys inte uppfylls, använd det icke-parametriska Friedman-ranktestet (Friedman, Kendall och Smith), utvecklat av den amerikanske ekonomen Milton Friedman i slutet av 1930. Detta test beror inte på typen av distribution.

Det antas bara att fördelningen av värden är identisk och kontinuerlig, och att de själva är oberoende av varandra. Vid testning av nollhypotesen presenteras utdata i form av en rektangulär matris, där raderna motsvarar nivåerna av faktor B, och kolumnerna motsvarar nivåerna av A. Varje cell i tabellen (blocket) kan vara resultatet av mätningar av parametrar på ett objekt eller på en grupp av objekt med konstanta värden på nivåerna för båda faktorerna. I det här fallet presenteras motsvarande data som medelvärdena för en viss parameter för alla dimensioner eller objekt i provet som studeras. För att tillämpa utmatningskriteriet är det nödvändigt att gå från de direkta resultaten av mätningar till deras rangordning. Rangordning utförs för varje rad separat, det vill säga värdena ordnas för varje fast värde.

Pages test (L-test), som föreslagits av den amerikanske statistikern E. B. Page 1963, är utformat för att testa nollhypotesen. För stora prover används Pages uppskattning. De, med förbehåll för verkligheten hos motsvarande nollhypoteser, lyder standardnormalfördelningen. I det fall där raderna i källtabellen har samma värden är det nödvändigt att använda genomsnittliga rankningar. I det här fallet kommer noggrannheten i slutsatserna att bli sämre, ju större antalet sådana matchningar.

Q - Cochrans kriterium, föreslagit av W. Cochran 1937. Det används i de fall där grupper av homogena subjekt utsätts för påverkan, vars antal överstiger två och för vilka två alternativ för återkoppling är möjliga - villkorligt negativ (0) och villkorligt positiv (1) . Nollhypotesen består av lika behandlingseffekter. Tvåvägsvariansanalys gör det möjligt att fastställa förekomsten av behandlingseffekter, men gör det inte möjligt att avgöra för vilka specifika kolumner denna effekt finns. För att lösa detta problem används metoden för multipla Scheffe-ekvationer för relaterade prover.

Multivariat analys

Problemet med multivariat variansanalys uppstår när man behöver bestämma effekten av två eller flera villkor på en viss slumpvariabel. Studien involverar närvaron av en beroende slumpvariabel, mätt på en differens- eller kvotskala, och flera oberoende variabler, som var och en uttrycks på en namn- eller rangskala. Variansanalys av data är en ganska utvecklad del av matematisk statistik, som har många alternativ. Forskningskonceptet är gemensamt för både enfaktor och multifaktor. Dess väsen ligger i det faktum att den totala variansen är uppdelad i komponenter, vilket motsvarar en viss gruppering av data. Varje datagruppering har sin egen modell. Här kommer vi bara att överväga de grundläggande bestämmelserna som är nödvändiga för att förstå och praktiskt använda de mest använda alternativen.

Variansanalys av faktorer kräver en ganska noggrann inställning till insamling och presentation av indata, och särskilt till tolkningen av resultaten. Till skillnad från ett enfaktorstest, vars resultat kan villkorligt placeras i en viss sekvens, kräver resultaten av ett tvåfaktorstest en mer komplex presentation. Situationen blir ännu mer komplicerad när det finns tre, fyra eller fler omständigheter. På grund av detta är det ganska sällsynt att inkludera mer än tre (fyra) tillstånd i en modell. Ett exempel skulle vara förekomsten av resonans vid ett visst värde av kapacitans och induktans för en elektrisk cirkel; manifestationen av en kemisk reaktion med en viss uppsättning element från vilka systemet är byggt; förekomsten av anomala effekter i komplexa system under en viss sammanträffande av omständigheter. Förekomsten av interaktion kan radikalt förändra systemets modell och ibland leda till en omprövning av karaktären hos de fenomen som försöksledaren har att göra med.

Multivariat variansanalys med upprepade experiment

Mätdata kan ofta grupperas inte efter två, utan efter ett större antal faktorer. Således, om vi betraktar spridningsanalysen av livslängden för trolleybusshjuldäck med hänsyn till omständigheterna (tillverkningsanläggningen och rutten som däcken körs på), så kan vi som ett separat villkor peka ut den säsong under vilken däck körs (nämligen: vinter- och sommardrift). Som ett resultat kommer vi att ha ett problem med trefaktormetoden.

Om det finns fler förutsättningar är tillvägagångssättet detsamma som vid tvåfaktorsanalys. I samtliga fall försöker man förenkla modellen. Fenomenet med interaktion mellan två faktorer förekommer inte så ofta, och trippelinteraktion förekommer endast i undantagsfall. Inkludera de interaktioner som det finns tidigare information om och goda skäl att ta hänsyn till i modellen. Processen att identifiera enskilda faktorer och ta hänsyn till dem är relativt enkel. Därför finns det ofta en önskan att lyfta fram fler omständigheter. Du ska inte ryckas med detta. Ju fler förhållanden, desto mindre tillförlitlig blir modellen och desto större är sannolikheten för fel. Själva modellen, som innehåller ett stort antal oberoende variabler, blir ganska komplex att tolka och obekväm för praktisk användning.

Allmän idé om variansanalys

Variansanalys i statistik är en metod för att erhålla observationsresultat beroende på olika simultant verksamma omständigheter och bedöma deras inflytande. En styrd variabel som motsvarar metoden att påverka studieobjektet och får ett visst värde under en viss tidsperiod kallas en faktor. De kan vara kvalitativa och kvantitativa. Nivåer av kvantitativa förhållanden får en viss betydelse på en numerisk skala. Exempel är temperatur, presstryck, mängd ämne. Kvalitativa faktorer är olika ämnen, olika tekniska metoder, enheter, fyllmedel. Deras nivåer motsvarar en namnskala.

Kvalitet kan också inkludera typen av förpackningsmaterial och förvaringsvillkoren för doseringsformen. Det är också rationellt att ta med råvarornas malningsgrad, granulats fraktionella sammansättning, som har kvantitativ betydelse, men som är svåra att reglera om en kvantitativ skala används. Antalet kvalitativa faktorer beror på typen av doseringsform, såväl som de fysikaliska och tekniska egenskaperna hos medicinska substanser. Till exempel kan tabletter erhållas från kristallina substanser genom direkt komprimering. I det här fallet räcker det att välja glid- och smörjmedel.

Exempel på kvalitetsfaktorer för olika typer av beredningsformer

  • Tinkturer. Extraktionsmedlets sammansättning, extraktortyp, råvaruberedningsmetod, produktionsmetod, filtreringsmetod.
  • Extrakt (flytande, tjockt, torrt). Extraktionsmedlets sammansättning, extraktionsmetod, typ av installation, metod för att avlägsna extraktionsmedlet och ballastämnen.
  • Biljard. Sammansättning av hjälpämnen, fyllmedel, sönderdelningsmedel, bindemedel, smörjmedel och smörjmedel. Metod för att erhålla tabletter, typ av teknisk utrustning. Typ av skal och dess komponenter, filmbildare, pigment, färgämnen, mjukgörare, lösningsmedel.
  • Injektionslösningar. Typ av lösningsmedel, filtreringsmetod, typ av stabilisatorer och konserveringsmedel, steriliseringsförhållanden, metod för att fylla ampuller.
  • Suppositorier. Sammansättning av stolpillerbasen, metod för framställning av stolpiller, fyllmedel, förpackning.
  • Salvor. Basens sammansättning, strukturella komponenter, metod för att framställa salvan, typ av utrustning, förpackning.
  • Kapslar. Typ av skalmaterial, metod för att tillverka kapslar, typ av mjukgörare, konserveringsmedel, färgämne.
  • Liniment. Beredningsmetod, sammansättning, typ av utrustning, typ av emulgeringsmedel.
  • Upphängningar. Typ av lösningsmedel, typ av stabilisator, dispersionsmetod.

Exempel på kvalitetsfaktorer och deras nivåer studerade under tablettillverkningsprocessen

  • Bakpulver. Potatisstärkelse, vit lera, en blandning av natriumbikarbonat med citronsyra, basiskt magnesiumkarbonat.
  • Bindande lösning. Vatten, stärkelsepasta, sockersirap, metylcellulosalösning, hydroxipropylmetylcellulosalösning, polyvinylpyrrolidonlösning, polyvinylalkohollösning.
  • Glidande ämne. Aerosil, stärkelse, talk.
  • Filler. Socker, glukos, laktos, natriumklorid, kalciumfosfat.
  • Smörjmedel. Stearinsyra, polyetylenglykol, paraffin.

Modeller för variansanalys i studien av nivån på statens konkurrenskraft

Ett av de viktigaste kriterierna för att bedöma tillståndet i en stat, genom vilket nivån på dess välbefinnande och socioekonomiska utveckling bedöms, är konkurrenskraft, det vill säga en uppsättning egenskaper som är inneboende i den nationella ekonomin som bestämmer statens förmåga att konkurrera med andra länder. Efter att ha bestämt statens plats och roll på världsmarknaden är det möjligt att upprätta en tydlig strategi för att säkerställa ekonomisk säkerhet i internationell skala, eftersom det är nyckeln till positiva relationer mellan Ryssland och alla aktörer på världsmarknaden: investerare , borgenärer och regeringar.

För att jämföra staternas konkurrenskraft rankas länder med hjälp av komplexa index som inkluderar olika viktade indikatorer. Dessa index är baserade på nyckelfaktorer som påverkar den ekonomiska, politiska, etc. situationen. En uppsättning modeller för att studera statens konkurrenskraft innefattar användningen av multivariata statistiska analysmetoder (i synnerhet variansanalys (statistik), ekonometrisk modellering, beslutsfattande) och inkluderar följande huvudstadier:

  1. Bildande av ett system av indikatorer.
  2. Bedömning och prognostisering av statliga konkurrenskraftsindikatorer.
  3. Jämförelse av indikatorer på staters konkurrenskraft.

Låt oss nu titta på innehållet i modellerna för vart och ett av stegen i detta komplex.

I det första skedet med hjälp av expertstudiemetoder bildas en välgrundad uppsättning ekonomiska indikatorer för att bedöma statens konkurrenskraft, med hänsyn till särdragen i dess utveckling baserat på internationella betyg och data från statistiska avdelningar, vilket återspeglar systemets tillstånd som helhet. och dess processer. Valet av dessa indikatorer motiveras av behovet av att välja de som mest fullständigt, ur praktisk synvinkel, tillåter oss att bestämma statens nivå, dess investeringsattraktionskraft och möjligheten till relativ lokalisering av befintliga potentiella och faktiska hot.

De viktigaste indikatorerna för internationella klassificeringssystem är index:

  1. Global konkurrenskraft (GC).
  2. Ekonomisk frihet (IES).
  3. Human Development (HDI).
  4. Uppfattningar om korruption (CPC).
  5. Interna och externa hot (IETH).
  6. International Influence Potential (IPIP).

Andra fasen föreskriver bedömning och prognostisering av statliga konkurrenskraftsindikatorer enligt internationella betyg för de 139 länder i världen som studeras.

Tredje etappen ger en jämförelse av konkurrensvillkoren för stater med hjälp av metoder för korrelation och regressionsanalys.

Med hjälp av resultaten av studien är det möjligt att bestämma karaktären på processerna i allmänhet och för enskilda komponenter i statens konkurrenskraft; testa hypotesen om påverkan av faktorer och deras samband på lämplig nivå av signifikans.

Genomförandet av den föreslagna uppsättningen modeller gör det möjligt att inte bara bedöma den nuvarande situationen för staternas konkurrenskraft och investeringsattraktionskraft, utan också att analysera brister i förvaltningen, förhindra fel i felaktiga beslut och förhindra utvecklingen av en kris i stat.

Enkelriktad variansanalys.

Koncept och modeller för variansanalys.

Ämne 13. Variansanalys

Föreläsning 1. Frågor:

Variansanalys, som en forskningsmetod, dök upp i verk av R. Fischer (1918-1935) i samband med forskning inom jordbruket för att identifiera de förhållanden under vilka den testade sorten av jordbruksgrödor ger maximal avkastning. Variansanalys utvecklades ytterligare i Yeats verk. Variansanalys låter oss svara på frågan om vissa faktorer har ett betydande inflytande på variabiliteten hos en faktor, vars värden kan erhållas som ett resultat av erfarenhet. Vid prövning av statistiska hypoteser antas slumpmässiga variationer i de faktorer som studeras. Vid variansanalys ändras en eller flera faktorer på ett givet sätt, och dessa förändringar kan påverka resultaten av observationer. Studiet av sådan påverkan är syftet med variansanalys.

För närvarande finns det en allt mer utbredd användning av variansanalys inom ekonomi, sociologi, biologi, etc., särskilt efter tillkomsten av programvara som eliminerade problemen med besvärligheten i statistiska beräkningar.

I praktiska aktiviteter, inom olika vetenskapsområden, ställs vi ofta inför behovet av att utvärdera olika faktorers inverkan på vissa indikatorer. Ofta är dessa faktorer av kvalitativ karaktär (till exempel kan en kvalitativ faktor som påverkar den ekonomiska effekten vara införandet av ett nytt produktionsledningssystem) och då får variansanalys ett särskilt värde, eftersom det blir den enda statistiska forskningsmetoden som ger sådana en bedömning.

Variansanalys gör det möjligt att avgöra om en eller annan av de faktorer som övervägs har en betydande inverkan på en egenskaps variabilitet, samt att kvantifiera den "specifika vikten" för varje variabilitetskälla i sin helhet. Men analys av varians låter oss ge ett positivt svar endast om närvaron av ett betydande inflytande, annars förblir frågan öppen och kräver ytterligare forskning (oftast en ökning av antalet experiment).

Följande termer används vid variansanalys.

Faktor (X) är något som vi tror bör påverka resultatet (resultatattribut) Y.

Faktornivå (eller metod för bearbetning, ibland bokstavligen, till exempel - metod för jordbearbetning) - värden (X, i = 1,2,...I) som faktorn kan ta.

Respons – värdet på den uppmätta karakteristiken (resultatvärde Y).

ANOVA-tekniken varierar beroende på antalet oberoende faktorer som studeras. Om faktorerna som orsakar variabilitet i medelvärdet av en egenskap tillhör en källa, så har vi en enkel gruppering, eller enfaktorsanalys av varians och sedan, följaktligen, en dubbelgruppering - tvåfaktorsvariansanalys, trefaktorsanalys variansanalys, ..., m-faktor. Faktorer i multivariat analys betecknas vanligtvis med latinska bokstäver: A, B, C, etc.



Uppgiften med variansanalys är att studera påverkan av vissa faktorer (eller nivåer av faktorer) på variabiliteten av medelvärdena för observerade slumpvariabler.

Kärnan i variansanalys. Variansanalys består av att isolera och bedöma individuella faktorer som orsakar variabilitet. För detta ändamål bryts den totala variansen av den observerade partiella populationen (total varians av egenskapen), orsakad av alla källor till variabilitet, upp i varianskomponenter genererade av oberoende faktorer. Var och en av dessa komponenter ger en uppskattning av variansen ,..., orsakad av en viss källa till variabilitet, i den totala populationen. För att testa signifikansen av dessa komponentvariansuppskattningar jämförs de med den totala variansen i populationen (Fishers test).

Till exempel, i tvåfaktorsanalys får vi en nedbrytning av formen:

Total varians av den studerade egenskapen C;

Andelen varians som orsakas av påverkan av faktor A;

Andelen varians som orsakas av påverkan av faktor B;

Andelen varians som orsakas av växelverkan mellan faktorerna A och B;

Andelen varians som orsakas av oredovisade slumpmässiga orsaker (slumpmässig varians);

Vid variansanalys beaktas hypotesen: H 0 - ingen av faktorerna som övervägs har en effekt på egenskapens variabilitet. Signifikansen för varje variansuppskattning kontrolleras med värdet av dess förhållande till den slumpmässiga variansuppskattningen och jämförs med motsvarande kritiska värde, på signifikansnivå a, med hjälp av tabeller över kritiska värden för Fisher-Snedecor F-fördelningen (bilaga 4) . Hypotes H 0 angående en eller annan källa till variabilitet förkastas om F beräknas. >F cr. (till exempel för faktor B: S B2/S e2 >F cr.).

Variansanalys tar hänsyn till experiment av tre typer:

a) experiment där alla faktorer har systematiska (fasta) nivåer;

b) experiment där alla faktorer har slumpmässiga nivåer;

c) experiment där det finns faktorer som har slumpmässiga nivåer, samt faktorer som har fasta nivåer.

Fallen a), b), c) motsvarar tre modeller som beaktas vid variansanalys.

Indata för variansanalys presenteras vanligtvis i form av följande tabell:

Observationsnummer j Faktornivåer
A 1 A 2 A r
X 11 X 21 X pl
X 12 X 22 Xp2
X 13 X 23 X p3
. . .
. . .
. . .
n Xln X2n Xpn
RESULTAT

Betrakta en enskild faktor som tar p olika nivåer, och antag att på varje nivå görs n observationer, vilket ger N=np observationer. (Vi kommer att begränsa oss till att överväga den första modellen för variansanalys - alla faktorer har fasta nivåer.)

Låt resultaten presenteras i formen X ij (i=1,2…,р; j=1,2,…,n).

Det antas att det för varje nivå av n observationer finns ett medelvärde, som är lika med summan av det totala genomsnittet och dess variation på grund av den valda nivån:

där m är det totala genomsnittet;

A i - effekt orsakad av faktorns i – m nivå;

e ij – variation av resultat inom en individuell faktornivå. Termen e ij tar hänsyn till alla okontrollerbara faktorer.

Låt observationer på en fast faktornivå vara normalfördelad runt medelvärdet m + A i med en gemensam varians s 2 .

Sedan (punkten istället för indexet anger medelvärdet av motsvarande observationer över detta index):

A.X ij – X.. = (X i . – X..) + (X ij – X i .). (12.3)

Efter att ha kvadrerat båda sidor av ekvationen och summerat över i och j får vi:

sedan, men

Annars kan summan av kvadrater skrivas: S = S 1 + S 2. Värdet på S 1 beräknas från avvikelserna av p medelvärden från det totala medelvärdet X.., därför har S 1 (p-1) frihetsgrader. Värdet på S 2 beräknas från avvikelserna för N observationer från p sampelmedelvärden och har därför N-р = np - p=p(n-1) frihetsgrader. S har (N-1) frihetsgrader. Utifrån beräkningsresultaten konstrueras en variansanalystabell.

ANOVA bord

Om hypotesen att alla nivåers inflytande är lika är sann, kommer både M 1 och M 2 (medelkvadrater) att vara opartiska skattningar av s 2. Detta innebär att hypotesen kan testas genom att beräkna förhållandet (M 1 / M 2) och jämföra det med F cr. med ν 1 = (p-1) och ν 2 = (N-p) frihetsgrader.

Om F beräknas >F cr. , då accepteras inte hypotesen om faktor A:s obetydliga inverkan på resultatet av observationer.

För att bedöma betydelsen av skillnader vid F beräkn. F bord Beräkna:

a) experimentellt fel

b) fel i medelskillnaden

c) den minsta signifikanta skillnaden

Genom att jämföra skillnaden i medelvärden för alternativen med NSR drar de slutsatsen att skillnaderna i nivån på medelvärden är betydande.

Kommentar. Användningen av variansanalys förutsätter att:

2) D(ε ij)=σ 2 = konst,

3) eij → N (0, σ) eller xij → N (a, σ).

Analytisk statistiker

7.1 Variansanalys. 2

I den här versionen av metoden utsätts olika prover av försökspersoner för påverkan av var och en av graderingarna. Det måste finnas åtminstone graderingar av faktorn tre.

Exempel 1. Tre olika grupper om sex ämnen fick listor med tio ord. Orden presenterades för den första gruppen med låg hastighet - 1 ord per 5 sekunder, för den andra gruppen med medelhastighet - 1 ord per 2 sekunder, och för den tredje gruppen med hög hastighet - 1 ord per sekund. Reproduktionsprestanda förutspåddes bero på hastigheten på ordpresentationen. Resultaten presenteras i tabell. 1.

Tabell 1. Antal ord som återges (av J. Greene, M D "Olivera, 1989, s. 99)

Ämne nr.

Grupp 1 låg hastighet

Grupp 2 medelhastighet

Grupp 3 högfart

belopp

genomsnitt

7,17

6,17

4,00

Totala summan

Univariat variansanalys låter dig testa hypoteserna:

H 0 : skillnader i ordproduktionsvolym mellan grupper är inte mer uttalade än slumpmässiga skillnader inuti varje grupp

H 1 : Skillnader i ordproduktionsvolym mellan grupper är mer uttalade än slumpmässiga skillnader inuti varje grupp.

Sekvens av operationer i envägsvariansanalys för icke-relaterade prover:

1. låt oss räkna SS faktum- Variabilitet av egenskapen beroende på verkan av faktorn som studeras. Gemensam beteckning SS - förkortning för "summan av kvadrater" ( summan av kvadrater ). Denna förkortning används oftast i översatta källor (se t.ex.: Glass J., Stanley J., 1976).

,(1)

där T c är summan av individuella värden för varje tillstånd. För vårt exempel, 43, 37, 24 (se tabell 1);

с – antal villkor (graderingar) av faktorn (=3);

n – antal ämnen i varje grupp (=6);

N – totalt antal individuella värden (=18);

Kvadrat på den totala summan av individuella värden (=104 2 =10816)

Notera skillnaden mellan , där alla individuella värden först kvadreras och sedan summeras, och , där individuella värden först summeras för att få en total summa, och sedan kvadreras denna summa.

Med hjälp av formel (1), efter att ha beräknat egenskapens faktiska variabilitet, får vi:

2. låt oss räkna SS general– egenskapens generella variation:


(2)

3. beräkna det slumpmässiga (restvärdet).SS sl, orsakade av oöverskådliga faktorer:

(3)

4.antal frihetsgraderär lika med:

=3-1=2(4)

5."mitten fyrkant" eller medelvärdet av motsvarande kvadratsummor SS är lika med:

(5)

6.betydelse kriteriestatistik F em beräkna med formeln:

(6)

För vårt exempel har vi : F em =15,72/2,11=7,45

7.definiera F krit enligt statistiska tabeller Applikationer 3 för df 1 =k 1 =2 och df 2 =k 2 =15 är tabellvärdet för statistiken 3,68

8. om F em< F crit, då accepteras nollhypotesen, annars accepteras alternativhypotesen. För vårt exempel F em> F crit (7,45>3,68), därför sid

Slutsats:skillnader i ordåterkallelse mellan grupper är mer uttalade än slumpmässiga skillnader inom varje grupp (s<0,05). Т.о. скорость предъявления слов влияет на объем их воспроизведения.

7.1.2 Variansanalys för relaterade prover

Metoden för variansanalys för relaterade prover används i de fall då påverkan av olika graderingar av en faktor eller olika förhållanden på samma urval av ämnen. Det måste finnas åtminstone graderingar av faktorn tre.

I det här fallet är skillnader mellan ämnen en möjlig oberoende källa till skillnader. Envägs ANOVA för relaterade proverkommer att tillåta oss att bestämma vad som väger upp - tendensen uttryckt av faktorförändringskurvan, eller individuella skillnader mellan försökspersoner. Faktorn för individuella skillnader kan vara mer signifikant än faktorn för förändringar i experimentella förhållanden.

Exempel 2.En grupp om 5 försökspersoner undersöktes med hjälp av tre experimentella uppgifter som syftade till att studera intellektuell uthållighet (Sidorenko E.V., 1984). Varje ämne presenterades individuellt sekventiellt med tre identiska anagram: fyra bokstäver, fem bokstäver och sex bokstäver. Är det möjligt att anta att längdfaktorn för ett anagram påverkar varaktigheten av försöken att lösa det?

Tabell 2. Varaktighet för att lösa anagram (sek)

Ämneskod

Villkor 1. fyra bokstäver anagram

Villkor 2. Fembokstavsanagram

Villkor 3. sex bokstäver anagram

Belopp per ämnen

belopp

1244

1342

Låt oss formulera hypoteser. I det här fallet finns det två uppsättningar av hypoteser.

Set A.

H 0 (A): Skillnader i varaktigheten av försök att lösa anagram av olika längd är inte mer uttalade än skillnader på grund av slumpmässiga skäl.

H 1 (A): Skillnader i varaktigheten av försök att lösa anagram av olika längd är mer uttalade än skillnader på grund av slumpmässiga skäl.

Set B.

N om (B): Individuella skillnader mellan försökspersoner är inte mer uttalade än skillnader på grund av slumpmässiga orsaker.

H 1 (B): Individuella skillnader mellan försökspersoner är mer uttalade än skillnader på grund av slumpmässiga skäl.

Sekvens av operationer i envägsvariansanalys för relaterade prover:

1. låt oss räkna SS faktum- Variabilitet hos egenskapen beroende på verkan av faktorn som studeras enligt formel (1).

där T c är summan av individuella värden för vart och ett av villkoren (kolumner). För vårt exempel, 51, 1244, 47 (se tabell 2); с – antal villkor (graderingar) av faktorn (=3); n – antal ämnen i varje grupp (=5); N – totalt antal individuella värden (=15); - kvadrat av den totala summan av individuella värden (=1342 2)

2. låt oss räkna SS isp- tecknets variation på grund av individernas individuella värden.

Där T och är summan av individuella värden för varje ämne. För vårt exempel, 247, 631, 100, 181, 183 (se tabell 2); с – antal villkor (graderingar) av faktorn (=3); N – totalt antal individuella värden (=15);

3. låt oss räkna SS general– Generell variation av egenskapen enligt formel (2):


4. beräkna det slumpmässiga (restvärdet).SS sl, orsakade av oredovisade faktorer enligt formel (3):

5. antal frihetsgraderär lika med (4):

; ; ;

6. "mitten fyrkant" eller matematisk förväntan på summan av kvadrater, medelvärdet av motsvarande kvadratsummor SS är lika med (5):

;

7. kriterium statistiskt värde F em beräkna med formeln (6):

;

8. Låt oss bestämma F crit från de statistiska tabellerna i bilaga 3 för df 1 =k 1 =2 och df 2 =k 2 =8 tabellvärde för statistik F crit_fact =4.46, och för df 3 =k 3 =4 och df 2 =k 2 = 8 F crit_exp =3,84

9. F em_faktum> F kritisk_fakta (6.872>4.46), därför sid en alternativ hypotes accepteras.

10. F em_use < F крит_исп (1,054<3,84), следовательно пNollhypotesen accepteras.

Slutsats:skillnader i volymen av ordreproduktion under olika förhållanden är mer uttalade än skillnader på grund av slumpmässiga skäl (s.<0,05).Индивидуальные различия между испытуе­мыми являются не более выраженными, чем различия, обусловленные случайными причинами.

7.2 Korrelationsanalys

7.2.1 Begreppet korrelation

En forskare är ofta intresserad av hur två eller flera variabler är relaterade till varandra i ett eller flera prov som studeras. Kan till exempel elever med höga nivåer av ångest uppvisa stabila akademiska prestationer, eller är den tid en lärare arbetar i en skola relaterad till storleken på hans lön, eller vad mer är relaterat till nivån på elevernas mentala utveckling - deras prestationer i matematik eller litteratur, etc. .?

Denna typ av beroende mellan variabler kallas korrelation, eller korrelation. Korrelation förbindelse- detta är en samordnad förändring av två egenskaper, vilket återspeglar det faktum att variabiliteten för en egenskap är i överensstämmelse med variabiliteten hos den andra.

Det är till exempel känt att det i genomsnitt finns ett positivt samband mellan människors längd och deras vikt, och att ju högre längd desto större är personens vikt. Det finns dock undantag från denna regel, när relativt korta personer är överviktiga, och omvänt, asteniska personer med hög resning har låg vikt. Anledningen till sådana undantag är att varje biologiskt, fysiologiskt eller psykologiskt tecken bestäms av inverkan av många faktorer: miljömässiga, genetiska, sociala, miljömässiga, etc.

Korrelationssamband är sannolikhetsförändringar som endast kan studeras på representativa urval med hjälp av matematisk statistik. "Båda termerna", skriver E.V. Sidorenko, - korrelationssamband och korrelationsberoende- används ofta som synonymer. Beroende innebär inflytande, anslutning - alla samordnade förändringar som kan förklaras av hundratals skäl. Korrelationskopplingar kan inte betraktas som bevis på ett orsak- och verkansamband, de indikerar bara att förändringar i en egenskap vanligtvis åtföljs av vissa förändringar i en annan.

Korrelationsberoende - dessa är förändringar som introducerar värdena för en egenskap i sannolikheten för uppkomsten av olika värden för en annan egenskap (E.V. Sidorenko, 2000).

Uppgiften med korrelationsanalys handlar om att fastställa riktningen (positiv eller negativ) och form (linjär, olinjär) för förhållandet mellan olika egenskaper, mäta dess närhet och slutligen kontrollera signifikansnivån för de erhållna korrelationskoefficienterna.

Korrelationerna varierar i form, riktning och grad (styrka).

Efter formkorrelationsförhållandet kan vara linjärt eller krökt. Till exempel kan förhållandet mellan antalet träningspass på simulatorn och antalet korrekt lösta problem i kontrollpasset vara okomplicerat. Till exempel kan sambandet mellan motivationsnivån och en uppgifts effektivitet vara krökt (se fig. 1). När motivationen ökar ökar först effektiviteten av att slutföra en uppgift, sedan uppnås den optimala motivationsnivån, vilket motsvarar den maximala effektiviteten av att slutföra uppgiften; En ytterligare ökning av motivationen åtföljs av en minskad effektivitet.

Figur 1. Förhållandet mellan effektiviteten av att lösa ett problem

och styrkan i den motiverande tendensen (enligt J. W. A t k in son, 1974, s 200)

Motkorrelationen kan vara positiv (“direkt”) och negativ (“invers”). Med en positiv linjär korrelation motsvarar högre värden för en egenskap högre värden för en annan, och lägre värden för en egenskap motsvarar låga värden för en annan. Med en negativ korrelation är sambanden omvända. Med en positiv korrelation har korrelationskoefficienten till exempel ett positivt teckenr =+0,207, med en negativ korrelation - ett negativt tecken, till exempelr = -0,207.

Grad, styrka eller täthet korrelationskopplingen bestäms av värdet på korrelationskoefficienten.

Styrkan på anslutningen beror inte på dess riktning och bestäms av det absoluta värdet av korrelationskoefficienten.

Högsta möjliga absoluta värde för korrelationskoefficientenr = 1,00; minimum r = 0,00.

Allmän klassificering av korrelationer (enligt Ivanter E.V., Korosov A.V., 1992):

stark, eller tajt med korrelationskoefficientr >0,70;

genomsnitt0,50< r<0,69 ;

måttlig0,30< r<0,49 ;

svag0,20< r<0,29 ;

väldigt svagr<0,19 .

Variablerna X och Y kan mätas på olika skalor, det är detta som avgör valet av lämplig korrelationskoefficient (se tabell 3):

Tabell 3. Användning av korrelationskoefficient beroende på typ av variabler

Skaltyp

Mått på anslutning

Variabel X

Variabel Y

Intervall eller relation

Intervall eller relation

Pearson koefficient

Rang, intervall eller förhållande

Spearman koefficient

Rankad

Rankad

Kendall koefficient

Dikotom

Dikotom

Koefficient "j"

Dikotom

Rankad

Rang-biserial

Dikotom

Intervall eller relation

Biserial

7.2.2 Pearson korrelationskoefficient

Termen "korrelation" introducerades i vetenskapen av den framstående engelske naturforskaren Francis Galton 1886. Den exakta formeln för att beräkna korrelationskoefficienten utvecklades dock av hans elev Karl Pearson.

Koefficienten kännetecknar förekomsten av endast ett linjärt samband mellan egenskaper, vanligtvis betecknat med symbolerna X och Y. Formeln för att beräkna korrelationskoefficienten är konstruerad på ett sådant sätt att om förhållandet mellan egenskaper är linjärt, fastställer Pearson-koefficienten exakt närhet till detta förhållande. Därför kallas det också Pearsons linjära korrelationskoefficient. Om kopplingen mellan variablerna X och Y är inte linjär, så föreslog Pearson den så kallade korrelationsrelationen för att bedöma hur nära detta samband är.

Värdet på Pearsons linjära korrelationskoefficient får inte överstiga +1 och vara mindre än -1. Dessa två siffror +1 och -1 är gränserna för korrelationskoefficienten. När beräkningen resulterar i ett värde större än +1 eller mindre än -1 har därför ett fel uppstått i beräkningarna.

Korrelationskoefficientens tecken är mycket viktigt för att tolka det resulterande sambandet. Låt oss återigen betona att om tecknet för den linjära korrelationskoefficienten är plus, så är förhållandet mellan de korrelerade egenskaperna sådant att ett större värde på en egenskap (variabel) motsvarar ett större värde för en annan egenskap (en annan variabel). Med andra ord, om en indikator (variabel) ökar, så ökar den andra indikatorn (variabel) i enlighet med detta. Detta beroende kallas ett direkt proportionellt beroende.

Om ett minustecken tas emot, motsvarar ett större värde av en egenskap ett mindre värde för en annan. Med andra ord, om det finns ett minustecken, motsvarar en ökning av en variabel (tecken, värde) en minskning av en annan variabel. Detta beroende kallas omvänt proportionellt beroende.

I allmänhet är formeln för att beräkna korrelationskoefficienten:

(7)

Var X i- värden tagna i prov X,

y i- värden som accepteras i prov Y;

Genomsnitt för X, - medelvärde för Y.

Beräkningen av Pearson-korrelationskoefficienten förutsätter att variablerna X och Y är fördelade Bra.

Formel (7) innehåller kvantiteten när de divideras med n (antalet värden för variabeln X eller Y) kallas det kovarians. Formel (7) antar också att vid beräkning av korrelationskoefficienter är antalet värden för variabeln X lika med antalet värden för variabeln Y.

Antal frihetsgrader k = n-2.

Exempel 3. 1 0 skolbarn fick prov för visuellt-figurativt och verbalt tänkande. Medeltiden för att lösa testuppgifter mättes i sekunder. Forskaren är intresserad av frågan: finns det ett samband mellan den tid det tar att lösa dessa problem? Variabel X betecknar den genomsnittliga tiden för att lösa visuellt-figurativa uppgifter, och variabel Y betecknar den genomsnittliga tiden för att lösa verbala testuppgifter.

Lösning. Låt oss presentera de initiala uppgifterna i form av tabell 4, som innehåller ytterligare kolumner som är nödvändiga för beräkning med formel (7).

Tabell 4

Antal ämnen

x

x jag -

(x i - ) 2

ja jag -

(y i -) 2

16,7

278,89

51,84

120,24

13,69

17,2

295,84

63,64

7,29

51,84

19,44

68,89

14,44

31,54

59,29

7,84

21,56

0,49

46,24

4,76

10,89

17,64

13,86

10,89

51,84

23,76

68,89

10,8

116,64

89,64

68,89

18,8

353,44

156,04

Belopp

357

242

588,1

1007,6

416,6

Genomsnitt

35,7

24,2

Vi beräknar det empiriska värdet av korrelationskoefficienten med formeln (7):

Vi bestämmer de kritiska värdena för den erhållna korrelationskoefficienten enligt tabellen i Appendix 3. När vi hittar de kritiska värdena för den beräknade Pearson linjära korrelationskoefficienten, beräknas antalet frihetsgrader som k = n – 2 = 8.

k crit = 0,72 > 0,54, därför förkastas hypotes H 1 och hypotesen accepteras H 0 , med andra ord, sambandet mellan tidpunkten för att lösa visuellt-figurativa och verbala testuppgifter har inte bevisats.

7.3 Regressionsanalys

Detta är en grupp metoder som syftar till att identifiera och matematiskt uttrycka de förändringar och beroenden som sker i ett system av slumpvariabler. Om ett sådant system modellerar ett pedagogiskt sådant, identifieras och uttrycks följaktligen, genom regressionsanalys, psykologiska och pedagogiska fenomen och beroenden mellan dem. Dessa fenomens egenskaper mäts på olika skalor, vilket sätter begränsningar på sätten att matematiskt uttrycka förändringar och beroenden som studeras av läraren-forskaren.

Regressionsanalysmetoder är främst utformade för fallet med en stabil normalfördelning, där förändringar från försök till försök endast uppträder i form av oberoende försök.

Olika formella problem med regressionsanalys identifieras. De kan vara enkla eller komplexa vad gäller formulering, matematiska medel och arbetsintensitet. Låt oss lista och överväga med exempel de som verkar vara de viktigaste.

Den första uppgiften är identifiera variabiliteten fenomenet studeras under vissa, men inte alltid klart fastställda, förhållanden. I föregående föreläsning löste vi redan detta problem med hjälp av parametriska och icke-parametriska kriterier.

Andra uppgiften - identifiera en trend som en periodisk förändring av en egenskap. Denna funktion i sig kan eller kanske inte är beroende av tillståndsvariabeln (den kan bero på tillstånd som är okända eller okontrollerbara av forskaren). Men detta är inte viktigt för den aktuella uppgiften, som endast är begränsad till att identifiera trenden och dess egenskaper.

Test av hypoteser om frånvaro eller närvaro av en trend kan utföras med hjälp av Abbe-kriteriet . Abbe kriterium utformad för att testa hypoteser om likheten mellan medelvärden som fastställts för 4

Det empiriska värdet av Abbe-kriteriet beräknas med formeln:

(8)

där är det aritmetiska medelvärdet av provet;

P– antal värden i provet.

Enligt kriteriet förkastas hypotesen om jämlikhet mellan medel (den alternativa hypotesen accepteras) om värdet på statistiken är . Statistikens tabellformiga (kritiska) värde bestäms från tabellen för Abbes q-kriterium, som med förkortningar är lånad från boken av L.N. Bolysheva och N.V. Smirnova (se bilaga 3).

Sådana kvantiteter för vilka Abbe-kriteriet är tillämpligt kan vara provandelar eller procenttal, aritmetiska medelvärden och annan statistik över provfördelningar om de är nära normala (eller tidigare normaliserade). Därför kan Abbe-kriteriet få bred tillämpning inom psykologisk och pedagogisk forskning. Låt oss överväga ett exempel på att identifiera en trend med hjälp av Abbe-kriteriet.

Exempel 4.I tabell 5 visar dynamiken i andelen elever IV kurs, som klarat prov på vinterpass med ”excellens” under 10 års arbete vid någon av universitetets fakulteter.Det krävs att man konstaterar om det finns en tendens att öka akademisk prestation.

Tabell 5. Dynamik för andelen utmärkta studenter på fjärde året under 10 års arbete vid fakulteten

Akademiskt år

1995-96

10,8

1996-97

16,4

1997-98

17,4

1998-99

22,0

1999-00

23,0

2000-01

21,5

2001-02

26,1

2002-03

17,2

2003-04

27,5

2004-05

33,0

Som null Vi testar hypotesen om frånvaron av en trend, det vill säga om likheten mellan procentsatser.

Vi gör ett genomsnitt av procentsatserna i tabellen. 5, finner vi att =21,5. Vi beräknar skillnaderna mellan efterföljande och tidigare värden i provet, kvadrerar dem och summerar dem:

Beräknar på liknande sätt nämnaren i formel (8), summerar kvadraterna av skillnaderna mellan varje mätning och det aritmetiska medelvärdet:

Genom att använda formeln (8) får vi:

I Abbe-kriterietabellen från bilaga 3 finner vi att med n = 10 och en signifikansnivå på 0,05 är det kritiska värdet större än de 0,41 vi erhållit, därför måste hypotesen om likvärdigheten i procentandelen "utmärkta elever" vara förkastas, och vi kan acceptera den alternativa hypotesen om förekomsten av en trend.

Den tredje uppgiften är identifiera ett mönster uttryckt i form av en korrelationsekvation (regression).

Exempel 5.Den estniska forskaren J. Mikk, som studerade svårigheterna med att förstå text, etablerade en "läsbarhetsformel", som är en multipel linjär regression:

Att bedöma svårigheten att förstå texten,

där x 1 är längden på oberoende meningar i antalet utskrivna tecken,

x 2 - procent av olika okända ord,

x 3 - abstrakthet av upprepande begrepp uttryckta av substantiv .

Om man jämför regressionskoefficienterna som uttrycker graden av påverkan av faktorer kan man se att svårigheten att förstå en text främst bestäms av dess abstrakthet. Svårigheten att förstå texten beror hälften så mycket (0,27) på antalet okända ord och beror praktiskt taget inte alls på meningens längd.