Analiza wariancji. Wieloczynnikowa analiza wariancji modelu ANOVA składników wariancyjnych

Analiza wariancji

1. Pojęcie analizy wariancji

Analiza wariancji to analiza zmienności cechy pod wpływem dowolnych kontrolowanych czynników zmiennych. W literaturze zagranicznej analizę wariancji często określa się mianem ANOVA, co tłumaczy się jako analizę zmienności (Analiza wariancji).

Problem z ANOVĄ polega na wyodrębnieniu zmienności innego rodzaju od ogólnej zmienności cechy:

a) zmienność wynikająca z działania każdej z badanych zmiennych niezależnych;

b) zmienność wynikająca z interakcji badanych zmiennych niezależnych;

c) zmienność losowa spowodowana wszystkimi innymi nieznanymi zmiennymi.

Zmienność wynikająca z działania badanych zmiennych i ich interakcji jest skorelowana ze zmiennością losową. Wskaźnikiem tej zależności jest test F Fishera.

Wzór na obliczenie kryterium F zawiera estymaty wariancji, czyli parametrów rozkładu atrybutu, dlatego też kryterium F jest kryterium parametrycznym.

Im bardziej zmienność cechy wynika z badanych zmiennych (czynników) lub ich interakcji, tym większa empiryczne wartości kryterialne.

Zero hipoteza w analizie wariancji będzie stwierdzać, że średnie wartości badanej efektywnej cechy są takie same we wszystkich gradacjach.

Alternatywny hipoteza będzie stwierdzać, że średnie wartości wynikowej cechy w różnych gradacjach badanego czynnika są różne.

Analiza wariancji pozwala stwierdzić zmianę cechy, ale jej nie wskazuje kierunek te zmiany.

Rozpocznijmy nasze rozważania na temat analizy wariancji od najprostszego przypadku, kiedy badamy działanie tylko jeden zmienna (jeden czynnik).

2. Jednoczynnikowa analiza wariancji dla niepowiązanych próbek

2.1. Cel metody

Metodę jednoczynnikowej analizy wariancji stosuje się w przypadkach, gdy bada się zmiany efektywnej charakterystyki pod wpływem zmieniających się warunków lub gradacji czynnika. W tej wersji metody wpływ każdej z gradacji współczynnika wynosi różny próbki tematów. Muszą istnieć co najmniej trzy stopnie współczynnika. (Mogą istnieć dwie gradacje, ale w tym przypadku nie uda nam się ustalić zależności nieliniowych i rozsądniej wydaje się zastosowanie prostszych).

Nieparametryczną wersją tego typu analizy jest test Kruskala-Wallisa H.

Hipotezy

H 0: Różnice pomiędzy stopniami czynników (różne warunki) nie są większe niż różnice losowe w obrębie każdej grupy.

H 1: Różnice pomiędzy stopniami czynników (różne warunki) są większe niż różnice losowe w obrębie każdej grupy.

2.2. Ograniczenia jednokierunkowej analizy wariancji dla niepowiązanych próbek

1. Jednoczynnikowa analiza wariancji wymaga co najmniej trzech gradacji czynnika i co najmniej dwóch podmiotów w każdej gradacji.

2. Otrzymana cecha musi mieć rozkład normalny w badanej próbie.

Co prawda zwykle nie jest wskazane, czy mówimy o rozkładzie cechy w całej badanej próbie, czy w jej części tworzącej kompleks dyspersyjny.

3. Przykład rozwiązania problemu metodą jednokierunkowej analizy wariancji dla niepowiązanych próbek na przykładzie:

Trzy różne grupy składające się z sześciu osób otrzymały listy zawierające dziesięć słów. Grupie pierwszej słowa były prezentowane z małą szybkością – 1 słowo na 5 sekund, grupie drugiej ze średnią szybkością – 1 słowo na 2 sekundy, a grupie trzeciej z dużą szybkością – 1 słowo na sekundę. Przewidywano, że wydajność reprodukcji będzie zależała od szybkości prezentacji słów. Wyniki przedstawiono w tabeli. 1.

Liczba powtórzonych słów Tabela 1

Temat nr.

niska prędkość

Średnia prędkość

wysoka prędkość

całkowita kwota

H 0: Różnice w zakresie produkcji słów między grupy nie są bardziej widoczne niż różnice losowe wewnątrz każda grupa.

H1: Różnice w wielkości produkcji słów między grupy są bardziej widoczne niż różnice losowe wewnątrz każda grupa. Korzystając z wartości eksperymentalnych przedstawionych w tabeli. 1 ustalimy pewne wartości, które będą niezbędne do obliczenia kryterium F.

Obliczenie głównych wielkości dla jednoczynnikowej analizy wariancji przedstawiono w tabeli:

Tabela 2

Tabela 3

Kolejność operacji w jednokierunkowej analizie wariancji dla niepowiązanych próbek

Oznaczenie SS, często spotykane w tej i kolejnych tabelach, jest skrótem od „suma kwadratów”. Skrót ten jest najczęściej używany w źródłach tłumaczonych.

SS fakt oznacza zmienność cechy wynikającą z działania badanego czynnika;

SS ogólnie- ogólna zmienność cechy;

S CA-zmienność spowodowana czynnikami nieuwzględnionymi, zmienność „przypadkowa” lub „resztkowa”.

SM- „średni kwadrat” lub matematyczne oczekiwanie sumy kwadratów, średniej wartości odpowiedniego SS.

zm - liczba stopni swobody, którą przy rozpatrywaniu kryteriów nieparametrycznych oznaczyliśmy literą grecką w.

Wniosek: H 0 zostaje odrzucony. H 1 jest akceptowany. Różnice w zapamiętywaniu słów pomiędzy grupami były większe niż różnice losowe w obrębie każdej grupy (α=0,05). Zatem szybkość prezentacji słów wpływa na wielkość ich reprodukcji.

Poniżej przedstawiono przykład rozwiązania problemu w programie Excel:

Wstępne dane:

Używając polecenia: Narzędzia->Analiza danych->Jednokierunkowa ANOVA, otrzymujemy następujące wyniki:

Jak już wspomniano, metoda rozproszenia jest ściśle powiązana z grupowaniami statystycznymi i zakłada, że ​​badaną populację dzieli się na grupy według cech czynników, których wpływ należy badać.

Na podstawie analizy wariancji tworzone są następujące dane:

1. ocena wiarygodności różnic średnich grupowych dla jednej lub kilku cech czynnikowych;

2. ocena wiarygodności interakcji czynników;

3. ocena różnic cząstkowych pomiędzy parami średnich.

Zastosowanie analizy wariancji opiera się na prawie rozkładu wariancji (wariacji) cechy na składowe.

Całkowitą zmianę D o wynikowej charakterystyki podczas grupowania można rozłożyć na następujące składniki:

1. do międzygrupy D m związany z cechą grupującą;

2. dla pozostałości(wewnątrzgrupowy) D B niezwiązany z cechą grupującą.

Zależność między tymi wskaźnikami wyraża się w następujący sposób:

re o = re m + re in. (1,30)

Przyjrzyjmy się zastosowaniu analizy wariancji na przykładzie.

Załóżmy, że chcesz sprawdzić, czy terminy siewu wpływają na plony pszenicy. Wstępne dane eksperymentalne do analizy wariancji przedstawiono w tabeli. 8.

Tabela 8

W tym przykładzie N = 32, K = 4, l = 8.

Wyznaczmy całkowite całkowite zróżnicowanie plonu, które jest sumą kwadratów odchyleń poszczególnych wartości cechy od średniej ogólnej:

gdzie N jest liczbą jednostek populacji; Y i – poszczególne wartości plastyczności; Yo to ogólny średni plon dla całej populacji.

Aby określić całkowitą zmienność międzygrupową, która określa zmienność efektywnej charakterystyki ze względu na badany czynnik, konieczne jest poznanie średnich wartości efektywnej charakterystyki dla każdej grupy. Ta całkowita zmienność jest równa sumie kwadratów odchyleń średnich grupowych od ogólnej średniej wartości cechy, ważonej liczbą jednostek populacji w każdej grupie:

Całkowita zmienność wewnątrzgrupowa jest równa sumie kwadratów odchyleń poszczególnych wartości cechy od średnich grupowych dla każdej grupy, zsumowanych po wszystkich grupach w populacji.

Wpływ czynnika na wynikową charakterystykę przejawia się w zależności pomiędzy Dm i Dv: im silniejszy wpływ czynnika na wartość badanej cechy, tym większy Dm i mniejszy Dv.

Aby przeprowadzić analizę wariancji, należy ustalić źródła zmienności cechy, wielkość zmienności według źródła oraz określić liczbę stopni swobody dla każdego składnika zmienności.

Wielkość zmienności została już ustalona; teraz należy określić liczbę stopni swobody zmienności. Liczba stopni swobody to liczba niezależnych odchyleń poszczególnych wartości cechy od jej wartości średniej. Całkowita liczba stopni swobody, odpowiadająca całkowitej sumie kwadratów odchyleń w ANOVA, jest rozkładana na składniki wariancji. Zatem całkowita suma kwadratów odchyleń Do o odpowiada liczbie stopni swobody zmienności równej N – 1 = 31. Zmienność grupowa D m ​​odpowiada liczbie stopni swobody zmienności równej K – 1 = 3. Wewnątrzgrupowa zmienność reszt odpowiada liczbie stopni swobody zmienności równej N – K = 28.


Znając teraz sumę kwadratów odchyleń i liczbę stopni swobody, możemy wyznaczyć wariancje dla każdej składowej. Oznaczmy te wariancje: d m - grupa i d in - wewnątrzgrupa.

Po obliczeniu tych wariancji przystąpimy do ustalenia znaczenia wpływu czynnika na wynikową charakterystykę. Aby to zrobić, znajdujemy stosunek: d M / d B = F f,

Wielkość F f, tzw Kryterium Fishera , w porównaniu z tabelą, tabelą F. Jak już wspomniano, jeśli tabela F f > F, to udowodniono wpływ współczynnika na atrybut efektywny. Jeśli Ff< F табл то можно утверждать, что различие между дисперсиями находится в пределах возможных случайных колебаний и, следовательно, не доказывает с достаточной вероятностью влияние изучаемого фактора.

Wartość teoretyczna jest powiązana z prawdopodobieństwem, a w tabeli podano jej wartość przy pewnym poziomie prawdopodobieństwa wyroku. W załączniku znajduje się tabela, która pozwala ustawić możliwą wartość F dla prawdopodobieństwa wyroku, najczęściej stosowaną: poziom prawdopodobieństwa „hipotezy zerowej” wynosi 0,05. Zamiast prawdopodobieństw „hipotezy zerowej” tabelę można nazwać tabelą dla prawdopodobieństwa 0,95 znaczenia wpływu czynnika. Zwiększenie poziomu prawdopodobieństwa wymaga wyższej wartości F tabeli do porównania.

Wartość tabeli F zależy również od liczby stopni swobody dwóch porównywanych dyspersji. Jeśli liczba stopni swobody dąży do nieskończoności, wówczas tabela F dąży do jedności.

Tabela wartości tabeli F jest skonstruowana w następujący sposób: kolumny tabeli wskazują stopnie swobody zmienności dla większego rozproszenia, a wiersze wskazują stopnie swobody dla mniejszego rozproszenia (wewnątrzgrupowego). Wartość F znajduje się na przecięciu kolumny i wiersza odpowiednich stopni swobody zmienności.

Zatem w naszym przykładzie F f = 21,3/3,8 = 5,6. Tabelaryczna wartość tabeli F dla prawdopodobieństwa 0,95 i stopni swobody odpowiednio równych 3 i 28, tabela F = 2,95.

Wartość F f otrzymana eksperymentalnie przekracza wartość teoretyczną nawet dla prawdopodobieństwa 0,99. W konsekwencji doświadczenie z prawdopodobieństwem większym niż 0,99 świadczy o wpływie badanego czynnika na plon, czyli doświadczenie można uznać za rzetelne, sprawdzone, a zatem termin siewu ma istotny wpływ na plon pszenicy. Za optymalny okres siewu należy uznać okres od 10 do 15 maja, gdyż właśnie w tym okresie siewu uzyskano najlepsze wyniki plonowania.

Zbadaliśmy metodę analizy wariancji przy grupowaniu według jednej cechy i losowym rozmieszczeniu replik w obrębie grupy. Często jednak zdarza się, że poletka doświadczalne wykazują pewne różnice w żyzności gleby itp. Może zatem zaistnieć sytuacja, że ​​większa liczba działek jednej z opcji padnie na najlepszą część, a jej wskaźniki zostaną zawyżone, a drugiej opcji - w najgorszej części, a wyniki w tym przypadku będą naturalnie gorsze, czyli niedoszacowane.

Aby wykluczyć wariancję spowodowaną przyczynami niezwiązanymi z eksperymentem, konieczne jest oddzielenie wariancji obliczonej na podstawie powtórzeń (bloków) od wariancji wewnątrzgrupowej (resztowej).

Całkowita suma kwadratów odchyleń jest w tym przypadku dzielona na 3 składowe:

D o = re m + re powtórzenie + re przerwa. (1,33)

W naszym przykładzie suma kwadratów odchyleń spowodowanych powtórzeniami będzie równa:

Dlatego rzeczywista losowa suma kwadratów odchyleń będzie równa:

D reszta = D w – D powtórzenie; D reszta = 106 – 44 = 62.

Dla dyspersji resztkowej liczba stopni swobody będzie wynosić 28 – 7 = 21. Wyniki analizy wariancji przedstawiono w tabeli. 9.

Tabela 9

Ponieważ rzeczywiste wartości kryterium F dla prawdopodobieństwa 0,95 przekraczają wartości tabelaryczne, wpływ terminów i powtórzeń siewu na plon pszenicy należy uznać za istotny. Rozważana metoda konstruowania eksperymentu, w której obiekt jest wstępnie podzielony na bloki o względnie wyrównanych warunkach, a badane opcje są rozmieszczone w obrębie bloku w losowej kolejności, nazywa się metodą bloków losowych.

Korzystając z analizy wariancji, możesz badać wpływ nie tylko jednego czynnika na wynik, ale dwóch lub więcej. W tym przypadku zostanie wywołana analiza wariancji wielowymiarowa analiza wariancji .

Dwukierunkowa ANOVA różni się od dwóch jednoczynnikowych tym, że potrafi odpowiedzieć na następujące pytania:

1. 1Jaki jest wpływ obu czynników razem?

2. Jaka jest rola kombinacji tych czynników?

Rozważmy analizę wariancji doświadczenia, w której należy określić wpływ nie tylko terminu siewu, ale także odmiany na plon pszenicy (tab. 10).

Tabela 10. Dane doświadczalne dotyczące wpływu terminów i odmian siewu na plon pszenicy

to suma kwadratów odchyleń poszczególnych wartości od średniej ogólnej.

Zróżnicowanie łącznego wpływu terminu siewu i odmiany

jest sumą kwadratów odchyleń średnich podgrup od średniej ogólnej, ważonej liczbą powtórzeń, tj. przez 4.

Obliczanie zmienności na podstawie wpływu samego terminu siewu:

Zmienność resztową definiuje się jako różnicę między zmiennością całkowitą a zmiennością łącznego wpływu badanych czynników:

D reszta = Do o – D ps = 170 – 96 = 74.

Wszystkie obliczenia można przedstawić w formie tabeli (Tabela 11).

Tabela 11. Wyniki analizy wariancji

Wyniki analizy wariancji wskazują, że wpływ badanych czynników, tj. terminu siewu i odmiany, na plon pszenicy jest istotny, gdyż rzeczywiste kryteria F dla każdego z czynników znacznie przewyższają wartości tabelaryczne znalezione dla odpowiednich stopni. swobody, a jednocześnie z dość dużym prawdopodobieństwem (p = 0,99). W tym przypadku nie ma wpływu kombinacji czynników, ponieważ czynniki są od siebie niezależne.

Analizę wpływu trzech czynników na wynik przeprowadza się według tej samej zasady, co dla dwóch czynników, z tą różnicą, że w tym przypadku wystąpią trzy wariancje dla czynników i cztery wariancje dla kombinacji czynników. Wraz ze wzrostem liczby czynników objętość prac obliczeniowych gwałtownie wzrasta, a ponadto trudno jest uporządkować początkowe informacje w tabeli kombinacji. Dlatego też niewskazane jest badanie wpływu wielu czynników na wynik za pomocą analizy wariancji; lepiej przyjąć mniejszą liczbę, ale wybrać czynniki najbardziej istotne z punktu widzenia analizy ekonomicznej.

Często badacz ma do czynienia z tzw. kompleksami o nieproporcjonalnej dyspersji, czyli takimi, w których nie jest zachowana proporcjonalność liczby wariantów.

W takich kompleksach zmienność całkowitego efektu czynników nie jest równa sumie zmienności między czynnikami i zmienności kombinacji czynników. Różni się ona kwotowo w zależności od stopnia powiązania poszczególnych czynników powstałych w wyniku naruszenia zasady proporcjonalności.

W takim przypadku pojawiają się trudności w określeniu stopnia wpływu każdego czynnika, ponieważ suma poszczególnych wpływów nie jest równa całkowitemu wpływowi.

Jednym ze sposobów zredukowania nieproporcjonalnego kompleksu do pojedynczej struktury jest zastąpienie go kompleksem proporcjonalnym, w którym częstości są uśredniane dla grup. Po dokonaniu takiego zastąpienia problem rozwiązuje się zgodnie z zasadami kompleksów proporcjonalnych.

Analiza wariancji to zestaw metod statystycznych, których zadaniem jest testowanie hipotez dotyczących związku między określonymi cechami a badanymi czynnikami, które nie mają opisu ilościowego, a także ustalanie stopnia wpływu czynników i ich interakcji. W literaturze specjalistycznej często nazywa się ją ANOVA (od angielskiej nazwy Analysis of Variations). Metodę tę po raz pierwszy opracował R. Fischer w 1925 roku.

Rodzaje i kryteria analizy wariancji

Metodę tę stosuje się do badania zależności pomiędzy cechami jakościowymi (nominalnymi) a zmienną ilościową (ciągłą). W istocie testuje hipotezę o równości średnich arytmetycznych kilku próbek. Można zatem uznać, że jest to parametryczne kryterium porównywania środków kilku próbek jednocześnie. Jeżeli zastosujemy tę metodę dla dwóch próbek, wyniki analizy wariancji będą identyczne z wynikami testu t-Studenta. Jednak w odróżnieniu od innych kryteriów, badanie to pozwala nam na bardziej szczegółowe zbadanie problemu.

Analiza dyspersji w statystyce opiera się na zasadzie: suma kwadratów odchyleń połączonej próby jest równa sumie kwadratów odchyleń wewnątrzgrupowych i sumie kwadratów odchyleń międzygrupowych. W badaniu wykorzystano test Fishera w celu ustalenia istotności różnicy między wariancjami międzygrupowymi i wariancjami wewnątrzgrupowymi. Jednakże niezbędnymi warunkami wstępnymi są normalność rozkładu i homoskedastyczność (równość wariancji) próbek. Wyróżnia się jednoczynnikową (jednoczynnikową) analizę wariancji i wieloczynnikową (wieloczynnikową). Pierwsza uwzględnia zależność badanej wartości od jednej cechy, druga od wielu na raz, a także pozwala zidentyfikować związek między nimi.

Czynniki

Czynniki to kontrolowane okoliczności, które wpływają na wynik końcowy. Jego poziom lub sposób przetwarzania to wartość charakteryzująca konkretny przejaw tego stanu. Liczby te są zwykle przedstawiane w nominalnej lub porządkowej skali pomiarowej. Często wartości wyjściowe mierzone są w skalach ilościowych lub porządkowych. Powstaje wówczas problem grupowania danych wyjściowych w szereg obserwacji, które odpowiadają w przybliżeniu tym samym wartościom liczbowym. Jeżeli liczbę grup uznamy za zbyt dużą, to liczba obserwacji w nich może być niewystarczająca do uzyskania wiarygodnych wyników. Jeśli przyjmiesz zbyt małą liczbę, może to prowadzić do utraty znaczących cech wpływu na system. Konkretny sposób grupowania danych zależy od ilości i charakteru zmienności wartości. Liczbę i wielkość przedziałów w analizie jednoczynnikowej określa się najczęściej na podstawie zasady równych przedziałów lub zasady jednakowych częstotliwości.

Analiza problemów wariancyjnych

Zdarzają się więc przypadki, gdy trzeba porównać dwie lub więcej próbek. Wskazane jest wówczas skorzystanie z analizy wariancji. Nazwa metody wskazuje, że wnioski wyciąga się na podstawie badania składowych wariancyjnych. Istota badania polega na tym, że ogólną zmianę wskaźnika podzielono na części składowe, które odpowiadają działaniu każdego pojedynczego czynnika. Rozważmy szereg problemów, które można rozwiązać za pomocą typowej analizy wariancji.

Przykład 1

W warsztacie znajduje się szereg automatów, które wytwarzają określoną część. Rozmiar każdej części jest zmienną losową zależną od konfiguracji każdej maszyny i przypadkowych odchyleń występujących podczas procesu produkcyjnego części. Na podstawie danych pomiarowych wymiarów części należy określić, czy maszyny są skonfigurowane w ten sam sposób.

Przykład 2

Podczas produkcji urządzenia elektrycznego stosuje się różne rodzaje papieru izolacyjnego: kondensatorowy, elektryczny itp. Urządzenie można impregnować różnymi substancjami: żywicą epoksydową, lakierem, żywicą ML-2 itp. Wycieki można eliminować pod próżnią w temperaturze podwyższone ciśnienie, z ogrzewaniem. Impregnację można wykonać poprzez zanurzenie w lakierze, pod ciągłym strumieniem lakieru itp. Aparat elektryczny jako całość jest wypełniony określonym związkiem, którego istnieje kilka opcji. Wskaźnikami jakości są wytrzymałość elektryczna izolacji, temperatura przegrzania uzwojenia w trybie pracy i wiele innych. Podczas opracowywania procesu technologicznego wytwarzania urządzeń konieczne jest określenie, jak każdy z wymienionych czynników wpływa na wydajność urządzenia.

Przykład 3

Zajezdnia trolejbusowa obsługuje kilka linii trolejbusowych. Obsługują trolejbusy różnego typu, a opłaty pobiera 125 inspektorów. Dyrekcję zajezdni interesuje pytanie: jak porównać wskaźniki ekonomiczne każdego kontrolera (przychody) biorąc pod uwagę różne trasy i różne typy trolejbusów? Jak określić ekonomiczną wykonalność produkcji trolejbusów określonego typu na określonej trasie? Jak ustalić rozsądne wymagania co do wysokości przychodów, jakie konduktor osiąga na każdej trasie w różnych typach trolejbusów?

Zadaniem wyboru metody jest uzyskanie maksymalnej informacji o wpływie każdego czynnika na wynik końcowy, określenie liczbowych charakterystyk tego wpływu, ich wiarygodności przy minimalnych kosztach i w możliwie najkrótszym czasie. Rozwiązywanie takich problemów umożliwiają metody analizy wariancji.

W analizie jednoczynnikowej

Celem badania jest ocena wielkości wpływu konkretnego przypadku na analizowany przegląd. Innym celem analizy jednowymiarowej może być porównanie ze sobą dwóch lub większej liczby okoliczności w celu określenia różnicy w ich wpływie na zapamiętywanie. W przypadku odrzucenia hipotezy zerowej kolejnym krokiem jest ilościowe określenie i skonstruowanie przedziałów ufności dla uzyskanych cech. W przypadku, gdy nie można odrzucić hipotezy zerowej, zwykle ją przyjmuje się i wyciąga się wniosek na temat charakteru wpływu.

Jednoczynnikowa analiza wariancji może stać się nieparametrycznym odpowiednikiem metody rang Kruskala-Wallisa. Zostało opracowane przez amerykańskiego matematyka Williama Kruskala i ekonomistę Wilsona Wallisa w 1952 roku. Kryterium to ma na celu sprawdzenie hipotezy zerowej o równości efektów na badanych próbach o nieznanych, ale równych wartościach średnich. W takim przypadku liczba próbek musi być większa niż dwie.

Kryterium Jonckheere-Terpstry zostało zaproponowane niezależnie przez holenderskiego matematyka T. J. Terpstrę w 1952 r. i brytyjskiego psychologa E. R. Jonckheere'a w 1954 r. Stosuje się je, gdy z góry wiadomo, że istniejące grupy wyników są uporządkowane według wzrostu wpływu kryterium badanego czynnika, mierzonego w skali porządkowej.

M – test Bartletta, zaproponowany przez brytyjskiego statystyka Maurice’a Stevensona Bartletta w 1937 roku, służy do testowania hipotezy zerowej o równości wariancji kilku normalnych populacji, z których pobierane są badane próbki, na ogół o różnej wielkości (liczba każdej próbka musi być co najmniej cztery).

G – test Cochrana, który został odkryty przez Amerykanina Williama Gemmella Cochrana w 1941 roku. Służy do testowania hipotezy zerowej o równości wariancji populacji normalnych w próbach niezależnych o jednakowej liczebności.

Nieparametryczny test Levene’a, zaproponowany przez amerykańskiego matematyka Howarda Levene’a w 1960 roku, stanowi alternatywę dla testu Bartletta w warunkach, w których nie ma pewności, że badane próbki mają rozkład normalny.

W 1974 roku amerykańscy statystycy Morton B. Brown i Alan B. Forsythe zaproponowali test (test Browna-Forsytha), który nieznacznie różni się od testu Levene'a.

Analiza dwuczynnikowa

W przypadku powiązanych próbek o rozkładzie normalnym stosuje się dwukierunkową analizę wariancji. W praktyce często stosuje się skomplikowane tabele tej metody, w szczególności takie, w których każda komórka zawiera zbiór danych (powtórzonych pomiarów) odpowiadający ustalonym wartościom. Jeżeli nie są spełnione założenia wymagane do zastosowania dwukierunkowej analizy wariancji, należy skorzystać z nieparametrycznego testu rang Friedmana (Friedmana, Kendalla i Smitha), opracowanego przez amerykańskiego ekonomistę Miltona Friedmana pod koniec 1930 roku. Test ten nie jest zależny od rodzaju dystrybucji.

Zakłada się jedynie, że rozkład wartości jest identyczny i ciągły, a one same są od siebie niezależne. Podczas testowania hipotezy zerowej dane wyjściowe prezentowane są w postaci macierzy prostokątnej, w której wiersze odpowiadają poziomom czynnika B, a kolumny poziomom A. Każdą komórkę tabeli (bloku) można wynik pomiarów parametrów na jednym obiekcie lub na grupie obiektów o stałych wartościach poziomów obu czynników. W tym przypadku odpowiednie dane są prezentowane jako średnie wartości określonego parametru dla wszystkich wymiarów lub obiektów badanej próbki. Aby zastosować kryterium wyjściowe, należy przejść od bezpośrednich wyników pomiarów do ich rangi. Ranking przeprowadza się dla każdego wiersza osobno, to znaczy wartości są porządkowane dla każdej ustalonej wartości.

Test Page’a (test L), zaproponowany przez amerykańskiego statystyka E. B. Page’a w 1963 roku, ma na celu sprawdzenie hipotezy zerowej. W przypadku dużych próbek stosuje się przybliżenie Page’a. Pod warunkiem, że odpowiadają im hipotezy zerowe, podlegają one standardowemu rozkładowi normalnemu. W przypadku, gdy wiersze tabeli źródłowej mają te same wartości, należy zastosować rangi średnie. W tym przypadku trafność wniosków będzie tym gorsza, im większa będzie liczba takich dopasowań.

Q – kryterium Cochrana, zaproponowane przez W. Cochrana w 1937 r. Stosuje się je w przypadkach, gdy grupy jednorodnych podmiotów narażone są na wpływy, których liczba przekracza dwa i dla których możliwe są dwie opcje informacji zwrotnej – warunkowo negatywna (0) i warunkowo dodatni (1) . Hipoteza zerowa zakłada równość efektów leczenia. Dwukierunkowa analiza wariancji pozwala określić istnienie efektów leczenia, ale nie pozwala określić, dla jakich konkretnych kolumn ten efekt występuje. Aby rozwiązać ten problem, stosuje się metodę wielokrotnych równań Scheffa dla powiązanych próbek.

Analiza wielowymiarowa

Problem wielowymiarowej analizy wariancji pojawia się, gdy trzeba określić wpływ dwóch lub więcej warunków na pewną zmienną losową. W badaniu bierze się pod uwagę obecność jednej zależnej zmiennej losowej, mierzonej na skali różnic lub ilorazów, oraz kilku zmiennych niezależnych, z których każda wyrażana jest na skali nazewnictwa lub rangi. Analiza wariancji danych to dość rozwinięta sekcja statystyki matematycznej, która ma wiele możliwości. Koncepcja badań jest wspólna zarówno dla jednoczynnikowego, jak i wieloczynnikowego. Jej istota polega na tym, że wariancja całkowita jest dzielona na składowe, co odpowiada pewnemu grupowaniu danych. Każde grupowanie danych ma swój własny model. Tutaj rozważymy tylko podstawowe przepisy niezbędne do zrozumienia i praktycznego wykorzystania najczęściej używanych opcji.

Analiza wariancji czynników wymaga dość ostrożnego podejścia do gromadzenia i prezentacji danych wejściowych, a zwłaszcza do interpretacji wyników. W odróżnieniu od testu jednoczynnikowego, którego wyniki można warunkowo ułożyć w określonej kolejności, wyniki testu dwuczynnikowego wymagają bardziej złożonego przedstawienia. Sytuacja staje się jeszcze bardziej skomplikowana, gdy zachodzą trzy, cztery lub więcej okoliczności. Z tego powodu dość rzadko uwzględnia się w modelu więcej niż trzy (cztery) warunki. Przykładem może być wystąpienie rezonansu przy określonej wartości pojemności i indukcyjności koła elektrycznego; przejaw reakcji chemicznej z pewnym zestawem elementów, z których zbudowany jest system; występowanie anomalnych efektów w złożonych systemach w wyniku pewnego zbiegu okoliczności. Obecność interakcji może radykalnie zmienić model układu, a czasami doprowadzić do ponownego przemyślenia natury zjawisk, z którymi ma do czynienia eksperymentator.

Wieloczynnikowa analiza wariancji z powtarzanymi eksperymentami

Dane pomiarowe można dość często pogrupować nie według dwóch, ale większej liczby czynników. Jeśli więc weźmiemy pod uwagę analizę dyspersji trwałości opon kół trolejbusowych z uwzględnieniem okoliczności (zakład produkcyjny i trasa, na której opony są eksploatowane), to jako odrębny warunek wyodrębnimy sezon, w którym opona jest eksploatowana. eksploatowane są opony (tj. eksploatacja zimą i latem). W rezultacie będziemy mieli problem metody trójczynnikowej.

Jeżeli warunków jest więcej, podejście jest takie samo, jak w przypadku analizy dwuczynnikowej. We wszystkich przypadkach starają się uprościć model. Zjawisko oddziaływania dwóch czynników nie występuje tak często, a potrójne oddziaływanie występuje jedynie w wyjątkowych przypadkach. Uwzględnij te interakcje, dla których istnieją wcześniejsze informacje i dobre powody, aby uwzględnić je w modelu. Proces identyfikacji poszczególnych czynników i uwzględnienia ich jest stosunkowo prosty. Dlatego często istnieje potrzeba podkreślenia większej liczby okoliczności. Nie powinieneś się tym przejmować. Im więcej warunków, tym mniej niezawodny staje się model i tym większe prawdopodobieństwo błędu. Sam model, który zawiera dużą liczbę zmiennych niezależnych, staje się dość skomplikowany w interpretacji i niewygodny w praktycznym zastosowaniu.

Ogólna koncepcja analizy wariancji

Analiza wariancji statystyki jest metodą uzyskiwania wyników obserwacyjnych zależnych od różnych jednocześnie występujących okoliczności i oceny ich wpływu. Zmienna kontrolowana, która odpowiada sposobowi oddziaływania na przedmiot badań i przyjmuje określoną wartość w określonym czasie, nazywana jest czynnikiem. Mogą być jakościowe i ilościowe. Poziomy warunków ilościowych nabierają określonej wartości na skali numerycznej. Przykładami są temperatura, ciśnienie prasowania, ilość substancji. Czynnikami jakościowymi są różne substancje, różne metody technologiczne, urządzenia, wypełniacze. Ich poziomy odpowiadają skali nazw.

Jakość może również obejmować rodzaj materiału opakowaniowego i warunki przechowywania postaci dawkowania. Racjonalne jest także uwzględnienie stopnia rozdrobnienia surowców, składu frakcyjnego granul, które mają znaczenie ilościowe, ale są trudne do regulowania w skali ilościowej. Liczba czynników jakościowych zależy od rodzaju postaci dawkowania, a także właściwości fizycznych i technologicznych substancji leczniczych. Na przykład tabletki można otrzymać z substancji krystalicznych poprzez bezpośrednie prasowanie. W tym przypadku wystarczy dobrać substancje ślizgowe i smarujące.

Przykłady czynników jakościowych dla różnych typów postaci dawkowania

  • Nalewki. Skład ekstrahenta, rodzaj ekstraktora, metoda przygotowania surowca, metoda produkcji, metoda filtracji.
  • Ekstrakty (płynne, gęste, suche). Skład ekstrahenta, metoda ekstrakcji, rodzaj instalacji, sposób usuwania ekstrahenta i substancji balastowych.
  • Pigułki. Skład substancji pomocniczych, wypełniaczy, substancji rozsadzających, spoiw, substancji smarujących i smarujących. Sposób otrzymywania tabletek, rodzaj wyposażenia technologicznego. Rodzaj otoczki i jej składniki, substancje błonotwórcze, pigmenty, barwniki, plastyfikatory, rozpuszczalniki.
  • Roztwory wtryskowe. Rodzaj rozpuszczalnika, metoda filtracji, rodzaj stabilizatorów i konserwantów, warunki sterylizacji, sposób napełniania ampułek.
  • Czopki. Skład bazy czopków, sposób wytwarzania czopków, wypełniacze, opakowanie.
  • Maści. Skład bazy, składniki strukturalne, sposób przygotowania maści, rodzaj sprzętu, opakowanie.
  • Kapsułki. Rodzaj materiału otoczki, sposób wytwarzania kapsułek, rodzaj plastyfikatora, konserwant, barwnik.
  • Mazidła. Sposób przygotowania, skład, rodzaj sprzętu, rodzaj emulgatora.
  • Zawieszenia. Rodzaj rozpuszczalnika, rodzaj stabilizatora, metoda dyspersyjna.

Przykłady czynników jakości i ich poziomów badanych podczas procesu produkcji tabletek

  • Proszek do pieczenia. Skrobia ziemniaczana, glinka biała, mieszanina wodorowęglanu sodu z kwasem cytrynowym, zasadowy węglan magnezu.
  • Rozwiązanie wiążące. Woda, pasta skrobiowa, syrop cukrowy, roztwór metylocelulozy, roztwór hydroksypropylometylocelulozy, roztwór poliwinylopirolidonu, roztwór alkoholu poliwinylowego.
  • Substancja ślizgowa. Aerosil, skrobia, talk.
  • Podsadzkarz. Cukier, glukoza, laktoza, chlorek sodu, fosforan wapnia.
  • Smar. Kwas stearynowy, glikol polietylenowy, parafina.

Modele analizy wariancji w badaniu poziomu konkurencyjności państwa

Jednym z najważniejszych kryteriów oceny stanu państwa, za pomocą którego ocenia się poziom jego dobrobytu i rozwoju społeczno-gospodarczego, jest konkurencyjność, czyli zespół właściwości właściwych gospodarce narodowej, które decydują o kondycji państwa. zdolność do konkurowania z innymi krajami. Po ustaleniu miejsca i roli państwa na rynku światowym można ustalić jasną strategię zapewnienia bezpieczeństwa gospodarczego w skali międzynarodowej, ponieważ jest to klucz do pozytywnych relacji Rosji ze wszystkimi uczestnikami rynku światowego: inwestorami , wierzycieli i rządów.

Aby porównać poziom konkurencyjności państw, kraje są klasyfikowane przy użyciu złożonych wskaźników, które obejmują różne wskaźniki ważone. Wskaźniki te opierają się na kluczowych czynnikach wpływających na sytuację gospodarczą, polityczną itp. Zestaw modeli do badania konkurencyjności państwa obejmuje wykorzystanie metod wielowymiarowej analizy statystycznej (w szczególności analizę wariancji (statystyka), modelowanie ekonometryczne, podejmowanie decyzji) i obejmuje następujące główne etapy:

  1. Utworzenie systemu wskaźników.
  2. Ocena i prognozowanie wskaźników konkurencyjności państwa.
  3. Porównanie wskaźników konkurencyjności państw.

Przyjrzyjmy się teraz zawartości modeli każdego z etapów tego kompleksu.

Na pierwszym etapie wykorzystując metody badań eksperckich tworzony jest ugruntowany zestaw wskaźników ekonomicznych do oceny konkurencyjności państwa, uwzględniający specyfikę jego rozwoju w oparciu o międzynarodowe rankingi i dane z urzędów statystycznych, odzwierciedlające stan systemu jako całości i jego procesy. Wybór tych wskaźników uzasadniony jest koniecznością wybrania tych, które najpełniej z praktycznego punktu widzenia pozwalają określić poziom państwa, jego atrakcyjność inwestycyjną oraz możliwość względnej lokalizacji istniejących potencjalnych i rzeczywistych zagrożeń.

Głównymi wskaźnikami międzynarodowych systemów ratingowych są indeksy:

  1. Globalna konkurencyjność (GC).
  2. Wolność gospodarcza (IES).
  3. Rozwój Człowieka (HDI).
  4. Postrzeganie korupcji (CPC).
  5. Zagrożenia wewnętrzne i zewnętrzne (IETH).
  6. Międzynarodowy Potencjał Wpływu (IPIP).

Druga faza przewiduje ocenę i prognozowanie wskaźników konkurencyjności państwa według międzynarodowych rankingów dla 139 badanych krajów świata.

Trzeci etap przewiduje porównanie warunków konkurencyjności państw z wykorzystaniem metod analizy korelacji i regresji.

Korzystając z wyników badania, można określić charakter procesów w ogóle i dla poszczególnych komponentów konkurencyjności państwa; przetestować hipotezę o wpływie czynników i ich związkach na odpowiednim poziomie istotności.

Wdrożenie zaproponowanego zestawu modeli pozwoli nie tylko ocenić aktualną sytuację w zakresie poziomu konkurencyjności i atrakcyjności inwestycyjnej państw, ale także przeanalizować niedociągnięcia w zarządzaniu, zapobiec błędom błędnych decyzji i zapobiec rozwojowi kryzysu w gospodarce. państwo.

Jednokierunkowa analiza wariancji.

Pojęcie i modele analizy wariancji.

Temat 13. Analiza wariancji

Wykład 1. Pytania:

Analiza wariancji jako metoda badawcza pojawiła się w pracach R. Fischera (1918-1935) w związku z badaniami w rolnictwie mającymi na celu określenie warunków, w jakich badana odmiana rośliny uprawnej daje maksymalny plon. Analiza wariancji została rozwinięta w pracach Yeatsa. Analiza wariancji pozwala odpowiedzieć na pytanie, czy określone czynniki mają istotny wpływ na zmienność czynnika, którego wartości można uzyskać w wyniku doświadczenia. Testując hipotezy statystyczne, zakłada się losowe zmiany badanych czynników. W analizie wariancji jeden lub więcej czynników zmienia się w określony sposób, a zmiany te mogą wpływać na wyniki obserwacji. Badanie takiego wpływu jest celem analizy wariancji.

Obecnie obserwuje się coraz szersze zastosowanie analizy wariancji w ekonomii, socjologii, biologii itp., zwłaszcza po pojawieniu się oprogramowania, które wyeliminowało problemy uciążliwości obliczeń statystycznych.

W działaniach praktycznych, w różnych dziedzinach nauki, często stajemy przed koniecznością oceny wpływu różnych czynników na określone wskaźniki. Często czynniki te mają charakter jakościowy (przykładowo czynnikiem jakościowym wpływającym na efekt ekonomiczny może być wprowadzenie nowego systemu zarządzania produkcją) i wtedy analiza wariancji nabiera szczególnej wartości, gdyż staje się jedyną statystyczną metodą badawczą, która daje takie oszacowanie.

Analiza wariancji pozwala określić, czy jeden z rozważanych czynników ma znaczący wpływ na zmienność cechy, a także określić ilościowo „wagę właściwą” każdego źródła zmienności w ich całości. Jednak analiza wariancji pozwala udzielić pozytywnej odpowiedzi tylko w przypadku obecności znaczącego wpływu, w przeciwnym razie kwestia pozostaje otwarta i wymaga dodatkowych badań (najczęściej zwiększenia liczby eksperymentów).

W analizie wariancji używane są następujące terminy.

Czynnik (X) to coś, co naszym zdaniem powinno mieć wpływ na wynik (atrybut wynikowy) Y.

Poziom czynnika (lub sposób przetwarzania, czasem dosłownie, np. sposób uprawy gleby) - wartości (X, i = 1,2,...I), jakie może przyjąć współczynnik.

Odpowiedź – wartość mierzonej charakterystyki (wartość wyniku Y).

Technika ANOVA różni się w zależności od liczby badanych niezależnych czynników. Jeżeli czynniki powodujące zmienność średniej wartości cechy pochodzą z jednego źródła, to mamy do czynienia z grupowaniem prostym, czyli jednoczynnikową analizą wariancji, a następnie odpowiednio grupowaniem podwójnym – dwuczynnikową analizą wariancji, trójczynnikową analizą wariancji analiza wariancji, ..., współczynnik m. Czynniki w analizie wielowymiarowej są zwykle oznaczane literami łacińskimi: A, B, C itp.



Zadaniem analizy wariancji jest badanie wpływu określonych czynników (lub poziomów czynników) na zmienność średnich wartości obserwowanych zmiennych losowych.

Istota analizy wariancji. Analiza wariancji polega na wyodrębnieniu i ocenie poszczególnych czynników powodujących zmienność. W tym celu całkowitą wariancję obserwowanej populacji cząstkowej (całkowitą wariancję cechy), spowodowaną wszystkimi źródłami zmienności, rozkłada się na składowe wariancyjne generowane przez czynniki niezależne. Każdy z tych składników umożliwia oszacowanie wariancji , ,..., spowodowanej przez określone źródło zmienności w całej populacji. Aby sprawdzić istotność tych estymatorów wariancji składowych, porównuje się je z całkowitą wariancją w populacji (test Fishera).

Przykładowo w analizie dwuczynnikowej otrzymujemy rozkład postaci:

Całkowita wariancja badanej cechy C;

Udział wariancji spowodowanej wpływem czynnika A;

Udział wariancji spowodowanej wpływem czynnika B;

Proporcja wariancji spowodowana interakcją czynników A i B;

Udział wariancji spowodowanej nieuwzględnionymi przyczynami losowymi (wariancja losowa);

W analizie wariancji uwzględnia się hipotezę: H 0 – żaden z branych pod uwagę czynników nie ma wpływu na zmienność cechy. Istotność każdego oszacowania wariancji sprawdza się poprzez wartość jego stosunku do losowego oszacowania wariancji i porównuje z odpowiednią wartością krytyczną na poziomie istotności a, korzystając z tablic wartości krytycznych rozkładu F Fishera-Snedecora (Załącznik 4) . Hipoteza H 0 dotycząca tego czy innego źródła zmienności zostaje odrzucona w przypadku obliczenia F. >F kr. (na przykład dla czynnika B: S B 2 /S ε 2 >F cr.).

Analiza wariancji uwzględnia eksperymenty 3 typów:

a) eksperymenty, w których wszystkie czynniki mają systematyczne (stałe) poziomy;

b) eksperymenty, w których wszystkie czynniki mają losowe poziomy;

c) eksperymenty, w których występują czynniki o poziomach losowych i czynniki o stałych poziomach.

Przypadki a), b), c) odpowiadają trzem modelom, które są uwzględniane w analizie wariancji.

Dane wejściowe do analizy wariancji przedstawia się zazwyczaj w formie poniższej tabeli:

Numer obserwacji j Poziomy czynników
1 2 A r
X 11 X 21 X p1
X 12 X 22 Xp2
X 13 X 23 X p3
. . .
. . .
. . .
N X 1n X2n Xpn
WYNIKI

Rozważmy współczynnik jednostkowy, który przyjmuje p różnych poziomów i załóżmy, że na każdym poziomie dokonuje się n obserwacji, co daje N=np obserwacji. (Ograniczymy się do rozważenia pierwszego modelu analizy wariancji – wszystkie czynniki mają stałe poziomy.)

Wyniki niech przedstawimy w postaci X ij (i=1,2…,р; j=1,2,…,n).

Zakłada się, że dla każdego poziomu n obserwacji istnieje średnia będąca sumą średniej ogólnej i jej zmienności ze względu na wybrany poziom:

gdzie m jest średnią ogólną;

A i - efekt wywołany poziomem i – m czynnika;

e ij – zmienność wyników w obrębie poziomu pojedynczego czynnika. Termin e ij uwzględnia wszystkie czynniki niekontrolowane.

Niech obserwacje na stałym poziomie czynnika będą miały rozkład normalny wokół średniej m + A i ze wspólną wariancją s 2 .

Następnie (kropka zamiast indeksu oznacza uśrednienie odpowiednich obserwacji po tym indeksie):

A.X ij – X.. = (X i. – X..) + (X ij – X i.). (12,3)

Po podniesieniu obu stron równania do kwadratu i zsumowaniu i oraz j otrzymujemy:

od, ale

W przeciwnym razie można zapisać sumę kwadratów: S = S 1 + S 2. Wartość S 1 oblicza się z odchyleń średnich p od średniej ogólnej X.., zatem S 1 ma (p-1) stopnie swobody. Wartość S 2 jest obliczana z odchyleń N obserwacji od p średnich z próbki i dlatego ma N-р = np - p=p(n-1) stopni swobody. S ma (N-1) stopnie swobody. Na podstawie wyników obliczeń tworzona jest tabela analizy wariancji.

Tabela ANOVA

Jeśli hipoteza, że ​​wpływ wszystkich poziomów jest równy, jest prawdziwa, wówczas zarówno M 1, jak i M 2 (średnie kwadraty) będą nieobciążonymi szacunkami s 2. Oznacza to, że hipotezę można sprawdzić, obliczając stosunek (M 1 / M 2) i porównując go z F cr. gdzie ν 1 = (p-1) i ν 2 = (N-p) stopnie swobody.

Jeśli obliczono F >F kr. , wówczas nie przyjmuje się hipotezy o nieistotnym wpływie czynnika A na wynik obserwacji.

Aby ocenić znaczenie różnic przy F calc. Stół F Oblicz:

a) błąd eksperymentalny

b) błąd w różnicy średnich

c) najmniejsza istotna różnica

Porównując różnicę wartości średnich dla opcji z NSR, dochodzą do wniosku, że różnice w poziomie średnich są znaczne.

Komentarz. Zastosowanie analizy wariancji zakłada, że:

2) D(ε ij)=σ 2 = const,

3) ε ij → N (0, σ) lub x ij → N (a, σ).

Statystyk analityczny

7.1 Analiza wariancji. 2

W tej wersji metody różne próbki badanych poddawane są wpływowi każdej z gradacji. Musi istnieć co najmniej gradacja czynnika trzy.

Przykład 1. Trzy różne grupy składające się z sześciu osób otrzymały listy zawierające dziesięć słów. Grupie pierwszej słowa były prezentowane z małą szybkością – 1 słowo na 5 sekund, grupie drugiej ze średnią szybkością – 1 słowo na 2 sekundy, a grupie trzeciej z dużą szybkością – 1 słowo na sekundę. Przewidywano, że wydajność reprodukcji będzie zależała od szybkości prezentacji słów. Wyniki przedstawiono w tabeli. 1.

Tabela 1. Liczba powtórzonych słów (wg J. Greene, M. D. „Olivera, 1989, s. 99)

Temat nr.

Grupa 1 niska prędkość

Grupa 2 – średnia prędkość

Grupa 3, duża prędkość

kwoty

przeciętny

7,17

6,17

4,00

Całkowita kwota

Jednoczynnikowa analiza wariancji pozwala na sprawdzenie hipotez:

H0 : różnice w wielkości produkcji słów między grupy nie są bardziej widoczne niż różnice losowe wewnątrz każda grupa

H 1 : Różnice w wielkości produkcji słów między grupy są bardziej widoczne niż różnice losowe wewnątrz każda grupa.

Kolejność działań w jednokierunkowej analizie wariancji dla niepowiązanych próbek:

1. policzmy Fakt SS- zmienność cechy pod wpływem działania badanego czynnika. Wspólne oznaczenie SS - skrót od „suma kwadratów” ( suma kwadratów ). Skrót ten najczęściej stosowany jest w źródłach tłumaczonych (patrz np.: Glass J., Stanley J., 1976).

,(1)

gdzie T c jest sumą poszczególnych wartości dla każdego warunku. W naszym przykładzie 43, 37, 24 (patrz tabela 1);

с – liczba warunków (gradacji) współczynnika (=3);

N – liczba osób w każdej grupie (=6);

N – łączna liczba poszczególnych wartości (=18);

Kwadrat całkowitej sumy poszczególnych wartości (=104 2 =10816)

Zwróć uwagę na różnicę pomiędzy , w którym wszystkie indywidualne wartości są najpierw podnoszone do kwadratu, a następnie sumowane, i , w którym poszczególne wartości są najpierw sumowane w celu uzyskania sumy całkowitej, a następnie suma ta jest podnoszona do kwadratu.

Korzystając ze wzoru (1), po obliczeniu rzeczywistej zmienności cechy, otrzymujemy:

2. policzmy Generał SS– ogólna zmienność cechy:


(2)

3. obliczyć wartość losową (resztową).SS śl, spowodowane przez nieuwzględnione czynniki:

(3)

4.liczba stopni swobody równa się:

=3-1=2(4)

5.„środkowy plac” lub średnia wartość odpowiednich sum kwadratów SS jest równa:

(5)

6. znaczenie statystyki kryterialne F.em obliczyć korzystając ze wzoru:

(6)

Dla naszego przykładu mamy : Fem =15,72/2,11=7,45

7.zdefiniuj Krytyka F według tabel statystycznych Aplikacje 3 dla df 1 =k 1 =2 i df 2 =k 2 =15 wartość tabelaryczna statystyki wynosi 3,68

8. jeśli F.em< F krytyczne, wówczas akceptowana jest hipoteza zerowa, w przeciwnym razie akceptowana jest hipoteza alternatywna. Dla naszego przykładu F.em> Kryt F (7,45>3,68), zatem p

Wniosek:różnice w zapamiętywaniu słów między grupami są bardziej wyraźne niż przypadkowe różnice w obrębie każdej grupy (s<0,05). Т.о. скорость предъявления слов влияет на объем их воспроизведения.

7.1.2 Analiza wariancji dla powiązanych próbek

Metodę analizy wariancji dla próbek powiązanych stosuje się w przypadkach, gdy wpływ różnych gradacji czynnika lub różnych warunków na tę samą próbkę przedmiotów. Musi istnieć co najmniej gradacja czynnika trzy.

W tym przypadku różnice między podmiotami są możliwym niezależnym źródłem różnic. Jednoczynnikowa ANOVA dla powiązanych próbekpozwoli nam określić, co przeważa – tendencja wyrażona krzywą zmiany czynników, czy też różnice indywidualne pomiędzy badanymi. Czynnik różnic indywidualnych może być bardziej istotny niż czynnik zmian warunków doświadczalnych.

Przykład 2.Zbadano grupę 5 osób, stosując trzy zadania eksperymentalne mające na celu badanie wytrwałości intelektualnej (Sidorenko E.V., 1984). Każdy przedmiot został indywidualnie przedstawiony sekwencyjnie z trzema identycznymi anagramami: czteroliterowym, pięcioliterowym i sześcioliterowym. Czy można założyć, że współczynnik długości anagramu wpływa na czas trwania prób jego rozwiązania?

Tabela 2. Czas rozwiązywania anagramów (s)

Kod tematu

Warunek 1. czteroliterowy anagram

Warunek 2. Pięcioliterowy anagram

Warunek 3. anagram sześcioliterowy

Kwoty według tematów

kwoty

1244

1342

Formułujmy hipotezy. W tym przypadku istnieją dwa zestawy hipotez.

Zestaw A.

H 0 (A): Różnice w czasie trwania prób rozwiązania anagramów o różnej długości nie są bardziej widoczne niż różnice powstałe z przyczyn losowych.

H 1 (A): Różnice w czasie trwania prób rozwiązania anagramów o różnej długości są bardziej widoczne niż różnice wynikające z przyczyn losowych.

Zestaw B.

N około (B): Indywidualne różnice między badanymi nie są bardziej wyraźne niż różnice wynikające z przyczyn losowych.

H 1 (B): Różnice indywidualne między badanymi są bardziej wyraźne niż różnice wynikające z przyczyn losowych.

Kolejność działań w jednokierunkowej analizie wariancji dla powiązanych próbek:

1. policzmy Fakt SS- zmienność cechy pod wpływem działania badanego czynnika według wzoru (1).

gdzie T c jest sumą poszczególnych wartości dla każdego z warunków (kolumn). Dla naszego przykładu 51, 1244, 47 (patrz tabela 2); с – liczba warunków (gradacji) współczynnika (=3); N – liczba osób w każdej grupie (=5); N – łączna liczba poszczególnych wartości (=15); - kwadrat całkowitej sumy poszczególnych wartości (=1342 2)

2. policzmy SS isp- zmienność znaku ze względu na indywidualne wartości przedmiotów.

Gdzie T i jest sumą poszczególnych wartości dla każdego przedmiotu. W naszym przykładzie 247, 631, 100, 181, 183 (patrz tabela 2); с – liczba warunków (gradacji) współczynnika (=3); N – łączna liczba poszczególnych wartości (=15);

3. policzmy Generał SS– ogólna zmienność cechy według wzoru (2):


4. obliczyć wartość losową (resztową).SS śl, spowodowane czynnikami nieuwzględnionymi według wzoru (3):

5. liczba stopni swobody równa się (4):

; ; ;

6. „środkowy plac” Lub matematyczne oczekiwanie sumy kwadratów,średnia wartość odpowiednich sum kwadratów SS jest równa (5):

;

7. kryterium wartość statystyczna F.em obliczyć korzystając ze wzoru (6):

;

8. Wyznaczmy Fcrit z tablic statystycznych Załącznika 3 dla df 1 =k 1 =2 i df 2 =k 2 =8 tabelaryczną wartość statystyki F crit_fact =4,46 oraz dla df 3 =k 3 =4 i df 2 =k 2 = 8 F krytyczne_użycie =3,84

9. F em_fakt> F fakt_krytyczny (6,872>4,46), zatem p przyjmuje się hipotezę alternatywną.

10. F em_use < F крит_исп (1,054<3,84), следовательно пPrzyjmuje się hipotezę zerową.

Wniosek:różnice w natężeniu reprodukcji słów w różnych warunkach są bardziej widoczne niż różnice powstałe z przyczyn losowych (s<0,05).Индивидуальные различия между испытуе­мыми являются не более выраженными, чем различия, обусловленные случайными причинами.

7.2 Analiza korelacji

7.2.1 Pojęcie korelacji

Badacza często interesuje to, jak dwie lub więcej zmiennych są ze sobą powiązane w jednej lub większej liczbie badanych próbek. Na przykład, czy uczniowie z wysokim poziomem lęku mogą wykazywać się stabilnymi osiągnięciami w nauce, czy długość pracy nauczyciela w szkole ma związek z wysokością jego wynagrodzenia, czy też, co bardziej, z poziomem rozwoju umysłowego uczniów – ich wyniki w matematyce lub literaturze itp.?

Ten rodzaj zależności między zmiennymi nazywa się korelacją lub korelacją. Korelacja połączenie- jest to skoordynowana zmiana dwóch cech, odzwierciedlająca fakt, że zmienność jednej cechy jest zgodna ze zmiennością drugiej.

Wiadomo na przykład, że przeciętnie istnieje dodatnia zależność pomiędzy wzrostem człowieka a jego masą ciała, a mianowicie, że im większy wzrost, tym większa waga człowieka. Istnieją jednak wyjątki od tej reguły, gdy osoby stosunkowo niskie mają nadwagę i odwrotnie, osoby asteniczne o wysokim wzroście mają niską wagę. Powodem takich wyjątków jest to, że każdy znak biologiczny, fizjologiczny lub psychologiczny jest zdeterminowany wpływem wielu czynników: środowiskowych, genetycznych, społecznych, środowiskowych itp.

Powiązania korelacyjne to zmiany probabilistyczne, które można badać jedynie na reprezentatywnych próbach, stosując metody statystyki matematycznej. „Obydwa terminy” – pisze E.V. Sidorenko, - związek korelacyjny i zależność korelacyjna- są często używane jako synonimy. Zależność oznacza wpływ, połączenie - wszelkie skoordynowane zmiany, które można wyjaśnić setkami powodów. Powiązań korelacyjnych nie można uważać za dowód związku przyczynowo-skutkowego; wskazują one jedynie, że zmianom jednej cechy towarzyszą zwykle pewne zmiany drugiej.

Zależność korelacyjna - są to zmiany, które wprowadzają wartości jednej cechy w prawdopodobieństwo pojawienia się różnych wartości innej cechy (E.V. Sidorenko, 2000).

Zadanie analizy korelacji sprowadza się do ustalenia kierunku (dodatniego lub ujemnego) i formy (liniowa, nieliniowa) zależności pomiędzy różnymi cechami, pomiaru jej bliskości i wreszcie sprawdzenia poziomu istotności uzyskanych współczynników korelacji.

Korelacje są różne pod względem formy, kierunku i stopnia (siły).

Według kształtuzależność korelacji może być liniowa lub krzywoliniowa. Przykładowo związek pomiędzy liczbą sesji treningowych na symulatorze a liczbą poprawnie rozwiązanych problemów w sesji kontrolnej może być prosty. Przykładowo związek pomiędzy poziomem motywacji a efektywnością zadania może mieć charakter krzywoliniowy (patrz rys. 1). Wraz ze wzrostem motywacji najpierw wzrasta efektywność wykonania zadania, następnie osiągany jest optymalny poziom motywacji, który odpowiada maksymalnej efektywności wykonania zadania; Dalszemu wzrostowi motywacji towarzyszy spadek efektywności.

Ryc.1. Zależność pomiędzy skutecznością rozwiązania problemu

i siła tendencji motywacyjnej (według J.W.A t k in syn, 1974, s. 200)

W kierunkukorelacja może być dodatnia („bezpośrednia”) i ujemna („odwrotna”). Przy dodatniej korelacji liniowej wyższe wartości jednej cechy odpowiadają wyższym wartościom drugiej, a niższe wartości jednej cechy odpowiadają niskim wartościom drugiej. Przy korelacji ujemnej zależności ulegają odwróceniu. W przypadku korelacji dodatniej współczynnik korelacji ma na przykład znak dodatnir =+0,207, z ujemną korelacją - na przykład znakiem ujemnymr = -0,207.

Stopień, siła lub szczelność o powiązaniu korelacyjnym decyduje wartość współczynnika korelacji.

Siła połączenia nie zależy od jego kierunku i jest określona przez wartość bezwzględną współczynnika korelacji.

Maksymalna możliwa wartość bezwzględna współczynnika korelacjir =1,00; minimum r = 0,00.

Ogólna klasyfikacja korelacji (wg Ivantera E.V., Korosov A.V., 1992):

mocny, Lub obcisły ze współczynnikiem korelacjir > 0,70;

przeciętny Na 0,50< R<0,69 ;

umiarkowany Na 0,30< R<0,49 ;

słaby Na 0,20< R<0,29 ;

bardzo słaby Na R<0,19 .

Zmienne X i Y można mierzyć w różnych skalach, od tego zależy wybór odpowiedniego współczynnika korelacji (patrz tabela 3):

Tabela 3. Zastosowanie współczynnika korelacji w zależności od rodzaju zmiennych

Typ skali

Miara połączenia

Zmienna X

Zmienna Y

Interwał lub związek

Interwał lub związek

Współczynnik Pearsona

Ranga, interwał lub stosunek

Współczynnik Spearmana

Rankingowe

Rankingowe

współczynnik Kendalla

Dychotomiczny

Dychotomiczny

Współczynnik „j”

Dychotomiczny

Rankingowe

Ranga-biserial

Dychotomiczny

Interwał lub związek

Dwuseryjny

7.2.2 Współczynnik korelacji Pearsona

Termin „korelacja” został wprowadzony do nauki przez wybitnego angielskiego przyrodnika Francisa Galtona w 1886 roku. Dokładny wzór na obliczenie współczynnika korelacji opracował jednak jego uczeń Karl Pearson.

Współczynnik charakteryzuje występowanie wyłącznie liniowej zależności między cechami, zwykle oznaczanej symbolami X i Y. Wzór na obliczenie współczynnika korelacji jest skonstruowany w ten sposób, że jeśli zależność między cechami ma charakter liniowy, współczynnik Pearsona dokładnie określa bliskość tego związku. Dlatego nazywany jest również współczynnikiem korelacji liniowej Pearsona. Jeżeli połączenie pomiędzy zmiennymi X i Y nie jest liniowa, wówczas Pearson zaproponował tzw. relację korelacji, aby ocenić bliskość tego związku.

Wartość współczynnika korelacji liniowej Pearsona nie może przekraczać +1 i być mniejsza niż -1. Te dwie liczby +1 i -1 wyznaczają granice współczynnika korelacji. Jeżeli obliczenia dają wartość większą niż +1 lub mniejszą niż -1, oznacza to, że w obliczeniach wystąpił błąd.

Znak współczynnika korelacji jest bardzo ważny dla interpretacji otrzymanej zależności. Podkreślmy jeszcze raz, że jeśli znak współczynnika korelacji liniowej jest dodatni, to zależność między skorelowanymi cechami jest taka, że ​​większej wartości jednej cechy (zmiennej) odpowiada większa wartość innej cechy (innej zmiennej). Innymi słowy, jeśli jeden wskaźnik (zmienna) wzrośnie, wówczas drugi wskaźnik (zmienna) odpowiednio wzrośnie. Zależność tę nazywamy zależnością wprost proporcjonalną.

Jeśli zostanie odebrany znak minus, wówczas większa wartość jednej cechy odpowiada mniejszej wartości drugiej. Innymi słowy, jeśli występuje znak minus, wzrost jednej zmiennej (znak, wartość) odpowiada spadkowi innej zmiennej. Zależność tę nazywamy zależnością odwrotnie proporcjonalną.

Ogólnie wzór na obliczenie współczynnika korelacji wygląda następująco:

(7)

Gdzie X I- wartości pobrane w próbce X,

tak, ja- wartości przyjęte w próbce Y;

Średnia dla X, - średnia dla Y.

Do obliczenia współczynnika korelacji Pearsona przyjęto założenie, że zmienne X i Y mają rozkład Cienki.

Wzór (7) zawiera ilość przy dzieleniu przez N (liczba wartości zmiennej X lub Y) to się nazywa kowariancja. Wzór (7) zakłada również, że przy obliczaniu współczynników korelacji liczba wartości zmiennej X jest równa liczbie wartości zmiennej Y.

Liczba stopni swobody k = n -2.

Przykład 3. 10 uczniów zostało poddanych testom na myślenie wizualno-figuratywne i werbalne. Średni czas rozwiązywania zadań testowych mierzono w sekundach. Badacza interesuje pytanie: czy istnieje związek pomiędzy czasem potrzebnym na rozwiązanie tych problemów? Zmienna X oznacza średni czas rozwiązywania zadań wizualno-figuratywnych, a zmienna Y oznacza średni czas rozwiązywania zadań testu werbalnego.

Rozwiązanie. Przedstawmy dane wyjściowe w postaci tabeli 4, która zawiera dodatkowe kolumny niezbędne do obliczeń przy zastosowaniu wzoru (7).

Tabela 4

Liczba przedmiotów

X

x ja -

(x ja - ) 2

tak, ja -

(y ja -) 2

16,7

278,89

51,84

120,24

13,69

17,2

295,84

63,64

7,29

51,84

19,44

68,89

14,44

31,54

59,29

7,84

21,56

0,49

46,24

4,76

10,89

17,64

13,86

10,89

51,84

23,76

68,89

10,8

116,64

89,64

68,89

18,8

353,44

156,04

Suma

357

242

588,1

1007,6

416,6

Przeciętny

35,7

24,2

Wartość empiryczną współczynnika korelacji obliczamy korzystając ze wzoru (7):

Wartości krytyczne dla uzyskanego współczynnika korelacji wyznaczamy zgodnie z tabelą w Załączniku 3. Znajdując wartości krytyczne dla obliczonego współczynnika korelacji liniowej Pearsona, liczbę stopni swobody oblicza się jako k = n – 2 = 8.

k crit = 0,72 > 0,54, zatem hipoteza H 1 zostaje odrzucona, a hipoteza przyjęta H0 inaczej mówiąc, nie wykazano związku pomiędzy czasem rozwiązywania zadań testowych wizualno-figuratywnych i werbalnych.

7.3 Analiza regresji

Jest to grupa metod mających na celu identyfikację i matematyczne wyrażenie tych zmian i zależności, jakie zachodzą w układzie zmiennych losowych. Jeśli taki system modeluje system pedagogiczny, to w konsekwencji poprzez analizę regresji identyfikuje się i wyraża matematycznie zjawiska psychologiczne i pedagogiczne oraz zależności między nimi. Charakterystyki tych zjawisk mierzone są w różnych skalach, co narzuca ograniczenia na sposoby matematycznego wyrażania zmian i zależności badanych przez nauczyciela-badacza.

Metody analizy regresji przeznaczone są przede wszystkim dla przypadku stabilnego rozkładu normalnego, w którym zmiany z próby na próbę pojawiają się jedynie w postaci niezależnych prób.

Zidentyfikowano różne problemy formalne analizy regresji. Mogą być proste lub złożone pod względem sformułowania, środków matematycznych i pracochłonności. Wymieńmy i rozważmy na przykładach te, które wydają się najważniejsze.

Pierwszym zadaniem jest zidentyfikować fakt zmienności zjawisko badane w pewnych, choć nie zawsze jasno ustalonych, warunkach. W poprzednim wykładzie rozwiązaliśmy już ten problem stosując kryteria parametryczne i nieparametryczne.

Drugie zadanie - zidentyfikować trend jako okresowa zmiana cechy. Ta cecha może, ale nie musi, zależeć od zmiennej warunku (może zależeć od warunków nieznanych lub niekontrolowanych przez badacza). Nie ma to jednak znaczenia dla rozpatrywanego zadania, które ogranicza się jedynie do identyfikacji trendu i jego cech.

Testowanie hipotez o braku lub obecności trendu można przeprowadzić przy użyciu kryterium Abbego . Kryterium Abbego przeznaczony do testowania hipotez o równości wartości średnich ustalonych dla 4

Wartość empiryczną kryterium Abbego oblicza się ze wzoru:

(8)

gdzie jest średnia arytmetyczna próbki;

P– liczba wartości w próbie.

Zgodnie z kryterium odrzuca się hipotezę o równości środków (przyjmuje się hipotezę alternatywną), jeżeli wartość statystyki wynosi . Wartość tabelaryczną (krytyczną) statystyki wyznacza się z tabeli q-kryterium Abbego, która ze skrótami została zapożyczona z książki L.N. Bolysheva i N.V. Smirnova (patrz dodatek 3).

Takimi wielkościami, do których stosuje się kryterium Abbego, mogą być udziały lub procenty próbek, średnie arytmetyczne i inne statystyki rozkładów próbek, jeśli są one zbliżone do normalnych (lub wcześniej znormalizowane). Dlatego kryterium Abbego może znaleźć szerokie zastosowanie w badaniach psychologicznych i pedagogicznych. Rozważmy przykład identyfikacji trendu za pomocą kryterium Abbego.

Przykład 4.W tabeli Rycina 5 przedstawia dynamikę odsetka studentów IV oczywiście, który w ciągu 10 lat pracy na jednym z wydziałów uczelni zdał egzaminy w sesjach zimowych z „celowością”. Należy ustalić, czy występuje tendencja do zwiększania wyników w nauce.

Tabela 5. Dynamika odsetka studentów IV roku z wyróżnieniem na przestrzeni 10 lat pracy wydziału

Rok akademicki

1995-96

10,8

1996-97

16,4

1997-98

17,4

1998-99

22,0

1999-00

23,0

2000-01

21,5

2001-02

26,1

2002-03

17,2

2003-04

27,5

2004-05

33,0

Jak zero Testujemy hipotezę o braku trendu, czyli o równości procentów.

Uśredniamy wartości procentowe podane w tabeli. 5, stwierdzamy, że =21,5. Obliczamy różnice pomiędzy kolejnymi i poprzednimi wartościami w próbie, podnosimy je i sumujemy:

Podobnie oblicza mianownik we wzorze (8), sumując kwadraty różnic pomiędzy każdym pomiarem i średnią arytmetyczną:

Teraz korzystając ze wzoru (8) otrzymujemy:

Z tabeli kryteriów Abbego z Załącznika 3 dowiadujemy się, że przy n = 10 i poziomie istotności 0,05 wartość krytyczna jest większa od otrzymanej przez nas wartości 0,41, zatem hipoteza o równości odsetka „doskonałych studentów” musi zostać sprawdzona odrzucona i możemy przyjąć alternatywną hipotezę o istnieniu trendu.

Trzecie zadanie to identyfikacja wzorca wyrażonego w postaci równania korelacji (regresja).

Przykład 5.Estoński badacz J. Mikk badając trudności w rozumieniu tekstu ustalił „wzór czytelności”, będący wielokrotną regresją liniową:

Ocena trudności w zrozumieniu tekstu,

gdzie x 1 to długość niezależnych zdań w liczbie wydrukowanych znaków,

x 2 - procent różnych nieznanych słów,

x 3 - abstrakcyjność powtarzających się pojęć wyrażonych rzeczownikami .

Porównując współczynniki regresji wyrażające stopień wpływu czynników, można zauważyć, że o trudności zrozumienia tekstu decyduje przede wszystkim jego abstrakcyjność. Trudność zrozumienia tekstu w połowie (0,27) zależy od liczby nieznanych słów i praktycznie w ogóle nie zależy od długości zdania.