Varianzanalyse. Multivariate Varianzanalyse ANOVA-Modell der Varianzkomponenten

Varianzanalyse

1. Konzept der Varianzanalyse

Varianzanalyse ist eine Analyse der Variabilität eines Merkmals unter dem Einfluss kontrollierter variabler Faktoren. In der ausländischen Literatur wird die Varianzanalyse häufig als ANOVA bezeichnet, was als Variabilitätsanalyse (Varianzanalyse) übersetzt wird.

ANOVA-Problem besteht darin, Variabilität anderer Art von der allgemeinen Variabilität eines Merkmals zu isolieren:

a) Variabilität aufgrund der Wirkung jeder der untersuchten unabhängigen Variablen;

b) Variabilität aufgrund der Wechselwirkung der untersuchten unabhängigen Variablen;

c) zufällige Variabilität aufgrund aller anderen unbekannten Variablen.

Die Variabilität aufgrund der Wirkung der untersuchten Variablen und ihrer Interaktion korreliert mit der Zufallsvariabilität. Ein Indikator für diesen Zusammenhang ist der Fisher-F-Test.

Die Formel zur Berechnung des F-Kriteriums umfasst Schätzungen der Varianzen, also der Verteilungsparameter des Attributs, daher ist das F-Kriterium ein parametrisches Kriterium.

Je stärker die Variabilität eines Merkmals auf die untersuchten Variablen (Faktoren) oder deren Wechselwirkung zurückzuführen ist, desto höher ist sie empirische Kriteriumswerte.

Null Die Hypothese in der Varianzanalyse besagt, dass die Durchschnittswerte des untersuchten effektiven Merkmals in allen Abstufungen gleich sind.

Alternative Die Hypothese besagt, dass die Durchschnittswerte des resultierenden Merkmals in verschiedenen Abstufungen des untersuchten Faktors unterschiedlich sind.

Durch die Varianzanalyse können wir eine Veränderung eines Merkmals feststellen, aber nicht darauf hinweisen Richtung diese Veränderungen.

Beginnen wir unsere Betrachtung der Varianzanalyse mit dem einfachsten Fall, wenn wir die Wirkung von only untersuchen eins Variable (ein Faktor).

2. Einweg-Varianzanalyse für nicht verwandte Stichproben

2.1. Zweck der Methode

Die Methode der Ein-Faktor-Varianzanalyse wird in Fällen verwendet, in denen Änderungen eines effektiven Merkmals unter dem Einfluss sich ändernder Bedingungen oder Abstufungen eines Faktors untersucht werden. In dieser Version der Methode beträgt der Einfluss jeder der Abstufungen des Faktors anders Proben von Probanden. Es müssen mindestens drei Abstufungen des Faktors vorhanden sein. (Es kann zwei Abstufungen geben, aber in diesem Fall können wir keine nichtlinearen Abhängigkeiten feststellen und es erscheint sinnvoller, einfachere Abhängigkeiten zu verwenden.)

Eine nichtparametrische Version dieser Art von Analyse ist der Kruskal-Wallis-H-Test.

Hypothesen

H 0: Unterschiede zwischen Faktorstufen (verschiedene Bedingungen) sind nicht größer als zufällige Unterschiede innerhalb jeder Gruppe.

H 1: Unterschiede zwischen Faktornoten (verschiedene Bedingungen) sind größer als zufällige Unterschiede innerhalb jeder Gruppe.

2.2. Einschränkungen der einseitigen Varianzanalyse für nicht verwandte Stichproben

1. Die einseitige Varianzanalyse erfordert mindestens drei Abstufungen des Faktors und mindestens zwei Probanden in jeder Abstufung.

2. Das resultierende Merkmal muss in der untersuchten Stichprobe normalverteilt sein.

Zwar wird in der Regel nicht angegeben, ob es sich um die Verteilung des Merkmals in der gesamten untersuchten Stichprobe oder in dem Teil davon handelt, der den Dispersionskomplex ausmacht.

3. Ein Beispiel für die Lösung eines Problems mit der Methode der einseitigen Varianzanalyse für nicht verwandte Stichproben am Beispiel:

Drei verschiedene Gruppen von sechs Probanden erhielten Listen mit zehn Wörtern. Die Wörter wurden der ersten Gruppe mit niedriger Geschwindigkeit präsentiert – 1 Wort pro 5 Sekunden, der zweiten Gruppe mit durchschnittlicher Geschwindigkeit – 1 Wort pro 2 Sekunden und der dritten Gruppe mit hoher Geschwindigkeit – 1 Wort pro Sekunde. Es wurde vorhergesagt, dass die Reproduktionsleistung von der Geschwindigkeit der Wortpräsentation abhängt. Die Ergebnisse sind in der Tabelle dargestellt. 1.

Anzahl der wiedergegebenen Wörter Tabelle 1

Betreff Nr.

langsame Geschwindigkeit

Durchschnittsgeschwindigkeit

hohe Geschwindigkeit

Gesamtbetrag

H 0: Unterschiede in der Wortproduktionsspanne zwischen Gruppen sind nicht ausgeprägter als zufällige Unterschiede innen jede Gruppe.

H1: Unterschiede im Wortproduktionsvolumen zwischen Gruppen sind ausgeprägter als zufällige Unterschiede innen jede Gruppe. Unter Verwendung der in der Tabelle dargestellten experimentellen Werte. 1 werden wir einige Werte festlegen, die zur Berechnung des F-Kriteriums erforderlich sind.

Die Berechnung der Hauptgrößen für die einseitige Varianzanalyse ist in der Tabelle dargestellt:

Tabelle 2

Tisch 3

Abfolge von Operationen bei der einseitigen Varianzanalyse für nicht verwandte Stichproben

Die in dieser und den folgenden Tabellen häufig vorkommende Bezeichnung SS ist eine Abkürzung für „Summe der Quadrate“. Diese Abkürzung wird am häufigsten in übersetzten Quellen verwendet.

SS Tatsache bedeutet die Variabilität des Merkmals aufgrund der Wirkung des untersuchten Faktors;

SS allgemein- allgemeine Variabilität des Merkmals;

S C.A.-Variabilität aufgrund nicht berücksichtigter Faktoren, „zufällige“ oder „Rest“-Variabilität.

MS- „mittleres Quadrat“ oder der mathematische Erwartungswert der Summe der Quadrate, dem Durchschnittswert des entsprechenden SS.

df - die Anzahl der Freiheitsgrade, die wir bei der Betrachtung nichtparametrischer Kriterien mit einem griechischen Buchstaben bezeichnet haben v.

Fazit: H 0 wird abgelehnt. H 1 wird akzeptiert. Die Unterschiede in der Worterinnerung zwischen den Gruppen waren größer als die zufälligen Unterschiede innerhalb jeder Gruppe (α=0,05). Die Geschwindigkeit der Präsentation von Wörtern beeinflusst also die Lautstärke ihrer Reproduktion.

Nachfolgend finden Sie ein Beispiel zur Lösung des Problems in Excel:

Ausgangsdaten:

Mit dem Befehl: Extras->Datenanalyse->Einfaktorielle ANOVA erhalten wir die folgenden Ergebnisse:

Wie bereits erwähnt, steht die Dispersionsmethode in engem Zusammenhang mit statistischen Gruppierungen und geht davon aus, dass die untersuchte Bevölkerung nach Faktormerkmalen, deren Einfluss untersucht werden soll, in Gruppen eingeteilt wird.

Basierend auf der Varianzanalyse ergibt sich Folgendes:

1. Einschätzung der Verlässlichkeit von Unterschieden der Gruppenmittelwerte für ein oder mehrere Faktormerkmale;

2. Beurteilung der Zuverlässigkeit von Faktorinteraktionen;

3. Bewertung partieller Unterschiede zwischen Mittelwertpaaren.

Die Anwendung der Varianzanalyse basiert auf dem Gesetz der Zerlegung von Varianzen (Variationen) eines Merkmals in Komponenten.

Die Gesamtvariation D o des resultierenden Merkmals während der Gruppierung lässt sich in folgende Komponenten zerlegen:

1. intergruppieren D m ist einem Gruppierungsmerkmal zugeordnet;

2. für Rest(gruppenintern) D B hat keinen Bezug zum Gruppierungsmerkmal.

Die Beziehung zwischen diesen Indikatoren wird wie folgt ausgedrückt:

D o = D m + D in. (1,30)

Schauen wir uns die Verwendung der Varianzanalyse anhand eines Beispiels an.

Nehmen wir an, Sie möchten nachweisen, ob sich die Aussaattermine auf die Weizenerträge auswirken. Die ersten experimentellen Daten zur Varianzanalyse sind in der Tabelle dargestellt. 8.

Tabelle 8

In diesem Beispiel ist N = 32, K = 4, l = 8.

Lassen Sie uns die gesamte Gesamtvariation des Ertrags bestimmen, die die Summe der quadrierten Abweichungen einzelner Werte eines Merkmals vom Gesamtdurchschnitt ist:

wobei N die Anzahl der Bevölkerungseinheiten ist; Y i – individuelle Ertragswerte; Y o ist der durchschnittliche Gesamtertrag für die gesamte Population.

Um die Gesamtvariation zwischen den Gruppen zu bestimmen, die die Variation des effektiven Merkmals aufgrund des untersuchten Faktors bestimmt, ist es notwendig, die Durchschnittswerte des effektiven Merkmals für jede Gruppe zu kennen. Diese Gesamtvariation entspricht der Summe der quadrierten Abweichungen der Gruppendurchschnitte vom Gesamtdurchschnittswert des Merkmals, gewichtet mit der Anzahl der Populationseinheiten in jeder Gruppe:

Die Gesamtvariation innerhalb der Gruppe ist gleich der Summe der quadrierten Abweichungen einzelner Werte eines Merkmals von den Gruppendurchschnitten für jede Gruppe, summiert über alle Gruppen in der Population.

Der Einfluss eines Faktors auf das resultierende Merkmal zeigt sich in der Beziehung zwischen Dm und Dv: Je stärker der Einfluss des Faktors auf den Wert des untersuchten Merkmals ist, desto größer ist Dm und desto kleiner ist Dv.

Um eine Varianzanalyse durchführen zu können, müssen die Variationsquellen eines Merkmals, das Variationsvolumen je Quelle und die Anzahl der Freiheitsgrade für jede Variationskomponente ermittelt werden.

Das Ausmaß der Variation wurde bereits ermittelt; nun gilt es, die Anzahl der Variationsfreiheitsgrade zu bestimmen. Anzahl der Freiheitsgrade ist die Anzahl der unabhängigen Abweichungen einzelner Werte eines Merkmals von seinem Durchschnittswert. Die Gesamtzahl der Freiheitsgrade, die der Gesamtsumme der quadratischen Abweichungen in der ANOVA entspricht, wird in Variationskomponenten zerlegt. Somit entspricht die Gesamtsumme der quadratischen Abweichungen D o der Anzahl der Variationsfreiheitsgrade gleich N – 1 = 31. Die Gruppenvariation D m ​​​​entspricht der Anzahl der Variationsfreiheitsgrade gleich K – 1 = 3. Die gruppeninterne Restvariation entspricht der Anzahl der Variationsfreiheitsgrade von N – K = 28.


Wenn wir nun die Summe der quadratischen Abweichungen und die Anzahl der Freiheitsgrade kennen, können wir die Varianzen für jede Komponente bestimmen. Bezeichnen wir diese Varianzen: d m – Gruppe und d in – intragroup.

Nach der Berechnung dieser Varianzen ermitteln wir die Bedeutung des Einflusses des Faktors auf das resultierende Attribut. Dazu ermitteln wir das Verhältnis: d M / d B = F f,

Die Menge F f, genannt Fisher-Kriterium , verglichen mit der Tabelle, F-Tabelle. Wie bereits erwähnt, ist der Einfluss des Faktors auf das effektive Attribut nachgewiesen, wenn F f > F Tabelle. Wenn F f< F табл то можно утверждать, что различие между дисперсиями находится в пределах возможных случайных колебаний и, следовательно, не доказывает с достаточной вероятностью влияние изучаемого фактора.

Der theoretische Wert ist mit der Wahrscheinlichkeit verknüpft und in der Tabelle wird sein Wert bei einem bestimmten Grad der Wahrscheinlichkeit des Urteils angegeben. Der Anhang enthält eine Tabelle, mit der Sie den möglichen Wert von F für die Wahrscheinlichkeit einer Beurteilung festlegen können, der am häufigsten verwendet wird: Das Wahrscheinlichkeitsniveau der „Nullhypothese“ beträgt 0,05. Anstelle der „Nullhypothese“-Wahrscheinlichkeiten kann die Tabelle auch als Tabelle für die Wahrscheinlichkeit von 0,95 der Signifikanz des Einflusses des Faktors bezeichnet werden. Das Erhöhen des Wahrscheinlichkeitsniveaus erfordert einen höheren F-Wert der Vergleichstabelle.

Der Wert der F-Tabelle hängt auch von der Anzahl der Freiheitsgrade der beiden verglichenen Dispersionen ab. Wenn die Anzahl der Freiheitsgrade gegen Unendlich geht, tendiert die F-Tabelle gegen Eins.

Die Tabelle der F-Tabellenwerte ist wie folgt aufgebaut: Die Spalten der Tabelle geben die Variationsfreiheitsgrade für die größere Streuung an, und die Zeilen geben die Freiheitsgrade für die kleinere Streuung (innerhalb der Gruppe) an. Der Wert von F wird am Schnittpunkt der Spalte und Zeile der entsprechenden Variationsfreiheitsgrade gefunden.

In unserem Beispiel ist also F f = 21,3/3,8 = 5,6. Der tabellierte Wert von F table für eine Wahrscheinlichkeit von 0,95 und Freiheitsgrade gleich 3 bzw. 28, F table = 2,95.

Der experimentell erhaltene Wert von F f übersteigt den theoretischen Wert selbst bei einer Wahrscheinlichkeit von 0,99. Folglich beweist die Erfahrung mit einer Wahrscheinlichkeit von mehr als 0,99 den Einfluss des untersuchten Faktors auf den Ertrag, d. h. die Erfahrung kann als zuverlässig und nachgewiesen angesehen werden und daher hat der Aussaatzeitpunkt einen erheblichen Einfluss auf den Weizenertrag. Als optimaler Aussaatzeitraum gilt der Zeitraum vom 10. bis 15. Mai, da in diesem Aussaatzeitraum die besten Ertragsergebnisse erzielt wurden.

Wir untersuchten die Methode der Varianzanalyse bei der Gruppierung nach einem Merkmal und der zufälligen Verteilung von Replikaten innerhalb der Gruppe. Es kommt jedoch häufig vor, dass die Versuchsparzelle einige Unterschiede in der Bodenfruchtbarkeit usw. aufweist. Daher kann es vorkommen, dass eine größere Anzahl von Parzellen einer der Optionen auf den besten Teil fällt und ihre Indikatoren überschätzt werden der anderen Option - im schlimmsten Fall, und die Ergebnisse werden in diesem Fall natürlich schlechter ausfallen, das heißt, sie werden unterschätzt.

Um Abweichungen auszuschließen, die durch Gründe verursacht werden, die nicht mit dem Experiment zusammenhängen, ist es notwendig, die aus Replikaten (Blöcken) berechnete Varianz von der gruppeninternen (Rest-)Varianz zu isolieren.

Die Gesamtsumme der quadrierten Abweichungen wird in diesem Fall in 3 Komponenten aufgeteilt:

D o = D m + D Wiederholung + D Pause. (1.33)

In unserem Beispiel ist die Summe der durch Wiederholungen verursachten quadratischen Abweichungen gleich:

Daher ist die tatsächliche Zufallssumme der quadrierten Abweichungen gleich:

D Pause = D in – D Wiederholung; D Ruhe = 106 – 44 = 62.

Für die Restvarianz beträgt die Anzahl der Freiheitsgrade 28 – 7 = 21. Die Ergebnisse der Varianzanalyse sind in der Tabelle dargestellt. 9.

Tabelle 9

Da die tatsächlichen Werte des F-Kriteriums mit einer Wahrscheinlichkeit von 0,95 über den tabellierten Werten liegen, ist der Einfluss von Aussaatterminen und -wiederholungen auf den Weizenertrag als signifikant anzusehen. Die betrachtete Methode zum Aufbau eines Experiments, bei der der Standort vorab in Blöcke mit relativ zueinander ausgerichteten Bedingungen unterteilt wird und die getesteten Optionen in zufälliger Reihenfolge innerhalb des Blocks verteilt werden, wird als Methode der randomisierten Blöcke bezeichnet.

Mithilfe der Varianzanalyse können Sie nicht nur den Einfluss eines Faktors auf das Ergebnis untersuchen, sondern zwei oder mehr. Varianzanalyse wird in diesem Fall aufgerufen Multivariate Varianzanalyse .

Zweifaktorielle ANOVA unterscheidet sich darin von zwei Einfaktor-Modellen kann folgende Fragen beantworten:

1. 1Wie wirken sich beide Faktoren zusammen aus?

2. Welche Rolle spielt die Kombination dieser Faktoren?

Betrachten wir eine Varianzanalyse des Experiments, bei der es notwendig ist, den Einfluss nicht nur der Aussaattermine, sondern auch der Sorten auf den Weizenertrag zu ermitteln (Tabelle 10).

Tabelle 10. Experimentelle Daten zum Einfluss von Aussaatterminen und -sorten auf den Weizenertrag

ist die Summe der quadrierten Abweichungen einzelner Werte vom Gesamtdurchschnitt.

Variation im gemeinsamen Einfluss von Aussaatzeitpunkt und Sorte

ist die Summe der quadrierten Abweichungen der Untergruppenmittelwerte vom Gesamtmittelwert, gewichtet mit der Anzahl der Wiederholungen, also mit 4.

Berechnung der Variation nur auf Grundlage des Einflusses der Aussaatzeit:

Die Restvariation ist definiert als die Differenz zwischen der Gesamtvariation und der Variation im gemeinsamen Einfluss der untersuchten Faktoren:

D rest = D o – D ps = 170 – 96 = 74.

Alle Berechnungen können in Tabellenform dargestellt werden (Tabelle 11).

Tabelle 11. Ergebnisse der Varianzanalyse

Die Ergebnisse der Varianzanalyse zeigen, dass der Einfluss der untersuchten Faktoren Aussaatzeitpunkt und Sorte auf den Weizenertrag signifikant ist, da die tatsächlichen F-Kriterien für jeden der Faktoren die tabellarisch ermittelten für die entsprechenden Grade deutlich übertreffen der Freiheit und gleichzeitig mit einer ziemlich hohen Wahrscheinlichkeit (p = 0,99). Der Einfluss einer Kombination von Faktoren fehlt in diesem Fall, da die Faktoren unabhängig voneinander sind.

Die Analyse des Einflusses von drei Faktoren auf das Ergebnis erfolgt nach dem gleichen Prinzip wie bei zwei Faktoren, nur dass es in diesem Fall drei Varianzen für die Faktoren und vier Varianzen für die Kombination von Faktoren gibt. Mit zunehmender Anzahl der Faktoren nimmt der Rechenaufwand stark zu und zudem wird es schwierig, die Ausgangsinformationen in einer Kombinationstabelle anzuordnen. Daher ist es kaum ratsam, den Einfluss vieler Faktoren auf das Ergebnis mittels Varianzanalyse zu untersuchen; Es ist besser, eine kleinere Zahl zu nehmen, aber die aus wirtschaftlicher Sicht wichtigsten Faktoren auszuwählen.

Oftmals hat es der Forscher mit sogenannten disproportionalen Dispersionskomplexen zu tun, also solchen, bei denen die Proportionalität der Variantenzahlen nicht eingehalten wird.

In solchen Komplexen ist die Variation in der Gesamtwirkung der Faktoren nicht gleich der Summe der Variation zwischen den Faktoren und der Variation in der Kombination von Faktoren. Sie unterscheidet sich betragsmäßig je nach dem Grad der Zusammenhänge zwischen einzelnen Faktoren, die sich aus einem Verstoß gegen die Verhältnismäßigkeit ergeben.

In diesem Fall ergeben sich Schwierigkeiten bei der Bestimmung des Einflussgrades jedes Faktors, da die Summe der Einzeleinflüsse nicht gleich dem Gesamteinfluss ist.

Eine Möglichkeit, einen disproportionalen Komplex auf eine einzelne Struktur zu reduzieren, besteht darin, ihn durch einen proportionalen Komplex zu ersetzen, bei dem die Häufigkeiten über Gruppen gemittelt werden. Bei einer solchen Ersetzung wird das Problem nach den Prinzipien der Proportionalkomplexe gelöst.

Bei der Varianzanalyse handelt es sich um eine Reihe statistischer Methoden, mit denen Hypothesen über die Beziehung zwischen bestimmten Merkmalen und untersuchten Faktoren, für die es keine quantitative Beschreibung gibt, überprüft und der Grad des Einflusses von Faktoren und ihrer Wechselwirkung ermittelt werden soll. In der Fachliteratur wird sie oft als ANOVA (von der englischen Bezeichnung Analysis of Variations) bezeichnet. Diese Methode wurde erstmals 1925 von R. Fischer entwickelt.

Arten und Kriterien der Varianzanalyse

Mit dieser Methode wird die Beziehung zwischen qualitativen (nominalen) Merkmalen und einer quantitativen (kontinuierlichen) Variablen untersucht. Im Wesentlichen testet es die Hypothese über die Gleichheit der arithmetischen Mittelwerte mehrerer Stichproben. Somit kann es als parametrisches Kriterium zum gleichzeitigen Vergleich der Mittelpunkte mehrerer Stichproben betrachtet werden. Wenn diese Methode für zwei Stichproben verwendet wird, sind die Ergebnisse der Varianzanalyse identisch mit den Ergebnissen des Student-t-Tests. Im Gegensatz zu anderen Kriterien ermöglicht uns diese Studie jedoch, das Problem detaillierter zu untersuchen.

Die Streuungsanalyse in der Statistik basiert auf dem Gesetz: Die Summe der quadrierten Abweichungen der kombinierten Stichprobe ist gleich der Summe der quadrierten Abweichungen innerhalb der Gruppe und der Summe der quadrierten Abweichungen zwischen den Gruppen. Die Studie verwendet den Fisher-Test, um die Signifikanz des Unterschieds zwischen Varianzen zwischen Gruppen und Varianzen innerhalb der Gruppe zu ermitteln. Voraussetzung hierfür sind jedoch Normalverteilung und Homoskedastizität (Varianzgleichheit) der Stichproben. Es gibt univariate (einfaktorielle) Varianzanalysen und multivariate (multifaktorielle) Analysen. Der erste betrachtet die Abhängigkeit des untersuchten Wertes von einem Merkmal, der zweite – von vielen gleichzeitig und ermöglicht es uns auch, den Zusammenhang zwischen ihnen zu erkennen.

Faktoren

Faktoren sind kontrollierte Umstände, die das Endergebnis beeinflussen. Sein Niveau oder seine Verarbeitungsmethode ist ein Wert, der eine spezifische Manifestation dieses Zustands charakterisiert. Diese Zahlen werden normalerweise auf einer nominalen oder ordinalen Maßskala dargestellt. Oftmals werden Ausgabewerte auf quantitativen oder ordinalen Skalen gemessen. Dann entsteht das Problem, Ausgabedaten in eine Reihe von Beobachtungen zu gruppieren, die ungefähr denselben numerischen Werten entsprechen. Wenn die Anzahl der Gruppen als zu groß angenommen wird, reicht die Anzahl der darin enthaltenen Beobachtungen möglicherweise nicht aus, um zuverlässige Ergebnisse zu erhalten. Nimmt man die Zahl zu klein, kann dies zum Verlust wesentlicher Merkmale der Einflussnahme auf das System führen. Die konkrete Art und Weise, Daten zu gruppieren, hängt vom Ausmaß und der Art der Wertschwankung ab. Die Anzahl und Größe der Intervalle in der univariaten Analyse wird am häufigsten durch das Prinzip gleicher Intervalle oder das Prinzip gleicher Häufigkeiten bestimmt.

Analyse von Varianzproblemen

Es gibt also Fälle, in denen Sie zwei oder mehr Proben vergleichen müssen. Dann empfiehlt sich die Verwendung der Varianzanalyse. Der Name der Methode weist darauf hin, dass Schlussfolgerungen auf der Grundlage der Untersuchung von Varianzkomponenten gezogen werden. Der Kern der Studie besteht darin, dass die Gesamtänderung des Indikators in Komponenten unterteilt wird, die der Wirkung jedes einzelnen Faktors entsprechen. Betrachten wir eine Reihe von Problemen, die durch eine typische Varianzanalyse gelöst werden können.

Beispiel 1

Die Werkstatt verfügt über eine Reihe automatischer Maschinen, die ein bestimmtes Teil herstellen. Die Größe jedes Teils ist eine Zufallsvariable, die von der Einrichtung jeder Maschine und den zufälligen Abweichungen abhängt, die während des Herstellungsprozesses der Teile auftreten. Anhand der Messdaten der Teileabmessungen muss festgestellt werden, ob die Maschinen gleich konfiguriert sind.

Beispiel 2

Bei der Herstellung eines elektrischen Geräts werden verschiedene Arten von Isolierpapier verwendet: Kondensator, Elektropapier usw. Das Gerät kann mit verschiedenen Substanzen imprägniert werden: Epoxidharz, Lack, ML-2-Harz usw. Leckagen können unter Vakuum beseitigt werden erhöhter Druck, mit Heizung. Die Imprägnierung kann durch Eintauchen in Lack, unter einem kontinuierlichen Lackstrahl usw. erfolgen. Das elektrische Gerät als Ganzes wird mit einer bestimmten Verbindung gefüllt, für die es mehrere Möglichkeiten gibt. Qualitätsindikatoren sind die Spannungsfestigkeit der Isolierung, die Überhitzungstemperatur der Wicklung im Betriebsmodus und viele andere. Bei der Entwicklung des technologischen Prozesses zur Herstellung von Geräten muss ermittelt werden, wie sich jeder der aufgeführten Faktoren auf die Leistung des Geräts auswirkt.

Beispiel 3

Das Trolleybusdepot bedient mehrere Trolleybuslinien. Sie betreiben Oberleitungsbusse verschiedener Typen und 125 Kontrolleure kassieren die Fahrpreise. Die Depotleitung interessiert die Frage: Wie lassen sich die wirtschaftlichen Kennzahlen der Arbeit jedes Controllers (Umsatz) unter Berücksichtigung unterschiedlicher Strecken und unterschiedlicher Trolleybustypen vergleichen? Wie lässt sich die wirtschaftliche Machbarkeit der Produktion von Oberleitungsbussen eines bestimmten Typs auf einer bestimmten Strecke ermitteln? Wie lassen sich angemessene Anforderungen an die Höhe der Einnahmen festlegen, die ein Schaffner auf jeder Strecke in verschiedenen Trolleybustypen erwirtschaftet?

Die Aufgabe bei der Auswahl einer Methode besteht darin, maximale Informationen über den Einfluss jedes Faktors auf das Endergebnis zu erhalten, die numerischen Eigenschaften eines solchen Einflusses und seine Zuverlässigkeit bei minimalen Kosten und in kürzester Zeit zu bestimmen. Methoden der Varianzanalyse ermöglichen die Lösung solcher Probleme.

Univariate Analyse

Der Zweck der Studie besteht darin, das Ausmaß des Einflusses eines bestimmten Falles auf die analysierte Rezension abzuschätzen. Ein weiterer Zweck der univariaten Analyse kann darin bestehen, zwei oder mehr Umstände miteinander zu vergleichen, um den Unterschied in ihrer Auswirkung auf die Erinnerung zu bestimmen. Wenn die Nullhypothese abgelehnt wird, besteht der nächste Schritt darin, Konfidenzintervalle für die erhaltenen Merkmale zu quantifizieren und zu konstruieren. Falls die Nullhypothese nicht verworfen werden kann, wird sie in der Regel akzeptiert und eine Schlussfolgerung über die Art des Einflusses gezogen.

Die einseitige Varianzanalyse kann zu einem nichtparametrischen Analogon der Kruskal-Wallis-Rangmethode werden. Es wurde 1952 vom amerikanischen Mathematiker William Kruskal und dem Ökonomen Wilson Wallis entwickelt. Dieses Kriterium soll die Nullhypothese der Gleichheit der Effekte auf die untersuchten Stichproben mit unbekannten, aber gleichen Durchschnittswerten testen. In diesem Fall muss die Anzahl der Proben mehr als zwei betragen.

Das Jonckheere-Terpstra-Kriterium wurde 1952 vom niederländischen Mathematiker T. J. Terpstra und 1954 vom britischen Psychologen E. R. Jonckheere unabhängig voneinander vorgeschlagen. Es wird verwendet, wenn im Voraus bekannt ist, dass die vorhandenen Ergebnisgruppen nach dem Wachstum des Einflusses geordnet sind untersuchter Faktor, der auf einer Ordinalskala gemessen wird.

M – Bartletts Test, der 1937 vom britischen Statistiker Maurice Stevenson Bartlett vorgeschlagen wurde, wird verwendet, um die Nullhypothese über die Gleichheit der Varianzen mehrerer normaler Populationen zu testen, aus denen die untersuchten Stichproben entnommen werden und die im Allgemeinen unterschiedliche Größen (die Anzahl der einzelnen Populationen) aufweisen Probe muss mindestens vier sein).

G – Cochran-Test, der 1941 vom Amerikaner William Gemmell Cochran entdeckt wurde. Er wird verwendet, um die Nullhypothese über die Gleichheit der Varianzen normaler Populationen in unabhängigen Stichproben gleicher Größe zu testen.

Der nichtparametrische Levene-Test, der 1960 vom amerikanischen Mathematiker Howard Levene vorgeschlagen wurde, ist eine Alternative zum Bartlett-Test unter Bedingungen, bei denen kein Vertrauen besteht, dass die untersuchten Stichproben einer Normalverteilung unterliegen.

1974 schlugen die amerikanischen Statistiker Morton B. Brown und Alan B. Forsythe einen Test (Brown-Forsyth-Test) vor, der sich geringfügig vom Levene-Test unterscheidet.

Zwei-Faktor-Analyse

Die bidirektionale Varianzanalyse wird für verwandte normalverteilte Stichproben verwendet. In der Praxis werden häufig komplexe Tabellen dieser Methode verwendet, insbesondere solche, bei denen jede Zelle einen Datensatz (wiederholte Messungen) enthält, der festen Pegelwerten entspricht. Wenn die für die Anwendung der bidirektionalen Varianzanalyse erforderlichen Annahmen nicht erfüllt sind, verwenden Sie den nichtparametrischen Friedman-Rangtest (Friedman, Kendall und Smith), der Ende 1930 vom amerikanischen Ökonomen Milton Friedman entwickelt wurde. Dieser Test ist unabhängig von der Art der Verteilung.

Es wird lediglich angenommen, dass die Verteilung der Werte identisch und kontinuierlich ist und dass sie selbst unabhängig voneinander sind. Beim Testen der Nullhypothese werden die Ausgabedaten in Form einer rechteckigen Matrix dargestellt, in der die Zeilen den Stufen des Faktors B und die Spalten den Stufen von A entsprechen. Jede Zelle der Tabelle (Block) kann sein das Ergebnis von Parametermessungen an einem Objekt oder an einer Gruppe von Objekten mit konstanten Werten der Niveaus beider Faktoren. In diesem Fall werden die entsprechenden Daten als Durchschnittswerte eines bestimmten Parameters für alle Dimensionen bzw. Objekte der untersuchten Stichprobe dargestellt. Um das Ausgabekriterium anzuwenden, ist es notwendig, von den direkten Ergebnissen der Messungen zu deren Rangfolge überzugehen. Die Rangfolge wird für jede Zeile separat durchgeführt, d. h. die Werte werden für jeden festen Wert geordnet.

Der Page-Test (L-Test), der 1963 vom amerikanischen Statistiker E. B. Page vorgeschlagen wurde, soll die Nullhypothese testen. Für große Stichproben wird die Page-Näherung verwendet. Sie gehorchen, vorbehaltlich der Realität der entsprechenden Nullhypothesen, der Standardnormalverteilung. Für den Fall, dass die Zeilen der Quelltabelle die gleichen Werte haben, ist es notwendig, Durchschnittsränge zu verwenden. In diesem Fall wird die Genauigkeit der Schlussfolgerungen umso schlechter, je größer die Anzahl solcher Übereinstimmungen ist.

Q - Cochran-Kriterium, 1937 von W. Cochran vorgeschlagen. Es wird in Fällen verwendet, in denen Gruppen homogener Subjekte Einflüssen ausgesetzt sind, deren Anzahl zwei überschreitet und für die zwei Feedbackoptionen möglich sind – bedingt negativ (0) und bedingt positiv (1) . Die Nullhypothese besteht in der Gleichheit der Behandlungseffekte. Die bidirektionale Varianzanalyse ermöglicht es, das Vorhandensein von Behandlungseffekten zu bestimmen, ermöglicht jedoch nicht die Bestimmung, für welche spezifischen Spalten dieser Effekt vorliegt. Um dieses Problem zu lösen, wird die Methode mehrerer Scheffe-Gleichungen für verwandte Proben verwendet.

Multivariate Analyse

Das Problem der multivariaten Varianzanalyse entsteht, wenn Sie die Auswirkung von zwei oder mehr Bedingungen auf eine bestimmte Zufallsvariable bestimmen müssen. Die Studie umfasst das Vorhandensein einer abhängigen Zufallsvariablen, die auf einer Differenz- oder Verhältnisskala gemessen wird, und mehrerer unabhängiger Variablen, die jeweils auf einer Benennungs- oder Rangskala ausgedrückt werden. Die Varianzanalyse von Daten ist ein ziemlich entwickelter Teilbereich der mathematischen Statistik, der viele Optionen bietet. Das Forschungskonzept ist sowohl für Einzelfaktoren als auch für Mehrfaktoren gleich. Sein Kern liegt darin, dass die Gesamtvarianz in Komponenten zerlegt wird, was einer bestimmten Gruppierung von Daten entspricht. Jede Datengruppierung hat ihr eigenes Modell. Hier betrachten wir nur die grundlegenden Bestimmungen, die für das Verständnis und die praktische Anwendung der am häufigsten verwendeten Optionen erforderlich sind.

Die Varianzanalyse von Faktoren erfordert eine recht sorgfältige Haltung bei der Erhebung und Darstellung der Eingabedaten und insbesondere bei der Interpretation der Ergebnisse. Im Gegensatz zu einem Ein-Faktor-Test, dessen Ergebnisse bedingt in eine bestimmte Reihenfolge gebracht werden können, erfordern die Ergebnisse eines Zwei-Faktor-Tests eine komplexere Darstellung. Noch komplizierter wird die Situation, wenn drei, vier oder mehr Umstände vorliegen. Aus diesem Grund kommt es recht selten vor, dass ein Modell mehr als drei (vier) Bedingungen enthält. Ein Beispiel wäre das Auftreten einer Resonanz bei einem bestimmten Wert der Kapazität und Induktivität eines elektrischen Kreises; die Manifestation einer chemischen Reaktion mit einem bestimmten Satz von Elementen, aus denen das System aufgebaut ist; das Auftreten anomaler Effekte in komplexen Systemen unter einem bestimmten Zufall von Umständen. Das Vorhandensein von Interaktion kann das Modell des Systems radikal verändern und manchmal dazu führen, dass der Experimentator die Natur der Phänomene überdenkt, mit denen er sich befasst.

Multivariate Varianzanalyse mit wiederholten Experimenten

Messdaten können häufig nicht nach zwei, sondern nach einer größeren Anzahl von Faktoren gruppiert werden. Wenn wir also die Streuungsanalyse der Lebensdauer von Trolleybus-Radreifen unter Berücksichtigung der Umstände (der Produktionsstätte und der Strecke, auf der die Reifen betrieben werden) betrachten, können wir die Saison, in der die Reifen betrieben werden, als separate Bedingung herausgreifen Reifen betrieben werden (nämlich: Winter- und Sommerbetrieb). Als Ergebnis werden wir ein Problem der Drei-Faktoren-Methode haben.

Liegen mehrere Bedingungen vor, ist die Vorgehensweise die gleiche wie bei der Zwei-Faktoren-Analyse. In allen Fällen versuchen sie, das Modell zu vereinfachen. Das Phänomen der Wechselwirkung zweier Faktoren kommt nicht so häufig vor, eine Dreifachwechselwirkung kommt nur in Ausnahmefällen vor. Beziehen Sie die Interaktionen ein, für die es bereits frühere Informationen und gute Gründe gibt, diese im Modell zu berücksichtigen. Der Prozess, einzelne Faktoren zu identifizieren und zu berücksichtigen, ist relativ einfach. Daher besteht oft der Wunsch, mehr Umstände hervorzuheben. Davon sollte man sich nicht mitreißen lassen. Je mehr Bedingungen vorhanden sind, desto weniger zuverlässig wird das Modell und desto größer ist die Fehlerwahrscheinlichkeit. Das Modell selbst, das eine große Anzahl unabhängiger Variablen enthält, wird recht komplex in der Interpretation und unpraktisch für die praktische Anwendung.

Allgemeine Idee der Varianzanalyse

Die Varianzanalyse in der Statistik ist eine Methode, um Beobachtungsergebnisse in Abhängigkeit von verschiedenen gleichzeitigen Betriebsumständen zu erhalten und deren Einfluss zu bewerten. Eine Regelgröße, die der Art der Beeinflussung des Untersuchungsgegenstandes entspricht und über einen bestimmten Zeitraum einen bestimmten Wert annimmt, wird als Faktor bezeichnet. Sie können qualitativ und quantitativ sein. Ebenen quantitativer Bedingungen erhalten auf einer numerischen Skala eine bestimmte Bedeutung. Beispiele sind Temperatur, Pressdruck, Substanzmenge. Qualitative Faktoren sind unterschiedliche Stoffe, unterschiedliche technologische Methoden, Geräte, Füllstoffe. Ihre Ebenen entsprechen einer Namensskala.

Qualität kann auch die Art des Verpackungsmaterials und die Lagerbedingungen der Darreichungsform umfassen. Es ist auch sinnvoll, den Mahlgrad der Rohstoffe und die fraktionierte Zusammensetzung des Granulats einzubeziehen, die eine quantitative Bedeutung haben, aber bei Verwendung einer quantitativen Skala schwer zu regulieren sind. Die Anzahl der qualitativen Faktoren hängt von der Art der Darreichungsform sowie den physikalischen und technologischen Eigenschaften der Arzneimittel ab. Beispielsweise können aus kristallinen Stoffen durch Direktverpressung Tabletten gewonnen werden. In diesem Fall reicht es aus, Gleit- und Schmierstoffe auszuwählen.

Beispiele für Qualitätsfaktoren für verschiedene Arten von Darreichungsformen

  • Tinkturen. Extraktionsmittelzusammensetzung, Extraktortyp, Rohstoffaufbereitungsmethode, Produktionsmethode, Filtrationsmethode.
  • Extrakte (flüssig, dick, trocken). Zusammensetzung des Extraktionsmittels, Extraktionsverfahren, Art der Anlage, Art der Entfernung des Extraktionsmittels und der Ballaststoffe.
  • Pillen. Zusammensetzung aus Hilfsstoffen, Füllstoffen, Sprengmitteln, Bindemitteln, Gleitmitteln und Gleitmitteln. Methode zur Gewinnung von Tabletten, Art der technologischen Ausrüstung. Art der Hülle und ihrer Bestandteile, Filmbildner, Pigmente, Farbstoffe, Weichmacher, Lösungsmittel.
  • Injektionslösungen. Art des Lösungsmittels, Filtrationsmethode, Art der Stabilisatoren und Konservierungsmittel, Sterilisationsbedingungen, Methode zum Befüllen von Ampullen.
  • Zäpfchen. Zusammensetzung der Zäpfchenbasis, Verfahren zur Herstellung von Zäpfchen, Füllstoffe, Verpackung.
  • Salben. Zusammensetzung der Basis, Strukturbestandteile, Art der Salbenzubereitung, Art der Ausrüstung, Verpackung.
  • Kapseln. Art des Hüllenmaterials, Herstellungsverfahren der Kapseln, Art des Weichmachers, Konservierungsmittel, Farbstoff.
  • Linimente. Zubereitungsart, Zusammensetzung, Art der Ausrüstung, Art des Emulgators.
  • Suspensionen. Art des Lösungsmittels, Art des Stabilisators, Dispergierverfahren.

Beispiele für Qualitätsfaktoren und deren Niveaus, die während des Tablettenherstellungsprozesses untersucht wurden

  • Backpulver. Kartoffelstärke, weißer Ton, eine Mischung aus Natriumbicarbonat mit Zitronensäure, basisches Magnesiumcarbonat.
  • Bindungslösung. Wasser, Stärkepaste, Zuckersirup, Methylcelluloselösung, Hydroxypropylmethylcelluloselösung, Polyvinylpyrrolidonlösung, Polyvinylalkohollösung.
  • Gleitende Substanz. Aerosil, Stärke, Talk.
  • Füllstoff. Zucker, Glukose, Laktose, Natriumchlorid, Calciumphosphat.
  • Schmiermittel. Stearinsäure, Polyethylenglykol, Paraffin.

Modelle der Varianzanalyse bei der Untersuchung des Niveaus der staatlichen Wettbewerbsfähigkeit

Eines der wichtigsten Kriterien zur Beurteilung des Zustands eines Staates, anhand dessen das Niveau seines Wohlergehens und seiner sozioökonomischen Entwicklung beurteilt wird, ist die Wettbewerbsfähigkeit, also eine Reihe von Eigenschaften, die der Volkswirtschaft innewohnen und die den Staat bestimmen Fähigkeit, mit anderen Ländern zu konkurrieren. Nachdem der Platz und die Rolle des Staates auf dem Weltmarkt bestimmt wurden, ist es möglich, eine klare Strategie zur Gewährleistung der wirtschaftlichen Sicherheit auf internationaler Ebene festzulegen, denn sie ist der Schlüssel zu positiven Beziehungen zwischen Russland und allen Akteuren auf dem Weltmarkt: den Investoren , Gläubiger und Regierungen.

Um das Niveau der Wettbewerbsfähigkeit von Staaten zu vergleichen, werden die Länder anhand komplexer Indizes eingestuft, die verschiedene gewichtete Indikatoren umfassen. Diese Indizes basieren auf Schlüsselfaktoren, die die wirtschaftliche, politische usw. Situation beeinflussen. Eine Reihe von Modellen zur Untersuchung der staatlichen Wettbewerbsfähigkeit beinhaltet den Einsatz multivariater statistischer Analysemethoden (insbesondere Varianzanalyse (Statistik), ökonometrische Modellierung, Entscheidungsfindung) und umfasst die folgenden Hauptphasen:

  1. Bildung eines Indikatorensystems.
  2. Bewertung und Prognose staatlicher Wettbewerbsfähigkeitsindikatoren.
  3. Vergleich von Indikatoren der Wettbewerbsfähigkeit von Staaten.

Schauen wir uns nun den Inhalt der Modelle der einzelnen Phasen dieses Komplexes an.

In der ersten Phase Unter Verwendung fachkundiger Studienmethoden wird unter Berücksichtigung der Besonderheiten seiner Entwicklung auf der Grundlage internationaler Ratings und Daten statistischer Abteilungen ein fundierter Satz wirtschaftlicher Indikatoren zur Beurteilung der Wettbewerbsfähigkeit des Staates gebildet, der den Zustand des Gesamtsystems widerspiegelt und seine Prozesse. Die Wahl dieser Indikatoren wird durch die Notwendigkeit gerechtfertigt, diejenigen auszuwählen, die es uns aus praktischer Sicht am besten ermöglichen, das Niveau des Staates, seine Investitionsattraktivität und die Möglichkeit einer relativen Lokalisierung bestehender potenzieller und tatsächlicher Bedrohungen zu bestimmen.

Die Hauptindikatoren internationaler Bewertungssysteme sind Indizes:

  1. Globale Wettbewerbsfähigkeit (GC).
  2. Wirtschaftsfreiheit (IES).
  3. Menschliche Entwicklung (HDI).
  4. Wahrnehmung von Korruption (CPC).
  5. Interne und externe Bedrohungen (IETH).
  6. Internationales Einflusspotential (IPIP).

Zweite Phase sorgt für die Bewertung und Prognose staatlicher Wettbewerbsfähigkeitsindikatoren nach internationalen Ratings für die 139 untersuchten Länder der Welt.

Dritter Abschnitt sorgt für einen Vergleich der Wettbewerbsbedingungen von Staaten mit Methoden der Korrelations- und Regressionsanalyse.

Anhand der Ergebnisse der Studie ist es möglich, die Art der Prozesse im Allgemeinen und für einzelne Komponenten der Wettbewerbsfähigkeit des Staates zu bestimmen; Testen Sie die Hypothese über den Einfluss von Faktoren und ihren Beziehungen auf dem entsprechenden Signifikanzniveau.

Die Umsetzung des vorgeschlagenen Modellsatzes wird es nicht nur ermöglichen, die aktuelle Situation des Niveaus der Wettbewerbsfähigkeit und Investitionsattraktivität von Staaten zu beurteilen, sondern auch Managementdefizite zu analysieren, Fehler bei falschen Entscheidungen zu verhindern und die Entwicklung einer Krise in den Staaten zu verhindern Zustand.

Einseitige Varianzanalyse.

Konzept und Modelle der Varianzanalyse.

Thema 13. Varianzanalyse

Vorlesung 1. Fragen:

Die Varianzanalyse als Forschungsmethode tauchte in den Werken von R. Fischer (1918-1935) im Zusammenhang mit landwirtschaftlichen Forschungen auf, um die Bedingungen zu ermitteln, unter denen die getestete Sorte landwirtschaftlicher Nutzpflanzen den maximalen Ertrag bringt. Die Varianzanalyse wurde in den Werken von Yeats weiterentwickelt. Die Varianzanalyse ermöglicht die Beantwortung der Frage, ob bestimmte Faktoren einen signifikanten Einfluss auf die Variabilität eines Faktors haben, dessen Werte aus Erfahrung gewonnen werden können. Beim Testen statistischer Hypothesen wird von zufälligen Variationen der untersuchten Faktoren ausgegangen. Bei der Varianzanalyse werden ein oder mehrere Faktoren auf eine bestimmte Weise verändert, und diese Veränderungen können sich auf die Ergebnisse von Beobachtungen auswirken. Die Untersuchung dieses Einflusses ist der Zweck der Varianzanalyse.

Derzeit wird die Varianzanalyse in den Wirtschaftswissenschaften, der Soziologie, der Biologie usw. immer häufiger eingesetzt, insbesondere seit dem Aufkommen von Software, die die Probleme der Schwerfälligkeit statistischer Berechnungen beseitigt.

In der Praxis stehen wir in verschiedenen Bereichen der Wissenschaft häufig vor der Notwendigkeit, den Einfluss verschiedener Faktoren auf bestimmte Indikatoren zu bewerten. Oft sind diese Faktoren qualitativer Natur (ein qualitativer Faktor, der den wirtschaftlichen Effekt beeinflusst, kann beispielsweise die Einführung eines neuen Produktionsmanagementsystems sein), und dann kommt der Varianzanalyse ein besonderer Wert zu, da sie die einzige statistische Forschungsmethode ist, die solche Ergebnisse liefert eine Beurteilung.

Die Varianzanalyse ermöglicht es, festzustellen, ob der eine oder andere der betrachteten Faktoren einen signifikanten Einfluss auf die Variabilität eines Merkmals hat, sowie das „spezifische Gewicht“ jeder Variabilitätsquelle in ihrer Gesamtheit zu quantifizieren. Durch die Varianzanalyse können wir jedoch nur eine positive Antwort auf das Vorliegen eines signifikanten Einflusses geben, andernfalls bleibt die Frage offen und erfordert zusätzliche Forschung (meistens eine Erhöhung der Anzahl der Experimente).

Die folgenden Begriffe werden in der Varianzanalyse verwendet.

Faktor (X) ist etwas, von dem wir glauben, dass es das Ergebnis (resultatives Attribut) Y beeinflussen sollte.

Faktorniveau (oder Verarbeitungsmethode, manchmal wörtlich, zum Beispiel – Methode der Bodenbearbeitung) – Werte (X, i = 1,2,...I), die der Faktor annehmen kann.

Antwort – der Wert des gemessenen Merkmals (Ergebniswert Y).

Die ANOVA-Technik variiert je nach Anzahl der untersuchten unabhängigen Faktoren. Wenn die Faktoren, die die Variabilität des Durchschnittswerts eines Merkmals verursachen, zu einer Quelle gehören, dann haben wir eine einfache Gruppierung oder Ein-Faktor-Varianzanalyse und dann entsprechend eine doppelte Gruppierung – Zwei-Faktor-Varianzanalyse, Drei-Faktor-Varianzanalyse Varianzanalyse, ..., M-Faktor. Faktoren in der multivariaten Analyse werden normalerweise mit lateinischen Buchstaben bezeichnet: A, B, C usw.



Die Aufgabe der Varianzanalyse besteht darin, den Einfluss bestimmter Faktoren (oder Faktorebenen) auf die Variabilität der Durchschnittswerte beobachteter Zufallsvariablen zu untersuchen.

Die Essenz der Varianzanalyse. Die Varianzanalyse besteht in der Isolierung und Bewertung einzelner Faktoren, die Variabilität verursachen. Dazu wird die durch alle Variabilitätsquellen verursachte Gesamtvarianz der beobachteten Teilpopulation (Gesamtvarianz des Merkmals) in durch unabhängige Faktoren erzeugte Varianzkomponenten zerlegt. Jede dieser Komponenten liefert eine Schätzung der Varianz, ,..., die durch eine bestimmte Variabilitätsquelle in der Gesamtpopulation verursacht wird. Um die Signifikanz dieser Komponentenvarianzschätzungen zu testen, werden sie mit der Gesamtvarianz in der Grundgesamtheit verglichen (Fisher-Test).

Bei der Zwei-Faktor-Analyse erhalten wir beispielsweise eine Zerlegung der Form:

Gesamtvarianz des untersuchten Merkmals C;

Der Anteil der Varianz, der durch den Einfluss von Faktor A verursacht wird;

Der Anteil der Varianz, der durch den Einfluss von Faktor B verursacht wird;

Der Anteil der Varianz, der durch das Zusammenspiel der Faktoren A und B verursacht wird;

Der Anteil der Varianz, der durch unerklärte Zufallsursachen verursacht wird (zufällige Varianz);

Bei der Varianzanalyse wird die Hypothese berücksichtigt: H 0 – keiner der betrachteten Faktoren hat einen Einfluss auf die Variabilität des Merkmals. Die Signifikanz jeder Varianzschätzung wird anhand des Wertes ihres Verhältnisses zur zufälligen Varianzschätzung überprüft und mit dem entsprechenden kritischen Wert auf Signifikanzniveau a unter Verwendung von Tabellen mit kritischen Werten der Fisher-Snedecor-F-Verteilung (Anhang 4) verglichen. . Hypothese H 0 bezüglich der einen oder anderen Variabilitätsquelle wird abgelehnt, wenn F berechnet wird. >F kr. (zum Beispiel für Faktor B: S B 2 /S ε 2 >F cr.).

Die Varianzanalyse berücksichtigt drei Arten von Experimenten:

a) Experimente, bei denen alle Faktoren systematische (feste) Niveaus haben;

b) Experimente, bei denen alle Faktoren zufällige Niveaus haben;

c) Experimente, in denen es Faktoren mit zufälligen Niveaus und Faktoren mit festen Niveaus gibt.

Die Fälle a), b), c) entsprechen drei Modellen, die in der Varianzanalyse berücksichtigt werden.

Die Eingabedaten für die Varianzanalyse werden normalerweise in Form der folgenden Tabelle dargestellt:

Beobachtungsnummer j Faktorstufen
Eine 1 Eine 2 Ein r
X 11 X 21 X p1
X 12 X 22 XP2
X 13 X 23 X p3
. . .
. . .
. . .
N X 1n X2n XPN
ERGEBNISSE

Betrachten Sie einen einzelnen Faktor, der p verschiedene Ebenen annimmt, und nehmen Sie an, dass auf jeder Ebene n Beobachtungen gemacht werden, was N=np Beobachtungen ergibt. (Wir beschränken uns auf die Betrachtung des ersten Modells der Varianzanalyse – alle Faktoren haben feste Niveaus.)

Die Ergebnisse seien in der Form X ij (i=1,2…,ð; j=1,2,…,n) dargestellt.

Es wird davon ausgegangen, dass es für jede Ebene von n Beobachtungen einen Durchschnitt gibt, der gleich der Summe des Gesamtdurchschnitts und seiner Variation aufgrund der ausgewählten Ebene ist:

wobei m der Gesamtdurchschnitt ist;

A i – Effekt, der durch die i – m-Ebene des Faktors verursacht wird;

e ij – Variation der Ergebnisse innerhalb einer einzelnen Faktorebene. Der Term e ij berücksichtigt alle unkontrollierbaren Faktoren.

Es seien Beobachtungen auf einem festen Faktorniveau normalverteilt um den Mittelwert m + A i mit einer gemeinsamen Varianz s 2 .

Dann (der Punkt anstelle des Index bezeichnet die Mittelung der entsprechenden Beobachtungen über diesen Index):

A.X ij – X.. = (X i . – X..) + (X ij – X i .). (12.3)

Nachdem wir beide Seiten der Gleichung quadriert und über i und j summiert haben, erhalten wir:

seitdem, aber

Ansonsten kann die Quadratsumme geschrieben werden: S = S 1 + S 2. Der Wert von S 1 wird aus den Abweichungen der p-Mittelwerte vom Gesamtmittelwert X berechnet. Daher hat S 1 (p-1) Freiheitsgrade. Der Wert von S 2 wird aus den Abweichungen von N Beobachtungen von p Stichprobenmittelwerten berechnet und weist daher N-ð = np - p=p(n-1) Freiheitsgrade auf. S hat (N-1) Freiheitsgrade. Basierend auf den Berechnungsergebnissen wird eine Varianzanalysetabelle erstellt.

ANOVA-Tabelle

Wenn die Hypothese wahr ist, dass der Einfluss aller Ebenen gleich ist, dann sind sowohl M 1 als auch M 2 (mittlere Quadrate) erwartungstreue Schätzungen von s 2. Dies bedeutet, dass die Hypothese überprüft werden kann, indem das Verhältnis (M 1 / M 2) berechnet und mit F cr verglichen wird. mit ν 1 = (p-1) und ν 2 = (N-p) Freiheitsgraden.

Wenn F berechnet wird >F kr. , dann wird die Hypothese über den unbedeutenden Einfluss von Faktor A auf das Beobachtungsergebnis nicht akzeptiert.

Zur Beurteilung der Signifikanz von Unterschieden bei F calc. F-Tisch Berechnung:

a) experimenteller Fehler

b) Fehler der Mittelwertdifferenz

c) der kleinste signifikante Unterschied

Beim Vergleich der Unterschiede in den Durchschnittswerten der Optionen mit dem NSR kommen sie zu dem Schluss, dass die Unterschiede in der Höhe der Durchschnittswerte signifikant sind.

Kommentar. Die Verwendung der Varianzanalyse geht davon aus, dass:

2) D(ε ij)=σ 2 = const,

3) ε ij → N (0, σ) oder x ij → N (a, σ).

Analytischer Statistiker

7.1 Varianzanalyse. 2

Bei dieser Variante der Methode werden unterschiedliche Probandenstichproben dem Einfluss der jeweiligen Abstufungen ausgesetzt. Es müssen mindestens Abstufungen des Faktors vorhanden sein drei.

Beispiel 1. Drei verschiedene Gruppen von sechs Probanden erhielten Listen mit zehn Wörtern. Die Wörter wurden der ersten Gruppe mit niedriger Geschwindigkeit präsentiert – 1 Wort pro 5 Sekunden, der zweiten Gruppe mit durchschnittlicher Geschwindigkeit – 1 Wort pro 2 Sekunden und der dritten Gruppe mit hoher Geschwindigkeit – 1 Wort pro Sekunde. Es wurde vorhergesagt, dass die Reproduktionsleistung von der Geschwindigkeit der Wortpräsentation abhängt. Die Ergebnisse sind in der Tabelle dargestellt. 1.

Tabelle 1. Anzahl der wiedergegebenen Wörter (von J. Greene, MD „Olivera, 1989, S. 99)

Betreff Nr.

Gruppe 1 niedrige Geschwindigkeit

Gruppe 2 mittlere Geschwindigkeit

Gruppe 3 hohe Geschwindigkeit

Beträge

Durchschnitt

7,17

6,17

4,00

Gesamtbetrag

Mit der univariaten Varianzanalyse können Sie die Hypothesen testen:

H 0 : Unterschiede im Wortproduktionsvolumen zwischen Gruppen sind nicht ausgeprägter als zufällige Unterschiede innen jede Gruppe

H 1 : Unterschiede im Wortproduktionsvolumen zwischen Gruppen sind ausgeprägter als zufällige Unterschiede innen jede Gruppe.

Abfolge von Operationen bei der einseitigen Varianzanalyse für nicht verwandte Stichproben:

1. Lasst uns zählen SS-Tatsache- Variabilität des Merkmals aufgrund der Wirkung des untersuchten Faktors. Gemeinsame Bezeichnung SS - Abkürzung für „Summe der Quadrate“ ( Quadratsumme ). Diese Abkürzung wird am häufigsten in übersetzten Quellen verwendet (siehe zum Beispiel: Glass J., Stanley J., 1976).

,(1)

wobei T c die Summe der Einzelwerte für jede Bedingung ist. Für unser Beispiel 43, 37, 24 (siehe Tabelle 1);

с – Anzahl der Bedingungen (Abstufungen) des Faktors (=3);

N – Anzahl der Probanden in jeder Gruppe (=6);

N – Gesamtzahl der Einzelwerte (=18);

Quadrat der Gesamtsumme der Einzelwerte (=104 2 =10816)

Beachten Sie den Unterschied zwischen , bei dem alle Einzelwerte zuerst quadriert und dann summiert werden, und , bei dem Einzelwerte zuerst summiert werden, um eine Gesamtsumme zu erhalten, und diese Summe dann quadriert wird.

Mit Formel (1) erhalten wir nach Berechnung der tatsächlichen Variabilität des Merkmals:

2. Lasst uns zählen SS-General– allgemeine Variabilität des Merkmals:


(2)

3. Berechnen Sie den zufälligen (Rest-)WertSS sl, verursacht durch unerklärte Faktoren:

(3)

4.Anzahl der Freiheitsgrade entspricht:

=3-1=2(4)

5.„mittleres Quadrat“ oder der Durchschnittswert der entsprechenden Quadratsummen SS ist gleich:

(5)

6. Bedeutung Kriteriumsstatistik F em Berechnen Sie mit der Formel:

(6)

Für unser Beispiel haben wir : Fem =15,72/2,11=7,45

7.definieren F krit nach statistischen Tabellen Anwendungen 3 für df 1 =k 1 =2 und df 2 =k 2 =15 beträgt der Tabellenwert der Statistik 3,68

8. wenn F em< F kritisch, dann wird die Nullhypothese akzeptiert, andernfalls wird die Alternativhypothese akzeptiert. Für unser Beispiel F em> F krit (7,45>3,68), daher p

Abschluss:Unterschiede in der Worterinnerung zwischen Gruppen sind ausgeprägter als zufällige Unterschiede innerhalb jeder Gruppe (S<0,05). Т.о. скорость предъявления слов влияет на объем их воспроизведения.

7.1.2 Varianzanalyse für verwandte Stichproben

Die Methode der Varianzanalyse für zusammengehörige Stichproben kommt dann zum Einsatz, wenn der Einfluss unterschiedlicher Abstufungen eines Faktors oder unterschiedlicher Bedingungen auf die gleiche Stichprobe von Probanden. Es müssen mindestens Abstufungen des Faktors vorhanden sein drei.

In diesem Fall sind Unterschiede zwischen Subjekten eine mögliche unabhängige Ursache für Unterschiede. Einfaktorielle ANOVA für verwandte Probenwird es uns ermöglichen zu bestimmen, was überwiegt – die durch die Faktoränderungskurve ausgedrückte Tendenz oder individuelle Unterschiede zwischen Probanden. Der Faktor der individuellen Unterschiede kann bedeutender sein als der Faktor der Änderungen der Versuchsbedingungen.

Beispiel 2.Eine Gruppe von 5 Probanden wurde anhand von drei experimentellen Aufgaben zur Untersuchung der intellektuellen Ausdauer untersucht (Sidorenko E.V., 1984). Jedem Probanden wurden einzeln nacheinander drei identische Anagramme präsentiert: ein aus vier Buchstaben bestehendes, ein aus fünf Buchstaben bestehendes und ein aus sechs Buchstaben bestehendes. Kann man davon ausgehen, dass der Längenfaktor eines Anagramms die Dauer der Lösungsversuche beeinflusst?

Tabelle 2. Dauer des Lösens von Anagrammen (Sek.)

Betreffcode

Bedingung 1. Anagramm mit vier Buchstaben

Bedingung 2. Anagramm mit fünf Buchstaben

Bedingung 3. Anagramm mit sechs Buchstaben

Beträge nach Themen

Beträge

1244

1342

Lassen Sie uns Hypothesen formulieren. In diesem Fall gibt es zwei Sätze von Hypothesen.

Stellen Sie A ein.

H 0 (A): Unterschiede in der Dauer der Versuche, Anagramme unterschiedlicher Länge zu lösen, sind nicht ausgeprägter als zufällig bedingte Unterschiede.

H 1 (A): Unterschiede in der Dauer der Versuche, Anagramme unterschiedlicher Länge zu lösen, sind ausgeprägter als zufällig bedingte Unterschiede.

Set B.

N zu (B): Individuelle Unterschiede zwischen Probanden sind nicht ausgeprägter als Unterschiede aufgrund zufälliger Ursachen.

H 1 (B): Individuelle Unterschiede zwischen Probanden sind ausgeprägter als zufällig bedingte Unterschiede.

Abfolge von Operationen bei der einseitigen Varianzanalyse für zusammengehörige Stichproben:

1. Lasst uns zählen SS-Tatsache- Variabilität des Merkmals aufgrund der Wirkung des untersuchten Faktors gemäß Formel (1).

wobei T c die Summe der Einzelwerte für jede der Bedingungen (Spalten) ist. Für unser Beispiel 51, 1244, 47 (siehe Tabelle 2); с – Anzahl der Bedingungen (Abstufungen) des Faktors (=3); N – Anzahl der Probanden in jeder Gruppe (=5); N – Gesamtzahl der Einzelwerte (=15); - Quadrat der Gesamtsumme der Einzelwerte (=1342 2)

2. Lasst uns zählen SS-ISP- Variabilität des Vorzeichens aufgrund der individuellen Werte der Probanden.

Wobei T und die Summe der Einzelwerte für jedes Subjekt ist. Für unser Beispiel 247, 631, 100, 181, 183 (siehe Tabelle 2); с – Anzahl der Bedingungen (Abstufungen) des Faktors (=3); N – Gesamtzahl der Einzelwerte (=15);

3. Lasst uns zählen SS-General– allgemeine Variabilität des Merkmals nach Formel (2):


4. Berechnen Sie den Zufallswert (Restwert).SS sl, verursacht durch nicht berücksichtigte Faktoren gemäß Formel (3):

5. Anzahl der Freiheitsgrade gleich (4):

; ; ;

6. „mittleres Quadrat“ oder mathematische Erwartung der Quadratsumme, der Durchschnittswert der entsprechenden Quadratsummen SS ist gleich (5):

;

7. Kriterium-Statistikwert F em Berechnen Sie mit Formel (6):

;

8. Bestimmen wir F krit aus den statistischen Tabellen von Anhang 3 für df 1 =k 1 =2 und df 2 =k 2 =8. Tabellenwert der Statistik F krit_Fakt =4,46 und für df 3 =k 3 =4 und df 2 =k 2 = 8 F krit_exp =3,84

9. F em_fact> F kritische_Fakt (6,872>4,46), daher p eine Alternativhypothese wird akzeptiert.

10. F em_use < F крит_исп (1,054<3,84), следовательно пDie Nullhypothese wird akzeptiert.

Abschluss:Unterschiede in der Lautstärke der Wortreproduktion unter verschiedenen Bedingungen sind ausgeprägter als Unterschiede aufgrund zufälliger Gründe (S<0,05).Индивидуальные различия между испытуе­мыми являются не более выраженными, чем различия, обусловленные случайными причинами.

7.2 Korrelationsanalyse

7.2.1 Konzept der Korrelation

Ein Forscher ist oft daran interessiert, wie zwei oder mehr Variablen in einer oder mehreren untersuchten Proben miteinander in Beziehung stehen. Können zum Beispiel Schüler mit einem hohen Maß an Angst stabile schulische Leistungen vorweisen, oder hängt die Zeitspanne, die ein Lehrer an einer Schule arbeitet, von der Höhe seines Gehalts ab, oder was eher vom Grad der geistigen Entwicklung der Schüler abhängt – von ihrem Leistungen in Mathematik oder Literatur etc. .?

Diese Art der Abhängigkeit zwischen Variablen wird Korrelation oder Korrelation genannt. Korrelation Verbindung- Dies ist eine koordinierte Änderung zweier Merkmale, die die Tatsache widerspiegelt, dass die Variabilität eines Merkmals mit der Variabilität des anderen übereinstimmt.

Es ist beispielsweise bekannt, dass im Durchschnitt ein positiver Zusammenhang zwischen der Körpergröße von Menschen und ihrem Gewicht besteht, und zwar so, dass je größer die Körpergröße, desto größer das Gewicht der Person. Es gibt jedoch Ausnahmen von dieser Regel, wenn relativ kleine Menschen übergewichtig sind und umgekehrt asthenische Menschen mit großer Statur ein geringes Gewicht haben. Der Grund für solche Ausnahmen liegt darin, dass jedes biologische, physiologische oder psychologische Zeichen durch den Einfluss vieler Faktoren bestimmt wird: Umweltfaktoren, genetische Faktoren, soziale Faktoren, Umweltfaktoren usw.

Korrelationszusammenhänge sind probabilistische Veränderungen, die nur an repräsentativen Stichproben mit Methoden der mathematischen Statistik untersucht werden können. „Beide Begriffe“, schreibt E.V. Sidorenko, - Korrelationszusammenhang und Korrelationsabhängigkeit- werden oft als Synonyme verwendet. Abhängigkeit impliziert Einfluss, Verbindung – alle koordinierten Veränderungen, die durch Hunderte von Gründen erklärt werden können. Korrelationszusammenhänge können nicht als Beleg für einen Ursache-Wirkungs-Zusammenhang gewertet werden, sondern weisen lediglich darauf hin, dass Veränderungen in einem Merkmal in der Regel mit bestimmten Veränderungen in einem anderen einhergehen.

Korrelationsabhängigkeit - Dies sind Änderungen, die die Werte eines Merkmals in die Wahrscheinlichkeit des Auftretens unterschiedlicher Werte eines anderen Merkmals einbringen (E.V. Sidorenko, 2000).

Die Aufgabe der Korrelationsanalyse besteht darin, die Richtung (positiv oder negativ) und die Form (linear, nichtlinear) der Beziehung zwischen unterschiedlichen Merkmalen festzustellen, ihre Nähe zu messen und schließlich das Signifikanzniveau der erhaltenen Korrelationskoeffizienten zu überprüfen.

Korrelationen variieren in Form, Richtung und Grad (Stärke).

Nach FormDie Korrelationsbeziehung kann linear oder krummlinig sein. Beispielsweise kann der Zusammenhang zwischen der Anzahl der Trainingseinheiten am Simulator und der Anzahl korrekt gelöster Probleme in der Kontrollsitzung unkompliziert sein. Beispielsweise kann der Zusammenhang zwischen dem Motivationsgrad und der Effektivität einer Aufgabe krummlinig sein (siehe Abb. 1). Mit zunehmender Motivation steigt zunächst die Effektivität bei der Erledigung einer Aufgabe, dann wird das optimale Motivationsniveau erreicht, das der maximalen Effektivität bei der Erledigung der Aufgabe entspricht; Eine weitere Steigerung der Motivation geht mit einem Rückgang der Effizienz einher.

Abb.1. Die Beziehung zwischen der Wirksamkeit der Lösung eines Problems

und die Stärke der Motivationstendenz (nach J. W. A t k in son, 1974, S. 200)

In RichtungDie Korrelation kann positiv („direkt“) und negativ („invers“) sein. Bei einer positiven linearen Korrelation entsprechen höhere Werte eines Merkmals höheren Werten eines anderen und niedrigere Werte eines Merkmals niedrigen Werten eines anderen. Bei einer negativen Korrelation kehren sich die Verhältnisse um. Bei einer positiven Korrelation hat beispielsweise der Korrelationskoeffizient ein positives Vorzeichenr =+0,207, mit negativer Korrelation – zum Beispiel einem negativen Vorzeichenr = -0,207.

Grad, Stärke oder Dichtheit Korrelationszusammenhang wird durch den Wert des Korrelationskoeffizienten bestimmt.

Die Stärke der Verbindung hängt nicht von ihrer Richtung ab und wird durch den Absolutwert des Korrelationskoeffizienten bestimmt.

Maximal möglicher Absolutwert des Korrelationskoeffizientenr =1,00; Minimum r =0,00.

Allgemeine Klassifizierung von Korrelationen (nach Ivanter E.V., Korosov A.V., 1992):

stark, oder eng mit Korrelationskoeffizientr >0,70;

Durchschnitt bei 0,50< R<0,69 ;

mäßig bei 0,30< R<0,49 ;

schwach bei 0,20< R<0,29 ;

sehr schwach bei R<0,19 .

Die Variablen X und Y können auf verschiedenen Skalen gemessen werden. Dies bestimmt die Wahl des geeigneten Korrelationskoeffizienten (siehe Tabelle 3):

Tabelle 3. Verwendung des Korrelationskoeffizienten abhängig von der Art der Variablen

Skalentyp

Maß der Verbindung

Variable X

Variable Y

Intervall oder Beziehung

Intervall oder Beziehung

Pearson-Koeffizient

Rang, Intervall oder Verhältnis

Spearman-Koeffizient

Rangliste

Rangliste

Kendall-Koeffizient

Dichotom

Dichotom

Koeffizient „j“

Dichotom

Rangliste

Rang-biserial

Dichotom

Intervall oder Beziehung

Biserial

7.2.2 Pearson-Korrelationskoeffizient

Der Begriff „Korrelation“ wurde 1886 vom herausragenden englischen Naturforscher Francis Galton in die Wissenschaft eingeführt. Die genaue Formel zur Berechnung des Korrelationskoeffizienten wurde jedoch von seinem Schüler Karl Pearson entwickelt.

Der Koeffizient charakterisiert das Vorhandensein nur einer linearen Beziehung zwischen Merkmalen, die üblicherweise mit den Symbolen Nähe dieser Beziehung. Daher wird er auch linearer Korrelationskoeffizient nach Pearson genannt. Wenn der Zusammenhang zwischen den Variablen X und Y nicht linear ist, schlug Pearson die sogenannte Korrelationsbeziehung vor, um die Nähe dieses Zusammenhangs zu beurteilen.

Der Wert des linearen Korrelationskoeffizienten nach Pearson darf +1 nicht überschreiten und darf nicht kleiner als -1 sein. Diese beiden Zahlen +1 und -1 sind die Grenzen für den Korrelationskoeffizienten. Wenn die Berechnung einen Wert größer als +1 oder kleiner als -1 ergibt, ist in den Berechnungen ein Fehler aufgetreten.

Für die Interpretation des resultierenden Zusammenhangs ist das Vorzeichen des Korrelationskoeffizienten sehr wichtig. Wir betonen noch einmal, dass, wenn das Vorzeichen des linearen Korrelationskoeffizienten plus ist, die Beziehung zwischen den korrelierten Merkmalen so ist, dass ein größerer Wert eines Merkmals (einer Variablen) einem größeren Wert eines anderen Merkmals (einer anderen Variablen) entspricht. Mit anderen Worten: Steigt ein Indikator (Variable), erhöht sich auch der andere Indikator (Variable). Diese Abhängigkeit wird als direkt proportionale Abhängigkeit bezeichnet.

Wird ein Minuszeichen empfangen, so entspricht ein größerer Wert eines Merkmals einem kleineren Wert eines anderen. Mit anderen Worten: Wenn ein Minuszeichen vorhanden ist, entspricht ein Anstieg einer Variablen (Vorzeichen, Wert) einem Rückgang einer anderen Variablen. Diese Abhängigkeit wird als umgekehrt proportionale Abhängigkeit bezeichnet.

Im Allgemeinen lautet die Formel zur Berechnung des Korrelationskoeffizienten:

(7)

Wo X ich- Werte aus Probe X,

y i- in Probe Y akzeptierte Werte;

Durchschnitt für X, - Durchschnitt für Y.

Bei der Berechnung des Pearson-Korrelationskoeffizienten wird davon ausgegangen, dass die Variablen X und Y verteilt sind Bußgeld.

Formel (7) enthält die Menge wenn geteilt durch N (die Anzahl der Werte der Variablen X oder Y) heißt es Kovarianz. Formel (7) geht außerdem davon aus, dass bei der Berechnung von Korrelationskoeffizienten die Anzahl der Werte der Variablen X gleich der Anzahl der Werte der Variablen ist Y.

Anzahl der Freiheitsgrade k = n -2.

Beispiel 3. 10 Schulkinder erhielten Tests zum visuell-figurativen und verbalen Denken. Die durchschnittliche Zeit zur Lösung von Testaufgaben wurde in Sekunden gemessen. Den Forscher interessiert die Frage: Gibt es einen Zusammenhang zwischen der Zeit, die zur Lösung dieser Probleme benötigt wird? Variable X bezeichnet die durchschnittliche Zeit für die Lösung visuell-figurativer Aufgaben und Variable Y bezeichnet die durchschnittliche Zeit für die Lösung verbaler Testaufgaben.

Lösung. Stellen wir die Ausgangsdaten in Form von Tabelle 4 dar, die zusätzliche Spalten enthält, die für die Berechnung mit Formel (7) erforderlich sind.

Tabelle 4

Anzahl der Fächer

X

x i -

(x i - ) 2

j i -

(y i -) 2

16,7

278,89

51,84

120,24

13,69

17,2

295,84

63,64

7,29

51,84

19,44

68,89

14,44

31,54

59,29

7,84

21,56

0,49

46,24

4,76

10,89

17,64

13,86

10,89

51,84

23,76

68,89

10,8

116,64

89,64

68,89

18,8

353,44

156,04

Summe

357

242

588,1

1007,6

416,6

Durchschnitt

35,7

24,2

Den empirischen Wert des Korrelationskoeffizienten berechnen wir nach Formel (7):

Wir ermitteln die kritischen Werte für den erhaltenen Korrelationskoeffizienten gemäß der Tabelle in Anhang 3. Bei der Ermittlung der kritischen Werte für den berechneten linearen Pearson-Korrelationskoeffizienten wird die Anzahl der Freiheitsgrade als k = berechnet n – 2 = 8.

k krit = 0,72 > 0,54, daher wird die Hypothese H 1 abgelehnt und die Hypothese akzeptiert H 0 , mit anderen Worten, der Zusammenhang zwischen dem Zeitpunkt der Lösung visuell-figurativer und verbaler Testaufgaben ist nicht nachgewiesen.

7.3 Regressionsanalyse

Hierbei handelt es sich um eine Gruppe von Methoden, die darauf abzielen, die Veränderungen und Abhängigkeiten, die in einem System von Zufallsvariablen auftreten, zu identifizieren und mathematisch auszudrücken. Wenn ein solches System ein pädagogisches modelliert, dann werden durch die Regressionsanalyse folglich psychologische und pädagogische Phänomene und die Abhängigkeiten zwischen ihnen identifiziert und mathematisch ausgedrückt. Die Eigenschaften dieser Phänomene werden auf verschiedenen Skalen gemessen, was den Methoden des mathematischen Ausdrucks von Veränderungen und Abhängigkeiten, die vom Lehrer-Forscher untersucht werden, Einschränkungen auferlegt.

Methoden der Regressionsanalyse sind in erster Linie für den Fall einer stabilen Normalverteilung konzipiert, bei der Änderungen von Versuch zu Versuch nur in Form unabhängiger Versuche auftreten.

Es werden verschiedene formale Probleme der Regressionsanalyse identifiziert. Sie können hinsichtlich Formulierung, mathematischen Mitteln und Arbeitsintensität einfach oder komplex sein. Lassen Sie uns diejenigen auflisten und anhand von Beispielen betrachten, die die wichtigsten zu sein scheinen.

Die erste Aufgabe ist Identifizieren Sie die Tatsache der Variabilität das Phänomen wird unter bestimmten, aber nicht immer klar festgelegten Bedingungen untersucht. In der vorherigen Vorlesung haben wir dieses Problem bereits mithilfe parametrischer und nichtparametrischer Kriterien gelöst.

Zweite Aufgabe - einen Trend erkennen als periodische Änderung eines Merkmals. Dieses Merkmal selbst kann von der Bedingungsvariablen abhängen oder auch nicht (es kann von Bedingungen abhängen, die der Forscher nicht kennt oder nicht kontrollieren kann). Dies ist jedoch für die betrachtete Aufgabe nicht wichtig, die sich nur auf die Identifizierung des Trends und seiner Merkmale beschränkt.

Mithilfe des Abbe-Kriteriums können Hypothesen über das Fehlen oder Vorhandensein eines Trends getestet werden . Abbe-Kriterium Entwickelt, um Hypothesen über die Gleichheit der für 4 aufgestellten Durchschnittswerte zu testen

Der empirische Wert des Abbe-Kriteriums berechnet sich nach der Formel:

(8)

wo ist das arithmetische Mittel der Stichprobe;

P– Anzahl der Werte in der Stichprobe.

Gemäß dem Kriterium wird die Hypothese der Gleichheit der Mittelwerte abgelehnt (die Alternativhypothese wird akzeptiert), wenn der Wert der Statistik ist. Der tabellarische (kritische) Wert der Statistik wird aus der Tabelle für Abbes q-Kriterium ermittelt, die mit Abkürzungen dem Buch von L.N. entlehnt ist. Bolysheva und N.V. Smirnova (siehe Anhang 3).

Solche Größen, auf die das Abbe-Kriterium anwendbar ist, können Stichprobenanteile oder -prozentsätze, arithmetische Mittelwerte und andere Statistiken von Stichprobenverteilungen sein, wenn sie nahezu normal sind (oder zuvor normalisiert wurden). Daher kann das Abbe-Kriterium in der psychologischen und pädagogischen Forschung breite Anwendung finden. Betrachten wir ein Beispiel für die Identifizierung eines Trends mithilfe des Abbe-Kriteriums.

Beispiel 4.In der Tabelle In Abb. 5 zeigt die Dynamik des Studierendenanteils IV Studiengang, der während seiner 10-jährigen Tätigkeit an einer Fakultät der Universität Prüfungen in den Wintersemestern mit „sehr gut“ bestanden hat. Es ist festzustellen, ob eine Tendenz zur Steigerung der Studienleistungen besteht.

Tabelle 5. Dynamik des Prozentsatzes exzellenter Studierender im vierten Studienjahr über 10 Jahre Tätigkeit der Fakultät

Schuljahr

1995-96

10,8

1996-97

16,4

1997-98

17,4

1998-99

22,0

1999-00

23,0

2000-01

21,5

2001-02

26,1

2002-03

17,2

2003-04

27,5

2004-05

33,0

Als Null Wir testen die Hypothese über das Fehlen eines Trends, also über die Gleichheit der Prozentsätze.

Wir mitteln die in der Tabelle angegebenen Prozentsätze. 5 finden wir, dass =21,5. Wir berechnen die Differenzen zwischen nachfolgenden und vorherigen Werten in der Stichprobe, quadrieren sie und summieren sie:

Berechnet auf ähnliche Weise den Nenner in Formel (8), indem er die Quadrate der Differenzen zwischen den einzelnen Messungen und dem arithmetischen Mittel summiert:

Mit Formel (8) erhalten wir nun:

In der Abbe-Kriterientabelle aus Anhang 3 stellen wir fest, dass bei n = 10 und einem Signifikanzniveau von 0,05 der kritische Wert größer als der von uns erhaltene Wert von 0,41 ist, daher muss die Hypothese über die Gleichheit des Prozentsatzes „exzellenter Studierender“ vorliegen abgelehnt, und wir können die Alternativhypothese über das Vorhandensein eines Trends akzeptieren.

Die dritte Aufgabe ist Identifizieren eines Musters, ausgedrückt in Form einer Korrelationsgleichung (Regression).

Beispiel 5.Der estnische Forscher J. Mikk, der die Schwierigkeiten beim Verstehen von Texten untersuchte, entwickelte eine „Lesbarkeitsformel“, bei der es sich um eine multiple lineare Regression handelt:

Beurteilung der Schwierigkeit, den Text zu verstehen,

wobei x 1 die Länge unabhängiger Sätze in der Anzahl der gedruckten Zeichen ist,

x 2 - Prozentsatz verschiedener unbekannter Wörter,

x 3 - Abstraktheit sich wiederholender Konzepte, ausgedrückt durch Substantive .

Vergleicht man die Regressionskoeffizienten, die den Grad des Einflusses von Faktoren ausdrücken, erkennt man, dass die Schwierigkeit, einen Text zu verstehen, in erster Linie von seiner Abstraktheit bestimmt wird. Die Schwierigkeit, den Text zu verstehen, hängt halb so stark (0,27) von der Anzahl der unbekannten Wörter ab und hängt praktisch überhaupt nicht von der Länge des Satzes ab.