Дисперсійний аналіз. Багатофакторний дисперсійний аналіз Модель дисперсійного аналізу компоненти дисперсії

Дисперсійний аналіз

1. Поняття дисперсійного аналізу

Дисперсійний аналіз- це аналіз мінливості ознаки під впливом будь-яких контрольованих змінних факторів У зарубіжній літературі дисперсійний аналіз часто позначається як ANOVA, що перекладається як аналіз варіативності (Analysis of Variance).

Завдання дисперсійного аналізуполягає в тому, щоб із загальної варіативності ознаки виокремити варіативність іншого роду:

а) варіативність обумовлену дією кожної із досліджуваних незалежних змінних;

б) варіативність, обумовлену взаємодією досліджуваних незалежних змінних;

в) випадкову варіативність, обумовлену усіма іншими невідомими змінними.

Варіативність, обумовлена ​​дією досліджуваних змінних та його взаємодією, співвідноситься з випадковою варіативністю. Показником цього співвідношення є критерій Фішера F.

До формули розрахунку критерію F входять оцінки дисперсій, тобто параметрів розподілу ознаки, тому критерій F є параметричним критерієм.

Чим більшою мірою варіативність ознаки обумовлена ​​досліджуваними змінними (факторами) або їх взаємодією, тим вище емпіричні значення критерію.

Нульова гіпотеза в дисперсійному аналізі буде говорити, що середні величини досліджуваного результативного ознаки у всіх градаціях однакові.

Альтернативна гіпотеза стверджуватиме, що середні величини результативної ознаки в різних градаціях досліджуваного фактора різні.

Дисперсійний аналіз дозволяє нам констатувати зміну ознаки, але при цьому не вказує напрямокцих змін.

почнемо розгляд дисперсійного аналізу з найпростішого випадку, коли досліджується лише дія однієїзмінної (одного чинника).

2. Однофакторний дисперсійний аналіз для непов'язаних вибірок

2.1. Призначення методу

Метод однофакторного дисперсійного аналізу застосовується в тих випадках, коли досліджуються зміни результативної ознаки під впливом умов, що змінюються або градацій будь-якого фактора. В даному варіанті методу впливу кожної з градацій фактора піддаються різнівибірки піддослідних. Градацій фактора має бути не менше трьох. (Градацій може бути і дві, але в цьому випадку ми не зможемо встановити нелінійних залежностей і розумнішим є використання більш простих).

Непараметричним варіантом цього виду аналізу є критерій Н Крускала-Уолліса.

Гіпотези

H 0: Відмінності між градаціями фактора (різними умовами) не більш вираженими, ніж випадкові відмінності всередині кожної групи.

H 1: Відмінності між градаціями фактора (різними умовами) більш вираженими, ніж випадкові відмінності всередині кожної групи.

2.2. Обмеження методу однофакторного дисперсійного аналізу для непов'язаних вибірок

1. Однофакторний дисперсійний аналіз вимагає не менше трьох градацій фактора і не менше двох випробуваних у кожній градації.

2. Результативна ознака має бути нормально розподілена в досліджуваній вибірці.

Правда, зазвичай не вказується, чи йдеться про розподіл ознаки у всій обстеженій вибірці або в тій її частині, яка складає дисперсійний комплекс.

3. Приклад розв'язання задачі методом однофакторного дисперсійного аналізу для незв'язаних вибірок на прикладі:

Три різні групи із шести піддослідних отримали списки з десяти слів. Першій групі слова пред'являлися з низькою швидкістю -1 слово в 5 секунд, другий групі із середньою швидкістю - 1 слово в 2 секунди, і третій групі з великою швидкістю - 1 слово в секунду. Було передбачено, що показники відтворення залежатимуть від швидкості слів. Результати представлені у Табл. 1.

Кількість відтворених слів Таблиця 1

№ випробуваного

низька швидкість

Середня швидкість

висока швидкість

Загальна сума

H 0: Відмінність обсягу відтворення слів міжгрупами не більш вираженими, ніж випадкові відмінності всерединікожної групи.

H 1: Відмінності обсягом відтворення слів міжгрупами є більш вираженими, ніж випадкові відмінності всерединікожної групи. Використовуючи експериментальні значення, подані в Табл. 1, встановимо деякі величини, які будуть необхідні розрахунку критерію F.

Розрахунок основних величин для однофакторного дисперсійного аналізу подамо в таблиці:

Таблиця 2

Таблиця 3

Послідовність операцій в однофакторному дисперсійному аналізі для непов'язаних вибірок

Часто зустрічається в цій та наступних таблицях позначення SS - скорочення від "суми квадратів" (sum of squares). Це скорочення найчастіше використовується у перекладних джерелах.

SS фактозначає варіативність ознаки, обумовлену дією фактора, що досліджується;

SS заг- загальну варіативність ознаки;

S CA-варіативність, обумовлену неврахованими факторами, "випадкову" або "залишкову" варіативність.

MS- "Середній квадрат", або математичне очікування суми квадратів, усереднена величина відповідних SS.

df - Число ступенів свободи, яке при розгляді непараметричних критеріїв ми позначили грецькою літерою v.

Висновок: H0 відхиляється. Приймається H1. Відмінності обсягом відтворення слів між групами є більш вираженими, ніж випадкові відмінності всередині кожної групи (α=0,05). Отже, швидкість пред'явлення слів впливає обсяг їхнього відтворення.

Приклад вирішення задачі в Excel наведено нижче:

Вихідні дані:

Використовуючи команду: Сервіс->Аналіз даних->Однофакторний дисперсійний аналіз, отримаємо наступні результати:

Як було вже зазначено, дисперсійний метод тісно пов'язаний зі статистичними угрупованнями і передбачає, що сукупність, що вивчається, підрозділена на групи за факторними ознаками, вплив яких повинен бути вивчений.

На основі дисперсійного аналізу проводиться:

1. оцінка достовірності відмінностей у групових середніх за однією факторною ознакою або декількома;

2. оцінка достовірності взаємодій факторів;

3. оцінка приватних відмінностей між середніми парами.

В основі застосування дисперсійного аналізу лежить закон розкладання дисперсій (варіацій) ознаки на складові.

Загальна варіація D про результативну ознаку при угрупуванні може бути розкладена на наступні складові:

1. на міжгрупову D м пов'язану з групувальною ознакою;

2. на залишкову(внутрішньогрупову) D B , не пов'язану з групувальною ознакою.

Співвідношення між цими показниками виражається так:

D про = D м + D ст. (1.30)

Розглянемо застосування дисперсійного аналізу з прикладу.

Припустимо, потрібно довести, чи терміни посіву впливають на врожайність пшениці. Вихідні дослідні дані дисперсійного аналізу представлені в табл. 8.

Таблиця 8

У цьому прикладі N = 32, K = 4, l = 8.

Визначимо загальну сумарну варіацію врожайності, яка є сумою квадратів відхилень індивідуальних значень ознаки від загальної середньої:

де N - Число одиниць сукупності; Y i - Індивідуальні значення врожайності; Y o - загальна середня врожайність по всій сукупності.

Для визначення міжгрупової сумарної варіації, що визначає варіацію результативної ознаки за рахунок фактора, що вивчається, необхідно знати середні значення результативної ознаки по кожній групі. Ця сумарна варіація дорівнює сумі квадратів відхилень групових середніх величин від загальної середньої величини ознаки, виваженої на число одиниць сукупності в кожній із груп:

Внутрішньогрупова сумарна варіація дорівнює сумі квадратів відхилень індивідуальних значень ознаки від групових середніх за кожною групою, що підсумовується за всіма групами сукупності.

Вплив фактора на результативну ознаку проявляється у співвідношенні між D м і D в: чим сильніший вплив фактора на величину досліджуваної ознаки, тим більше D м і менше D в.

Для проведення дисперсійного аналізу необхідно встановити джерела варіювання ознаки, обсяг варіації за джерелами, визначити кількість ступенів свободи кожної компоненти варіації.

Обсяг варіації вже встановлено, тепер необхідно визначити кількість ступенів волі варіації. Число ступенів свободи - Це число незалежних відхилень індивідуальних значень ознаки від його середнього значення. Загальна кількість ступенів свободи, що відповідає загальній сумі квадратів відхилень у дисперсійному аналізі, розкладається за складовими варіації. Так, загальній сумі квадратів відхилень D о відповідає число ступенів свободи варіації, що дорівнює N – 1 = 31. Груповій варіації D м відповідає число ступенів свободи варіації, що дорівнює K – 1 = 3. K=28.


Тепер, знаючи суми квадратів відхилень та кількість ступенів свободи, можна визначити дисперсії для кожної складової. Позначимо ці дисперсії: d м – групові та d у – внутрішньогрупові.

Після обчислення цих дисперсій приступимо до встановлення значущості впливу фактора на результативну ознаку. Для цього знаходимо відношення: d M / d B = F ф,

Величина F ф, звана критерієм Фішера , Порівнюється з табличним, F табл. Як було зазначено, якщо F ф > F табл, вплив чинника на результативний ознака доведено. Якщо F ф< F табл то можно утверждать, что различие между дисперсиями находится в пределах возможных случайных колебаний и, следовательно, не доказывает с достаточной вероятностью влияние изучаемого фактора.

Теоретична величина пов'язана з ймовірністю, і в таблиці її значення наводиться за певного рівня ймовірності судження. У додатку є таблиця, що дозволяє встановити можливу величину F при ймовірності судження, що найчастіше використовується: рівень ймовірності «нульової гіпотези» – 0,05. Замість ймовірностей «нульової гіпотези» таблицю можна назвати таблицею для ймовірності 0,95 суттєвості впливу фактора. Підвищення рівня ймовірності вимагає порівняння вищого значення F табл.

Величина F табл залежить також від числа ступенів свободи двох дисперсій, що порівнюються. Якщо число ступенів свободи прагне нескінченності, то F табл прагне одиниці.

Таблиця значень F табл побудована наступним чином: у стовпцях таблиці вказано ступеня свободи варіації для більшої дисперсії, а в рядках – ступеня свободи для меншої (внутрішньогрупової) дисперсії. Величина F знаходиться на перетині стовпця та рядки відповідних ступенів свободи варіації.

Так, у прикладі F ф = 21,3/3,8 = 5,6. Табличне значення F табл для ймовірності 0,95 і ступенів свободи, відповідно рівних 3 і 28, F табл = 2,95.

Значення F ф отримане досвіді, перевищує теоретичне значення навіть ймовірності 0,99. Отже, досвід із ймовірністю понад 0,99 доводить вплив досліджуваного чинника на врожайність, т. е. досвід вважатимуться надійним, доведеним, отже, терміни посіву істотно впливають на врожайність пшениці. Оптимальним терміном посіву слід вважати період з 10 по 15 травня, тому що саме при цьому строку посіву отримано найкращі результати врожайності.

Нами розглянуто методику дисперсійного аналізу при групуванні за однією ознакою та випадковим розподілом повторностей усередині групи. Однак часто буває так, що дослідна ділянка має якісь відмінності в родючості ґрунту і т. д. Тому може виникнути така ситуація, що більша кількість ділянок одного з варіантів потрапить на кращу частину, і її показники будуть завищені, а іншого варіанта – на найгіршу частину, і результати в цьому випадку, природно, будуть гіршими, тобто занижені.

Щоб виключити варіювання, яке викликається причинами, що не належать до досвіду, треба з внутрішньогрупової (залишкової) дисперсії вичленувати дисперсію, розраховану за повторностями (блоками).

Загальна сума квадратів відхилень поділяється в цьому випадку вже на 3 складові:

D про = D м + D повт + D зуп. (1.33)

Для нашого прикладу сума квадратів відхилень, викликана повторностями, дорівнюватиме:

Отже, що випадкова сума квадратів відхилень дорівнюватиме:

D ост = D в - D повт; D зост = 106 - 44 = 62.

Для залишкової дисперсії число ступенів свободи дорівнюватиме 28 – 7 = 21. Результати дисперсійного аналізу представлені у табл. 9.

Таблиця 9

Оскільки фактичні значення F-критерію для ймовірності 0,95 перевищують табличні, вплив строків посіву і повторностей на врожайність пшениці слід вважати істотним. Розглянутий спосіб побудови досвіду, коли ділянка попередньо ділиться на блоки з відносно вирівняними умовами, а варіанти, що перевіряються, розподіляються всередині блоку у випадковому порядку, називається способом рендомізованих блоків.

За допомогою аналізу дисперсійним методом можна вивчити вплив як одного чинника на результат, а двох і більше. Дисперсійний аналіз у цьому випадку називатиметься багатофакторним дисперсійним аналізом .

Двофакторний дисперсійний аналіз відрізняється від двох однофакторних тим, що він може відповісти на такі питання:

1. 1який вплив обох факторів разом?

2. яка роль поєднання цих факторів?

Розглянемо дисперсійний аналіз досвіду, у якому слід виявити вплив як термінів посіву, а й сортів на врожайність пшениці (табл. 10).

Таблиця 10. Дані досвіду щодо впливу строків посіву та сортів на врожайність пшениці

- Це сума квадратів відхилень індивідуальних значень від загальної середньої.

Варіація по спільному впливу строків посіву та сорту

– це сума квадратів відхилень середніх по підгрупах від загальної середньої, зважених число повторностей, т. е. на 4.

Обчислення варіації щодо впливу лише строків посіву:

Залишкова варіація визначається як різниця між загальною варіацією та варіацією щодо спільного впливу досліджуваних факторів:

D ост = D про - D пс = 170 - 96 = 74.

Усі розрахунки можна оформити як таблиці (табл. 11).

Таблиця 11. Результати дисперсійного аналізу

Результати дисперсійного аналізу показують, що вплив факторів, що вивчаються, тобто термінів посіву і сорту, на врожайність пшениці суттєво, оскільки F-критерії фактичні по кожному з факторів значно перевищують табличні, знайдені для відповідних ступенів свободи, і при цьому з досить високою ймовірністю (р = 0,99). Вплив поєднання чинників у разі відсутня, оскільки чинники незалежні друг від друга.

Аналіз впливу трьох факторів на результат ведеться за таким же принципом, що і для двох факторів, тільки в цьому випадку три дисперсії за факторами і чотири дисперсії по поєднанню факторів. Зі збільшенням числа факторів різко збільшується обсяг розрахункових робіт і, крім того, важко оформляти вихідну інформацію в комбінаційну таблицю. Тому навряд чи доцільно вивчати вплив багатьох факторів на результат із використанням дисперсійного аналізу; краще взяти менше їх число, але вибрати найбільш істотні чинники з погляду економічного аналізу.

Нерідко досліднику доводиться мати справу з так званими непропорційними дисперсійними комплексами, тобто такими, в яких не дотримується пропорційності чисельностей варіантів.

У таких комплексах варіація сумарної дії факторів не дорівнює сумі варіації за факторами та варіації поєднання факторів. Вона відрізняється на величину, яка залежить від ступеня зв'язків між окремими факторами, що виникають унаслідок порушення пропорційності.

І тут виникають труднощі щодо ступеня впливу кожного чинника, оскільки сума приватних впливів не дорівнює сумарному впливу.

p align="justify"> Одним із способів приведення непропорційного комплексу до єдиної структури є спосіб його заміни пропорційним комплексом, в якому частоти усереднені по групах. Коли така заміна зроблена, завдання вирішується за принципами пропорційних комплексів.

Дисперсійний аналіз є сукупність статистичних методів, призначених для перевірки гіпотез про зв'язок між певними ознаками та досліджуваними факторами, які не мають кількісного опису, а також для встановлення ступеня впливу факторів та їхньої взаємодії. У спеціальній літературі часто називають ANOVA (від англомовної назви Analysis of Variations). Вперше цей метод був розроблений Р. Фішером у 1925 р.

Види та критерії дисперсійного аналізу

Цей метод використовується для дослідження зв'язку між якісними (номінальними) ознаками та кількісною (безперервною) змінною. По суті, він здійснює тестування гіпотези про рівність середніх арифметичних кількох вибірок. Таким чином, його можна розглядати як параметричний критерій для порівняння центрів кількох вибірок. Якщо використовувати цей метод для двох вибірок, результати дисперсійного аналізу будуть ідентичні результатам t-критерію Стьюдента. Проте, на відміну інших критеріїв, це дослідження дозволяє вивчити проблему детальніше.

Дисперсійний аналіз у статистиці базується на законі: сума квадратів відхилень об'єднаної вибірки дорівнює сумі квадратів внутрішньогрупових відхилень та сумі квадратів міжгрупових відхилень. Для дослідження використовується критерій Фішера для встановлення значущості відмінності міжгрупових дисперсій від внутрішньогрупових. Однак для цього необхідними передумовами є нормальність розподілу та гомоскедастичність (рівність дисперсій) вибірок. Розрізняють одномірний (однофакторний) дисперсійний аналіз та багатовимірний (багатофакторний). Перший розглядає залежність досліджуваної величини від однієї ознаки, другий - відразу від багатьох, а також дозволяє виявити зв'язок між ними.

Чинники

Чинниками називають контрольовані обставини, що впливають на кінцевий результат. Його рівнем чи способом обробки називають значення, що характеризує конкретний прояв цієї умови. Ці цифри зазвичай подають у номінальній чи порядковій шкалі вимірювань. Часто вихідні значення вимірюють у кількісних чи порядкових шкалах. Тоді виникає проблема угруповання вихідних даних у низці спостережень, що відповідають приблизно однаковим числовим значенням. Якщо кількість груп взяти надмірно більшим, то кількість спостережень у них може виявитися недостатньою для отримання надійних результатів. Якщо брати число надмірно малим, це може призвести до втрати істотних особливостей впливу системи. Конкретний спосіб угруповання даних залежить від обсягу та характеру варіювання значень. Кількість та розміри інтервалів при однофакторному аналізі найчастіше визначають за принципом рівних проміжків або за принципом рівних частот.

Завдання дисперсійного аналізу

Отже, існують випадки коли потрібно порівняти дві або більше вибірок. Саме тоді й доцільне застосування дисперсійного аналізу. Назва методу свідчить про те, що висновки роблять з урахуванням дослідження складових дисперсії. Суть вивчення полягає в тому, що загальну зміну показника розбивають на складові, що відповідають дії кожного окремо взятого фактора. Розглянемо низку завдань, які вирішує типовий дисперсійний аналіз.

Приклад 1

У цеху є ряд верстатів – автоматів, які виготовляють певну деталь. Розмір кожної деталі - це випадкова величина, яка залежить від налаштування кожного верстата та випадкових відхилень, що виникають у процесі виготовлення деталей. Потрібно за даними вимірів розмірів деталей визначити, чи однаково налаштовані верстати.

Приклад 2

Під час виготовлення електричного апарату використовують різні типи ізоляційного паперу: конденсаторний, електротехнічний та ін. Апарат можна просочити різними речовинами: епоксидною смолою, лаком, смолою МЛ-2 та ін. Просочувати можна методом занурення в лак, під безперервним струменем лаку і т. п. Електричний апарат загалом заливають певним компаундом, варіантів якого є кілька. Показниками якості є електрична міцність ізоляції, температура перегріву обмотки в робочому режимі та інші. Під час відпрацювання технологічного процесу виготовлення апаратів треба визначити, як впливає кожен із перерахованих факторів на показники апарату.

Приклад 3

Тролейбусне депо обслуговує кілька тролейбусних маршрутів. На них працюють тролейбуси різних типів і оплату за проїзд збирають 125 контролерів. Керівництво депо цікавить питання: як порівняти економічні показники роботи кожного контролера (виручку) з огляду на різні маршрути, різні типи тролейбусів? Як визначити економічну доцільність випуску тролейбусів певного типу на той чи інший маршрут? Як встановити обґрунтовані вимоги до величини виручки, яку приносить кондуктор на кожному маршруті в різних типах тролейбусів?

Завдання на вибір методу полягає в тому, як отримати максимум інформації щодо впливу на кінцевий результат кожного фактора, визначити числові характеристики такого впливу, їх надійність за мінімальних витрат і за максимально короткий час. Вирішити такі завдання дозволяють методи дисперсійного аналізу.

Однофакторний аналіз

Дослідження своєю метою ставить оцінку величини впливу конкретного випадку на аналізований відгук. Іншим завданням однофакторного аналізу може бути порівняння двох або кількох обставин один з одним з метою визначення різниці їхнього впливу на відгук. Якщо нульову гіпотезу відкидають, то наступним етапом буде кількісне оцінювання та побудова довірчих інтервалів для одержаних характеристик. У разі коли нульова гіпотеза не може бути відкинутою, зазвичай її приймають і роблять висновок про сутність впливу.

Однофакторний дисперсійний аналіз може стати непараметричним аналогом рангового методу Фаркела-Уолліса. Він розроблений американськими математиком Вільямом Краскелом та економістом Вільсоном Уоллісом у 1952 р. Цей критерій призначений для перевірки нульової гіпотези про рівність ефектів впливу на досліджувані вибірки з невідомими, але рівними середніми величинами. При цьому кількість вибірок має бути більшою за дві.

Критерій Джонкхієра (Джонкхієра-Терпстра) був запропонований незалежно один від одного нідерландським математиком Т. Дж. Терпстром у 1952 р. та британським психологом Є. Р. Джонкхієром у 1954 р. Його застосовують тоді, коли заздалегідь відомо, що наявні групи результатів упорядковані за зростання впливу досліджуваного фактора, який вимірюють у порядковій шкалі.

М - критерій Бартлетта, запропонований британським статистиком Мауріс Стівенсон Бартлетт в 1937 р., застосовують для перевірки нульової гіпотези про рівність дисперсій кількох нормальних генеральних сукупностей, з яких взяті досліджувані вибірки, в загальному випадку мають різні обсяги (число кожної вибірки повинно бути ).

G – критерій Кохрена, який відкрив американець Вільям Геммел Кохрен у 1941 р. Його використовують для перевірки нульової гіпотези про рівність дисперсій нормальних генеральних сукупностей із незалежних вибірок рівного обсягу.

Непараметричний критерій Левен, запропонований американським математиком Ховардом Левен в 1960 р., є альтернативою критерію Бартлетта в умовах, коли немає впевненості в тому, що досліджувані вибірки підпорядковуються нормальному розподілу.

У 1974 р. американські статистики Мортон Б. Браун та Алан Б. Форсайт запропонували тест (критерій Брауна-Форсайта), який дещо відрізняється від критерію Левене.

Двофакторний аналіз

Двофакторний дисперсійний аналіз застосовують для пов'язаних нормально розподілених вибірок. Насправді часто використовують і складні таблиці цього, зокрема ті, у яких кожна осередок містить набір даних (повторні виміри), відповідних фіксованим значенням рівнів. Якщо припущення, необхідні застосування двофакторного дисперсійного аналізу, не виконуються, то використовують непараметричний ранговий критерій Фрідмана (Фрідмана, Кендалла і Сміта), розроблений американським економістом Мілтоном Фрідманом наприкінці 1930 р. Цей критерій залежить від типу розподілу.

Передбачається тільки, що розподіл величин є однаковим і безперервним, а вони самі незалежні одна від одної. При перевірці нульової гіпотези вихідні дані подають у формі прямокутної матриці, в якій рядки відповідають рівням фактора В, а стовпці - рівням А. Кожна комірка таблиці (блоку) може бути результатом вимірювань параметрів на одному об'єкті або групі об'єктів при постійних значеннях рівнів обох факторів . У цьому випадку відповідні дані подають як середні значення певного параметра за всіма вимірами або об'єктами досліджуваної вибірки. Для застосування критерію вихідних даних необхідно перейти від безпосередніх результатів вимірювань до їхнього рангу. Ранжування здійснюють по кожному рядку окремо, тобто величини впорядковують кожного фіксованого значення.

Критерій Пейджа (L-критерій), запропонований американським статистиком Е. Б. Пейджем у 1963 р., призначений для перевірки нульової гіпотези. Для більших вибірок застосовують апроксимацію Пейджа. Вони за умови реальності відповідних нульових гіпотез підпорядковуються стандартному нормальному розподілу. У разі, коли у рядках вихідної таблиці є однакові значення, необхідно використовувати середні ранги. При цьому точність висновків буде гіршою, чим більше буде кількостей таких збігів.

Q - критерій Кохрена, запропонований В. Кохреном в 1937 р. Його використовують у випадках, коли групи однорідних суб'єктів піддаються впливам, кількість яких перевищує два і для яких можливі два варіанти відгуків - умовно-негативний (0) та умовно-позитивний (1) . Нульова гіпотеза складається з рівності ефектів впливу. Двофакторний дисперсійний аналіз дає можливість визначити існування ефектів обробки, проте не дає можливості встановити, для яких саме стовпців існує цей ефект. При вирішенні цієї проблеми застосовують метод множинних рівнянь Шеффе для пов'язаних вибірок.

Багатофакторний аналіз

Завдання багатофакторного дисперсійного аналізу виникає тоді, коли потрібно визначити вплив двох чи більше умов на певну випадкову величину. Дослідження передбачає наявність однієї залежної випадкової величини, виміряної в шкалі різниці або відносин, та кількох незалежних величин, кожна з яких виражена в шкалі найменувань або ранговій. Дисперсійний аналіз даних є досить розвиненим розділом математичної статистики, що має безліч варіантів. Концепція дослідження загальна як однофакторного, так багатофакторного. Сутність її полягає в тому, що загальну дисперсію розбивають на складові, що відповідає певному угрупованню даних. Кожному угрупованню даних відповідає своя модель. Тут ми розглянемо лише основні положення, необхідні розуміння і практичного використання найбільш застосовуваних його варіантів.

Дисперсійний аналіз факторів вимагає досить уважного ставлення до збору та подачі вхідних даних, а особливо до інтерпретації результатів. На відміну від однофакторного, результати якого можна умовно розмістити у певній послідовності, результати двофакторного вимагають складнішого уявлення. Ще складніша ситуація виникає, коли є три, чотири чи більше обставин. Через це модель досить рідко включають більше трьох (чотирьох) умов. Прикладом може бути виникнення резонансу за певної величини ємності та індуктивності електричного кола; прояв хімічної реакції за певної сукупності елементів, у тому числі побудована система; виникнення аномальних ефектів у складних системах за певного збігу обставин. Наявність взаємодії може докорінно змінити модель системи та іноді призвести до переосмислення природи явищ, із якими має справу експериментатор.

Багатофакторний дисперсійний аналіз із повторними дослідами

Дані вимірів досить часто можна групувати не за двома, а за більшою кількістю факторів. Так, якщо розглядати дисперсійний аналіз терміну служби покришок коліс тролейбуса з урахуванням обставин (завод-виробник та маршрут, на якому експлуатуються покришки), то можна виділити як окрему умову сезон, під час якого експлуатуються покришки (а саме: зимова та літня експлуатація). У результаті матимемо завдання трифакторного методу.

За наявності більшої кількості умов підхід такий самий, як і у двофакторному аналізі. У всіх випадках модель намагаються спростити. Явище взаємодії двох чинників проявляється негаразд часто, а потрійне взаємодія буває у виняткових випадках. Включають ту взаємодію, для якої є попередня інформація та серйозні підстави, щоб її врахувати у моделі. Процес виділення окремих чинників та їх урахування щодо простий. Тому часто виникає бажання виділити більше обставин. Цим не слід захоплюватися. Чим більше умов, тим менш надійною стає модель і тим більша ймовірність помилки. Сама модель, до якої входить велика кількість незалежних змінних, стає досить складною для інтерпретації та незручною для практичного використання.

Загальна ідея дисперсійного аналізу

Дисперсійний аналіз у статистиці – це метод отримання результатів спостережень, залежних від різних одночасно діючих обставин, та оцінки їхнього впливу. Керовану змінну величину, яка відповідає способу впливу на об'єкт дослідження і в деякий період часу набуває певного значення, називають фактором. Вони можуть бути якісними та кількісними. Рівні кількісних умов набувають певного значення на числовій шкалі. Прикладами є температура, тиск пресування, кількість речовини. Якісні фактори – це різні речовини, різні технологічні способи, апарати, наповнювачі. Їхнім рівням відповідає шкала найменувань.

До якісних можна віднести також вид пакувального матеріалу, умови зберігання лікарської форми. Сюди ж раціонально віднести ступінь подрібнення сировини, фракційний склад гранул, що мають кількісне значення, проте погано піддаються регулюванню, якщо використовувати кількісну шкалу. Число якісних факторів залежить від виду лікарської форми, а також фізичних та технологічних властивостей лікарських речовин. Наприклад, кристалічних речовин можна отримувати таблетки прямим пресуванням. У цьому випадку достатньо провести вибір ковзних та змащувальних речовин.

Приклади якісних факторів для різних видів лікарських форм

  • Настоянки.Склад екстрагента, тип екстрактора, спосіб підготовки сировини, спосіб одержання, спосіб фільтрації.
  • Екстракти (рідкі, густі, сухі).Склад екстрагента, спосіб екстракції, тип установки, спосіб видалення екстрагента та баластних речовин.
  • Пігулки.Склад допоміжних речовин, наповнювачі, розпушувачі, сполучні, змащувальні та ковзні речовини. Спосіб отримання пігулок, вид технологічного обладнання. Вид оболонки та її компонентів, плівкоутворювачі, пігменти, барвники, пластифікатори, розчинники.
  • Ін'єкційні розчини.Вид розчинника, спосіб фільтрації, природа стабілізаторів та консервантів, умови стерилізації, спосіб заповнення ампул.
  • Супозиторії.Склад супозиторної основи, спосіб одержання супозиторіїв, наповнювачів, упаковки.
  • Мазі.Склад основи, структурні компоненти, спосіб виготовлення мазі, вид обладнання, упаковка.
  • Капсули.Вид оболонкового матеріалу, спосіб одержання капсул, тип пластифікатора, консерванту, барвника.
  • Лініменти.Спосіб отримання, склад, тип обладнання, тип емульгатора.
  • Суспензії.Вид розчинника, вид стабілізатора, метод диспергування.

Приклади якісних факторів та їх рівнів, що вивчаються у процесі виготовлення таблеток

  • Розпушувач.Крохмаль картопляний, глина біла, суміш натрію гідрокарбонату з лимонною кислотою, магнію карбонат основний.
  • Зв'язуючий розчин.Вода, крохмальний клейстер, цукровий сироп, розчин метилцелюлози, розчин оксипропілметилцелюлози, розчин полівінілпіролідону, розчин полівінілового спирту.
  • Ковзна речовина.Аеросил, крохмаль, тальк.
  • Наповнювач.Цукор, глюкоза, лактоза, хлорид натрію, фосфат кальцію.
  • Змащувальна речовина.Стеаринова кислота, поліетиленгліколь, парафін.

Моделі дисперсійного аналізу у дослідженні рівня конкурентоспроможності держави

Одним із найважливіших критеріїв оцінки стану держави, за якими проводиться оцінка рівня її добробуту та соціально-економічного розвитку, є конкурентоспроможність, тобто сукупність властивостей, властивих національній економіці, які визначають здатність держави конкурувати з іншими країнами. Визначивши місце та роль держави на світовому ринку, можна встановити чітку стратегію забезпечення економічної безпеки у міжнародних масштабах, адже вона є запорукою позитивних взаємин Росії з усіма гравцями світового ринку: інвесторами, кредиторами, урядами держав.

Для порівняння рівня конкурентоспроможності держав проводиться ранжування країн за допомогою комплексних індексів, які включають різні виважені показники. В основу цих індексів закладено ключові фактори, що впливають на економічне, політичне тощо положення. Комплекс моделей дослідження конкурентоспроможності держави передбачає використання методів багатовимірного статистичного аналізу (зокрема, це дисперсійний аналіз (статистика), економетричне моделювання, прийняття рішень) та включає такі основні етапи:

  1. Формування системи показників-індикаторів.
  2. Оцінку та прогнозування індикаторів конкурентоспроможності держави.
  3. Порівняння показників-індикаторів конкурентоспроможності держав.

А тепер розглянемо зміст моделей кожного із етапів даного комплексу.

На першому етапіза допомогою методів експертного вивчення формується обґрунтований комплекс економічних показників-індикаторів оцінки конкурентоспроможності держави з урахуванням специфіки її розвитку на основі міжнародних рейтингів та даних статистичних відділів, що відображають стан системи загалом та її процесів. Вибір цих показників обґрунтований необхідністю відібрати ті з них, які найповніше з точки зору практики дозволяють визначити рівень держави, її інвестиційну привабливість та можливості відносної локалізації існуючих потенційних та реально чинних загроз.

Основні показники-індикатори міжнародних рейтинг-систем – це індекси:

  1. Глобальної конкурентоспроможності (ІГК).
  2. Економічна свобода (ІЕС).
  3. Розвитку людського потенціалу (ІРПП).
  4. Сприйняття корупції (ІВК).
  5. Внутрішніх та зовнішніх загроз (ШВЗЗ).
  6. Потенціалу міжнародного впливу (ІПМВ).

Другий етаппередбачає оцінку та прогнозування індикаторів конкурентоспроможності держави за міжнародними рейтингами для досліджуваних 139 держав світу.

Третій етаппередбачає порівняння умов конкурентоспроможності держав з допомогою методів кореляційно-регресійного аналізу.

Використовуючи результати дослідження можна визначити характер перебігу процесів загалом та за окремими складовими конкурентоспроможності держави; перевірити гіпотезу про вплив факторів та їх взаємозв'язок за відповідного рівня значущості.

Реалізація запропонованого комплексу моделей дозволить не лише оцінити ситуацію, що склалася, рівня конкурентоспроможності та інвестиційної привабливості держав, а й проаналізувати недоліки управління, попередити помилки неправильних рішень, не допустити розвитку кризи в державі.

Однофакторний дисперсійний аналіз.

Поняття та моделі дисперсійного аналізу.

Тема 13. Дисперсійний аналіз

Лекція 1. Запитання:

Дисперсійний аналіз, як метод дослідження, з'явився у роботах Р. Фішера (1918-1935 рр.) у зв'язку з дослідженнями у сільському господарстві для виявлення умов, за яких випробуваний сорт с/г культури дає максимальний урожай. подальший розвиток дисперсійний аналіз отримав у роботах Йєїтса. Дисперсійний аналіз дозволяє відповісти на питання про наявність суттєвого впливу деяких факторів на мінливість фактора, значення якого можна отримати в результаті досвіду. При перевірці статистичних гіпотез передбачається випадковість варіації факторів, що вивчаються. У дисперсійному аналізі один або кілька факторів змінюються заданим чином, причому ці зміни можуть впливати на результати спостережень. Дослідження такого впливу є метою дисперсійного аналізу.

В даний час спостерігається дедалі ширше використання дисперсійного аналізу в економіці, соціології, біології та ін, особливо після появи програмних засобів, що зняли проблеми громіздкості статистичних обчислень.

У практичній діяльності, у різних галузях науки ми часто стикаємося з необхідністю оцінити вплив різних факторів на ті чи інші показники. Часто ці фактори мають якісний характер (наприклад, якісним фактором, що впливає на економічний ефект, може бути введення нової системи управління виробництвом) і тоді дисперсійний аналіз набуває особливої ​​цінності, оскільки стає єдиним статистичним способом дослідження, що дає таку оцінку.

Дисперсійний аналіз дає можливість встановити, чи істотно впливає той чи інший з аналізованих чинників на мінливість ознаки, і навіть визначити кількісно «питому вагу» кожного з джерел мінливості у тому загальної сукупності. Але дисперсійний аналіз дозволяє дати позитивну відповідь лише наявності істотного впливу, інакше питання залишається відкритим і вимагає додаткових досліджень (найчастіше – збільшення кількості дослідів).

У дисперсійному аналізі застосовуються такі терміни.

Фактор (Х) – те, що, як ми вважаємо, має впливати на результат (результативна ознака) Y.

Рівень фактора (або спосіб обробітку, іноді буквально, наприклад – спосіб обробітку ґрунту) – значення (Х, i = 1,2,…I), які може приймати фактор.

Відгук – значення вимірюваної ознаки (величина результату Y).

Техніка дисперсійного аналізу змінюється в залежності від кількості незалежних факторів, що досліджуються. Якщо фактори, що викликають мінливість середнього значення ознаки, належать одному джерелу, ми маємо просте угруповання, або однофакторний дисперсійний аналіз і далі, відповідно, подвійне угруповання – двофакторний дисперсійний аналіз, трифакторний дисперсійний аналіз,…, m-факторний. Чинники багатофакторному аналізі прийнято позначати латинськими літерами: А, У, З т.д.



Завдання дисперсійного аналізу - дослідження впливу тих чи інших факторів (або рівнів факторів) на мінливість середніх значень випадкових величин, що спостерігаються.

Сутність дисперсійного аналізу. Дисперсійний аналіз полягає у виділенні та оцінці окремих факторів, що викликають мінливість. З цією метою проводять розкладання загальної дисперсії часткової сукупності (загальної дисперсії ознаки), що спостерігається, викликаної всіма джерелами мінливості, на складові дисперсії, породжені незалежними факторами. Кожна з цих складових дає оцінку дисперсії , , ..., Викликану конкретним джерелом мінливості, в загальній сукупності. Для перевірки значущості цих складових оцінок дисперсії їх порівнюють із загальною дисперсією у загальній сукупності (за критерієм Фішера).

Наприклад, у двофакторному аналізі ми отримаємо розкладання виду:

Загальна дисперсія досліджуваної ознаки C;

Частка дисперсії, спричинена впливом фактора А;

Частка дисперсії, спричинена впливом фактора;

Частка дисперсії, викликана взаємодією факторів А та В;

Частка дисперсії, викликана неврахованими випадковими причинами (випадкова дисперсія);

У дисперсійному аналізі розглядається гіпотеза: Н 0 - жоден з аналізованих факторів не впливає на мінливість ознаки. Значимість кожної з оцінок дисперсії перевіряється за величиною її відношення до оцінки випадкової дисперсії та порівнюється з відповідним критичним значенням, при рівні значущості a, за допомогою таблиць критичних значень F-розподілу Фішера-Снедекору (додаток 4). Гіпотеза Н 0 щодо того чи іншого джерела мінливості відкидається, якщо F розрах. >F кр. (наприклад, для фактора B: S B 2 /S ε 2 >F кр.).

У дисперсійному аналізі розглядаються експерименти 3-х видів:

а) експерименти, у яких всі фактори мають систематичні (фіксовані) рівні;

б) експерименти, де всі чинники мають випадкові рівні;

в) експерименти, в яких є фактори, що мають випадкові рівні, а також фактори, що мають фіксовані рівні.

Випадки а), б), в) відповідають трьом моделям, що розглядаються у дисперсійному аналізі.

Вихідні дані для дисперсійного аналізу зазвичай подаються у вигляді наступної таблиці:

Номер спостереження j Рівні фактора
А 1 А 2 Ар
X 11 X 21 X p1
X 12 X 22 X p2
X 13 X 23 X p3
. . .
. . .
. . .
n X 1n X 2n X pn
ПІДСУМКИ

Розглянемо одиничний чинник, який приймає р різних рівнів, і припустимо, що у кожному рівні зроблено n спостережень, що дає N=np спостережень. (Обмежимося розглядом першої моделі дисперсійного аналізу – усі фактори мають фіксовані рівні.)

Нехай результати представлені як X ij (i=1,2…,р; j=1,2,…,n).

Передбачається, що для кожного рівня n спостережень є середня, яка дорівнює сумі загальної середньої та її варіації, обумовленої обраним рівнем:

де m – загальна середня;

A i - ефект, зумовлений i - м рівнем фактора;

e ij - варіація результатів усередині окремого рівня фактора. За допомогою члена e ij враховуються всі неконтрольовані фактори.

Нехай спостереження на фіксованому рівні фактора нормально розподілені щодо середнього значення m + A i із загальною дисперсією s 2 .

Тоді (точка замість індексу означає усереднення відповідних спостережень щодо цього індексу):

А.X ij – X.. = (X i . – X..) + (X ij – X i .). (12.3)

Після зведення обох частин рівняння квадрат і підсумовування по i і j отримаємо:

оскільки , але

Інакше суму квадратів можна записати: S = S1 + S2. Величина S 1 обчислюється за відхиленнями p середніх від загальної середньої X., тому S 1 має (p-1) ступенів свободи. Величина S 2 обчислюється за відхиленнями N спостережень від р вибіркових середніх і, отже, має N-р = np - p=p(n-1) ступенів свободи. S має (N-1) ступенів волі. За результатами обчислень будується таблиця дисперсійного аналізу.

Таблиця дисперсійного аналізу

Якщо гіпотеза у тому, що вплив всіх рівнів однаково, справедлива, обидві величини М 1 і М 2 (середні квадрати) будуть незміщеними оцінками s 2 . Отже, гіпотезу можна перевірити, обчисливши відношення (М1/М2) і порівнявши його з F кр. з ν 1 = (р-1) та ν 2 = (N-p) ступенями свободи.

Якщо F розрах. >F кр. , то гіпотеза про незначний вплив чинника на результат спостережень не принимается.

Для оцінки суттєвості відмінностей при F розрах. F табл. обчислюють:

а) помилку досвіду

б) помилку різниці середніх

в) найменшу суттєву різницю

Порівнюючи різницю середніх значень за варіантами з НРР, роблять висновок про суттєвість відмінностей у рівні середніх.

Зауваження. Застосування дисперсійного аналізу передбачає, що:

2) D(ε ij)=σ 2 = const,

3) ij → N (0, σ) або x ij → N (a, σ).

Аналітична статистика

7.1 Дисперсійний аналіз. 2

У цьому варіанті способу впливу кожної з градацій піддаються різні вибірки піддослідних. Градацій фактора має бути не менше трьох.

приклад 1.Три різні групи із шести піддослідних отримали списки з десяти слів. Першій групі слова пред'являлися з низькою швидкістю -1 слово в 5 секунд, другий групі із середньою швидкістю - 1 слово в 2 секунди, і третій групі з великою швидкістю - 1 слово в секунду. Було передбачено, що показники відтворення залежатимуть від швидкості слів. Результати представлені у табл. 1.

Таблиця 1. Кількість відтворених слів (за J. Greene, M D "Olivera, 1989, p. 99)

№ випробуваного

Група 1 низька швидкість

Група 2 середня швидкість

Група 3: висока швидкість

суми

середні

7,17

6,17

4,00

Загальна сума

Дисперсійний однофакторний аналіз дозволяє перевірити гіпотези:

H 0 : відмінності в обсязі відтворення слів міжгрупами не більш вираженими, ніж випадкові відмінності всерединікожної групи

H 1 : Відмінність обсягу відтворення слів міжгрупами є більш вираженими, ніж випадкові відмінності всерединікожної групи.

Послідовність операцій в однофакторному дисперсійному аналізі для непов'язаних вибірок:

1. підрахуємо SS факт- Варіативність ознаки, обумовлену дією досліджуваного фактора. Позначення, що часто зустрічається SS - Скорочення від "суми квадратів" ( sum of squares ). Це скорочення найчастіше використовується в перекладних джерелах (див., наприклад: Глас Дж., Стенлі Дж., 1976).

,(1)

де Т с - сума індивідуальних значень за кожною з умов. Для нашого прикладу 43, 37, 24 (див. табл. 1);

с – кількість умов (градацій) фактора (=3);

n – кількість випробуваних у групі (=6);

N - Загальна кількість індивідуальних значень (=18);

Квадрат загальної суми індивідуальних значень (=104 2 =10816)

Зазначимо різницю між , де всі індивідуальні значення спочатку зводяться у квадрат, та був підсумовуються, і , де індивідуальні значення спочатку підсумовуються отримання загальної суми, та був вже ця сума зводиться у квадрат.

За формулою (1) розрахувавши фактичну варіативність ознаки, отримуємо:

2. підрахуємо SS заг- загальну варіативність ознаки:


(2)

3. підрахуємо випадкову (залишкову) величинуSS сл, обумовлену неврахованими факторами:

(3)

4.кількість ступенів свободиодно:

=3-1=2(4)

5.«Середній квадрат»або усереднена величина відповідних сум квадратів SS дорівнює:

(5)

6. значення статистики критерію F емпрозрахуємо за формулою:

(6)

Для нашого прикладу маємо : F емп =15,72/2,11=7,45

7. визначимо F критза статистичними таблицями Додатки 3для df 1 =k 1 =2 і df 2 =k 2 =15 табличне значення статистики дорівнює 3,68

8. якщо F емп< F крит, то нульова гіпотеза приймається, інакше приймається альтернативна гіпотеза. Для нашого прикладу F емп> F крит (7.45>3.68), отже п

Висновок:відмінності в обсязі відтворення слів між групами є більш вираженими, ніж випадкові відмінності всередині кожної групи (р<0,05). Т.о. скорость предъявления слов влияет на объем их воспроизведения.

7.1.2 Дисперсійний аналіз для пов'язаних вибірок

Метод дисперсійного аналізу для пов'язаних вибірок застосовується у тих випадках, коли досліджується вплив різних градацій фактора чи різних умов на одну й ту саму вибірку піддослідних.Градацій фактора має бути не менше трьох.

У разі відмінності між піддослідними - можливе самостійне джерело відмінностей. Однофакторний дисперсійний аналіз для пов'язаних вибірокдозволить визначити, що переважує - тенденція, виражена кривою зміни чинника, чи індивідуальні різницю між піддослідними. Чинник індивідуальних відмінностей може бути більш значущим, ніж чинник зміни експериментальних умов.

приклад 2.Групу з 5 випробуваних було обстежено за допомогою трьох експериментальних завдань, спрямованих на вивчення інтелектуальної, наполегливості (Сидоренко Є. В., 1984). Кожному випробуваному індивідуально пред'являлися послідовно три однакові анаграми: чотирилітерна, п'ятилітерна і шестилітера. Чи можна вважати, що фактор довжини анаграми впливає тривалість спроб її вирішення?

Таблиця 2. Тривалість розв'язання анаграм (сек)

Код випробуваного

Умова 1. Чотирилітерна анаграма

Умова 2. П'ятилітерна анаграма

Умова 3. шестилітерна анаграма

Суми за випробуваними

суми

1244

1342

Сформулюємо гіпотези. Наборів гіпотез у разі два.

Набір А.

Н 0 (А): Відмінності в тривалості спроб розв'язання анаграм різної довжини не більш вираженими, ніж відмінності, обумовлені випадковими причинами.

Н 1 (А): Відмінності в тривалості спроб розв'язання анаграмразної довжини є більш вираженими, ніж відмінності, зумовлені випадковими причинами.

Набір Б.

Н о (Б): Індивідуальні різницю між випробуваними є трохи більше вираженими, ніж відмінності, обумовлені випадковими причинами.

Н 1 (Б): Індивідуальні різницю між випробуваними є більш вираженими, ніж відмінності, зумовлені випадковими причинами.

Послідовність операцій в однофакторному дисперсійному аналізі для пов'язаних вибірок:

1. підрахуємо SS факт- варіативність ознаки, обумовлену дією досліджуваного фактора за формулою (1).

де Т с - сума індивідуальних значень по кожному з умов (стовпців). Для нашого прикладу 51, 1244, 47 (див. табл. 2); с – кількість умов (градацій) фактора (=3); n – кількість випробуваних у групі (=5); N - Загальна кількість індивідуальних значень (=15); - Квадрат загальної суми індивідуальних значень (=1342 2)

2. підрахуємо SS ісп- варіативність ознаки, обумовлену індивідуальними значеннями випробуваних.

Де Ті - сума індивідуальних значень по кожному випробуваному. Для нашого прикладу 247, 631, 100, 181, 183 (див. табл. 2); с – кількість умов (градацій) фактора (=3); N - Загальна кількість індивідуальних значень (=15);

3. підрахуємо SS заг- загальну варіативність ознаки за формулою (2):


4. підрахуємо випадкову (залишкову) величинуSS сл, обумовлену неврахованими факторами за формулою (3):

5. кількість ступенів свободиодно (4):

; ; ;

6. «Середній квадрат»або математичне очікування суми квадратів,усереднена величина відповідних сум квадратів SS дорівнює (5):

;

7. значення статистики критерію F емпрозрахуємо за формулою (6):

;

8. визначимо F крит за статистичними таблицями Додатка 3 для df 1 =k 1 =2 і df 2 =k 2 =8 табличне значення статистики F крит_факт =4,46, і для df 3 =k 3 =4 і df 2 =k 2 = 8 F крит_ісп =3,84

9. F емп_факт> F крит_факт (6,872>4,46), отже ринімається альтернативна гіпотеза.

10. F емп_ісп < F крит_исп (1,054<3,84), следовательно принимається нульова гіпотеза.

Висновок:відмінності обсягом відтворення слів у різних умовах є більш вираженими, ніж відмінності, обумовлені випадковими причинами (р<0,05).Индивидуальные различия между испытуе­мыми являются не более выраженными, чем различия, обусловленные случайными причинами.

7.2 Кореляційний аналіз

7.2.1 Поняття кореляційного зв'язку

Дослідника нерідко цікавить, як пов'язані між собою дві або більше змінних в одній або кількох досліджуваних вибірках. Наприклад, чи можуть учні з високим рівнем тривожності демонструвати стабільні академічні досягнення, чи пов'язана тривалість роботи вчителя у шкільництві з розміром його заробітної плати, чи чим більше пов'язаний рівень розумового розвитку учнів - з їх успішністю з математики чи з літератури тощо. .?

Такі залежність між змінними величинами називається кореляційної, чи кореляцією. Кореляційна зв'язок- це узгоджена зміна двох ознак, що відображає той факт, що мінливість однієї ознаки знаходиться відповідно до мінливості іншої.

Відомо, наприклад, що в середньому між зростанням людей та їхньою вагою спостерігається позитивний зв'язок, і такий, що чим більше зростання, тим більша вага людини. Однак із цього правила є винятки, коли відносно низькі люди мають надмірну вагу, і, навпаки, астеніки, при високому зростанні мають малу вагу. Причиною подібних винятків і те, кожен біологічний, фізіологічний чи психологічний ознака визначається впливом багатьох чинників: середовищних, генетичних, соціальних, екологічних тощо.

Кореляційні зв'язки - це ймовірні зміни, які можна вивчати тільки на представницьких вибірках методами математичної статистики. «Обидва терміни, – пише Є.В. Сидоренко, - кореляційний зв'язок та кореляційна залежність- Часто використовуються як синоніми. Залежність має на увазі вплив, зв'язок - будь-які узгоджені зміни, які можуть пояснюватися сотнями причин. Кореляційні зв'язки не можуть розглядатися як свідчення причинно-наслідкової залежності, вони свідчать лише про те, що зміни однієї ознаки, як правило, супроводжують певні зміни іншої.

Кореляційна залежність - це зміни, що вносять значення однієї ознаки у ймовірність появи різних значень іншої ознаки (Є.В. Сидоренко, 2000).

Завдання кореляційного аналізу зводиться до встановлення напряму (позитивне або негативне) і форми (лінійний, нелінійний) зв'язок між варіюючими ознаками, вимірювання її тісноти, і, нарешті, до перевірки рівня значущості отриманих коефіцієнтів кореляції.

Кореляційні зв'язки різняться за формою, напрямом та ступенем (силою).

За формоюкореляційний зв'язок може бути прямолінійним або криволінійним. Прямолінійним може бути, наприклад, зв'язок між кількістю тренувань на тренажері та кількістю правильно розв'язуваних завдань у контрольній сесії. Криволінійною може бути, наприклад, зв'язок між рівнем мотивації та ефективністю виконання завдання (див. рис. 1). У разі підвищення мотивації ефективність виконання завдання спочатку зростає, потім досягається оптимальний рівень мотивації, якому відповідає максимальна ефективність виконання завдання; подальшого підвищення мотивації супроводжує зниження ефективності.

Рис.1. Зв'язок між ефективністю розв'язання задачі

і силою мотиваційної тенденції (за J. W. A t k in son, 1974, р 200)

У напрямкукореляційний зв'язок може бути позитивним ("прямий") і негативним ("зворотним"). При позитивній прямолінійній кореляції вищим значенням однієї ознаки відповідають вищі значення іншого, а нижчим значенням однієї ознаки - низькі значення іншого. При негативній кореляції співвідношення обернені. При позитивній кореляції коефіцієнт кореляції має позитивний знак, наприкладr =+0,207, при негативній кореляції - негативний знак, наприкладr =-0,207.

Ступінь, сила чи тіснота Кореляційний зв'язок визначається за величиною коефіцієнта кореляції.

Сила зв'язку не залежить від її спрямованості та визначається за абсолютним значенням коефіцієнта кореляції.

Максимальне можливе абсолютне значення коефіцієнта кореляціїr =1,00; мінімальне r =0,00.

Загальна класифікація кореляційних зв'язків (за Івантером Е.В., Коросову А.В., 1992):

сильна, або тіснапри коефіцієнті кореляціїr >0,70;

середняпри 0,50< r<0,69 ;

помірнапри 0,30< r<0,49 ;

слабкапри 0,20< r<0,29 ;

дуже слабкапри r<0,19 .

Змінні Х та Y можуть бути виміряні в різних шкалах, саме це визначає вибір відповідного коефіцієнта кореляції (див. табл. 3):

Таблиця 3. Використання коефіцієнта кореляції залежно від типу змінних

Тип шкали

міра зв'язку

Змінна X

Змінна У

Інтервальна або відносин

Інтервальна або відносин

Коефіцієнт Пірсона

Рангова, інтервальна або відносин

Коефіцієнт Спірмена

Рангова

Рангова

Коефіцієнт Кендалла

Дихотомічна

Дихотомічна

Коефіцієнт «j»

Дихотомічна

Рангова

Рангово-бісеріальний

Дихотомічна

Інтервальна або відносин

Бісеріальний

7.2.2 Коефіцієнт кореляції Пірсона

Термін «кореляція» був уведений у науку видатним англійським натуралістом Френсісом Гальтоном в 1886 р. Проте точну формулу для підрахунку коефіцієнта кореляції розробив його учень Карл Пірсон.

p align="justify"> Коефіцієнт характеризує наявність тільки лінійного зв'язку між ознаками, що позначаються, як правило, символами X і Y. Формула розрахунку коефіцієнта кореляції побудована таким чином, що, якщо зв'язок між ознаками має лінійний характер, коефіцієнт Пірсона точно встановлює тісноту цього зв'язку. Тому він називається також коефіцієнтом лінійної кореляції Пірсона. Якщо ж зв'язок між змінними X та Y не лінійна, то Пірсон запропонував для оцінки тісноти цього зв'язку так зване кореляційне ставлення.

Величина коефіцієнта лінійної кореляції Пірсона не може перевищувати +1 і бути меншою ніж -1. Ці два числа +1 і -1 є межами для коефіцієнта кореляції. Коли при розрахунку виходить величина більша +1 або менша -1 - отже, відбулася помилка в обчисленнях.

Знак коефіцієнта кореляції дуже важливий для інтерпретації отриманого зв'язку. Підкреслимо ще раз, що якщо знак коефіцієнта лінійної кореляції - плюс, то зв'язок між корелюючими ознаками такий, що більшій величині однієї ознаки (змінної) відповідає велика величина іншої ознаки (іншої змінної). Іншими словами, якщо один показник (змінна) збільшується, то відповідно збільшується й інший показник (змінна). Така залежність зветься прямо пропорційної залежності.

Якщо ж отримано знак мінус, більшій величині однієї ознаки відповідає менша величина іншого. Інакше висловлюючись, за наявності знака мінус, збільшення однієї змінної (ознака, значення) відповідає зменшення інший змінної. Така залежність носить назву обернено пропорційної залежності.

У загальному вигляді формула для підрахунку коефіцієнта кореляції така:

(7)

де х i- значення, що приймаються у вибірці X,

y i- Значення, що приймаються у вибірці Y;

Середня X, - середня Y.

Розрахунок коефіцієнта кореляції Пірсона передбачає, що змінні Х та У розподілені нормально.

У формулі (7) зустрічається величина при розподілі на n (число значень змінної X чи Y) вона називається підступом. Формула (7) передбачає також, що при розрахунку коефіцієнтів кореляції число значень змінної Х дорівнює числу значень змінної Y.

Число ступенів свободи k = n-2.

приклад 3. 1 0 школярам було дано тести на наочно-образне та вербальне мислення. Вимірювалося середній час вирішення завдань тесту в секундах. Дослідника цікавить питання: чи існує взаємозв'язок між часом вирішення цих завдань? Змінна X - позначає середній час розв'язання наочно-подібних, а змінна Y - середній час розв'язання вербальних завдань тестів.

Рішення. Подаємо вихідні дані у вигляді таблиці 4, в якій введені додаткові стовпці, необхідні для розрахунку за формулою (7).

Таблиця 4

№ випробуваних

x

х i -

(х i -) 2

y i -

(y i -) 2

16,7

278,89

51,84

120,24

13,69

17,2

295,84

63,64

7,29

51,84

19,44

68,89

14,44

31,54

59,29

7,84

21,56

0,49

46,24

4,76

10,89

17,64

13,86

10,89

51,84

23,76

68,89

10,8

116,64

89,64

68,89

18,8

353,44

156,04

Сума

357

242

588,1

1007,6

416,6

Середнє

35,7

24,2

Розраховуємо емпіричну величину коефіцієнта кореляції за формулою (7):

Визначаємо критичні значення для одержаного коефіцієнта кореляції за таблицею Додатка 3. При знаходженні критичних значень для обчисленого коефіцієнта лінійної кореляції Пірсона число ступенів свободи розраховується як k = n - 2 = 8.

до крит =0,72 > 0,54 , отже, гіпотеза Н 1 відкидається і приймається гіпотеза H 0 , іншими словами, зв'язок між часом вирішення наочно-образних та вербальних завдань тесту не доведено.

7.3 Регресійний аналіз

Це група методів, спрямованих на виявлення та математичне вираження тих змін та залежностей, які мають місце у системі випадкових величин. Якщо така система моделює педагогічну, то, отже, шляхом регресійного аналізу виявляються і математично виражаються психолого-педагогічні явища та залежність між ними. Характеристики цих явищ вимірюються у різних шкалах, що накладає обмеження на способи математичного вираження змін та залежностей, які вивчаються педагогом-дослідником.

Методи регресійного аналізу розраховані, головним чином, у разі стійкого нормального розподілу, у якому зміни від досвіду до досвіду виявляються лише вигляді незалежних випробувань.

Вирізняються різні формальні завдання регресійного аналізу. Вони можуть бути простими або складними за формулюваннями, математичними засобами та трудомісткістю. Перерахуємо та розглянемо на прикладах ті з них, які є основними.

Перше завдання - виявити факт мінливості досліджуваного явища за певних, але не завжди чітко фіксованих умов. У попередній лекції ми вже вирішували це завдання за допомогою параметричних та непараметричних критеріїв.

Друге завдання - виявити тенденцію як періодична зміна ознаки. Сама по собі ця ознака може бути залежною або не залежною від змінної-умови (він може залежати від невідомих або неконтрольованих дослідником умов). Але це не важливо для розглянутого завдання, яке обмежується лише виявленням тенденції та її особливостей.

Перевірка гіпотез про відсутність або наявність тенденції може виконуватися з використанням критерію Аббе . Критерій Аббепризначений для перевірки гіпотез про рівність середніх значень, встановлених для 4

Емпіричне значення критерію Аббе обчислюється за такою формулою:

(8)

де -середнє арифметичне з вибірки;

п- Число значень у вибірці.

Згідно з критерієм, гіпотеза про рівність середніх відхиляється (приймається альтернативна гіпотеза), якщо значення статистики . Табличне (критичне) значення статистики визначається з таблиці для q-критерію Аббе, яка зі скороченнями запозичена з книги Л.М. Болишева та Н.В. Смирнова (див. Додаток 3).

Як такі величини, для яких можна застосувати критерій Аббе, можуть виступати вибіркові частки або відсотки, середні арифметичні та інші статистики вибіркових розподілів, якщо вони близькі до нормального (або попередньо нормалізовані). Тому критерій Аббе може знайти широке застосування у психолого-педагогічних дослідженнях. Розглянемо приклад виявлення тенденції з допомогою критерію Аббе.

приклад 4.У табл. 5 представлена ​​динаміка відсотка студентів IV курсу, що «відмінно» складали іспити в зимові сесії протягом 10 років роботи одного з факультету університету. Потрібно встановити, чи є тенденція до підвищення успішності.

Таблиця 5. Динаміка відсотка відмінників четвертого курсу за 10 років роботи факультету

Навчальний рік

1995-96

10,8

1996-97

16,4

1997-98

17,4

1998-99

22,0

1999-00

23,0

2000-01

21,5

2001-02

26,1

2002-03

17,2

2003-04

27,5

2004-05

33,0

В якості нульовийперевіряємо гіпотезу про відсутність тенденції, тобто про рівність відсотків.

Усереднюємо відсотки, наведені у табл. 5, бачимо, що =21,5. Обчислюємо різниці між наступними та попередніми значеннями у вибірці, зводимо їх у квадрат і підсумовуємо:

Аналогічно обчислює знаменник у формулі (8), підсумовуючи квадрати різниць між кожним виміром та середнім арифметичним:

Тепер за формулою (8) отримуємо:

У таблиці критерію Аббе з Додатка 3 знаходимо, що з n =10 і рівні значимості 0,05 критичне значення , що більше отриманого нами 0,41, отже гіпотезу про рівні відсотка «відмінників» доводиться відхилити, і можна прийняти альтернативну гіпотезу про тенденцію .

Третє завдання – це виявлення закономірності, вираженої як кореляційного рівняння (регресії).

Приклад 5.Естонський дослідник Я. Мікк, вивчаючи труднощі розуміння тексту, встановив «формулу читаності», яка є множинною лінійною регресією:

Оцінка проблеми розуміння тексту,

де х 1 - довжина самостійних речень у кількості друкованих знаків,

х 2 - відсоток різних незнайомих слів,

х 3 - абстрактність понять, що повторюються, виражених іменниками .

Порівнюючи між собою коефіцієнти регресії, що виражають ступінь впливу факторів, можна бачити, що складність розуміння тексту визначається насамперед його абстрактністю. Вдвічі менше (0,27) складність розуміння тексту залежить від кількості незнайомих слів і вона зовсім залежить від довжини речення.

  • Розділи сайту