СТАТИСТИКА ДЛЯ ЮНИХ...

60
Чернінський А. О. СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВ КИЇВ - 2017

Upload: others

Post on 11-Aug-2020

17 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

Чернінський А. О.

СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВ

КИЇВ - 2017

Page 2: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

Автор: Чернінський Андрій Олександрович,

к.б.н., с.н.с. Інституту фізіології ім. О. О. Богомольця НАНУ; методист НЦ «МАНУ»

Рецензент:Філімонова Наталія Борисівна,

к.ф-м.н., с.н.с. ННЦ «Інститут біології та медицини» Київського національного університету імені Тараса Шевченка

Рекомендовано науково-методичною радою Національного центру «Мала академія наук України»

(протокол № 1 від 09.02.2017)

© Чернінський А.О., 2017© Національний центр «Мала академія наук України», 2017

Page 3: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

3

Вступ

Сучасна наука, особливо в галузі природничих та соціогума-нітарних наук, ґрунтується на експериментальному підході. Під експериментом ми розуміємо метод дослідження, при якому до-слідник контролює умови, які можуть вплинути на результат. Як правило, експеримент направлений на підтвердження чи спрос-тування певних припущень – гіпотез. Експеримент відрізняється від спостереження тим, що дослідник не чекає, поки досліджуване явище відбудеться саме по собі, а активно сприяє його появі. Ре-зультати спостережень також можуть бути основою наукового до-слідження, проте, постановка експерименту дає досліднику більше можливостей щодо вирішення задач дослідження. В деяких випад-ках постановка експерименту є неодмінною умовою отримання даних для аналізу (наприклад, вивчення ядерної фізики у CERN), у деяких випадках більш адекватні результати можна отримати саме шляхом спостереження (наприклад, вивчення поведінки диких тварин в природних умовах).

В результаті експерименту1 дослідник отримує дані, які харак-теризують досліджуване явище чи об’єкт. Головними задачами, які стоять перед експериментатором, і які можна вирішити за допо-могою статистичних методів, є опис даних у форматі, зрозумілому іншим дослідникам, а також порівняння результатів, отриманих за різних експериментальних умов, та виявлення узгодженості між різними наборами даних.

Прикладна статистика – це наука, що вивчає методи обробки різних даних. Її основою є такі науки як математична статистика і теорія ймовірності. Їх викладення лежить за межами цього по-сібника, нашою метою є викладення основних практичних методів аналізу даних. _________________________________1 Для спрощення викладення матеріалу надалі під експериментом ми будемо ро-зуміти як власне експеримент, так і інші способи отримання даних, у тому числі і спостереження.

Page 4: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

4

Для чого ж потрібні статистичні методи?

Як зазначалося раніше, основною характеристикою експери-менту є контрольованість дослідником певних параметрів, що мо-жуть вплинути на результат. Іншим важливим критерієм науково-го експерименту є відтворюваність результату. Іншими словами, при повторенні експерименту із заданим параметрами ми повинні отримати такі самі (подібні) результати. Проте, на практиці дотри-мати абсолютно усі можливі параметри на певному рівні немож-ливо. Тому при повторенні експерименту кожного разу його ре-зультат може дещо відрізнятися від інших спроб. За умови, що ми контролюємо усі головні параметри досліду, така варіабельність результатів пояснюється випадковими процесами, тобто такими, які не мають спеціальної причини. Такі, випадкові відміни не мож-на передбачити або спрогнозувати. Проте, якщо ми проводимо дві серії експериментів, що відрізняються одним з параметрів (вплив якого нас цікавить), отримані відміни можна пояснити як випад-ковістю, так і впливом досліджуваного параметру.

Інший аспект, який визначає необхідність використання ста-тистики при прийнятті рішень, пов’язаний с психофізіологічними особливостями людини. Сучасна когнітивна психологія2 визначає таке поняття як когнітивні упередження. Це набір систематич-них помилок, які ми (люди) робимо, аналізуючи дані та прийма-ючи рішення, у тому числі ґрунтуючись на числовій інформації. Наприклад, добре відомій ефект якорування, який полягає у тому, що люди, приймаючи рішення, ґрунтуються на раніше отрима-ній інформації. У поєднанні із ефектом контрасту – підсиленим сприйняттям інформації, що сильно вибивається з-поміж іншої,

Статистичні методи дають можливість обґрунтовано відповісти на запитання, чи є вплив досліджуваного параметру значущим, істотним, або ж усі розбіжності можна пояснити випадковістю.

_________________________________2 Розділ психологічної науки, що досліджує пізнавальні процеси психіки.

Page 5: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

5

він може призвести до того, що невелике випадкове збільшення певного параметру на фоні зниження більшості інших буде нам видаватися істотним, значущим, хоча воно є випадковим. Інший ефект – ілюзія кластерів – це тенденція помилково знаходити змістові зв’язки між випадковими даними, що може призводити до помилкових висновків у дослідженні. Наприклад, при випад-ковій побудові плейлиста в аудіоплеєрі композиції з одного альбо-му чи одного виконавця інколи трапляються одна за одною або з невеликим проміжком, що нами сприймається як порушення ви-падковості і поява закономірності. Задля цього в багатьох плеєрах алгоритм побудови випадкових плейлистів модифікований таким чином, щоб суб’єктивно видаватися більш випадковим. Також ві-домий ефект «омани гравця», який полягає у невірній оцінці ймо-вірностей подій в ряді випробувань. Якщо ми підкинемо монетку п’ять разів поспіль, і усі рази викинемо її гербом догори (ця сто-рона монети називається аверсом), нам здаватиметься, що ймовір-ність наступного разу викинути реверс (протилежний бік) є ви-щою, ніж 50%, проте це несправедливо. Застосування статистич-них методів дозволяє запобігти нам таких помилок у дослідженні.

Зрозуміло, що для того, щоб застосовувати статистичні методи, ми повинні мати надійні дані. Задля цього, наш експеримент пови-нен бути належним чином спланованим. Основні принципи пла-нування експерименту (design of experiment) були сформульовані англійським математиком і генетиком сером Рональдом Фішером (кілька статистичних тестів, названих його іменем, ми будемо далі розглядати). Отже, основні принципи є такими:

• повторюваність – результат одиничного вимірювання не може бути підставою для висновків стосовно досліджуваного явища, для отримання надійних результатів ми повинні отримати певну мінімальну кількість даних; такий мінімум встановлюється залежно від експериментальної процедури та мети дослідження;

• рандомізація – якщо на різні групи досліджуваних об’єктів в експерименті будуть діяти різні фактори, і немає спеціальних причин формувати особливі комбінації об’єкт + фактор, форму-вання таких поєднань повинно здійснюватися випадковим чином; в історії науки відомо багато прикладів, коли порушення цього

Page 6: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

6

принципу призводило до неусвідомлюваної помилки у результа-тах експерименту;

• однорідність – об’єкти, обрані для дослідження повинні якомога менше різнитися один від одного, інакше ефект від вну-трішньогрупової варіабельності об’єктів може виявитися сильні-шим за досліджуваний фактор; наприклад, ми обираємо лабора-торних тварин приблизно одного віку, однієї статі, утримаємо їх в однакових умовах;

• блокіровка – виділення з обстежуваних об’єктів певних блоків, що різняться якимось характеристиками, якщо з певних причин ми не можемо таку характеристику дотримати однорід-ною; наприклад, якщо ми досліджуємо дію певних ліків на пацієн-тів, ми можемо (і повинні) окремо оцінити їх вплив на чоловіків і жінок, в даному випадку стать є критерієм виділення блоків даних;

• контроль – результати вивчення дії певного фактору по-винні контролюватися паралельним експериментом, структура якого є ідентичною основному, за виключенням дії досліджувано-го фактора; контроль є необхідним особливо у складних експери-ментах, де піддослідні об’єкти піддаються комплексним впливам, лише один з яких є досліджуваним фактором (наприклад, хірур-гічна операція); однією з форм контролю є реєстрація експеримен-тальних показників до початку дії досліджуваного фактору (реє-страція базальних, фонових значень – baseline).

В простому експерименті контрольна і дослідна група відріз-няються наявністю лише одного досліджуваного фактора, а ана-ліз зводиться до порівняння двох наборів даних. Складні форми експериментів можуть передбачати одночасний вплив на дослі-джувані об’єкти кількох факторів різної інтенсивності – це може оптимізувати тривалість проведення експерименту і необхідні ма-теріальні ресурси, проте вимагає більш складних методів аналізу.

По можливості експеримент повинен проводитися «сліпим» методом. Простий сліпий метод – це процедура, коли піддослід-ний об’єкт не знає (якщо це людина) або не може знати (тварина) про особливості експерименту (наприклад, чи дається лікарська речовина, чи плацебо), проте дослідник має повну інформацію. При подвійному сліпому методі ключові параметри експеримен-

Page 7: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

7

ту невідомі не тільки обстежуваному, а й експериментатору. За-уважимо, що сліпий метод повинен використовуватися не тільки під час безпосередньо експерименту, а і під час аналізу отриманих даних, задля чого результати кодуються таким чином, щоб у кодах не було інформації про параметри досліду. Використання сліпого методу дозволяє уникнути помилок суб’єктивного характеру, час-тина з яких може несвідомо виникати в силу описаних вище когні-тивних упереджень.

За посиланням можна прочитати кілька наочних прикладів, коли невірно спланований експеримент або невірна обробка його резуль-татів призвела до невірних висновків:

http://scinquisitor.livejournal.com/9724.html

Статистичні програми

Існує велика кількість програм, які здатні вирішувати статис-тичні задачі, – як безкоштовних, так і комерційних. З останніх в науковому світі найбільш відомі Statistica (StatSoft, Inc) та SPSS (IBM). Потужний статистичний апарат реалізований у спеціалі-зованих пакетах Matlab, Mathematica та подібних. Також, ряд ба-зових статистичних функцій реалізований у популярному таблич-ному процесорі Excel (Microsoft), а більш спеціалізовані функції доступні у розширеннях (add-ons) до цієї програми.

В даному посібнику ми наводити приклади використання без-коштовного програмного забезпечення: табличного процесора LibreOffice Calc (The Document Fundation) та спеціалізованого ста-тистичного пакету PSPP (Free Software Foundation). Дистрибутиви цих програм доступні для найбільш розповсюджених операційних систем, вони можуть вільно скачані з мережі та встановлені на ваш персональний комп’ютер. Також, велика кількість статистичних функцій доступна у безкоштовному пакеті R, проте робота з ним вимагає більш ніж базового володіння комп’ютером, тому ми не бу-демо детально розглядати цю програму, а запропонуємо самостійно

Page 8: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

8

опанувати його можливості. Зауважимо, що окрім універсальних пакетів існують спеціалізовані програми, які дозволяють виконати складні форми статистичного аналізу (які не будуть розбиратися в даному посібнику) або ж «заточені» під аналіз даних у певній галузі (наприклад, соціологія, психометрія, епідеміологія, біоінформатика).

Дистрибутиви: LibreOffice, PSPP, R

Дані і вибірки

Для того, щоб спланувати, якими статистичними методами ми будемо аналізувати отримані дані, необхідно розібратися, якими вони можуть бути.

Типи даних

За структурою і властивостями усі дані, які можна отримати у експерименті, можна поділити на три типи:

• номінальні;• порядкові;• кількісні.Основна різниця між даними різних типів полягає у можли-

вості здійснювати той чи інший тип порівняння. Номінальна шкала. Дані, виміряні в цій шкалі, представляють

з себе дискретні найменування, стосовно яких можна провести тільки порівняння типу «співпадає чи не співпадає». Порівняння типу «більше/менше» є неможливим. До них належать, приміром, дані стосовно статі («чоловіки», «жінки»), кольору волосся («руде», «світле», «чорне» та ін.). Так, ми можемо порівняти двох людей і за-значити, одної вони статі чи різних, проте, принципово не може-мо говорити про те, що жіноча стать є «більшою» за чоловічу (або ж навпаки). Зауважимо, що навіть якщо категорії, до яких відно-сяться досліджувані об’єкти, виражені числами (приміром, стать людини в таблицях часто позначають як 0 або 1), до них не можна застосовувати будь-які математичні операції.

Page 9: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

9

Порядкові дані як правило є чисельними. Ми можемо порів-няти їх, чи вони співпадають, порівняти яке значення є більшим чи меншим, але не можемо сказати, наскільки певне значення є біль-шим. До таких даних відносяться різноманітні тестові бали, число-ві експертні оцінки, навчальні оцінки, тощо. Приміром, якщо два учні отримали за одну і ту ж контрольну 6 балів і 12 балів, то ми можемо зробити такі висновки:

• рівень знань цих учнів є неоднаковим;• другий учень продемонстрував кращий рівень знань.Проте, ми не можемо сказати, що другий учень знає предмет в

два рази краще чи більше, ніж перший.Кількісні дані доступні як для операцій порівняння, так і для

визначення, наскільки одне значення перевищує інше. Розрізня-ють кількісні шкали інтервалів і пропорцій. В шкалі інтервалів рівні інтервали між вимірами дорівнюють однаковій мірі розміру вимірюваної шкали. Наприклад, при вимірюванні зросту людини різниця в 1 см між 150 і 151 см абсолютно така ж, як і різниця між 185 і 186 см (натомість, ми не можемо сказати те саме стосовно пар шкільних оцінок 3 і 4 та 11 і 12). Стосовно даних у шкалі інтервалів ми можемо відповісти на питання «на скільки одне значення біль-ше/менше другого?» Проте, не завжди можемо відповісти на пи-тання «у скільки разів одне значення більше/менше за інше?» При-міром, якщо ми візьмемо шкалу температур у градусах Цельсія, ми можемо сказати, що предмет, нагрітий до 50°С, має температуру на 10°С більше, ніж предмет, нагрітий до 40°С. Проте вираз «перший предмет має на 25% більшу температуру, ніж другий» не має фі-зичного змісту, адже точка відліку (0°С) обрана у шкалі Цельсія до-вільно. Натомість, у шкалі пропорцій ми можемо дати відповідь на обидва запитання – на скільки і у скільки разів. При цьому, точкою відліку (нульовим значенням) повинно бути значення, що харак-теризує повну відсутність вимірюваної величини (маси, розміру, швидкості, площі, тощо).

Зауважимо, що дані, отримані у кількісних шкалах, можуть бути конвертованими у порядкові і номінальні, порядкові дані та-кож можуть бути конвертованими у номінальні, але не навпаки.

Page 10: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

10

Вибірка

При плануванні експерименту досліднику майже завжди необ-хідно чітко визначити об’єкт дослідження, тобто, що власне він планує вивчати. У певних випадках об’єктом може бути досить обширна категорія, наприклад «людина», «щури чоловічої статі», «голонасінні рослини певної території». Зрозуміло, що жоден до-слідник фізично не може обстежити абсолютно усі організми пев-ної категорії. Проте за умов достатньо великої чисельності повної групи об’єктів це і не потрібно. Ми можемо дослідити лише части-ну усієї сукупності об’єктів і, застосувавши математичні методи, які ми розглянемо пізніше, зробити достовірні висновки стосовно усієї сукупності. Метод аналізу повної сукупності за її частинами називається вибірковим методом. При цьому ми розрізняємо ге-неральну сукупність – усі об’єкти, які нас цікавлять, і вибірку – доступну для аналізу частину генеральної сукупності.

Як правило, дослідження науковця зводиться до отримання певного набору даних (тобто формування вибірок), їх опису, по-рівняння, тощо.

Якою повинна бути чисельність вибірки для достовірного перенесення вибіркових даних на генеральну сукупність?

На це питання немає однозначної відповіді, вона залежить від тих статистичних методів, які ви плануєте застосувати. В деяких випадках можна обчислити мінімальний обсяг вибірки, за якою можна достовірно характеризувати генеральну сукупність, – коли точно відомий обсяг останньої (наприклад, якщо це конкретне стадо корів, надої яких нас цікавлять). Проте, якщо генеральна су-купність надто велика (усі люди, усі чоловіки, усі студенти Києва), такі методи застосовувати некоректно.

Page 11: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

11

В загальному випадку чим більшим є обсяг вибірки, тим більш достовірні результати ми отримуємо. Проте, збільшення трива-лості спостережень чи кількості експериментів має наслідком збільшенням тривалості виконання дослідницького проекту, ма-теріальних витрат (реактиви та обладнання, лабораторні тварини, тощо). У зв'язку з цим кожен науковець планує свій експеримент, виходячи з конкретних ресурсів, що є необхідними для якісного дослідження.

Як правило, статистичні методи дають можливість визначити межі, в яких з певною ймовірністю знаходяться показники гене-ральної сукупності. Цей діапазон називається довірчим інтер-валом. У більшості випадків обчислюється і представляється в публікаціях 95% довірчий інтервал, тобто межі, за які параметри генеральної сукупності можуть вийти лише у 5% випадків.

З досвіду автора мінімальним обсягом вибірки даних об’єктивного характеру (фізіологічні, анатомічні показники і т.п.) можна вважати 10, а оптимальним – 20-30. У випадку, якщо дані містять суб’єктивні оцінки і характеристики (психологічні тести, соціологічне опитування, тощо), мінімальним обсягом вибірки можна вважати 30-50, а оптимальним – від 100. Для формування репрезентативних (тобто таких, які з достатньою точністю опису-ють особливості певної групи людей) вибірок у соціології існують спеціальні методи. В разі проведення популяційних досліджень (приміром, для вивчення факторів, які впливають на захворюва-ність певною патологією) обсяги вибірок можуть сягати тисяч і десятків тисяч, а дослідження може тривати десятиліттями. В дея-ких випадках (наприклад, робота з рідкісними або дуже дорогими матеріалами чи об’єктами) обсяг вибірки може бути порівняно ма-лим (наприклад, 5). В таких умовах дослідник змушений викорис-товувати більш жорсткі статистичні методи, щоб бути певним, що реєстрований ефект не є випадковим.

Page 12: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

12

Якими бувають вибірки

Вибірки можна характеризувати різними способами, одним з яких є характер розподілу даних всередині неї. Під розподілом да-них ми розуміємо ту закономірність, що описує, скільки разів у ви-бірці зустрічається те або інше значення. Від цього часто залежить те, які статистичні методи ми можемо застосовувати для аналізу цієї вибірки. В більшості випадків для нас є важливим, чи підхо-дить розподіл даних всередині вибірки під так званий «нормаль-ний розподіл». Крива нормального розподілу (або крива Гаусса) характеризується тим, що існує певне центральне максимальне значення досліджуваного параметра, і частота зустрічі інших зна-чень тим менше, чим далі це значення від центрального. В теорії ця крива є нескінченною в обох напрямках (до +∞ і -∞) і абсолютно симетричною. Такий розподіл спостерігається, коли експеримен-тальні дані є кількісними, їх достатньо багато, і відхилення від центрального значення залежить від випадкових факторів.

Приклади нормальних розподілів з різними параметрами (μ – середнє арифметичне, σ2 – дисперсія; пояснення далі у тексті)

Page 13: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

13

Слід зазначити, що слово «нормальний» в даному контексті не несе звичайного змісту. Дані, розподілені не за нормальним зако-ном не стають від цього «ненормальними» чи неправильними.

З практичних міркувань часто буває складно побудувати криву розподілу експериментальних даних, виходячи з безпосе-редніх вимірів, особливо за умов недостатнього обсягу вибірки. В такому випадку будують гістограми розподілу, які являють з себе набір стовпчиків різної висоти. Весь діапазон значень до-сліджуваного параметра (від мінімума до максимума) розбива-ють на кілька інтервалів. Відрізок вісі абсцис, який відповідає певному інтервалу є основою стовпчика, а його висота відпові-дає кількості (абсолютній чи відносній) елементів вибірки, що потрапили в цей діапазон. Зрозуміло, що від вибору ширини ін-тервалів, за якими будується гістограма розподілу, буде істотно залежати її зовнішній вигляд. Більшість статистичних програм самостійно вирішують це питання для отримання найкращих результатів.

На рисунку нижче зображено розподіл експериментальних да-них у вигляді гістограми, а також криву нормального розподілу. Можна бачити, що дані дуже схожі на розподілені за нормальним законом.

Page 14: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

14

На наступному рисунку зображено набір експериментальних даних, розподіл яких суттєво відрізняється від нормального.

Для чого потрібно знати, як розподілені наші дані?

Математиками розроблено багато алгоритмів вирішення різ-них статистичних задач. Деякі з них вирішуються більш точно (або взагалі хоч якось) лише за умови, якщо дані розподілені за нормальним законом. Відповідно, такі статистичні методи можна застосовувати тільки до вибірок з нормальним розподілом. Такі методи називаються параметричними, оскільки їх результати за-лежать від параметрів розподілу даних. На відміну від них, існу-ють методи, для застосування яких не потрібно ніяких додаткових умов. Такі методи називаються непараметричними. Виникає пи-тання: а чому ж не можна використовувати тільки непараметрич-ні методи? Причиною цього є більша потужність параметричних методів – вони дають більш достовірні результати, з меншою ймо-вірністю помилитися, деякі ж задачі взагалі не можна вирішити, якщо розподіл даних не є нормальним.

Page 15: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

15

Як визначити, чи належать ваші дані до нормальних?

Крива нормального розподілу описується математичною фор-мулою, а тому її параметри точно відомі. Існують спеціалізовані критерії (див. далі), що призначені для оцінки належності вибір-ки до нормальних. Більш просто (але менш точно) належність ви-бірки до нормальних можна за параметрами асиметрії та ексцесу, суть яких описана далі.

Опис параметрів вибірок

Перш, ніж порівнювати різні вибірки між собою або здійсню-вати будь-які інші аналітичні дії, слід зрозуміти структуру ваших даних та описати їх. Методи, які описують структуру даних, на-зиваються дескриптивною статистикою. Дані, виміряні у різних шкалах, можуть бути описані різними способами. Крім числової форми, яка є обов’язковою для аналізу (і представлення у науко-вих публікаціях), для більшої наочності дані можуть бути пред-ставленими у графічній формі.

Номінальна шкала

Дані, виміряні у цій шкалі, найпростіше згрупувати по катего-ріям та порахувати частоти – загальну кількість елементів кож-ної з них. Наприклад, якщо ми хочемо схарактеризувати гендерну структуру певної групи людей, нам потрібно порахувати, скільки у цій групі чоловіків та жінок (дві категорії). З метою наступного по-рівняння з іншими аналогічними вибірками дані потрібно норму-вати – перевести у відсоткове представлення. Після цього значен-ня частки різних категорій не будуть залежати від обсягу вибірки.

Page 16: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

16

За допомогою обчислення частот категорій можна аналізувати також порядкові і кількісні дані. Для цього потрібно перетвори-ти їх у номінальну форму. Приміром, ми аналізуємо IQ двох груп людей. За методикою однієї з поширених версій цього тесту – тес-ту Айзенка – максимальний бал становить 180, мінімальний – 0. Проте, така порядкова шкала може бути трансформованою у номі-нальну: IQ від 0 до 90 – низький, 90-110 – середній, 110-180 – висо-кий. Залежно від суті аналізованої величини, вона може бути при-ведена до різної кількості номінальних категорій. Проте, аналіз числових даних дає нам більше можливостей, ніж аналіз категорій. Незважаючи, що порядкові дані не є кількісними, за умови достат-ньої кількості спостережень (тобто обсягу вибірки) та порівняно великої кількості можливих значень, які можуть бути отримани-ми в результаті спостереження або експерименту, вони можуть аналізуватися кількісними методами. Однозначного правила, яке

Приклад обчислень частот представників різних статей в групі студентів з 30 осіб та відповідна колова (секторна) діаграма.

Ціле коло приймається за 100%, площа кожного сектора пропорційна відсотковій частці відповідної категорії.

Page 17: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

17

б встановлювало, яка деталізація шкали вимірювання дозволяє використовувати кількісні методи, не існує, таке рішення повинен приймати дослідник на основі розуміння суті даних, їх структури, задач дослідження та традицій дослідження у певній галузі. На-ведемо приклад: навчальні оцінки в традиційній університетській шкалі («5», «4», «3», «2» або «відмінно», «добре», задовільно», «не-задовільно») категорично не можуть вважатися кількісними дани-ми; натомість, оцінка в сучасній шкільній системі (від 1 до 12) за певних умов може вважатися кількісною (хоч і з багатьма умовами та ризиками отримати недостовірні результати); тести ЗНО з біль-шості предметів3 дозволяють отримати «сирі» оцінки від 48 (мате-матика) до 104 (укр. мова та література) балів, що дозволяє більш впевнено використовувати кількісні методи.

Числові дані

Числові дані (виміряні у кількісній шкалі або прирівняні до неї порядкові дані) можна описати рядом статистичних пара-метрів, перелік яких ми наведемо нижче. З описових статистик можна виділити ті, що характеризують центральну тенденцію да-них (найбільш типове, найбільш часто спостережене значення), та ті, що характеризують розкид даних (тобто, те, наскільки весь масив даних скупчений навколо центральної міри або віддале-ний від неї). Ми не наводимо формули для обчислення статис-тик, оскільки їх можна знайти у доступних джерелах (наприклад, Вікіпедії), а на практиці ці показники обчислюються спеціалізо-ваними програмами.

_________________________________3 За даними сайту УЦОЯО стосовно тестування 2015 року; базовий рівень сертифі-каційної роботи.

Page 18: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

18

НАЗВА ПОЗНАЧ. ОБЧИСЛЕННЯ ЗНАЧЕННЯ

середнє ариф-метичне (або просто середнє значення)

M, μ сума усіх значень, поділена на кількість елементів у вибірці

характеризує центральну тенденцію ряду даних за умови нормальності розподілу вибірки

медіана Me значення, яке ділить вибірку на дві рівні частини; половина елементів вибірки має значення, менше за медіану, інша поло-вина – більше

характеризує центральну тенденцію ряду даних, в тому числі і не нормаль-но розподілених

мода Mo елемент вибірки, який зустрічається найчастіше

характеризує центральну тенденцію ряду даних, в якому певні значення зустрічаються з великою кількістю повторів

середньо-ква-дратичне від-хилення

s корінь з суми квадратів різниці значень кожно-го елементу вибірки та середнього арифметич-ного, поділеної на чис-ло елементів у вибірці

характеризує розкид даних відносно серед-нього арифметичного; застосовується для опису нормально розподілених виборок; має таку ж роз-мірність, що і аналізована величина (наприклад, см)

дисперсія s2 або D квадрат середньо-квадра тич ного відхи-лення

характеризує розкид да-них відносно середнього арифметичного; застосо-вується в статистичних тестах для порівняння розкидів різних наборів нормально розподілених даних; має квадратичну розмірність аналізованої величини (наприклад, см2)

Page 19: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

19

коефіцієнт варіації

CV s, поділене на середнє арифметичне

те ж, що і s, але нормова-не, тобто не залежить від розмірності аналізованої величини; дозволяє по-рівнювати розкиди різних параметрів (наприклад, зросту і ваги групи людей); застосовується для нор-мально розподілених даних

похибка середнього або стандартна похибка

m s, поділене на корінь з числа елементів вибірки

характеризує межі, в яких відносно середнього ви-біркового може міститися середнє генеральне; засто-совується для нормально розподілених даних

мінімум; максимум

min; max

мінімальне і макси-мальне значення елементів вибірки

певною мірою характе-ризує розкид даних не залежно від характеру розподілу; дуже чутливі до «викидів» показники

квартилі: нижній і верхній

LQ, HQ значення, що відсіка-ють нижні (LQ) та верхні (HQ) 25% частини вибірки

характеризують розкид даних, не залежно від ха-рактеру розподілу даних, є більш коректними по-казниками в порівнянні з мінімумом та максимумом

коефіцієнт асиметрії

є мірою симетричності розподілу експерименталь-них даних відносно цен-трального значення (M); застосовується разом з екс-цесом для оцінки нормаль-ності розподілу вибірки

ексцес є мірою крутизни графіку розподілу експеримен-тальних даних; застосову-ється разом з асиметрією для оцінки нормальності розподілу вибірки

Page 20: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

20

В пакеті LibreOffice описові статистики обчислюються або від-повідними функціями, які можна знайти в розділі «Статистичні», або ж за допомогою пункту меню «Дані» – «Статистика» – «Описо-ва статистика». В PSPP відповідний пункт меню називається «Ана-ліз» – «Описова статистика» – «Описова статистика».

Визначення нормальності розподілу

Для того, щоб коректно представити отримані кількісні резуль-тати, першим кроком потрібно визначити нормальність їх розпо-ділу. Найбільш просто це зробити, оцінивши «на око» характер розподілу – якщо він сильно асиметричний або має кілька макси-мумів, це є ознакою ненормальності. Проте, щоб бути певними у цьому, слід використовувати числові статистичні характеристики.

Застосування параметрів асиметрія та ексцес.

Нормальному розподілу відповідають значення коефіцієнтів асиметрії та ексцесу, рівні 0. Позитивні та негативні значення цих параметрів свідчать про порушення форми розподілу; відповідно, чим більшими є їх абсолютні значення, тим меншою є ймовірність того, що дані розподілені за нормальним законом. «Нормальни-ми» вважаються значення в межах [-2, 2]. Вихід параметрів за ці межі свідчить про те, що наші дані розподілені не нормально.

Застосування спеціалізованих критеріївУ багатьох статистичних програмах реалізовані процедури пе-

ревірки даних на нормальність: критерій Шапіро-Вілка, критерій Ліллієфорса, критерій Колмогорова-Смірнова. Про принципи пе-ревірки статистичних гіпотез ми поговоримо детально далі, а зараз зазначимо, що в результаті виконання алгоритму тесту ми отри-

- + - +Асиметрія Ексцес

Page 21: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

21

муємо величину р, що відображає ймовірність того, що наші дані походять з нормального розподілу. Якщо ця ймовірність низька, ми не можемо вважати, що наші дані є нормальними. Пороговим рівнем величини р вважається значення 0.05. При р ≤ 0.05 ми вва-жаємо (в цьому тесті) наші дані не нормальними.

В програмі PSPP перевірку даних на нормальність можна здій-снити, обчисливши коефіцієнти асиметрії та ексцесу, а також за допомогою тесту Колмогорова-Смірнова в меню «Аналіз» – «Непараметричні критерії» – «Одновибірковий Колмогорова- Смірнова». Вивід процедури перевірки виглядає наступним чином:

Приклад даних, розподіл яких не задовольняє критеріям нормальності.

Page 22: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

22

Нижній рядок містить обчислене р, яке в даному випадку рівне 0.885, що більше порогового рівня (0.05), отже ми вважаємо, що наші дані розподілені нормально.

Представлення даних

Готуючи свої результати до презентації або публікації, слід про-думати, як ви представлятиме ваші дані. Існує кілька стандартів представлення структури даних у числовій або графічній формі.

Нормально розподілені дані в тексті представляють у форматі М ± s, наприклад: «вік студентів 1 курсу становить 17.0 ± 0.6 ро-ків». Таким чином, ми зазначаємо центральну тенденцію (М)4 та характеристику розкиду даних, тобто відхилення індивідуальних даних від середнього (s).

Досить часто, особливо у вітчизняних публікаціях за традиці-єю, дані описують у форматі М ± m, що є не зовсім коректним. Об-разно кажучи, М ± s характеризує, наскільки далеко від централь-ного значення можуть знаходитися ваші дані. Натомість, М ± m характеризує, наскільки далеко від середнього арифметичного ва-шої вибірки може знаходитися середнє генеральне, тобто описує не отримані вами дані, а генеральну сукупність. В ряді випадків (застосування спеціалізованих статистичних критеріїв) розкид да-них може характеризуватися за допомогою обчислених довірчих інтервалів – меж, в яких з певною ймовірністю містяться параметр генеральної сукупності, тобто «істинне» значення аналізованого параметра. Іншими словами, це межі того, наскільки ми можемо «вірити» нашим даним, наскільки вони відображають реальний стан речей. Стандартно ймовірністю побудови довірчих інтервалів вважають 95%, проте в залежності від задач дослідження можуть використовувати 99% або інші значення. Зрозуміло, що чим вище ймовірність, тим вужчим буде обчислений довірчий інтервал. Зау-важимо, що межі ± m є одним з варіантів довірчих інтервалів, його _________________________________4 Зауважимо, що у нормально розподілених даних середнє арифметичне, медіана і мода співпадають.

Page 23: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

23

ймовірність є досить низькою – близько 67%. Інші типи довірчих інтервалів позначаються LSD (Least Significant Difference), Tukey HSD (Honestly Significant Difference) та ін.

Дані, що не розподілені за нормальним законом, описують-ся середнім арифметичним неадекватно. На це впливає, у першу чергу, зміщення розподілу експериментальних даних (високий ко-ефіцієнт асиметрії). На наступному рисунку зображено два асиме-тричних розподіли.

Можна бачити, що усі три міри центральної тенденції в даних ви-падках мають різні значення. Мода завжди указує на значення, що зустрічається найбільш часто. Вона погано дозволяє оцінити вибірку в цілому, не відображає значення, що зустрічаються рідше. Середнє арифметичне істотно змінюється при наявності у вибірці значень, які сильно відрізняються від основного масиву даних в більший (як в наборі даних, зображеному перервною лінією) або менший бік. Зва-жаючи на це, медіана – значення, яке ділить набір даних на дві рівні частини – є найбільш адекватною характеристикою центру даних.

Розкид даних характеризується квартилями – величина-ми, які відсікають по 25% найменших і найбільших значень ви-бірки. Запис результатів при цьому здійснюється у форматі Me [LQ; HQ], наприклад «124 [76; 141]». Цей запис означає, що по-ловина експериментальних даних має значення менше 124, а інша половина – більше. 25% даних мають значення нижче 76, ще 25% містяться у діапазоні між 76 і 124, ще 25% – між 124 і 141, і остання чверть даних має значення більше за 141.

Page 24: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

24

Графічне представлення даних

Статистичні і табличні програми містять чималий арсенал для графічного представлення даних. Існують спеціалізовані програ-ми, призначені саме для візуалізації даних. Також, в мережі Інтер-нет доступні сайти, на яких можна безкоштовно (і за гроші) побу-дувати різнопланові інфографіки, наприклад

http://www.datacopia.com/https://www.meta-chart.com/та інші.

Найбільш інформативним типом діаграми є «коробки з вуса-ми» (box-and-whiskers plot). Структура такої діаграми представле-на на наступному рисунку.

Діаграми такого типу можуть зображатися горизонтально або вертикально. Розмір «коробки» відповідає відстані між нижнім і верхнім квартилями, що називається міжквартильним розмахом. Відстань між кінцями «вусів» відповідає усьому діапазону даних, які спостерігалися в експерименті (від мінімума до максимума).

В деяких випадках статистичні програми можуть розцінювати певні значення, що сильно вибиваються з основного масиву даних, як викиди (outliers). Вони можуть позначатися окремими точка-ми, що лежать за межами «вусів». В залежності від типу експери-

Page 25: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

25

ментальних даних наявність викидів може бути наслідком високої індивідуальної варіабельності досліджуваного параметра або ж результатом помилки в експерименті (в цьому випадку такі дані слід виключити з подальшого аналізу). Слід зауважити, що саме наявність викидів істотно впливає на середнє арифметичне, нато-мість, медіанне значення вибірки є стійким до них. Окрім перелі-чених показників на даному типі діаграм можуть бути позначені і середні арифметичні значення – хрестиком або іншою позначкою. Як правило, середнє арифметичне розташоване всередині «короб-ки» ближче чи далі від медіани, залежно від ступеня асиметрич-ності розподілу даних.

Нормально розподілені дані часто зображаються у формі стовпчиків, висота яких позначає середнє значення, з «вусами», розмах яких дорівнює ± s. Стовпчики діаграм можуть не зобража-тися, тоді середнє значення позначатиметься точкою.

Для кращого розуміння у легенді рисунка (підписі до нього) за-значається, який саме параметр обрано для візуалізації «вусами» – середньоквадратичне відхилення або довірчий інтервал.

Два варіанти графічного представлення одного і того ж набору нормально розподілених даних.

Page 26: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

26

Загальні принципи перевірки статистичних гіпотез

Після того, як ми охарактеризували структуру нашої вибірки (чи вибірок), часто виникає потреба порівняти вибіркове значен-ня (середнє чи медіану) з певною стандартною величиною або ж з іншою вибіркою. Ця задача (як і більшість інших) вирішується шляхом перевірки статистичних гіпотез.

При цьому формулюється нульова гіпотеза – твердження, яке ми перевіряємо (вона позначається Н0). Твердження, сформульо-ване як антитеза до нульової гіпотези, називається альтернатив-ною гіпотезою. Справедливість нульової гіпотези означає, що альтернативна гіпотеза є невірною, і навпаки.

Для перевірки нульової гіпотези ми повинні використати пев-ний статистичний тест або критерій, тобто за певним алгорит-мом обчислити спеціальну величину – статистику критерію. Далі ми розглянемо кілька найбільш поширених тестів, наразі розбере-мо загальні принципи оцінювання.

Припустимо, ми виміряли зріст школярів 14 і 15 років. Трохи знаючи біологію, ми можемо очікувати, що старші діти

є дещо вищими. Для перевірки цього припущення нульова гіпотеза буде формулюватися: «зріст учнів 14 і 15 років є однаковим», альтернатива: «зріст учнів 14 і 15 років є різним». Зауважимо,

що можливо сформулювати і так звані односторонні альтернативи: «зріст учнів 15 років є більшим за зріст учнів

14 років» або «зріст учнів 15 років є меншим за зріст учнів 14 років». Проте, у більшості випадків альтернативи формулюються

як двосторонні («не рівні», без припущення напрямку змін), це є більш точним.

Статистики критеріїв розроблені таким чином, що їхні зна-чення при справедливості та несправедливості нульової гіпотези сильно відмінні. Як правило, при повній відповідності наших да-

Page 27: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

27

них нульовій гіпотезі, тестова статистика набуває значення 0. Чим менше наші дані узгоджуються із нульовою гіпотезою, тим більше значення приймає тестова статистика. Можна виділити дві осно-вні причини такої розбіжності: випадковість або вплив певного фактору.

У відповідності до теорії ймовірності, ми ніколи не можемо виключити можливість того, що наші дані відрізняються від зна-чень нульової гіпотези лише в силу випадку. А це значить, що ми завжди ризикуємо відхилити нульову гіпотезу навіть якщо на-справді вона є справедливою (а зареєстровані відміни випадко-ві). Ситуація, коли ми зробимо такий висновок (про невірність Н0 при її справедливості), називається статистичною помилкою першого роду. За допомогою теорії можемо оцінити її ймовір-ність для нашого набору даних. Вона визначається за певним ал-горитмом і позначається літерою р. Таким чином, чим нижчим є р, тим менше є ймовірність помилитися, відкинувши нульову гіпотезу (відповідно, визнавши справедливою альтернативну). На практиці ми приймаємо рішення про відхилення нульової гі-потези тоді, коли обчислене р є меншим за певний поріг – рівень значущості. Він позначається літерою a і для більшості експери-ментальних задач становить 0.05. Іншими словами, якщо р > 0.05, ми визнаємо справедливість нульової гіпотези; якщо р ≤ 0.05, ми визнаємо справедливість альтернативної гіпотези (відкидаємо нульову). В деяких випадках рівень значущості може приймати значення, відмінні від 0.05. Наприклад, якщо конструктор роз-раховує технічну надійність вузлів автомобіля, ймовірність їх відмови в 5% випадків є надзвичайно великою, і в подібних ви-падках a може сягати 10-6 і менше. При визначенні рівня a у кон-кретному дослідженні слід спиратися на існуючі публікації з від-повідної проблематики. Проте, у більшості випадків достатнім є рівень a=0.05.

Зауважимо, що використання односторонніх альтернатив як правило призводить до зменшення рівня значущості, проте, для їх використання потрібні змістові підстави – ми повинні аргументу-вати, чому ми очікуємо саме збільшення або зменшення досліджу-ваного параметра.

Page 28: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

28

Отже, основними етапами перевірки статистичних гіпотез є:• формулювання нульової і альтернативної гіпотез;• вибір статистичного критерію;• розрахунок статистики критерію та рівня значущості;• прийняття рішення про справедливість нульової гіпотези або її відхилення.

Відмітимо, що окрім описаної помилки першого роду, існує помилка другого роду – прийняття нульової гіпотези у випадку, якщо вона в дійсності є невірною. Ймовірність здійснити таку помилку залежить від типу статистичного критерію, яким ми пе-ревіряємо наші гіпотези. Наприклад, вона дуже висока, якщо ми будемо застосовувати параметричні критерії до ненормально роз-поділених даних або ж критерії, орієнтовані на кількісні дані, до порядкових. Зрозумівши структуру наших даних та підібравши найбільш адекватний статистичний критерій ми мінімізуємо ймо-вірність здійснення цієї помилки. Даний посібник, власне, містить інструкції, як це зробити.

Page 29: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

29

Порівняння вибірок

Порівняння двох вибірок (двовибіркові порівняння), тоб-то наборів даних, отриманих у експериментах, що відрізняються, як правило, одним параметром, є однією з найбільш поширених практичних задач дослідника.

Розрізняють парні та незалежні порівняння. Про парні по-рівняння ми говоримо, коли порівнюємо залежні вибірки, тобто такі, в яких окремі виміри логічним чином об’єднані в пари.

Наприклад, ми хочемо перевірити, чи міняється частота пульсу після фізичних вправ (звісно, що повинна зростати). Для цього ми реєструємо пульс обстежуваних людей до (у стані спокою) та після вправ (наприклад, кількох присідань). Таким чином, в результаті експерименту у нас будуть отримані пари значень. При формуван-ні таблиць для наступного аналізу результати вимірювань власти-востей кожного об’єкту вносяться у один і той же рядок, а різні стовпчики відповідають різним вимірюванням. Приклад заповне-ння такої таблиці:

обстежуваний до присідань після присідань

Сергій 65 70Олена 68 85

Микола 70 75… … …

Світлана 72 80

В такий спосіб можна тестувати вплив різноманітних чинників на різні об’єкти, головною умовою є допустимість повторного тес-тування після впливу досліджуваного фактору.

Натомість, при незалежному порівнянні ми досліджуємо два на-бори даних, які прямо не пов’язані між собою. Прикладом може бути сформульоване раніше порівняння зросту школярів різного віку. По-дібного роду задачі виникають, коли ми тестуємо людей, що відрізня-ються статтю (чоловіки, жінки), станом здоров’я (здорові, пацієнти

Page 30: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

30

з певною хворобою), віком (молоді, похилі) та ін. В цьому випадку принципово не можна провести парне порівняння. При формуванні таблиць для аналізу, стовпчики відповідають різним групам, а у ряд-ках містяться непов’язані між собою виміри різних об’єктів. Також дані вимірів досліджуваного параметру можна внести у один стовп-чик, а у інший коди, які відповідають позначкам груп.

Зауважимо, що залежні вибірки принципово можна аналізува-ти методами незалежного порівняння, хоч вони дадуть більшу по-милку другого роду, тоді як незалежні дані принципово не можна аналізувати парними методами.

Окрім двовибіркових порівнянь може існувати задача однови-біркового порівняння, коли нам потрібно встановити рівність на-ших даних з певним еталонним значенням. Зауважимо, що парні двовибіркові порівняння легко зводяться до одновибіркових – для цього потрібно обчислити різницю пар значень і порівняти отри-ману вибірку з нулем5.

Як правило, статистичні програми мають у своєму арсеналі на-бір тестів для парних і незалежних порівнянь.

Порівняння нормальних даних

Порівняння нормально розподілених даних здійснюється за допомогою t-критерію (або критерію Стьюдента). Ця процедура є найбільш поширеною з статистичних тестів. Для застосування вона вимагає дотримання ряду умов. По-перше, обидві порівню-вані вибірки повинні бути розподіленими за нормальним законом. По-друге, їх розкид, який ми оцінюємо за дисперсією, повинен також бути однаковим. У випадку нерівних дисперсій алгоритм тесту трохи міняється. Якщо тест на нормальність дав негативний результат, застосовувати t-критерій не можна, і дані слід аналізу-вати за допомогою непараметричних критеріїв або ж застосувати процедуру нормалізації (див. далі). _________________________________5 Як варіант можна поділити одну вибірку на іншу і тоді проводити одновибіркове порівняння з 1 або з 100%.

Page 31: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

31

Алгоритм обчислення значення t-критерію (за умови рівності дисперсій) є досить простим:

де  — середні арифметичні,  — стандартні відхи-лення, а  — обсяги порівнюваних вибірок. Як можна бачи-ти, цей тест фактично порівнює середні арифметичні двох вибірок.

Для обчислення значення t-критерію в парних порівняннях за-стосовується наступна формула:

де  — середнє арифметичне різниць парних значень двох ви-бірок, а  — стандартне відхилення таких різниць. Ця ж формула застосовується для одновибіркових порівнянь, при цьому об-числюється як різниця значень нашої вибірки та еталонного зна-чення.

Як в ситуації незалежних порівнянь, так і при парних порів-няннях при справедливості нульової гіпотези (тобто рівності обох вибірок) значення статистики критерію дорівнює 0, і чим воно є більшим, тим меншою є ймовірність справедливості нульової гі-потези.

На основі обчисленого значення t статистична програма обра-ховує величину р. У випадку, якщо р ≤ 0.05, ми відкидаємо нульо-ву гіпотезу і робимо висновок, що порівнювані вибірки є значущо відмінними.

Для обчислення параметрів t-тесту у програмі LibreOffice Calc потрібно викликати функцію TTEST:

Page 32: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

32

Її параметрами є два набори даних, що беруться з таблиці, ре-жим порівняння (1 = односторонній / 2 = двосторонній, якщо не-має спеціальних умов, слід зазначати 2), тип порівняння (1= парне, 2 = непарне з рівними дисперсіями, 3 = непарне з різними диспер-сіями). Для перевірки рівності дисперсій застосовується функція FTEST, параметрами якої є два набори даних, а результатом – р порівняння двох дисперсій (визнаються нерівними при р ≤ 0.05; в такому випадку у функції TTEST слід використовувати тип порів-няння = 3).

Як можна бачити на рисунку, для зазначеного набору даних обчислене значення р = 0.12, що є більшим за рівень значущості, отже ми не маємо підстав відкинути нульову гіпотезу і визнаємо рівність двох вибірок.

У програмі PSPP слід скористатися пунктом меню «Аналіз» – «Порівняти середні» з доступними опціями:

Page 33: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

33

• Середні;• Одновибіркова t-перевірка;• t-перевірка незалежних вибірок;• t-перевірка парних вибірок;• Однофакторний ANOVA.

Нам потрібні опції t-перевірки, з назв яких зрозуміла їх суть. В одновибірковій перевірці можливо здійснити порівняння кількох вибірок з одним еталонним значенням.

Перевірка парних вибірок також може бути здійсненою для багатьох пар одночасно. Приклад результатів парного порівняння (вибірки записані у стовпчики VAR001 і VAR002):

Можна бачити не лише значення р (останній стовпчик нижньої таблиці), а і статистику t, а також середнє арифметичне, стандарт-ні відхилення (s) та помилку (m) різниці двох вибірок. Це додає нам зручності при інтерпретації результатів, адже мало знати, що дві вибірки є різними, потрібно знати, в який бік (збільшення чи зменшення) зрушився досліджуваний параметр.

Для здійснення незалежних порівнянь дані слід організува-ти дещо іншим чином – помістити усі значення в один стовпчик і створити другий стовпчик з кодами, які визначають належність елемента до тої чи іншої вибірки. Наприклад, проаналізуємо дані вимірювання температури тіла та пульсу у групи людей6. Колонка GENDER містить інформацію про стать обстежуваних людей в ко-

_________________________________6 Дані взяті зі статті «A Critical Appraisal of 98.6 Degrees F ...,» by Mackowiak et al., in the Journal of the American Medical Association (vol. 268, pp. 1578-80, 1992) через сайт http://www2.stetson.edu/~jrasp. Температура тіла переведена в шкалу Цельсія, слід зауважити, що вимірювання проводилося у ротовій порожнині, тому значення є трохи вищими за звичні нам 36.6°С.

Page 34: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

34

дах 1 = чоловіки, 2 = жінки. Заповнення вікон введення даних при цьому виглядає таким чином:

Змінні для перевірки – дані, які ми хочемо порівнювати. Змінна групування – стовпчик із кодами. Перед тим, як почати аналіз, слід визначити порівнювані групи – явно вказавши значення змінної групування для обох порівнюваних груп, або ж розділивши ви-бірки на дві частини за пороговим значенням змінної групування (тоді порівнюватимуться вибірки із значенням цієї змінної нижче порогу та вище або рівне порогу).

Результат порівняння виглядає наступним чином:

Page 35: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

35

Верхня таблиця містить статистику двох груп для кожного ана-лізованого параметру. Нижня таблиця містить результат порівнян-ня вибірок. Спочатку наведено результат перевірки рівності дис-персій – у стовпчику «Знач» ми бачимо, що для параметру HEART_RATE вони не рівні, отже слід використовувати рядок «Не припус-каємо рівність дисперсій». Далі у стовпчику «Знач. (двобічна)» на-ведено рівень значущості для порівнянь двох вибірок. Бачимо, що з р = 0.022 температура тіла жінок значущо перевищує таку чоловіків (♀36.89±0.41 та ♂36.73±0.39 за верхньою таблицею). За пульсом зна-чущої різниці між чоловіками і жінками не встановлено.

Порівняння непараметричних даних

У випадку, якщо ваші дані є порядковими, або кількісними, розподіленими не за нормальним законом, використовувати пара-метричні критерії не можна. Для вирішення задачі порівняння в такому випадку існують методи, що називаються непараметрич-ними. Як і для нормально розподілених даних, порівняння може бути одновибірковим та двовибірковими парним і незалежним.

Найбільш простим є критерій знаків. Він застосовується для парних порівнянь. При цьому для кожної пари даних визначається знак їх різниці, пари рівних значень ігноруються. У випадку спра-ведливості нульової гіпотези про рівність вибірок, кількості по-зитивних та негативних знаків повинні бути однаковими. Якщо «плюси» або «мінуси» переважають, критерій знаків дає нам вже знайоме р, на основі якого ми відкидаємо нульову гіпотезу, або приймаємо її. Як бачимо, на результат оцінки за цим критерієм ніяк не впливає ступінь збільшення або зменшення аналізованих параметрів.

Більш складним критерієм, який приймає до уваги ступінь змін наших даних, є критерій знакових рангових сум Вілкоксо-на (або просто критерій Вілкоксона, Wilcoxon signed-rank test). Для того, щоб обчислити його, спочатку потрібно, як і у випадку критерія знаків, знайти різниці кожної пари даних. Після цього, з абсолютними значеннями таких різниць проводиться процедура

Page 36: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

36

ранжування – визначення рангів. Ранг – це номер позиції певно-го елемента у ряді, вишикуваному в порядку зростання. Іншими словами, найменшому елементу ряду даних присвоюється ранг 1, другому за величиною – 2, і т.д. Якщо в ряді даних є повторювані елементи, їх ранг обчислюється як середнє значення тих рангів, які б вони мали, якби були різними. Приклад даних та їх рангів наве-дено у таблиці:

Дані 15,5 17,9 13,8 16,8 15,6 20,3 13,8 13,9 16,8 14,2 16,3Ранги 5 10 1 8,5 6 11 2 3 8,5 4 7

Зверніть увагу на два значення рангів 8.5 – їх мають повторювані значення 16.8. Якби ці значення були б різними, вони мали б ранги 8 і 9. Тому, ці елементи даних отримують усереднені ранги 8.5.

Після цього підраховують суми рангів позитивних і негатив-них різниць, середні значення позитивних і негативних рангів, на основі чого обчислюється статистика критерію (W), за якою ви-значається рівень значущості.

Для незалежних порівнянь використовується критерій Ман-на-Вітні (Mann-Witney). Для його обчислення елементи двох вибі-рок об’єднуються в одну спільну, ранжуються, після чого підрахо-вується середній ранг елементів одної і другої вибірки. На їх основі обчислюється статистика критерію (U), за якою визначається рі-вень значущості.

Нажаль, у LibreOffice непараметричні функції не реалізовані. В пакеті PSPP в розділі «Аналіз» – «Непараметричні критерії» до-ступні критерії знаків та Вілкоксона для парних порівнянь. Резуль-тат виглядає таким чином:

Page 37: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

37

Верхня таблиця містить статистику рангів, можна бачити, що переважають додатні ранги, тобто значення першої змінної (VAR001) є більшими за другу (VAR002). У другій таблиці наведе-но статистику критерія (позначена Z) та обчислений рівень значу-щості – 0.026, що дозволяє нам відкинути нульову гіпотезу і визна-ти вибірки відмінними.

Третя таблиця містить статистику знаків, зрозуміло, що також більше додатних різниць, а найнижча таблиця містить обчислений рівень значущості – при двосторонніх альтернативах він стано-вить 0.012, що також дозволяє нам відкинути нульову гіпотезу.

Page 38: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

38

Нормалізація даних

У випадку, коли аналізовані дані розподілені ненормально, але з певних причин ми не хочемо використовувати непараметричні критерії, можна застосувати процедури нормалізації7 даних. Вони полягають у математичному перетворенні даних для того, щоб роз-поділ модифікованих даних став нормальним. На практиці досить часто зустрічається ситуація, коли можливі значення вимірюваної величини обмежені з нижнього боку (наприклад, вага або лінійні розміри, які природно не можуть бути негативними) та можуть у невеликому числі випадків приймати досить великі значення. За таких умов розподіл даних буде асиметричним із більшим правим «хвостом». Застосування логарифмічної функції при цьому може скоригувати форму розподілу. Приклад розподілу «сирих» та нор-малізованих логарифмом даних наведено на наступному рисунку:

Можна бачити, що після логарифмування розподіл даних більш узгоджується із кривою нормального розподілу. Коефіцієн-ти асиметрії та ексцесу для «сирих» даних становили 3.9 та 2.4 від-повідно, що свідчило про ненормальність розподілу. Після норма-лізації вони становили -0.8 та -0.9 відповідно (нагадаємо, що межі «нормальності» зазначених показників ±2). Залежно від форми розподілу ваших даних можна підібрати і інші математичні пере-творення, які можуть нормалізувати його. Проте, під час аналізу слід пам'ятати, що ми працюємо з модифікованими даними._________________________________7 Не слід плутати нормалізацію (приведення розподілу даних до нормального) з нормуванням (приведенням даних у відносну, наприклад, відсоткову форму).

Page 39: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

39

Порівняння номінальних даних

Номінальні дані організовані найбільш просто – вони являють собою певні категорії, до яких належить певна кількість об’єктів. З метою порівняння, ця кількість переводиться у частоти – відсо-ткову форму. Здавалося б, найлегше, що ми можемо зробити для порівняння таких даних – прямо порівняти відповідні відсотки. Проте, в багатьох випадках, особливо, при малих обсягах вибірок, таке порівняння може ввести нас в оману

У популярному науковому блозі детально розібрано, які по-милки, в тому числі і статистичні, зроблені авторами однієї з ста-тей, в якій «доводиться» шкода ГМО8 (обговорювана стаття була відізвана редакцією журналу саме через недостовірність зробле-них висновків). Зокрема автори статті наводять дані, що у контр-ольній групі щурів смертність становила 30% і 20% серед самців і самок відповідно, натомість, у тварин, що вживали їжу з ГМО, цей показник становив 50% та 70%. На перший погляд цифри вража-ють, але прочитавши методику дослідження стає зрозумілим, що аналізувалися групи по 10 тварин, отже кожен піддослідний щур становив аж 10% від вибірки. Застосувавши статистичний метод порівняння, ми виявимо, що навіть різниця між групами самок (20% і 70%) не є статично значущою.

http://scinquisitor.livejournal.com/9724.html

Отже, навіть для таких простих даних як відсотки також по-трібно застосовувати статистичні методи.

Інколи ми очікуємо, що у відповідності з теорією об’єкти пови-нні бути розподіленими по категоріях певним чином. Наприклад, знаючи хромосомну теорію визначення статі у людини, ми можемо очікувати, що кількість народжуваних хлопчиків і дівчаток повинна співвідноситися як 1:1. Державне статистичне спостереження за-значає, що у 2013 році в Україні народилося 503700 немовлят, тобто _________________________________8 Генно-модифіковані організми.

Page 40: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

40

у відповідності з нашим припущенням кількість дітей кожної статі має становити 251850. Натомість, реальні дані свідчать про пере-важання хлопчиків: в той рік їх народилося 259909, на відміну від дівчаток, яких було 243791. Постає питання, чи відхилення в бік на-родження хлопчиків є випадковим або ж обумовлене якимись чин-никами. Зауважимо, що наведені числа відносяться до номінальних, а не кількісних, через те, що результатом одиничного спостережен-ня є факт народження хлопчика або дівчинки, а не якесь число. На-ведені ж числа є частотами двох альтернативних подій.

Згрупуємо дані у таблицю:

спостерігаємо теорія різницяхлопчики 259909 251850 8059дівчатка 243791 251850 8059

Така таблиця (без стовпчика «різниця») називається таблицею спряженості категорій. В даному випадку категорій дві, але табли-ці спряженості можуть бути і більшими.

Отже, чи є різниця в 3% між реальним життям і теорією випад-ковою? Для відповіді на це питання існують критерії узгодженості, найбільш поширеним з яких є критерій узгодженості c2 Пірсона (читається «хі-квадрат»). Статистика цього критерію обчислюєть-ся за формулою:

де – статистика тесту, = число спостережень типу i або ем-піричні дані (observations), – очікуване (теоретичне) число спостережень типу i (expectations), – число комірок у таблиці. При нульовій гіпотезі про узгодженість між експериментальни-ми даними і теорією c2=0, а чим значення статистики критерію є більшим, тим меншою є ймовірність, що різниця випадкова. За c2

обчислюється величина р, на основі якої ми приймаємо рішення, відкидати чи приймати нульову гіпотезу.

Page 41: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

41

Для наших даних c2 = 257.9, а р  =  0 (насправді, не точно 0, а 3*10-114). Таким чином, ми повинні відкинути нульову гіпотезу і ви-знати, що хлопчиків народжується з певних причин більше, ніж 50%. Дійсно, біологічні особливості процесів запліднення та вну-трішньоутробного розвитку людини такі, що на 106 хлопчиків на-роджується 100 дівчаток.Тест c2 часто використовується в генетиці, коли нам потрібно оці-нити, чи узгоджується спостережене розщеплення при схрещу-ванні різних організмів із теорією, визначеною законами Менделя (або іншими закономірностями успадкування). Приміром, у від-повідності до третього закону Менделя при схрещуванні гетеро-зиготних за двома ознаками організмів (нехай це буде класичний горох із жовтим гладеньким насінням) ми повинні спостерігати розщеплення 9:3:3:1 (жовті гладенькі – жовті зморшкуваті – зелені гладенькі – зелені зморшкуваті відповідно). Провівши таке схре-щування і порахувавши кількість рослин з різними комбінаціями ознак у наступному поколінні, ми отримали такі результати:

жов / гл жов / зм зел / гл зел / змспостерігаємо 675 208 245 88

теорія 684 228 228 76

В нижньому рядку наведено очікуваний розподіл, який був розра-хований як пропорції 9/16, 3/16 та 1/16 (16=9+3+3+1) від суми усіх емпіричних даних. Обчислене значення c2 становить 1.26, а визна-чене р = 0.18. Отже, ми не можемо відкинути нульову гіпотезу і ви-знаємо емпіричний розподіл еквівалентним теоретичному 9:3:3:1. Іншими словами, визнаємо, що відхилення між спостереженням та теорією є випадковим.Зауважимо, що для таблиць 2х2 як у прикладі з народжуваністю, статистику c2 потрібно обчислювати за дещо відмінним алгорит-мом – з поправкою Йейтса на неперевність даних. Більшість ста-тистичних програм мають можливість обрати між двома варіанта-ми – c2 та c2 з поправкою (Yates correction, correction for continuity). У випадку, якщо кількість спостережень однієї з категорій (або ж теоретичне значення частоти) є меншою за 10, c2 навіть з по-

Page 42: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

42

правкою погано вирішує поставлену задачу. В такому випадку слід використовувати тест Фішера (точний тест Фішера, Fisher’s exact test, не плутати з F-тестом для порівняння дисперсій, який також є тестом Фішера). В LibreOffice обчислення c2 здійснюється функцією CHISQ.TEST або CHITEST, аргументами якої є два ряди даних з частотами роз-поділів, а результатом – обчислене р. Слід звернути увагу, що ця процедура не враховує поправку Йейтса для таблиць 2х2. В пакеті PSPP є опція «Аналіз» – «Непараметричні критерії» – «c квадрат». На відміну від LibreOffice та розглянутих вище приладів вона працює не з частотами категорій, а з сирими даними – змін-ними, які містять інформацію про окремі виміри. В якості теоре-тичних частот можна зазначити дефолтний варіант «частоти усіх категорій рівні» або ввести свої розрахунки. Обчислити c2 можна і онлайн, наприклад, за посиланням:

http://www.quantpsy.org/chisq/chisq.htm

Алгоритм цього сайту враховує і поправку Йейтса.

Також, існують онлайн версії і тесту Фішера:http://www.langsrud.com/stat/fisher.htm

Page 43: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

43

Зважаючи, що невеликі таблиці 2х2 складаються всього з чоти-рьох значень, в даному випадку використання онлайн ресурсів є досить зручним.

Аналіз узгодженості двох рядів даних

В багатьох дослідженнях ми реєструємо одночасно кілька параме-трів (наприклад, показники функціонального стану пацієнтів при лі-куванні), і нас цікавить, наскільки різні параметри є пов’язаними між собою. Вирішити таку задачу нам допоможе кореляційний аналіз. Під кореляцією двох величин ми розуміємо таку ситуацію, коли змі-на однієї з них в певному напрямку (зростання/зменшення) супрово-джується систематичною зміною іншою величини. Позитивна коре-ляція характеризує такий зв’язок між величинами, коли зростання однієї з них супроводжується зростанням іншої (наприклад, більш високі люди як правило мають більшу вагу). Негативна кореляція спостерігається, коли зростання однієї величини супроводжується зменшенням іншої (наприклад, середні розміри тіла лисиць різних видів негативно корелюють з температурою оточуючого середови-ща – екологічне правило Аллена). Графічно зв’язок двох параметрів зображають у вигляді скатерограми – графіка, абсциси і ординати точок котрого відповідають значенням кожного з параметрів. Зрозу-міло, що таблиці для кореляційного аналізу повинні бути побудовані таким чином, що рядки відповідають дослідженим об’єктам, а стовп-ці – виміряним параметрам. Як і у випадку парних порівнянь кожна пара вимірів повинна бути здійснена на одному об'єкті.

Приклади скатерограм наведені на наступному рисунку:

А Б В

Page 44: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

44

Можна бачити, що на графіку А зв’язку між двома величинами практично немає – більшим значенням абсциси можуть відповіда-ти як більші, так і менші значення ординати. Натомість, на графі-ку Б більшим значенням абсциси відповідають переважно більші значення ординати, тобто спостерігаємо позитивну кореляцію між аналізованими величинами. На графіку В усі точки скатерограми розташовані на одній лінії таким чином, що найменшим значен-ням абсциси відповідають найбільші значення ординати і навпаки. В такому випадку ми говоримо про найвищу ступінь кореляції – функціональний зв’язок між досліджуваними величинами, в да-ному випадку негативний.

Числовою мірою кореляції є коефіцієнт кореляції, який най-частіше позначається r або r. Він може набувати значень у діапа-зоні [-1; 1]. Чим більшим є абсолютне значення коефіцієнта ко-реляції, тим сильніше, істотніше зв'язок між двома величинами. Значенням r, близьких до -1 або r = 1 відповідають функціональ-ні зв'язки. При r = 0 зв'язок між величинами повністю відсутній. Трьом зображеним вище скатерограмам відповідають такі значен-ня коефіцієнтів кореляції А = 0.25, Б = 0.8, В = -1.

На практиці коефіцієнти кореляції найчастіше інтерпретують-ся таким чином:

r = 0 зв’язок відсутній абсолютно0 < |r| < 0.3 зв’язок дуже слабкий, не розглядається

0.3 ≤ |r| < 0.5 зв’язок слабкий0.5 ≤ |r| < 0.7 зв’язок середній0.7 ≤ |r| < 0.9 зв’язок сильний0.9 ≤ |r| ≤ 1 зв’язок дуже сильний, до функціонального

Як і у випадку з іншими статистичними критеріями, високі коефіцієнти кореляції можуть бути наслідком випадкових поєд-нань в дійсності незалежних величин, тому окрім власне значен-ня r в кореляційному аналізі обчислюється і відповідний рівень значущості, який повинен бути рівним або менше стандартного порогу в 0.05. Якщо коефіцієнт кореляції є незначущим, ми не можемо говорити про наявність зв’язку, навіть при високих зна-

Page 45: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

45

ченнях r (як правило, це спостерігається при малих обсягах ви-бірок).

Існує кілька алгоритмів розрахунку кореляційного зв’язку. Для нормально розподілених кількісних даних обчислюють нормаль-ну або параметричну кореляцію (коефіцієнт кореляції Пірсо-на). Для порядкових або ненормально розподілених даних засто-совують рангові коефіцієнти кореляції Спірмена або Кенделла (останній може позначатися в статистичних програмах не як r, а як τ). Рангові коефіцієнти кореляції менш чутливі до наявності в да-них викидів та наявності нелінійних зв'язків між даними. Напри-клад, на рисунку нижче показано взаємозв'язок між величинами X та Y. Можна бачити, що коефіцієнт Спірмена відображає його більш адекватно, ніж коефіцієнт Пірсона.

В цілому, коефіцієнт кореляції Пірсона добре відображає ліній-ний зв’язок між аналізованими параметрами, тобто такий, що гра-фічно зображається точками скатерограми, які формують більш чи менш витягнуту «хмарку» навколо прямої, наприклад рис. Б. За таких умов параметричний і рангові коефіцієнти кореляції будуть давати подібні результати. В деяких випадках лінійне зростання однієї з досліджуваних величин може супроводжуватися логариф-мічним або експоненційним зростанням другої величини (мате-

Page 46: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

46

матична функція тут може бути будь-якою). Тоді слід використо-вувати рангові коефіцієнти, або ж проводити модифікацію даних для приведення їх у лінійний вид (використавши функцію, обер-нену до тієї, яка гіпотетично характеризує наші дані; наприклад, логарифм – експонента, корінь – піднесення до ступеня, і т.д.).

В LibreOffice реалізований розрахунок коефіцієнту кореляції Пір-сона, для обчислення якого слід скористатися функцією CORREL(). На жаль, програма не дає можливості обчислити рівень значущості отриманого коефіцієнта. В програмі PSPP також реалізований алго-ритм Пірсона (меню «Аналіз» – «Двовимірна кореляція»).

Для практичного прикладу ми скористаємося результатами виконання учнями України завдань олімпіади з біології (2014-2015 н.р., 3 етап, дані доступні на Українському біологічному сайті http://biology.org.ua/). Ми обрали дані учнів 10 класу: тести А, B, C (завдання різної форми та складності), експериментальні задачі №1 і №2, сума балів за тести ABC – TEST, сума балів за задачі – EXP, та сума балів за всю олімпіаду – TOTAL. Результати наведено у на-ступній таблиці.

Page 47: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

47

Таблиця такої форми, в якій відображено коефіцієнти кореля-ції між усіма можливими парами змінних, називається кореляцій-ною матрицею. Її головна діагональ містить коефіцієнти кореляції між однаковими змінними, які завжди рівні 1. Частина кореляцій-ної матриці над головною діагоналлю та під нею є симетричними. Кожна комірка таблиці містить саме значення r, його рівень значу-щості та число аналізованих пар даних. Можна бачити, що резуль-тати виконання учнями тестів A, B, C є пов’язаними. Закономірно, порівняно високий кореляційний зв’язок зареєстровано між ре-зультатами виконання окремих частин олімпіадного завдання та сумарною оцінкою (TEST, EXP, TOTAL). Звернемо увагу на виділені кольором комірки. Між параметрами TEST та EXP спостерігаєть-ся дуже слабкий кореляційний зв’язок, що говорить про фактичну незалежність результатів за ці дві форми роботи. Коефіцієнт коре-ляції між результатами виконання двох експериментальних задач (E1-E2) також є дуже низьким і навіть негативним, що говорить про те, що ці два завдання вимагали від учнів демонстрації різних знань, умінь і навичок. В даному випадку відсутність кореляції є свідченням різноманітності пропонованих завдань і є непоганим критерієм якості олімпіадного тесту.

У випадку, коли ми одночасно аналізуємо велику кількість па-раметрів, представлення результатів кореляційного аналізу у ви-гляді кореляційної матриці є незручним для сприйняття. В тако-му випадку краще побудувати кругову матричну діаграму (circos diagram), по периметру якої розташовані мітки аналізованих ве-личин, які об’єднані лініями, товщина і колір яких пропорційні величині коефіцієнтів кореляції. Нижче наведено приклад такої діаграми.

Вона відображає зв’язок між різними параметрами стану здоров’я та певними молекулярно-біологічними особливостями людини. Як варіант, корельовані показники можна об’єднати в групи та розташувати у два стовпчики або вздовж сторін трикут-ника (особливо такий підхід є влучним, якщо логічно можна виді-лити дві або три групи аналізованих параметрів).

Page 48: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

48

Кореляція не означає причинність

Інтерпретуючи результати кореляційного аналізу, слід пам’ятати, що наявність статистично значущого зв’язку між ве-личинами не означає наявності між ними причинно-наслідкового зв’язку.

Загалом, між досліджуваними параметрами А і Б можуть бути такі зв’язки:

• А є причиною Б;• Б є причиною А;• А і Б є незалежними наслідками спільної причини;• А обумовлює Б, але одночасно Б обумовлює А;• А є причиною В, а В в свою чергу є причиною Б;• А і Б ніяк не пов’язані, кореляція між ними є випадковою.

Page 49: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

49

Наприклад, діти з більшою вагою демонструють кращі резуль-тати в тесті на розумові здібності. Напрошується висновок, що вага пов’язана з інтелектом, і для виховання більш розумної дитини, її слід багато годувати. Проте, обидва параметри є наслідком тре-тьої причини – процесу росту і розвитку організму із збільшенням віку, а тому прямого зв’язку між ними немає. Більш анекдотичні результати дають параметри кількості церков у місті та рівень зло-чинності – вони позитивно корелюють. Зрозуміло ж, що не церкви є джерелом злочинності, а обидва показники є наслідком кількості жителів у місті.

Навіть, якщо між аналізованими величинами існує реальний причинно-наслідковий зв’язок, за коефіцієнтом кореляції ми не мо-жемо встановити його напрямок (А обумовлює Б, або ж навпаки).

В деяких випадках справедливим є і обернене твердження – відсутність значущої кореляції не є гарантією незалежності змін-них. Наприклад, розглянемо дві змінні:

Наявність взаємозв’язку між цими величинами є очевидною, проте коефіцієнт кореляції в даному випадку дорівнюватиме 0.

Page 50: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

50

Більш складні статистичні методи

Вище ми описали базові статистичні методи аналізу даних, якими повинен володіти кожен дослідник. Проте, арсенал сучасної статистики включає в себе чимало інших, більш складних методів, яким присвячена спеціальна література. Ми описово зупинимося на деяких з них, щоб дати загальне уявлення, куди слід рухатися, якщо при аналізі ваших даних виникне ситуація, коли описаних методів не вистачає для відповіді на запитання експериментатора.

Досить часто експеримент будується таким чином, що дослі-джуваний фактор (або кілька факторів) може приймати кілька різних фіксованих рівнів значень. Виявлення ефекту даного фак-тора може бути здійсненим за допомогою парних або незалежних порівнянь, проте, якщо ми вивчаємо вплив фактора на кілька різних параметрів одночасно, і фактор приймає більше, ніж два, рівня значень, нам потрібно здійснити чималу кількість порів-нянь, що може бути досить трудомістким. Крім того, здійсню-ючи багато порівнянь одночасно ми стикаємося із проблемою зростання ймовірності здійснити статистичну помилку першо-го роду (відкидання нульової гіпотези, коли вона справедлива). Якщо прийнятий нами рівень значущості 0.05 і ми здійснюємо одне порівняння, ймовірність помилитися становить, відповід-но, 5%. Якщо ж ми одночасно здійснюємо 100 порівнянь, ймовір-ність помилитися хоча б один раз становить вже 99.4%, тобто ми практично гарантовано здійснимо помилку. В такому випадку необхідно застосовувати алгоритми корекції ефекту множинних порівнянь.

Одним з методів аналізу даних в такій моделі є дисперсійний аналіз або ANOVA (Analysis of variance) Методи ANOVA розгля-дають кількісні дані як суму внеску ефекту дії досліджуваного фак-тора та певної випадкової величини. Відповідно, основне питання полягає у тому, яка частина вибіркової дисперсії обумовлена саме дією фактора, що нас цікавить, – якщо вона істотна, ми визнаємо ефект дії фактора значущим.

Page 51: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

51

При однофакторному дисперсійному аналізі (One-way) об-числюється статистика F, яка відображає співвідношення диспер-сії, обумовленої дією фактора, та «випадкової» дисперсії. За цією статистикою обчислюється рівень значущості р, на основі якого ми робимо висновок про гомогенність аналізованих вибірок, тоб-то відсутність впливу фактора, або ж протилежний.

Приклад однофакторного дисперсійного аналізу, застосовано-го у програмі PSPP до вже аналізованих олімпіадних оцінок. В да-ному випадку в якості фактора для аналізу ми обрали регіон Укра-їни, в якому навчалися учні.

Можна бачити, що р = 0.005, тобто фактор «регіон» значущо впливає на результати учнів. Тепер для того, щоб виявити, учні яких областей країни показали відносно кращі результати, потріб-но застосувати одну з процедур post-hoc аналізу. Такими проце-дурами можуть бути попарні (не плутати з парними) порівняння за допомогою t-тесту або ж спеціалізовані процедури множинного порівняння (Multiple Range Tests), які враховують ефект множин-них порівнянь. Як правило, вони видають матрицю, в якій вибірки з подібними результатами об’єднуються у гомогенні групи. В дано-му випадку матриця виглядає таким чином:

Page 52: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

52

Видно, що найкращі результати (за середнім значенням Mean) показали учні Волинської області (VOL), проте, результати цих учнів значущо відрізняються лише від результатів трьох регіонів (хрестик у стовпчику позначає гомогенну групу, яких у цій матри-ці чотири). Зауважимо, що без використання ANOVA для того, щоб порівняти кожну область з кожною іншою, ми повинні були б провести 600 попарних порівнянь.

Дисперсійний аналіз застосовується до нормально розподі-лених кількісних даних. Для інших числових даних існують екві-валентні рангові процедури, наприклад, тест Краскелла-Уолліса.

Page 53: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

53

Його статистика обчислюється на основі рангів груп даних. Ре-зультат його виконання наведено нижче:

Можна бачити, що як і у випадку застосування ANOVA гете-рогенність результатів в залежності від регіону є статистично зна-чущою (значення р), а найкращий результат (найвищий середній ранг) також у учнів Волинської області. Даний тест є більш про-стим, проте не дозволяє розділити дані на гетерогенні групи. Для цього слід використати попарні рангові порівняння, наприклад, критерій Манна-Вітні. Незважаючи на це, процедура може істотно

Page 54: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

54

скоротити час аналізу даних, якщо більша їх частина належить до гомогенних груп.

Ускладненням задачі однофакторного аналізу є двофакторний аналіз – коли на досліджуване явище одночасно діють два факто-ри, кожен з яких приймає значення різних рівнів. При цьому змі-ни досліджуваної величини можуть бути обумовленими як дією фактора А, так і дією фактора Б, а також їх взаємодією, яка може давати позитивний (ефект А+Б більше, ніж А і Б окремо) або не-гативний (ефект А або Б окремо більше, ніж сумісний ефект А+Б) результати. Методи вирішення такої задачі називаються двофак-торним дисперсійним аналізом (Two-way ANOVA).

В більш складному випадку на досліджуваний об’єкт можуть діяти більше, ніж два фактори. В такому випадку допоможуть складні методи багатовимірного аналізу.

Інший клас статистичних задач виникає тоді, коли ми не мо-жемо напряму побачити фактор(и), який обумовлює реєстровані ефекти, а лише спостерігати наслідки його дії. В деяких випадках нам невідомо навіть число таких факторів. Подібні задачі часто виникають в соціології, оскільки причини, що впливають на по-ведінку суспільства, далеко не завжди очевидні. В такому випадку застосовують методи факторного аналізу (Factor Analysis). Їх не слід плутати з пригаданими вище одно– та двофакторними дис-персійними аналізами, коли нам відомо, які фактори діяли на екс-периментальні об’єкти.

Кластерний аналіз дозволяє класифікувати сукупність наших даних на основі їх величин, групуючи подібні точки за їх подібніс-тю. Результат виділення кластерів виглядає таким чином:

Page 55: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

55

Для виділення кластерів часто застосовуються алгоритми не-йромереж.

Окремий клас статистичних задач становить аналіз часових рядів – вивчення зміни різних параметрів в часі. При цьому до-слідників можуть цікавити наявність періодичних процесів (ре-гулярні спади та наростання) та наявність трендів (тенденції до зростання або спадання).

Зліва зображено набір аналізованих даних, класифікованих «вручну» (параметри функціонування головного мозку та різні фази циклу сон-неспання), справа – ті ж дані, проаналізовані автоматичним

алгоритмом. Можна бачити, що «ручний» та автоматичний аналізи дають подібні результати, натомість автоматичний

в десятки разів швидший.

Page 56: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

56

Етапи обробки даних

1. Планування експерименту• структура експерименту;• які будуть отримані дані;• як планується аналізувати дані.

2. Отримання даних і формування електронних таблиць для аналізу

3. Перевірка кількісних даних на нормальність: коефіцієнти асиметрії та ексцесу; тести Шапіро-Вілка, Лілієфорса, Колмогоро-ва-Смірнова

4. Опис і порівняння даних

кількісні параметричні дані

кількісні непараметричні дані; порядкові дані

номінальні дані

опис даних M, s, m Me, LQ, HQ частоти

порівняння двох вибірок

t-критерій Стьюдента

критерії знаків або знакових рангових сум Вілкоксона (залежні вибірки),критерій Манна-Вітні (незалежні вибірки) критерій c2

аналіз узгодженості двох рядів даних

коефіцієнт кореляції Пірсона

рангові коефіцієнти кореляції Спірмена або Кенделла

5. Інтерпретація результатів та оформлення висновків.

Page 57: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

57

Статистичний словникпланування експерименту design of experimentсліпий метод проведення експерименту

blind experiment

подвійний сліпий метод double blind experimentдані dataвибірка sampleдовірчий інтервал confidence intervalнормальний розподіл normal distributionпараметричні методи parametric methodsнепараметричні методи non-parametric methodsчастоти frequenciesнормування normalizationсереднє арифметичне meanмедіана medianмода modeсередньоквадратичне відхилення standard deviation, SDдисперсія disperseкоефіцієнт варіації coefficient of variationстандартна похибка standard errorнижній і верхній квартилі lower and upper quartilesкоефіцієнт асиметрії skewnessексцес kurtosisстатистичні критерії: statistical criteria, statistical tests:

Шапіро-Вілка Shapiro-WilkЛіллієфорса LillieforsКолмогорова-Смірнова Kolmogorov-SmirnovСтьюдента Studentзнаків sign testрангових знакових сум (Вілкоксона)

signed-rank test (Wilcoxon)

Манна-Вітні Mann-Witneyхі-квадрат Пірсона Pearson’s chi-squareточний тест Фішера Fisher’s exact testКраскелла-Уолліса Kruskall-Wallis

Page 58: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

58

діаграма «коробка з вусами» box-and-whiskers plotдіаграма diagramграфік chart, graphкругова матрична діаграма circos diagramміжквартильний розмах interquartile rangeвикид outlierнульова гіпотеза null hypothesisальтернативна гіпотеза alternative hypothesis, alternativeодностороння альтернатива one-tailed alternativeдвостороння альтернатива two-tailed alternativeрівень значущості significance levelпарні порівняння pared testнезалежні порівняння independent comparison,

independent samplesзалежні вибірки pared samplesкореляція correlationскатерограма scattergram, scatter plotкоефіцієнт кореляції Пірсона Pearson’s correlation coefficientранговий коефіцієнт кореляції Спірмена

Spearman’s rank correlation coefficient

ранговий коефіцієнт кореляції Кенделла

Kendall rank correlation coefficient

дисперсійний аналіз Analysis of variance, ANOVA

Page 59: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

59

Джерела ілюстрацій

стор. 11 – «Normal distribution pdf». Licensed under CC BY-SA 3.0 via Wikimedia Commons – https://commons.wikimedia.org/wiki/File:Normal_distribution_pdf.png#/media/File:Normal_distribution_pdf.png

стор. 21 – «Comparison mean median mode» by Cmglee – Own work. Licensed under CC BY-SA 3.0 via Wikimedia Commons – http://commons.wikimedia.org/wiki/File:Comparison_mean_median_mode.svg#/media/File:Comparison_mean_median_mode.svg

стор. 26 – From «I f***ing love science» FB pageстор. 43 – «Spearman fig1» by Skbkekas – Own work This graphic was

created with matplotlib.. Licensed under CC BY-SA 3.0 via Wikimedia Commons – https://commons.wikimedia.org/wiki/File:Spearman_fig1.svg#/media/File:Spearman_fig1.svg

стор. 46 – http://www.translational-medicine.com/content/9/1/195/figure/F3

стор. 48 – «Uncorrelated sym» by Madbix – Own work. Licensed under CC BY-SA 3.0 via Wikimedia Commons – https://commons.wikimedia.org/wiki/File:Uncorrelated_sym.png#/media/File:Uncorrelated_sym.png

Додаткова інформація

http://blacknick.info/book-stat/

Зв’язок з автором

Зауваження, пропозиції, коментарі приймаються за адресою

[email protected]

Page 60: СТАТИСТИКА ДЛЯ ЮНИХ НАУКОВЦІВman.gov.ua/files/49/Cherninskiy_Statistika.pdf · Складні форми експериментів можуть передбачати

60

Зміст

Вступ 3Для чого ж потрібні статистичні методи? 4Статистичні програми 7Дані і вибірки 8Типи даних 8Вибірка 10Якою повинна бути чисельність вибірки для достовірного перенесення вибіркових данихна генеральну сукупність?

10

Якими бувають вибірки 12Для чого потрібно знати, як розподілені наші дані? 14Як визначити, чи належать ваші дані до нормальних? 15Опис параметрів вибірок 15Номінальна шкала 15Числові дані 17Визначення нормальності розподілу 20Представлення даних 22Загальні принципи перевірки статистичних гіпотез 24Графічне представлення даних 24Загальні принципи перевірки статистичних гіпотез 26Порівняння вибірок 29Порівняння нормальних даних 30Порівняння непараметричних даних 35Нормалізація даних 38Порівняння номінальних даних 39Аналіз узгодженості двох рядів даних 43Кореляція не означає причинність 48Більш складні статистичні методи 50Етапи обробки даних 56Статистичний словник 57