Хі-квадрат (χ2) Статистичне визначення

28.04.2021

Що таке статистика хі-квадрат?

Статистика хі-квадрат ( χ 2 ) – це тест, який вимірює порівняння моделі з фактичними спостережуваними даними. Дані, що використовуються при обчисленні статистики хі-квадрат, повинні бути випадковими, необробленими, взаємовиключними, взятими з незалежних змінних та взятими з досить великої вибірки. Наприклад, результати кидання чесної монети відповідають цим критеріям.

Тести на хі-квадрат часто використовуються для перевірки гіпотез. Статистика хі-квадрат порівнює розмір будь-яких розбіжностей між очікуваними результатами та фактичними результатами, враховуючи розмір вибірки та кількість змінних у взаємозв’язку. Для цих тестів використовуються ступені свободи, щоб визначити, чи можна відхилити певну нульову гіпотезу на основі загальної кількості змінних та вибірки в експерименті. Як і будь-яка статистика, чим більший обсяг вибірки, тим надійніші результати.

Ключові винос

Статистика хі-квадрат ( χ 2 ) є мірою різниці між спостережуваною та очікуваною частотою результатів набору подій або змінних.
χ 2 залежить від величини різниці між фактичними та спостережуваними значеннями, ступенів свободи та розміру вибірки.
χ 2 може бути використаний для перевірки того, чи є дві змінні пов’язаними чи незалежними одна від одної, або для перевірки відповідності між спостережуваним розподілом та теоретичним розподілом частот.

Формула хі-квадрат є

Що говорить вам статистика хі-квадрат?

Існує два основних види тестів хі-квадрат: тест незалежності, який задає питання взаємовідносин, наприклад, “Чи існує взаємозв’язок між статтю студента та вибором курсу?”; і тест на придатність, який запитує щось на зразок “Наскільки монета в моїй руці відповідає теоретично справедливій монеті?”

Незалежність

При розгляді статі студента та вибору курсу можна використовувати тест χ 2 на самостійність. Для цього тесту дослідник збирав дані про дві обрані змінні (стать та вибрані курси), а потім порівнював частоти, на яких студенти чоловічої та жіночої статі вибирають серед пропонованих класів, використовуючи формулу, наведену вище, та статистичну таблицю χ 2.

Якщо немає взаємозв’язку між статтю та вибором курсу (тобто, якщо вони незалежні), то фактичні частоти, на яких студенти чоловічої та жіночої статі обирають кожен запропонований курс, повинні бути приблизно рівними, або навпаки, частка чоловіків та студентки будь-якого обраного курсу повинні приблизно дорівнювати частці студентів та жінок у вибірці. Тест χ 2 на незалежність може сказати нам, наскільки ймовірно, що випадковий шанс може пояснити будь-яку спостережену різницю між фактичними частотами даних і цими теоретичними очікуваннями.

Добрість

χ 2 надає спосіб перевірити, наскільки вибірка даних відповідає (відомим чи передбачуваним) характеристикам більшої сукупності, яку призначена вибірка. Якщо дані вибірки не відповідають очікуваним властивостям сукупності, яка нас цікавить, тоді ми не хотіли б використовувати цю вибірку для висновків щодо більшої сукупності.

Наприклад, розгляньте уявну монету з рівним шансом 50/50 посадки голови чи хвоста і справжню монету, яку ви кидаєте 100 разів. Якщо ця реальна монета має справедливий характер, то вона також матиме однакову ймовірність приземлитися з будь-якої сторони, і очікуваний результат кидання монети 100 разів полягає в тому, що голови піднімуться 50 разів, а хвости піднімуться 50 разів. У цьому випадку χ 2 може сказати нам, наскільки реальні результати 100 перекидів монет порівняно з теоретичною моделлю, згідно з якою справедлива монета дасть 50/50 результатів. Фактичний жеребкування може скласти 50/50, або 60/40, або навіть 90/10. Чим далі фактичні результати 100 жетонів віддаляються від 50/50, тим менша відповідність цього набору жеребів теоретичним очікуванням 50/50 і тим більше шансів, що ми можемо зробити висновок, що ця монета насправді не є справедливою монета.