Добрість

Що таке добрість?

Тест на придатність – це тест статистичної гіпотези, щоб побачити, наскільки добре вибіркові дані відповідають розподілу із сукупності із нормальним розподілом. Якщо сказати інакше, цей тест показує, чи ваші зразкові дані представляють дані, які ви очікували б знайти у фактичній сукупності, чи вони якось перекошені. Добрість придатності встановлює розбіжність між спостережуваними значеннями та тими, які можна було б очікувати від моделі у звичайному випадку розподілу.

Існує безліч методів визначення придатності. Деякі з найпопулярніших методів, що використовуються в статистиці, включають хі-квадрат, тест Колмогорова-Смірнова, тест Андерсона-Дарлінга та тест Шипіро-Вілка.

Ключові винос

  • Тести на придатність – це статистичні тести, що мають на меті визначити, чи набір спостережуваних значень відповідає очікуваним за відповідною моделлю.
  • Існує декілька типів тестів на придатність, але найпоширенішим є тест на хі-квадрат.
  • Хі-квадрат визначає, чи існує зв’язок між категоріальними даними.
  • Тест Колмогорова-Смірнова, що використовується для великих вибірок, визначає, чи походить вибірка із конкретного розподілу сукупності.
  • Тести на придатність можуть показати, чи відповідають ваші вибіркові дані очікуваному набору даних із сукупності із нормальним розподілом.

Розуміння доброти придатності

Тести на придатність – це статистичні методи, які часто використовують для висновків про спостережувані значення. Ці тести визначають, наскільки фактичні значення пов’язані з прогнозованими значеннями в моделі, і коли вони використовуються при прийнятті рішень, тести на відповідність можуть допомогти передбачити майбутні тенденції та закономірності.

Найпоширенішим тестом на придатність є тест хі-квадрат, який зазвичай використовується для дискретного розподілу. Тест хі-квадрат використовується виключно для даних, що вводяться в класи (біни), і для отримання точних результатів потрібен достатній обсяг вибірки.

Короткий огляд

Тести на придатність зазвичай використовуються для перевірки нормальності залишків або для визначення того, зібрані дві проби з однаковим розподілом.

Види тестів на придатність

Тест хі-квадрат

Тест хі-квадрат, також відомий як тест хі-квадрат незалежності, – це метод виведення статистики, який перевіряє обґрунтованість твердження про сукупність на основі випадкової вибірки. Однак це не вказує на тип або інтенсивність стосунків. Наприклад, він не робить висновок, позитивні чи негативні стосунки.

Короткий огляд

Щоб претендувати на тест хі-квадрат на незалежність, змінні повинні бути взаємовиключними.

Щоб розрахувати хи-квадрат пристосованості, необхідно встановити бажаний альфа-рівень значущості (наприклад, якщо ваш рівень впевненості становить 95% або 0,95, тоді альфа дорівнює 0,05), визначте категоріальні змінні, щоб тест і визначити твердження гіпотези про взаємозв’язки між ними. Нульова гіпотеза стверджує, що ніякого відношення не існує між змінними, і альтернативна гіпотеза припускає, що існує зв’язок. Частота спостережуваних значень вимірюється і згодом використовується з очікуваними значеннями та ступенями свободи для обчислення хі-квадрата. Якщо результат нижчий за альфа, нульова гіпотеза недійсна, що вказує на зв’язок між змінними.

Проба Колмогорова-Смірнова

D=макс⁡1≤i≤N(F(Yi)-i-1N,iN-F(Yi))D = \ max \ limit_ {1 \ leq i \ leq N} \ bigg (F (Y_i) – \ frac {i-1} {N}, \ frac {i} {N} -F (Y_i) \ bigg)D=1≤i≤NmaxU( F(YiU)-N

Названий на честь російських математиків Андрія Колмогорова та Миколи Смирнова, тест Колмогорова-Смірнова (також відомий як тест КС) є статистичним методом, який визначає, чи є вибірка з конкретного розподілу в популяції. Тест Колмогорова-Смірнова – рекомендований для великих зразків (наприклад, понад 2000) – є непараметричним, тобто він не покладається на будь-який розподіл, який буде дійсним. Він фокусується. Мета – довести нульову гіпотезу, яка є зразком нормального розподілу.

На відміну від тесту хі-квадрат, тест Колмогорова-Смірнова застосовується до неперервних розподілів. Як і хі-квадрат, він використовує нульову та альтернативну гіпотезу та альфа-рівень значущості. Нуль вказує на те, що дані відповідають певному розподілу в популяції, а альтернатива вказує на те, що дані не слідують за конкретним розподілом у популяції. Альфа використовується для визначення критичного значення, що використовується в тесті.

Розрахована статистика тесту, яку часто позначають як D, визначає, прийнята чи відхилена нульова гіпотеза. Якщо D більше критичного значення в альфа-режимі, нульова гіпотеза відхиляється. Якщо D менше критичного значення, приймається нульова гіпотеза, що вказує

Тест Шипіро-Вілька

Тест Шипіро-Вілка визначає, чи відповідає зразок нормальному розподілу. Використовуючи зразок з однією змінною безперервних даних, тест Шипіро-Вілка перевіряє лише нормальність. Рекомендується для невеликих розмірів вибірки до 2000 року. Як і інші, він використовує альфа-формулу та формує дві гіпотези: нульову та альтернативну. Нульова гіпотеза стверджує, що зразок походить від нормального розподілу, тоді як альтернативна гіпотеза стверджує, що вибірка не походить від нормального розподілу.

Тест Шипіро-Вілка використовує графік ймовірностей, який називається QQ Plot. Цей розсіяний графік візуально відображає два набори квантилей на осі y, розташованих від найменшого до найбільшого. Якщо кожен квантиль отриманий з одного і того ж розподілу, то розсіяний графік відображатиме лінійний ряд графіків. Тест Шипіро-Вілка використовує графік QQ для оцінки дисперсії. Використовуючи дисперсію QQ Plot разом із оціненою дисперсією сукупності, можна визначити, чи належить вибірка до нормального розподілу. Якщо фактор обох дисперсій дорівнює або близький до 1, тоді може бути прийнята нульова гіпотеза. Якщо значно нижче 1, його можна відхилити.

Приклад тесту на придатність

Наприклад, невеликий тренажерний зал може працювати при припущенні, що його найбільша відвідуваність – у понеділок, вівторок та суботу, середня відвідуваність у середу та четвер, а найменша – у п’ятницю та неділю. Виходячи з цих припущень, у тренажерному залі щодня працює певна кількість співробітників, які проводять реєстрацію членів, прибирають приміщення, пропонують послуги з навчання та проводять уроки.

Однак тренажерний зал погано працює у фінансовому плані, і власник хоче знати, чи правильні ці припущення щодо відвідування та рівень штатного розкладу. Власник вирішує підраховувати кількість відвідувачів спортзалу щодня протягом шести тижнів. Потім він може порівняти передбачувану відвідуваність тренажерного залу із спостережуваною відвідуваністю, використовуючи, наприклад, тест на пристосованість хі-квадрат. За новими даними він може визначити, як найкраще керувати тренажерним залом та підвищити прибутковість.

Поширені запитання щодо доброти

Що означає доброта придатності?

Goodness-of-Fit – це тест статистичної гіпотези, який використовується, щоб побачити, наскільки ретельно відстежувані дані відображають очікувані дані. Тести Goodness-of-Fit можуть допомогти визначити, чи відповідає вибірка нормальному розподілу, чи пов’язані категоріальні змінні, чи випадкові вибірки з того самого розподілу.

Чому доброта підгонки важлива?

Тести Goodness-of-Fit допомагають визначити, чи співпадають спостережувані дані з очікуваним. Рішення можуть прийматися на основі результатів проведеного тесту на гіпотезу. Наприклад, роздрібний торговець хоче знати, який товар пропонує молодим людям. Роздрібний продавець опитує випадкову вибірку старих та молодих людей, щоб визначити, який товар є кращим. Використовуючи хі-квадрат, вони виявляють, що з 95% впевненістю існують стосунки між товаром А та молоддю. На основі цих результатів можна було б визначити, що ця вибірка представляє популяцію молодих дорослих. Роздрібні маркетологи можуть використовувати це для реформування своїх кампаній.

Що таке добрість у тесті на хі-квадрат?

Перевірка хі-квадрат, чи існують зв’язки між категоріальними змінними та чи представляє вибірка ціле. Він оцінює, наскільки точно спостережувані дані відображають очікувані дані або наскільки вони відповідають.

Як ви робите тест на придатність?

Тест Goodness-of-FIt складається з різних методів тестування. Мета тесту допоможе визначити, який метод використовувати. Наприклад, якщо метою є перевірка нормальності на відносно невеликій вибірці, може підійти тест Шипіро-Вілка. Якщо потрібно визначити, чи вибірка походить із конкретного розподілу в популяції, буде використаний тест Колмогорова-Смірнова. Кожен тест використовує свою унікальну формулу. Однак вони мають спільні риси, такі як нульова гіпотеза та рівень значущості.

Суть

Тести на придатність визначають, наскільки дані вибірки відповідають очікуваному від сукупності. На основі даних вибірки збирають спостережуване значення та порівнюють із розрахунковим очікуваним значенням за допомогою міри невідповідності. Доступні різні тести гіпотез на придатність, залежно від того, якого результату ви прагнете.

Вибір правильного тесту на придатність значною мірою залежить від того, що ви хочете знати про зразок, і від того, наскільки великим є зразок. Наприклад, якщо ви хочете дізнатись, чи спостерігаються значення для категоріальних даних відповідають очікуваним значенням для категоріальних даних, використовуйте хі-квадрат. Якщо ви хочете дізнатися, чи відповідає невелика вибірка нормальному розподілу, тест Шипіро-Вілка може бути вигідним. Існує безліч тестів, щоб визначити придатність.