Непараметрична статистика

Що таке непараметрична статистика?

Непараметрична статистика відноситься до статистичного методу, в якому не передбачається, що дані надходять із встановлених моделей, які визначаються невеликою кількістю параметрів; приклади таких моделей включають модель нормального розподілу та модель лінійної регресії. Непараметрична статистика іноді використовує дані, що є порядковими, тобто вони не покладаються на цифри, а скоріше на ранжування чи порядок сортування. Наприклад, опитування, що передає споживчі уподобання, що варіюються від “подобається” до “не подобається”, вважатиметься звичайними даними.

Непараметрична статистика включає непараметричну описову статистику, статистичні моделі, умовивід та статистичні тести. Структура моделі непараметричних моделей не вказується апріорі, а натомість визначається на основі даних. Термін непараметричний не означає, що в таких моделях повністю відсутні параметри, а натомість, що кількість і характер параметрів є гнучкими і не фіксуються заздалегідь. Гістограма є прикладом непараметричної оцінки розподілу ймовірностей.

Ключові винос

  • Непараметрична статистика проста у використанні, але не забезпечує точної точності інших статистичних моделей.
  • Цей тип аналізу часто найкраще підходить для розгляду порядку чогось, де навіть якщо числові дані змінюються, результати, ймовірно, залишаться незмінними.

Розуміння непараметричної статистики

У статистиці параметрична статистика включає такі параметри, як середнє значення, стандартне відхилення, кореляція Пірсона, дисперсія тощо. Ця форма статистики використовує спостережувані дані для оцінки параметрів розподілу. У рамках параметричної статистики часто припускають, що дані надходять із нормального розподілу з невідомими параметрами μ (середнє значення сукупності) та σ2 (дисперсія популяції), які потім оцінюються з використанням середнього значення вибірки та дисперсії вибірки.

Короткий огляд

Непараметрична статистика не робить припущення щодо обсягу вибірки чи кількісних даних спостережуваних даних.

Непараметрична статистика не передбачає, що дані беруться із нормального розподілу. Натомість форма розподілу оцінюється за цією формою статистичного вимірювання. Незважаючи на те, що існує багато ситуацій, в яких можна припустити нормальний розподіл, існують також деякі сценарії, в яких процес створення справжніх даних далекий від нормального розподілу.

Приклади непараметричної статистики

У першому прикладі розглянемо фінансового аналітика, який хоче оцінити вартість ризику (VaR) інвестиції. Аналітик збирає дані про прибутки від сотень подібних інвестицій за аналогічний часовий проміжок. Замість того, щоб припустити, що заробіток відповідає нормальному розподілу, вона використовує гістограму для оцінки розподілу непараметрично. Потім 5-й процентиль цієї гістограми надає аналітикові непараметричну оцінку VaR.

Для другого прикладу розглянемо іншого дослідника, який хоче знати, чи пов’язані середні години сну з тим, як часто людина хворіє. Оскільки багато людей хворіють рідко, якщо взагалі, а іноді інші хворіють набагато частіше, ніж більшість інших, розподіл частоти захворювань є явно ненормальним, тому що воно є неправильним та схильним до відхилення. Таким чином, замість використання методу, який передбачає нормальний розподіл частоти захворювань, як це робиться в класичному регресійному аналізі, наприклад, дослідник вирішує використовувати непараметричний метод, такий як квантильний регресійний аналіз.

Особливі міркування

Непараметрична статистика отримала вдячність завдяки простоті використання. Оскільки потреба в параметрах полегшується, дані стають більш застосовними до більшої кількості різноманітних тестів. Цей тип статистики може використовуватися без середнього значення, обсягу вибірки, стандартного відхилення або оцінки будь-яких інших пов’язаних параметрів, коли жодна з цих відомостей відсутня.

Оскільки непараметрична статистика робить менше припущень щодо вибіркових даних, її застосування ширше за сферою застосування, ніж параметрична статистика. У випадках, коли параметричне тестування є більш доцільним, непараметричні методи будуть менш ефективними. Це пояснюється тим, що непараметрична статистика відкидає деяку інформацію, яка є в даних, на відміну від параметричної статистики.