Емпіричне правило

Що таке емпіричне правило?

Емпіричне правило, яке також називають правилом трьох сигм або правилом 68-95-99,7, є статистичним правилом, яке стверджує, що для нормального розподілу майже всі спостережувані дані потраплятимуть до трьох стандартних відхилень (позначених σ) від середнє або середнє (позначається µ).

Зокрема, емпіричне правило передбачає, що 68% спостережень потрапляє в перше стандартне відхилення (µ ± σ), 95% – у перші два стандартних відхилення (µ ± 2σ) і 99,7% – у перші три стандартних відхилення (µ ± 3σ).

Ключові винос

  • Емпіричне правило стверджує, що 99,7% даних, що спостерігаються після нормального розподілу, лежать у межах 3 стандартних відхилень середнього значення.
  • Згідно з цим правилом, 68% даних потрапляє до одного стандартного відхилення, 95% відсотків – до двох стандартних відхилень і 99,7% – до трьох стандартних відхилень від середнього значення.
  • Межі трьох сигм, що слідують Емпіричному правилу, використовуються для встановлення верхніх і нижніх меж контролю в статистичних діаграмах контролю якості та в аналізі ризиків, таких як VaR.

Розуміння емпіричного правила

Емпіричне правило часто використовується в статистиці для прогнозування кінцевих результатів. Після розрахунку стандартного відхилення та перед збором точних даних це правило можна використовувати як приблизну оцінку результату майбутніх даних, які збираються та аналізуються.

Таким чином, цей розподіл ймовірностей може бути використаний як проміжна евристика, оскільки збір відповідних даних може зайняти багато часу або навіть неможливо в деяких випадках. Такі міркування виникають, коли фірма переглядає свої заходи контролю якості або оцінює ризик. Наприклад, популярний інструмент ризику, відомий як ринкова вартість (VaR), передбачає, що ймовірність подій ризику відповідає нормальному розподілу.

Емпіричне правило також використовується як грубий спосіб перевірки “нормальності” розподілу. Якщо занадто багато точок даних виходить за межі трьох стандартних відхилень, це свідчить про те, що розподіл не є нормальним, а може замість цього перекоситись або слідувати за іншим розподілом.

Емпіричні правила також відомі як правила трьох сигм, оскільки “три сигми” стосуються статистичного розподілу даних у межах трьох стандартних відхилень від середнього значення нормального розподілу ( крива дзвона ), як показано на малюнку нижче.

Приклади емпіричного правила

Припустимо, популяція тварин у зоопарку, як відомо, нормально розподілена. Кожна тварина живе в середньому 13,1 року (в середньому), а стандартне відхилення тривалості життя становить 1,5 року. Якщо хтось хоче знати ймовірність того, що тварина проживе довше 14,6 років, він може скористатися емпіричним правилом. Знаючи середнє значення розподілу 13,1 року, для кожного стандартного відхилення мають місце такі вікові діапазони:

  • Одне стандартне відхилення (µ ± σ): (13,1 – 1,5) – (13,1 + 1,5), або 11,6 – 14,6
  • Два стандартних відхилення (µ ± 2σ): 13,1 – (2 х 1,5) до 13,1 + (2 х 1,5), або 10,1 до 16,1
  • Три стандартних відхилення (µ ± 3σ): 13,1 – (3 x 1,5) до 13,1 + (3 x 1,5), або, 8,6 до 17,6

Людині, яка вирішує цю проблему, потрібно розрахувати загальну ймовірність того, що тварина живе 14,6 років і довше. Емпіричне правило показує, що 68% розподілу лежить в межах одного стандартного відхилення, в даному випадку від 11,6 до 14,6 років. Таким чином, решта 32% розподілу лежить поза цим діапазоном. Половина лежить вище 14,6, а половина – нижче 11,6. Отже, ймовірність того, що тварина проживе більше 14,6, становить 16% (розраховується як 32%, поділене на два).

В якості іншого прикладу припустимо, натомість, тварина в зоопарку живе в середньому до 10-річного віку, із стандартним відхиленням 1,4 року. Припустимо, що доглядач зоопарку намагається з’ясувати ймовірність існування тварини більше 7,2 років. Цей розподіл виглядає наступним чином:

  • Одне стандартне відхилення (µ ± σ): від 8,6 до 11,4 років
  • Два стандартних відхилення (µ ± 2σ): від 7,2 до 12,8 років
  • Три стандартні відхилення ((µ ± 3σ): від 5,8 до 14,2 року

Емпіричне правило говорить, що 95% розподілу лежить у межах двох стандартних відхилень. Таким чином, 5% лежить поза двома стандартними відхиленнями; наполовину вище 12,8 років і наполовину нижче 7,2 років. Таким чином, ймовірність прожити більше 7,2 року становить:

95% + (5% / 2) = 97,5%

Питання що часто задаються

У чому полягає емпіричне правило?

У статистиці емпіричне правило говорить, що 99,7% даних відбувається в межах трьох стандартних відхилень середнього в межах нормального розподілу. З цією метою 68% спостережуваних даних відбуватимуться в межах першого стандартного відхилення, 95% – у другому відхиленні та 97,5% у межах третього стандартного відхилення. Емпіричне правило передбачає розподіл ймовірностей для набору результатів. 

Як використовується емпіричне правило?

Емпіричне правило застосовується для передбачення ймовірних результатів при нормальному розподілі. Наприклад, статистик використовував би це, щоб оцінити відсоток випадків, які потрапляють у кожне стандартне відхилення. Вважайте, що стандартне відхилення дорівнює 3,1, а середнє дорівнює 10. У цьому випадку перше стандартне відхилення буде коливатися між (10 + 3,2) = 13,2 та (10-3,2) = 6,8. Друге відхилення падало б між 10 + (2 X 3,2) = 16,4 та 10 – (2 X 3,2) = 3,6 тощо. 

Які переваги емпіричного правила?

Емпіричне правило вигідне, оскільки воно служить засобом прогнозування даних. Особливо це стосується великих наборів даних та тих, де змінні невідомі. Зокрема, у сфері фінансів емпіричне правило є загальним для цін на акції, індексів цін та часових значень валютних курсів, які, як правило, падають через криву дзвоника або нормальний розподіл.