Неправдива кореляція

Що таке помилкова кореляція

У статистиці фальшива кореляція, або фальшивість, відноситься до зв’язку між двома змінними, яка видається причинною, але не є такою. Неправдиві відносини часто мають вигляд однієї змінної, що впливає на іншу. Ця помилкова кореляція часто зумовлена ​​третім фактором, який не є очевидним на момент обстеження, який іноді називають фактором, що змішує.

Ключові винос

  • Неправдива кореляція, або помилковість, – це коли два фактори виглядають випадково пов’язаними, але не є.
  • Поява причинно-наслідкових зв’язків часто пов’язана з подібним рухом на діаграмі, який виявляється випадковим або спричиненим третім «незрозумілим» фактором.
  • Неправдива кореляція часто може бути спричинена малим розміром вибірки або довільними кінцевими точками.

Як працює помилкова кореляція

Коли дві випадкові величини тісно відстежують одна одну на графіку, легко запідозрити кореляцію або зв’язок між цими двома факторами, коли зміна впливає на іншу. Якщо відкласти в сторону “причинно-наслідкові зв’язки”, іншу тему, це спостереження може змусити читача діаграми повірити, що рух змінної А пов’язаний з рухом змінної В або навпаки. але іноді, при детальному статистичному дослідженні, вирівняні рухи випадкові або викликані третім фактором, який впливає на перші два. Це помилкова кореляція. Дослідження, проведені з невеликими розмірами вибірки або довільними кінцевими точками, є особливостями, сприйнятливими до помилковості.

Приклад помилкових співвідношень

Не надто складно виявити цікаві співвідношення. Однак багато хто виявиться помилковим. Щодо чоловічого виду на Уолл-стріт, дві популярні помилкові кореляції стосуються жінок та спорту. У 1920-х роках виникла теорія довжини спідниці, яка стверджує, що довжина спідниці та напрямок фондового ринку співвідносяться. Якщо довжина спідниці довга, це означає, що фондовий ринок падає; якщо вони короткі, ринок йде вгору. Приблизно в кінці січня говорять про так званий показник Super Bowl, який передбачає, що перемога команди AFC, ймовірно, означає, що фондовий ринок впаде в наступному році, тоді як перемога команди NFC віщує зростання ринку. З 1966 року показник точності показника становив 80%. Це весела розмова, але, мабуть, не те, що серйозний фінансовий радник рекомендує як інвестиційну стратегію для клієнтів.

Ось ще кілька прикладів поширених помилкових кореляцій:

  • Утоплення зростає, коли продажі морозива зростають. Може здатися, що збільшення продажів морозива спричинює ще більше потоплення, але насправді підвищення температури може спричинити плавання більшої кількості людей, а також купувати більше морозива.
  • Рівень вбивств у США з 2006 по 2011 рр. Впав таким же темпом, як і використання Microsoft Internet Explorer.
  • Керівники, які частіше кажуть «Будь ласка» та «Дякую», насолоджуються кращими показниками.
  • Люди, які носять екіпіровку команди Oakland Raiders, частіше скоюють злочини.

Як виявити помилкові кореляції

Статистики та інші вчені, які аналізують дані, повинні постійно стежити за фальшивими стосунками. Існує безліч методів, які вони використовують, зокрема:

  • Забезпечення належної репрезентативної вибірки.
  • Отримання належного обсягу вибірки.
  • Остерігаючись довільних кінцевих точок.
  • Керування якомога більшою кількістю зовнішніх змінних.
  • Використання нульової гіпотези та перевірка на сильне значення p.