Мультиколінеарність

Що таке мультиколінеарність?

Мультиколінеарність – це поява високих взаємозв’язків між двома або більше незалежними змінними в моделі множинної регресії. Мультиколінеарність може призвести до нерівних або оманливих результатів, коли дослідник або аналітик намагається визначити, наскільки ефективно кожна незалежна змінна може бути використана найбільш ефективно для прогнозування або розуміння залежної змінної в статистичній моделі.

Взагалі, мультиколінеарність може призвести до більш широких довірчих інтервалів, які дають менш надійні ймовірності з точки зору впливу незалежних змінних на модель. Тобто статистичні висновки з моделі з мультиколінеарністю можуть не бути надійними.

Ключові винос

  • Мультиколінеарність – це статистичне поняття, де незалежні змінні в моделі співвідносяться.
  • Мультиколінеарність між незалежними змінними призведе до менш надійних статистичних висновків.
  • Краще використовувати незалежні змінні, які не корелюються або повторюються, при побудові множинних моделей регресії, що використовують дві або більше змінних.

Розуміння мультиколінеарності

Статистичні аналітики використовують множинні регресійні моделі для прогнозування значення зазначеної залежної змінної на основі значень двох або більше незалежних змінних. Залежну змінну іноді називають змінною результату, цілі або критерію.

Прикладом може служити модель багатоваріантної регресії, яка намагається передбачити прибутковість акцій на основі таких елементів, як коефіцієнт співвідношення ціни до прибутку ( коефіцієнти Р / Е), ринкової капіталізації, минулих результатів чи інших даних. Рентабельність запасів є залежною змінною, а різні біти фінансових даних є незалежними змінними.

Мультиколінеарність у моделі множинної регресії вказує на те, що колінеарні незалежні змінні якимось чином пов’язані, хоча зв’язок може бути випадковою, а може і не бути. Наприклад, минулі показники можуть бути пов’язані з ринковою капіталізацією, оскільки акції, які добре працювали в минулому, матимуть зростаючу ринкову вартість. Іншими словами, мультиколінеарність може існувати, коли дві незалежні змінні мають високу кореляцію. Це також може статися, якщо незалежна змінна обчислюється з інших змінних у наборі даних або якщо дві незалежні змінні забезпечують подібні та повторювані результати.

Одним з найпоширеніших способів усунення проблеми мультиколінеарності є спочатку ідентифікація колінеарних незалежних змінних, а потім видалення всіх, крім однієї. Також можливо усунути мультиколінеарність, об’єднавши дві або більше колінеарних змінних в одну змінну. Потім можна провести статистичний аналіз для вивчення взаємозв’язку між зазначеною залежною змінною та лише однією незалежною змінною.

Приклад мультиколінеарності

Для інвестування мультиколінеарність є загальним аспектом при проведенні технічного аналізу для прогнозування ймовірних майбутніх змін ціни цінних паперів, таких як акції чи товарне майбутнє.

Аналітики ринку хочуть уникати використання технічних показників, колінеарних, оскільки вони базуються на дуже схожих або пов’язаних з ними даних; вони, як правило, виявляють подібні прогнози щодо залежної змінної руху ціни. Натомість ринковий аналіз повинен базуватися на помітно різних незалежних змінних, щоб забезпечити аналіз ринку з різних незалежних аналітичних точок зору.

Короткий огляд

Прикладом потенційної проблеми мультиколінеарності є проведення технічного аналізу лише з використанням кількох подібних показників.

Зазначений технічний аналітик Джон Боллінджер, автор показника смуг Боллінджера, зазначає, що “основне правило успішного використання технічного аналізу вимагає уникати мультиколінеарності серед показників”. Для вирішення проблеми аналітики уникають використання двох або більше технічних показників одного типу. Натомість вони аналізують цінні папери, використовуючи один тип індикатора, наприклад, індикатор імпульсу, а потім проводять окремий аналіз, використовуючи інший тип індикатора, такий як індикатор тренду.

Наприклад, стохастика, індекс відносної міцності (RSI) та Williams% R – все це показники імпульсу, які покладаються на подібні вхідні дані та, ймовірно, дадуть подібні результати. У цьому випадку краще видалити всі показники, крім одного, або знайти спосіб об’єднати декілька з них лише в один показник, а також додати індикатор тенденції, який, ймовірно, не буде сильно корелювати з показником імпульсу.