Гомоскедастичний

28.04.2021

Що таке гомоскедастик?

Гомоскедастичний (також пишеться “гомосцедастичний”) відноситься до стану, при якому дисперсія залишкового або похибкового терміну в регресійній моделі є постійною. Тобто термін помилки не сильно змінюється, оскільки значення змінної предиктора змінюється. Інший спосіб сказати, що дисперсія точок даних приблизно однакова для всіх точок даних. Це передбачає рівень узгодженості та полегшує моделювання та роботу з даними за допомогою регресії. Однак відсутність гомоскедастичності може свідчити про те, що модель регресії може потребувати включення додаткових змінних-предикторів для пояснення роботи залежної змінної.

Ключові винос

Гомоскедастичність виникає, коли дисперсія члена помилки в регресійній моделі є постійною.
Якщо дисперсія терміну помилки є гомоскедастичною, модель була чітко визначена. Якщо дисперсія занадто велика, модель може бути неправильно визначена.
Додавання додаткових змінних-предикторів може допомогти пояснити ефективність роботи залежної змінної.
Навпаки, гетероскедастичність виникає, коли дисперсія терміна помилки не є постійною.

Як працює гомоскедастичність

Гомоскедастичність є одним із припущень моделювання лінійної регресії, і дані цього типу добре працюють із методом найменших квадратів. Якщо дисперсія помилок навколо лінії регресії сильно варіюється, модель регресії може бути погано визначена. Протилежністю гомоскедастичності є гетероскедастичність, як і протилежністю “однорідності” є “гетерогенність”. Гетероскедастичність (також пишеться «гетероскедастичність») відноситься до стану, при якому дисперсія члена помилки в рівнянні регресії не є постійною.

Короткий огляд

Розглядаючи, що дисперсія – це виміряна різниця між прогнозованим результатом та фактичним результатом даної ситуації, визначення гомоскедастичності може допомогти визначити, які фактори потрібно скорегувати для точності.

Особливі міркування

Проста регресійна модель або рівняння складається з чотирьох термінів. Ліворуч – залежна змінна. Він представляє явище, яке модель намагається “пояснити”. Праворуч – константа, змінна предиктора та залишковий термін. Термін помилки показує величину мінливості в залежній змінній, яка не пояснюється змінною предиктора.

Приклад гомоскедастику

Наприклад, припустимо, ви хотіли пояснити оцінки студентських тестів, використовуючи кількість часу, проведеного кожним студентом. У цьому випадку оцінка тестів буде залежною змінною, а час, витрачений на вивчення, буде змінною предиктора.

Термін помилки відображав би величину дисперсії в тестових балах, яка не пояснювалась часом вивчення. Якщо ця дисперсія є однорідною або гомоскедастичною, то це може припустити, що модель може бути адекватним поясненням результатів тесту – пояснюючи це з точки зору часу, витраченого на вивчення.

Але дисперсія може бути гетероскедастичною. Графік даних про терміни помилок може показати, що велика кількість навчального часу дуже тісно відповідала високим балам тестів, але те, що низький бал часу тестування варіювався в широких межах і навіть включав деякі дуже високі бали. Тож дисперсія балів не буде добре пояснена просто однією змінною предиктора – кількістю часу на вивчення. У цьому випадку, можливо, діє якийсь інший фактор, і модель, можливо, доведеться вдосконалити, щоб ідентифікувати її чи їх.

Подальше розслідування може виявити, що деякі студенти бачили відповіді на тест раніше часу або що вони раніше проходили подібний тест, і тому їм не потрібно було вчитися для цього тесту. З цього приводу може просто виявитись, що студенти мали різні рівні здачі тестів, незалежно від часу навчання та успішності в попередніх тестах, незалежно від предмета.

Для вдосконалення моделі регресії досліднику довелося б випробувати інші пояснювальні змінні, які могли б забезпечити більш точне пристосування до даних. Якщо, наприклад, деякі студенти побачили відповіді раніше часу, регресійна модель мала б дві пояснювальні змінні: час навчання та наявність у студента попередніх знань щодо відповідей. За допомогою цих двох змінних можна пояснити більшу дисперсію результатів тесту, і тоді дисперсія терміна помилки може бути гомоскедастичною, що свідчить про те, що модель була чітко визначена.