Сума квадратів

Що таке сума квадратів?

Сума квадратів – це статистичний прийом, який використовується при регресійному аналізі для визначення розподілу точок даних. При регресійному аналізі мета полягає у визначенні того, наскільки ряд даних може бути пристосований до функції, яка може допомогти пояснити, як був сформований ряд даних. Сума квадратів використовується як математичний спосіб знайти функцію, яка найкраще відповідає (найменшою мірою ) серед даних.

Формула суми квадратів є

Сума квадратів також відома як варіація.

Що вам говорить сума квадратів?

Сума квадратів є мірою відхилення від середнього. У статистиці середнє значення є середнім значенням набору чисел і є найбільш часто використовуваним показником центральної тенденції. Середнє арифметичне просто обчислюється шляхом підсумовування значень у наборі даних та ділення на кількість значень.

Скажімо, ціни закриття Microsoft (MSFT) за останні п’ять днів становили 74,01, 74,77, 73,94, 73,61 та 73,40 у доларах США. Сума загальних цін становить $ 369,73, а середня або середня ціна підручника, таким чином, складе $ 369,73 / 5 = $ 73,95.

Але знання середнього значення набору вимірювань не завжди достатньо. Іноді корисно знати, наскільки різними є набори вимірювань. Відстань окремих значень від середнього може дати деяке розуміння того, наскільки спостереження або значення відповідають створеній моделі регресії.

Наприклад, якщо аналітик хотів би знати, чи ціна акцій MSFT рухається в тандемі з ціною Apple (AAPL), він може перелічити набір спостережень за процесом обох акцій за певний період, скажімо 1, 2, або 10 років, і створіть лінійну модель із кожним із записаних спостережень чи вимірювань. Якщо взаємозв’язок між обома змінними (тобто ціною AAPL та ціною MSFT) не є прямою лінією, то в наборі даних існують варіації, які необхідно перевірити.

У статистиці говориться, що якщо рядок у створеній лінійній моделі не проходить через усі виміри вартості, тоді якась мінливість, яка спостерігалася в цінах акцій, є незрозумілою. Сума квадратів використовується для розрахунку того, чи існує лінійна залежність між двома змінними, а будь-яка незрозуміла мінливість називається залишковою сумою квадратів.

Сума квадратів – це сума квадрата варіації, де варіація визначається як розкид між кожним окремим значенням і середнім значенням. Для визначення суми квадратів відстань між кожною точкою даних та лінією, що найкраще підходить, квадратується, а потім підсумовується. Лінія, що найкраще підходить, мінімізує це значення.

Як обчислити суму квадратів

Тепер ви можете зрозуміти, чому вимірювання називають сумою квадратних відхилень, або коротше сумою квадратів. Використовуючи наш приклад MSFT вище, суму квадратів можна обчислити як:

  • SS = (74.01 – 73.95) 2 + (74.77 – 73.95) 2 + (73.94 – 73.95) 2 + (73.61 – 73.95) 2 + (73.40 – 73.95) 2
  • SS = (0,06) 2 + (0,82) 2 + (-0,01) 2 + (-0,34) 2 + (-0,55) 2
  • SS = 1,0942

Додавання суми лише відхилень без квадратури призведе до числа, рівного або близького до нуля, оскільки негативні відхилення майже ідеально компенсують позитивні відхилення. Щоб отримати більш реалістичне число, суму відхилень потрібно поставити у квадрат. Сума квадратів завжди буде додатним числом, оскільки квадрат будь-якого числа, позитивного чи негативного, завжди позитивний.

Приклад використання суми квадратів

На основі результатів розрахунку MSFT висока сума квадратів вказує на те, що більшість значень віддалені від середнього, а отже, дані мають велику мінливість. Низька сума квадратів означає низьку мінливість у наборі спостережень.

У наведеному вище прикладі 1.0942 показує, що варіація ціни акцій MSFT за останні п’ять днів дуже низька, і інвестори, які прагнуть інвестувати в акції, що характеризуються стабільністю цін та низькою волатильністю, можуть вибрати MSFT.

Ключові винос

  • Сума квадратів вимірює відхилення точок даних від середнього значення.
  • Більший результат суми квадратів вказує на великий ступінь мінливості в наборі даних, тоді як менший результат вказує на те, що дані не суттєво відрізняються від середнього значення.

Обмеження використання суми квадратів

Прийняття інвестиційного рішення щодо придбання запасів вимагає набагато більше спостережень, ніж перерахованих тут. Можливо, аналітику доведеться попрацювати з даними років, щоб з більшою впевненістю знати, наскільки висока або низька мінливість активу. Оскільки до набору додається більше точок даних, сума квадратів стає більшою, оскільки значення будуть більш розподіленими.

Найбільш широко використовуваними вимірами варіації є стандартне відхилення та дисперсія. Однак для обчислення будь-якої з двох метрик спочатку потрібно обчислити суму квадратів. Дисперсія – це середнє значення суми квадратів (тобто суми квадратів, поділеної на кількість спостережень). Стандартне відхилення – це квадратний корінь з дисперсії.

Існує два методи регресійного аналізу, які використовують суму квадратів: метод лінійних найменших квадратів та метод нелінійних найменших квадратів. Метод найменших квадратів відноситься до того факту, що функція регресії мінімізує суму квадратів дисперсії від фактичних точок даних. Таким чином, можна намалювати функцію, яка статистично забезпечує найкращу відповідність даним. Зверніть увагу, що функція регресії може бути як лінійною (пряма лінія), так і нелінійною (крива лінія).