Переобладнання

Що таке переобладнання?

Переобладнання – це помилка моделювання в статистиці, яка виникає, коли функція занадто тісно вирівняна до обмеженого набору точок даних. Як результат, модель корисна лише як посилання на свій початковий набір даних, а не на будь-які інші набори даних.

Переобладнання моделі, як правило, має форму створення надто складної моделі для пояснення ідіосинкразій у досліджуваних даних. Насправді дані, що часто вивчаються, мають певну ступінь помилки або випадкових шумів. Таким чином, спроба привести модель у відповідність із занадто неточними даними може заразити модель значними помилками та зменшити її прогнозовану силу.

Ключові винос

  • Надмірне оснащення – це помилка, яка виникає при моделюванні даних внаслідок того, що певна функція занадто тісно вирівнюється до мінімального набору точок даних.
  • Фінансові фахівці ризикують переобладнати модель, засновану на обмежених даних, і закінчити результатами, які мають недоліки.
  • Коли модель була скомпрометована внаслідок переобладнання, модель може втратити свою цінність як інструмент прогнозування для інвестування.

Розуміння переобладнання

Наприклад, поширеною проблемою є використання комп’ютерних алгоритмів для пошуку обширних баз даних історичних даних ринку, щоб знайти закономірності. Враховуючи достатню кількість досліджень, часто можна розробити складні теореми, які, здається, передбачають такі речі, як прибуток на фондовому ринку, з точною точністю.

Однак, застосовуючи їх до даних поза зразком, такі теореми можуть виявитись просто перенавчанням моделі, що насправді було просто випадковим випадком. У всіх випадках важливо протестувати модель на основі даних, що не входять до вибірки, яка використовується для її розробки.

Як запобігти переобладнанню

Способи запобігання переобладнанню включають перехресну перевірку, коли дані, що використовуються для навчання моделі, подрібнюються в складки або розділи, а модель запускається для кожного згину.Потім загальна оцінка похибки усереднюється.  Інші методи включають ансамблювання, в якому прогнози поєднуються щонайменше з двох окремих моделей, збільшення даних, при якому наявний набір даних виглядає різноманітним, та спрощення даних, при якому модель впорядковується, щоб уникнути переобладнання.

Короткий огляд

Фінансові фахівці повинні завжди усвідомлювати небезпеку переобладнання моделі на основі обмежених даних.

Приклад переобладнання

Перенапруження також є фактором машинного навчання. Це може виникнути, коли машину навчили сканувати конкретні дані в один бік, але коли той самий процес застосовується до нового набору даних, результати є неправильними. Наприклад, університет, у якого спостерігається рівень відсіву в коледжі, що перевищує бажаний, вирішує, що хоче створити модель для прогнозування ймовірності того, що абітурієнт досягне аж до закінчення школи. Для цього університет готує модель із набору даних 5000 заявників та їх результатів. Потім вона запускає модель на вихідному наборі даних – групі з 5000 заявників – і модель передбачає результат із 98% точністю. Але для перевірки її точності вони також запускають модель на другому наборі даних – ще 5000 заявників. Однак цього разу модель точна лише на 50%, оскільки модель була занадто тісно пристосована до вузького підмножини даних, в даному випадку перших 5000 додатків.