Анотація: В лекції розглядаються основи кластерного аналізу, математичні характеристики кластера. Описано дві групи ієрархічного кластерного аналізу: агломеративні і дівізімние методи. Наведено приклад ієрархічного кластерного аналізу в SPSS.
З поняттям кластеризації ми познайомилися в першому розділі курсу. У цій лекції ми опишемо поняття "кластер" з математичної точки зору, а також розглянемо методи вирішення завдань кластеризації - методи кластерного аналізу.
Термін кластерний аналіз, вперше введений Тріона (Tryon) в 1939 році, включає в себе більше 100 різних алгоритмів.
На відміну від завдань класифікації, кластерний аналіз не вимагає апріорних припущень про набір даних, що не накладає обмеження на подання досліджуваних об'єктів, дозволяє аналізувати показники різних типів даних (інтервальним даними, частотам, бінарним даними). При цьому необхідно пам'ятати, що змінні повинні вимірюватися в порівнянних шкалах.
Кластерний аналіз дозволяє скорочувати розмірність даних, робити її наочною.
Кластерний аналіз може застосовуватися до совокупностям часових рядів, тут можуть виділятися періоди схожості деяких показників і визначатися групи часових рядів зі схожою динамікою.
Кластерний аналіз паралельно розвивався в кількох напрямках, таких як біологія, психологія, ін., Тому у більшості методів існує по два і більше назв. Це істотно ускладнює роботу при використанні кластерного аналізу.
Завдання кластерного аналізу можна об'єднати в такі групи:
- Розробка типології або класифікації.
- Дослідження корисних концептуальних схем групування об'єктів.
- Подання гіпотез на основі дослідження даних.
- Перевірка гіпотез або досліджень для визначення, чи дійсно типи (групи), виділені тим чи іншим способом, присутні в наявних даних.
Як правило, при практичному використанні кластерного аналізу одночасно вирішується кілька із зазначених завдань.
Розглянемо приклад процедури кластерного аналізу.
Припустимо, ми маємо набір даних А, що складається з 14-ти прикладів, у яких є по дві ознаки X і Y. Дані по ним наведені в таблиці 13.1 .
Таблиця 13.1. Набір даних А № прикладу ознака X ознака Y 1 27 19 2 11 46 3 25 15 4 36 27 5 35 25 6 10 43 7 11 44 8 36 24 9 26 14 10 26 14 11 9 45 12 33 23 13 27 16 14 10 47
Дані в табличній формі не носять інформативний характер. Уявімо змінні X і Y у вигляді діаграми розсіювання, зображеної на Мал. 13.1 .
Мал.13.1.
Діаграма розсіювання змінних X і Y
На малюнку ми бачимо кілька груп "схожих" прикладів. Приклади (об'єкти), які за значеннями X і Y "схожі" один на одного, належать до однієї групи (кластеру); об'єкти з різних кластерів не схожі один на одного.
Критерієм для визначення схожості та відмінності кластерів є відстань між точками на діаграмі розсіювання. Ця схожість можна "виміряти", воно дорівнює відстані між точками на графіку. Способів визначення міри відстані між кластерами, її називають іще мірою близькості, існує кілька. Найбільш поширений спосіб - обчислення евклідового відстані між двома точками i та j на площині, коли відомі їх координати X і Y:
(13.1)
Примітка: щоб дізнатися відстань між двома точками, треба взяти різницю їх координат по кожній осі, звести її в квадрат, скласти отримані значення для всіх осей і витягти квадратний корінь з суми.
Коли осей більше, ніж дві, відстань розраховується таким чином: сума квадратів різниці координат складається з стількох доданків, скільки осей (вимірювань) присутній в нашому просторі. Наприклад, якщо нам потрібно знайти відстань між двома точками в просторі трьох вимірів (така ситуація представлена на Мал. 13.2 ), Формула (13.1) набуває вигляду:
(13.2)
Мал.13.2.
Відстань між двома точками в просторі трьох вимірів
Кластер має наступні математичні характеристики: центр, радіус, середньоквадратичне відхилення, розмір кластера.
Центр кластера - це середнє геометричне місце точок у просторі змінних.
Радіус кластера - максимальна відстань точок від центру кластера.
Як було відзначено в одній з попередніх лекцій, кластери можуть бути перекриваються. Така ситуація виникає, коли виявляється перекриття кластерів. У цьому випадку неможливо за допомогою математичних процедур однозначно віднести об'єкт до одного з двох кластерів. Такі об'єкти називають спірними.
Спірний об'єкт - це об'єкт, який у міру подібності може бути віднесений до кількох кластерів.
Розмір кластера може бути визначений або по радіусу кластера, або по середньоквадратичне відхилення об'єктів для цього кластера. Об'єкт відноситься до кластеру, якщо відстань від об'єкта до центру кластера менше радіуса кластера. Якщо ця умова виконується для двох і більше кластерів, об'єкт є спірним.
Неоднозначність даного завдання може бути усунена експертом або аналітиком.
Робота кластерного аналізу спирається на два припущення. Перше припущення - що розглядаються ознаки об'єкта в принципі допускають бажане розбиття пулу (сукупності) об'єктів на кластери. На початку лекції ми вже згадували про порівнянності шкал, це і є друге припущення - правильність вибору масштабу або одиниць вимірювання ознак.
Вибір масштабу в кластерному аналізі має велике значення. Розглянемо приклад. Уявімо собі, що дані ознаки х в наборі даних А на два порядки більше даних ознаки у: значення змінної х знаходяться в діапазоні від 100 до 700, а значення змінної у - в діапазоні від 0 до 1.
Тоді, при розрахунку величини відстані між точками, що відбивають стан об'єктів в просторі їх властивостей, змінна, має великі значення, тобто змінна х, буде практично повністю домінувати над змінної з малими значеннями, тобто змінної у. Таким чином через неоднорідність одиниць виміру ознак стає неможливо коректно розрахувати відстані між точками.
Ця проблема вирішується за допомогою попередньої стандартизації змінних. Стандартизація (standardization) або нормування (normalization), призводить значення всіх перетворених змінних до єдиного діапазону значень шляхом висловлення через ставлення цих значень до якоїсь величиною, що відбиває певні властивості конкретного ознаки. Існують різні способи нормування вихідних даних.
Два найпоширеніші способи:
- розподіл вихідних даних на середньоквадратичне відхилення відповідних змінних;
- обчислення Z-вкладу або стандартизованого вкладу.
Поряд зі стандартизацією змінних, існує варіант додання кожної з них певного коефіцієнта важливості, або ваги, який би відображав значимість відповідної змінної. Як терезів можуть виступати в експертних оцінках, отримані в ході опитування експертів - фахівців предметної області. Отримані твори нормованих змінних на відповідні ваги дозволяють отримувати відстані між точками в багатовимірному просторі з урахуванням неоднакового ваги змінних.
В ході експериментів можливо порівняння результатів, отриманих з урахуванням експертних оцінок і без них, і вибір кращого з них.