برای آشنایی بیشتر با خوشه بندی بهتر است مثالی عملی ذکر شود. داده های ذیل را در نظر بگیرید:
|
10 |
13 |
11 |
12 |
11 |
10 |
4 |
3 |
2 |
3 |
2 |
1 |
X |
|
15 |
16 |
17 |
18 |
17 |
16 |
5 |
9 |
8 |
6 |
7 |
8 |
Y |
نمودار پراکندگی این دو متغیر به صورت ذیل است:
به وضوح دیده می شود که داده های فوق دو خوشه مجزا هستند. حال همین داده ها را توسط نرم افزار SPSS به دو روش سلسله مراتبی و k- میانگین خوشه بندی می کنیم. نتایج خوشه بندی به قرار ذیل است:
الف) روش سلسله مراتبی (نمودار دندوگرام)
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
8 òø
10 òú
9 òôòø
11 ò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø
7 òûò÷ ó
12 ò÷ ó
3 òûòø ó
6 ò÷ ó ó
2 òø ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
4 òú ó
1 òôò÷
5 ò÷
ب) روش k- میانگین
در این روش مقدار k انتخابی است. یک بار برای k=2 و یک بار برای k=3 این کار انجام می شود.
ب-1) k=2
اعضای درون هر خوشه عبارتند از:
Cluster Membership
|
Case Number |
Cluster |
Distance |
|
1 |
2 |
4.243 |
|
2 |
2 |
2.828 |
|
3 |
2 |
1.414 |
|
4 |
2 |
3.606 |
|
5 |
2 |
4.123 |
|
6 |
2 |
.000 |
|
7 |
1 |
2.828 |
|
8 |
1 |
1.414 |
|
9 |
1 |
.000 |
|
10 |
1 |
1.414 |
|
11 |
1 |
2.236 |
|
12 |
1 |
3.606 |
که تعداد اعضای هر خوشه 6 تا است و با واقعیت داده ها منطبق است.
ب-2) k=3
اینبار اعضای درون هر خوشه عبارتند از:
Cluster Membership
|
Case Number |
Cluster |
Distance |
|
1 |
1 |
.000 |
|
2 |
1 |
1.414 |
|
3 |
3 |
1.414 |
|
4 |
1 |
1.000 |
|
5 |
1 |
2.236 |
|
6 |
3 |
.000 |
|
7 |
2 |
2.828 |
|
8 |
2 |
1.414 |
|
9 |
2 |
.000 |
|
10 |
2 |
1.414 |
|
11 |
2 |
2.236 |
|
12 |
2 |
3.606 |
و فاصله بین مراکز خوشه ها عبارتند از:
Distances between Final Cluster Centers
|
Cluster |
1 |
2 |
3 |
|
1 |
|
12.501 |
2.915 |
|
2 |
12.501 |
|
13.408 |
|
3 |
2.915 |
13.408 |
|
در این حالت دو زوج مرتب (6و3) و (5و4) در خوشه شماره 3 قرار گرفته اند.
نتیجه گیری: اگر اطلاعات و شناخت ما از جامعه درست نباشد و تنها بر مبنای حدس و گمان اقدام به خوشه بندی نماییم؛ امکان خوشه بندی اشتباه بسیار زیاد است.