قبل از ادامه بحث باید این نکته را متذکر بشوم که این مباحث به هم پیوسته است و نتیجه را در آخرین قسمت این نوشتار بجویید. سعی هم می کنم از محاسبات ریاضی چشم بپوشم و فقط توضیحات ابتدایی را بگویم. توضیحاتی که متخصصان همه رشته ها بتوانند تصوری ابتدایی از خوشه بندی و رده بندی پیدا کنند.
اما ادامه ماجرا. خیلی وقت ها هست که ما از خوشه بندی برای رده بندی استفاده می کنیم. یعنی چی؟ یعنی حدس می زنیم که در نمونه ما دسته ای از داده ها حول نقطه ای متمرکزند و بعد این توده های نقاط از هم فاصله دارند. خب! این تصور از داده ها (متاسفانه این تصور در داده های دو بعدی رخ می دهد. برای داده هایی که بیش از دو بعد دارند، ترسیم داده ها در فضا ممکن نیست) سبب می شود که ما به خوشه بندی روی بیاوریم. در این حالت بهترین روش خوشه بندی روش k- میانگین است. اگر تعداد توده ها مشخص باشد، k در حقیقت همان تعداد توده هاست. ولی، اگر تعداد توده ها مشخص نباشد باید از طریق ملاحظاتی دیگر مثل صرفه اقتصادی اقدام به خوشه بندی نمود.
بعد از آن که تعداد خوشه ها و اعضای آن مشخص شد؛ می توان هر خوشه را به عنوان یک رده یا طبقه در نظر گرفت. البته، این در نظر گرفتن به همین سادگی که گفته می شود نیست.
چرا؟
چند دلیل دارد. یکی از مهمترین دلایل آن است که ابتدای امر باید از صحت نوع نمونه گیری خود مطمئن باشیم. دلیل دیگر آن است که باید بررسی کنیم که خوشه های ما که حالا دیگر به رده تبدیل شده اند ایا داده های قبلی رابه درستی به رده خود تخصیص می دهند یا نه.
این مطلب همچنان ادامه دارد.