گفتم که روش های خوشه بندی، روش هایی هستند که به تعداد مشاهدات وابسته اند. دو روش کلی برای خوشه بندی وجود دارد: 1- روش خوشه بندی سلسله مراتبی (hierarchical clustering methods) و 2- روش های غیر سلسله مراتبی (nonhierarchical clustering method). روش های خوشه بندی سلسله مراتبی عبارتند از: 1- پیوند تکی یا نزدیکترین همسایه، 2- پیوند کامل و 3- پیوند متوسط. نتیجه این نوع خوشه بندی در نمودارهایی که دندوگرام نامیده می شوند؛ تصویر می شوند. اما، رایج ترین روش خوشه بندی سلسله مراتبی روش k-میانگین است.
اما طبقه یا رده چیست؟
یکی دیگر از روش های مهم آماری در مواجهه با مشاهدات چند متغیری، تشخیص طبقه یا رده مجموعه ای از متغیرها و سپس تخصیص یک مشاهده جدید به طبقات مشخص شده است. در صفحه 593 کتاب «تحلیل آماری چند متغیری کاربردی» نوشته شده است: «تحلیل ممیزی و رده بندی تکنیک های چند متغیری هستند که با جدا کردن مجموعه های متمایز اشیا (یا مشاهدات) و با تخصیص دادن اشیا (یا مشاهدات) جدید به دسته های تعریف شده قبلی سرو کار دارد. طبیعت تحلیل ممیزی نسبتا توضیحی است. ... . روش های رده بندی کمتر توضیحی هستند. بدین مفهوم که این روش ها به قواعد خوش تعریفی منتهی می شوند که برای تخصیص اشیا جدید مورد استفاده قرار می گیرند.» در ادامه نیز به عنوان هدف رده بندی (طبقه بندی) گفته شده است: «تاکید ما روی به دست آوردن قاعده ای است که از آن بتوان برای تخصیص بهینه یک شی جدید به رده های مشخص استفاده کرد.»
حال، سوال اینجاست که اگر در طرح خوشه بندی یا به نظر من طبقه بندی که این روزها گل همه مباحث روز است، قواعد تخصیص بهینه یک فرد به طبقه ها مشخص شده است؛ چرا این طرح انقدر معترض دارد؟ آیا در اجرای طرح، باز هم واژگان از نو تعریف شده اند و یا از همان تعاریف رایج که همه مردم آن را می فهمند استفاده شده است؟