谷歌课堂
GeoGebraGeoGebra 教室

引言

聚类算法是指将一堆没有标签的数据自动划分成几类的方法,因为事先并不知道如何划分及样本所属的类别,属于无监督学习方法,但这个方法要保证同一类的数据有相似的特征,如下图2-2-1所示:

图2-2-1 聚类分析的示意图

其基本理论是,根据样本之间的距离或者说是相似性(亲疏性),把越相似、差异越小的样本聚成一类(簇),最后形成多个簇,使同一个簇内部的样本相似度高,不同簇之间差异性高。