【说几句】

人以群分,物以类聚,这是老话说的。还有一位老人家曾说过,“凡是有人群的地方,就分左中右”。这是一种自然归类法则,幂幂之中的一只大手在拨拉人间和事物。有一个算法就是在模拟这只“大手”,它就是聚类算法。只不过它只是这只“大手”的最初级版,它只依据数字化距离的远近来“拨拉”各样本的归属。它的底层逻辑是先拨拉,再看看是否合理,然后把中间点调调,然后再拨拉。所以聚类算法说到底就是不断调整质心的过程,把不同的质心类呈现出来,然后根据实际情况匹配,如此往复,虽然看起来很Low,但也有很多的应用场景,接着往下看吧。
Image
所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法,因为事先并不知道如何划分及样本所属的类别,属于无监督学习方法,但这个方法要保证同一类的数据有相似的特征,如下图4-1所示:

图4-1 聚类分析的示意图

其基本理论是,根据样本之间的距离或者说是相似性(亲疏性),把越相似、差异越小的样本聚成一类(簇),最后形成多个簇,使同一个簇内部的样本相似度高,不同簇之间差异性高。