第二节 感受质心的迁移过程

以上内容还是太抽象,但至少我们隐隐约约感受到,聚类算法最重要的三个要素是距离的计算方式、质心如何找到和值的选择问题。目前来看,距离计算方式的选择问题不大,因为最常用的就是欧式距离和曼哈顿距离这两种,只要根据样本内容和研究目的进行适当选择就可以了。 质心如何确定?它又是如何迁移的?对于这些问题,只有以用例的实际数据分步骤计算才能一睹真容。用例解析如下: 某商业科技研究所对高原夏菜的农药残留进行了检测,提取样本数据134份,主要指标为三唑酮、三唑醇、多效唑的残留量,因为所采集样本的品类,来源地均不同,研究人员拟对样本主要指标先行进行聚类分析,期望在自然聚类中发现残留量与其他属性值之间的关系。 为了展现聚类算法的质心迁移过程,整个运算步骤在Excel表中进行迭代计算,可以清晰理解聚类算法的各个步骤,这里设,距离计算采用欧式距离。质心变换过程及图示如下表4-1。

表4-1 质心迁移图示表

质心点坐标 图示
初始样本
第一次迭代:
质心集(A) 8.716.895.6
质心集(B) 3.124.64-2.7
质心集(C) 2.09-1.788.42
 
第二次迭代:
质心集(A) 6.5588245.3311760.662941
质心集(B) -0.800560.508916-4.59029
质心集(C) -0.47549-3.984425.091429
 
 
第三次迭代:
质心集(A) 5.8893945.008182-1.05242
质心集(B) -1.32384-0.82931-6.24457
质心集(C) -1.81255-3.575674.919818
 
第四次迭代:
质心集(A) 5.9676194.661389-1.48361
质心集(B) -1.59279-1.01492-6.25326
质心集(C) -2.04694-3.530344.925636
 
经过四次迭代,可以看到其质心的数据已趋于稳定,变化量不大,聚类结束。以上例举数据及质心迁移过程的动态演示可扫描右方二维码下载查看,其Geogebra源文件可登陆网址下载https://www.geogebra.org/m/egbz8bfg,供读者研究学习。