技能训练

（1）K-means算法的核心内容是什么？

（2）质心迁移的标准是什么？

（3）K值的选择方法有哪些？

（4）为什么要使用正则项？

（5）聚类算法大数据算法操作实践。 ①作业目的。聚类算法是机器学习的重要内容，学生上机实践的目的：一是理解质心的计算方式及迁移过程；二是理解轮廓系数的概念及手肘法则的基本要领；三是掌握在 Orange 平台进行聚类分析的方法及步骤。 ②作业准备。 Orange3 软件下载并安装。下载地址。学生学期成绩集，包括高中毕业成绩及在数据集下载地址：

数据集说明：数据集包含了某大学 2022—2022 年三年学生的教学大数据，其中包括学生的类型信息（性别、毕业类别、科类三个信息）及成绩信息（高中毕业、大学-1、大学-2、大学-3）。类别信息为目录型特征变量，呈现如下：性别：男、女；毕业类别：高中毕业、职业高中毕业、其他中等专业学校毕业。科类：理工、文史、中职对口、五年一贯制转段。 ③作业内容。作业包括两部分：数据集的归一化处理和聚类分析，将数据集按不同特征变量组合进行 K 近邻分析，并形成群组对照。

a. 归一化处理方法。采用 Z-score 标准化处理方法，对序列

进行变换：

则新序列

的均值为 0，而方差为 1，且无量纲。按以上要求，将学生成绩按类型归一化。

b. 聚类分析。学生需构建处理流程图，并保存轮廓系数表，将最优 K 聚类保存并生成图形，如图2-2-16～图 2-2-18 所示。

技能训练

Nuevos recursos

Descubrir recursos

Descubre temas