Google Classroom
GeoGebraGeoGebra Classroom

技能训练

(1)K-means算法的核心内容是什么?

(2)质心迁移的标准是什么?

(3)K值的选择方法有哪些?

(4)为什么要使用正则项?

(5)聚类算法大数据算法操作实践。 ①作业目的。 聚类算法是机器学习的重要内容,学生上机实践的目的:一是理解质心的计算方式及迁移过程;二是理解轮廓系数的概念及手肘法则的基本要领;三是掌握在 Orange 平台进行聚类分析的方法及步骤。 ②作业准备。 Orange3 软件下载并安装。下载地址Toolbar Image 学生学期成绩集,包括高中毕业成绩及在数据集下载地址Toolbar Image
数据集说明:数据集包含了某大学 2022—2022 年三年学生的教学大数据,其中包括学生的类型信息(性别、毕业类别、科类三个信息)及成绩信息(高中毕业、大学-1、大学-2、大学-3)。 类别信息为目录型特征变量,呈现如下: 性别:男、女; 毕业类别:高中毕业、职业高中毕业、其他中等专业学校毕业。 科类:理工、文史、中职对口、五年一贯制转段。 ③作业内容。 作业包括两部分:数据集的归一化处理和聚类分析, 将数据集按不同特征变量组合进行 K 近邻分析,并形成群组对照。
a. 归一化处理方法。 采用 Z-score 标准化处理方法,对序列进行变换: 则新序列的均值为 0,而方差为 1,且无量纲。 按以上要求,将学生成绩按类型归一化。
b. 聚类分析。学生需构建处理流程图,并保存轮廓系数表, 将最优 K 聚类保存并生成图形,如图2-2-16~图 2-2-18 所示Toolbar Image
Image
Image
Image
Image