三、数据挖掘的目的
数据挖掘的两大基本目的是预测和描述数据,其中前者的计算机建模及实现过程通常被称为监督学习(supervised learning),后者则通常被称为无监督学习(supervised learning)。
(一)预测数据
预测性挖掘任务对当前数据进行推断,以做出预测。预测主要包括:分类——将样本划分到几个预定义类之一;回归——将样本映射到一个真实值预测变量上。也就是说,给了一定的目标属性,去预测目标的另外特定属性。如果该属性是离散的,通常称之为“分类”,而如果目标属性是一个连续的值,则称之为“回归”。
(二)描述数据
描述性挖掘任务是描述数据库中数据的一般性质。描述主要包括:聚类——将样本划分为不同类(无预定义类);关联规则发现——发现数据集中不同特征的相关性。这是指找出数据间潜在的关联模式。比方说两个数据存在强关联的关系,像大数据分析发现的一个特点:买尿布的男性通常也会买点啤酒,那么商家根据这个行为可以将这两种商品打包出售来提高业绩。另外一个非常重要的方法就是聚类分析,这也是在日常数据挖掘中应用较为频繁的一种分析,旨在发现紧密相关的观测值组群,可以在没有标签的情况下将所有数据分为合适的几类来进行分析或者降维。其他的描述任务还有异常检测,其过程类似于聚类的反过程,聚类将相似的数据聚合在一起,而异常检测是将离群太远的点给剔除出来。