一、数据挖掘

(一)数据挖掘的定义 数据挖掘(data mining)是指通过大量数据集进行分类的自动化过程,以通过数据分析来识别趋势和模式,建立关系来解决业务问题。换句话说,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 (二)与数据分析的区别 数据分析和数据挖掘都是从数据库中发现知识,所以我们都称数据分析和数据挖掘为数据库中的知识发现。严格来讲,数据挖掘才是真正意义上的数据库中的知识发现(KnowledgeDiscovery in Database,KDD)。数据分析是从数据库中通过统计、计算、抽样等相关方法,取基于数据表象的知识,数据分析是从数据库里面得到一些表象性的信息。数据挖掘是从数据库中通过机器学习或者是通过数学算法等相关方法获取深层次的知识(如属性之间的规律性,或者是预测)的技术。 (三)数据挖掘的利弊 数据挖掘可以应用于任何类型的信息存储库及瞬态数据(如数据流),如数据库、数据仓库、数据集、事务数据库、空间数据库(如地图等)、工程设计数据(如建筑设计等)、多媒 体数据(文本、图像、视频、音频)、网络、数据流、时间序列数据库等。也正因如此,数据 挖掘存在以下特点: (1)数据集大且不完整。数据挖掘所需要的数据集是很大的,只有数据集越大,得到的 规律才能越贴近于正确的实际规律,结果也才越准确。除此以外,数据往往都是不完整的。 (2)数据的不准确性。数据挖掘存在不准确性,主要是由噪声数据造成的。比如在商业中用户可能提供假数据;在工厂环境中,正常的数据往往会受到电磁或者辐射干扰,而出现超出正常值的情况。这些不正常的绝对不可能出现的数据,就叫作噪声,它们会导致数据挖掘存在不准确性。 (3)数据的模糊性和随机性。数据挖掘是模糊的和随机的。这里的模糊可以和不准确性相关联。由于数据不准确导致只能在大体上对数据进行一个整体的观察,或者由于涉及隐私信息无法获知到具体的一些内容,此时如果想要做相关分析操作,就只能在大体上做一些分析,无法精确进行判断。而数据的随机性有两个解释:一个是获取的数据随机,我们无法得知用户填写的到底是什么内容;二是分析结果随机,数据交给机器进行判断和学习,那么一切操作都属于是黑箱操作。由此可以看出,数据挖掘这个强大的工具是利弊共存的,在合适的时机使用,方能事半功倍。