一、算法概述
关联规则(association rules)是反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。
人们在日常生活中,常常被关联规则所“推荐”。比如你在某音乐网站听到一首歌,网站会自动为你推荐同风格的歌曲。甚至在各种短视频网站,你在某种类型的短视频停留时间越长,你就会越频繁地“刷”到同一类型的视频。
关联规则通过发现顾客放入其购物篮中的不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。可从数据库中关联分析出形如“由于某些事件的发生而引起另外一些事件的发生”之类的规则。
关联规则常见的是购物篮分析,由购物篮我们可以以最直观的方式引导出一些最基本的概念。表 2-5-1 是五名顾客在超市购物的清单汇总。
表 2-5-1 五名顾客的购物清单
依据表 2-5-1,有如下几个概念需要说明:
项目:英文表示为 Item(I),是指某个单个的事务,如表中的商品面包、牛奶、啤酒等。
事项:英文表示为 Transaction(T),是指某一条记录,是所有项目的非空子集,如表中每条记录都是一次交易事项。
项集:英文表示为 Itemset,是指某几个项目的集合,通常用{}进行标注,如{牛奶,尿布,啤酒}。
关联规则:英文表示为 Association rule,通常表示为{X}→{Y},{X}叫前件,{Y}叫后件。
