二、 大数据分析流程

大数据分析是指对规模巨大的数据进行分析。大数据可以概括为5个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)。 数据分析即从数据、信息到知识的过程,数据分析需要数学理论、行业经验以及计算机工具三者结合 (1)数据分析工具:各种厂商开发了数据分析的工具、模块,将分析模型封装,使不了解技术的人也能够快捷地实现数学建模,快速响应分析需求。 (2)传统分析:在数据量较少时,传统的数据分析已能够发现数据中包含的知识,包括结构分析、杜邦分析等模型,方法成熟,应用广泛。 (3)常规分析:揭示数据之间的静态关系;分析过程滞后;对数据质量要求高。 随着计算机科学的进步,数据挖掘、商务智能、大数据等概念的出现,数据分析的手段和方法更加丰富。 (4)数据挖掘:就是充分利用了统计学和人工智能技术的应用程序,并把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。同时将统计学和计算机技术等多学科进行结合,揭示数据之间隐藏的关系 将数据分析的范围从“已知”扩展到“未知”,从“过去”推向“将来”。 (5)商务智能:一系列以事实为支持,辅助商业决策的技术和方法,曾用名包括专家系统、智能决策等,一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成对数据分析的体系化管理,数据分析的主体依然是数据挖掘。 (6)大数据技术:从多种类型的数据中,快速获取知识的能力及数据挖掘技术的衍生。 (7)数据可视化:大数据时代,展示数据可以更好辅助理解数据、演绎数据。

(一)数据分析标准流程

CRISP-DM为90年代由SIG组织提出,目前是被业界广泛认可的数据分析流程。 (1)业务理解(business understanding):确定目标、明确分析需求。 (2)数据理解(data understanding) :收集原始数据、描述数据、探索数据、检验数据质量。 (3)数据准备(data preparation):选择数据、清洗数据、构造数据、整合数据、格式化数据。 (4)建立模型(modeling):选择建模技术、参数调优、生成测试计划、构建模型。 (5)评估模型(evaluation):对模型进行较为全面的评价,评价结果、重审过程。 (6)部署(deployment):分析结果应用。 数据分析的标准流程可以由以下两个框架图(图1-1-4,图1-1-5)予以说明:
[center]图1-1-4数据分析标准流程图[/center]

图1-1-4数据分析标准流程图

[center]图1-1-5数据分析标准流程框架图[/center]

图1-1-5数据分析标准流程框架图

(二)数据分析标准流程的案例解析

案例:农夫山泉用大数据卖矿泉水 业务背景:告诉人们这是一家什么样的企业,业务活动主要有哪些?同时描述业务的主要瓶颈及困惑是什么? 这里是上海城乡结合部九亭镇新华都超市的一个角落,农夫山泉的矿泉水堆头静静地摆放在这里。来自农夫山泉的业务员每天例行公事地来到这个点,拍摄10张照片:水怎么摆放、位置有什么变化、高度如何……,这样的点每个业务员一天要跑15个,按照规定,下班之前150张照片就被传回了杭州总部。每个业务员,每天会产生的数据量在10M,这似乎并不是个大数字。 但农夫山泉全国有10000个业务员,这样每天的数据就是100G,每月为3TB。当这些图片如雪片般进入农夫山泉在杭州的机房时,这家公司的CIO胡健就会有这么一种感觉:守着一座金山,却不知道从哪里挖下第一锹。 胡健想知道的问题包括:怎样摆放水堆更能促进销售?什么年龄的消费者在水堆前停留更久,他们一次购买的量多大?气温的变化让购买行为发生了哪些改变?竞争对手的新包装对销售产生了怎样的影响?不少问题目前也可以回答,但它们更多是基于经验,而不是基于数据。 从2008年开始,业务员拍摄的照片就这么被收集起来,如果按照数据的属性来分类,“图片”属于典型的非关系型数据,还包括视频、音频等。要系统地对非关系型数据进行分析是胡健设想的下一步计划,这是农夫山泉在“大数据时代”必须迈出的步骤。如果超市、金融公司与农夫山泉有某种渠道来分享信息,如果类似图像、视频和音频资料可以系统分析,如果人的位置有更多的方式可以被监测到,那么摊开在胡健面前的就是一幅基于人消费行为的画卷,而描绘画卷的是一组组复杂的“0、1、1、0”。 SAP全球执行副总裁、中国研究院院长孙小群接受《中国企业家》采访时表示,企业对于数据的挖掘使用分三个阶段,“一开始是把数据变得透明,让大家看到数据,能够看到数据越来越多;第二步是可以提问题,可以形成互动,很多支持的工具来帮我们做出实时分析;而 3.0时代,信息流来指导物流和资金流,现在数据要告诉我们未来,告诉我们往什么地方走。” 业务理解:将业务的瓶颈及困惑进一步凝练及具体化,能够清晰描述要解决的主要问题是什么。在本案例中,聚焦形成的主要问题是“如何根据不同的变量因素来控制自己的物流成本”。 SAP从2003年开始与农夫山泉在企业管理软件ERP方面进行合作。彼时,农夫山泉仅仅是一个软件采购和使用者,而SAP还是服务商的角色。而等到2011年6月,SAP和农夫山泉开始共同开发基于“饮用水”这个产业形态中,运输环境的数据场景。 关于运输的数据场景到底有多重要呢?将自己定位成“大自然搬运工”的农夫山泉,在全国有十多个水源地。农夫山泉把水灌装、配送、上架,一瓶超市售价2元的550ml饮用水,其中3毛钱花在了运输上。在农夫山泉内部,有着“搬上搬下,银子哗哗”的说法。如何根据不同的变量因素来控制自己的物流成本,成为问题的核心。 数据理解:如果说业务理解是用文字描述需要解决的问题,那数据理解就是用数学思维或算法原理来描述需要解决的问题。在本案例中,在业务理解的基础上,转换出来的数据理解是:首先这是一个预测问题,所应用的预测模型的数据输入端是生产和销售链条上的所有数据,输出的是总成本最优化。 在没有数据实时支撑时,农夫山泉在物流领域花了很多冤枉钱。比如某个小品相的产品(350ml饮用水),在某个城市的销量预测不到位时,公司以往通常的做法是通过大区间的调运,来弥补终端货源的不足。“华北往华南运,运到半道的时候,发现华东实际有富余,从华东调运更便宜。但很快发现对华南的预测有偏差,华北短缺更为严重,华东开始往华北运。此时如果太湖突发一次污染事件,很可能华东又出现短缺。” 这种没头苍蝇的状况让农夫山泉头疼不已。在采购、仓储、配送这条线上,农夫山泉特别希望大数据获取解决三个顽症:首先是解决生产和销售的不平衡,准确获知该产品缺多少,送多少;其次,让400 家办事处、30个配送中心能够纳入到体系中来,形成一个动态网状结构,而非简单的树状结构;最后,让退货、残次等问题与生产基地能够实时连接起来。 也就是说,销售的最前端成为一个个神经末梢,它的任何一个痛点,在大脑这里都能快速感知到。 数据准备:将问题从文字描述转换成数学描述后,接下来就是收集各种数据源,并进行数据集的归一化处理,或对异常值及缺失值进行处理,以保证数据的有效性。 基于上述场景,SAP团队和农夫山泉团队开始了场景开发,他们将很多数据纳入了进来,包括高速公路的收费、道路等级、天气、配送中心辐射半径、季节性变化、不同市场的售价、不同渠道的费用、各地的人力成本、甚至突发性的需求(比如某城市召开一次大型运动会)。 “日常运营中,我们会产生销售、市场费用、物流、生产、财务等数据,这些数据都是通过工具定时抽取到SAP BW或Oracle DM,再通过Business Object展现。”胡健表示,这个“展现”的过程长达24小时,也就是说,在24小时后,物流、资金流和信息流才能汇聚到一起,彼此关联形成一份有价值 的统计报告。当农夫山泉的每月数据积累达到3TB时,这样的速度导致农夫山泉每个月财务结算都要推迟一天。更重要的是,胡健等农夫山泉的决策者们只能依靠 数据来验证以往的决策是否正确,或者对已出现的问题做出纠正,仍旧无法预测未来。 建立模型:本案例是通过成熟的大数据应用平台将数据和算法进行整合,形成整体解决方案。在实际解决问题时,往往要应用不同的算法进行测试,并选择应用场景最合理或结论性状最优的模型算法,比如应用于预测的算法有各种时间序列算法或朴素贝叶斯、支持向量机、决策树等。 2011年,SAP推出了创新性的数据库平台SAP Hana,农夫山泉则成为全球第三个、亚洲第一个上线该系统的企业,并在当年9月宣布系统对接成功。 胡健选择SAP Hana的目的只有一个,快些,再快些。采用SAP Hana后,同等数据量的计算速度从过去的24小时缩短到了0.67秒,几乎可以做到实时计算结果,这让很多不可能的事情变为了可能。 这些基于饮用水行业实际情况反映到孙小群这里时,这位SAP全球研发的主要负责人非常兴奋。基于饮用水的场景,SAP并非没有案例,雀巢就是SAP在全 球范围长期的合作伙伴。但是,欧美发达市场的整个数据采集、梳理、报告已经相当成熟,上百年的运营经验让这些企业已经能从容面对任何突发状况,他们对新数 据解决方案的渴求甚至还不如中国本土公司强烈。   模型评估:通过测试集的输入来对算法的稳定性及可靠性进行评估,从而形成商业模型。 这对农夫山泉董事长钟总而言,精准的管控物流成本将不再局限于已有的项目,也可以针对未来的项目。这位董事长将手指放在一台平板电脑显示的中国地图上,随着手指的移动,建立一个物流配送中心的成本随之显示出来。数据在不断飞快地变化,好像手指移动产生的数字涟漪。 以往,钟总的执行团队也许要经过长期的考察、论证,再形成一份报告提交给董事长,给他几个备选方案,到底设在哪座城市,还要凭借经验来再做判断。但现在,起码从成本方面已经一览无遗。剩下的可能是当地政府与农夫山泉的友好程度,这些无法测量的因素。 应用:将实际数据集或即时发生的数据集连入模型,产生有价值的数据产品。 有了强大的数据分析能力做支持后,农夫山泉近年以30%-40%的年增长率,在饮用水方面快速超越了原先的三甲:娃哈哈、乐百氏和可口可乐。根据国家统计局公布的数据,饮用水领域的市场份额,农夫山泉、康师傅、娃哈哈、可口可乐的冰露,分别为34.8%、16.1%、14.3%、4.7%,农夫山泉几乎是另外三家之和。对于胡健来说,下一步他希望那些业务员搜集来的图像、视频资料可以被利用起来。 获益的不仅仅是农夫山泉,在农夫山泉场景中积累的经验,SAP迅速将其复制到神州租车身上。“我们客户的车辆使用率在达到一定百分比之后出现瓶颈,这意味着还有相当比率的车辆处于空置状态,资源尚有优化空间。通过合作创新,我们用SAP Hana为他们特制了一个算法,优化租用流程,帮助他们打破瓶颈,将车辆使用率再次提高了15%。”