三、建设思路
为了解决业务和系统两大方面的痛点,提升数据处理效率,提高数据服务决策的水平,H 航空将原有的数据中心一分为二,建成了客户产品数据中心和生产运行数据中心两大体系,每个数据中心都由实时交易数据库和分析型数据仓库共同组成,如附图 5 所示。
附图 5 数据中心的组成
这两大数据中心的数据来源主要有两个:一是内部数据,包括内部应用系统数据[结算数据库 HABO 系统、销售管理系统及企业客户信息工厂(ECIF)等]和中航信实时数据(Passenger Service System,PSS);二是外部数据,包括行业内数据(如交通、旅游等)、行业外数据(如金融、电信等)和物联网数据(如社交媒体、电商、门户等)。通过搭建数据仓库 Hadoop 平台、SOA 组件管理平台等措施,H 航空建立了操作性数据中心,用以进行实时数据处理,实现总体运营情况、变动成本实时计算、智能仓位控制决策支持以及基于个体旅客的精准营销等全方位应用,为真正达到“精准、精致、精细”的服务提供了基础保障。
经过反复论证,H 航空最终决定与 IBM 公司合作,引入流数据(指数据实时产生、实时处理)处理平台,实现实时数据处理,确保从中航信获取的座位库存(INV)、旅客订座(PNR)、旅客出票(TKT)、离港控制系统(DCS)以及航班计划(SCH)五种类型的数据,通过 InfoSphere Streams 的处理,就能变成结构化数据,随时发送给业务部门,为业务部门的营销方式、定价策略、客户服务等提供数据参考。附图 6 为 InfoSphere Streams 实时数据处理平台的架构。
附图 6 InfoSphere Streams 实时数据处理平台的架构
InfoSphere Streams 实时数据处理平台具有以下技术特性:
(1)不仅能够轻松地处理结构、非结构化或者是半结构化的数据,而且还能同时对这些数据进行深入分析。
(2)提供了大量丰富的算法模型,同时能够将第三方的算法嵌入其中,能够保证拥有自主开发能力的企业顺畅地接入自身的算法。
(3)能够对接任意系统,可以实现和客户业务逻辑的链接,同样也可以实现消息队列的对接、数据库的对接,或者 Hadoop 平台的对接等。
(4)具有高度的可扩展性,能够通过增加节点或是增加服务器等线性扩展方式应对持续增长的数据量,同时在响应上也将延迟控制在微秒或是毫秒级别。
H 航空在搭建大数据平台的同时,还创建了 H 航数据实验室。该实验室拥有一个由业务专家、统计学家和软件工程师组成的“数据专家小组”,既关注实验室倡导数据价值的发现与分享,同时更关注数据探索所带来的经济效益,团队成员之间相互学习、协同合作,发挥各自的业务和技术优势,共同解决业务上的难点问题。